CN113159091A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113159091A
CN113159091A CN202110078164.6A CN202110078164A CN113159091A CN 113159091 A CN113159091 A CN 113159091A CN 202110078164 A CN202110078164 A CN 202110078164A CN 113159091 A CN113159091 A CN 113159091A
Authority
CN
China
Prior art keywords
data
operator
micro
subdata
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110078164.6A
Other languages
English (en)
Other versions
CN113159091B (zh
Inventor
王震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110078164.6A priority Critical patent/CN113159091B/zh
Publication of CN113159091A publication Critical patent/CN113159091A/zh
Priority to US17/577,668 priority patent/US11822568B2/en
Priority to EP22152159.4A priority patent/EP4012564A1/en
Application granted granted Critical
Publication of CN113159091B publication Critical patent/CN113159091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/219Managing data history or versioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开公开了数据处理方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及深度学习、计算机视觉、云计算、大数据处理等人工智能技术领域,可用于图像处理场景下。具体实现方案:获取目标数据;采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据;采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,其中,每个第二微服务与一个类型的子数据对应;以及融合多个数据处理结果,以得到目标数据处理结果,能够有效提升微服务在数据处理过程中的融合适配性能,有效地提升数据处理效率,提升数据处理效果。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体涉及深度学习、计算机视觉、云计算、大数据处理等人工智能技术领域,尤其涉及数据处理方法、装置、电子设备及存储介质。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术,以及机器学习、深度学习、大数据处理技术、知识图谱技术等几大方向。
研发人员通常基于人工智能框架开展相关工作。算子是人工智能框架中的基本计算单元,对人工智能的模型训练、预测和部署等都有着重要影响。而采用人工智能模型处理数据,比如,采用流式处理方式、有向无环图(Directed acyclic graph,DAG)分布式技术,或者微服务化方式处理音视频数据,已成为数据处理发展的研究热点。
发明内容
提供了一种数据处理方法、装置、电子设备、存储介质及计算机程序产品。
根据第一方面,提供了一种数据处理方法,包括:获取目标数据;采用第一微服务对所述目标数据进行数据划分,以得到多种类型的子数据;采用多个第二微服务分别处理对应类型的所述子数据,以得到与所述第二微服务分别对应的多个数据处理结果,其中,每个所述第二微服务与一个类型的所述子数据对应;以及融合所述多个数据处理结果,以得到目标数据处理结果。
根据第二方面,提供了一种数据处理装置,包括:获取模块,用于获取目标数据;预处理模块,用于采用第一微服务对所述目标数据进行数据划分,以得到多种类型的子数据;运算模块,用于采用多个第二微服务分别处理对应类型的所述子数据,以得到与所述第二微服务分别对应的多个数据处理结果,其中,每个所述第二微服务与一个类型的所述子数据对应;以及融合模块,用于融合所述多个数据处理结果,以得到目标数据处理结果。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例的数据处理方法。
根据第四方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开实施例公开的数据处理方法。
根据第五方面,提出了一种计算机程序产品,包括计算机程序,当所述计算机程序由处理器执行时实现本公开实施例公开的数据处理方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是本公开实施例中数据处理方法的应用示意图;
图4是根据本公开第三实施例的示意图;
图5是根据本公开第四实施例的示意图;
图6是根据本公开第五实施例的示意图;
图7是用来实现本公开实施例的数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开第一实施例的示意图。
其中,需要说明的是,本实施例的数据处理方法的执行主体为数据处理装置,该装置可以由软件和/或硬件的方式实现,该装置可以配置在电子设备中,电子设备可以包括但不限于终端、服务器端等。
本公开实施例涉及深度学习、计算机视觉、云计算、大数据处理等人工智能技术领域,可用于图像处理场景下。
其中,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
而计算机视觉,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
云计算(Cloud Computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
而大数据处理,是指采用人工智能的方式对规模巨大的数据进行分析以及处理的过程,而大数据可以概括为5个V,数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)。
如图1所示,该数据处理方法包括:
S101:获取目标数据。
其中,目标数据可以是待处理的数据,目标数据比如一段视频,一段音频,一份文档,或者也可以为其它任意可能类型的数据。
本公开实施例中,可以配置数据处理装置,以使其向用户提供数据录入接口,而后基于该数据录入接口接收用户录入的视频数据并作为目标数据,或者,也可以接收用户输入的一段文本,并将该文本处理为对应的文档,从而将文档作为目标数据,或者,也可以接收其它电子设备发送的待处理的数据作为目标数据。
为了更好的描述本公开实施例中数据处理的实现方法和实现效果,可以以目标数据为海量的视频数据进行示例,对此不做限制。
本公开实施例中,比如还可以从共享物理或虚拟资源池之中获取海量的视频数据,并作为目标数据,也即是说,本公开实施例中支持对海量的视频数据进行数据处理,当海量的视频数据用于训练人工智能模型(人工智能模型例如,深度学习模型或者机器学习模型,对此不做限制)时,数据量通常较大,此时,可以直接从共享物理或虚拟资源池之中获取海量的视频数据,并作为目标数据。
S102:采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据。
其中,微服务(或微服务架构)是一种云原生架构方法,其中单个应用程序由许多松散耦合且可独立部署的较小组件或服务组成,该服务通常有相应的堆栈,包括数据库和数据模型,通过事件流和消息代理的组合相互通信,组件和服务通常可以依据业务能力组织,分隔服务的线通常称为有界上下文。
其中,用于对目标数据进行预处理,以进行数据划分的微服务,可以被称为第一微服务。
该第一微服务,可以是对一些数据预处理算法进行微服务化得到的,或者,也可以是软件开发人员直接根据数据预处理的需求开发得到的,又或者,可以是采用一些微服务的生成模型所生成的,对此不做限制。
相对应的,用于对目标数据进行后续的算法处理(比如目标识别、人脸检测等)的微服务,可以被称为第二微服务。
该第二微服务,也可以是对一些数据的算法处理逻辑进行微服务化得到的,或者,也可以是软件开发人员直接根据数据处理的需求开发得到的,又或者,可以是采用一些微服务的生成模型所生成的,对此不做限制。
本公开实施例中的“第一”“第二”是用于对字段的区分,而并不作为对本公开实施例可能实施方式的限制。
本公开实施例中,该第一微服务是对人工智能模型中的第一算子进行微服务化处理得到的,该第一算子即可以是人工智能模型中能够对数据进行预处理的算子,第二微服务是对人工智能模型中的第二算子进行微服务化处理得到的,第一算子和第二算子不相同,实现以微服务化的形式将人工智能模型中的算法处理逻辑融合到数据处理过程中,能够实现对人工智能模型算子的微服务化复用,从而有效地提升数据处理的准确性和处理效率。
上述的人工智能模型,可以例如为机器学习模型、神经网络模型等,对此不做限制。
针对上述的一些概念说明如下:
本公开实施例中的微服务化,可以是将人工智能模型中的算子对应的处理功能改造为对应的微服务,本公开实施例中,第一微服务是对人工智能模型中的第一算子进行微服务化处理得到的,第二微服务是对人工智能模型中的第二算子进行微服务化处理得到的,第一算子和第二算子不相同。
其中,算子是人工智能框架中的基本计算单元,对人工智能的模型训练、预测和部署等都有着重要影响。
算子的定义可以举例如下:
主要由三部分组成:输入(Inputs)、输出(Outputs)、属性(Attributes)。一个算子可以同时拥有多个输入、输出和属性。
其中的第一算子和第二算子是人工智能模型中不相同的算子,比如,可以具体是算子功能不相同、运算处理逻辑不相同等。
可以理解的是,当将人工智能模型中的第一算子进行微服务化处理得到第一微服务之后,可以使得第一微服务具备了与第一算子相同的算法处理逻辑,相应地,当将人工智能模型中的第二算子进行微服务化处理得到第二微服务之后,可以使得第二微服务具备了与第二算子相同的算法处理逻辑。
本公开实施例中,第一算子,是人工智能模型中用于数据预处理的算子,第二算子,是人工智能模型中用于对预处理后的数据进行算法处理的算子,也即是说,将人工智能模型之中数据预处理的算子进行“剥离”,得到第一算子,并将人工智能模型之中对预处理后的数据进行算法处理的算子进行“剥离”,得到第二算子。
上述的数据预处理,可以例如对目标数据进行去噪、过滤、分类、添加标签等,而上述的对预处理后的数据进行算法处理,可以具体例如对去噪、过滤、分类、添加标签等预处理后的目标数据进行人脸识别、人体识别、OCR(Optical Character Recognition,光学字符识别)等,对此不做限制。
也即是说,本公开实施例中,将人工智能模型之中数据预处理的算子进行“剥离”,得到第一算子,并将人工智能模型之中对预处理后的数据进行算法处理的算子也进行“剥离”,得到第二算子,实现了对人工智能模型之中数据预处理和对数据进行算法处理的算子进行“剥离”处理,使得由此拆分的算子对应的处理逻辑,即可有效地适配云计算,分布式、内存共享等大数据处理技术,在数据处理过程中,可以动态地根据数据处理的需求对具有各种算法功能的算子进行高效地融合配置,有效提升人工智能模型中算子的适配性,并且在实现对人工智能模型算子的微服务化复用的同时,便于辅助海量的目标数据的并行运算,有效地提升整体的大数据处理效率。
基于上述对第一微服务和第二微服务的解释说明,本公开实施例中,在采用目标数据训练人工智能模型,以处理目标数据的过程中,可以直接加载预先微服务化得到的第一微服务对目标数据进行数据划分,以得到多种类型的子数据。
其中,类型可以具体是音频类型、图像类型、文本类型等,对此不做限制。
举例而言,假设目标数据是海量的视频数据,则采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据,可以具体是从各个视频数据当中拆分出音频类型的语音数据,图像类型的图片数据,或者文本类型的文本数据等,语音数据比如视频数据当中的一段语音,图片数据比如对视频画面转换为相应的图像帧,各帧图像帧对应的图片,文本数据可以具体是视频数据当中包含的文本等,对此不做限制。
又例如,假设目标数据是海量的文档数据,则采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据,可以具体是从各个文档数据当中拆分出图片,文本等,对此不做限制。
上述从各个视频数据当中拆分出音频类型的语音数据,图像类型的图片数据,或者文本类型的文本数据等,可以被称为子数据。
上述采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据之后,可以触发后续步骤。
S103:采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,其中,每个第二微服务与一个类型的子数据对应。
当采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据之后,可以加载预先微服务化得到的多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果。
其中,由于第二微服务,是与对预处理后的数据进行算法处理的第二算子进行微服务化得到的,而对预处理后的数据进行算法处理,可以具体例如对预处理后的目标数据进行人脸识别、人体识别、OCR(Optical Character Recognition,光学字符识别)等,则本公开实施例中,不同的第二微服务具有不同的算法处理逻辑,不同的算法处理逻辑能够适应处理对应类型的子数据。
举例而言,可以采用针对音频数据的算法处理逻辑的第二微服务处理音频数据,采用针对图像数据的算法处理逻辑的第二微服务处理图像数据,而采用针对文本数据的算法处理逻辑的第二微服务处理文本数据,对此不做限制。
本公开实施例中,在实际应用的过程中,第二微服务对应的算法处理逻辑不限于上述,还可以是其它任意可能的算法处理逻辑,比如对视频数据进行分类推理、分类识别,对视频数据当中的目标对象进行识别等,另外,第二微服务还可以是可定制化的,即,可以根据实际数据处理的需求自适应地加载预先微服务化得到的各种第二微服务,对此不做限制。
上述在采用多个第二微服务分别处理对应类型的子数据时,可以具体是采用多个第二微服务,基于并行数据处理的方式分别处理对应类型的子数据,从而能够提升整体的数据处理效率。
S104:融合多个数据处理结果,以得到目标数据处理结果。
上述在采用多个第二微服务分别处理对应类型的子数据,可以得到与各个第二微服务分别对应的数据处理结果。
数据处理结果例如,分类推理结果、分类识别结果、人脸检测结果等。
而后,可以融合多个数据处理结果,以得到目标数据处理结果,例如,可以以加权融合的方式融合上述的分类推理结果、分类识别结果、人脸检测结果,或者,也可以将分类推理结果、分类识别结果、人脸检测结果输入至预先训练的融合模型中,以采用该融合模型来对分类推理结果、分类识别结果、人脸检测结果进行融合,并将融合得到的结果作为目标数据处理结果。
举例而言,数据处理结果是,分类推理结果、分类识别结果、人脸检测结果等,则相应的,目标数据处理结果,可以是与视频数据的分类标签,该分类标签,可以具体是根据分类推理结果、分类识别结果,结合人脸检测结果等匹配得到的,对此不做限制。
上述在融合多个数据处理结果,以得到目标数据处理结果之后,可以将数据处理结果直接提供至外部设备,或者播放视频数据的应用程序中,以供后续使用。
本实施例中,通过获取目标数据,采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据,并采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,以及融合多个数据处理结果,以得到目标数据处理结果,由于是对具有各种算法功能的微服务进行高效地融合配置,并实现对目标数据进行针对性的数据处理,以得到相应的数据处理结果,以及对各个数据处理结果进行融合,从而能够有效提升微服务在数据处理过程中的融合适配性能,有效地提升数据处理效率,提升数据处理效果。
图2是根据本公开第二实施例的示意图。
如图2所示,该数据处理方法包括:
S201:获取目标数据。
S201的说明可以具体参见上述实施例,在此不再赘述。
S202:对目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据。
上述在获取目标数据之后,可以首先对目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据,该无效数据可以具体是目标数据之中的噪声数据,或者质量较低的数据,比如可以预先采用去噪算法对应的微服务处理目标数据,以将目标数据之中的无效数据进行过滤处理,或者,也可以预先赋予第一微服务对数据进行去噪处理的功能,从而直接采用第一微服务对目标数据之中的无效数据进行过滤处理,以及将过滤了无效数据之后,剩余的目标数据作为第一数据,对此不做限制。
S203:采用第一微服务对第一数据进行数据划分,以得到多种类型的子数据。
上述在对目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据,可以直接采用第一微服务对第一数据进行数据划分,以得到多种类型的子数据。
本实施例中,由于是预先对目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据,从而加载第二微服务以直接处理第一数据,能够有效提升数据处理的准确性。
S204:采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,其中,每个第二微服务与一个类型的子数据对应。
S205:融合多个数据处理结果,以得到目标数据处理结果。
S204-S205的说明可以具体参见上述实施例,在此不再赘述。
本实施例给出了一个数据处理方法的具体应用示例,如图3所示,图3是本公开实施例中数据处理方法的应用示意图,其中,输入的目标数据可以是海量的视频数据,也可以是支持实时消息传输协议(Real Time Messaging Protocol,RTMP)直播形式的视频流,可以调用第一微服务对视频数据或者视频流进行视频解码、转换,将视频数据或者视频流处理为图片数据、音频数据,而后,将图片数据、音频数据转换为后续步骤需求的数据格式,触发加载第二微服务提供的推理服务(具体例如,分类推理、人脸识别、人体识别、OCR(Optical Character Recognition,光学字符识别)),或者,也可以加载任意其它可能的自定义微服务,从而得到与各个第二微服务对应的数据处理结果(比如,采用人脸识别得到的),而后,融合多个数据处理结果,以得到目标数据处理结果,并输出目标数据处理结果,例如,带有标签(人体行为、人物名字)等特征的视频流。
本实施例中,通过获取目标数据,采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据,并采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,以及融合多个数据处理结果,以得到目标数据处理结果,由于是对具有各种算法功能的微服务进行高效地融合配置,并实现对目标数据进行针对性的数据处理,以得到相应的数据处理结果,以及对各个数据处理结果进行融合,从而能够有效提升微服务在数据处理过程中的融合适配性能,有效地提升数据处理效率,提升数据处理效果。由于是预先对目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据,从而加载第二微服务以直接处理第一数据,能够有效提升数据处理的准确性。
图4是根据本公开第三实施例的示意图。
如图4所示,该数据处理方法包括:
S401:获取目标数据。
S402:采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据。
S401-S402的描述说明,可以具体参见上述实施例,在此不再赘述。
S403:根据子数据的类型,对与其对应的子数据添加类型标签。
也即是说,本公开实施例中,在采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据之后,可以根据类型生成相应的类型标签,并采用该类型标签对相应类型的子数据进行标记。
本公开实施例中,根据子数据的类型,对与其对应的子数据添加类型标签,是为了辅助后续将多种类型的子数据处理为数据矩阵。
举例而言,如果从各个视频数据当中拆分出音频类型的语音数据,图像类型的图片数据,或者文本类型的文本数据,则可以针对语音数据添加音频类型标签,针对图片数据添加图像类型标签,针对文本数据添加文本类型标签。
S404:根据类型标签,将多种类型的子数据处理为数据矩阵,其中,数据矩阵之中包括:子数据,和与子数据对应的类型标签。
上述在根据子数据的类型,对与其对应的子数据添加类型标签之后,可以是根据类型标签,将多种类型的子数据处理为数据矩阵。
该数据矩阵可以理解为一个共享矩阵形态的数据集合,其中,共享矩阵形态,是借鉴线性代数矩阵理论,在数学中,矩阵是一个按照长方阵列排列的数据集合,相当于对数据的一种规范,基于该共享矩阵形态的数据集合,可以辅助数据处理的高效运算、转换、变换等操作。
在本实施例中,根据类型标签,将多种类型的子数据处理为数据矩阵,即把各类型的子数据作为一个共享矩阵形态的数据集合里的“数据单元”,而这些不同类型的“数据单元”组成一个数据矩阵,则对于数据矩阵的一系列的后续数据处理算法,可以直接应用到该数据矩阵上,使得微服务对应的代码层面,直接实现针对“数据单元”的原子操作即可。
上述根据类型标签,将多种类型的子数据处理为数据矩阵,使得数据矩阵之中包括:子数据,和与子数据对应的类型标签,该类型标签,可以被用于后续执行数据处理任务时,从数据矩阵中快速定位相应类型的子数据。
本实施例中,在根据类型标签,将多种类型的子数据处理为数据矩阵之后,还可以对数据矩阵进行备份处理,以得到多个备份数据矩阵;将多个备份数据矩阵存储至数据处理设备对应的共享内存之中。
假设本公开实施例中多个第二微服务部署在不同的分布式的数据处理设备中,则各个分布式布置的数据处理设备可以具有同一个共享内存,当将多种类型的子数据处理为数据矩阵之后,可以生成对应的多个备份数据矩阵(备份数据矩阵,可以是与数据矩阵具有相同或者相应的数据结构、数据内容的数据矩阵),而后,可以支持各个数据处理设备从共享内存之中获取备份数据矩阵以进行相应的数据运算处理。
也即是说,本实施例中,通过对数据矩阵进行备份处理,以得到多个备份数据矩阵,将多个备份数据矩阵存储至数据处理设备对应的共享内存之中,使得数据处理方法能够有效地适配分布式数据处理的应用场景中,支持数据矩阵的横向备份扩展,通过生成多份冗余的共享的备份数据矩阵,能够有效地避免对目标数据进行重复的预处理的过程,有效节约数据处理的时间,并且在后续数据加载和读取过程中也能利用多备份优势,实现数据的快速加载。
S405:确定与数据处理任务对应的多个候选算子标识。
也即是说,在执行数据处理任务时,与各种候选的数据处理算法逻辑对应的算子,可以被称为候选算子,而多个第二算子,可以是多个候选算子之中的至少部分候选算子。
其中的候选算子标识,能够用于唯一标识相应的候选算子,例如,候选算子1对应候选算子标识1,候选算子2对应候选算子标识2,候选算子3对应候选算子标识3,则候选算子标识1用于唯一标识候选算子1,候选算子标识2用于唯一标识候选算子2,候选算子标识3用于唯一标识候选算子3,以此类推。
本实施例中,在加载第二微服务时,可以是加载上述多个候选算子之中的至少部分候选算子,并将加载的候选算子作为第二算子,以及加载第二算子对应的第二微服务,以执行相应的数据处理任务。
S406:采用各个候选算子标识对数据矩阵之中对应类型标签的子数据进行标记。
本实施例中,可以预先确定与数据处理任务对应的多个候选算子标识,并采用各个候选算子标识处理数据矩阵之中的各个子数据,将候选算子标识作为指针,标记相应类型的子数据。
可以理解的是,由于每个第二微服务与一个类型的子数据对应,而第二微服务是与第二算子具有相应的数据算法处理逻辑的,并且第二算子是从多个候选算子之中确定的,由此相应的候选算子标识也对应一种类型,以及对应一种类型标签。
则本实施例中,即可以在根据类型标签,将多种类型的子数据处理为数据矩阵,并且确定与数据处理任务对应的多个候选算子标识之后,采用各个候选算子标识处理数据矩阵之中的各个子数据,将候选算子标识作为指针,标记相应类型的子数据,从而实现对多种类型的子数据进行规范化处理,从而辅助在后续数据处理的过程中,能够快速地、高效地定位加载到相应类型的子数据。
可选地,在另外一些实施例中,也可以采用其它任意可能的方式组织多种类型的子数据,以生成相应形态的数据集合,对此不做限制。
S407:确定多个第二微服务分别对应的多个第二算子标识。
上述在根据类型标签,将多种类型的子数据处理为数据矩阵之后,在实际的数据处理过程中,直接可以基于第二微服务对应的第二算子标识,从数据矩阵之中确定出对应类型的子数据。
举例而言,假设数据矩阵中包括:子数据1、子数据2、子数据3、子数据4,相应的,针对各个子数据还标记了候选算子标识,比如,针对子数据1标记的候选算子标识1,针对子数据2标记的候选算子标识2,针对子数据3标记的候选算子标识3,当将候选算子标识对应标记至子数据时,能够表明可以采用该候选算子标识所对应的候选算子的算法处理逻辑处理该子数据,比如,针对图片数据,可以采用图像处理算法来处理,针对音频数据,可以采用语音编解码算法来处理。
S408:根据多个第二算子标识,分别从数据矩阵之中确定对应的候选算子标识。
上述在确定多个第二微服务分别对应的多个第二算子标识之后,可以根据多个第二算子标识,分别从数据矩阵之中确定与各个第二算子标识对应的候选算子标识,从而辅助后续基于匹配到的候选算子标识加载相应类型的子数据。
S409:采用多个第二微服务分别处理对应的候选算子标识所标记的子数据,以得到与第二微服务分别对应的多个数据处理结果。
本实施例中,可以首先确定多个第二微服务分别对应的多个第二算子标识,一个第二算子标识可以唯一用于标识与其对应的第二算子,假设第二算子标识为1,则数据矩阵中与其对应的是候选算子标识1,则可以从数据矩阵中加载和读取候选算子标识1所标记的子数据,假设第二算子标识为2,则数据矩阵中与其对应的是候选算子标识2,则可以从数据矩阵中加载和读取候选算子标识2所标记的子数据,以此类推。
由此,本实施例中,通过确定多个第二微服务分别对应的多个第二算子标识,并根据多个第二算子标识,分别从数据矩阵之中确定对应的候选算子标识,以及采用多个第二微服务分别处理对应的候选算子标识所标记的子数据,以得到与第二微服务分别对应的多个数据处理结果,能够有效地提升子数据加载和读取的效率,并兼顾微服务的适配性能和数据加载运行性能,保障整体数据处理的性能。
在本公开的另外一些实施例中,如果采用其它任意可能的方式组织多种类型的子数据,以生成相应形态的数据集合,则可以采用与相应的数据组织方式匹配的加载和读取方法,以加载和读取相应类型的子数据,对此不做限制。
S410:融合多个数据处理结果,以得到目标数据处理结果。
S410的描述说明,可以具体参见上述实施例,在此不再赘述。
在本公开的另外一些实施例中,还可以在数据处理的过程中,不对上述的目标数据、子数据,以及数据处理结果进行落地存储,该不落地存储的过程可解释为,在使用过相应的数据之后,即相应的删除数据,而实际上,不同的数据处理算法逻辑可使用同一份预处理过的备份数据矩阵,则删除数据也并不会影响其它算法处理逻辑的执行,从而能够较大程度地提升数据处理过程中各个环节的数据加载、传输、处理的时效性。
本实施例中,通过获取目标数据,采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据,并采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,以及融合多个数据处理结果,以得到目标数据处理结果,由于是对具有各种算法功能的微服务进行高效地融合配置,并实现对目标数据进行针对性的数据处理,以得到相应的数据处理结果,以及对各个数据处理结果进行融合,从而能够有效提升微服务在数据处理过程中的融合适配性能,有效地提升数据处理效率,提升数据处理效果。通过在根据类型标签,将多种类型的子数据处理为数据矩阵,并且确定与数据处理任务对应的多个候选算子标识之后,采用各个候选算子标识处理数据矩阵之中的各个子数据,将候选算子标识作为指针,标记相应类型的子数据,从而实现对多种类型的子数据进行规范化处理,从而辅助在后续数据处理的过程中,能够快速地、高效地定位加载到相应类型的子数据。通过确定多个第二微服务分别对应的多个第二算子标识,并根据多个第二算子标识,分别从数据矩阵之中确定对应的候选算子标识,以及采用多个第二微服务分别处理对应的候选算子标识所标记的子数据,以得到与第二微服务分别对应的多个数据处理结果,能够有效地提升子数据加载和读取的效率,并兼顾微服务的适配性能和数据加载运行性能,保障整体数据处理的性能。
图5是根据本公开第四实施例的示意图。
如图5所示,该数据处理装置50,包括:
获取模块501,用于获取目标数据。
预处理模块502,用于采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据。
运算模块503,用于采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,其中,每个第二微服务与一个类型的子数据对应。
融合模块504,用于融合多个数据处理结果,以得到目标数据处理结果。
可选地,在本公开的一些实施例中,第一微服务是对人工智能模型中的第一算子进行微服务化处理得到的,第二微服务是对人工智能模型中的第二算子进行微服务化处理得到的,第一算子和第二算子不相同。
可选地,在本公开的一些实施例中,其中,预处理模块502,具体用于:
对目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据,采用第一微服务对第一数据进行数据划分,以得到多种类型的子数据。
可选地,在本公开的一些实施例中,如图6所示,图6是根据本公开第五实施例的示意图,该数据处理装置60,包括:获取模块601、预处理模块602、运算模块603、融合模块604,该数据处理装置60,还可以包括:
添加模块605,用于根据子数据的类型,对与其对应的子数据添加类型标签。
处理模块606,用于根据类型标签,将多种类型的子数据处理为数据矩阵,其中,数据矩阵之中包括:子数据,和与子数据对应的类型标签。
确定模块607,用于确定与数据处理任务对应的多个候选算子标识。
标记模块608,用于采用各个候选算子标识对数据矩阵之中对应类型标签的子数据进行标记。
可选地,在本公开的一些实施例中,其中,运算模块603,具体用于:
确定多个第二微服务分别对应的多个第二算子标识;
根据多个第二算子标识,分别从数据矩阵之中确定对应的候选算子标识;以及
采用多个第二微服务分别处理对应的候选算子标识所标记的子数据,以得到与第二微服务分别对应的多个数据处理结果。
可选地,在本公开的一些实施例中,如图6所示,该数据处理装置60,还可以包括:
存储模块609,用于对数据矩阵进行备份处理,以得到多个备份数据矩阵,并将多个备份数据矩阵存储至数据处理设备对应的共享内存之中。
可选地,在本公开的一些实施例中,第一算子,是人工智能模型中用于数据预处理的算子,第二算子,是人工智能模型中用于对预处理后的数据进行算法处理的算子。
可以理解的是,本实施例中上述附图6中的数据处理装置60与上述实施例中的数据处理装置50,获取模块601与上述实施例中的获取模块501,预处理模块602与上述实施例中的预处理模块502,运算模块603与上述实施例中的运算模块503,融合模块604与上述实施例中的融合模块504,可以具有相同的功能和结构。
需要说明的是,前述对数据处理方法的解释说明也适用于本实施例的数据处理装置,此处不再赘述。
本实施例中,通过获取目标数据,采用第一微服务对目标数据进行数据划分,以得到多种类型的子数据,并采用多个第二微服务分别处理对应类型的子数据,以得到与第二微服务分别对应的多个数据处理结果,以及融合多个数据处理结果,以得到目标数据处理结果,由于是对具有各种算法功能的微服务进行高效地融合配置,并实现对目标数据进行针对性的数据处理,以得到相应的数据处理结果,以及对各个数据处理结果进行融合,从而能够有效提升微服务在数据处理过程中的融合适配性能,有效地提升数据处理效率,提升数据处理效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7是用来实现本公开实施例的数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如,数据处理方法。
例如,在一些实施例中,数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的数据处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网及区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种数据处理方法,包括:
获取目标数据;
采用第一微服务对所述目标数据进行数据划分,以得到多种类型的子数据;
采用多个第二微服务分别处理对应类型的所述子数据,以得到与所述第二微服务分别对应的多个数据处理结果,其中,每个所述第二微服务与一个类型的所述子数据对应;以及
融合所述多个数据处理结果,以得到目标数据处理结果。
2.根据权利要求1所述的方法,所述第一微服务是对人工智能模型中的第一算子进行微服务化处理得到的,所述第二微服务是对所述人工智能模型中的第二算子进行微服务化处理得到的,所述第一算子和所述第二算子不相同。
3.根据权利要求1所述的方法,其中,所述采用第一微服务对所述目标数据进行数据划分,以得到多种类型的子数据,包括:
对所述目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据;
采用所述第一微服务对所述第一数据进行数据划分,以得到所述多种类型的子数据。
4.根据权利要求2所述的方法,在所述采用第一微服务对所述目标数据进行数据划分,以得到多种类型的子数据之后,还包括:
根据所述子数据的类型,对与其对应的所述子数据添加类型标签;
根据所述类型标签,将所述多种类型的子数据处理为数据矩阵,其中,所述数据矩阵之中包括:所述子数据,和与所述子数据对应的类型标签;
确定与数据处理任务对应的多个候选算子标识;
采用各个所述候选算子标识对所述数据矩阵之中对应类型标签的子数据进行标记。
5.根据权利要求4所述的方法,其中,所述采用多个第二微服务分别处理对应类型的所述子数据,以得到与所述第二微服务分别对应的多个数据处理结果,包括:
确定所述多个第二微服务分别对应的多个第二算子标识;
根据所述多个第二算子标识,分别从所述数据矩阵之中确定对应的候选算子标识;以及
采用多个第二微服务分别处理所述对应的候选算子标识所标记的子数据,以得到与所述第二微服务分别对应的多个数据处理结果。
6.根据权利要求4所述的方法,在所述根据所述类型标签,将所述多种类型的子数据处理为数据矩阵之后,还包括:
对所述数据矩阵进行备份处理,以得到多个备份数据矩阵;
将所述多个备份数据矩阵存储至数据处理设备对应的共享内存之中。
7.根据权利要求2-6任一项所述的方法,所述第一算子,是人工智能模型中用于数据预处理的算子,所述第二算子,是所述人工智能模型中用于对预处理后的数据进行算法处理的算子。
8.一种数据处理装置,包括:
获取模块,用于获取目标数据;
预处理模块,用于采用第一微服务对所述目标数据进行数据划分,以得到多种类型的子数据;
运算模块,用于采用多个第二微服务分别处理对应类型的所述子数据,以得到与所述第二微服务分别对应的多个数据处理结果,其中,每个所述第二微服务与一个类型的所述子数据对应;以及
融合模块,用于融合所述多个数据处理结果,以得到目标数据处理结果。
9.根据权利要求8所述的装置,所述第一微服务是对人工智能模型中的第一算子进行微服务化处理得到的,所述第二微服务是对所述人工智能模型中的第二算子进行微服务化处理得到的,所述第一算子和所述第二算子不相同。
10.根据权利要求8所述的装置,其中,所述预处理模块,具体用于:
对所述目标数据之中的无效数据进行过滤处理,以得到过滤后的第一数据;
采用所述第一微服务对所述第一数据进行数据划分,以得到所述多种类型的子数据。
11.根据权利要求9所述的装置,还包括:
添加模块,用于根据所述子数据的类型,对与其对应的所述子数据添加类型标签;
处理模块,用于根据所述类型标签,将所述多种类型的子数据处理为数据矩阵,其中,所述数据矩阵之中包括:所述子数据,和与所述子数据对应的类型标签;
确定模块,用于确定与数据处理任务对应的多个候选算子标识;
标记模块,用于采用各个所述候选算子标识对所述数据矩阵之中对应类型标签的子数据进行标记。
12.根据权利要求11所述的装置,其中,所述运算模块,具体用于:
确定所述多个第二微服务分别对应的多个第二算子标识;
根据所述多个第二算子标识,分别从所述数据矩阵之中确定对应的候选算子标识;以及
采用多个第二微服务分别处理所述对应的候选算子标识所标记的子数据,以得到与所述第二微服务分别对应的多个数据处理结果。
13.根据权利要求11所述的装置,还包括:
存储模块,用于对所述数据矩阵进行备份处理,以得到多个备份数据矩阵,并将所述多个备份数据矩阵存储至数据处理设备对应的共享内存之中。
14.根据权利要求9-13任一项所述的装置,所述第一算子,是人工智能模型中用于数据预处理的算子,所述第二算子,是所述人工智能模型中用于对预处理后的数据进行算法处理的算子。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。
CN202110078164.6A 2021-01-20 2021-01-20 数据处理方法、装置、电子设备及存储介质 Active CN113159091B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110078164.6A CN113159091B (zh) 2021-01-20 2021-01-20 数据处理方法、装置、电子设备及存储介质
US17/577,668 US11822568B2 (en) 2021-01-20 2022-01-18 Data processing method, electronic equipment and storage medium
EP22152159.4A EP4012564A1 (en) 2021-01-20 2022-01-19 Data processing method, data processing device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110078164.6A CN113159091B (zh) 2021-01-20 2021-01-20 数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113159091A true CN113159091A (zh) 2021-07-23
CN113159091B CN113159091B (zh) 2023-06-20

Family

ID=76878643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110078164.6A Active CN113159091B (zh) 2021-01-20 2021-01-20 数据处理方法、装置、电子设备及存储介质

Country Status (3)

Country Link
US (1) US11822568B2 (zh)
EP (1) EP4012564A1 (zh)
CN (1) CN113159091B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656393A (zh) * 2021-08-24 2021-11-16 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN114091686A (zh) * 2021-11-11 2022-02-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储介质
CN114492737A (zh) * 2021-12-31 2022-05-13 北京百度网讯科技有限公司 数据处理方法、装置及电子设备、存储介质及程序产品
CN115580648A (zh) * 2022-09-30 2023-01-06 北京大数据先进技术研究院 数据融合系统设计方法、系统、电子设备及储存介质
CN115859118A (zh) * 2022-12-23 2023-03-28 摩尔线程智能科技(北京)有限责任公司 数据的获取方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115914400A (zh) * 2022-11-07 2023-04-04 中国工商银行股份有限公司 业务处理方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657019B1 (en) * 2017-05-30 2020-05-19 EMC IP Holding Company LLC Method and system for multi-node monitoring services
CN111382296A (zh) * 2018-12-28 2020-07-07 深圳云天励飞技术有限公司 数据处理方法、装置、终端及存储介质
CN111488489A (zh) * 2020-03-26 2020-08-04 腾讯科技(深圳)有限公司 视频文件的分类方法、装置、介质及电子设备
CN112231336A (zh) * 2020-07-17 2021-01-15 北京百度网讯科技有限公司 识别用户的方法、装置、存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495020B1 (en) * 2007-06-27 2013-07-23 ENORCOM Corporation Mobile information system
US10936969B2 (en) * 2016-09-26 2021-03-02 Shabaz Basheer Patel Method and system for an end-to-end artificial intelligence workflow
US10586066B2 (en) * 2017-10-21 2020-03-10 Dropbox, Inc. Interoperability between content management system and collaborative content system
DE112020006058T5 (de) * 2019-12-09 2023-01-19 Fisher-Rosemount Systems, Inc. Zentralisierte wissensdatenbank und data-mining-system
CN111881315A (zh) 2020-06-24 2020-11-03 华为技术有限公司 图像信息输入方法、电子设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657019B1 (en) * 2017-05-30 2020-05-19 EMC IP Holding Company LLC Method and system for multi-node monitoring services
CN111382296A (zh) * 2018-12-28 2020-07-07 深圳云天励飞技术有限公司 数据处理方法、装置、终端及存储介质
CN111488489A (zh) * 2020-03-26 2020-08-04 腾讯科技(深圳)有限公司 视频文件的分类方法、装置、介质及电子设备
CN112231336A (zh) * 2020-07-17 2021-01-15 北京百度网讯科技有限公司 识别用户的方法、装置、存储介质及电子设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656393A (zh) * 2021-08-24 2021-11-16 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN113656393B (zh) * 2021-08-24 2024-01-12 北京百度网讯科技有限公司 数据处理方法、装置、电子设备以及存储介质
CN114091686A (zh) * 2021-11-11 2022-02-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储介质
CN114091686B (zh) * 2021-11-11 2022-10-14 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储介质
CN114492737A (zh) * 2021-12-31 2022-05-13 北京百度网讯科技有限公司 数据处理方法、装置及电子设备、存储介质及程序产品
CN114492737B (zh) * 2021-12-31 2022-12-09 北京百度网讯科技有限公司 数据处理方法、装置及电子设备、存储介质及程序产品
US11983086B2 (en) 2021-12-31 2024-05-14 Beijing Baidu Netcom Science Technology Co., Ltd. Method for processing data, and electronic device, storage medium and program product
CN115580648A (zh) * 2022-09-30 2023-01-06 北京大数据先进技术研究院 数据融合系统设计方法、系统、电子设备及储存介质
CN115859118A (zh) * 2022-12-23 2023-03-28 摩尔线程智能科技(北京)有限责任公司 数据的获取方法、装置、电子设备及存储介质
CN115859118B (zh) * 2022-12-23 2023-08-11 摩尔线程智能科技(北京)有限责任公司 数据的获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20220138217A1 (en) 2022-05-05
CN113159091B (zh) 2023-06-20
US11822568B2 (en) 2023-11-21
EP4012564A1 (en) 2022-06-15

Similar Documents

Publication Publication Date Title
CN113159091B (zh) 数据处理方法、装置、电子设备及存储介质
CN112633380A (zh) 兴趣点特征提取方法、装置、电子设备及存储介质
CN111382228B (zh) 用于输出信息的方法和装置
CN114550177A (zh) 图像处理的方法、文本识别方法及装置
US11210563B2 (en) Method and apparatus for processing image
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN112668586A (zh) 模型训练、图片处理方法及设备、存储介质、程序产品
CN113627536A (zh) 模型训练、视频分类方法,装置,设备以及存储介质
CN114332590B (zh) 联合感知模型训练、联合感知方法、装置、设备和介质
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
CN113963186A (zh) 目标检测模型的训练方法、目标检测方法及相关装置
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN113378025B (zh) 数据处理方法、装置、电子设备及存储介质
CN113344214B (zh) 数据处理模型的训练方法、装置、电子设备及存储介质
CN110704650A (zh) Ota图片标签的识别方法、电子设备和介质
CN115759100A (zh) 数据处理方法、装置、设备及介质
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN114445668A (zh) 图像识别方法、装置、电子设备及存储介质
CN114972910A (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN113887414A (zh) 目标检测方法、装置、电子设备和存储介质
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN113761416A (zh) 一种请求处理方法、装置、服务器和存储介质
CN113642612B (zh) 样本图像生成方法、装置、电子设备及存储介质
CN116310682A (zh) 基于多模态数据的事件聚合方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant