CN113568735A - 数据处理方法及系统 - Google Patents

数据处理方法及系统 Download PDF

Info

Publication number
CN113568735A
CN113568735A CN202110674338.5A CN202110674338A CN113568735A CN 113568735 A CN113568735 A CN 113568735A CN 202110674338 A CN202110674338 A CN 202110674338A CN 113568735 A CN113568735 A CN 113568735A
Authority
CN
China
Prior art keywords
data
model
data set
target
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110674338.5A
Other languages
English (en)
Other versions
CN113568735B (zh
Inventor
周静辉
刘伟
罗斌
魏溪含
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Innovation Co
Original Assignee
Alibaba Singapore Holdings Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Singapore Holdings Pte Ltd filed Critical Alibaba Singapore Holdings Pte Ltd
Priority to CN202110674338.5A priority Critical patent/CN113568735B/zh
Publication of CN113568735A publication Critical patent/CN113568735A/zh
Application granted granted Critical
Publication of CN113568735B publication Critical patent/CN113568735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据处理方法及系统。其中,该方法包括:获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。本发明解决了相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。

Description

数据处理方法及系统
技术领域
本发明涉及模型训练技术领域,具体而言,涉及一种数据处理方法及系统。
背景技术
在数据处理领域,常常需要通过模型对数据进行处理,因而需要进行模型的训练,但是,相关技术中的模型训练框架一般只能处理单一的训练任务,对于不同的数据处理任务,或数据处理任务发生变化时,往往需要重新训练模型。
例如,在图像处理领域,分类模型、检测模型、分割模型等模型使用广泛,由于检测模型训练框架、分类模型训练框架、分割模型训练框架等只能用于处理单一类型的训练任务,在不同的图像处理场景或同一个图像处理场景出现变化时,需要重新训练模型,且模型训练框架在训练模型时的数据处理部分、模型训练部分和效果评估等部分是耦合的,各个部分的扩展性不强。此外,在相关技术中的模型训练框架下还存在以下问题,难以确定数据集的选择以及数据的处理对模型训练效果的影响,难以直观的获知模型评估效果,将训练好的模型转换为可用模型的过程复杂等。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及系统,以至少解决相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:获取待处理图像以及目标图像处理任务;根据目标图像处理任务确定目标图像处理模型,其中,目标图像处理模型是通过训练流程采用目标图像数据集对预设图像处理模型进行训练得到的,训练流程是根据目标图像处理任务对应的配置信息确定的,目标图像数据集包括预设图像数据集以及预设图像数据集对应目标图像处理任务下的描述信息,预设图像处理模型是根据目标图像处理任务确定的;将待处理图像输入目标图像处理模型,得到对待处理图像在目标图像处理任务下的处理结果。
根据本发明实施例的另一个方面,还提供了一种数据处理方法,包括:获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。
根据本发明实施例的另一方面,还提供了另一种数据处理方法,包括:云服务器接收待处理数据以及目标数据处理任务;云服务器根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;云服务器采用目标模型对待处理数据进行处理,得到待处理数据在目标数据处理任务下的处理结果,并通过云服务器返回处理结果至客户端。
根据本发明实施例的另一方面,还提供了一种数据处理系统,包括:数据集处理模块,用于对第一数据集进行处理,得到第二数据集,其中,第二数据集中包括处理后的数据以及与处理后的数据关联的至少一份描述文件,每份描述文件中包含一类数据处理任务对应的处理后的数据的描述信息;数据配置模块,用于根据第二数据集和数据处理任务的配置数据确定配置文件,其中,数据处理任务的配置数据中至少包扩一类数据处理任务的多个处理流程对应的配置信息;模型训练模块,用于从配置文件获取第二数据集以及模型训练配置信息,根据模型训练配置信息生成预设模型以及训练流程,并通过训练流程采用第二数据集对预设模型进行训练,得到目标模型。
根据本发明实施例的另一方面,还提供了一种存储介质,其中,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,其中,处理器用于运行程序,其中,程序运行时执行上述中任意一项的数据处理方法。
在本发明实施例中,通过获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。通过训练流程采用目标数据集对预设模型进行训练得到目标模型,并采用目标模型对待处理数据进行处理,得到目标数据处理任务下的处理结果,达到了提高模型训练的效率的目的,从而实现了提高数据处理效率的技术效果,进而解决了相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的计算机终端的硬件结构框图;
图2是根据本发明实施例提供的数据处理方法的流程图;
图3是根据本发明实施例提供的另一种数据处理方法的流程图;
图4是根据本发明实施例提供的另一种数据处理方法的流程图;
图5是根据本发明实施例提供的数据处理系统的示意图;
图6是根据本发明实施例提供的另一种数据处理系统中可扩展模块的示意图;
图7是根据本发明实施例提供的另一种数据处理系统的示意图;
图8是根据本发明实施例提供的另一种数据处理系统的示意图;
图9是根据本发明实施例提供的另一种数据处理系统的示意图;
图10是根据本发明实施例提供的另一种数据处理系统的示意图;
图11是根据本发明实施例提供的另一种数据处理装置的示意图;
图12是根据本发明实施例的可选的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
目标检测:使用算法将图片中目标区域检测出来,并且输出该目标的类别。
图像分类:根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。
图像分割:把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。
实施例1
根据本发明实施例,提供了一种数据处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用101a、101b,……,101n来示出)处理器101(处理器101可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器101和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的数据处理方法对应的程序指令/数据存储装置,处理器101通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的数据处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图。
S21,获取待处理图像以及目标图像处理任务。
具体地,待处理图像为待处理的原始图像,目标图像处理任务可以为图像识别任务,例如,图像检测任务、图像分割任务以及图像分类任务。
S22,根据目标图像处理任务确定目标图像处理模型,其中,目标图像处理模型是通过训练流程采用目标图像数据集对预设图像处理模型进行训练得到的,训练流程是根据目标图像处理任务对应的配置信息确定的,目标图像数据集包括预设图像数据集以及预设图像数据集对应目标图像处理任务下的描述信息,预设图像处理模型是根据目标图像处理任务确定的。
具体地,目标图像处理模型为执行目标图像处理任务时对应的模型,例如,对于图像检测任务,目标图像处理模型为图像检测模型;对于图像分割任务,目标图像处理模型为图像分割模型;对于图像分类任务,目标图像处理模型为图像分类模型。
目标图像处理模型对应的训练流程是根据目标图像处理任务对应的配置信息确定的,包括多个处理流程,例如,可以包括图像数据集处理流程、图像数据集分析流程、图像数据预处理流程、图像处理模型训练流程、图像处理模型评估流程、图像处理模型推理流程以及图像处理模型转换流程等。基于目标图像数据集,通过训练流程对预设图像处理模型进行训练,即可得到目标图像处理任务对应的目标处理模型。
而预设图像数据集为对原始图片进行处理后的图片数据集,处理后的图片数据集关联的至少一份描述文件,目标图像数据集为处理后的图片数据集以及目标图像处理任务对应的描述文件。例如,在目标图像处理任务为图像分割任务时,目标图像数据集的描述文件中包含图片数据集中各个图片中的分割区域的信息;在目标图像处理任务为图像检测任务时,目标图像数据集的描述文件中包含图片数据集中各个图片中的检测目标的信息;在目标图像处理任务为图像分类任务时,目标图像数据集的描述文件中包含图片数据集的分类情况信息。
S23,将待处理图像输入目标图像处理模型,得到对待处理图像在目标图像处理任务下的处理结果。
例如,在目标图像处理任务为图像检测任务时,处理结果为原始图像中的目标对象的检测结果,在目标数据处理任务为图像分割任务时,处理结果为原始图像的区域分割结果,在目标数据处理任务为图像分类任务时,处理结果为图像分类结果。
本发明实施例,通过获取待处理图像以及目标图像处理任务;根据目标图像处理任务确定目标图像处理模型,其中,目标图像处理模型是通过训练流程采用目标图像数据集对预设图像处理模型进行训练得到的,训练流程是根据目标图像处理任务对应的配置信息确定的,目标图像数据集包括预设图像数据集以及预设图像数据集对应目标图像处理任务下的描述信息,预设图像处理模型是根据目标图像处理任务确定的;将待处理图像输入目标图像处理模型,得到对待处理图像在目标图像处理任务下的处理结果,达到了提高模型训练的效率的目的,从而实现了提高数据处理效率的技术效果,进而解决了相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。
实施例2
本申请还提供了如另一种数据处理方法,图3是根据本发明实施例二的数据处理方法的流程图。
S31,获取待处理数据以及目标数据处理任务。
在一种可选的实施方式中,在图像处理场景下,获取的待处理数据可以为待处理的原始图像,目标数据处理任务可以为图像识别任务,例如,图像检测任务、图像分割任务以及图像分类任务。
需要说明的是,本申请实施例不限制待处理数据以及目标数据处理任务的类型。
S32,根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的。
具体地,目标模型为执行目标数据处理任务时对应的模型,目标模型对应的训练流程包括多个处理流程,例如,可以包括数据集处理流程、数据集分析流程、数据预处理流程、模型训练流程、模型评估流程、模型推理流程以及模型转换流程等。基于目标数据集,通过训练流程对预设模型进行训练,即可得到目标数据处理任务对应的目标模型。
而目标数据集为预设数据集以及目标数据处理任务对应的描述文件,可选地,在图像处理场景下,预设数据集为对原始图片进行处理后的图片数据集,处理后的图片数据集关联的至少一份描述文件,目标数据集为处理后的图片数据集以及目标数据处理任务对应的描述文件。例如,在目标数据处理任务为图像分割任务时,目标数据集的描述文件中包含图片数据集中各个图片中的分割区域的信息;在目标数据处理任务为图像检测任务时,目标数据集的描述文件中包含图片数据集中各个图片中的检测目标的信息;在目标数据处理任务为图像分类任务时,目标数据集的描述文件中包含图片数据集的分类情况信息。
S33,将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。
例如,待处理数据为待处理的原始图像,在目标数据处理任务为图像检测任务时,处理结果为原始图像中的目标对象的检测结果,在目标数据处理任务为图像分割任务时,处理结果为原始图像的区域分割结果,在目标数据处理任务为图像分类任务时,处理结果为图像分类结果。
本发明实施例,通过获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果的,通过训练流程采用目标数据集对预设模型进行训练得到目标模型,并采用目标模型对待处理数据进行处理,得到目标数据处理任务下的处理结果,达到了提高模型训练的效率的目的,从而实现了提高数据处理效率的技术效果,进而解决了相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。
在对待处理数据进行处理之前,需要进行模型的训练,可选地,在本申请实施例的数据处理方法中,在将待处理数据输入目标模型,得到待处理数据在目标数据处理任务下的处理结果之前,方法还包括:对第一数据集进行处理,得到第二数据集,其中,第二数据集中包括处理后的数据以及与处理后的数据关联的至少一份描述文件,每份描述文件中包含一类数据处理任务对应的处理后的数据的描述信息;根据第二数据集和数据处理任务的配置数据确定配置文件,其中,数据处理任务的配置数据中至少包扩一类数据处理任务的多个处理流程对应的配置信息;从配置文件获取目标数据集以及目标数据处理任务对应的模型训练配置信息,其中,目标数据集由第二数据集以及第二数据集对应目标数据处理任务下的描述信息构成;根据模型训练配置信息生成预设模型以及训练流程,并通过训练流程采用目标数据集对预设模型进行训练,得到目标模型。
在一种可选的实施方式中,在图像处理场景下,第一数据集可以为原始图片数据集,第二数据集为多种图像处理任务兼容格式的训练数据集,具体地,第二数据集包含对原始图片进行处理后的图片数据集,以及处理后的图片数据集关联的至少一份描述文件,例如,对于图像分割任务,描述文件中包含图片数据集中各个图片中的分割区域的信息,对于图像检测任务,描述文件中包含图片数据集中各个图片中的检测目标的信息,对于图像分类任务,描述文件中包含图片数据集的分类情况信息。
在根据第二数据集和数据处理任务的配置数据确定配置文件时,数据处理任务的配置数据包括默认配置信息和平台配置信息。其中,默认配置信息为各类数据处理任务的多个处理流程对应的默认配置信息,平台配置信息可以包括模型选择配置信息、训练高级参数配置信息和图像预处理参数配置信息、专家数据以及自定义训练参数配置信息,其中,模型选择配置信息用于确定训练加载的初始模型;训练高级参数配置信息包括训练优化器的学习率、训练迭代数等相关配置信息;图像预处理参数配置信息包括训练时图像的输入分辨率、图像增强等相关配置信息;专家数据包括数据集来源以及数据融合的方式等配置信息。
得到的配置文件中包括第二数据集以及各类数据处理任务的多个处理流程对应的配置信息,如各类数据处理任务的数据处理、数据集分析、模型训练、模型推理、模型评估和模型转换分别对应的配置信息,也即,配置文件中包括数据处理任务的全局配置信息,在模型训练的过程中,各部分可以调用配置文件中相应的配置信息,并根据配置信息配置各部分的处理流程,以训练得到目标模型,提高了模型训练的便捷性。
可选地,在本申请实施例的数据处理方法中,对第一数据集进行处理,得到第二数据集包括:从多个数据集中选择第一数据集;获取数据集处理配置数据,并根据数据集处理配置数据确定多个第一算子以及多个第一算子之间的连接顺序;通过连接顺序连接多个第一算子,得到数据处理流程;通过数据处理流程对第一数据集进行处理,得到第二数据集。
具体地,数据处理可以包括以下步骤:第一步,获取数据集处理配置数据,需要说明的是,数据集处理配置数据由默认配置信息和平台交互信息融合获得,其中,平台交互信息是指用户通过平台交互的方式设置的配置信息;第二步,根据数据集处理配置数据构建数据处理流程;第三步,通过数据处理流程对第一数据集进行处理,将平台标注数据转换为多任务兼容的数据结构,也即第二数据集,为多任务兼容的模型训练提供数据基础。
其中,在第二步根据数据配置文件构建数据处理流程时,需要进行算子的选择,并对选择的算子进行串连,从而得到数据处理流程。其中,算子可以包括类别扩增、类别屏蔽、子图切割、异常数据清洗、数据集划分、异常处理操作等算子,本申请实施例不限定算子的类型。不同算子执行的处理不同,以类别扩增为例,可以针对指定的数据集进行扩充,扩充倍数可选择;以异常处理操作为例,处理后的图像中不会包含原始图像中的异常图像;以子图切割操作为例,处理后的图像为原始图像对应的子图。
进一步的,得到数据处理流程后,对第一数据集中的原始图像和原始标注数据进行处理后,形成处理后图像和多任务兼容格式训练数据,也即第二数据集,由于第二数据集中可以包括多种描述文件,如图像检测对应的训练集数据的描述文件、图像分割对应的训练集数据的描述文件、图像分类对应的训练集数据的描述文件,第二数据集可以同时被模型训练框架中的图像检测、图像分割、图像分类等多种模型训练任务使用。
将得到第二数据集之后,可以将得到的第二数据集存储在云存储服务器中,相同的训练任务可以直接使用存储的第二数据集进行模型训练,不需要再次进行数据集处理,解决了相关技术中在模型训练时需要不断重复处理训练集数据的问题。
在进行模型训练之前,存在需要对第二数据集中的数据进行预处理的需求,可选地,在本申请实施例的数据处理方法中,在根据第二数据集和数据处理任务的配置数据确定配置文件之前,方法还包括:对第二数据集进行预处理,得到预处理后的数据集;根据第二数据集和数据处理任务的配置数据确定配置文件包括:根据预处理后的数据集以及数据处理任务的配置数据确定配置文件。
可选地,在本申请实施例的数据处理方法中,对第二数据集进行预处理,得到预处理后的数据集包括:从配置文件获取数据预处理配置信息;根据数据预处理配置信息确定多个第四算子以及多个第四算子之间的连接顺序,并通过连接顺序连接多个第四算子,得到预处理流程;根据预处理流程对第二数据集进行预处理,得到预处理后的数据集。
在一种可选的实施方式中,数据预处理可以包括以下步骤:第一步是读取全局配置文件,获得数据载入相关的配置信息,例如是否使用专家数据、图像预处理参数中的图像输入分辨率和数据增强的一些操作;第二步是根据配置信息构建数据预处理流程;第三步是将数据集处理流程输出的数据载入预处理流程,进行数据预处理。
具体地,在构建数据预处理流程时,根据配置信息从算子集合中选择相应算子并串联形成操作流程,具体地,算子集合可以包括亮度增强、色彩增强、图像大小变化、实例扰动增强、随机切子图、图像上下翻转、图像左右翻转、图像中心切子图、图像通道变化、图像加噪声、图像归一化以及效果可视化等算子,本申请实施例不限定算子的类型。
为了直观地查看数据预处理的效果,可选地,在本申请实施例的数据处理方法中,在根据预处理流程对第二数据集进行预处理的过程中,对至少一个第四算子的处理结果进行展示。
具体地,数据预处理可以包括运行状态和调试状态,在调试状态时可以在数据预处理流程的任何位置嵌入效果可视化模型,用来可视化当前图像的分割状态、类别状态、实例状态,从而可以查看数据处理或数据增强的效果,确认单步数据处理效果和多部数据处理的叠加效果。为实例扰动增强操作可视化的效果,可视化时将实例相关信息“画”在图像上,不同类别用不同颜色表示,每个框代表一个实例。经过实例扰动增强后,可以直观看到实例的增加和实例在图像中的情况。
通过本实施例,将可视化模块嵌入到数据预处理流程中,可以在任意节点查看数据预处理效果,解决了相关技术中的训练框架没有数据处理和数据增强的可视化调试功能,无法查看数据预处理效果的问题。
在进行模型训练之前,存在需要对第二数据集中的数据进行分析的需求,可选地,在本申请实施例的数据处理方法中,在根据第二数据集和数据处理任务的配置数据确定配置文件之前,方法还包括:从配置文件获取数据集分析配置信息;根据数据集分析配置信息确定多个第二算子以及多个第二算子之间的连接顺序,并通过连接顺序连接多个第二算子,得到分析流程;根据分析流程对第二数据集进行分析,得到数据集分析结果,其中,数据集分析结果用于指示对第二数据集的调整。
可选地,在本申请实施例的数据处理方法中,在根据分析流程对第二数据集进行分析,得到数据集分析结果之前,方法还包括:对第二数据集进行预处理,得到预处理后的数据集;根据分析流程对第二数据集进行分析,得到数据集分析结果包括:根据分析流程对预处理后的数据集进行分析,得到数据集分析结果;在根据分析流程对第二数据集进行分析,得到数据集分析结果之后,方法还包括:对分析流程输出的数据集分析结果进行展示。
在一种可选的实施方式中,数据集分析可以包括以下步骤:第一个步是读取全局配置文件,获得数据集分析相关的配置信息,如图像预处理参数中的图像输入分辨率和数据增强的一些操作;第二步是根据配置构建一个数据预处理流程;第三步是根据配置信息构建分析算子集合;第四布串联数据预处理流程和数据集分析算子集合,以第二数据集进行处理,处理完成后所有结果可以在视觉平台上展示。
其中,在第三步根据配置信息构建分析算子集合时,分析算子集合可以包括以下算子:单张图片类别数统计、单张图片实例数统计、单张图片实例长宽比统计、单个类型实例数统计、单个类别图像数统计、单个类别实例长宽比分布统计、全部实例面积分布统计、单个类别实例面积分布统计、全部实例尺度分布统计、图像分辨率统计、图像灰度值统计以及单个类别尺寸分布统计等算子,本申请实施例不限定算子的类型。
此外,需要说明的是,由于数据集分析和模型训练接收的都是数据预处理的数据集,所以数据集分析功能不仅可以对原图和标注结果进行分析,还可以在数据集分析和模型训练中构建相同的数据预处理流程,保证数据集分析所针对的数据集与训练模型时采用的数据集的一致性,使得数据集分析的分析结果对模型训练更具有指导意义,可以在训练之前发现数据集的特点或者提前查看数据处理和数据增强操作的结果,从而根据数据集分析结果不断调整各种配置进行训练,同时结合数据预处理的数据调试功能后,可以更深入地分析数据操作对数据集的影响,进一步提高模型训练的效果。解决了相关技术中使用默认配置或者人工经验训练模型,训练效果不佳的问题。
可选地,在本申请实施例的数据处理方法中,在通过训练流程采用目标数据集对预设模型进行训练,得到目标模型之后,方法还包括:从配置文件获取模型推理配置信息;根据模型推理配置信息生成推理流程;根据推理流程对目标模型进行推理,得到推理结果。
具体地,模型推理可以包括以下步骤:第一个步是读取全局配置文件,获得模型推理相关的配置信息:例如图像预处理参数中的图像输入分辨率等信息;例如模型训练按照间隔保存的模型;第二步是根据配置信息构建一个数据预模块对应的数据预处理流程;第三步是根据配置信息构建算法模型和模型推理流程;第四步是串联数据预处理流程和模型推理流程,从而进行模型推理,模型推理的结果可以保存到本地或者云存储服务器中。
为了获知模型训练效果,可选地,在本申请实施例的数据处理方法中,在根据推理流程对目标模型进行推理,得到推理结果之后,方法还包括:从配置文件获取模型评估配置信息;根据模型评估配置信息确定多个第三算子以及多个第三算子之间的连接顺序,并通过连接顺序连接多个第三算子,得到评估流程;根据评估流程对推理结果进行评估,得到评估结果。
可选地,在本申请实施例的数据处理方法中,根据评估流程对推理结果进行评估,得到评估结果包括:获取第二数据集中的描述信息以及推理结果,根据评估流程对描述信息和推理结果进行分析,得到评估结果;在根据评估流程对推理结果进行评估,得到评估结果之后,方法还包括:展示评估流程输出的评估结果。
在一种可选的实施方式中,模型评估可以包括以下步骤:第一个步是读取全局配置文件,获得模型评估相关的配置信息,例如需要评估的指标;第二步是根据配置信息构建一个数据预处理流程,数据预处理流程可以不载入图像,载入数据集处理产生的标注结果和模型推理产生的应预测结果;第三步是根据配置信息构建模型评估流程;第四步是串联数据预处理流程和模型评估流程,进行模型评估,模型评估的结果可以保存到本地或者云存储服务器中。
需要说明的是,模型训练、模型推理以及模型评估独立存在,评估过程不会占用训练时间和资源,可以提高效执行。
具体地,模型评估可以分为整体评估结果、详细评估结果和检测结果展示。模型整体评估结果部分,在显示界面的左侧可以展示评估的图像和标注数量,在显示界面的右边可以展示整体算法指标,例如,目标检测的评估结果,可以展示不同交并比下的mAP指标。模型评估的详细评估部分展示,在显示界面的左侧可以调节详细评估时不同类别的阈值,并且展示该类别的图像数量和标注数量,在显示界面的右侧可以该类别在不同阈值下的召回率和精确度曲线。根据详细评估中阈值设定,可以展示正确检测、漏检和误检三个部分,用来更加直观地查看模型在不同阈值下的效果和存在的问题。点击正确检测、漏检、误检中的图像,平台进行页面跳转,跳转后的页面展示了原图、数据集处理时标注的框和类别、模型推理预测的框和类别,从而可以单张地查看预测的结果和标注框的差距。此外,还可以进行多模型评估功能,可以选择多个候选模型进行模型评估。
本实施例通过模型评估,不仅可以模型算法指标的展示,还展示了不同阈值下的各项指标和不同阈值下正确检测、漏检和误检的情况,评估内容展示详细,用户可以发现模型训练和数据本身的问题,进一步调整数据集或训练过程,解决相关技术中的模型训练框架没有评估效果展示功能或只有简单的评估效果展示功能,无法发现模型训练和数据的问题。
在模型使用前,除了进行模型评估,还需要将模型转换为可用的加密模型,可选地,在本申请实施例的数据处理方法中,在根据推理流程对目标模型进行推理,得到推理结果之后,方法还包括:从配置文件中获取模型转换配置信息,根据模型转换配置信息生成转换文件;基于目标数据库和转换文件确定目标模型对应的加密模型,其中,目标数据库中存储有预设模型与转换文件的组合数据和加密模型之间的映射关系。
在一种可选的实施方式中,模型转换可以包括以下步骤:第一步是读取全局配置文件,例如图像预处理参数中的图像输入分辨率等信息;第二步根据全局配置文件中的配置信息,生成模型推理时使用的配置文件;第三步将模型训练保存的原始模型转换成推理时可用的加密模型,相关文件保存在本地或上传到云存储服务器。需要说明的是,原始模型、模型推理配置文件和加密模型是对应存储在目标数据库的,模型转换可以兼容不同任务类型的模型的推理,确定原始模型、模型推理配置文件之后,即可从目标数据库中得到相应的加密模型,无需一步一步进行模型转换,减轻了模型转换的工作量。
本实施例在目标数据库中存储了不同训练任务的原始模型和模型推理文件对应的加密模型,使得模型训练与模型转换进行对齐,用户无须对每一个模型进行逐一的转换,解决了相关技术中的模型训练框架没有与模型部署对接的部分,模型转换过程工作量大,耗时耗力且容易出错的问题。
此外,还需要说明的是,相关技术中在模型训练时候,数据处理、模型训练和效果的评估等部分需要按照耦合的流程进行训练,使用相同数据训练时需要不断重复处理数据,且模型训练和效果评估不能同时进行,评估过程占用训练时间和资源,导致无法高效执行的问题。而本实施例,将模型训练流程切分为数据集处理、数据配置、数据预处理、数据集分析、模型训练、模型推理、模型评估和模型转换。各部分对应的流程之间相互独立,可高效执行各自的功能,各部分对应的流程可以组合拼接构建需要的流程,灵活实现需要的功能。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
在上述实施例二所描述的运行环境下,本申请提供了如图4所示的数据处理方法,图4是根据本发明实施例三的数据处理方法的流程图:
S41,云服务器接收待处理数据以及目标数据处理任务。
在一种可选的实施方式中,在图像处理场景下,云服务器接收的待处理数据可以为待处理的原始图像,目标数据处理任务可以为图像识别任务,例如,可以为图像检测任务、图像分割任务以及图像分类任务。
需要说明的是,本申请实施例不限制待处理数据以及目标数据处理任务的类型。
S42,云服务器根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的。
需要说明的是,目标模型为执行目标数据处理任务时对应的模型,目标模型对应的训练流程包括多个处理流程,通过训练流程采用目标数据集对预设模型进行训练,即可得到目标数据处理任务对应的目标模型。
而目标数据集为预设数据集以及目标数据处理任务对应的描述文件,可选地,在图像处理场景下,预设数据集为对原始图片进行处理后的图片数据集,处理后的图片数据集关联的至少一份描述文件,目标数据集为处理后的图片数据集以及目标数据处理任务对应的描述文件。
例如,在目标数据处理任务为图像分割任务时,目标数据集的描述文件中包含图片数据集中各个图片中的分割区域的信息;在目标数据处理任务为图像检测任务时,目标数据集的描述文件中包含图片数据集中各个图片中的检测目标的信息;在目标数据处理任务为图像分类任务时,目标数据集的描述文件中包含图片数据集的分类情况信息。
S43,云服务器采用目标模型对待处理数据进行处理,得到待处理数据在目标数据处理任务下的处理结果,并通过云服务器返回处理结果至客户端。
例如,待处理数据为待处理的原始图像,在目标数据处理任务为图像检测任务时,云服务器对待处理数据进行处理的结果为原始图像中的目标对象的检测结果,并将原始图像中的目标对象的检测结果返回值客户端;在目标数据处理任务为图像分割任务时,云服务器对待处理数据进行处理的结果为原始图像的区域分割结果,并将原始图像的区域分割结果返回至客户端;在目标数据处理任务为图像分类任务时,云服务器对待处理数据进行处理的结果为图像分类结果,并将图像分类结果返回至客户端。
实施例4
根据本发明实施例,还提供了一种数据处理系统,如图5所示,该系统包括:
数据集处理模块52,用于对第一数据集进行处理,得到第二数据集,其中,第二数据集中包括处理后的数据以及与处理后的数据关联的至少一份描述文件,每份描述文件中包含一类数据处理任务对应的处理后的数据的描述信息。
在一种可选的实施方式中,在图像处理场景下,第一数据集可以为原始图片数据集,第二数据集为多种图像处理任务兼容格式的训练数据集,具体地,第二数据集包含对原始图片进行处理后的图片数据集,以及处理后的图片数据集关联的至少一份描述文件,例如,对于图像分割任务,描述文件中包含图片数据集中各个图片中的分割区域的信息,对于图像检测任务,描述文件中包含图片数据集中各个图片中的检测目标的信息,对于图像分类任务,描述文件中包含图片数据集的分类情况信息。
数据集处理模块52一方面用于对第一数据集进行确定,另一方面用于对第一数据集进行处理,可选地,在本申请实施例的数据处理系统中,数据集处理模块52还用于从多个数据集中选择第一数据集;获取数据集处理配置数据,并根据数据集处理配置数据确定多个第一算子以及多个第一算子之间的连接顺序,通过连接顺序连接多个第一算子,得到数据处理流程;通过数据处理流程对第一数据集进行处理,得到第二数据集。
具体地,可以通过数据集处理模块52在可选的多个数据集中选择需要加入训练的数据集,得到第一数据集,进一步地,确定数据处理流程,并通过数据处理流程对第一数据集进行处理,得到第二数据集。
需要说明的是,数据集处理模块52可以为可扩展模块。如图6所示,可扩展模块中可以包括算子集合、算子注册表、算子执行流程以及流程配置文件,其中,算子集合中包括多个算子。算子注册表中存储有已注册的算子。流程配置文件用于描述模块使用的算子和算子执行的流程。算子执行流程分为初始化、构建和执行三部分,在算子执行流程初始化时,根据算子注册表获得已注册的算子集合;在算子执行流程构建时,根据流程配置文件,寻找算子注册流程中已注册的算子,根据流程配置文件的内容初始化算子,并对获取的算子进行组合,得到算子执行流程;在算子执行流程执行时,根据算子执行流程对输入数据进行操作。
可扩展模块的扩展性体现在算子新增的扩展性和算子执行的扩展性两方面。其中,算子新增的扩展性指的是,在增加新的算子时,按照固定规则将算子加入到算子集合中。算子执行的扩展性指的是,算子执行流程是根据流程配置文件的描述信息进行确定的,流程配置文件中包括算子执行顺序、次数和算子的参数等多方面的描述信息。
在一种可选的实施方式中,数据集处理模块52作为一种可扩展模块,其工作可以包括以下步骤:第一步,读取数据配置文件,需要说明的是,数据准备模块的数据配置文件由默认配置信息和平台交互信息融合获得,其中,平台交互信息是指用户通过平台交互的方式设置的配置信息;第二步,根据数据配置文件构建数据处理流程;第三步,通过数据处理流程对第一数据集进行处理,将平台标注数据转换为多任务兼容的数据结构,也即第二数据集,为多任务兼容的模型训练提供数据基础。
其中,在第二步根据数据配置文件构建数据处理流程时,需要进行算子的选择,并对选择的算子进行串连,从而得到数据处理流程。其中,算子可以包括类别扩增、类别屏蔽、子图切割、异常数据清洗、数据集划分、异常处理操作等算子,本申请实施例不限定算子的类型。不同算子执行的处理不同,以类别扩增为例,可以针对指定的数据集进行扩充,扩充倍数可选择;以异常处理操作为例,处理后的图像中不会包含原始图像中的异常图像;以子图切割操作为例,处理后的图像为原始图像对应的子图。
进一步的,得到数据处理流程后,对第一数据集中的原始图像和原始标注数据进行处理后,形成处理后图像和多任务兼容格式训练数据,也即第二数据集,由于第二数据集中可以包括多种描述文件,如图像检测对应的训练集数据的描述文件、图像分割对应的训练集数据的描述文件、图像分类对应的训练集数据的描述文件,第二数据集可以同时被模型训练框架中的图像检测、图像分割、图像分类等多种模型训练任务使用。
将得到第二数据集之后,可以将得到的第二数据集存储在云存储服务器中,相同的训练任务可以直接使用存储的第二数据集进行模型训练,不需要再次调用数据集处理模块52进行数据集处理,解决了相关技术中在模型训练时需要不断重复处理训练集数据的问题。
此外,本实施例的数据集处理模块52基于可扩展模块进行开发,在开发时,按照数据集处理需求选择算子并调整算子之间的连接关系即可,降低了模块的开发难度,解决了相关技术中的训练框架中的模块扩展性不强,开发过程复杂的问题。
数据配置模块54,用于根据第二数据集和数据处理任务的配置数据确定配置文件,其中,数据处理任务的配置数据中至少包扩一类数据处理任务的多个处理流程对应的配置信息。
具体地,数据处理任务的配置数据包括默认配置信息和平台配置信息,数据配置模块54接收数据集处理模块52的输出结果(第二数据集)、默认配置信息(各类数据处理任务的多个处理流程对应的默认配置信息)以及平台配置信息后,形成配置文件。配置文件中包括各类数据处理任务的多个处理流程对应的配置信息,如各类数据处理任务的数据处理、数据集分析、模型训练、模型推理、模型评估和模型转换分别对应的配置信息,也即,配置文件中包括数据处理任务的全局配置信息。
其中,平台配置信息可以包括模型选择配置信息、训练高级参数配置信息和图像预处理参数配置信息、专家数据以及自定义训练参数配置信息,其中,模型选择配置信息用于确定训练加载的初始模型;训练高级参数配置信息包括训练优化器的学习率、训练迭代数等相关配置信息;图像预处理参数配置信息包括训练时图像的输入分辨率、图像增强等相关配置信息;专家数据包括数据集来源以及数据融合的方式等配置信息。
本实施例的数据配置模块54用于确定配置文件,配置文件中包括各类数据处理任务的多个处理流程对应的配置信息,在模型训练的过程中,各部分对应的模块均可以调用配置文件中相应的配置信息,提高了模型训练的便捷性。
模型训练模块56,用于从配置文件获取第二数据集以及模型训练配置信息,根据模型训练配置信息生成预设模型以及训练流程,并通过训练流程采用第二数据集对预设模型进行训练,得到目标模型。
可选地,在本申请实施例的数据处理系统中,模型训练模块56还包括数据预处理模块,数据预处理模块用于对第二数据集进行预处理,并将预处理后得到的数据集输入训练流程。
具体地,模型训练模块56的工作分为以下步骤:第一步是读取全局配置文件,获得模型训练相关的配置信息:例如高级参数配置信息中的总训练迭代数、默认参数配置文件加载和模型保存间隔数等;例如模型选择配置信息中的预训练模型。第二步是根据配置信息构建一个数据预处理流程。第三步是根据配置信息构建算法模型和模型训练流程。第四步是串联数据载入和模型训练流程,以进行运行。
在具体运行过程中,可以将模型训练得到的模型参数按照间隔数保存到本地或云存储服务器中,并在平台中会展示候选模型及其产生时间。同时,模型训练的日志文件也可以同步保存到本地或云存储服务器中。模型训练的损失值可以通过通讯的方式传递到视觉智能平台的后端程序中,以进行模型训练效果的评估。
需要说明的是,模型训练模块56为可扩展模块,模型训练模块56构建的算法模型和模型训练流程可以是兼容多种任务的,同时,由于数据集处理模块52输出的数据是兼容多种任务的,模型训练框架可以进行多任务兼容的模型训练。
需要说明的是,模型训练模块56所包含的数据预处理模块为可扩展模块,可选地,在本申请实施例的数据处理系统中,数据预处理模块用于从配置文件获取数据预处理配置信息,根据数据预处理配置信息确定多个第四算子以及多个第四算子之间的连接顺序,并通过连接顺序连接多个第四算子,得到用于对数据进行预处理的预处理流程。
在一种可选的实施方式中,数据预处理模块的工作可以包括以下步骤:第一步是读取全局配置文件,获得数据载入相关的配置信息,例如是否使用专家数据、图像预处理参数中的图像输入分辨率和数据增强的一些操作;第二步是根据配置信息构建数据预处理流程;第三步是将数据集处理模块52输出的数据载入预处理流程,进行数据预处理。
需要说明的是,数据预处理模块为可扩展模块,在构建数据预处理流程时,根据配置信息从算子集合中选择相应算子并串联形成操作流程,具体地,算子集合可以包括亮度增强、色彩增强、图像大小变化、实例扰动增强、随机切子图、图像上下翻转、图像左右翻转、图像中心切子图、图像通道变化、图像加噪声、图像归一化以及效果可视化等算子,本申请实施例不限定算子的类型。
为了直观地查看数据预处理的效果,可选地,在本申请实施例的数据处理系统中,数据预处理模块包括至少一个第三展示模块,第三展示模块设置在预处理流程中的第四算子之后,用于对第四算子的处理结果进行展示。
具体地,数据预处理可以包括运行状态和调试状态,在调试状态时可以在数据预处理流程的任何位置嵌入效果可视化模型,用来可视化当前图像的分割状态、类别状态、实例状态,从而可以查看数据处理或数据增强的效果,确认单步数据处理效果和多部数据处理的叠加效果。例如,对于实例扰动增强操作可视化的效果,可视化时将实例相关信息“画”在图像上,不同类别用不同颜色表示,每个框代表一个实例。经过实例扰动增强后,可以直观看到实例的增加和实例在图像中的情况。
通过本实施例,将可视化模块嵌入到数据预处理模块对应的预处理流程中,可以在任意节点查看数据预处理效果,解决了相关技术中的训练框架没有数据处理和数据增强的可视化调试功能,无法查看数据预处理效果的问题。
如图7所示,为了对用于训练模型的数据集进行分析,可选地,在本申请实施例的数据处理系统中,系统还包括:数据集分析模块72,用于从配置文件获取数据集分析配置信息,根据数据集分析配置信息生成分析流程,并根据分析流程对第二数据集进行分析,得到数据集分析结果,其中,数据集分析结果用于指示对第二数据集的调整。
可选地,在本申请实施例的数据处理系统中,分析流程是根据数据集分析配置信息确定多个第二算子以及多个第二算子之间的连接顺序,并通过连接顺序连接多个第二算子得到的,数据集分析模块72还包括:数据预处理模块,用于对第二数据集进行预处理,并将预处理后得到的数据集输入分析流程;第一展示模块,用于对分析流程输出的数据集分析结果进行展示。
在一种可选的实施方式中,数据集分析模块72为可扩展模块,数据集分析模块72的工作分以下步骤:第一个步是读取全局配置文件,获得数据集分析相关的配置信息,如图像预处理参数中的图像输入分辨率和数据增强的一些操作;第二步是根据配置构建一个数据预处理流程;第三步是根据配置信息构建分析算子集合;第四布串联数据预处理流程和数据集分析算子集合,以第二数据集进行处理,处理完成后所有结果可以在视觉平台上展示。
其中,在第三步根据配置信息构建分析算子集合时,分析算子集合可以包括以下算子:单张图片类别数统计、单张图片实例数统计、单张图片实例长宽比统计、单个类型实例数统计、单个类别图像数统计、单个类别实例长宽比分布统计、全部实例面积分布统计、单个类别实例面积分布统计、全部实例尺度分布统计、图像分辨率统计、图像灰度值统计以及单个类别尺寸分布统计等算子,本申请实施例不限定算子的类型。
此外,需要说明的是,由于数据集分析模块72和模型训练模块56接收的都是数据预处理模型处理后的数据集,所以数据集分析功能不仅可以对原图和标注结果进行分析,还可以在数据集分析模块72和模型训练模块56中构建相同的数据预处理流程,保证数据集分析模块72分析的数据集与训练模型时采用的数据集的一致性,使得数据集分析模块72的分析结果对模型训练更具有指导意义,可以在训练之前发现数据集的特点或者提前查看数据处理和数据增强操作的结果,从而根据数据集分析结果不断调整各种配置进行训练,同时结合数据预处理模块的数据调试功能后,可以更深入地分析数据操作对数据集的影响,进一步提高模型训练的效果。解决了相关技术中使用默认配置或者人工经验训练模型,训练效果不佳的问题。
如图8所示,可选地,在本申请实施例的数据处理系统中,系统还包括:模型推理模块82,用于从配置文件获取模型推理配置信息,根据模型推理配置信息生成推理流程,并根据推理流程对目标模型进行推理,得到推理结果。
具体地,模型推理模块82的工作分为以下步骤:第一个步是读取全局配置文件,获得模型推理相关的配置信息:例如图像预处理参数中的图像输入分辨率等信息;例如模型训练按照间隔保存的模型;第二步是根据配置信息构建一个数据预模块对应的数据预处理流程;第三步是根据配置信息构建算法模型和模型推理流程;第四步是串联数据预处理流程和模型推理流程,从而进行模型推理,模型推理的结果可以保存到本地或者云存储服务器中。
如图9所示,为了获知模型训练效果,可选地,在本申请实施例的数据处理系统中,系统还包括:模型评估模块92,用于从配置文件获取模型评估配置信息,根据模型评估配置信息生成评估流程,并根据评估流程对推理结果进行评估,得到评估结果。
可选地,在本申请实施例的数据处理系统中,评估流程是根据模型评估配置信息确定多个第三算子以及多个第三算子之间的连接顺序,并通过连接顺序连接多个第三算子得到的,模型评估模块92还包括:数据预处理模块,用于获取第二数据集中的描述信息以及推理结果,并将描述信息以及推理结果输入评估流程;第二展示模块,用于展示评估流程输出的评估结果。
模型评估模块92是可扩展模块,模型评估模块92的工作可以分为以下步骤:第一个步是读取全局配置文件,获得模型评估相关的配置信息,例如需要评估的指标;第二步是根据配置信息构建一个数据预处理模块对应的数据预处理流程,该数据预处理模块载入数据时可以不载入图像,载入数据集处理模块52产生的标注结果和模型推理产生的应预测结果;第三步是根据配置信息构建模型评估流程;第四步是串联数据预处理流程和模型评估流程,进行模型评估。模型评估的结果可以保存到本地或者云存储服务器中。
需要说明的是,模型训练模块56、模型推理模块82以及模型评估模块92独立存在,评估过程不会占用训练时间和资源,可以提高效执行。
具体地,模型评估可以分为整体评估结果、详细评估结果和检测结果展示。模型整体评估结果部分,在显示界面的左侧可以展示评估的图像和标注数量,在显示界面的右边可以展示整体算法指标,例如,目标检测的评估结果,可以展示不同交并比下的mAP指标。模型评估的详细评估部分展示,在显示界面的左侧可以调节详细评估时不同类别的阈值,并且展示该类别的图像数量和标注数量,在显示界面的右侧可以该类别在不同阈值下的召回率和精确度曲线。根据详细评估中阈值设定,可以展示正确检测、漏检和误检三个部分,用来更加直观地查看模型在不同阈值下的效果和存在的问题。点击正确检测、漏检、误检中的图像,平台进行页面跳转,跳转后的页面展示了原图、数据集处理时标注的框和类别、模型推理预测的框和类别,从而可以单张地查看预测的结果和标注框的差距。此外,还可以进行多模型评估功能,可以选择多个候选模型进行模型评估。
本实施例通过模型评估模块92,不仅可以模型算法指标的展示,还展示了不同阈值下的各项指标和不同阈值下正确检测、漏检和误检的情况,评估内容展示详细,用户可以发现模型训练和数据本身的问题,进一步调整数据集或训练过程,解决相关技术中的模型训练框架没有评估效果展示功能或只有简单的评估效果展示功能,无法发现模型训练和数据的问题。
在模型使用前,除了进行模型评估,还需要将模型转换为可用的加密模型,可选地,在本申请实施例的数据处理系统中,系统还包括:模型转换模块102,与数据配置模块54连接,用于从配置文件中获取模型转换配置信息,根据模型转换配置信息生成转换文件,并根据转换文件对目标模型进行转换,得到加密模型。
如图10所示,可选地,在本申请实施例的数据处理系统中,模型转换模块102对应有目标数据库,目标数据库中存储有预设模型与转换文件的组合数据和加密模型之间的映射关系,模型转换模块102用于基于目标数据库和转换文件确定目标模型对应的加密模型。
在一种可选的实施方式中,模型转换模块102的工作可以包括以下步骤:第一步是读取全局配置文件,例如图像预处理参数中的图像输入分辨率等信息;第二步根据全局配置文件中的配置信息,生成模型推理时使用的配置文件;第三步将模型训练保存的原始模型转换成推理时可用的加密模型,相关文件保存在本地或上传到云存储服务器。需要说明的是,原始模型、模型推理配置文件和加密模型是对应存储在目标数据库的,模型转换模块102可以兼容不同任务类型的模型的推理,确定原始模型、模型推理配置文件之后,即可从目标数据库中得到相应的加密模型,无需一步一步进行模型转换,减轻了模型转换的工作量。
本实施例的模型推理模块82,在目标数据库中存储了不同训练任务的原始模型和模型推理文件对应的加密模型,使得模型训练与模型转换进行对齐,用户无须对每一个模型进行逐一的转换,解决了相关技术中的模型训练框架没有与模型部署对接的部分,模型转换过程工作量大,耗时耗力且容易出错的问题。
需要说明的是,相关技术中的训练框架在模型训练时候数据处理、模型训练和效果的评估等部分需要按照耦合的流程进行训练,使用相同数据训练时需要不断重复处理数据,且模型训练和效果评估不能同时进行,评估过程占用训练时间和资源,导致无法高效执行的问题。
而本实施例,将模型训练框架主要切分为数据集处理模块52、数据配置模块54、数据预处理模块、数据集分析模块72、模型训练模块56、模型推理模块82、模型评估模块92和模型转换模块102。模块之间相互独立,可高效执行各自的功能,模块可以组合拼接构建需要的流程,灵活实现需要的功能。
其中,数据准备模块、数据载入模块、数据集分析模块72、模型评估模块92是可扩展模块,可以根据不同分任务需求灵活调整模块的功能,数据集分析、模型训练、模型推理和模型评估模块92在使用时集成数据准备模块,保证数据准备在多个模块之间的一致性。
实施例5
根据本发明实施例,还提供了一种用于实施上述的数据处理装置,如图11所示,该装置包括:
第一获取单元112,用于获取待处理数据以及目标数据处理任务.
第一确定单元114,用于根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的。
第一处理单元116,用于将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。
在本发明实施例中,通过第一获取单元112,用于获取待处理数据以及目标数据处理任务;第一确定单元114,用于根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;第一处理单元116,用于将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。通过训练流程采用目标数据集对预设模型进行训练得到目标模型,并采用目标模型对待处理数据进行处理,得到目标数据处理任务下的处理结果,达到了提高模型训练的效率的目的,从而实现了提高数据处理效率的技术效果,进而解决了相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。
可选地,在本申请实施例的数据处理装置中,装置还包括:第二处理单元,用于在将待处理数据输入目标模型,得到待处理数据在目标数据处理任务下的处理结果之前,对第一数据集进行处理,得到第二数据集,其中,第二数据集中包括处理后的数据以及与处理后的数据关联的至少一份描述文件,每份描述文件中包含一类数据处理任务对应的处理后的数据的描述信息;第二确定单元,用于根据第二数据集和数据处理任务的配置数据确定配置文件,其中,数据处理任务的配置数据中至少包扩一类数据处理任务的多个处理流程对应的配置信息;第二获取单元,用于从配置文件获取目标数据集以及目标数据处理任务对应的模型训练配置信息,其中,目标数据集由第二数据集以及第二数据集对应目标数据处理任务下的描述信息构成;第一生成单元,用于根据模型训练配置信息生成预设模型以及训练流程,并通过训练流程采用目标数据集对预设模型进行训练,得到目标模型。
可选地,在本申请实施例的数据处理装置中,第二处理单元包括:选择模块,用于从多个数据集中选择第一数据集;第一获取模块,用于获取数据集处理配置数据,并根据数据集处理配置数据确定多个第一算子以及多个第一算子之间的连接顺序;第一连接模块,用于通过连接顺序连接多个第一算子,得到数据处理流程;处理模块,用于通过数据处理流程对第一数据集进行处理,得到第二数据集。
可选地,在本申请实施例的数据处理装置中,装置还包括:第一预处理单元,用于在根据第二数据集和数据处理任务的配置数据确定配置文件之前,对第二数据集进行预处理,得到预处理后的数据集;第二确定单元还用于根据预处理后的数据集以及数据处理任务的配置数据确定配置文件。
可选地,在本申请实施例的数据处理装置中,装置还包括:第三获取单元,用于在根据第二数据集和数据处理任务的配置数据确定配置文件之前,从配置文件获取数据集分析配置信息;第三确定单元,用于根据数据集分析配置信息确定多个第二算子以及多个第二算子之间的连接顺序,并通过连接顺序连接多个第二算子,得到分析流程;分析单元,用于根据分析流程对第二数据集进行分析,得到数据集分析结果,其中,数据集分析结果用于指示对第二数据集的调整。
可选地,在本申请实施例的数据处理装置中,装置还包括:第二预处理单元,用于在根据分析流程对第二数据集进行分析,得到数据集分析结果之前,对第二数据集进行预处理,得到预处理后的数据集;分析单元还用于根据分析流程对预处理后的数据集进行分析,得到数据集分析结果;对分析流程输出的数据集分析结果进行展示。
可选地,在本申请实施例的数据处理装置中,装置还包括:第四获取单元,用于在通过训练流程采用目标数据集对预设模型进行训练,得到目标模型之后,从配置文件获取模型推理配置信息;第二生成单元,用于根据模型推理配置信息生成推理流程;推理单元,用于根据推理流程对目标模型进行推理,得到推理结果。
可选地,在本申请实施例的数据处理装置中,装置还包括:第五获取单元,用于在根据推理流程对目标模型进行推理,得到推理结果之后,从配置文件获取模型评估配置信息;第四确定单元,用于根据模型评估配置信息确定多个第三算子以及多个第三算子之间的连接顺序,并通过连接顺序连接多个第三算子,得到评估流程;评估单元,用于根据评估流程对推理结果进行评估,得到评估结果。
可选地,在本申请实施例的数据处理装置中,评估单元还用于获取第二数据集中的描述信息以及推理结果,根据评估流程对描述信息和推理结果进行分析,得到评估结果;展示评估流程输出的评估结果。
可选地,在本申请实施例的数据处理装置中,装置还包括:第六获取单元,用于在根据推理流程对目标模型进行推理,得到推理结果之后,从配置文件中获取模型转换配置信息,根据模型转换配置信息生成转换文件;第五确定单元,用于基于目标数据库和转换文件确定目标模型对应的加密模型,其中,目标数据库中存储有预设模型与转换文件的组合数据和加密模型之间的映射关系。
可选地,在本申请实施例的数据处理装置中,第一预处理或第二预处理单元包括:第二获取模块,用于从配置文件获取数据预处理配置信息;第二连接模块,用于根据数据预处理配置信息确定多个第四算子以及多个第四算子之间的连接顺序,并通过连接顺序连接多个第四算子,得到预处理流程;预处理模块,用于根据预处理流程对第二数据集进行预处理,得到预处理后的数据集。
可选地,在本申请实施例的数据处理装置中,在根据预处理流程对第二数据集进行预处理的过程中,对至少一个第四算子的处理结果进行展示。
此处需要说明的是,上述单元对应于实施例1中的步骤,上述单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例6
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的数据处理方法中以下步骤的程序代码:获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。
可选地,图12是根据本发明实施例的一种计算机终端的结构框图。如图12所示,该计算机终端可以包括:一个或多个(图中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。
采用本发明实施例,提供了一种数据处理的方案。通过获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果,从而达到了()的目的,进而解决了相关技术中在数据处理任务发生变化时模型训练效率低,导致数据处理效率低的技术问题。
本领域普通技术人员可以理解,图所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图10中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图10所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例7
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待处理数据以及目标数据处理任务;根据目标数据处理任务确定目标模型,其中,目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,训练流程是根据目标数据处理任务对应的配置信息确定的,目标数据集包括预设数据集以及预设数据集对应目标数据处理任务下的描述信息,预设模型是根据目标数据处理任务确定的;将待处理数据输入目标模型,得到对待处理数据在目标数据处理任务下的处理结果。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取待处理图像以及目标图像处理任务;
根据所述目标图像处理任务确定目标图像处理模型,其中,所述目标图像处理模型是通过训练流程采用目标图像数据集对预设图像处理模型进行训练得到的,所述训练流程是根据所述目标图像处理任务对应的配置信息确定的,所述目标图像数据集包括预设图像数据集以及所述预设图像数据集对应所述目标图像处理任务下的描述信息,所述预设图像处理模型是根据所述目标图像处理任务确定的;
将所述待处理图像输入所述目标图像处理模型,得到对所述待处理图像在所述目标图像处理任务下的处理结果。
2.一种数据处理方法,其特征在于,包括:
获取待处理数据以及目标数据处理任务;
根据所述目标数据处理任务确定目标模型,其中,所述目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,所述训练流程是根据所述目标数据处理任务对应的配置信息确定的,所述目标数据集包括预设数据集以及所述预设数据集对应所述目标数据处理任务下的描述信息,所述预设模型是根据所述目标数据处理任务确定的;
将所述待处理数据输入所述目标模型,得到对所述待处理数据在所述目标数据处理任务下的处理结果。
3.根据权利要求2所述的数据处理方法,其特征在于,在将所述待处理数据输入所述目标模型,得到所述待处理数据在所述目标数据处理任务下的处理结果之前,所述方法还包括:
对第一数据集进行处理,得到第二数据集,其中,所述第二数据集中包括处理后的数据以及与所述处理后的数据关联的至少一份描述文件,每份所述描述文件中包含一类数据处理任务对应的所述处理后的数据的描述信息;
根据所述第二数据集和数据处理任务的配置数据确定配置文件,其中,所述数据处理任务的配置数据中至少包扩一类所述数据处理任务的多个处理流程对应的配置信息;
从所述配置文件获取所述目标数据集以及所述目标数据处理任务对应的模型训练配置信息,其中,所述目标数据集由所述第二数据集以及所述第二数据集对应所述目标数据处理任务下的描述信息构成;
根据所述模型训练配置信息生成所述预设模型以及训练流程,并通过所述训练流程采用所述目标数据集对所述预设模型进行训练,得到所述目标模型。
4.根据权利要求3所述的数据处理方法,其特征在于,在所述根据所述第二数据集和数据处理任务的配置数据确定配置文件之前,所述方法还包括:对所述第二数据集进行预处理,得到预处理后的数据集;
所述根据所述第二数据集和数据处理任务的配置数据确定配置文件包括:根据所述预处理后的数据集以及所述数据处理任务的配置数据确定所述配置文件。
5.根据权利要求3所述的数据处理方法,其特征在于,在所述根据所述第二数据集和数据处理任务的配置数据确定配置文件之前,所述方法还包括:
从所述配置文件获取数据集分析配置信息;
根据所述数据集分析配置信息确定多个第二算子以及所述多个第二算子之间的连接顺序,并通过所述连接顺序连接所述多个第二算子,得到分析流程;
根据所述分析流程对所述第二数据集进行分析,得到数据集分析结果,其中,所述数据集分析结果用于指示对所述第二数据集的调整。
6.根据权利要求5所述的数据处理方法,其特征在于,在所述根据所述分析流程对所述第二数据集进行分析,得到数据集分析结果之前,所述方法还包括:对所述第二数据集进行预处理,得到预处理后的数据集;
所述根据所述分析流程对所述第二数据集进行分析,得到数据集分析结果包括:根据所述分析流程对所述预处理后的数据集进行分析,得到所述数据集分析结果;
在所述根据所述分析流程对所述第二数据集进行分析,得到数据集分析结果之后,所述方法还包括:对所述分析流程输出的所述数据集分析结果进行展示。
7.根据权利要求5所述的数据处理方法,其特征在于,在所述通过所述训练流程采用所述目标数据集对所述预设模型进行训练,得到所述目标模型之后,所述方法还包括:
从所述配置文件获取模型推理配置信息;
根据所述模型推理配置信息生成推理流程;
根据所述推理流程对所述目标模型进行推理,得到推理结果。
8.根据权利要求7所述的数据处理方法,其特征在于,在所述根据所述推理流程对所述目标模型进行推理,得到推理结果之后,所述方法还包括:
从所述配置文件获取模型评估配置信息;
根据所述模型评估配置信息确定多个第三算子以及所述多个第三算子之间的连接顺序,并通过所述连接顺序连接所述多个第三算子,得到评估流程;
根据所述评估流程对所述推理结果进行评估,得到评估结果。
9.根据权利要求7所述的数据处理方法,其特征在于,在所述根据所述推理流程对所述目标模型进行推理,得到推理结果之后,所述方法还包括:
从所述配置文件中获取模型转换配置信息,根据所述模型转换配置信息生成转换文件;
基于目标数据库和所述转换文件确定所述目标模型对应的加密模型,其中,所述目标数据库中存储有预设模型与转换文件的组合数据和加密模型之间的映射关系。
10.根据权利要求4或6所述的数据处理方法,其特征在于,所述对所述第二数据集进行预处理,得到预处理后的数据集包括:
从所述配置文件获取数据预处理配置信息;
根据所述数据预处理配置信息确定多个第四算子以及所述多个第四算子之间的连接顺序,并通过所述连接顺序连接所述多个第四算子,得到预处理流程;
根据所述预处理流程对所述第二数据集进行预处理,得到所述预处理后的数据集。
11.一种数据处理方法,其特征在于,包括:
云服务器接收待处理数据以及目标数据处理任务;
所述云服务器根据所述目标数据处理任务确定目标模型,其中,所述目标模型是通过训练流程采用目标数据集对预设模型进行训练得到的,所述训练流程是根据所述目标数据处理任务对应的配置信息确定的,所述目标数据集包括预设数据集以及所述预设数据集对应所述目标数据处理任务下的描述信息,所述预设模型是根据所述目标数据处理任务确定的;
所述云服务器采用目标模型对所述待处理数据进行处理,得到所述待处理数据在所述目标数据处理任务下的处理结果,并通过所述云服务器返回所述处理结果至客户端。
12.一种数据处理系统,其特征在于,包括:
数据集处理模块,用于对第一数据集进行处理,得到第二数据集,其中,所述第二数据集中包括处理后的数据以及与所述处理后的数据关联的至少一份描述文件,每份所述描述文件中包含一类数据处理任务对应的所述处理后的数据的描述信息;
数据配置模块,用于根据所述第二数据集和数据处理任务的配置数据确定配置文件,其中,所述数据处理任务的配置数据中至少包扩一类所述数据处理任务的多个处理流程对应的配置信息;
模型训练模块,用于从所述配置文件获取所述第二数据集以及模型训练配置信息,根据所述模型训练配置信息生成预设模型以及训练流程,并通过所述训练流程采用所述第二数据集对所述预设模型进行训练,得到目标模型。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1,或权利要求2至10中任意一项所述的数据处理方法。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1,或权利要求2至10中任意一项所述的数据处理方法。
CN202110674338.5A 2021-06-17 2021-06-17 数据处理方法及系统 Active CN113568735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110674338.5A CN113568735B (zh) 2021-06-17 2021-06-17 数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110674338.5A CN113568735B (zh) 2021-06-17 2021-06-17 数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN113568735A true CN113568735A (zh) 2021-10-29
CN113568735B CN113568735B (zh) 2024-01-23

Family

ID=78162259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110674338.5A Active CN113568735B (zh) 2021-06-17 2021-06-17 数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN113568735B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578423A (zh) * 2023-07-07 2023-08-11 阿里巴巴(中国)有限公司 任务处理方法、自动问答方法以及图像生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
US20200125955A1 (en) * 2018-10-23 2020-04-23 International Business Machines Corporation Efficiently learning from highly-diverse data sets
CN111328400A (zh) * 2017-11-14 2020-06-23 奇跃公司 用于神经网络的多任务学习的元学习
CN111542816A (zh) * 2018-02-06 2020-08-14 赫尔实验室有限公司 域适应学习系统
CN112541539A (zh) * 2020-12-08 2021-03-23 杭州电子科技大学 一种基于逆迁移学习的小样本目标识别辅助数据挑选方法
US20210142107A1 (en) * 2019-11-11 2021-05-13 Five AI Limited Image processing
US20210141663A1 (en) * 2019-11-12 2021-05-13 Tata Consultancy Services Limited Systems and methods for automatically creating an image processing pipeline

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111328400A (zh) * 2017-11-14 2020-06-23 奇跃公司 用于神经网络的多任务学习的元学习
CN111542816A (zh) * 2018-02-06 2020-08-14 赫尔实验室有限公司 域适应学习系统
US20200125955A1 (en) * 2018-10-23 2020-04-23 International Business Machines Corporation Efficiently learning from highly-diverse data sets
US20210142107A1 (en) * 2019-11-11 2021-05-13 Five AI Limited Image processing
US20210141663A1 (en) * 2019-11-12 2021-05-13 Tata Consultancy Services Limited Systems and methods for automatically creating an image processing pipeline
CN110889505A (zh) * 2019-11-18 2020-03-17 北京大学 一种图文序列匹配的跨媒体综合推理方法和系统
CN112541539A (zh) * 2020-12-08 2021-03-23 杭州电子科技大学 一种基于逆迁移学习的小样本目标识别辅助数据挑选方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578423A (zh) * 2023-07-07 2023-08-11 阿里巴巴(中国)有限公司 任务处理方法、自动问答方法以及图像生成方法
CN116578423B (zh) * 2023-07-07 2023-11-28 阿里巴巴(中国)有限公司 任务处理方法、自动问答方法以及图像生成方法

Also Published As

Publication number Publication date
CN113568735B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN113449877B (zh) 用于展示机器学习建模过程的方法及系统
CN109784369A (zh) H5页面测试方法与装置、电子设备、存储介质
CN115049057B (zh) 一种模型部署方法、装置、电子设备和存储介质
CN111401722A (zh) 智能决策方法和智能决策系统
CN114328672A (zh) 一种基于数字孪生的数字农田场景映射同步装置及方法
CN110851326A (zh) 一种埋点方法、数据采集方法和装置
CN113568735B (zh) 数据处理方法及系统
CN111694994B (zh) 信息处理方法及装置
CN114782769A (zh) 训练样本的生成方法、装置、系统及目标对象的检测方法
CN115270923A (zh) 一种基于场景的可视化智能决策方法及系统
CN112965711B (zh) 作业测试方法和装置、电子设备和存储介质
CN111387932A (zh) 一种视力检测方法、装置及设备
CN114489327A (zh) 基于人机交互的反应行为的序列分析方法及系统
CN116523738B (zh) 一种任务触发方法、装置、存储介质以及电子设备
CN116229188B (zh) 图像处理显示方法、分类模型的生成方法及其设备
CN115544672A (zh) 数字孪生仿真方法、系统、装置及服务器
CN115100417A (zh) 图像处理方法、存储介质以及电子设备
CN111176624B (zh) 一种流式计算指标的生成方法及装置
CN115205707B (zh) 样本图像生成方法、存储介质以及电子设备
CN114266723A (zh) 图像处理方法、装置、存储介质以及计算机终端
CN113256392A (zh) 一种基于ar的瓷砖换块装修展示方法、系统和可读存储介质
CN116778330B (zh) 遥感目标提取方法、电子设备以及计算机可读存储介质
Herman 3DmoveR 2.0–Low-cost Application for Usability Testing of 3D Geovisualisations
CN117593782A (zh) 一种视线检测方法、装置、介质及设备
CN108319449B (zh) 一种应用程序架构确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240319

Address after: # 03-06, Lai Zan Da Building 1, 51 Belarusian Road, Singapore

Patentee after: Alibaba Innovation Co.

Country or region after: Singapore

Address before: Room 01, 45th Floor, AXA Building, 8 Shanton Road, Singapore

Patentee before: Alibaba Singapore Holdings Ltd.

Country or region before: Singapore