CN113469205B - 数据处理方法及系统、网络模型及其训练方法、电子设备 - Google Patents
数据处理方法及系统、网络模型及其训练方法、电子设备 Download PDFInfo
- Publication number
- CN113469205B CN113469205B CN202010246275.9A CN202010246275A CN113469205B CN 113469205 B CN113469205 B CN 113469205B CN 202010246275 A CN202010246275 A CN 202010246275A CN 113469205 B CN113469205 B CN 113469205B
- Authority
- CN
- China
- Prior art keywords
- label
- target object
- prediction
- calibration
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000012549 training Methods 0.000 title claims abstract description 93
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 118
- 238000012937 correction Methods 0.000 claims description 156
- 238000012545 processing Methods 0.000 claims description 127
- 238000003062 neural network model Methods 0.000 claims description 65
- 238000010801 machine learning Methods 0.000 claims description 33
- 230000002452 interceptive effect Effects 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 18
- 238000012986 modification Methods 0.000 claims description 15
- 230000004048 modification Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012790 confirmation Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 34
- 230000008569 process Effects 0.000 description 19
- 239000013598 vector Substances 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 16
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002747 voluntary effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种数据处理方法及系统、网络模型及其训练方法、电子设备。其中,方法包括如下的步骤:接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;根据所述请求数据,获取图片;获得与所述图片对应的预测标签;获得与所述预测标签对应的校准标签;将所述图片及所述校准标签关联,生成结果样本。本申请实施例提供的技术方案能够利用自动化方式来有效提高样本生成的效率与准确度,降低标注的时间成本以及人力成本。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、数据处理系统、网络模型、模型训练方法及电子设备。
背景技术
目前,在很多领域都存在需要对图片进行分析识别,以充分挖掘出图片中有价值的信息,便于为相应领域中所涉及的具体业务提供帮助。然而,目前流行的基于深度学习技术的特征提取在训练模型时往往依赖海量的人工标注数据。众包模式作为一种减少经济成本的有效方法虽然被广泛用于大规模视觉数据集的标注,但这种方式只能得到非常稀疏的标注且不可避免地会引入错误标记,因而无法保证标注的质量。
发明内容
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的数据处理方法及系统、网络模型及其训练方法、电子设备。
于是,在本申请的一个实施例中,提供了一种数据处理方法。该方法包括:
接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;
根据所述请求数据,获取图片;
获得与所述图片对应的预测标签;
获得与所述预测标签对应的校准标签;
将所述图片及所述校准标签关联,生成结果样本。
在本申请的另一个实施例中,提供了一种数据处理方法。该方法包括:
对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签;
对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签;
将所述图片及所述至少一个校准标签关联,生成结果样本。
在本申请的又一个实施例中,提供了一种数据处理方法。该数据处理方法包括:
利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到;
利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;
将所述图片与所述至少一个校准标签关联,生成结果样本。
在本申请的又一实施例中,提供了一种模型训练方法。该方法,包括:
获取样本图片及所述样本图片对应的多个类型的校准标签;
将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
基于所述多个输出结果及所述多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
在本申请的一实施例中,提供了一种数据处理系统。该系统,包括:
采集设备,用于采集含有目标对象的图片;
处理设备,用于获取所述采集设备采集到的图片,对所述图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;将所述图片及所述至少一个校准标签关联,生成结果样本。
在本申请的一实施例中,提供了一种网络模型。该模型,包括:
共享网络层,用于对输入的样本图片进行特征提取,以得到特征信息;
多个任务网络层,均位于所述共享网络层的输出端,用于将所述特征信息作为输入,分别执行各任务网络层,以得到各任务网络层对应的多个输出结果;
优化模块,用于根据所述多个输出结果及所述样本图片对应的多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
在本申请的一实施例中,提供了一种电子设备。该设备,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;
根据所述请求数据,获取图片;
获得与所述图片对应的预测标签;
获得与所述预测标签对应的校准标签;
将所述图片及所述校准标签关联,生成结果样本。
在本申请的另一实施例中,提供了一种电子设备。该设备,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签;
对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签;
将所述图片及所述至少一个校准标签关联,生成结果样本。
在本申请的又一实施例中,提供了一种电子设备。该设备,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到;
利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;
将所述图片与所述至少一个校准标签关联,生成结果样本。
在本申请的又一实施例中,提供了一种电子设备。该设备,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取样本图片及所述样本图片对应的多个类型的校准标签;
将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
基于所述多个输出结果及所述多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
本申请实施例提供的一个技术方案中,对图片中的目标对象进行自动标注得到所述目标对象对应的至少一个预测标签,然后对所述目标对象的至少一个预测标签进行纠错处理,以得到准确度更高的至少一个校准标签;本实施例提供的技术方案,标签标注过程无需人为全程干预,图片中目标对象标注效率高,同时还保障了标签的准确度,可为后续以所述图片及所述至少一个校准标签为训练样本的机器学习模型提供高质量的样本数据。
本申请实施例提供的另一个技术方案中,通过获取到的样本图片训练所述多任务学习的神经网络模型并得到多个输出结果;然后基于所述多个输出结果及所述样本图片对应的多个类型的校准标签,实现对所述多任务学习的神经网络模型的优化,以得到一个较优的神经网络模型,利于提高目标对象特征识别的精度。其中,所述样本图片对应的多个类型的校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的,整个过程无需人为全程干预,标注效率高,且准确度高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请一实施例提供的数据处理方法的流程示意图;
图1b为本申请一实施例提供的数据处理方法在具体应用场景下实现的原理性示意图;
图2为本申请一实施例提供的数据处理方法的流程示意图;
图3为本申请一实施例提供的数据处理方法实现的原理性示意图;
图4a为本申请一实施例中为用户提供的可修改标签的交互界面的示意图;
图4b为本申请一实施例提供的可实现所述数据处理方法的系统架构的示意图;
图5为本申请另一实施例提供的数据处理方法的流程示意图;
图6a为本申请另一实施例提供的数据处理方法实现的原理性示意图;
图6b为本申请一实施例提供的带标签的训练样本集的表图;
图6c为本申请一实施例提供的第二数据库中存储的训练样本的表图;
图6d为列举的一图片实例;
图7为本申请一实施例提供的三元组关系的结构图;
图8为本申请一实施例提供的模型训练方法的流程示意图;
图9为本申请一实施例提供的数据处理系统的结构框图;
图10为本申请一实施例提供的神经网络模型的结构框图;
图11为本申请一实施例提供的数据处理装置的结构框图;
图12为本申请另一实施例提供的数据处理装置的结构框图;
图13为本申请一实施例提供的模型训练装置的结构框图;
图14为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
现有技术中,较为流行的提取图片特征的技术为深度学习技术,神经网络和卷积神经网络为两类被广泛应用的深度神经网络模型。其中,深度神经网络是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。根据应用情况不同,深度神经网络的形态和大小也各异,流行的形态和大小正快速演化以提升模型准确性和效率。所有深度神经网络的输入是一套表征网络将加以分析处理的信息值,这些信息值可以是一张图片的像素,或者一段音频的样本振幅或者某系统或者游戏状态的数字化表示。
但是,利用现有的深度神经网络模型提取目标对象的特征信息常需要大量的标注样本进行模型训练,才能更好的完成特征信息的提取。而至今仍缺少高效、精确的自动化方式来减少人工标注成本并获得较优的目标对象特征。
考虑到数据的强标注信息很难获取,现有技术中还存在如下实现方案,即在训练模型时采用弱监督学习方式,通过人工标注一个小数据子集以及结合大量无标注或者只有粗粒度标签的数据进行模型训练。然而大部分弱监督学习方法的性能依赖初始标注子集的质量以及未标注数据的比例,并且需要设计复杂的算法来解决标注程度不一致的问题。在特征学习方面,之前方法往往只是学习一个单类型标签与数据之间端到端的网络架构,如个体标签或者语义标签,这就使得海量数据的网络训练收敛很慢以及学习到的特征难以刻画个体不同层面的差异性,例如同品牌车辆的区分效果不佳等。
为此,本申请各实施例提供一种能有效解决或优化现有技术问题的技术方案。为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,在本申请的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图1a和1b示出了本申请一实施例提供的数据处理方法的流程示意图。如图1a和1b所示,所述方法包括:
S01、接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;
S02、根据所述请求数据,获取图片;
S03、获得与所述图片对应的预测标签;
S04、获得与所述预测标签对应的校准标签;
S05、将所述图片及所述校准标签关联,生成结果样本。
上述S01中,用户可通过交互设备上传请求数据。其中,交互设备可以是触摸屏、语音交互装置等上设置在本方法执行主体上的部件,也可是与本方法执行主体通信连接的智能手机、笔记本电脑、平板电脑、智能穿戴设备等。如图1b所示,用户通过交互设备20上显示的交互界面输入请求数据。例如,用户可通过交互界面输入样本需求,如用于训练车辆识别模型的样本;或用于训练人脸识别模型的样本等等。完成样本需求的输入后,用户可点击界面上的如“生成样本”控件,便可完成上传请求数据的过程。该请求数据可通过网络发送至服务端,由服务端30的设备(如服务器、虚拟服务器、云计算中心等)根据请求数据获取图片,即进入后续步骤S02。服务端30生成的结果样本可返回至交互设备20,以在交互设备20本地对待训练模型进行训练。当然,在用户上传请求数据后,也可由该交互设备20完成如下各步骤。
上述S02中,所述图片可由图像传感器采集得到,也可以从图片集中获取得到。
上述S03中“获得与所述图片对应的预测标签”,的一种可实现的方案是:识别所述图片中的目标对象得到识别结果;基于所述识别结果,对所述目标对象进行标注,以得到所述预测标签。
具体实施时,可直接将识别结果作为所述目标对象对应的预测标签。其中,对所述图片中目标对象的识别可采用图像识别技术,如神经网络模型,实现。有关对所述图片中的目标对象进行标注的内容,可参见下文中的相应内容,在下文中将会详细说明。
上述S04“获得与所述预测标签对应的校准标签”的一种可实现的方案是:对所述预测标签进行纠错处理,得到所述校准标签。在具体实施时,也可利用相应的纠错模型来实现对预测标签的纠错处理。同样的,有关纠错处理的内容,会在下文中展开说明,可参见下文中的相应内容。
上述S05中生成的结果样本可用于训练机器学习模型。该机器学习模型可以是单任务学习的神经网络模型,或是多任务学习的神经网络模型。对于多任务学习的神经网络模型,其训练所需的结果样本中与图片关联的校准标签应该为多个,且类型不同。
本实施例提供的技术方案中,在接收到用户上传请求数据后,便可自动的根据请求数据,获取相应的图片以及与图片对应的预测标签;并获取预测标签对应的标准标签;图片及校准标签关联生成结果样本;生成结果样本的过程,无需人为干预,结果样本生成效率高,且具有一定的准确度,可为后续训练机器学习模型提供了高质量的样本数据。
进一步的,本实施例提供的所述方法还可包括如下步骤:
S06、在交互界面上,显示所述图片及所述校准标签;
S07、响应于用户针对所述校准标签的修改操作,修改所述结果样本中的所述校准标签。
进一步的,所述请求数据还包括:模型训练请求。相应的,本实施例提供的所述方法还可包括如下步骤:
S08、将所述结果样本中的图片作为待训练机器学习模型的输入,执行所述机器学习模型得到输出结果;
S09、根据所述输出结果及所述结果样本中与所述图片关联的校准标签,优化所述机器学习模型。
图2示出了本申请一实施例提供的数据处理方法的流程示意图。本实施例提供的所述方法的执行主体可以是具有逻辑运算功能的电子设备,所述电子设备可以为客户端或服务端。其中,所述客户端可以为手机、平板电脑、智能穿戴设备等任意终端设备;所述服务端可以是常用服务器、云端或虚拟服务器等,本申请实施例对此不作具体限定。具体的,本实施例提供的所述方法,如图2所示,该方法包括:
101、对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签;
102、对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签;
103、将所述图片及所述至少一个校准标签关联,生成结果样本。
上述101中,可利用标注模型完成对目标对象的标注过程。具体实施时,可使用多个用于标注不同类别标签的标注模型对目标对象进行标注。假设目标对象为车辆,则标注模型可包括但不限于如下中的至少一种:车牌号识别模型、车身颜色识别模型、车牌颜色识别模型、车型识别模型、车辆品牌识别模型等等。相应的,得到多种类别对应的预测标签。
即本步骤101“对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签”,可具体包括:利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到。
上述带有标签的样本可理解为是高质量的样本;这些被认定为高质量的样本可由专业工作人员通过相关的标注工具(如Labelme、Sloth、Vatic)对样本图片进行标注得到;也可以基于众包任务服务平台获得,然后利用相应的测评手段筛选出的符合高质量要求的一些样本。
在一种可实现的技术方案中,上述102“对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签”可采用如下步骤实现:
1021、对所述至少一个预测标签进行准确度评估;
1022、在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,对低准确度的预测标签进行纠正,以得到对应的校准标签;
1023、将所述至少一个预测标签中准确度符合预设要求的预测标签,作为所述目标对象对应的校准标签。
上述1021中,对所述至少一个预测标签进行准确度评估可包括但不限于如下中的至少一种实现方案:
A1、获取预测标签对应的置信度;将置信度与第一阈值进行比较,按照比较结果评估所述预测标签的准确度;
A2、利用后验正确识别概率算法,计算预测标签的后验正确识别概率;根据概率计算结果,评估所述预测标签的准确度。
上述1022中“对低准确度的预测标签进行纠正,以得到对应的校准标签”,包括如下中的至少一种实现方案:
B1、统计含有所述目标对象的多个不同图片经标签标注得到的各类预测标签出现的概率向量;并结合所述概率向量及各类预测标签间的混淆矩阵确定所述低准确度的预测标签对应的校准标签;
B2、在所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;其中,所述预测子模型是基于带有标签的样本训练得到。
有关上述A1、A2、B1及B2的更进一步的内容,将在下文中进行描述,具体可参见下文中的相应内容。
参见图3所示,本实施例中对所述图片A中目标对象进行标注得到的至少一个预测标签可存储在第一数据库1中。在具体实施时,至少一个预测标签中可能会存在无法成功完成纠错处理的预测标签,对于这类无法成功完成纠错处理的预测标签,可将其返回至第一数据库1中,待针对所述目标对象的预测标签收集到足够量时,再进行纠错处理。其中,判定所述第一数据库1中针对所述目标对象的预测标签是否收集到足够量,可通过设定一个参照量,当针对目标对象的预测标签的量等于或超过所述参照量时,便可认为针对所述目标对象的预测标签收集量到达足够量。即,本实施例提供的所述方法还可包括如下步骤:
104、将所述图片及所述至少一个预测标签关联的存储到第一数据库中;
105、在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中。
上述103中“将所述图片及所述至少一个校准标签关联,生成结果样本”可采用如下步骤实现:
1031、基于所述至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;
1032、若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述图片及所述至少一个校准标签添加至身份匹配的预置对象对应的第三档案项内,用于作为所述机器学习模型的训练样本;
1033、若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述图片及所述至少一个校准标签添加至所述第四档案项内,用于作为所述机器学习模型的训练样本。
继续参见图3所示,将至少一个校准标签存入第二数据库2。存入过程中,需查询第二数据库2中是否存在有所述目标对象对应的档案项。如图2所示的目标对象为车辆的例子,若至少一个校准标签中含有车牌号标签,可利用车牌号标签来查询第二数据库2中是否存在有相同车牌号的目标对象对应的档案项。或者,将第二数据库2中含有与所述至少一个校准标签相同标签数量最多的档案项,作为所述第三档案项;比如,至少一个校准标签包括:车牌号、车牌颜色、车身颜色、车型等;第二数据库2中存在一目标对象的档案项,其车牌号与至少一个校准标签中的车牌号相同,车牌颜色与至少一个校准标签中的车牌颜色相同,车身颜色与至少一个校准标签中的车牌颜色相同;……;则可认为该档案项记录的车辆身份与至少一个校准标签对应的车辆的身份匹配,为同一车辆。
本实施例提供的技术方案中,对图片中的目标对象进行自动标注得到所述目标对象对应的至少一个预测标签,然后对所述目标对象的至少一个预测标签进行纠错处理,以得到准确度更高的至少一个校准标签;本实施例提供的技术方案,标签标注过程无需人为全程干预,图片中目标对象标注效率高,同时还保障了标签的准确度,可为后续以所述图片及所述至少一个校准标签为训练样本的机器学习模型提供高质量的样本数据。
进一步的,本实施例提供的所述数据处理方法中对图片中目标对象可进行自动标注,并能对自动标注得到的至少一个预测标签进行纠错,以得到至少一个校准标签;整个过程可无人为参与。当然,本实施例提供的方法也可增加人工参与的环节,例如,在得到至少一个校准标签后,可将该至少一个校准标签进行显示;用户可对至少一个校准标签进行修改,以进一步的提高校准标签的准确度。即本实施例提供的所述方法还可包括如下步骤:
106、在交互界面中,显示所述至少一个校准标签;
107、响应于用户针对所述至少一个校准标签的修改操作,展示所述用户针对所述至少一个校准标签的修改结果。
参见图4a所示,本实施例提供的所述方法的执行主体为一带有显示屏或触摸屏的电子设备,在电子设备的处理器完成对所述至少一个预测标签的纠错处理后,便在交互界面上显示纠错处理后得到的所述至少一个校准标签。针对每个校准标签,用户利用电子设备的鼠标、键盘或触摸屏等触发针对至少一个校准标签的修改操作。例如图4a所示的示例,交互界面11上显示有:图片A以及该图片A中车辆的三个校准标签,分别为:车牌号:****;车牌颜色:蓝色;车身颜色:黑色;车型:三厢轿车;车品牌:**品牌。因为图片拍摄光线的问题,用户发现第一校准标签存在问题,该车辆为暗红色;此时,用户可通过该交互界面11,将鼠标标记移动至该校准标签所在的位置,该交互界面显示“修改”控件(如图4a中的标号为12的界面),用户点击该“修改”控件便可将车身颜色黑色修改为暗红色。
进一步的,本实施例提供的所述方法还可包括如下步骤:
108、在交互界面上,显示所述图片及所述至少一个校准标签;
109、响应于用户针对所述图片及所述至少一个校准标签的确认事件,触发将所述图片及所述至少一个校准标签关联,生成结果样本的步骤。
继续参见图4a所示的实例,用户可通过交互界面检查自动标注以及纠错处理后得到的图像中目标对象对应的至少一个校准标签。在检查无误后,用户可通过交互界面上的确认控件121,触发将所述图片及所述至少一个校准标签关联,生成结果样本的步骤。
通过在本实施例提供的数据处理方法中增加用户交互的过程,为用户提供了一个人工参与的接口;本实施例提供的所述数据处理方法可全自动完成无需人工参与;增加了该人工参与的接口后,用户可在需要的时候,通过交互界面切入该过程中。
当然,上述实施例中的图片可以是用户通过交互界面输入的,用户可一次输入一个图片,也可一次性输入多个图片,本实施例对此不作具体限定。例如,图4a所示的标号为10的界面,用户通过交互界面上的输入框,导入或触发调用电子设备的摄像头拍摄图片。
参见图4b所示,用户点击交互界面上的确认控件121后,可将所述图片及所述至少一个校准标签发送至另一设备122,如服务器、用户设备等,以存储至第二数据库中,便于另一设备122能利用所述第二数据库中存储的训练样本,对机器学习模型进行训练以优化所述机器学习模型中的参数。当然,在具体实施时,也可将所述图片及所述至少一个校准标签存储在本地的第二数据库中;本实施例的执行主体可直接利用所述第二数据库中的训练样本对机器学习模型进行训练。
上述实施例中对图片中目标对象的标注及纠错处理均可利用相应的模型实现。具体的,参见图5示出的另一实施例。如图5所示,本实施例提供的数据处理方法包括:
201、利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到;
202、利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;
203、将所述图片与所述至少一个校准标签关联,生成结果样本。
同样的,本实施例提供的方法的执行主体可以是具有逻辑运算功能的电子设备,所述电子设备可以为客户端或服务端。其中,所述客户端可以为手机、平板电脑、智能穿戴设备等任意终端设备;所述服务端可以是常用服务器、云端或虚拟服务器等,本申请实施例对此不作具体限定。
在具体实施时,上述201中所述带有标签的样本可为部分高质量的已标注样本,该已标注样本可以由专业工作人员通过相关的标注工具(如Labelme、Sloth、Vatic)对样本进行标注得到;也可以基于众包任务服务平台获得,然后利用相应的测评手段筛选出的符合高质量要求的一些样本。其中,众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的方式,需求方可以将众包任务通过众包平台发布到互联网上,由互联网的用户完成众包任务,并且用户完成众包任务后还可以获得一定奖励。
在利用带有标签的样本数据进行标注模型训练时,可以基于现有技术(例如:深度网络技术)先构建一个或多个基础模型,再利用所述带有标签的样本数据及样本数据对应的标签对所述基础模型进行模型训练,得到一个或多个标注模型。具体地,也即是将所述带有标签的样本数据作为基础模型的输入,将与样本数据对应的标签作为所述基础模型的输出,从而实现由基础模型得到标注模型。当至少一个所述标注模型接收到输入的未标注图片时,就可以对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签。
举一实际应用场景,如图6a示出的自动为交通摄像头中车辆图片进行标注的应用场景。具体实施时,可以根据车辆对应的标签类型预先构建若干个标注模型(也可理解为基础模型),如图6a中所示的检测模型、分类模型和识别模型。其中,检测模型可用于检测交通摄像头采集的图片中的车辆及车牌检测;分类模型可用于对图片中的车辆类型(轿车、货车、客车、越野车、MVP等车型)进行分类;识别模型可用于识别图片中车辆的属性信息(如车牌号、车牌颜色、车身颜色、车辆品牌等)。当然,除上述几种基础模型外,还可包含其他模型,本申请实施例对此不作具体限定。上述若干个标注模型可分别利用各自对应的带标签的训练样本独立训练得到。当然,多个标注模型各自对应的带标签的训练样本可出自同一训练样本集中。比如,存在如图6b所示的被认定为高质量(可理解为被验证为符合一定要求的数据)带标签的训练样本集。图6b所示的带标签的训练样本集。
对于分类模型来说,可从上述训练样本集中获取样本图片以及与样本图片对应的标签集中车辆类型标签构成用于训练所述分类模型的带标签训练样本。
对于识别模型来说,可从上述训练样本集中获取样本图片以及与样本图片对应的标签集中车身颜色、车辆品牌等构成用于训练所述识别模型的带标签训练样本。
需要说明的是,在构建一个或多个基础模型时,每个基础模型的结构可以相同,以提高模型建立的效率;当然,在一些实施方式中,每个基础模型的结构也可以不同,这样可以提高模型训练后的标注数据精确率。另外,在构建基础模型时,可以利用现有的机器学习模型,如循环神经网络模型、卷积神经网格模型及递归神经网格模型,也可以建立新的网络模型,如针对不同类型的标签设置不同的神经元和连接层的数量以构建新网络模型。
在一可实现的方案中,考虑到所述标注模型对图片中目标对象的标签预测结果不仅受标注模型性能的影响,同时还受图片获取过程中的拍摄光照、角度、视距等多种因素的影响;这些不良因素常会致使同目标对象的一种或多种标签存在错误或不一致的情况,因此可以引入一纠错模型对所述目标对象对应的预测标签的真实性进行评估,并在判定出所述预测标签为错误标签的情况下,对错误标签进行校正处理以得到相应的校准标签。基于此,上述202“利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签”,可具体包括:
2021、利用所述纠错模型中的评估规则,对所述至少一个预测标签进行准确度评估;
2022、在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,利用所述纠错模型中的纠正规则,对低准确度的预测标签进行纠正,以得到对应的校准标签;
2023、将所述至少一个预测标签中准确度符合预设要求的预测标签,作为所述目标对象对应的校准标签。
上述步骤2021中“利用所述纠错模型中的评估规则,对所述至少一个预测标签进行准确度评估”,具体可采用如下方式中的一种或多种来实现:
方法一、获取预测标签对应的置信度;按照所述评估规则将置信度与第一阈值进行比较,并按照比较结果评估所述预测标签的准确度;
具体地,所述至少一个标注模型对待标注图片进行识别后,将会输出目标对象的至少一个预测标签及与所述预测标签对应的置信度,在评估所述预测标签的真实性时,可以将置信度值大于预设的第一阈值对应的所述预测标签视为高准确度的预测标签(亦称为正确标签);反之,将置信度值小于预设的第一阈值对应的所述预测标签视为低准确度的预测标签(亦称为错误标签)。这里,所述置信度与标注模型所采用的具体算法有关,各标注模型输出的预测标签对应置信度是一个已知量。置信度可简单理解为:该待标注图片中所述目标对象具有该预测标签特点的概率。例如,参见图6a中车辆属性对应的标注模型,其在对某一待标注图片中的车辆颜色进行识别时,可得到车辆颜色的预测标签为红色以及该预测标签红色对应的置信度为70%;若第一阈值为60%,该预测标签红色对应的置信度70%大于60%,则可认为该预测标签红色为高准确度的预测标签。
方法二、利用所述评估规则中的后验正确识别概率算法,计算预测标签的后验正确识别概率;根据概率计算结果,评估所述预测标签的准确度。
在一实施例中,利用后验正确识别概率算法评估预测标签时,可以统计所述至少
一个标注模型输出的目标对象对应的各类预测标签所出现的多个概率,并将所述概率作为
所述目标对象的各类预测标签的多个先验概率,基于所述多个先验概率构成一先验概率向
量,以便于得到标注模型标注结果中目标对象各类标签出现的后验概率向量,进而计算出
预测标签的后验正确识别概率(以下简称后验概率)并对预测标签的精确度进行评估。然
而,在实际应用中先验概率是难以直接获取到的,进而也就无法计算后验概率,不过依据信
息论观点,在理想情况下可将标注模型S k的标注结果视为先验概率;另外,考虑到每个标
注模型都存在一定误差范围,为了提升预测标签的后验概率计算精度,可将所述标注模型
的误差矩阵(即混淆矩阵)和先验概率进行结合来计算后验概率。具体地:假定所述标注模
型S k的标注误差为一个N*N的归一化混淆矩阵,其表达式可以参见公式(1):
其中, (i,j=1,2,...,n)为训练样本中第i类标签被标注模型S k标注为第j类
的概率,该矩阵中的第i行表示为训练样本中目标对象的第i类标签被标注为其它各类标签
的概率, ;第j列表示训练样本中目标对象的每类标签被该标注模型S k识别为第j
类的概率;对角线元素为训练样本中目标对象的第i类标签被该标注模型S k正确识别的概
率。
此外,记所述标注模型S k的标注结果中各类标签出现的后验概率为P i k(i=1,2,...,n),相应地,后验概率向量可表示为P k=[P 1 k,P 2 k,...,P n k],将标注模型S k的标注结果视为先验概率,则所述后验概率向量P k满足公式(2):
所述标注模型S k输出的标签证据因子m k经Pignistic转换后的BetP k概率可以看作一种特殊的后验概率表达形式;基于此,根据证据一致性原则,所述预测标签的精确度可以通过BetP k与P k之间的相似关系来得到。因此,所述标注模型S k对应的标注结果P j k(j=1,2,..., n)也就满足公式(3):
基于公式(3),利用混淆矩阵性质和线性相关理论也就可得到预测标签的唯一精确度,即:将所述标签证据因子m k的Pignistic概率用行向量表示为BetP k,BetP k与Pk之间的相似程度可用相关系数表达式(5)来计算:
其中,<,>表示两行向量的内积;|.|为向量的模。所述相关系数即为预测标签的唯一精确度。
例如,设定一标注模型S1的归一化混淆矩阵为:
C M=[0.5 0.4 0.1; 0.15 0.8 0.05; 0.1 0.1 0.8]
该标注模型S1输出的标签证据因子为:
m(A)=0.15,m(B)=0.05,m(C)=0.5,m(ABC)=0.3
此外,所述标注模型S1对目标对象的标签A、标签B及标签C识别的后验概率分别为P A,P C,P B,根据混淆矩阵C M得到:
P A=0.5P A+0.15P B+0.1P C; P B=0.4P A+0.8P B+0.1P C
P C=0.1P A+0.05P B+0.8P C; P A+P C+P B=1
经求解可得P A=0.212, P B=0.546, P C=0.242,进而也就可利用上述公式(5)得到所述预测标签的精确度α=0.66。
在另一实施例中,也可使后验概率最大化来求解所述预测标签的精确度,所述后验概率最大化可通过将贝叶斯公式转换为似然概率和先验概率之间乘积的最大化求得,具体实现可参见现有技术,这里不再具体赘述。
上述步骤2022中“利用所述纠错模型中的纠正规则,对低准确度的预测标签进行纠正,以得到对应的校准标签”,具体可采用如下方式中的一种或多种实现:
方法一、按照所述纠正规则,统计含有所述目标对象的多个不同图片经所述至少一个标注模型识别得到的各类标签出现的概率向量;并结合所述概率向量及各类标签间的混淆矩阵确定所述低准确度的预测标签对应的校准标签;
本实施例中,在对含有所述目标对象的多个不同图片进行采集过程中,即可知道所述不同图片中目标对象对应标签的真实情况;同时,根据所述至少一个标注模型对含有所述目标对象的多个不同图片进行识别得到的输出结果可以确定各类标签出现的概率向量,基于所述概率向量并结合各类标签间的混淆矩阵也就可以确定出所述低准确度的预测标签对应的校准标签。例如,继续参见图6a,以车辆属性对应的车身颜色标签a1,品牌标签b1及车型标签c1为例;假定有150张车辆样本数据,其含有车身颜色标签a1,品牌标签b1及车型标签c1的数量各为50,经车辆属性标注模块对该150张图片进行识别分类后得到的车身颜色标签a1,品牌标签b1及车型标签c1各自对应的概率向量分别为:
Pa1=[43, 5, 2]; Pb1=[2, 45 , 3]; Pc1=[0, 1, 49]
相应地,构建一个3*3的矩阵,将得到车身颜色标签a1,品牌标签b1及车型标签c1各自的概率向量依次填入所述矩阵中,即可得到各类标签间的混淆矩阵(如表2):
表2 混淆矩阵
表2中,第一行第一列的43表示有43个实际归属于标签a1的车辆样本被预测为标签a1,同理,第一行第二列的2表示有2个实际归属于标签a1的车辆样本被错误预测为标签b1。
方法二、针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入所述纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;其中,所述预测子模型是基于带有标签的样本训练得到。
本实施例中,所述预测子模型可选用深度分解机模型来实现。其中,深度分解机模型,它可基于目标对象已有的至少一个校准标签预测出其他类型特征(即标签)。其中,本实施例中所利用的预测子模型也是经过训练后的模型。利用预测子模型,必须在所述目标对象存在有至少一个校准标签的前提下,即存在有高准确度的预测标签以及低准确度的预测标签经纠正后的校准标签。参见,图6a所示,校准标签均被存储在第二数据库中,因此可通过身份比对的方法,在所述第二数据库中查询是否存在与所述目标对象身份匹配的档案项,若存在有,则从与所述目标对象身份匹配的档案项中获取至少一个校准标签;否则,所述目标对象无校准标签。其中,身份比对方法可通过单一属性标签来判断,也可通过多种属性标签匹配融合分数的方法来判断。以图片中目标对象为车辆为例,单一属性标签判断,可以是车牌号一致,则确定两目标对象身份一致;否则身份不一致。通过多种属性标签匹配融合分数的方法判断,如a*颜色一致+b*车型一致+c*品牌一致+……>0.9。其中,a、b、c等为预置权重。
举例来说,第二数据库中存在有如图6c所示的作为训练样本的数据。假设利用至少一个标注模型,对图6d所示的图片中的车辆进行标注得到对应的预测标签,包括:轿车、车牌号:QY.12345、车牌颜色:蓝色、车身颜色:白色、车牌品牌:##牌。通过单一属性标签来判断,第二数据库中存在有车牌号为QY.12345、车牌颜色为蓝色的目标对象,则可确定图6d图片中的车辆与第二数据库中存在有身份匹配的目标对象。
通过多种属性标签匹配融合分数的方法来判断,可以得出:图6d对应车辆的预测标签中轿车与第二数据库中目标对象(如上述表3中)的校准标签轿车一致、车牌号一致、车牌颜色一致、车身颜色一致;而车辆品牌不一致。假设按照上述计算公式,a*车牌颜色一致+b*车型一致+c*车牌号一致+d*车身颜色一致=0.93;0.93>0.9,则可确定图6d图片中的车辆与第二数据库中存在有身份匹配的目标对象。
从第二数据库中获取该目标对象对应的已有的至少一个校准标签,利用所述至少一个校准标签,对车牌品牌(假设预测标签:车牌品牌为低准确度的预测标签)进行纠正。一种方式是,直接预测标签车牌品牌:##牌纠正为第二数据库中该目标对象的车辆品牌:&&牌。另一种方式是,将从第二数据中该目标对象的已有校准标签作为预测子模型(如深度分解机模型)的输入,执行所述深度分解机模型得到低准确度预测标签对应的校准标签。
上述步骤2023中,在所述至少一个预测标签中准确度符合预设要求的预测标签的情况下,将所述至少一个预测标签认为是目标对象的真实标签。
进一步地,上述201“在利用至少一个标注模型对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签”之后,本实施例提供的所述方法,还包括:
201a、以所述至少一个预测标签中的一个预测标签为参照参数,查询第一数据库中是否存在含有与所述参照参数相同标签的第一档案项;
201b、在存在所述第一档案项的情况下,将所述图片及所述至少一个预测标签添加至所述第一档案项内;
201c、在不存在所述第一档案项的情况下,在所述第一数据库中创建第二档案项;将所述图片及所述至少一个预测标签添加至所述第二档案项内。
上述201a中,所述第一数据库用于存储利用至少一个标注模型自动标注的图片及得到的与该图片中目标对象对应的所有预测标签,以便为纠错模型提供纠错数据。且在所述第一数据库中会根据所述目标对象对应的一预测标签和预置的建档规则为每个目标对象构建身份档案(即第一档案项)。相应地,步骤201a中“以所述至少一个预测标签中的一个预测标签为参照参数,查询第一数据库中是否存在含有与所述参照参数相同标签的第一档案项”,具体地可为:当所述第一数据库接收到来自至少一个标注模型所发送的图片及与该图片中目标对象对应的至少一个预测标签时,也就可以以图片中目标对象对应的至少一个预测标签为参照参数,来查询所述第一数据库中是否存在含有与所述参照参数相同标签的第一档案项。
例如,继续参见图6a,由于通过车辆的车牌颜色即可辨别出车辆的类型,如蓝色车牌为普通小型车;黄色车牌为大型车、摩托车、驾校教练车和集装箱货车拖挂;白色车牌为警车以及绿色车牌为新能源车,等等。而车牌号又为标识车辆身份的唯一编码,因此可以在第一数据库303中根据车辆的唯一标识信息(即车牌信息,所述车牌信息包含车牌颜色和车牌号)和预置的建档规则来为每个车辆构建身份档案,建立的具体建身份档案可以参照下表4所示中实线框内的内容。另外,当第一数据中接收到来自至少一个标注模型所发送的新车辆图片及与该新车辆图片中车辆对应的预测标签时,基于每个车辆的身份档案信息(即车辆对应的标签信息,如车牌、品牌、颜色)便于实现所述第一数据库的不断更新。具体地,可以根据车辆身份档案信息中的车牌号和车牌颜色建立车辆索引关系,当第一数据库在接收到来自标注模型发送的新车辆图片及与该新车辆图片中车辆对应的预测标签时,可以将为所述新车辆图片中车辆预测的车牌号和车牌颜色作为参照参数,来遍历查询所述第一数据库中是否存在有与所述参照参数相同标签的第一档案项。
表4第一数据库中车辆对应的身份档案
上述201b中“在存在所述档案项的情况下,将所述图片及所述至少一个预测标签添加至所述第一档案项内”,具体地可为:当在第一数据库中查询到与图片中目标对象对应的至少一个预测标签相同的标签时,则将图片及与所述图片中目标对象对应的所述至少一个预测标签添加至所述第一档案项内;其中,所述图片及与所述图片中目标对象对应的所述至少一个预测标签来自于至少一个标注模型。例如,仍参照图6a,当第一数据库303在接收到来自标注模型发送的新车辆图片c2及与该新车辆图片c2中车辆对应的至少一个预测标签时,经遍历查询所述新车辆图片c2中车辆对应的车牌颜色和车牌号与所述第一数据库中的“沪A.&&&&&_绿色”标签相同之后,可以利用相关算法进一步判定所述新车辆图片c2中车辆与所述第一数据库已有的车辆在视觉上是否为同一辆车(这里排除车牌错误或者套牌车的可能),如果为同一辆车,则将新图片c2和与该新车辆图片c2中车辆对应的至少一个预测标签添加至所述第一档案项内,以完成第一数据库的更新。在将所述至少一个预测标签添加至所述第一档案项内时,可以将相同的标签进行合并处理。
上述201c中“在不存在所述档案项的情况下,在所述第一数据库中创建第二档案项;将所述图片及所述至少一个预测标签添加至所述第二档案项内”,具体地为:当在第一数据库中未查询到与第三图片中目标对象对应的至少一个预测标签相同的标签时,则将所述图片及与所述图片中目标对象对应的所述至少一个预测标签添加至所述第二档案项内,以完成第一数据库的更新;其中,所述图片及与所述图片中目标对象对应的所述至少一个预测标签来自于至少一个标注模型。例如,仍继续参照图6a,当第一数据库303在接收到来自标注模型发送的新车辆图片d1及与该新车辆图片d1中车辆对应的至少一个预测标签时,经遍历查询所述第一数据库中不存在与所述新车辆图片d1中车辆对应的至少一个预测标签时,可以在第一数据库中为所述新车辆图片d1中车辆构建新档案项(即第二档案项),并将所述新车辆图片d1及与该新车辆图片d1中车辆对应的至少一个预测标签(如车牌号D1)添加至新档案项内(参见表4中虚线内的相应内容)。
在另一可实现的方案中,所述纠错模型的纠错数据可为第一数据库中同一档案项内的标签数据。相应地,上述步骤202“利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签”,可具体包括:
2021’、从同一档案项内,获取针对所述目标对象的至少一个预测标签;
2022’、利用纠错规则,对获取到的所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签。
上述步骤2022’的具体实现可参见上述各实施例中相应内容,在此不再赘述。
进一步地,上述方法,还可包括:
203a、基于所述目标对象对应的至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;
203b、若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述图片及所述目标对象对应的至少一个校准标签添加至身份匹配的预置对象对应的第三档案项内,用于作为所述机器学习模型的训练样本;
203c、若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述图片及所述目标对象对应的至少一个校准标签添加至所述第四档案项内。
上述203a至203c的具体实现可参见上述各实施例中相应内容,在此不再赘述。
进一步地,上述方法,还可包括:
204、利用所述纠错模型未成功完成纠错的预测标签,返回至所述第一数据库中相应档案项内。
具体地,对于所述纠错模型当前不可校正的预测标签,可以将所述不可校正的预测标签及与其对应的图片返回至第一数据库中相应档案内。
本申请实施例提供的技术方案,通过利用所述至少一个标注模型对图片中的目标对象进行自动标注得到所述目标对象对应的预测标签,并经纠错模型对所述目标对象的预测标签进行纠错处理,提高了对所述目标对象标注的效率且保障了所述目标对象的标签信息的精确率,可以有效降低标注的时间成本及人力成本,便于为后续以所述图片及所述至少一个校准标签为训练样本的训练模型提供高质量的样本数据。
在一可实现的技术方案中,上述所述机器学习模型为多任务学习的神经网络模型,相应的,上述方法,还包括:
205a、获取多任务学习的神经网络模型;
205b、从所述第二数据库中获取作为训练样本的样本图片及所述样本图片对应的多个类型的校准标签;
205c、将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
205d、基于所述多个输出结果及所述多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化。
上述205a中,所述多任务学习的神经网络模型为事先根据目标对象对应的标签类型特点以及相应任务学习的特点预先构建好的卷积神经网络模型。将在下述各实施例中详细介绍该神经网络模型的具体架构。
上述205b中,所述第二数据库中包含数据信息是利用纠错模型对第一数据库中所述已标注图片及与所述已标注图片对应的预测标签进行纠错处理得到的校准图片以及与所述校准图片对应的校准标签,将所述校准图片及与所述校准图片对应的校准标签作为训练样本的样本图片及所述样本图片对应的多个类型的校准标签,可提高模型的精确度。
在一实施例中,所述多任务学习的神经网络模型包括:共享网络层和多个任务网络层;相应地,上述205c中“将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果”,可具体包括如下步骤:
将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息;
将所述特征信息分别作为所述多个任务网络层的输入,以得到各任务网络层对应的多个输出结果。
本实施例中,所述共享网络层为多任务学习的神经网络模型的底层部分,将所述样本图片输入到所述多任务学习的神经网络模型后,所述共享网络层可以提取出所述样本图片的特征信息,并将所述特性信息共享给多个任务网络层以作为所述多个任务网络层的输入,从而得到所述多任务学习的神经网络模型得到多个输出结果,这有助于提高模型的泛化能力。
上述205d,不同的任务网络层可能对应不同的损失函数,进而基于所述多个输出结果及所述多个类型的校准标签,也就会得到多个损失结果;例如,参见图10,在该图中根据车辆标签和任务学习的特点,构建了一个多任务学习的卷积神经网络,该卷积神经网络模型中有身份分类子网络5021、度量分类子网络5022、以及语义分类子网络5023三个任务分支,所述三个任务分支共享一个共享网络层501所提供的数据信息且分别以不同的损失函数为目标函数。
对于身份分类子网络5021,该子网络的损失函数为间隔损失函数,即基于最大化间隔的角度损失函数(如arcface损失函数),该函数实质上是在softmax损失基础上加上高维特征与分类器的夹角满足一定的间隔关系,以用来增强样本特征的泛化性。这里,所述身份分类子网络对应的第一损失值采用arcface损失函数来计算,具有可参见公式(1):
其中,N为训练样本的总数量,k为分类的总类别,θ为一组网络模型参数。
对于度量分类子网络5022,在该子网络中引入了一车辆三元组关系用于判定两车辆是否属于同一车辆或三辆车所包含的正负样本对;其中,所述正样本对为两样本中含有的辆车为同辆车,所述负样本对为两样本中含有的车辆是不同车辆。例如,参见图7示出的车辆三元组关系结构图,车辆三元组具体构成为:从第二数据集中随机选取一个第一样本A,以及与所述第一样本中车辆属于同一车辆的第二样本P和不同车辆的第三样本N,进而基于此构成一个(第一样本A,所述第二样本,第三样本N)的车辆三元组。由此,所述度量分类子网络对应的度量损失函数可以为triplet loss损失函数,相应地,该子网络输出的第二损失值的计算具有可参见公式(2):
其中, 为当前训练样本a对应的特征表达; 为与当前训练样本a属
于同一类的样本p对应的特征表达; 与当前训练样本a不同一类的样本n对应的特征
表达;+表示[]内的值大于零时,取该L2值为损失值,小于零时,则损失为零。
对于语义分类子网络,该子网络是对车辆的全局语义标签,如颜色、车型、品牌等进行分类预测,使得在训练过程中学到的车辆特征不易受车辆细微结构变化的影响,稳定性较强。这里,所述语义分类子网络对应的损失函数可以为Lifted Struct loss损失函数,相应地,该子网络输出的第三损失值的计算具有可参见公式(3):
其中,P是正样本对的集合,N是负样本对的集合;Dij是样本对{i,j}的距离。
上述205e中,可将多个任务网络层的损失函数进行加权求和,得到全局特征网络的损失函数,并通过反向传播算法进行权重更新来完成对所述多任务学习的神经网络模型的优化。
本申请实施例提供的技术方案,多个任务层网络利于共享网络层输出的公有特征信息进行学习训练,实现可信息共享;同时多个任务层分别对应的不同损失函数,有助于增强特征的泛化性,提高目标对象特征识别的精确率,具有较强的适应性。
图8示出了本申请一实施例提供的模型训练方法的流程示意图。如图8所述,该方法包括:
301、获取样本图片及所述样本图片对应的多个类型的校准标签;
302、将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
303、基于所述多个输出结果及所述多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
上述步骤301至303的具体实现可参见上述各实施例中相应内容,在此不再赘述。
本申请实施例提供的技术方案中,通过获取到的样本图片训练所述多任务学习的神经网络模型并得到多个输出结果;然后基于所述多个输出结果及所述样本图片对应的多个类型的校准标签,计算得到多个损失结果;进而根据所述多个损失结果,实现对所述多任务学习的神经网络模型的优化,以得到一个较优的神经网络模型,利于提高目标对象特征识别的精度。
进一步地,上述中所述多任务学习的神经网络模型包括:共享网络层和多个任务网络层;相应地,上述步骤302“将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果”,具体可采用如下步骤来实现:
3021、将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息;
3022、将所述特征信息分别作为所述多个任务网络层的输入,以得到各任务网络层对应的多个输出结果。
上述步骤3021至3022的具体实现可参见上述各实施例中相应内容,在此不再赘述。
再进一步地,上述所述共享网络层包括:共享卷积神经网络及全局池化层;相应地,上述步骤3021“将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息”,具体可采用如下步骤来实现:
S11、将所述样本图片作为所述共享卷积神经网络的输入,利用所述共享卷积神经网络对所述样本图片进行特征提取,得到特征图;
S12、利用所述全局池化层,对所述特征图进行简化,以得到简化后的所述特征信息。
上述中,在利用共享卷积网络对样本图片进行特征提取后会得到一系列的特征图片;使用全局池化层空可将降低所述特征图的维度,以提高后期的计算效率。
这里需要说明的是:本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述各实施例中的相应内容,此处不再赘述。此外,本申请实施例提供的所述方法中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
图9示出了本申请一实施例提供的数据处理系统的结构示意图,如图9所述,该数据处理系统,包括:采集设备401和处理设备402;其中,
所述采集设备401,用于采集含有目标对象的图片;
所述处理设备402,用于获取所述采集设备采集到的图片,对所述图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;将所述图片及所述至少一个校准标签关联,生成结果样本。
具体的,所述处理设备402上设有交互装置,如触摸屏、键盘、鼠标等,用户可通过交互装置上传请求数据。所述处理设备在接收到该请求数据后,便启动生成结果样本的操作。其中,生成结果样本的操作即上文中提及的过程:对所述图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;将所述图片及所述至少一个校准标签关联,生成结果样本。具体实施时,所述处理设备可以是台式计算机、笔记电脑、智能穿戴设备或智能手机等。
或者,所述数据处理系统还包括交互设备。参见图1b所示的系统,该交互设备20用于接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;将所述请求数据发送至所述处理设备,以触发所述处理设备启动生成结果样本的操作。相应的,所述处理设备可以服务端设备30,如服务器、部署在服务集群上的虚拟服务器或云端等等,本实施例对此不作具体限定。所述交互设备可以与服务端设备通信连接的客户端设备,如台式计算机、笔记电脑、智能穿戴设备或智能手机等。
进一步地,该数据处理系统,还可包括:第一数据库403。所述第一数据库403,用于以所述至少一个预测标签中的一个预测标签为参照参数,查询第一数据库中是否存在含有与所述参照参数相同标签的第一档案项;在存在所述第一档案项的情况下,将所述图片及所述至少一个预测标签添加至所述第一档案项内;在不存在所述第一档案项的情况下,在所述第一数据库中创建第二档案项;将所述图片及所述至少一个预测标签添加至所述第二档案项内。
进一步地,该数据处理系统,还可包括:第二数据库404。所述第二数据库404,为待训练机器学习模型提供训练样本,用于基于所述目标对象对应的至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述结果样本添加至身份匹配的预置对象对应的第三档案项内;若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述结果样本添加至所述第四档案项内。
进一步地,所述处理设备402,还用于从所述第二数据库中获取结果样本;将所述结果样本中的图片作为机器学习模型的输入,执行所述机器学习模型得到至少一个输出结果;基于所述至少一个输出结果及所述结果样本中的至少一个校准标签,对所述机器学习模型进行优化。
本实施例提供的技术方案中,通过对图片中的目标对象进行自动标注得到所述目标对象对应的预测标签,并经纠错得到预测标签对应的校准标签,提高了对所述目标对象标注的效率且保障了所述目标对象的标签信息的精确率,可以有效降低标注的时间成本及人力成本,同时为后续以所述图片及所述至少一个校准标签为训练样本的训练模型提供高质量的样本数据,使得能够获得较优的神经网络模型。
这里需要说明的是:本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述各实施例中的相应内容,此处不再赘述。此外,本申请实施例提供的所述方法中除了上述各步骤以外,还可包括上述各实施例中其他部分或全部步骤,具体可参见上述各实施例相应内容,在此不再赘述。
图10示出了本申请一实施例提供的神经网络模型的结构示意图。如图10所述,该神经网络模型包括:共享网络层501、多个任务网络层502和优化模块503;其中,
所述共享网络层501,用于对输入的样本图片进行特征提取,以得到特征信息;
所述多个任务网络层502,均位于所述共享网络层501的输出端,用于将所述特征信息作为输入,分别执行各任务网络层,以得到各任务网络层对应的多个输出结果;
所述优化模块503,用于根据所述多个输出结果及所述样本图片对应的多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化。
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
进一步地,所述多个任务网络层502包括:身份子网络5021、度量分类子网络5022和语义分类子网络5023;其中,
所述身份分类子网络5021,用于识别目标对象的类型、属性、唯一标识;
所述度量分类子网络5022,用于根据目标对象的元组关系,确定多个所述目标对象之间包含的正负样本对;
所述语义分类子网络5023,用于对目标的全局语义标签进行分类预测,其中,所述全局语义类标签至少包括以下任一项:颜色、类型、品牌;
其中,所述身份分类子网络对应的损失函数为间隔损失函数、所述度量分类子网络对应的损失函数为度量损失函数、所述语义分类子网络对应的损失函数度为分类损失函数。
本实施例提供的技术方案中,所述神经网络模型由共享网络层、多个任务网络层和优化模块组成,多个任务网络层均设有各自对应的损失函数且所述多个任务网络层均基于所述共享网络层的输出公有特征进行训练学习,保证了实现信息共享的同时,可使具有共性的任务更好地结合相关性信息,利于提高训练效率,提升目标识别的精确率。
图11示出了本申请一实施例提供的数据处理装置的结构框图。如图11所示,所述数据处理装置包括:接收模块51、获取模块52及生成模块53。其中,所述接收模块51用于接收用户上传的请求数据,其中,所述请求数据包括样本生成请求。所述获取模块52用于根据所述请求数据,获取图片;还用于获得与所述图片对应的预测标签;还用于获得与所述预测标签对应的校准标签;生成模块53用于将所述图片及所述校准标签关联,生成结果样本。
进一步的,所述获取模块52在获得与所述目标图片对应的预测标签时,具体用于:识别所述图片中的目标对象,得到识别结果;基于所述识别结果,对所述目标对象进行标注,以得到所述预测标签。
进一步的,所述获取模块52在获得与所述预测标签对应的校准标签时,具体用于:对所述预测标签进行纠错处理,得到所述校准标签。
进一步的,所述数据处理装置还可包括:显示模块及修改模块。其中,所述显示模块用于在交互界面上,显示所述图片及所述校准标签;所述修改模块用于响应于用户针对所述校准标签的修改操作,修改所述结果样本中的所述校准标签。
进一步的,所述请求数据还包括:模型训练请求。相应的,本实施例提供的所述数据处理装置还包括执行模块及优化模块。其中,执行模块用于将所述结果样本中的图片作为待训练机器学习模型的输入,执行所述机器学习模型得到输出结果。所述优化模块用于根据所述输出结果及所述结果样本中与所述图片关联的校准标签,优化所述机器学习模型。
这里需要说明的是:上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
图12示出了本申请一实施例提供的数据处理装置的结构框图。如图12所示,该数据处理装置包括:标注模块601、纠错模块602及关联模块603。其中,所述标注模块601,用于对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签。所述纠错模块602,用于对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签;所述关联模块603将所述图片及所述至少一个校准标签关联,生成结果样本。
本实施例提供的技术方案中,通对图片中的目标对象进行自动标注得到所述目标对象对应的预测标签,还能对所述目标对象的预测标签进行纠错处理,得到相应的校准标签;提高了对所述目标对象标注的效率的同时,还保障了所述目标对象的标签信息的精确率,可为后续以所述图片及所述至少一个校准标签为训练样本的训练模型提供高质量的样本数据。
进一步地,本实施例提供的所述装置还可包括显示模块。该显示模块用于在交互界面中,显示所述至少一个校准标签;响应于用户针对所述至少一个校准标签的修改操作,展示所述用户针对所述至少一个校准标签的修改结果。
进一步的,本实施例提供的所述装置还包括显示模块及触发模块。其中,所述显示模块用于在交互界面上,显示所述图片及所述至少一个校准标签;所述触发模块用于响应于用户针对所述图片及所述至少一个校准标签的确认事件,触发将所述图片及所述至少一个校准标签关联,生成结果样本的步骤。
进一步的,在所述标注模块601对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签时,具体用于利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到。
进一步的,在所述纠错模块602对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签时,具体用于对所述至少一个预测标签进行准确度评估;在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,对低准确度的预测标签进行纠正,以得到对应的校准标签;将所述至少一个预测标签中准确度符合预设要求的预测标签,作为所述目标对象对应的校准标签。
进一步的,在所述纠错模块602对所述至少一个预测标签进行准确度评估时,具体用于:
获取预测标签对应的置信度;将置信度与第一阈值进行比较,按照比较结果评估所述预测标签的准确度;和/或
利用后验正确识别概率算法,计算预测标签的后验正确识别概率;根据概率计算结果,评估所述预测标签的准确度。
进一步的,在所述纠错模块602对低准确度的预测标签进行纠正,以得到对应的校准标签时,具体用于:
统计含有所述目标对象的多个不同图片经标签标注得到的各类预测标签出现的概率向量;并结合所述概率向量及各类预测标签间的混淆矩阵确定所述低准确度的预测标签对应的校准标签;和/或
在所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;其中,所述预测子模型是基于带有标签的样本训练得到。
进一步的,本实施例提供的所述装置还包括存储模块。该存储模块用于将所述图片及所述至少一个预测标签关联的存储到第一数据库中;在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中。
进一步的,所述关联模块603在将所述图片及所述至少一个校准标签关联,生成结果样本时,具体用于:
基于所述至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;
若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述图片及所述至少一个校准标签添加至身份匹配的预置对象对应的第三档案项内,用于作为所述机器学习模型的训练样本;
若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述图片及所述至少一个校准标签添加至所述第四档案项内,用于作为所述机器学习模型的训练样本。
这里需要说明的是:上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
本申请另一实施例提供一种数据处理装置。该数据处理装置的结构同上述图12所示的结构。具体的,所述数据处理装置包括:标注模块、纠错模块及关联模块。其中,标注模块用于利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到。纠错模块用于利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签。关联模块用于将所述图片与所述至少一个校准标签关联,生成结果样本。
进一步的,所述纠错模块,包括:评估单元和纠正单元,其中,
所述评估单元,用于利用所述纠错模型中的评估规则,对所述至少一个预测标签进行准确度评估;
所述纠正单元,具体用于:在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,利用所述纠错模型中的纠正规则,对低准确度的预测标签进行纠正,以得到对应的校准标签;将所述至少一个预测标签中准确度符合预设要求的预测标签,作为所述目标对象对应的校准标签。
进一步地,所述评估单元在对所述至少一个预测标签进行准确度评估时,可采用以下中的一种或多种方式:
获取预测标签对应的置信度;按照所述评估规则将置信度与第一阈值进行比较,并按照比较结果评估所述预测标签的准确度;和/或,
利用所述评估规则中的后验正确识别概率算法,计算预测标签的后验正确识别概率;根据概率计算结果,评估所述预测标签的准确度。
相应地,所述纠正单元对低准确度的预测标签进行纠正以得到对应的校准标签,可采用以下中的一种或多种方式:
按照所述纠正规则,统计含有所述目标对象的多个不同图片经所述至少一个第一标注模型识别得到的各类预测标签出现的概率向量;并结合所述概率向量及各类预测标签间的混淆矩阵确定所述低准确度的预测标签对应的校准标签;和/或,
针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入所述纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;其中,所述预测子模型是基于带有标签的样本训练得到。
进一步的,所述数据处理装置还包括查询模块;其中,所述查询模块,具体用于:以所述至少一个预测标签中的一个预测标签为参照参数,查询第一数据库中是否存在含有与所述参照参数相同标签的第一档案项;在存在所述第一档案项的情况下,将所述图片及所述至少一个预测标签添加至所述第一档案项内;在不存在所述第一档案项的情况下,在所述第一数据库中创建第二档案项;将所述图片及所述至少一个预测标签添加至所述第二档案项内。相应地,
进一步的,所述纠错模块,还具体用于:从同一档案项内,获取针对所述目标对象的至少一个预测标签;利用纠错规则,对获取到的所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签。
进一步的,所述查询模块,还用于:
基于所述目标对象对应的至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;
若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述图片及所述目标对象对应的至少一个校准标签添加至身份匹配的预置对象对应的第三档案项内,用于作为所述机器学习模型的训练样本;
若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述图片及所述目标对象对应的至少一个校准标签添加至所述第四档案项内。
进一步地,所述机器学习模型为多任务学习的神经网络模型,相应地,所述数据装置,还包括:第一获取模块、第二获取模块,执行模块、运算模块和优化模块;其中,
所述第一获取模块,用于获取多任务学习的神经网络模型;
所述第二获取模块,用于从所述第二数据库中获取作为训练样本的样本图片及所述样本图片对应的多个类型的校准标签;
所述执行模块,用于将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
所述运算模块,用于基于所述多个输出结果及所述多个类型的校准标签,计算得到多个损失结果;
所述优化模块,用于利用所述多个损失结果,对所述共享网络层和所述多个任务网络层进行优化。
再进一步地,所述多任务学习的神经网络模型包括:共享网络层和多个任务网络层,相应地,所述执行模块,具体用于:将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息;将所述特征信息分别作为所述多个任务网络层的输入,以得到各任务网络层对应的多个输出结果。
进一步的,所述数据处理装置,还包括:返回模块,所述返回模块用于将利用所述纠错模型未成功完成纠错的预测标签,返回至所述第一数据库中相应档案项内。
本实施例所述的数据处理装置可以执行图5所示实施例所述的数据处理方法,其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、标注模型执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图13示出了本申请一实施例提供的模型训练装置的结构框图。如图13所述,该模型训练装置,包括:获取模块801,执行模块802及优化模块803;其中,获取模块801,用于获取样本图片及所述样本图片对应的多个类型的校准标签。执行模块802,用于将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果。优化模块803用于基于所述多个输出结果及所述多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化。
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
进一步地,所述多任务学习的神经网络模型包括:共享网络层和多个任务网络层;相应地,所述执行模块802,包括:特征提取单元和多任务执行单元;其中,
所述特征提取单元,用于将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息;
所述多任务执行单元,用于将所述特征信息分别作为所述多个任务网络层的输入,以得到各任务网络层对应的多个输出结果。
进一步地,所述共享网络层包括:共享卷积神经网络及全局池化层;相应地,所述特征提取单元,具体用于:
将所述样本图片作为所述共享卷积神经网络的输入,利用所述共享卷积神经网络对所述样本图片进行特征提取,得到特征图;
利用所述全局池化层,对所述特征图进行简化,以得到简化后的所述特征信息。
图13所述的模型训练装置可以执行图8所示实施例所述的模型训练方法,其实现原理和技术效果不再赘述。对于上述实施例中的模型训练装置中各个模块或单元执行操作的具体实现方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图14示出了本申请一实施例提供的电子设备的结构示意图。如图14所示,所述电子设备包括存储器901以及处理器902。存储器901可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器901可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
所述处理器902,与所述存储器901耦合,用于执行所述存储器901中存储的所述程序,以用于:
接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;
根据所述请求数据,获取图片;
获得与所述图片对应的预测标签;
获得与所述预测标签对应的校准标签;
将所述图片及所述校准标签关联,生成结果样本。
其中,处理器902在执行存储器901中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图14所示,电子设备还包括:显示器903、通信组件905、电源组件904等其它组件。图14中仅示意性给出部分组件,并不意味着电子设备只包括图14所示组件。
本申请另一实施例还提供一种电子设备。该电子设备的结构与图14所示结构相同。具体的,所述电子设备包括存储器和处理器。其中,所述存储器,用于存储程序;所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签;
对所述至少一个预测标签进行纠错处理,得到所述目标对象对应的至少一个校准标签;
将所述图片及所述至少一个校准标签关联,生成结果样本。
其中,处理器在执行存储器中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
本申请另一实施例还提供一种电子设备。该电子设备的结构与图14所示结构相同。具体的,所述电子设备包括存储器和处理器。其中,所述存储器,用于存储程序;所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到;
利用纠错模型,对所述至少一个预测标签进行纠错处理,以获得所述目标对象对应的至少一个校准标签;
将所述图片与所述至少一个校准标签关联,生成结果样本。
其中,处理器在执行存储器中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的数据处理方法步骤或功能。
本申请又一实施例提供的电子设备,同样的结构同上述图14。具体的,所述电子设备包括存储器和处理器,其中,所述存储器,用于存储程序;所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取样本图片及所述样本图片对应的多个类型的校准标签;
将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
基于所述多个输出结果及所述多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的。
同样的,处理器在执行存储器中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的模型训练方法步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (30)
1.一种数据处理方法,其特征在于,包括:
接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;
根据所述请求数据,获取图片;
获得与所述图片中目标对象对应的预测标签,并存储在第一数据库中;
在评估出所述预测标签的准确度不符合预设要求时,对所述预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;
若所述预测标签无法成功完成纠错处理,则将所述预测标签返回至所述第一数据库中,以待针对所述目标对象的预测标签收集的量等于或超过设定的参照量后,再进行纠错处理;
若所述预测标签成功完成纠错处理,则获得与所述预测标签对应的校准标签;将所述图片及所述校准标签关联,生成结果样本。
2.根据权利要求1所述的方法,其特征在于,获得与所述图片中目标对象对应的预测标签,包括:
识别所述图片中的目标对象,得到识别结果;
基于所述识别结果,对所述目标对象进行标注,以得到所述预测标签。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
在交互界面上,显示所述图片及所述校准标签;
响应于用户针对所述校准标签的修改操作,修改所述结果样本中的所述校准标签。
4.根据权利要求1或2所述的方法,其特征在于,所述请求数据还包括:模型训练请求;以及
所述方法还包括:
将所述结果样本中的图片作为待训练机器学习模型的输入,执行所述机器学习模型得到输出结果;
根据所述输出结果及所述结果样本中与所述图片关联的校准标签,优化所述机器学习模型。
5.一种数据处理方法,其特征在于,包括:
对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签;
将所述图片及所述至少一个预测标签关联的存储到第一数据库中;
对所述至少一个预测标签进行准确度评估;
在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,对低准确度预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;
在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中,待针对所述目标对象的预测标签收集到的量等于或超过设定参照量时,再进行纠错处理;
在所述至少一个预测标签成功完成纠错处理时,得到所述目标对象对应的至少一个校准标签;
将所述图片及所述至少一个校准标签关联,生成结果样本。
6.根据权利要求5所述的方法,其特征在于,还包括:
在交互界面中,显示所述至少一个校准标签;
响应于用户针对所述至少一个校准标签的修改操作,展示所述用户针对所述至少一个校准标签的修改结果。
7.根据权利要求5所述的方法,其特征在于,还包括:
在交互界面上,显示所述图片及所述至少一个校准标签;
响应于用户针对所述图片及所述至少一个校准标签的确认事件,触发将所述图片及所述至少一个校准标签关联,生成结果样本的步骤。
8.根据权利要求5至7中任一项所述的方法,其特征在于,对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签,包括:
利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;
其中,标注模型是基于带有标签的样本训练得到。
9.根据权利要求5至7中任一项所述的方法,其特征在于,还包括:
将所述至少一个预测标签中准确度符合预设要求的预测标签,作为所述目标对象对应的校准标签。
10.根据权利要求5所述的方法,其特征在于,对所述至少一个预测标签进行准确度评估,包括如下中的至少一种:
获取预测标签对应的置信度;将置信度与第一阈值进行比较,按照比较结果评估所述预测标签的准确度;
利用后验正确识别概率算法,计算预测标签的后验正确识别概率;根据概率计算结果,评估所述预测标签的准确度。
11.根据权利要求5所述的方法,其特征在于,将所述图片及所述至少一个校准标签关联,生成结果样本,包括:
基于所述至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;
若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述结果样本添加至身份匹配的预置对象对应的第三档案项内;
若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述结果样本添加至所述第四档案项内。
12.一种数据处理方法,其特征在于,包括:
利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到;
将所述图片及所述至少一个预测标签关联的存储到第一数据库中;
利用纠错模型中的评估规则,对所述至少一个预测标签进行准确度评估;
在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,利用所述纠错模型中的纠正规则对低准确度预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入所述纠正规则指定的预测子模型,以通过执行所述预测子模型得到所述低准确度预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;
在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中,待针对所述目标对象的预测标签收集到的量等于或超过设定参照量时,再进行纠错处理;
在所述至少一个预测标签成功完成纠错处理时,获得所述目标对象对应的至少一个校准标签;
将所述图片与所述至少一个校准标签关联,生成结果样本。
13.根据权利要求12所述的方法,其特征在于,还包括:
将所述至少一个预测标签中准确度符合预设要求的预测标签,作为所述目标对象对应的校准标签。
14.根据权利要求12所述的方法,其特征在于,利用所述纠错模型中的评估规则,对所述至少一个预测标签进行准确度评估,包括如下中的至少一种:
获取预测标签对应的置信度;按照所述评估规则将置信度与第一阈值进行比较,并基于比较结果评估所述预测标签的准确度;
利用所述评估规则中的后验正确识别概率算法,计算预测标签的后验正确识别概率;根据概率计算结果,评估所述预测标签的准确度。
15.根据权利要求12至14中任一项所述的方法,其特征在于,将所述图片及所述至少一个预测标签关联的存储到第一数据库中,包括:
以所述至少一个预测标签中的一个预测标签为参照参数,查询第一数据库中是否存在含有与所述参照参数相同标签的第一档案项;
在存在所述第一档案项的情况下,将所述图片及所述至少一个预测标签添加至所述第一档案项内;
在不存在所述第一档案项的情况下,在所述第一数据库中创建第二档案项;将所述图片及所述至少一个预测标签添加至所述第二档案项内。
16.根据权利要求12所述的方法,其特征在于,还包括:
基于所述目标对象对应的至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;
若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述结果样本添加至身份匹配的预置对象对应的第三档案项内;
若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述结果样本添加至所述第四档案项内。
17.一种模型训练方法,其特征在于,包括:
获取样本图片及所述样本图片对应的多个类型的校准标签;
将所述样本图片作为多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
基于所述多个输出结果及所述多个类型的校准标签,对共享网络层和多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,预测标签是对所述样本图片中的目标对象进行标注得到的;
所述样本图片及所述目标对象对应的预测标签存储在第一数据库中,所述预测标签无法成功完成纠错处理时,被返回至第一数据库中,待针对所述目标对象的预测标签收集的量等于或超过设定的参照量后,再进行纠错处理;
在对准确度不符合预设要求的预测标签进行纠错处理时,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签。
18.根据权利要求17所述的方法,其特征在于在,所述多任务学习的神经网络模型包括:共享网络层和多个任务网络层;以及
将所述样本图片作为所述多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果,包括:
将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息;
将所述特征信息分别作为所述多个任务网络层的输入,以得到各任务网络层对应的多个输出结果。
19.根据权利要求18所述的方法,其特征在于,所述共享网络层包括:共享卷积神经网络及全局池化层;以及
将所述样本图片作为所述多任务学习的神经网络模型的输入,利用所述共享网络层对所述样本图片进行特征提取,以得到特征信息,包括:
将所述样本图片作为所述共享卷积神经网络的输入,利用所述共享卷积神经网络对所述样本图片进行特征提取,得到特征图;
利用所述全局池化层,对所述特征图进行简化,以得到简化后的所述特征信息。
20.一种数据处理系统,其特征在于,包括:
采集设备,用于采集含有目标对象的图片;
处理设备,用于获取所述采集设备采集到的图片,对所述图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;将所述图片及所述至少一个预测标签关联的存储到第一数据库中;在评估出所述预测标签的准确度不符合预设要求时,对所述至少一个预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中,待针对所述目标对象的预测标签收集到的量等于或超过设定参照量时,再进行纠错处理;在所述至少一个预测标签成功完成纠错处理时,获得所述目标对象对应的至少一个校准标签;将所述图片及所述至少一个校准标签关联,生成结果样本。
21.根据权利要求20所述的系统,其特征在于,还包括:
交互设备,用于接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;将所述请求数据发送至所述处理设备,以触发所述处理设备启动生成结果样本的操作。
22.根据权利要求20所述的系统,其特征在于,还包括:
所述第一数据库,用于以所述至少一个预测标签中的一个预测标签为参照参数,查询第一数据库中是否存在含有与所述参照参数相同标签的第一档案项;在存在所述第一档案项的情况下,将所述图片及所述至少一个预测标签添加至所述第一档案项内;在不存在所述第一档案项的情况下,在所述第一数据库中创建第二档案项;将所述图片及所述至少一个预测标签添加至所述第二档案项内。
23.根据权利要求22所述的系统,其特征在于,还包括:
第二数据库,用于基于所述目标对象对应的至少一个校准标签,与第二数据库中所含至少一个预置对象进行身份对比验证,以查询是否存在与所述目标对象身份匹配的预置对象;若所述第二数据库中存在有与所述目标对象身份匹配的预置对象,则将所述结果样本添加至身份匹配的预置对象对应的第三档案项内;若所述第二数据库中无与所述目标对象身份匹配的预置对象,则在所述第二数据库中新建第四档案项,将所述结果样本添加至所述第四档案项内。
24.根据权利要求23所述的系统,其特征在于,
所述处理设备,还用于从所述第二数据库中获取结果样本;将所述结果样本中的图片作为机器学习模型的输入,执行所述机器学习模型得到至少一个输出结果;基于所述至少一个输出结果及所述结果样本中的至少一个校准标签,对所述机器学习模型进行优化。
25.一种网络模型,其特征在于,包括:
共享网络层,用于对输入的样本图片进行特征提取,以得到特征信息;
多个任务网络层,均位于所述共享网络层的输出端,用于将所述特征信息作为输入,分别执行各任务网络层,以得到各任务网络层对应的多个输出结果;
优化模块,用于根据所述多个输出结果及所述样本图片对应的多个类型的校准标签,对所述共享网络层和所述多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的;
所述样本图片及所述目标对象对应的预测标签存储在第一数据库中,所述预测标签无法成功完成纠错处理时,被返回至第一数据库中,待针对所述目标对象的预测标签收集的量等于或超过设定的参照量后,再进行纠错处理;
在对准确度不符合预设要求的预测标签进行纠错处理时,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签。
26.根据权利要求25所述的模型,其特征在于,所述多个任务网络层包括:身份分类子网络、度量分类子网络和语义分类子网络。
27.一种电子设备,其特征在于,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
接收用户上传的请求数据,其中,所述请求数据包括样本生成请求;
根据所述请求数据,获取图片;
获得与所述图片中目标对象对应的预测标签,并存储在第一数据库中;
在评估出所述预测标签的准确度不符合预设要求时,对所述预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;若所述预测标签无法成功完成纠错处理,则将所述预测标签返回至所述第一数据库中,以待针对所述目标对象的预测标签收集的量等于或超过设定的参照量后,再进行纠错处理;
若所述预测标签成功完成纠错处理,则获得与所述预测标签对应的校准标签;
将所述图片及所述校准标签关联,生成结果样本。
28.一种电子设备,其特征在于,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
对图片中的目标对象进行标注,得到所述目标对象对应的至少一个预测标签;
将所述图片及所述至少一个预测标签关联的存储到第一数据库中;
对所述至少一个预测标签进行准确度评估;
在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,对低准确度至少一个预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;
在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中,待针对所述目标对象的预测标签收集到的量等于或超过设定参照量时,再进行纠错处理;
在所述至少一个预测标签成功完成纠错处理时,得到所述目标对象对应的至少一个校准标签;
将所述图片及所述至少一个校准标签关联,生成结果样本。
29.一种电子设备,其特征在于,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
利用至少一个标注模型,对图片中的目标对象进行标注得到所述目标对象对应的至少一个预测标签;其中,标注模型是基于带有标签的样本训练得到;
将所述图片及所述至少一个预测标签关联的存储到第一数据库中;
利用纠错模型中的评估规则,对所述至少一个预测标签进行准确度评估;
在评估出所述至少一个预测标签中存在准确度不符合预设要求的低准确度预测标签时,利用所述纠错模型中的纠正规则对低准确度预测标签进行纠错处理;其中,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入所述纠正规则指定的预测子模型,以通过执行所述预测子模型得到所述低准确度预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签;
在所述至少一个预测标签中存在无法成功完成纠错处理的预测标签时,将无法成功完成纠错处理的预测标签返回至第一数据库中,待针对所述目标对象的预测标签收集到的量等于或超过设定参照量时,再进行纠错处理;
在所述至少一个预测标签成功完成纠错处理时,获得所述目标对象对应的至少一个校准标签;
将所述图片与所述至少一个校准标签关联,生成结果样本。
30.一种电子设备,其特征在于,包括:存储器和处理器,其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取样本图片及所述样本图片对应的多个类型的校准标签;
将所述样本图片作为多任务学习的神经网络模型的输入,执行所述多任务学习的神经网络模型得到多个输出结果;
基于所述多个输出结果及所述多个类型的校准标签,对共享网络层和多个任务网络层进行优化;
其中,校准标签是对样本图片对应的预测标签进行纠错处理得到的,所述预测标签是对所述样本图片中的目标对象进行标注得到的;
所述样本图片及所述目标对象对应的预测标签存储在第一数据库中,所述预测标签无法成功完成纠错处理时,被返回至第一数据库中,待针对所述目标对象的预测标签收集的量等于或超过设定的参照量后,再进行纠错处理;
在对准确度不符合预设要求的预测标签进行纠错处理时,针对所述目标对象存在有至少一个校准标签的情况下,将所述目标对象已有的至少一个校准标签输入纠正规则指定的预测子模型,以通过执行所述预测子模型得到低准确度的预测标签对应的校准标签;所述目标对象已有的至少一个校准标签存储在第二数据库中;所述预测子模型可基于目标对象已有的至少一个校准标签预测出其他类型标签;利用预测子模型需在所述目标对象存在有至少一个校准标签的前提下,即存在有高精度的预测标签以及低准确度的预测标签经纠正后的校准标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246275.9A CN113469205B (zh) | 2020-03-31 | 2020-03-31 | 数据处理方法及系统、网络模型及其训练方法、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246275.9A CN113469205B (zh) | 2020-03-31 | 2020-03-31 | 数据处理方法及系统、网络模型及其训练方法、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469205A CN113469205A (zh) | 2021-10-01 |
CN113469205B true CN113469205B (zh) | 2023-01-17 |
Family
ID=77865644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010246275.9A Active CN113469205B (zh) | 2020-03-31 | 2020-03-31 | 数据处理方法及系统、网络模型及其训练方法、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469205B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114663143B (zh) * | 2022-03-21 | 2024-06-28 | 平安健康保险股份有限公司 | 基于差分干预响应模型的干预用户筛选方法及装置 |
CN115100731B (zh) * | 2022-08-10 | 2023-03-31 | 北京万里红科技有限公司 | 一种质量评价模型训练方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960232A (zh) * | 2018-06-08 | 2018-12-07 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
CN110097075A (zh) * | 2019-03-21 | 2019-08-06 | 国家海洋信息中心 | 基于深度学习的海洋中尺度涡分类识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104601442B (zh) * | 2014-12-04 | 2019-02-12 | Oppo广东移动通信有限公司 | 一种信息更新方法及装置 |
CN109784427A (zh) * | 2017-11-14 | 2019-05-21 | 青岛海尔洗衣机有限公司 | 一种衣物识别装置及其控制方法 |
CN109345515B (zh) * | 2018-09-17 | 2021-08-17 | 代黎明 | 样本标签置信度计算方法、装置、设备及模型训练方法 |
CN110288007B (zh) * | 2019-06-05 | 2021-02-02 | 北京三快在线科技有限公司 | 数据标注的方法、装置及电子设备 |
CN110738263B (zh) * | 2019-10-17 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 一种图像识别模型训练的方法、图像识别的方法及装置 |
-
2020
- 2020-03-31 CN CN202010246275.9A patent/CN113469205B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960232A (zh) * | 2018-06-08 | 2018-12-07 | Oppo广东移动通信有限公司 | 模型训练方法、装置、电子设备和计算机可读存储介质 |
CN110097075A (zh) * | 2019-03-21 | 2019-08-06 | 国家海洋信息中心 | 基于深度学习的海洋中尺度涡分类识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113469205A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
WO2021114612A1 (zh) | 目标重识别方法、装置、计算机设备和存储介质 | |
CN113469205B (zh) | 数据处理方法及系统、网络模型及其训练方法、电子设备 | |
US9317810B2 (en) | Intelligence analysis | |
JP2020109631A (ja) | 深層ニューラルネットワークのアンサンブルを使用した迅速なビデオクエリ | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
US20220237917A1 (en) | Video comparison method and apparatus, computer device, and storage medium | |
WO2021031704A1 (zh) | 对象追踪方法、装置、计算机设备和存储介质 | |
US20220292328A1 (en) | Convolutional artificial neural network based recognition system in which registration, search, and reproduction of image and video are divided between and performed by mobile device and server | |
CN111145006A (zh) | 基于用户画像的汽车金融反欺诈模型训练方法和装置 | |
CN113127667A (zh) | 图像处理方法及装置、图像分类方法及装置 | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN112131471B (zh) | 基于无权无向图进行关系推荐的方法、装置、设备及介质 | |
CN117011616B (zh) | 一种图像内容审核方法、装置、存储介质和电子设备 | |
TW202125323A (zh) | 利用人工智慧模組學習臉部辨識的處理方法 | |
CN116227624A (zh) | 面向异构模型的联邦知识蒸馏方法和系统 | |
CN115115825A (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
CN114254738A (zh) | 双层演化的动态图卷积神经网络模型构建方法及应用 | |
CN117834175A (zh) | 一种集成多模型区块链DDoS攻击检测分类方法及系统 | |
CN113570512A (zh) | 一种图像数据处理方法、计算机及可读存储介质 | |
CN115952438B (zh) | 社交平台用户属性预测方法、系统、移动设备及存储介质 | |
CN116306969A (zh) | 基于自监督学习的联邦学习方法和系统 | |
CN114399190B (zh) | 一种针对大数据信息安全的风险行为识别方法及系统 | |
CN116246107A (zh) | 标注不完备图像的识别方法、装置、系统和电子介质 | |
CN112182413B (zh) | 一种基于教学大数据的智能推荐方法及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |