CN114418096A - 样本学习方法、数据标注设备、电子设备以及介质 - Google Patents

样本学习方法、数据标注设备、电子设备以及介质 Download PDF

Info

Publication number
CN114418096A
CN114418096A CN202210095511.0A CN202210095511A CN114418096A CN 114418096 A CN114418096 A CN 114418096A CN 202210095511 A CN202210095511 A CN 202210095511A CN 114418096 A CN114418096 A CN 114418096A
Authority
CN
China
Prior art keywords
data set
network model
model
prediction
unlabeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210095511.0A
Other languages
English (en)
Inventor
崔现军
李洪宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202210095511.0A priority Critical patent/CN114418096A/zh
Publication of CN114418096A publication Critical patent/CN114418096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种样本学习方法、数据标注设备、电子设备以及介质,该方法包括:获取已标注数据集和未标注数据集;根据已标注数据集构建网络模型;将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证,得到模型精度;在模型精度不满足预设条件时,从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核以更新未标注数据集;再次执行将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证的步骤,通过多次迭代直至模型精度满足预设条件。通过上述方式,本申请能够在已标注数据集基础上,实现未标注数据集在网络模型中进行样本学习以及网络模型更新。

Description

样本学习方法、数据标注设备、电子设备以及介质
技术领域
本申请涉及数据标注技术领域,特别是涉及一种样本学习方法、数据标注设备、电子设备以及介质。
背景技术
通常,随着人们对产品设备使用的各种需求的提升,在使用产品设备进行数据标注时,用户往往希望能够既保持产品设备中数据标注的及时性,又保持产品设备中数据标注的准确性。
目前,在数据标注技术方面,为了准确地标注数据,往往基于预先定义好的标注规范和标签体系,采用人工标注对数据进行逐条或逐帧地标注,这导致人工标注费时费力,效率低下,单人天只能标注固定的数据量,使得成本较大。
发明内容
本申请实施例第一方面提供了一种样本学习方法,该方法包括获取已标注数据集和未标注数据集;根据已标注数据集构建网络模型;将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证,得到模型精度;在模型精度不满足预设条件时,从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核以更新未标注数据集;再次执行将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证的步骤,通过多次迭代直至模型精度满足预设条件。
本申请实施例第二方面提供了一种数据标注方法,包括:获取未标注数据集;调用如本申请实施例第一方面提供的网络模型,对未标注数据集进行标注,以得到已标注数据。
本申请实施例第三方面提供了一种数据标注设备,该数据标注设备包括:
获取模块,用于获取已标注数据集和未标注数据集;
构建模块,用于根据已标注数据集构建网络模型;
处理模块,用于将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证,得到模型精度;
处理模块,还用于在模型精度不满足预设条件时,从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核以更新未标注数据集;
处理模块,还用于再次执行将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证的步骤,通过多次迭代直至模型精度满足预设条件。
本申请实施例第四方面提供了一种电子设备,该电子设备包括:处理器和存储器,存储器中存储有计算机程序,处理器用于执行计算机程序以实现如第一方面或第二方面所述的方法。
本申请实施例第五方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序能够被处理器执行时实现本申请实施例第一方面或第二方面的方法。
本申请的有益效果是:本申请通过根据已标注数据集构建网络模型,再将已标注数据集和未标注数据集输入至网络模型,使得能够在已标注数据集基础上,实现未标注数据集在网络模型中进行样本学习,从而更新未标注数据集,进而减少人工标注或审核的操作,节约了人力成本,并且通过设置模型精度的预设条件,使得多次迭代直至模型精度满足预设条件,进一步实现网络模型的更新。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请样本学习方法一实施例的流程示意图;
图2是本申请样本学习方法一具体实施例的逻辑框架流程示意图;
图3是本申请图1中步骤S12一具体实施例的流程示意图;
图4是本申请图3中网络模块的整体结构示意图;
图5是本申请图4中预测分类器的网络结构示意图;
图6是本申请图1中步骤S13一具体实施例的流程示意图;
图7是本申请图6中已标注数据集网络训练示意图;
图8是本申请图6中步骤S33一具体实施例的最大化差异网络训练示意图;
图9是本申请图6中步骤S33一具体实施例的最小化差异网络训练示意图;
图10是本申请图1中步骤S14一具体实施例的流程示意图;
图11是本申请单个样本学习迭代周期中的网络训练流程示意图;
图12是本申请图1中步骤S15一具体实施例的流程示意图;
图13是本申请样本学习方法满足预设条件后的流程示意图;
图14是本申请数据标注方法一实施例的流程示意图;
图15是本申请实施例提供一数据标注设备的结构框图;
图16是本申请实施例提供一电子设备的结构示意图;
图17是本申请提供一计算机可读存储介质的结构示意图;
图18是本申请终端的硬件架构的示意框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
为了说明本申请的技术方案,本申请提供一种样本学习方法,请参阅图1,图1是本申请样本学习方法的一实施例的流程示意图,该方法具体包括以下步骤:
S11:获取已标注数据集和未标注数据集;
数据作为人工智能(Artifical Intelligence,AI)发展的基础,标注数据在AI行业占有非常重要的基础地位。基于标注场景,在获取的图像中,往往会对一部分图像进行标注,从而得到已标注数据和未标注数据。
通过将已标注数据归拢在同一数据池里,从而得到已标注数据集。并且通过将未标注数据集归拢在另一数据池里,可以得到未标注数据集,当标注未标注数据,则可以对未标注数据集进行更新,进而将更新的未标注数据合并到已标注数据集中。
当然,在本领域相关技术人员可以通过人工标注将少部分未标注数据进行标注得到已标注数据,从而为大部分未标注数据的标注提供一种标注范本或先验;还可以通过网络模型对未标注数据集进行标注,然后通过人工审核的方式来对标注情况进行审核,当然还可以有其他标注方式,具体此处不做限定。
S12:根据已标注数据集构建网络模型;
通常,可以根据已标注数据集来构建网络模型,其中,网络模型可以是半监督学习模型,该半监督学习模型使用半监督学习(Semi-supervised learning,SSL)来对未标注数据集进行预标注。
具体地,半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据来进行模式识别工作;使用半监督学习时,将会要求尽量少的人员来工作,同时,又能带来比较高的准确性。
S13:将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证,得到模型精度;
为了利用网络模型对未标注数据集进行精度验证,得到模型精度,而网络模型为半监督学习模型,通过将已标注数据集和未标注数据集输入至半监督学习模型中,基于对已标注数据集的参考,半监督学习模型对未标注数据集进行精度验证,得到模型精度。
并且,在将已标注数据集输入至半监督学习模型后,可以得到已标注数据集对应的预设模型精度,该预设模型精度可以用于对未标注数据集输入网络模型后得到的模型精度进行对比,从而利用网络模型对未标注数据集进行精度验证。
此外,还可以将已标注数据集中的部分已标注数据输入至网络模型后,可以得到部分已标注数据集对应的预设模型精度,从而实现验证数据集的收集,进而实现精度验证的作用。
S14:判断模型精度是否满足预设条件;
一般,在网络模型中设有预设条件,用于判断网络模型的模型精度,往往在确定模型精度满足预设条件时,可以判定该网络模型对未标注数据集进行预标注后,网络模型是收敛的。具体地,若预设条件为预设模型精度,则可以将模型精度与预设模型精度进行比较,从而实现对模型精度是否满足预设条件进行判断。
若模型精度不满足预设条件,则进入步骤S15,也即从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核以更新未标注数据集;再次执行将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证的步骤,也即返回步骤S13,通过多次迭代直至模型精度满足预设条件;若模型精度满足预设条件,则进入步骤S16,也即确定模型精度满足预设条件。
因此,本申请通过根据已标注数据集构建网络模型,再将已标注数据集和未标注数据集输入至网络模型,使得能够在已标注数据集基础上,实现未标注数据集在网络模型中进行样本学习,从而更新未标注数据集,进而减少人工标注或审核的操作,节约了人力成本,并且通过设置模型精度的预设条件,使得多次迭代直至模型精度满足预设条件,进一步实现网络模型的更新。
更进一步地,为更好地理解本申请样本学习方法的整体逻辑和构架,请参阅图2,图2是本申请样本学习方法一具体实施例的逻辑框架流程示意图。
首先,构建具备半监督学习结构的神经网络模型,得到半监督学习模型。然后将标记数据集和未标记数据集输入半监督学习模型进行精度验证,得到模型精度,并且还可以同时得到所有未标注数据对应的预标注数据。若满足则可以判断预标注数据的标注数量是否达到目标数量,当然预标注数据也可以在不满足要求之后进行标注,具体时序并不做限定,其中目标数量可以预设也可以小于或等于未标注数据的数量;若不满足则输入融合查询模块中进行样本选取,融合查询模块基于预标注数据(预测结果),因为查询策略融合不确定性度量和表缘分不度量,因此可以通过主动学习从未标注数据中选取若干样本,并对若干样本对应的预标注数据进行人工审核,以更新未标注数据集,再次进行多次迭代直到模型精度满足要求。
如此,通过利用半监督学习模型使得未标注数据集主动学习(Active learning,AL),通过以周期性、学习性的方法,用少量标记获得高效特征。具体过程是由机器学习初始化已标记数据集后,在未标记数据集中选择信息量大或者差异性大的数据进行人工标记,将人工标记后的数据加入到数据集中再次训练,通过迭代进行数据的筛选与训练减少训练成本。
更进一步地,请参阅图3至图5,图3是本申请图1中步骤S12一具体实施例的流程示意图,图4是本申请图3中网络模块的整体结构示意图,图5是本申请图4中预测分类器的网络结构示意图;根据已标注数据集构建网络模型,具体包括以下步骤:
S21:调用样本特征提取模块,对已标注数据集进行特征提取,得到第一图像特征;
在已标注数据可以准确表征未标注数据前,通常已标数据和未标数据之间存在分布偏差,尤其当已标数据集中的已标注数据数量很小时,信息丰富的数据应位于有偏差的分布边界区域,而对抗学习的两个分类器在类别边界更有分类差异。基于此思路,如图4,该方法的网络模块的整体结构分为一个样本特征提取模块和边缘样本挖掘模块。其中,样本特征提取模块包括编码器(encoder f)。
具体地,将已标注数据集输入至样本特征提取模块,利用编码器进行处理,采用ResNet50网络结构,输出为一个有256个输出单元的线性层,可以得到已标注数据集对应的第一图像特征,用于为构建半监督学习模型提供有利先决条件,当然在半监督学习模型构建完成后,半监督学习模型还可以对未标注数据集对应的图像特征进行提取。
S22:调用边缘样本挖掘模块,将第一图像特征分别输入第一预测分类器和第二预测分类器,分别得到多个类别的第一预测数据和多个类别的第二预测数据;
其中,边缘样本挖掘模块包括第一预测分类器(predictor h1)和第二预测分类器(predictor h2),第二预测分类器与第一预测分类器的网络结构相同,也即为一种孪生神经网络(Siamese neural network,SNN),SNN首先是一种神经网络架构。与一个学习对其输入进行分类的模型不同,该神经网络是学习在两个输入中进行区分,并且学习了两个输入之间的相似之处。
具体地,如图5所示,边缘样本挖掘模块由2个predictor组成,分别由两层全连接层fc1和fc2组成,第一层fc1由encode f输出的256个线性层后连接64个线性单元层的网络层,中间连接ReLU层和Dropout层(稀疏系数为0.4)防止过拟合;第二层fc2连接类别数N个线性单元的输出层,输出各个类别的预测概率。训练时,两个predictor的参数分别做相对独立的参数初始化。
因此,通过第一预测分类器对第一图像特征进行处理,可以得到多个类别的第一预测数据;通过第二预测分类器对第一图像特征进行处理,可以得到多个类别的第二预测数据。
S23:基于第一预测数据和第二预测数据,对样本特征提取模块和边缘样本挖掘模块进行构建,以得到网络模型。
如此,通过将第一预测数据和第二预测数据进行对比学习,一方面可以找出两者之间的相同,也即最底层的特征;另一方面可以尽可能找出两者之间的最大差异度,从而对模型的改进有较大的促进作用。
更进一步地,网络模型包含损失函数,损失函数包括第一损失函数和第二损失函数;将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证,得到模型精度,请参阅图6,图6是本申请图1中步骤S13一具体实施例的流程示意图,具体包括以下步骤:
S31:针对已标注数据集,调用第一损失函数进行计算,得到第一预测损失;
假定数据集X={Xl,Xu},其中Xu为未标注数据,Xl为已标注数据;网络参数Θ={θe12},其中θe为网络编码器f的参数,θ1和θ2分别为分类器h1和h2的参数。
具体地,Step1:采用已标注数据集训练网络模型,调用第一损失函数进行计算,得到第一损失函数Lcls的定义如式(1)所示:
Figure BDA0003490873210000081
其中,
Figure BDA0003490873210000091
M为类别的数量,yic为符号函数,如果样本i的真实类别为c取值1,否则取值0;
Figure BDA0003490873210000092
为样本i属于类别c的预测概率;
Figure BDA0003490873210000093
为各类别的预测概率。
S32:针对未标注数据集,调用第二损失函数进行计算,得到第二预测损失;
针对未标注数据集,调用第二损失函数进行计算,得到第二预测损失
Figure BDA0003490873210000094
如式(2)所示:
Figure BDA0003490873210000095
S33:基于第一预测损失和第二预测损失,对网络模块的网络参数进行更新,以得到更新后的网络模型。
具体地,输入所有已标注数据到网络结构中,损失函数采用交叉熵损失函数,综合考虑两个分类器的预测偏差,也即基于第一预测损失和第二预测损失,利用反向传播算法对网络模型的所有参数Θ={θe12}进行更新,以得到更新后的网络模型。
更进一步地,基于第一预测损失和第二预测损失,对网络模块的网络参数进行更新,请参阅图7,图7是本申请图6中已标注数据集网络训练示意图,具体包括两方面:
一方面,Step2:最大化预测差异。请参阅图8,图8是本申请图6中步骤S33一具体实施例的最大化差异网络训练示意图,基于第一预测损失与第二预测损失之间的最大值,对第一预测分类器的第一参数和第二预测分类器的第二参数进行更新,并停止更新编码器的参数。如图8所示,差异值最大时,表示第一预测分类器和第二预测分类器中的数据样本存在较大的偏差区域,从而根据反向传播算法更新网络梯度,梯度更新过程中带X的Step2:stop grad虚线部分表示不更新编码器中的参数,而只更新第一预测分类器h1的第一参数和第二预测分类器h2的第二参数。
其中,最大预测差异Lmax可以用式(3)进行表示:
Figure BDA0003490873210000101
另一方面,Step3:最小化预测差异。请参阅图9,图9是本申请图6中步骤S33一具体实施例的最小化差异网络训练示意图,基于第一预测损失与第二预测损失之间的最小值,对编码器的参数进行更新,并停止更新第一参数和第二参数。如图9所示,差异值最小时,表示第一预测分类器和第二预测分类器中的数据样本存在较多的相同之处。
为了保证样本特征提取模块依然可以有效表征所有数据,需要对齐标注数据集与未标注数据集的分布,更新过程中带X的Step3:stop grad虚线部分表示不更新第一预测分类器h1的第一参数和第二预测分类器h2的第二参数,而只更新编码器中的参数。
其中,最小预测差异Lmin可以用式(4)进行表示:
Figure BDA0003490873210000102
更进一步地,请参阅图10和图11,图10是本申请图1中步骤S14一具体实施例的流程示意图,图11是本申请单个样本学习迭代周期中的网络训练流程示意图,该方法还包括step4:整体损失及迭代,包括以下步骤:
S41:基于第一预测损失、最大值以及最小值,判断损失函数的损失值是否小于或等于预设阈值;
如图11所示,在单个AL迭代周期,训练已标注数据、最大化预测差异和最小化预测差异过程会重复执行,直到损失函数Ltotal收敛为止。具体地,总的函数损失Ltotal可以定义如式(5)所示:
Figure BDA0003490873210000103
其中,Lcls表示第一预测损失;Lmax表示最大预测差异,也即最大值;Lmin表示最小预测差异,也即最小值。
若小于或等于预设阈值,则进入步骤S42,也即判定损失函数收敛,模型精度满足预设条件;若大于预设阈值,则进入步骤S43,也即模型精度不满足预设条件。
更进一步地,在模型精度不满足预设条件时,从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核以更新未标注数据集,请参阅图12,图12是本申请图1中步骤S15一具体实施例的流程示意图,具体包括以下步骤:
S51:调用融合查询模块,获取预标注数据的不确定性度量和边缘分布度量;
通过以上步骤构建了半监督学习模型并利用全部数据(标注数据集和未标注数据集)对其进行训练后,通过网络模型之前的得到的已标注数据的预设模型精度来对未标注数据集进行进度验证。
当模型精度未满足要求时,网络模型会对所有未标注数据进行预测,当然网络模型也可以在判定模型精度之前对对所有未标注数据进行预测,此处对于未标注数据的预标注时序并不做限定。
因此,在不满足要求时,可以调用融合查询模块,获取预标注数据的不确定性度量和边缘分布度量。其中,不确定性度量至少包括不同类别的预标注数据的置信度。
S52:基于不确定性度量、边缘分布度量和预设条件,对预标注数据进行分析和排序筛选,以从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核;
基于不确定性度量、边缘分布度量和预设条件,对预标注数据进行分析和排序筛选,选出有价值的预标注数据,得到从未标注数据集中选取的若干样本,具体过程如下:
假定
Figure BDA0003490873210000111
为分类器hj对未标注样本的预测概率,M为未标注数据的样本数;其中
Figure BDA0003490873210000112
为分类器hj对样本yi的预测概率;查询策略Q如式(6)所示,每个AL迭代周期查询出n个样本组成的数据集为
Figure BDA0003490873210000113
如式(7)所示;
Figure BDA0003490873210000114
Figure BDA0003490873210000115
其中,sort(Q)[:n]表示对Q从小到大排序并取前n个元素组成的集合,idx(.)表示集合元素对应序号。
因网络模型训练得到的预标注数据可能不准确,所以需要进行人工审核。具体地,可以通过对若干样本对应的预标注数据进行人工审核。
S53:将审核后的预标注数据存入未标注数据集所在的数据池,以更新未标注数据集。
审核通过后,将审核后的预标注数据存入未标注数据集所在的数据池,以更新未标注数据集。以使筛选出的若干样本对应的与标注数据移入训练样本集(如图2数据更新过程),从而对标注数据集进行更新,进而进行下一个AL的迭代周期。
更进一步地,请参阅图13,图13是本申请样本学习方法满足预设条件后的流程示意图,方法还包括:
S61:在模型精度满足预设条件时,对未标注数据集进行预标注;
在半监督学习模型对未标注数据集进行精度验证时,可以不对所有未标注数据进行预标注,如此,可以在判定模型精度满足预设条件时或不满足预设条件时,对未标注数据集进行预标注。
不同的是,在半监督学习模型对未标注数据集进行精度验证时,对所有未标注数据进行预标注,则预标注一次;而在判定模型精度满足预设条件或不满足预设条件之后对所有未标注数据进行预标注,则需要预标注两次,这两种标注的方式均可,具体根据需求进行选择,此处实际上并不限制。
S62:判断预标注数据的标注数量是否满足预设数量;
对于预标注数据的标注数量多少,具体地,可以设置预设数量(也可以称为目标数量)对预标注数据进行数量判断。
若判定预标注数据集的标注数量不满足预设数量,则进入步骤S63,也即再次执行将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证的步骤,具体地可参见图1中的步骤S13,此处不再赘述,通过多次迭代直至标注数量满足预设数量;若判定预标注数据集的标注数量满足预设数量,则进入步骤S64,也即停止迭代。
此外,本申请还提供一种数据标注方法,请参阅图14,图14是本申请数据标注方法一实施例的流程示意图,方法包括:
S71:获取未标注数据集;
此步骤如图1中步骤S11中的获取未标注数据集相类似,此处不再赘述。
S72:调用如上述网络模型,对未标注数据集进行标注,以得到已标注数据。
通过利用更新或改进的半监督网络学习模型,可以使得未标注数据集进行主动学习,因为半监督学习模型包括半监督学习模块和融合查询模块,其中,半监督学习模块又分为样本特征提取和边缘样本挖掘两个子模块。
通过利用半监督的训练方法可以保证样本特征提取子模型对包括未标注数据在内的所有数据的有效表征;边缘样本挖掘模块利用全部数据训练两个对抗性分类器,以其预测的差异性度量未标记数据集相对已标数据集的边缘分布,并以其单个分类器预测的最小置信度度量样本的信息量;融合查询模块创新性地融合边缘分布度量和最小置信度策略进行样本筛选;最后筛选出的样本进行人工审核后加入到已标数据集;整个过程迭代进行数据筛选与训练,训练过程创新性地采用采用分阶段停止梯度更新策略有效保证特征提取模块的稳定性和边缘样本挖掘模块两个分类器对样本预测的一致性和差异性,防止梯度collapsing。
再者通过利用半监督学习方法对全部样本进行学习,无监督条件下挖掘出未标注数据特征分布相对于已标注样本的边缘分布样本,克服了现有AI标注方式中目标模型训练过度依赖人工标注数据的缺陷;同时针对当前AL标注方案中不确定性查询策略的单一依赖导致的目标模型不稳定、多分类场景应用不佳的情况,该方案融合边缘分布度量和不确定性度量两种策略进行样本筛选和人工标注,有效扩展了当前AL标注方案的稳定性和应用场景;该方案可有效应用于单标签分类、多标签分类场景,有效提高AL算法的训练效率,同时显著降低人工标注成本。同时此方法适用于单标签和多标签分类AL,保证标注数据准确性的同时,可有效降低人工工作量,提升AI数据标注效率。
此外,样本特征提取子模块利用CNN有效表征全部样本数据,其结构不局限方案中列出的ResNet50网络,可替换为任何的特征提取网络(ResNeXt、ResNet101/152、HRNet、EfficentNet、MobileNet、ShuffleNet、DenseNet等);边缘样本挖掘子模块通过两个分类器的预测差异来度量未标注数据相对于标注数据的边缘分布特性,其分类器的构造不局限于方案中列出的两层全连接层组成的结构,也可是一些更复杂的分类器(如多层感知机(multilayer perceptron,MLP)等)。另外在最大化和最小化预测差异中的损失计算,Lcls损失函数中计算预测概率与真实类别的差异的函数不限于交叉熵损失函数CE,也可采用其它损失函数;损失函数L(dxis)计算两分类器预测差异的计算过程不限于1-范数,也可利用预测类别正确数作为度量。
此外,本申请还提供一种数据标注设备,请参阅图15,图15是本申请实施例提供一数据标注设备的结构框图,该数据标注设备60包括:
获取模块61,用于获取已标注数据集和未标注数据集;
构建模块62,用于根据已标注数据集构建网络模型;
处理模块63,用于将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证,得到模型精度;
处理模块63,还用于在模型精度不满足预设条件时,从未标注数据集中选取若干样本,并对若干样本对应的预标注数据进行人工审核以更新未标注数据集;
处理模块63,还用于再次执行将已标注数据集和未标注数据集输入至网络模型,以利用网络模型对未标注数据集进行精度验证的步骤,通过多次迭代直至模型精度满足预设条件。
因此,本申请通过根据已标注数据集构建网络模型,再将已标注数据集和未标注数据集输入至网络模型,使得能够在已标注数据集基础上,实现未标注数据集在网络模型中进行样本学习,从而更新未标注数据集,进而减少人工标注或审核的操作,节约了人力成本,并且通过设置模型精度的预设条件,使得多次迭代直至模型精度满足预设条件,进一步实现网络模型的更新。
此外,本申请还提供一种电子设备,请参阅图16,图16是本申请实施例提供一电子设备的结构示意图,该电子设备70包括:处理器71和存储器72,存储器72中存储有计算机程序721,处理器71用于执行计算机程序721以执行如上述的方法,此处不再赘述。
此外,本申请第还提供一种计算机可读存储介质,请参阅图17,图17是本申请提供一计算机可读存储介质的结构示意图,该计算机可读存储介质80存储有计算机程序81,计算机程序81能够被处理器执行时实现如上述的方法,此处不再赘述。
请参阅图18,图18是本申请终端的硬件架构的示意框图,该电子设备900可以为智能电视、工业电脑、平板电脑、手机以及笔记本电脑等,本实施例图示以手机为例。该终端900的结构可以包括射频(radio frequency,RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、WiFi(wireless fidelity)模块970、处理器980以及电源990等。其中,RF电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960以及WiFi模块970分别与处理器980连接;电源990用于为整个电子设备900提供电能。
具体而言,RF电路910用于接发信号;存储器920用于存储数据指令信息;输入单元930用于输入信息,具体可以包括触控面板931以及操作按键等其他输入设备932;显示单元940则可以包括显示面板等;传感器950包括红外传感器、激光传感器等,用于检测用户接近信号、距离信号等;扬声器961以及传声器(或者麦克风)962通过音频电路960与处理器980连接,用于接发声音信号;WiFi模块970则用于接收和发射WiFi信号,处理器980用于处理手机的数据信息。
以上所述仅为本申请的部分实施例,并非因此限制本申请的保护范围,凡是利用本申请说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (11)

1.一种样本学习方法,其特征在于,所述方法包括:
获取已标注数据集和未标注数据集;
根据所述已标注数据集构建网络模型;
将所述已标注数据集和所述未标注数据集输入至所述网络模型,以利用所述网络模型对所述未标注数据集进行精度验证,得到模型精度;
在所述模型精度不满足预设条件时,从所述未标注数据集中选取若干样本,并对所述若干样本对应的预标注数据进行人工审核以更新所述未标注数据集;
再次执行将所述已标注数据集和所述未标注数据集输入至所述网络模型,以利用所述网络模型对所述未标注数据集进行精度验证的步骤,通过多次迭代直至所述模型精度满足所述预设条件。
2.根据权利要求1所述的方法,其特征在于,
所述根据所述已标注数据集构建网络模型,包括:
调用所述样本特征提取模块,对所述已标注数据集进行特征提取,得到第一图像特征;
调用所述边缘样本挖掘模块,将所述第一图像特征分别输入第一预测分类器和第二预测分类器,分别得到多个类别的第一预测数据和多个类别的第二预测数据,其中,所述边缘样本挖掘模块包括第一预测分类器和第二预测分类器,所述第二预测分类器与所述第一预测分类器的网络结构相同;
基于所述第一预测数据和所述第二预测数据,对所述样本特征提取模块和所述边缘样本挖掘模块进行构建,以得到所述网络模型。
3.根据权利要求2所述的方法,其特征在于,
所述网络模型包含损失函数,所述损失函数包括第一损失函数和第二损失函数;
所述将所述已标注数据集和所述未标注数据集输入至所述网络模型,以利用所述网络模型对所述未标注数据集进行精度验证,得到模型精度,包括:
针对所述已标注数据集,调用所述第一损失函数进行计算,得到第一预测损失;
针对所述未标注数据集,调用所述第二损失函数进行计算,得到所述第二预测损失;
基于所述第一预测损失和所述第二预测损失,对所述网络模块的网络参数进行更新,以得到更新后的网络模型。
4.根据权利要求3所述的方法,其特征在于,
所述样本特征提取模块包括编码器;
所述基于所述第一预测损失和所述第二预测损失,对所述网络模块的网络参数进行更新,包括:
基于所述第一预测损失与所述第二预测损失之间的最大值,对所述第一预测分类器的第一参数和所述第二预测分类器的第二参数进行更新,并停止更新所述编码器的参数;或
基于所述第一预测损失与所述第二预测损失之间的最小值,对所述编码器的参数进行更新,并停止更新所述第一参数和所述第二参数。
5.根据权利要求3所述的方法,其特征在于,
所述方法还包括:
基于所述第一预测损失、所述最大值以及所述最小值,判断所述损失函数的损失值是否小于或等于预设阈值;
若小于或等于,则判定所述损失函数收敛,所述模型精度满足预设条件;
若大于,则所述模型精度不满足预设条件。
6.根据权利要求5所述的方法,其特征在于,
所述数据标注模型还包括融合查询模块;
所述在所述模型精度不满足预设条件时,从所述未标注数据集中选取若干样本,并对所述若干样本对应的预标注数据进行人工审核以更新所述未标注数据集,包括:
调用所述融合查询模块,获取所述预标注数据的不确定性度量和边缘分布度量;
基于所述不确定性度量、所述边缘分布度量和所述预设条件,对所述预标注数据进行分析和排序筛选,以从所述未标注数据集中选取若干样本,并对所述若干样本对应的所述预标注数据进行人工审核;
将审核后的所述预标注数据存入所述未标注数据集所在的数据池,以更新所述未标注数据集。
7.根据权利要求1~5任一项所述的方法,其特征在于,所述方法还包括:
在所述模型精度满足所述预设条件时,对所述未标注数据集进行预标注;
判定预标注数据集的标注数量不满足预设数量时,再次执行将所述已标注数据集和所述未标注数据集输入至所述网络模型,以利用所述网络模型对所述未标注数据集进行精度验证的步骤,通过多次迭代直至所述标注数量满足所述预设数量。
8.一种数据标注方法,其特征在于,所述方法包括:
获取未标注数据集;
调用如权利要求1-7任一项所述的网络模型,对所述未标注数据集进行标注,以得到已标注数据。
9.一种数据标注设备,其特征在于,所述数据标注设备包括:
获取模块,用于获取已标注数据集和未标注数据集;
构建模块,用于根据所述已标注数据集构建网络模型;
处理模块,用于将所述已标注数据集和所述未标注数据集输入至所述网络模型,以利用所述网络模型对所述未标注数据集进行精度验证,得到模型精度;
所述处理模块,还用于在所述模型精度不满足预设条件时,从所述未标注数据集中选取若干样本,并对所述若干样本对应的预标注数据进行人工审核以更新所述未标注数据集;
所述处理模块,还用于再次执行将所述已标注数据集和所述未标注数据集输入至所述网络模型,以利用所述网络模型对所述未标注数据集进行精度验证的步骤,通过多次迭代直至所述模型精度满足所述预设条件。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有计算机程序,计算机程序能够被处理器执行时实现如权利要求1-8任一项所述的方法。
CN202210095511.0A 2022-01-26 2022-01-26 样本学习方法、数据标注设备、电子设备以及介质 Pending CN114418096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210095511.0A CN114418096A (zh) 2022-01-26 2022-01-26 样本学习方法、数据标注设备、电子设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210095511.0A CN114418096A (zh) 2022-01-26 2022-01-26 样本学习方法、数据标注设备、电子设备以及介质

Publications (1)

Publication Number Publication Date
CN114418096A true CN114418096A (zh) 2022-04-29

Family

ID=81277838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210095511.0A Pending CN114418096A (zh) 2022-01-26 2022-01-26 样本学习方法、数据标注设备、电子设备以及介质

Country Status (1)

Country Link
CN (1) CN114418096A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257800A (zh) * 2023-05-12 2023-06-13 智慧眼科技股份有限公司 一种训练样本的标注方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257800A (zh) * 2023-05-12 2023-06-13 智慧眼科技股份有限公司 一种训练样本的标注方法及系统
CN116257800B (zh) * 2023-05-12 2023-08-25 智慧眼科技股份有限公司 一种训练样本的标注方法及系统

Similar Documents

Publication Publication Date Title
WO2020182112A1 (zh) 一种图像区域定位的方法、模型训练的方法及相关装置
CN111460150A (zh) 一种分类模型的训练方法、分类方法、装置及存储介质
CN110298415A (zh) 一种半监督学习的训练方法、系统和计算机可读存储介质
CN112926654B (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN110096933A (zh) 目标检测的方法、装置及系统
CN110990576B (zh) 基于主动学习的意图分类方法、计算机设备和存储介质
CN113361593B (zh) 生成图像分类模型的方法、路侧设备及云控平台
WO2021031704A1 (zh) 对象追踪方法、装置、计算机设备和存储介质
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN111709371A (zh) 基于人工智能的分类方法、装置、服务器和存储介质
CN112287994A (zh) 伪标签处理方法、装置、设备及计算机可读存储介质
CN111753895A (zh) 数据处理方法、装置及存储介质
CN111368636A (zh) 目标分类方法、装置、计算机设备和存储介质
CN108197225B (zh) 图像的分类方法、装置、存储介质及电子设备
CN110781970A (zh) 分类器的生成方法、装置、设备及存储介质
US20240312252A1 (en) Action recognition method and apparatus
CN112765403A (zh) 一种视频分类方法、装置、电子设备及存储介质
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN114418096A (zh) 样本学习方法、数据标注设备、电子设备以及介质
CN115376518A (zh) 一种实时噪声大数据的声纹识别方法、系统、设备和介质
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
US20100169292A1 (en) Slideshow video file detection
CN114360053A (zh) 一种动作识别方法、终端及存储介质
CN111275089B (zh) 一种分类模型训练方法及装置、存储介质
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination