CN108062341A - 数据的自动标注方法及装置 - Google Patents

数据的自动标注方法及装置 Download PDF

Info

Publication number
CN108062341A
CN108062341A CN201610997488.9A CN201610997488A CN108062341A CN 108062341 A CN108062341 A CN 108062341A CN 201610997488 A CN201610997488 A CN 201610997488A CN 108062341 A CN108062341 A CN 108062341A
Authority
CN
China
Prior art keywords
data
sorting
marked
sample
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610997488.9A
Other languages
English (en)
Inventor
张志鹏
姚振杰
许利群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610997488.9A priority Critical patent/CN108062341A/zh
Publication of CN108062341A publication Critical patent/CN108062341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明实施例公开一种数据的自动标注方法及装置,所述方法包括:将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;基于所述排序列表进行数据训练,获得所述数据特征的排序模型;利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。在本实施例中会基于样本数据的数据特征的比较,得到排序列表,通过数据训练得到排序模型,利用排序模型进行待标注数据的排序,并基于排序进行数据标注,相对于人工标注,减少了人工错误导致的不精确性,利用设备进行自动标注,提升了标注效率。

Description

数据的自动标注方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种数据的自动标注方法及装置。
背景技术
随着互联网和移动互联网的高速发展,数据呈几何量级的快速增长,数据总量大概每六个月翻一番。大量的有效信息隐藏在数据的海洋中,需要充分利用数据,就需要对数据进行有效的挖掘和分析,才能够发现其中隐藏的信息,让数据产生应有的价值。
通过机器学习算法就可以自动分析和理解数据。通常而言,机器学习算法在有监督的情况下效果更好。因此,需要大量的待标注数据来实现和改进机器学习任务的性能。
现有的待标注数据的方法可分为两种:
第一种:是由工作人员手动进行数据的标识。而实际待标注数据是一个很困难的过程,尤其是数据量大的时候。标注任务复杂,繁琐,耗时,需要花大量时间整理和待标注数据;此外,需要标注者具备专业知识,保持认真负责的态度,但是,当数据量大时,难免出现马虎的情况,出现一些显著的标注错误。这些标注问题为后续的机器学习任务带来巨大的挑战。
目前数据的标注主要靠标注者主观判断。本提案以图像质量标注为例,进行讲解。假设有30000张图片,需要标注者对成像质量进行标注,分为五个等级:非常好,较好,中等,较差,非常差。传统的做法是让标注者自定标准,如果多人参与,需要几个人协商一个标准,再进行标注。标注者逐幅图像检查,对每一幅图像给出一个质量判断结果。
第二种:
自动标注方式:首先对一小部分进行人工标注,然后基于相似性进行后续数据的标识。例如,标注100幅图像,然后提取特征,计算其余图像与标注好图像的相似性,根据相似性将所有其他29900幅图像进行标注。如果新图像A与标注好的图像B最相似,那么B的标注是什么,A的标注就是什么。
采用第一种方法,显然费时费力,效率低且会引入很多人工错误;采用第二种方法,同样会因为人工标注导致标注精确度低的问题。
发明内容
有鉴于此,本发明实施例期望提供一种数据的自动标注方法及装置,至少部分解决上述问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种数据的自动标注方法,包括:
将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;
基于所述排序列表进行数据训练,获得所述数据特征的排序模型;
利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;
当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。
基于上述方案,所述利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置,包括:
利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量;所述第一数据特征为所述待标注数据的数据特征;所述第二数据特征为所述排序列表中数据的数据特征;
根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置。
基于上述方案,所述利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量,包括:
利用如下排序函数,计算所述排序参量;
f(w,x-xi);其中,所述x为所述待标注数据的数据特征,所述xi为第i个数据的数据特征;其中,所述w为所述排序模型的模型参量;
所述根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置,包括:
当所述f(w,x-xi)>0时,所述待标注数据的排序位于所述第i个所述样本数据之前;所述f(w,x-xi)<0时,,所述待标注数据的排序位于所述第i个所述样本数据之后。
基于上述方案,所述方法还包括:
当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度;
基于所述正确度,计算所述排序列表的置信度;
根据所述置信度,确定是否重新调整所述排序列表。
基于上述方案,所述当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度,包括:
利用如下函数关系计算所述正确度;
其中,所述cj表示为第j个样本数据与第j-1个样本数据间排序的正确度;
所述基于所述正确度,计算所述排序列表的置信度,包括:
利用如下函数关系计算所述置信度;
其中,所述C为所述置信度;所述j为一个邻域中第j个样本数据;所述cj为第j个样本数据与第j-1个样本数据间排序的正确度;所述邻域为所述排序列表中连续分布的N个所述样本数据的集合。
基于上述方案,所述根据所述置信度,确定是否重新调整所述排序列表,包括:
当所述置信度小于预设阈值时,重新调整所述排序列表。
本发明实施例第二方面提供一种数据的自动标注装置,包括:
第一获得单元,用于将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;
第二获得单元,用于基于所述排序列表进行数据训练,获得所述数据特征的排序模型;
排序单元,用于利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;
标注单元,用于当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。
基于上述方案,所述排序单元,用于利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量;所述第一数据特征为所述待标注数据的数据特征;所述第二数据特征为所述排序列表中数据的数据特征;根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置。
基于上述方案,所述排序单元,具体用于利用如下排序函数,计算所述排序参量;
f(w,x-xi);其中,所述x为所述待标注数据的数据特征,所述xi为第i个数据的数据特征;其中,所述w为所述排序模型的模型参量;
当所述f(w,x-xi)>0时,所述待标注数据的排序位于所述第i个所述样本数据之前;所述f(w,x-xi)<0时,,所述待标注数据的排序位于所述第i个所述样本数据之后。
基于上述方案,所述装置还包括:
第一确定单元,用于当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度;
计算单元,用于基于所述正确度,计算所述排序列表的置信度;
第二确定单元,用于根据所述置信度,确定是否重新调整所述排序列表。
基于上述方案,所述第一确定单元,具体用于利用如下函数关系计算所述正确度;
其中,所述cj表示为第j个样本数据与第j-1个样本数据间排序的正确度;
所述计算单元,具体用于利用如下函数关系计算所述置信度;
其中,所述C为所述置信度;所述j为一个邻域中第j个样本数据;所述cj为第j个样本数据与第j-1个样本数据间排序的正确度;所述邻域为所述排序列表中连续分布的N个所述样本数据的集合。
基于上述方案,所述第二确定单元,用于当所述置信度小于预设阈值时,重新调整所述排序列表。
本发明实施例
在本实施例中会基于样本数据的数据特征的比较,得到排序列表,通过数据训练得到排序模型,利用排序模型进行待标注数据的排序,并基于排序进行数据标注,相对于人工标注,减少了人工错误导致的不精确性,利用设备进行自动标注,提升了标注效率,
附图说明
图1为本发明实施例提供的第一种数据的自动标注方法的流程示意图;
图2为本发明实施例提供的第二种数据的自动标注方法的流程示意图;
图3为本发明实施例提供的第一种数据的自动标注装置的结构示意图;
图4为本发明实施例提供的第二种数据的自动标注装置的结构示意图;
图5为本发明实施例提供的第三种数据的自动标注方法的流程示意图;
图6为本发明实施例提供的一种排序模型的正负例样本的示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种数据的自动标注方法,包括:
步骤S110:将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;
步骤S120:基于所述排序列表进行数据训练,获得所述数据特征的排序模型;
步骤S130:利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;
步骤S140:当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。
本实施例提供的数据标注的方法可为应用于各种具有信息处理的电子设备中,例如,数据标注的服务器或服务器集群中。所述服务器集群为包括多台服务器的机群。
所述步骤S110中将标注样本中任意两个样本数据的数据特征进行比较,获得按照数据特征的高低进行排列的排序列表。在本实施例中所述样本数据可为图像;所述数据特征可为所述图像的清晰度和/或曝光度等各种可以评价图像质量的评价参数。所述样本数据还可为其他类型的数据,例如文本数据,所述评价参数可为表征真实度或合法性等特征。
在本实施例中所述数据特征可为一个或多个。在对图像数据进行标注时,会综合考虑图像的多个图像特征。所述图像特征可包括清晰度、色彩饱和度以及曝光适宜度等。所述曝光适宜度能够表征一个图像的曝光值是否合适,曝光过度或曝光不足的图像对应的曝光适宜度的取值都很低。
总之,本实施例中所述数据特征可为反映数据质量的一个或多个特征。
在步骤S120中将对排序列表进行训练,例如,利用支持向量学习机(SupportVector Machine,SVM)或神经网络进行训练,得到所述排序模型。这里的排序模块可包括通过大数据训练得到的进行排序的排序函数,以及基于排序函数得到的排序结果的处理侧略等,也可以是用于进行排序的神经网络架构等。
在步骤130中利用所述排序模型,会将所有待标注数据一一插入到所述排序列表的对应位置。
所述步骤S130可包括:
步骤S131:利用所述排序模型中的排序函数,利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量;所述第一数据特征为所述待标注数据的数据特征;所述第二数据特征为所述排序列表中数据的数据特征;
步骤S132:根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置。
在本实施例中利用排序模型中的排序函数,基于排序列表中的第二数据特征,和待标注数据的第一数据特征,得到排序参量。这里的第一数据特征和第二数据特征为表征数据同一个方面特点的信息。例如,当所述待标注数据为图像时,所述第一数据特征可为所述待标注图像的图像清晰度;所述第二数据特征可为所述排序列表中各个图像的图像清晰度。在本实施例中会利用所述排序函数,结合所述图像清晰度,确定出所述排序参量。这里的排序参量可用于辅助定位出所述待标注图像在排序列表中的对应位置。
当有多个待标注数据时,将递归调用所述步骤S131和步骤S132,直至所有待标注数据都插入到所述评价列表中的对应位置;随后进入到步骤S140。在将待标注数据插入到所述样本数据的过程中,一旦有至少一个待标注数据插入到所述排序列表中之后,则所述排序列表的数据不仅包括样本数据,还包括待标注数据。在具体的实现过程中,首先可获取一个待标注数据的数据集合;从所述数据集合中选择一定量的数据作为所述样本数据,例如,选择所述数据集合中一定比例的数据作为所述样本数据。这里的一定比例可包括m%,所述m的取值可为5、10、8或20等正整数。
在步骤S140中进行数据标注时,是根据待标注数据在整个排序列表中的位置进行的,而非直接由人工根据自身的感觉进行标注的。
在步骤S140中可以根据待标注数据的排序,给出对应的标注标签。例如,当所述待标注数据为图像数据时,可以根据各个图像依据图像特征的排序,得到各个图像标注为“好”、“量”、“中”以及“差”等几个等级的标注标签。
首先,在本实施例中是直接任意两个样本数据的数据特征的比较,获得所述排序列表,而非人工单独对每一个样本数据,根据感觉进行单独评价。这种比较方式的引入,显然首先使得排序列表的结果,相对于人工纯凭感觉得到的样本是更为精确的。采用样本数据形成的排序列表对后续待标注数据的排序,显然可以提升待标注数据的标注正确性。
其次,在本实施例中基于样本数据的排序列表进行数据标注之前,先将待标注数据和样本数据,按照各自的数据特征进行排序,形成所述排序列表。最后,根据各个待标注数据在排序列表中的排序,进行数据标注。例如,所述待标注数据为待标注的图像。所述数据特征可为清晰度。例如,从1000张待标注的图像中随机选择10%的图像作为所述样本数据,首先对所述样本数据进行图像质量的比较,然后得到100张样本图像的排序列表、然后利用所述排序列表进行数据训练,得到排序模型。在得到排序模型之后,利用该排序模型对所述另外900张待标注图像,得到待标注数据插入到排序列表之后的位置,再基于排序进行标注。显然,相当于单纯人工操作,显然大大的提升了数据标注的精确度。由于在本实施例中通过排序模型的训练,一方面首先简化了后续标注数据自动添加到排序列表中,相当于相关性的计算码,具有计算简单的特点;另一方面实现了待标注数据的自动标注。
在一些实施例中,所述步骤S131可包括:
利用如下排序模型,计算所述排序参量;
f(w,x-xi);其中,所述x为所述待标注数据的数据特征,所述xi为第i个数据的数据特征;其中,所述w为所述排序模型的已知量;这里的第i个样本数据可为当前所述排序列表中任意一个数据。
所述步骤S132可包括:
当所述f(w,x-xi)>0时,所述待标注数据的排序位于所述第i个所述样本数据之前;所述f(w,x-xi)<0时,,所述待标注数据的排序位于所述第i个所述样本数据之后。
在本实施例中,利用排序函数,以标注数据的数据特征与排序列表中第i个样本数据的数据特征作为因变量,计算排序函数的函数值。这里计算得到的函数值,即为所述排序参量。再将排序参量与0的比较,确定出待标注数据在排序列表中的排序。
显然通过上述排序函数的排序参量的计算,再通过与0的比较,可以简便快速确定出所述待标注数据在所述排序列表中的位置,从而迅速实现将待标注数据插入到排序列表中的目的。
在本实施例中为了确保所述数据标注的正确性,提升数据标注的正确度和精确度。如图2所示,在执行所述步骤140之前,所述方法还包括:
步骤S101:当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度;
步骤S102:基于所述正确度,计算所述排序列表的置信度;
步骤S103:根据所述置信度,确定是否重新调整所述排序列表。
在本实施例中会基于数据特征,检测排序列表的正确度。这里的正确度可表征排序列表中某一个数据,在排序列表中的排序是否正确。
在步骤S102中将基于正确度,计算出置信度。这里的置信度可以表征当前排序列表所有数据的排序正确的程度,是从整体上来评价所述排序列表的正确度的参量。
所述步骤S103主要用于根据置信度,确定是否需要重新调整排序列表,在调整排序列表时,可以前述的步骤130重新进行处理,或从新从步骤S110开始执行,生成一个全新的排序列表。
所述步骤S103可包括:若认为当前的置信度过低,显然该排序列表整体上排序存在较大的问题,可能需要进行排序,若当前的置信度较高,此时表明排序列表整体上排序的正确率很高,为了减少数据的计算量,可以不再重新计算排序。
具体地,所述步骤S101可包括:
利用如下函数关系计算所述正确度;
其中,所述cj表示为第j个样本数据与第j-1个样本数据间排序的正确度;
所述基于所述正确度,计算所述排序列表的置信度,包括:
利用如下函数关系计算所述置信度;
其中,所述C为所述置信度;所述j为一个邻域中第j个样本数据;所述cj为第j个样本数据与第j-1个样本数据间排序的正确度;所述邻域为所述排序列表中连续分布的N个所述样本数据的集合。
以上提供了基于邻域进行置信度计算的具体方式,在具体实现时,不局限于上述任意一种方式。在进行所述排序列表的置信度的计算时,可以计算一个或多个所述邻域,然后根据多个邻域的置信度,计算整个排序列表的置信度。例如,将S个相邻或离散的邻域的置信度的均值作为所述排序列表的置信度。在具体实现使,优选采用S个离散的邻与的均值作为所述排序列表的置信度,以提高确信度自身的精确性。这里的S可为不小于2的整数。
在一些实施例中,所述步骤S103可包括:当所述置信度小于预设阈值时,重新调整所述排序列表。
在本实施例中所述置信度越高,表示所述排序列表的排序正确性越高,故在本实施例中若所述置信度小于预设阈值时,触发排序列表的调整。当然,若所述置信度不小于所述预设阈值时,可视为所述排序列表正确,不再进行排序列表的重排或调整。
如图3所示,本实施例提供一种数据的自动标注装置,包括:
第一获得单元110,用于将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;
第二获得单元120,用于基于所述排序列表进行数据训练,获得所述数据特征的排序模型;
排序单元130,用于利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;
标注单元140,用于当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。
本实施例提供的自动标注装置可为应用于进行数据标注的服务器中的数据处理结果。
所述第一获得单元110、第二获得单元120、排序单元130及标注单元140可对应于处理器或处理电路。所述处理器可包括中央处理器CPU、微处理器MCU、数字信号处理器DSP、应用处理器AP或可编程阵列PLC等。所述处理电路可包括专用集成电路ASIC。
所述处理器或处理电路可通过可执行代码的执行,实现上述任意一个单元的功能,从而实现数据的自动标注。
当然在具体的实现过程中,所述排序单元130可包括比较器或具有比较功能的处理器,通过比较的方式完成所述待标注数据到排序列表的添加。
在一些实施例中,所述排序单元130,用于利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量;所述第一数据特征为所述待标注数据的数据特征;所述第二数据特征为所述排序列表中数据的数据特征;根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置。
在本实施例中所述排序函数,基于第一数据特征值和第二数据特征,计算排序参量,再根据排序参量确定待标注数据插入到排序列表中的对应位置,并将待标注数据插入对应的位置,具有实现简便的特点,且响应效率高的特点。
在本实施例中所述排序单元130可对应于计算器或具有计算功能的处理器。
例如,所述排序单元130,具体用于利用如下排序函数,计算所述排序参量;
f(w,x-xi);其中,所述x为所述待标注数据的数据特征,所述xi为第i个数据的数据特征;其中,所述w为所述排序模型的模型参量;当所述f(w,x-xi)>0时,所述待标注数据的排序位于所述第i个所述样本数据之前;所述f(w,x-xi)<0时,,所述待标注数据的排序位于所述第i个所述样本数据之后。
本实施例中,如图4所示,所述装置还包括:
第一确定单元101,用于当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度;
计算单元102,用于基于所述正确度,计算所述排序列表的置信度;
第二确定单元103,用于根据所述置信度,确定是否重新调整所述排序列表。
本实施例中所述第一确定单元101、计算单元102及所述第二确定单元103都可对应于处理器或处理电路。所述处理器和所述处理电路的结构可参见前述实施例中,在此就不再详细说明了。在本实施例中所述计算单元102还可对应于计算器等具有计算功能的信息处理结构。
在一些实施例中,所述第一确定单元101,具体用于利用如下函数关系计算所述正确度;
其中,所述cj表示为第j个样本数据与第j-1个样本数据间排序的正确度;
所述计算单元102,具体用于利用如下函数关系计算所述置信度;
其中,所述C为所述置信度;所述j为一个邻域中第j个样本数据;所述cj为第j个样本数据与第j-1个样本数据间排序的正确度;所述邻域为所述排序列表中连续分布的N个所述样本数据的集合。
在本实施例中所述第一确定单元101也可以对应于计算器等结构,采用上述函数关系计算所述正确度。计算单元102通过求和及求平均的计算,确定所述置信度。
采用上述函数关系,计算所述正确度及置信度,这样可以检验排序列表的正确性,以确保后续数据标注的标注精确度。
在一些实施例中,所述第二确定单元103,用于当所述置信度小于预设阈值时,重新调整所述排序列表。
在本实施例中所述第二确定单元103可对应于比较器,将计算单元102计算得到的置信度,与预设阈值比较,以触发是否需要调整排序列表。当置信度小于预设阈值时,将重新调整所述排序列表,显然可以使得最终用于进行数据标注的排序列表中的排序具有较高的正确性和精确性。
以下结合上述实施例提供几个具体示例:
示例一:
本示例提出一种数据的自动标注方法,首先标注一小部分数据,然后根据部分标注数据,建立排序模型,再利用排序模型实现剩余数据的自动标注。自动标注过程能发现不一致的样本,可由标注者进一步对其进行调整,从而实现所有数据的标注。该方法克服现有标注方法的不精确的缺陷,且显著提高了标注的自动化程度,减轻了标注者的工作量,同时提高了标注的客观性。
如图5所示,本示例提供一种数据的自动标注方法,包括:
对待标注数据集合中的数据进行部分标注;基于部分标注的标注结果生成排序模型;
利用排序模型,结合部分标注获得初始排序结果。这里的初始排序结果为所述待标注数据集合中所有数据的排序。
检验所述初始排序结果的一致性,这里的检测所述初始排序结果的一致性,可包括检测所述初始排序结果的排序正确性和/或置信度。
若一致性不通过进入排序调整的步骤。
在排序调整之后,基于最终排序结果进行数据标注。
示例二:
本示例提出一种基于排序学习的辅助数据标注方法。以增加标注的自动化程度,同时增加标注客观性,具体可包括如下步骤:
首先,假设一个庞大的数据集合,比如30000幅图像质量标注,随机抽取整个待标注数据集的一小部分,如100幅或1000幅图像,供标注者标注。这里的标注者可为标注作用人员。所述标注者具有标注能力的服务器等。标注者仅需对该部分数据进行认真标注,标注结果为一个部分的排序列表。无论数据的具体形式是什么,都可以被一系列特征取代。例如,图像质量标注中,每幅图像应该采用能表征图像质量的特征表示,第i幅图像的特征表示为xi。
根据该标注结果,通过数据训练可以训练生成一个排序模型,这里采用一种两两比较的排序模型——RankSVM作为核心排序模型。
设排序函数为f(w,xi-xj),其中w为模型参数,xi,xj为数据特征。如果xi质量好于xj,那么将得到f(w,xi-xj)>0;相反,如果xj质量好于xi,那么将得到f(w,xi-xj)<0。
如图6所示,显示有正样本和负样本,利用正样本和负赝本分别对得到排序函数f(x;w)。
根据该排序列表,可以生产逐对标注样本,并用于训练排序模型。该排序模型可以对样本进行逐对比较,确定哪个质量更好。
根据该模型,可以对未标注的29000幅图像进行标注。假设1000幅图像已经排好序,那么新加入的图像I与1000幅图像逐个比较,如果第i个质量好于I,而第i+1质量比I差,那么I就被插入i+1的位置,其余顺延,我们获得了1001个排好序的列表。剩余的图像均采用该方法,可以得到一个完整的列表。
在插入排序之后,对整个列表进行一致性检查。检查每一个数据与周围数据的一致性。例如第i个数据,检查排在附近一个邻域内的所有数据,比如前5个后5个共10个数据。检查i与这10个数据的一致性,一致性定义为:
其中
cj是第i个样本与周围样本的一致性,如果输出与实际排位一致则输出1,不一致则输出0。统计全部一致性,可以得到该样本的一致性C,例如邻域内10个样本中,有8个一致,C=0.8。此处,可定义这种邻域内的一致性C为该样本排序的置信度。cj相当于前述实施例中所述的正确度。
标注者对置信度低样本进行进一步调整,即可得到最终的标注排序结果。
这种标注是有序的,后续调整灵活性很高。例如30000幅图像标注完成后,我们认为前15000幅图像质量是达标的,那我们就可以将其分为两种标注,达标和不达标。后续实际应用中如果发现需要更高的图像质量,我们仅需修改即可。例如认为前10000幅图像质量是达标的。这种调整非常灵活,甚至可以将图像质量划分为3类,5类等等。
总结一下,进行图像的标注排序流程可如下:
给定30000幅图像,希望标注者根据图像质量的优劣对所有图像进行排序,质量好的排在前面。例如,可以随机选择一部分(例如100幅‘0,标注者对这部分图像进行标注。
标注之后,这部分数据可以用来进行针对性的特征提取和训练模型。根据这100幅图像的对比关系,生成C2 100=4950个训练数据对。
根据上述训练数据集可以有效提取特征(如图像的统计特征,纹理特征,降晰程度等)并训练生成一个RankSVM排序模型。
采用该RankSVM模型可以将剩余的29900幅图像逐个与顺序列表中的图像进行对比,进行插入排序,得到30000图像的质量排序列表。
对每张图像,用RankSVM模型比较其与前面10幅,后面10幅,共20幅图像的一致性C,一致性高(例如C>0.8)的不作处理,一致性低(例如C<=0.8)的由标注者做调整。调整之后得到最终的排序结果。
采用本示例提供的数据的标注方法,可具有如下特点:
1.降低标注数据的自动化程度,显著降低标注工作量;
2.提升标注的量化标准,降低主观性;
3.排序标注后更加易于调整,使用更灵活;
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种数据的自动标注方法,其特征在于,包括:
将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;
基于所述排序列表进行数据训练,获得所述数据特征的排序模型;
利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;
当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。
2.根据权利要求1所述的方法,其特征在于,
所述利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置,包括:
利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量;所述第一数据特征为所述待标注数据的数据特征;所述第二数据特征为所述排序列表中数据的数据特征;
根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置。
3.根据权利要求2所述的方法,其特征在于,
所述利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量,包括:
利用如下排序函数,计算所述排序参量;
f(w,x-xi);其中,所述x为所述待标注数据的数据特征,所述xi为第i个数据的数据特征;其中,所述w为所述排序模型的模型参量;
所述根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置,包括:
当所述f(w,x-xi)>0时,所述待标注数据的排序位于所述第i个所述样本数据之前;所述f(w,x-xi)<0时,,所述待标注数据的排序位于所述第i个所述样本数据之后。
4.根据权利要求1、2或3所述的方法,其特征在于,
所述方法还包括:
当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度;
基于所述正确度,计算所述排序列表的置信度;
根据所述置信度,确定是否重新调整所述排序列表。
5.根据权利要求4所述的方法,其特征在于,
所述当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度,包括:
利用如下函数关系计算所述正确度;
<mrow> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow></mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,所述cj表示为第j个样本数据与第j-1个样本数据间排序的正确度;
所述基于所述正确度,计算所述排序列表的置信度,包括:
利用如下函数关系计算所述置信度;
<mrow> <mi>C</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>c</mi> <mi>j</mi> </msub> </mrow> <mi>N</mi> </mfrac> </mrow>
其中,所述C为所述置信度;所述j为一个邻域中第j个样本数据;所述cj为第j个样本数据与第j-1个样本数据间排序的正确度;所述邻域为所述排序列表中连续分布的N个所述样本数据的集合。
6.根据权利要求4所述的方法,其特征在于,
所述根据所述置信度,确定是否重新调整所述排序列表,包括:
当所述置信度小于预设阈值时,重新调整所述排序列表。
7.一种数据的自动标注装置,其特征在于,包括:
第一获得单元,用于将标注样本中任意两个样本数据的数据特征进行比较,获得任意两个所述样本数据的排序列表;
第二获得单元,用于基于所述排序列表进行数据训练,获得所述数据特征的排序模型;
排序单元,用于利用所述排序模型,将所述待标注数据插入到所述排序列表的对应位置;
标注单元,用于当所有待标注数据都添加到所述排序列表之后,根据所述排序列表中待标注数据的排序生成标注标签。
8.根据权利要求7所述的装置,其特征在于,
所述排序单元,用于利用所述排序模型中的排序函数,基于第一数据特征和第二数据特征,计算排序参量;所述第一数据特征为所述待标注数据的数据特征;所述第二数据特征为所述排序列表中数据的数据特征;根据所述排序参量,将所述待标注数据添加到所述排序列表的对应位置。
9.根据权利要求8所述的装置,其特征在于,
所述排序单元,具体用于利用如下排序函数,计算所述排序参量;
f(w,x-xi);其中,所述x为所述待标注数据的数据特征,所述xi为第i个数据的数据特征;其中,所述w为所述排序模型的模型参量;
当所述f(w,x-xi)>0时,所述待标注数据的排序位于所述第i个所述样本数据之前;所述f(w,x-xi)<0时,,所述待标注数据的排序位于所述第i个所述样本数据之后。
10.根据权利要求7、8或9所述的装置,其特征在于,
所述装置还包括:
第一确定单元,用于当所有待标注数据都添加到所述排序序列之后,基于所述数据特征确定所述排序列表的正确度;
计算单元,用于基于所述正确度,计算所述排序列表的置信度;
第二确定单元,用于根据所述置信度,确定是否重新调整所述排序列表。
11.根据权利要求10所述的装置,其特征在于,
所述第一确定单元,具体用于利用如下函数关系计算所述正确度;
<mrow> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow></mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中,所述cj表示为第j个样本数据与第j-1个样本数据间排序的正确度;
所述计算单元,具体用于利用如下函数关系计算所述置信度;
<mrow> <mi>C</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>c</mi> <mi>j</mi> </msub> </mrow> <mi>N</mi> </mfrac> </mrow>
其中,所述C为所述置信度;所述j为一个邻域中第j个样本数据;所述cj为第j个样本数据与第j-1个样本数据间排序的正确度;所述邻域为所述排序列表中连续分布的N个所述样本数据的集合。
12.根据权利要求10所述的装置,其特征在于,
所述第二确定单元,用于当所述置信度小于预设阈值时,重新调整所述排序列表。
CN201610997488.9A 2016-11-08 2016-11-08 数据的自动标注方法及装置 Pending CN108062341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610997488.9A CN108062341A (zh) 2016-11-08 2016-11-08 数据的自动标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610997488.9A CN108062341A (zh) 2016-11-08 2016-11-08 数据的自动标注方法及装置

Publications (1)

Publication Number Publication Date
CN108062341A true CN108062341A (zh) 2018-05-22

Family

ID=62138008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610997488.9A Pending CN108062341A (zh) 2016-11-08 2016-11-08 数据的自动标注方法及装置

Country Status (1)

Country Link
CN (1) CN108062341A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874900A (zh) * 2018-05-24 2018-11-23 四川斐讯信息技术有限公司 一种样本图片数据集合的获取方法和系统
CN109409260A (zh) * 2018-10-10 2019-03-01 北京旷视科技有限公司 数据标注方法、装置、设备及存储介质
CN110413821A (zh) * 2019-07-31 2019-11-05 四川长虹电器股份有限公司 数据标注方法
CN110567575A (zh) * 2019-08-12 2019-12-13 同济大学 一种汽车门锁闭合声品质评价方法
CN110689079A (zh) * 2019-09-30 2020-01-14 联想(北京)有限公司 一种处理方法、处理装置及电子设备
CN110826101A (zh) * 2019-11-05 2020-02-21 安徽数据堂科技有限公司 用于企业的私有化部署数据处理方法
CN111145724A (zh) * 2019-12-31 2020-05-12 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
US11966453B2 (en) 2021-02-15 2024-04-23 International Business Machines Corporation Ordering annotation sets for machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540048A (zh) * 2009-04-21 2009-09-23 北京航空航天大学 一种基于支持向量机的图像质量评价方法
CN103745454A (zh) * 2013-12-17 2014-04-23 北京大学 一种基于排序学习的图像处理算法或系统的评价方法
CN105635727A (zh) * 2015-12-29 2016-06-01 北京大学 基于成对比较的图像主观质量的评价方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540048A (zh) * 2009-04-21 2009-09-23 北京航空航天大学 一种基于支持向量机的图像质量评价方法
CN103745454A (zh) * 2013-12-17 2014-04-23 北京大学 一种基于排序学习的图像处理算法或系统的评价方法
CN105635727A (zh) * 2015-12-29 2016-06-01 北京大学 基于成对比较的图像主观质量的评价方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHOUYANG 等: "A Universal Image Quality Index", 《IEEE SIGNAL PROCESSING LETTERS》 *
段新迎: "基于监督序学习的图像排序模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874900A (zh) * 2018-05-24 2018-11-23 四川斐讯信息技术有限公司 一种样本图片数据集合的获取方法和系统
CN109409260A (zh) * 2018-10-10 2019-03-01 北京旷视科技有限公司 数据标注方法、装置、设备及存储介质
CN110413821A (zh) * 2019-07-31 2019-11-05 四川长虹电器股份有限公司 数据标注方法
CN110567575A (zh) * 2019-08-12 2019-12-13 同济大学 一种汽车门锁闭合声品质评价方法
CN110567575B (zh) * 2019-08-12 2021-06-04 同济大学 一种汽车门锁闭合声品质评价方法
CN110689079A (zh) * 2019-09-30 2020-01-14 联想(北京)有限公司 一种处理方法、处理装置及电子设备
CN110689079B (zh) * 2019-09-30 2023-01-17 联想(北京)有限公司 一种处理方法、处理装置及电子设备
CN110826101A (zh) * 2019-11-05 2020-02-21 安徽数据堂科技有限公司 用于企业的私有化部署数据处理方法
CN110826101B (zh) * 2019-11-05 2021-01-05 安徽数据堂科技有限公司 用于企业的私有化部署数据处理方法
CN111145724A (zh) * 2019-12-31 2020-05-12 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
CN111145724B (zh) * 2019-12-31 2022-08-19 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
US11966453B2 (en) 2021-02-15 2024-04-23 International Business Machines Corporation Ordering annotation sets for machine learning

Similar Documents

Publication Publication Date Title
CN108062341A (zh) 数据的自动标注方法及装置
CN109389275B (zh) 一种图像标注方法和装置
CN110225366B (zh) 视频数据处理及广告位确定方法、装置、介质及电子设备
CN111310835B (zh) 目标对象的检测方法及装置
CN111986785B (zh) 医学影像标注方法和装置、设备及存储介质
CN107122786B (zh) 一种众包学习方法及装置
CN111652301B (zh) 基于深度学习的股骨小转子识别方法、装置及电子设备
CN109934196A (zh) 人脸姿态参数评估方法、装置、电子设备及可读存储介质
CN112884060B (zh) 图像标注方法、装置、电子设备及存储介质
CN111695431A (zh) 一种人脸识别方法、装置、终端设备及存储介质
CN113034528B (zh) 基于影像组学的靶区及危及器官勾画轮廓准确性检验方法
CN112016053A (zh) 数据标注的考核方法、装置和电子设备
CN107590460A (zh) 人脸分类方法、装置及智能终端
CN113706472A (zh) 公路路面病害检测方法、装置、设备及存储介质
CN112614573A (zh) 基于病理图像标注工具的深度学习模型训练方法及装置
CN112101315A (zh) 一种基于深度学习的运动评判指导方法和系统
CN111291567B (zh) 人工标注质量的评估方法、装置、电子设备及存储介质
CN113689937A (zh) 图像标注方法、存储介质和处理器
CN112614570A (zh) 样本集标注、病理图像分类、分类模型构建方法及装置
CN113450381B (zh) 一种图像分割模型的准确度评价系统及方法
CN111459050B (zh) 一种基于双网互联的智慧仿真型护理教学系统及教学方法
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN113592029A (zh) 一种小样本条件下医学图像自动标注方法及系统
CN110458850B (zh) 一种大关节组织的分割方法和分割系统
CN116166889B (zh) 酒店产品筛选方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180522

RJ01 Rejection of invention patent application after publication