CN111046927B - 标注数据的处理方法、装置、电子设备及存储介质 - Google Patents

标注数据的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111046927B
CN111046927B CN201911177127.XA CN201911177127A CN111046927B CN 111046927 B CN111046927 B CN 111046927B CN 201911177127 A CN201911177127 A CN 201911177127A CN 111046927 B CN111046927 B CN 111046927B
Authority
CN
China
Prior art keywords
labeling
data
annotation
user
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911177127.XA
Other languages
English (en)
Other versions
CN111046927A (zh
Inventor
张志伟
郑仲奇
王希爱
齐楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201911177127.XA priority Critical patent/CN111046927B/zh
Publication of CN111046927A publication Critical patent/CN111046927A/zh
Application granted granted Critical
Publication of CN111046927B publication Critical patent/CN111046927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开关于标注数据的处理方法、装置、电子设备及存储介质,包括:获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;获取所述标注数据的标注特征;采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;计算在同一类别的所述标注特征和所述标签中心特征之间的距离;根据所述距离确定处于异常标注用户;删除在所述标注数据集中所述异常标注用户对应的标注数据。本实施例根据距离确定的异常标注用户,删除该标注用户的标注数据,使得用于训练模型的标注数据更加精确。

Description

标注数据的处理方法、装置、电子设备及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种标注数据的处理方法、装置、电子设备及存储介质。
背景技术
近来,深度学习在自然语言处理、文本翻译等领域取得了突破性的进展。然而这些进展严重依赖于训练数据的规模,所以训练数据成为将技术应用到实际生产环境中最主要的瓶颈。训练数据包含了用于训练模型的大量样本数据,对训练数据进行标注是目前人工智能行业中不可或缺的一环。
标注可以理解为对训练数据添加标签。比如,对图像中的目标进行标注时,添加的标签可以包括是否为用户、是否为车辆等;再比如,对图像中的用户进行标注时,添加的标签可以包括用户的性别、身份、着装信息等;再比如,对文本数据进行标注时,添加的标签可以包括主语、谓语等语义信息。
目前国内外对训练数据的标注工作大多采用众包、外包等人工标注方案。以目前的图像分类任务为例,一般用于训练模型的每一个标签需要“千”量级的训练数据。传统的方法使用的是全监督数据训练模型,即首先需要获得足够的标注数据(即标注了标注标签的训练数据),然后再训练模型。训练数据的获得除了数据量大之外,还需要标注尽快能准确。目前获取大量标注的训练数据的方式主要是通过外包对训练数据进行标注。然而,外包用户可能下列问题:
1、新手标注,对标注规则不明确,造成标注准确率不高;
2、外包用户责任心不够,造成标注不够精确;
3、问题本身比较难,需要大量的实际标注经验才能使得标注尽可能准确。
无论是出于何种原因,不够精确标注的训练数据都会让模型训练之后的结果不尽如人意,因此,亟需提出一种训练数据的处理的方案,以提高训练数据的标注精度。
发明内容
本公开提供标注数据的处理,以至少解决相关技术中标注的训练数据不够精确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种标注数据的处理方法,包括:
获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;
获取所述标注数据的标注特征;
采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
根据所述距离确定处于异常标注用户;
删除在所述标注数据集中所述异常标注用户对应的标注数据。可选地,所述根据所述距离确定处于异常用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。可选地,所述根据所述距离确定处于异常用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
可选地,
所述采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征的步骤,包括;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。
可选地,在所述删除在所述标注数据集中所述异常用户对应的标注数据的步骤之后,还包括:
采用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。
根据本公开实施例的第二方面,提供一种标注数据的处理装置,包括:
数据集获取模块,被配置为获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;
标注特征提取模块,被配置为获取所述标注数据的标注特征;
锚定中心特征计算模块,被配置为采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
距离计算模块,被配置为计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
异常标注用户确定模块,被配置为根据所述距离确定处于异常标注用户;
标注数据删除模块,被配置为删除在所述标注数据集中所述异常标注用户对应的标注数据。
可选地,所述异常标注用户确定模块,被配置为:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。
可选地,所述异常标注用户确定模块,被配置为:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
可选地,所述标签中心特征计算模块,被配置为;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。
可选地,还包括:
特征模型训练模块,被配置为为采用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现本公开实施例第一方面提供的标注数据的处理方法。
根据本公开实施例的第四方面,提供了一种非临时性计算机可读存储介质,使得电子设备能够执行本公开实施例第一方面提供的标注数据的处理方法。
根据本公开实施例的第五方面,提供一种应用程序产品,当所述应用程序产品中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面的任一种可能实现方式所述的标注数据的处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本实施例可以获取标注数据集和标注标签集,然后计算标注数据集中标注数据的标注特征,以及采用标注标签集在同一类别的标注标签计算标签中心特征,然后计算在同一类别的标注特征和标签中心特征之间的距离,本实施例可以根据距离确定异常标注用户,即标注数据设置标注标签不及格的用户,并删除在标注数据集中异常标注用户对应的标注数据,在本实施例中,通过距离可以反映标注数据和其对应类别的候选标注标签之间的差异大小,因此,如果根据距离确定的异常标注用户,说明该标注用户设置的标注数据并不准确,是不能用于模型训练的不及格的训练数据,因此删除该异常标注用户在标注数据集中对应的标注数据,使得用于训练模型的标注数据更加精确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种标注数据的处理方法的流程图。
图2是根据一示例性实施例示出的一种迭代式的标注数据的处理流程示意图。
图3是根据一示例性实施例示出的一种标注数据的处理装置的框图。
图4是根据一示例性实施例示出的一种用于标注数据的处理装置的框图。
图5是根据一示例性实施例示出的另一种用于标注数据的处理装置的框图。
具体实施方式
为了使本领域普通用户更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种标注数据的处理方法的流程图,如图1所示,包括以下步骤。
在步骤S11中,获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别。
本实施例可以应用于具有计算能够的电子设备中,比如计算机。
在本实施例中,首先获取标注数据集和标注标签集。其中,标注标签集包括候选标注标签,并且各个候选标注标签分别具有对应的类别。例如,候选标注标签可以为“哈士奇”、“波斯猫”、“小猪佩奇”和“水仙花”,那么各个候选标注标签对应的类别可以分别为“狗”、“猫”、“动画”和“植物”。当然,上述示例仅仅是作为说明,并不仅限于此。
候选标注标签通常是由专家标注,是比较精准的标签数据,数据量通常不大,可以在标注用户对待标注数据(待标注数据即尚未添加标注标签的标注数据)设置候选标注标签时提供作为参考。
标注数据集中包括标注数据,具体的,标注数据为经过标注用户添加标注标签后的数据,可用于模型训练。举例来说,待标注数据可以为文字数据、图像数据、视频数据或者其他类型的数据等等,不做具体限定。在实际应用中,需求方可以获取用户在使用设备,比如浏览某个指定视频平台或者社交平台的过程中产生的数据,从这些数据中选择一些数据作为待标注数据。
其中,标注数据的标注标签,是标注用户基于需求方提供的候选标注标签来相应设置的,因此本实施例可以在将对待标注数据和标注标签推送给标注用户。在一种实施方式中,假设“猫”类别下的候选标注标签包括有“英短”、“美短”、“起司猫”、“波斯猫”和“中华田园猫”,则标注用户可以针对某个待标注数据,比如针对一张画有橘猫的图片,标注用户可以选择“中华田园猫”作为这张图片的标注标签。
在步骤S12中,获取所述标注数据的标注特征。
在本实施例中,预先设置有能够提取数据特征的模型modelori(此处简称为特征模型),通过特征模型可以标注数据的标注特征。当然,需要说明的是,本实施例的特征模型是可以随着不断训练精度逐渐加强,并且还可以修改该特征模型的数据结构,使得模型更加符合需求方的目标,对此并不需要做限定。
在步骤S13中,采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征。
根据前述可知,候选标注标签具有对应的类别,比如“狗”、“猫”、“动画”和“植物”等,并且在各个类别下还可以分别具有候选标注标签,比如,“猫”类别下的候选标注标签包括有“英短”、“美短”、“起司猫”、“波斯猫”和“中华田园猫”。
在本实施例中,可以针对各个类别的候选标注标签计算相应的标签中心特征。在一种实施例中,所述采用在同一类别的所述标注标签计算锚定中心特征的步骤,包括;采用特征模型提取所述候选标注标签的标签特征;获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;将所述均值作为所述类别对应的标签中心特征。
具体来说,本实施例可以分别计算每个类别的各个候选标注标签的标签特征,然后基于标签特征计算出均值作为候选标注标签中心特征,代表聚类中心,具体计算公式如下:
Figure BDA0002290251330000061
其中,k为向量的位置,i为标注标签的第i个类别(target),
Figure BDA0002290251330000062
为标签中心特征,/>
Figure BDA0002290251330000063
为标签特征,#targeti为i类别下候选标注标签的总数。
举例来说,假设“猫”类别有3个候选标注标签,提取出来的标签特征分别为[0.20,0.61,0.74],[0.24,0.63,0.72],[0.18,0.41,0.80],则最后的标签中心特征为[0.318,0.550,0.733]。
当然,实际中也可以采用其他方式计算特征和特征中心,本实施例对此并不加以限制。
在步骤S14中,计算在同一类别的所述标注特征和所述标签中心特征之间的距离。
由于标注数据是基于候选标注标签由标注用户设置标注标签的,因此可以基于标注数据的标注标签确定该标注数据的类别。具体来说,将标注数据按照标注标签进行分类别,对于第i个类别,计算该类别下每个标注数据的标注特征与标签中心特征之间的距离。
距离可以反映两个数据之间的差异大小,距离越远差异越大,反之距离越近差异越小。可选地,距离可以使用余弦距离(Cosine Distance)计算。
在步骤S15中,根据所述距离确定异常标注用户。
在具体实现中,可以根据距离的远近,筛选出标注用户中异常标注用户,其中,异常标注用户是指的其标注数据设置的标注标签不够精确。比如,针对一张画有猫的图片,标注用户可能设置成其标注标签为“狗”,如果将这种标注数据用于模型训练,那么将导致模型的精度降低。
具体地,本实施例确定异常标注用户的方式可以有多种。在获得某个具体类别下,标注数据与标注标签的距离后,对这个距离进行排序,比如可以进行倒序排序,距离远(差异大)的靠前。由于标注数据与标注用户是一一对应的,本实施例可以使用控制百分比的方式和控制数量的方式来计算确定的异常标注用户。
在一种控制百分比的方式中,所述根据所述距离确定异常标注用户的步骤可以包括:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定异常标注用户;其中,所述m和n为正数。
选取距离最远的m%的标注数据作为目标标注数据,并获取目标标注数据对应的标注用户作为目标标注用户,查看目标标注用户中各个标注用户所标注的标注数据在目标标注数据所占的比例,将超过n%的标注用户认定为异常标注用户。
例如,假设m为10,n为12,标注数据为100个,那么将从这100个标注数据中选取距离最远的10%标注数据(即10个标注数据)作为目标标注数据,获取这10个标注数据对应的标注用户作为目标标注用户,然后查看统计各个目标标注用户的标注数据,其在这10个目标标注数据中所占的比例,比如如果A标注用户,其有4个标注数据在10个目标标注数中,那么说明A标注用户所占比例为40%,超过了12%,因此将A标注用户确定为异常标注用户。
在另一种控制数量的方式中,所述根据所述距离确定异常标注用户的步骤可以包括:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
选取距离最远的M个标注数据作为目标标注数据,并获取目标标注数据对应的标注用户作为目标标注用户,查看目标标注用户中各个标注用户所标注的标注数据在目标标注数据中所占的数量,将超过N个的标注用户认定为异常标注用户。
例如,假设M为20,n为5,标注数据为100个,那么将从这100个标注数据中选取距离最远的20个标注数据作为目标标注数据,获取这20个标注数据对应的标注用户作为目标标注用户,然后查看统计各个目标标注用户的标注数据,其在这20个目标标注数据中所占的数量,比如如果某个B标注用户,其有6个标注数据在20个目标标注数中,B标注用户的标注数据的数量6超过了5,因此将B标注用户确定为异常标注用户。
当然,上述的n、m、N、M等数值的设置仅仅是作为示例,在实际应用中可以根据实际情况进行设定,此外,除了上述控制百分比和控制数量的方式外,也可以采用其他方式确定异常标注用户,对此不做具体限定。比如为了保证数据全部都是准确的,那么可以针对各个标注用户,如果其标注数据中存在目标标注数据,即可视为是异常标注用户。
在步骤S16中,删除在所述标注数据集中所述异常标注用户对应的标注数据。
筛选出异常标注用户后,由于异常标注用户所标注的标注数据并不精确,因此将删除标注数据集中异常标注用户所标注的标注数据。此外,在删除异常标注用户在标注数据集中的标注数据,还可以提醒需求方对于异常标注用户进行再培训,这样,“异常标注用户所标注的标注数据将更加精确,有利于提高模型训练效果。
在本实施例的标注数据处理方法中,还可以包括如下步骤:用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。
需要说明的是,特征模型并非一成不变,而是可以通过不断的训练变更为新的特征模型,比如,本实施例可以将为非异常标注用户所标注的标注数据,也即是保留在标注数据集中的标注数据来训练特征模型,通过迭代的方式,特征模型将更加精确。当然,也可以根据实际需求更换特征模型的具体结构设置,本实施例对此并不限制。
为了使本领域技术人员更好地理解本实施例迭代式的标注数据的处理方法,下面采用一个具体示例进行说明,参照图2,所示为一种迭代式的标注数据的处理流程示意图,特征模型为modelori,具体过程包括有:
1、准备一批待标注数据samplefor_label和候选标注标签
Figure BDA0002290251330000091
提供给外包的标注用户进行标注,即设置标注标签。基于/>
Figure BDA0002290251330000092
设置标注标签后得到的标注数据,将放入标注数据集中。
2、使用modelori分别对samplefor_label和sampletarget提取特征,分别得到标注特征featurefor_label和标签特征featuretarget
3、分别计算每个类别中标注标签的标签特征,并基于标签特征进一步计算该类别下的标签中心特征。
4、将标注数据按照标注标签进行分组(分类别),对于第i个类别,计算每个标注数据的标注特征与标签中心特征的距离。
5、根据距离的远近,筛选出标注用户中异常标注用户(也可以称为离群点标注用户),并将异常标注用户在标注数据集的标注数据删除,同时还需要对异常标注用户进行再培训,提高这些异常标注用户的标注精度。
6、使用标注数据集中的标注数据,训练modelori得到新的模型modelnew
7、重复1-6,直到不再有异常标注用户。
在本实施例中,通过距离可以反映标注数据和其对应类别的候选标注标签之间的差异大小,因此,如果根据距离确定异常标注用户,说明异常标注用户设置的标注数据并不准确,因此删除该异常标注用户在标注数据集中对应的标注数据,使得用于训练模型的标注数据更加精确。
图3是根据一示例性实施例示出的一种标注数据的处理装置框图。参照图3,具体包括有:
数据集获取模块31,被配置为获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;
标注特征提取模块32,被配置为获取所述标注数据的标注特征;
锚定中心特征计算模块33,被配置为采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
距离计算模块34,被配置为计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
异常标注用户确定模块35,被配置为根据所述距离确定处于异常标注用户;
标注数据删除模块36,被配置为删除在所述标注数据集中所述异常标注用户对应的标注数据。
可选地,所述异常标注用户确定模块35,被配置为:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。
可选地,所述异常标注用户确定模块35,被配置为:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
可选地,所述标签中心特征计算模块33,被配置为;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。
可选地,所述装置还包括:
特征模型训练模块,被配置为采用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图4是根据一示例性实施例示出的一种用于标注数据的处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图5是根据一示例性实施例示出的一种用于标注数据的处理的装置1900的框图。例如,装置1900可以被提供为一服务器。参照图5,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法……
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种标注数据的处理方法,其特征在于,包括:
获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;其中,所述标注数据至少包括图像数据或者视频数据;
获取所述标注数据的标注特征;
采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
根据所述距离确定处于异常标注用户;
删除在所述标注数据集中所述异常标注用户对应的标注数据;
其中,所述采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征的步骤,包括;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。
2.根据权利要求1所述的标注数据的处理方法,其特征在于,所述根据所述距离确定处于异常标注用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。
3.根据权利要求1所述的标注数据的处理方法,其特征在于,所述根据所述距离确定处于异常标注用户的步骤,包括:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
4.根据权利要求1所述的标注数据的处理方法,其特征在于,所述采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征的步骤,包括;
分别计算每个类别的各个候选标注标签的标签特征;
基于标签特征计算出均值作为候选标注标签中心特征,代表聚类中心,具体计算公式如下:
Figure FDA0004097848700000021
其中,k为向量的位置,i为标注标签的第i个类别target,
Figure FDA0004097848700000022
为标签中心特征,/>
Figure FDA0004097848700000023
为标签特征,#targeti为i类别下候选标注标签的总数。
5.根据权利要求1所述的标注数据的处理方法,其特征在于,获取所述标注数据的标注特征,包括:
通过预先设置的特征模型获取所述标注数据的标注特征。
6.根据权利要求1所述的标注数据的处理方法,其特征在于,计算在同一类别的所述标注特征和所述标签中心特征之间的距离,包括:
计算在同一类别的所述标注特征和所述标签中心特征之间的余弦距离。
7.根据权利要求1所述的标注数据的处理方法,其特征在于,在所述删除在所述标注数据集中所述异常标注用户对应的标注数据的步骤之后,还包括:
采用所述删除异常标注用户对应的标注数据后的所述标注数据集,训练所述特征模型。
8.一种标注数据的处理装置,其特征在于,包括:
数据集获取模块,被配置为获取标注数据集和标注标签集;所述标注标签集包括候选标注标签,所述标注数据集包括由标注用户基于候选标注标签设置标注标签后的标注数据,所述候选标注标签具有对应的类别;其中,所述标注数据至少包括图像数据或者视频数据;
标注特征提取模块,被配置为获取所述标注数据的标注特征;
标签中心特征计算模块,被配置为采用在同一类别的所述候选标注标签计算标签特征,并采用所述标签特征计算所述同一类别的标签中心特征;
距离计算模块,被配置为计算在同一类别的所述标注特征和所述标签中心特征之间的距离;
异常标注用户确定模块,被配置为根据所述距离确定处于异常标注用户;
标注数据删除模块,被配置为删除在所述标注数据集中所述异常标注用户对应的标注数据;
其中,所述标签中心特征计算模块,被配置为;
采用特征模型提取所述候选标注标签的标签特征;
获取在同一类别的标签特征,并采用所述在同一类别的标签特征计算均值;
将所述均值作为所述类别对应的标签中心特征。
9.根据权利要求8所述的标注数据的处理装置,其特征在于,所述异常标注用户确定模块,被配置为:
将所述距离进行倒序排序,并获取排序在前m%的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据占所述目标标注数据比例是否超过n%;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述m和n为正数。
10.根据权利要求8所述的标注数据的处理装置,其特征在于,所述异常标注用户确定模块,被配置为:
将所述距离进行倒序排序,并获取排序在前M个的标注数据作为目标标注数据;
确定所述目标标注数据对应的目标标注用户;
从所述目标标注数据中获取各个所述目标标注用户对应的标注数据;
判断各个所述目标标注用户对应的标注数据是否超过N个;
若是,则将所述目标标注用户确定为异常标注用户;其中,所述M和N为正整数。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的标注数据的处理方法。
12.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的标注数据的处理方法。
CN201911177127.XA 2019-11-26 2019-11-26 标注数据的处理方法、装置、电子设备及存储介质 Active CN111046927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911177127.XA CN111046927B (zh) 2019-11-26 2019-11-26 标注数据的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911177127.XA CN111046927B (zh) 2019-11-26 2019-11-26 标注数据的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111046927A CN111046927A (zh) 2020-04-21
CN111046927B true CN111046927B (zh) 2023-05-30

Family

ID=70233557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911177127.XA Active CN111046927B (zh) 2019-11-26 2019-11-26 标注数据的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111046927B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753174A (zh) * 2020-06-23 2020-10-09 北京字节跳动网络技术有限公司 数据处理方法、装置和电子设备
CN111950618A (zh) * 2020-08-05 2020-11-17 中国建设银行股份有限公司 水域图像数据标注方法、装置、设备和存储介质
CN112348107A (zh) * 2020-11-17 2021-02-09 百度(中国)有限公司 图像数据清洗方法及装置、电子设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
CN108197658A (zh) * 2018-01-11 2018-06-22 阿里巴巴集团控股有限公司 图像标注信息处理方法、装置、服务器及系统
CN109670554A (zh) * 2018-12-20 2019-04-23 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110362822A (zh) * 2019-06-18 2019-10-22 中国平安财产保险股份有限公司 用于模型训练的文本标注方法、装置、计算机设备及存储介质
CN110428003A (zh) * 2019-07-31 2019-11-08 清华大学 样本类别标签的修正方法、装置以及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452956B2 (en) * 2017-09-29 2019-10-22 Here Global B.V. Method, apparatus, and system for providing quality assurance for training a feature prediction model

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451597A (zh) * 2016-06-01 2017-12-08 腾讯科技(深圳)有限公司 一种样本类别标签纠正方法及装置
CN108197658A (zh) * 2018-01-11 2018-06-22 阿里巴巴集团控股有限公司 图像标注信息处理方法、装置、服务器及系统
WO2019137196A1 (zh) * 2018-01-11 2019-07-18 阿里巴巴集团控股有限公司 图像标注信息助理方法、装置、服务器及系统
CN109670554A (zh) * 2018-12-20 2019-04-23 郑州云海信息技术有限公司 深度学习系统中数据集标注的管理方法和装置
CN109784381A (zh) * 2018-12-27 2019-05-21 广州华多网络科技有限公司 标注信息处理方法、装置及电子设备
CN110362822A (zh) * 2019-06-18 2019-10-22 中国平安财产保险股份有限公司 用于模型训练的文本标注方法、装置、计算机设备及存储介质
CN110428003A (zh) * 2019-07-31 2019-11-08 清华大学 样本类别标签的修正方法、装置以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李易南等.面向众包数据的特征扩维标签质量提高方法.《智能系统学报》.2019,全文. *

Also Published As

Publication number Publication date
CN111046927A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN109522424B (zh) 数据的处理方法、装置、电子设备及存储介质
RU2649294C2 (ru) Способ и устройство для построения шаблона и способ и устройство для идентификации информации
CN110598504B (zh) 图像识别方法及装置、电子设备和存储介质
CN108038102B (zh) 表情图像的推荐方法、装置、终端及存储介质
CN111046927B (zh) 标注数据的处理方法、装置、电子设备及存储介质
CN109961094B (zh) 样本获取方法、装置、电子设备及可读存储介质
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN105528403B (zh) 目标数据识别方法及装置
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
CN110764627B (zh) 一种输入方法、装置和电子设备
CN112148980B (zh) 基于用户点击的物品推荐方法、装置、设备和存储介质
EP3734472A1 (en) Method and device for text processing
CN111814538A (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN113920293A (zh) 信息识别方法、装置、电子设备及存储介质
CN111079421B (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN110738267B (zh) 图像分类方法、装置、电子设备及存储介质
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN109842688B (zh) 一种内容推荐方法、装置、电子设备及存储介质
CN114466204B (zh) 一种视频弹幕的显示方法、装置、电子设备及存储介质
CN111831132A (zh) 一种信息推荐方法、装置和电子设备
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN113609380B (zh) 标签体系更新方法、搜索方法、装置以及电子设备
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN110147426B (zh) 一种查询文本的分类标签确定方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant