CN113554130B - 基于人工智能的数据标注方法、装置、电子设备及介质 - Google Patents

基于人工智能的数据标注方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN113554130B
CN113554130B CN202111104491.0A CN202111104491A CN113554130B CN 113554130 B CN113554130 B CN 113554130B CN 202111104491 A CN202111104491 A CN 202111104491A CN 113554130 B CN113554130 B CN 113554130B
Authority
CN
China
Prior art keywords
corpus
target
labeled
test
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111104491.0A
Other languages
English (en)
Other versions
CN113554130A (zh
Inventor
姜敏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111104491.0A priority Critical patent/CN113554130B/zh
Publication of CN113554130A publication Critical patent/CN113554130A/zh
Application granted granted Critical
Publication of CN113554130B publication Critical patent/CN113554130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于人工智能的数据标注方法、装置、电子设备及介质,通过结合语料标注者的用户画像从待标注语料中获取目标待标注语料,在对目标待标注语料进行分组之后,确定每组目标待标注语料对应的目标语料标注者,并为每组目标待标注语料生成差异化的测试语料集,从而将测试语料集发送给对应组的目标语料标注者进行标注测试,进而通过获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;基于所述语料置信度得到对应组的目标待标注语料的目标语料标签,语料标注的质量高,且可信度高。

Description

基于人工智能的数据标注方法、装置、电子设备及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的数据标注方法、装置、电子设备及介质。
背景技术
在数据爆炸时代,每天都有海量数据以各种形式,例如,文本、图像、音视频等,通过各类电子终端汇总到企业级数据仓库内,充足的数据为训练人工智能模型带来了有利条件,其中,有监督的模型的性能表现最佳,但有监督的模型需要有标签的数据。
发明人在实现本发明的过程中发现,通过伪标签的方式为数据生成伪标签,会导致数据标签质量一般,对于模型性能的提升也有限;而通过人工的方式标注数据,由于语料标注者对多个数据进行标注,但语料标注者在倦怠时极易出错,导致标注质量降低,且无法衡量这个语料标注者标注的数据标签是否是可信的。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的数据标注方法、装置、电子设备及介质,能够提高语料标注的质量,语料标注的可信度较高。
本发明的第一方面提供一种基于人工智能的数据标注方法,所述方法包括:
获取待标注语料及语料标注者的用户画像;
根据所述用户画像从所述待标注语料中获取目标待标注语料;
对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;
基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;
获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;
基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
根据本发明的一个可选的实施方式,所述根据所述用户画像从所述待标注语料中获取目标待标注语料包括:
对所述待标注语料进行清洗;
根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料;
获取所述第一类待标注语料的语料标注等级要求;
根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料。
根据本发明的一个可选的实施方式,所述根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料包括:
将所述清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;
根据所述用户画像得到语料领域集合;
以所述目标语料领域为关键词检索所述语料领域集合;
当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;
当从所述语料领域集合中没有检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第二类待标注语料。
根据本发明的一个可选的实施方式,所述根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料包括:
从所述用户画像中获取所述语料标注者的学历等级;
确定所述学历等级中的最高学历等级;
获取所述语料标注等级要求中低于所述最高学历等级的目标语料标注等级要求;
确定所述目标语料标注等级要求对应的第一类待标注语料为所述目标待标注语料。
根据本发明的一个可选的实施方式,所述基于每组目标待标注语料生成测试语料集包括:
对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;
根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;
通过对抗神经网络为所述目标对照语料生成多个扩充语料;
计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度;
根据所述第二相似度确定所述任意一个目标待标注语料的目标扩充语料;
将所述目标对照语料及所述目标扩充语料合并至对应组的目标待标注语料中,得到测试语料集。
根据本发明的一个可选的实施方式,所述根据所述语料标签计算对应组的目标待标注语料的语料置信度包括:
获取每个所述目标语料标注者标注每个所述目标对照语料的第一测试语料标签、标注每个所述目标对照语料对应的目标扩充语料的第二测试语料标签及每个目标对照语料的真实语料标签;
根据第一测试语料标签及对应的所述真实语料标签计算对应的所述目标语料标注者的第一标注测试正确率;
根据多个所述目标语料标注者的第一标注测试正确率计算得到第一语料置信度;
根据所述第二测试语料标签与对应的目标对照语料的真实语料标签计算对应的所述目标语料标注者的第二标注测试正确率;
根据多个所述目标语料标注者的第二标注测试正确率计算得到第二语料置信度;
基于所述第一语料置信度及所述第二语料置信度得到对应组的目标待标注语料的语料置信度。
根据本发明的一个可选的实施方式,所述方法还包括:
将所述第二类待标注语料及所述第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注;
接收所述第三方标注机构标注的语料标签。
本发明的第二方面提供一种基于人工智能的数据标注装置,所述装置包括:
获取模块,用于获取待标注语料及语料标注者的用户画像;
筛选模块,用于根据所述用户画像从所述待标注语料中获取目标待标注语料;
分组模块,用于对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;
测试模块,用于基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;
计算模块,用于获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;
确定模块,用于基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于人工智能的数据标注方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于人工智能的数据标注方法。
综上所述,本发明所述的基于人工智能的数据标注方法、装置、电子设备及介质,通过结合语料标注者的用户画像从待标注语料中获取目标待标注语料,在对目标待标注语料进行分组之后,确定每组目标待标注语料对应的目标语料标注者,并为每组目标待标注语料生成差异化的测试语料集,从而将测试语料集发送给对应组的目标语料标注者进行标注测试,进而通过获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;基于所述语料置信度得到对应组的目标待标注语料的目标语料标签,语料标注的质量高,且可信度高。
附图说明
图1是本发明实施例一提供的基于人工智能的数据标注方法的流程图。
图2是本发明实施例二提供的基于人工智能的数据标注装置的结构图。
图3是本发明实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述在一个可选的实施方式中实施例的目的,不是旨在于限制本发明。
本发明实施例提供的基于人工智能的数据标注方法由电子设备执行,相应地,基于人工智能的数据标注装置运行于电子设备中。
本申请实施例可以基于人工智能技术对数据进行标注。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
实施例一
图1是本发明实施例一提供的基于人工智能的数据标注方法的流程图。基于人工智能的数据标注方法,通过结合语料标注者的用户画像,为待标注语料生成差异化的测试题,并分配给适合的多个语料标注者进行标注,从而结合多个语料标注者标注的语料标签计算得到标注置信度,进而基于标注置信度确定待标注语料的目标语料标签,语料标注的质量高,且可信度高。所述基于人工智能的数据标注方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取待标注语料及语料标注者的用户画像。
待标注语料可以包括:文本、图像、音视频等。
待标注语料是标注委托者通过标注系统发布的,标注委托者即标注任务的发布者。
语料标注者是预先在标注系统中注册的用户,是待标注语料的标注提供者。语料标注者在标注系统中进行注册时会提供自身的基础信息,包括,但不限于:职业、性别、年龄、学历等级、专业目录、感兴趣的垂直领域(即,标注者的偏好)。电子设备将语料标注者注册时提供的基础信息存储于本地数据库中,从而形成语料标注者的用户画像。
标注委托者成功登录标注系统后,发布一个或者多个待标注语料,从而触发对发布的一个或者多个待标注语料的标注指令。电子设备响应于所述标注指令,获取所述一个或者多个待标注语料并从本地数据库中提取注册的语料标注者的用户画像,从而基于用户画像从一个或者多个待标注语料中获取目标待标注语料。
S12,根据所述用户画像从所述待标注语料中获取目标待标注语料。
当语料标注者发布了一个待标注语料时,则根据用户画像判断该一个待标注语料是否为目标待标注语料。当语料标注者发布了多个待标注语料时,则根据用户画像从该多个待标注语料中获取一个或者多个目标待标注语料,多个待标注语料中除了所述一个或者多个目标待标注语料之外的语料,称之为非目标待标注语料。
下面以语料标注者发布了多个待标注语料为例进行阐述说明。
在一个可选的实施方式中,所述根据所述用户画像从所述待标注语料中获取目标待标注语料包括:
对所述待标注语料进行清洗;
根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料;
获取所述第一类待标注语料的语料标注等级要求;
根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料。
在从所述待标注语料中获取目标待标注语料之前,需要先对待标注语料进行数据清洗,从而确定并纠正待标注语料中的错误数据。数据清洗可以包括:检查数据的一致性,删除无效值和填充缺失值等。数据清洗的过程,本发明不详细阐述。
在对待标注语料进行清洗后,结合预先训练得到的语料分类模型及用户画像对清洗后的待标注语料进行分类,从而确定待标注语料为第一类待标注语料还是第二类待标注语料。当所述待标注语料为第一类待标注语料时,还需要根据语料等级要求进一步筛选出适用于注册的语料标注者进行语料标注的目标待标注语料。
该可选的实施方式中,通过语料标注者的用户画像从所述待标注语料中获取目标待标注语料,获取的目标待标注语料均为适合于语料标注者的语料,选取适合语料标注者的语料供语料标注者进行标注,有利于提高语料标注的准确率。
在一个可选的实施方式中,所述根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料包括:
将所述清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;
根据所述用户画像得到语料领域集合;
以所述目标语料领域为关键词检索所述语料领域集合;
当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;
当从所述语料领域集合中没有检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第二类待标注语料。
电子设备可以预先从注册的语料标注者的用户画像中提取感兴趣的垂直领域,得到语料领域集合,并获取与感兴趣的垂直领域对应的多个训练语料,得到训练语料集合,从而基于感兴趣的垂直领域集合、训练语料集合训练语料分类模型,便于后续对待标注语料进行分类,得到待标注语料的目标语料领域,并与语料领域集合中的语料领域进行一一匹配,从而确定所述待标注语料为第一类待标注语料还是第二类待标注语料。当目标语料领域中的任意一个待标注语料与语料领域集合中的任意一个语料领域匹配成功(语料命中),表明从所述语料领域集合中检索到了与所述目标语料领域相同的语料领域,则确定所述待标注语料为第一类待标注语料。当目标语料领域中的任意一个待标注语料与语料领域集合中的所有语料领域匹配失败(语料未命中),表明未从所述语料领域集合中检索到与所述目标语料领域相同的语料领域,则确定所述待标注语料为第二类待标注语料。
该可选的实施方式中,根据用户画像得到语料领域集合,该语料领域集合中包括了语料标注者所能够标注的感兴趣的垂直领域内的所有语料,在使用语料领域分类模型对清洗后的待标注语料进行分类得到目标语料领域后,如果从语料领域集合中命中了与目标语料领域相同的语料领域,则确定待标注语料为语料标注者所能够标注的感兴趣的垂直领域内的语料。即,实现了根据语料标注者的偏好将待标注语料进行分类,分类更为精确。
在一个可选的实施方式中,所述根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料包括:
从所述用户画像中获取所述语料标注者的学历等级;
确定所述学历等级中的最高学历等级;
获取所述语料标注等级要求中低于所述最高学历等级的目标语料标注等级要求;
确定所述目标语料标注等级要求对应的第一类待标注语料为所述目标待标注语料。
示例性的,假设语料标注者的学历等级包括:高中,大专,本科,而第一类标注语料的语料标注等级要求包括:大专,本科,硕士,博士,由于学历等级为高中,大专,本科的语料标注者无法胜任语料标注等级要求为硕士,博士的语料的标注工作。因此,需要将语料标注等级要求为硕士,博士的第一类待标注语料排除,将语料标注等级要求为大专,本科的第一类待标注语料分配给语料标注者进行语料标注。
该可选的实施方式中,根据用户画像获取语料标注者的学历等级及语料标注等级要求,能够确定第一类待标注语料中哪些语料能够被语料标注者进行标注,哪些语料不能被语料标注者进行标注,从而对语料标注者无法胜任的语料不进行分配,仅分配语料标注者能够胜任的语料。因此,获取的目标待标注语料更贴合语料标注者的能力,从而能够提高目标待标注语料的标注准确率。
S13,对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者。
由于目标待标注语料对应有语料标注等级要求,则可以根据语料标注等级要求对目标待标注语料进行分组,将语料标注等级要求相同的目标待标注语料分为一组,语料标注等级要求不同的目标待标注语料分为不同的组。
同理,语料标注者对应有学历等级,则可以根据学历等级对语料标注者进行分组,将学历等级相同的语料标注者分为一组,学历等级不同的语料标注者分为不同的组。
最后,根据分组后的目标待标注语料对应的语料标注等级要求与分组后的语料标注者对应的学历等级进行匹配,使得分组后的目标待标注语料对应的语料标注等级要求与分组后的语料标注者对应的学历等级相同。
S14,基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试。
电子设备可以以每组目标待标注语料为基础,生成语料测试题,从而将语料测试题发送给对应组的目标语料标注者进行标注测试。电子设备可以将语料测试题全部发送给对应组的目标语料标注者进行标注测试,也可以随机的从语料测试题中选取部分语料测试题发送给对应组的目标语料标注者中的部分语料标注者,将另一部分语料测试题发送给对应组的目标语料标注者中的另一部分语料标注者。
基于不同组的目标待标注语料生成的测试语料集是不同的,将生成的测试语料集发送给对应组的目标语料标注者,使得不同组的目标语料标注者标注的语料是不同的,实现了不同目标语料标注者间标注的语料的差异化。
在一个可选的实施方式中,所述基于每组目标待标注语料生成测试语料集包括:
对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;
根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;
通过对抗神经网络为所述目标对照语料生成多个扩充语料;
计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度;
根据所述第二相似度确定所述任意一个目标待标注语料的目标扩充语料;
将所述目标对照语料及所述目标扩充语料合并至对应组的目标待标注语料中,得到测试语料集。
对照语料集为预先创建的具有语料标签的语料的集合,是用于评判目标标注者对目标待标注语料的标注准确度。
电子设备可以通过计算任意一个目标待标注语料与预设对照语料集中每个对照语料的余弦距离或者欧式距离,将余弦距离或者欧式距离确定为任意一个目标待标注语料与对照语料的第一相似度。第一相似度越高,则表明目标待标注语料与对照语料的语义越近似。第一相似度越低,则表明目标待标注语料与对照语料的语义越不近似。可以从多个第一相似度中获取最高的第一相似度,并将最高的第一相似度对应的对照语料确定为任意一个目标待标注语料的目标对照语料。
对抗神经网络可以为级联设置的两个网络,一个文本生成网络,一个文本判别网络,所述文本生成网络用于接收一个随机的噪声,通过这个噪声生成文本,所述文本判别网络用于判别生产的文本是不是“真实的”,即输入参数是一个文本x,输出为D(x),D(x)代表x为真实文本的概率。
电子设备可以通过计算任意一个目标待标注语料与扩充语料的余弦距离或者欧式距离,将余弦距离或者欧式距离确定为任意一个目标待标注语料与扩充语料的第二相似度。第二相似度越高,则表明目标待标注语料与扩充语料的语义越近似。第二相似度越低,则表明目标待标注语料与扩充语料的语义越不近似。可以从多个第二相似度中获取最高的第二相似度,并将最高的第二相似度对应的扩充语料确定为任意一个目标待标注语料的目标扩充语料。
该可选的实施方式,在将目标待标注语料发送给对应组的目标语料标注者进行标注测试时,先从预先构建的具有语料标签的对照语料集中获取与目标待标注语料语义相似度最高的目标对照语料,并基于目标对照语料生成多个扩充语料后,从多个扩充语料中获取与目标待标注语料语义相似度最高的目标扩充语料,从而将目标对照语料及目标扩充语料与目标待标注语料集合在一起,得到测试语料集,不仅扩大了测试语料的数量,保证了测试语料集的多样性和完整性,而且由于测试语料集中还包括有语料标签的语料,因而基于测试语料集对目标标注者进行标注测试,确保了测试的客观性,提高了测试结果的准确率,进而提高了后续的标注语料的质量。
在一个可选的实施方式中,所述计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度包括:使用预设第一哈希函数计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的弱指纹,将所述弱指纹确定为所述第一相似度。
在一个可选的实施方式中,所述计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度包括:使用预设第二哈希函数计算所述任意一个目标待标注语料与每个所述扩充语料的强指纹,将所述强指纹确定为所述第二相似度。
该可选的实施方式中,所述预设第一哈希函数可以为Adler32,所述预设第二哈希函数可以为MD5。由于Adler32采用32位,而MD5采用128位,Adler32的计算量只有MD5的1/3,因而Adler32的计算效率会是MD5的3倍。
上述可选的实施方式,由于预先创建的对照语料集中的语料大多与待标注语料具有相关性,因而使用计算量较低的预设第一哈希函数计算得到弱指纹,从整体上减少了指纹的计算量,从而提升了第一相似度的计算效率。而扩充语料是通过对抗神经网络基于对照语料生成的具有欺骗性质的语料,因此,为了保证选取的扩充语料在语义上与目标待标注语料最接近,则采用预设第二哈希函数计算得到强指纹,并基于强指纹确定目标扩充语料,能够有效的确保的获取的目标扩充语料的真实性及在语义上的相似性。
S15,获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度。
目标语料标注者在完成语料标签的标注后,触发标注完成指令,电子设备响应于所述标注完成指令,获取目标语料标注者标注的语料标签,从而基于目标语料标注者标注的语料标签计算语料置信度,进而基于语料置信度确定目标待标注语料的最终语料标签。
在一个可选的实施方式中,所述根据所述语料标签计算对应组的目标待标注语料的语料置信度包括:
获取每个所述目标语料标注者标注每个所述目标对照语料的第一测试语料标签、标注每个所述目标对照语料对应的目标扩充语料的第二测试语料标签及每个目标对照语料的真实语料标签;
根据所述第一测试语料标签及对应的所述真实语料标签计算对应的所述目标语料标注者的第一标注测试正确率;
根据多个所述目标语料标注者的第一标注测试正确率计算得到第一语料置信度;
根据所述第二测试语料标签与对应的目标对照语料的真实语料标签计算对应的所述目标语料标注者的第二标注测试正确率;
根据多个所述目标语料标注者的第二标注测试正确率计算得到第二语料置信度;
基于所述第一语料置信度及所述第二语料置信度得到对应组的目标待标注语料的语料置信度。
示例性的,假设某个组包括10个目标待标注语料,则对应10个目标对照语料,10个目标扩充语料,对应组包括3个目标语料标注者,则获取第1个目标语料标注者标注的10个目标对照语料的第一测试语料标签,将这10个第一测试语料标签与10个真实语料标签进行比对,确定与真实语料标签相同的第一测试语料标签的第一个数,将第一个数除以10得到第1个目标语料标注者的第一标注测试正确率,采用同样的方法,分别计算得到第2-10个目标语料标注者的第一标注测试正确率,然后将这10个第一标注测试正确率进行平均计算,得到第一均值,作为第一语料置信度。
由于目标扩充语料是通过对抗神经网络基于目标对照语料生成的,因而可以将目标对照语料的真实语料标签作为目标扩充语料的真实语料标签,那么获取第1个目标语料标注者标注的10个目标扩充语料的第二测试语料标签,将者10个第二测试语料标签与10个真实语料标签进行比对,确定与真实语料标签相同的第二测试语料标签的第二个数,将第二个数除以10得到第1个目标语料标注者的第二标注测试正确率,采用同样的方法,分别计算得到第2-10个目标语料标注者的第二标注测试正确率,然后将这10个第二标注测试正确率进行平均计算,得到第二均值,作为第二语料置信度。
可以将第一语料置信度与第二语料置信度的均值,作为对应组的目标待标注语料的语料置信度。也可以将第一语料置信度与第二语料置信度的乘积,作为对应组的目标待标注语料的语料置信度。本发明不作任何限制。
该可选的实施方式中,在计算目标待标注语料的语料置信度时,通过目标对照语料的真实语料标签计算目标语料标注者标注目标对照语料的第一语料置信度及标注目标扩充语料的第二语料置信度,从而从这两个维度能够更准确的计算目标待标注语料的语料置信度,进而有助于提高目标待标注语料的目标语料标签的准确度以及可信度。
S16,基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
当语料置信度高于预设语料置信度阈值,则表明目标语料标注者标注的语料质量较高且质量的可信度较高,当语料置信度低于预设语料置信度阈值,则表明目标语料标注者标注的语料质量较低且质量的可信度较低。
在语料置信度高于预设语料置信度阈值时,对于每组目标待标注语料中的每个目标待标注语料,则获取对应的目标语料标注者标注的测试语料标签,获取测试语料标签中具有相同的测试语料标签的数量,将数量最多的测试语料标签作为该目标待标注语料的目标语料标签。
在语料置信度低于预设语料置信度阈值时,则可以将对应组的目标待标注语料发送给第三方标注机构进行标注,并接收所述第三方标注机构标注的语料标签,作为该组的目标待标注语料的目标语料标签。
在一个可选的实施方式中,所述方法还包括:
将所述第二类待标注语料及所述第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注;
接收所述第三方标注机构标注的语料标签。
由于第二类待标注语料的语料领域与标注系统中注册的语料标注者的语料领域集合不匹配,因而第二类待标注语料不适合标注系统中注册的语料标注者进行语料标注。
虽然第一类待标注语料的语料领域与标注系统中注册的语料标注者的语料领域集合匹配,但第一类待标注语料中除所述目标待标注语料之外的待标注语料的语料标注等级要求,与标注系统中注册的语料标注者的学历等级要求不符合,因而第一类待标注语料中除所述目标待标注语料之外的待标注语料也不适合标注系统中注册的语料标注者进行语料标注。
将不适合标注系统中注册的语料标注者进行语料标注的第二类待标注语料及第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注,从而借助于第三方标注机构对这些语料进行语料标注,得到语料标签。
该可选的实施方式,借助于第三方标注机构来标注不适合语料标注者进行语料标注的语料,能够提高待标注语料的标注准确度。
实施例二
图2是本发明实施例二提供的基于人工智能的数据标注装置的结构图。
在一些实施例中,所述基于人工智能的数据标注装置20可以包括多个由计算机程序段所组成的功能模块。所述基于人工智能的数据标注装置20中的各个程序段的计算机程序可以存储于电子设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于人工智能的数据标注的功能。
本实施例中,所述基于人工智能的数据标注装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、筛选模块202、分组模块203、测试模块204、计算模块205及确定模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块201,用于获取待标注语料及语料标注者的用户画像。
待标注语料可以包括:文本、图像、音视频等。
待标注语料是标注委托者通过标注系统发布的,标注委托者即标注任务的发布者。
语料标注者是预先在标注系统中注册的用户,是待标注语料的标注提供者。语料标注者在标注系统中进行注册时会提供自身的基础信息,包括,但不限于:职业、性别、年龄、学历等级、专业目录、感兴趣的垂直领域(即,标注者的偏好)。电子设备将语料标注者注册时提供的基础信息存储于本地数据库中,从而形成语料标注者的用户画像。
标注委托者成功登录标注系统后,发布一个或者多个待标注语料,从而触发对发布的一个或者多个待标注语料的标注指令。电子设备响应于所述标注指令,获取所述一个或者多个待标注语料并从本地数据库中提取注册的语料标注者的用户画像,从而基于用户画像从一个或者多个待标注语料中获取目标待标注语料。
所述筛选模块202,根据所述用户画像从所述待标注语料中获取目标待标注语料。
当语料标注者发布了一个待标注语料时,则根据用户画像判断该一个待标注语料是否为目标待标注语料。当语料标注者发布了多个待标注语料时,则根据用户画像从该多个待标注语料中获取一个或者多个目标待标注语料,多个待标注语料中除了所述一个或者多个目标待标注语料之外的语料,称之为非目标待标注语料。
下面以语料标注者发布了多个待标注语料为例进行阐述说明。
在一个可选的实施方式中,所述筛选模块202根据所述用户画像从所述待标注语料中获取目标待标注语料包括:
对所述待标注语料进行清洗;
根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料;
获取所述第一类待标注语料的语料标注等级要求;
根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料。
在从所述待标注语料中获取目标待标注语料之前,需要先对待标注语料进行数据清洗,从而确定并纠正待标注语料中的错误数据。数据清洗可以包括:检查数据的一致性,删除无效值和填充缺失值等。数据清洗的过程,本发明不详细阐述。
在对待标注语料进行清洗后,结合预先训练得到的语料分类模型及用户画像对清洗后的待标注语料进行分类,从而确定待标注语料为第一类待标注语料还是第二类待标注语料。当所述待标注语料为第一类待标注语料时,还需要根据语料等级要求进一步筛选出适用于注册的语料标注者进行语料标注的目标待标注语料。
该可选的实施方式中,通过语料标注者的用户画像从所述待标注语料中获取目标待标注语料,获取的目标待标注语料均为适合于语料标注者的语料,选取适合语料标注者的语料供语料标注者进行标注,有利于提高语料标注的准确率。
在一个可选的实施方式中,所述根据所述用户画像将清洗后的待标注语料分为第一类待标注语料及第二类待标注语料包括:
将所述清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;
根据所述用户画像得到语料领域集合;
以所述目标语料领域为关键词检索所述语料领域集合;
当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;
当从所述语料领域集合中没有检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第二类待标注语料。
电子设备可以预先从注册的语料标注者的用户画像中提取感兴趣的垂直领域,得到语料领域集合,并获取与感兴趣的垂直领域对应的多个训练语料,得到训练语料集合,从而基于感兴趣的垂直领域集合、训练语料集合训练语料分类模型,便于后续对待标注语料进行分类,得到待标注语料的目标语料领域,并与语料领域集合中的语料领域进行一一匹配,从而确定所述待标注语料为第一类待标注语料还是第二类待标注语料。当目标语料领域中的任意一个待标注语料与语料领域集合中的任意一个语料领域匹配成功(语料命中),表明从所述语料领域集合中检索到了与所述目标语料领域相同的语料领域,则确定所述待标注语料为第一类待标注语料。当目标语料领域中的任意一个待标注语料与语料领域集合中的所有语料领域匹配失败(语料未命中),表明未从所述语料领域集合中检索到与所述目标语料领域相同的语料领域,则确定所述待标注语料为第二类待标注语料。
该可选的实施方式中,根据用户画像得到语料领域集合,该语料领域集合中包括了语料标注者所能够标注的感兴趣的垂直领域内的所有语料,在使用语料领域分类模型对清洗后的待标注语料进行分类得到目标语料领域后,如果从语料领域集合中命中了与目标语料领域相同的语料领域,则确定待标注语料为语料标注者所能够标注的感兴趣的垂直领域内的语料。即,实现了根据语料标注者的偏好将待标注语料进行分类,分类更为精确。
在一个可选的实施方式中,所述根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料包括:
从所述用户画像中获取所述语料标注者的学历等级;
确定所述学历等级中的最高学历等级;
获取所述语料标注等级要求中低于所述最高学历等级的目标语料标注等级要求;
确定所述目标语料标注等级要求对应的第一类待标注语料为所述目标待标注语料。
示例性的,假设语料标注者的学历等级包括:高中,大专,本科,而第一类标注语料的语料标注等级要求包括:大专,本科,硕士,博士,由于学历等级为高中,大专,本科的语料标注者无法胜任语料标注等级要求为硕士,博士的语料的标注工作。因此,需要将语料标注等级要求为硕士,博士的第一类待标注语料排除,将语料标注等级要求为大专,本科的第一类待标注语料分配给语料标注者进行语料标注。
该可选的实施方式中,根据用户画像获取语料标注者的学历等级及语料标注等级要求,能够确定第一类待标注语料中哪些语料能够被语料标注者进行标注,哪些语料不能被语料标注者进行标注,从而对语料标注者无法胜任的语料不进行分配,仅分配语料标注者能够胜任的语料。因此,获取的目标待标注语料更贴合语料标注者的能力,从而能够提高目标待标注语料的标注准确率。
所述分组模块203,用于对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者。
由于目标待标注语料对应有语料标注等级要求,则可以根据语料标注等级要求对目标待标注语料进行分组,将语料标注等级要求相同的目标待标注语料分为一组,语料标注等级要求不同的目标待标注语料分为不同的组。
同理,语料标注者对应有学历等级,则可以根据学历等级对语料标注者进行分组,将学历等级相同的语料标注者分为一组,学历等级不同的语料标注者分为不同的组。
最后,根据分组后的目标待标注语料对应的语料标注等级要求与分组后的语料标注者对应的学历等级进行匹配,使得分组后的目标待标注语料对应的语料标注等级要求与分组后的语料标注者对应的学历等级相同。
所述测试模块204,用于基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试。
电子设备可以以每组目标待标注语料为基础,生成语料测试题,从而将语料测试题发送给对应组的目标语料标注者进行标注测试。电子设备可以将语料测试题全部发送给对应组的目标语料标注者进行标注测试,也可以随机的从语料测试题中选取部分语料测试题发送给对应组的目标语料标注者中的部分语料标注者,将另一部分语料测试题发送给对应组的目标语料标注者中的另一部分语料标注者。
基于不同组的目标待标注语料生成的测试语料集是不同的,将生成的测试语料集发送给对应组的目标语料标注者,使得不同组的目标语料标注者标注的语料是不同的,实现了不同目标语料标注者间标注的语料的差异化。
在一个可选的实施方式中,所述测试模块204基于每组目标待标注语料生成测试语料集包括:
对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;
根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;
通过对抗神经网络为所述目标对照语料生成多个扩充语料;
计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度;
根据所述第二相似度确定所述任意一个目标待标注语料的目标扩充语料;
将所述目标对照语料及所述目标扩充语料合并至对应组的目标待标注语料中,得到测试语料集。
对照语料集为预先创建的具有语料标签的语料的集合,是用于评判目标标注者对目标待标注语料的标注准确度。
电子设备可以通过计算任意一个目标待标注语料与预设对照语料集中每个对照语料的余弦距离或者欧式距离,将余弦距离或者欧式距离确定为任意一个目标待标注语料与对照语料的第一相似度。第一相似度越高,则表明目标待标注语料与对照语料的语义越近似。第一相似度越低,则表明目标待标注语料与对照语料的语义越不近似。可以从多个第一相似度中获取最高的第一相似度,并将最高的第一相似度对应的对照语料确定为任意一个目标待标注语料的目标对照语料。
对抗神经网络可以为级联设置的两个网络,一个文本生成网络,一个文本判别网络,所述文本生成网络用于接收一个随机的噪声,通过这个噪声生成文本,所述文本判别网络用于判别生产的文本是不是“真实的”,即输入参数是一个文本x,输出为D(x),D(x)代表x为真实文本的概率。
电子设备可以通过计算任意一个目标待标注语料与扩充语料的余弦距离或者欧式距离,将余弦距离或者欧式距离确定为任意一个目标待标注语料与扩充语料的第二相似度。第二相似度越高,则表明目标待标注语料与扩充语料的语义越近似。第二相似度越低,则表明目标待标注语料与扩充语料的语义越不近似。可以从多个第二相似度中获取最高的第二相似度,并将最高的第二相似度对应的扩充语料确定为任意一个目标待标注语料的目标扩充语料。
该可选的实施方式,在将目标待标注语料发送给对应组的目标语料标注者进行标注测试时,先从预先构建的具有语料标签的对照语料集中获取与目标待标注语料语义相似度最高的目标对照语料,并基于目标对照语料生成多个扩充语料后,从多个扩充语料中获取与目标待标注语料语义相似度最高的目标扩充语料,从而将目标对照语料及目标扩充语料与目标待标注语料集合在一起,得到测试语料集,不仅扩大了测试语料的数量,保证了测试语料集的多样性和完整性,而且由于测试语料集中还包括有语料标签的语料,因而基于测试语料集对目标标注者进行标注测试,确保了测试的客观性,提高了测试结果的准确率,进而提高了后续的标注语料的质量。
在一个可选的实施方式中,所述计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度包括:使用预设第一哈希函数计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的弱指纹,将所述弱指纹确定为所述第一相似度。
在一个可选的实施方式中,所述计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度包括:使用预设第二哈希函数计算所述任意一个目标待标注语料与每个所述扩充语料的强指纹,将所述强指纹确定为所述第二相似度。
该可选的实施方式中,所述预设第一哈希函数可以为Adler32,所述预设第二哈希函数可以为MD5。由于Adler32采用32位,而MD5采用128位,Adler32的计算量只有MD5的1/3,因而Adler32的计算效率会是MD5的3倍。
上述可选的实施方式,由于预先创建的对照语料集中的语料大多与待标注语料具有相关性,因而使用计算量较低的预设第一哈希函数计算得到弱指纹,从整体上减少了指纹的计算量,从而提升了第一相似度的计算效率。而扩充语料是通过对抗神经网络基于对照语料生成的具有欺骗性质的语料,因此,为了保证选取的扩充语料在语义上与目标待标注语料最接近,则采用预设第二哈希函数计算得到强指纹,并基于强指纹确定目标扩充语料,能够有效的确保的获取的目标扩充语料的真实性及在语义上的相似性。
所述计算模块205,用于获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度。
目标语料标注者在完成语料标签的标注后,触发标注完成指令,电子设备响应于所述标注完成指令,获取目标语料标注者标注的语料标签,从而基于目标语料标注者标注的语料标签计算语料置信度,进而基于语料置信度确定目标待标注语料的最终语料标签。
在一个可选的实施方式中,所述计算模块205根据所述语料标签计算对应组的目标待标注语料的语料置信度包括:
获取每个所述目标语料标注者标注每个所述目标对照语料的第一测试语料标签、标注每个所述目标对照语料对应的目标扩充语料的第二测试语料标签及每个目标对照语料的真实语料标签;
根据所述第一测试语料标签及对应的所述真实语料标签计算对应的所述目标语料标注者的第一标注测试正确率;
根据多个所述目标语料标注者的第一标注测试正确率计算得到第一语料置信度;
根据所述第二测试语料标签与对应的目标对照语料的真实语料标签计算对应的所述目标语料标注者的第二标注测试正确率;
根据多个所述目标语料标注者的第二标注测试正确率计算得到第二语料置信度;
基于所述第一语料置信度及所述第二语料置信度得到对应组的目标待标注语料的语料置信度。
示例性的,假设某个组包括10个目标待标注语料,则对应10个目标对照语料,10个目标扩充语料,对应组包括3个目标语料标注者,则获取第1个目标语料标注者标注的10个目标对照语料的第一测试语料标签,将这10个第一测试语料标签与10个真实语料标签进行比对,确定与真实语料标签相同的第一测试语料标签的第一个数,将第一个数除以10得到第1个目标语料标注者的第一标注测试正确率,采用同样的方法,分别计算得到第2-10个目标语料标注者的第一标注测试正确率,然后将这10个第一标注测试正确率进行平均计算,得到第一均值,作为第一语料置信度。
由于目标扩充语料是通过对抗神经网络基于目标对照语料生成的,因而可以将目标对照语料的真实语料标签作为目标扩充语料的真实语料标签,那么获取第1个目标语料标注者标注的10个目标扩充语料的第二测试语料标签,将者10个第二测试语料标签与10个真实语料标签进行比对,确定与真实语料标签相同的第二测试语料标签的第二个数,将第二个数除以10得到第1个目标语料标注者的第二标注测试正确率,采用同样的方法,分别计算得到第2-10个目标语料标注者的第二标注测试正确率,然后将这10个第二标注测试正确率进行平均计算,得到第二均值,作为第二语料置信度。
可以将第一语料置信度与第二语料置信度的均值,作为对应组的目标待标注语料的语料置信度。也可以将第一语料置信度与第二语料置信度的乘积,作为对应组的目标待标注语料的语料置信度。本发明不作任何限制。
该可选的实施方式中,在计算目标待标注语料的语料置信度时,通过目标对照语料的真实语料标签计算目标语料标注者标注目标对照语料的第一语料置信度及标注目标扩充语料的第二语料置信度,从而从这两个维度能够更准确的计算目标待标注语料的语料置信度,进而有助于提高目标待标注语料的目标语料标签的准确度以及可信度。
所述确定模块206,基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
当语料置信度高于预设语料置信度阈值,则表明目标语料标注者标注的语料质量较高且质量的可信度较高,当语料置信度低于预设语料置信度阈值,则表明目标语料标注者标注的语料质量较低且质量的可信度较低。
在语料置信度高于预设语料置信度阈值时,对于每组目标待标注语料中的每个目标待标注语料,则获取对应的目标语料标注者标注的测试语料标签,获取测试语料标签中具有相同的测试语料标签的数量,将数量最多的测试语料标签作为该目标待标注语料的目标语料标签。
在语料置信度低于预设语料置信度阈值时,则可以将对应组的目标待标注语料发送给第三方标注机构进行标注,并接收所述第三方标注机构标注的语料标签,作为该组的目标待标注语料的目标语料标签。
在一个可选的实施方式中,还可以将所述第二类待标注语料及所述第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注,并接收所述第三方标注机构标注的语料标签。
由于第二类待标注语料的语料领域与标注系统中注册的语料标注者的语料领域集合不匹配,因而第二类待标注语料不适合标注系统中注册的语料标注者进行语料标注。
虽然第一类待标注语料的语料领域与标注系统中注册的语料标注者的语料领域集合匹配,但第一类待标注语料中除所述目标待标注语料之外的待标注语料的语料标注等级要求,与标注系统中注册的语料标注者的学历等级要求不符合,因而第一类待标注语料中除所述目标待标注语料之外的待标注语料也不适合标注系统中注册的语料标注者进行语料标注。
将不适合标注系统中注册的语料标注者进行语料标注的第二类待标注语料及第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注,从而借助于第三方标注机构对这些语料进行语料标注,得到语料标签。
该可选的实施方式,借助于第三方标注机构来标注不适合语料标注者进行语料标注的语料,能够提高待标注语料的标注准确度。
实施例三
本实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于人工智能的数据标注方法实施例中的步骤,例如图1所示的S11-S16:
S11,获取待标注语料及语料标注者的用户画像;
S12,根据所述用户画像从所述待标注语料中获取目标待标注语料;
S13,对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;
S14,基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;
S15,获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;
S16,基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能,例如图2中的模块201-206:
所述获取模块201,用于获取待标注语料及语料标注者的用户画像;
所述筛选模块202,用于根据所述用户画像从所述待标注语料中获取目标待标注语料;
所述分组模块203,用于对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;
所述测试模块204,用于基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试;
所述计算模块205,用于获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;
所述确定模块206,用于基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
实施例四
参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的基于人工智能的数据标注方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述电子设备3的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于人工智能的数据标注方法的全部或者部分步骤;或者实现基于人工智能的数据标注装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种基于人工智能的数据标注方法,其特征在于,所述方法包括:
获取待标注语料及语料标注者的用户画像;
对所述待标注语料进行清洗;将清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;根据所述用户画像得到语料领域集合,所述语料领域集合中包括了所述语料标注者所能够标注的感兴趣的垂直领域内的所有语料;以所述目标语料领域为关键词检索所述语料领域集合;当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;获取所述第一类待标注语料的语料标注等级要求;根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料;
对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;
基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试,所述基于每组目标待标注语料生成测试语料集包括:对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;通过对抗神经网络为所述目标对照语料生成多个扩充语料;计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度;根据所述第二相似度确定所述任意一个目标待标注语料的目标扩充语料;将所述目标对照语料及所述目标扩充语料合并至对应组的目标待标注语料中,得到测试语料集;
获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;
基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
2.如权利要求1所述的基于人工智能的数据标注方法,其特征在于,所述方法还包括:
当从所述语料领域集合中没有检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第二类待标注语料。
3.如权利要求2所述的基于人工智能的数据标注方法,其特征在于,所述根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料包括:
从所述用户画像中获取所述语料标注者的学历等级;
确定所述学历等级中的最高学历等级;
获取所述语料标注等级要求中低于所述最高学历等级的目标语料标注等级要求;
确定所述目标语料标注等级要求对应的第一类待标注语料为所述目标待标注语料。
4.如权利要求1所述的基于人工智能的数据标注方法,其特征在于,所述根据所述语料标签计算对应组的目标待标注语料的语料置信度包括:
获取每个所述目标语料标注者标注每个所述目标对照语料的第一测试语料标签、标注每个所述目标对照语料对应的目标扩充语料的第二测试语料标签及每个目标对照语料的真实语料标签;
根据所述第一测试语料标签及对应的所述真实语料标签计算对应的所述目标语料标注者的第一标注测试正确率;
根据多个所述目标语料标注者的第一标注测试正确率计算得到第一语料置信度;
根据所述第二测试语料标签与对应的目标对照语料的真实语料标签计算对应的所述目标语料标注者的第二标注测试正确率;
根据多个所述目标语料标注者的第二标注测试正确率计算得到第二语料置信度;
基于所述第一语料置信度及所述第二语料置信度得到对应组的目标待标注语料的语料置信度。
5.如权利要求2至4中任意一项所述的基于人工智能的数据标注方法,其特征在于,所述方法还包括:
将所述第二类待标注语料及所述第一类待标注语料中除所述目标待标注语料之外的待标注语料,分配给第三方标注机构进行标注;
接收所述第三方标注机构标注的语料标签。
6.一种基于人工智能的数据标注装置,其特征在于,所述装置包括:
获取模块,用于获取待标注语料及语料标注者的用户画像;
筛选模块,用于对所述待标注语料进行清洗;将清洗后的待标注语料输入至语料领域分类模型中进行分类,得到目标语料领域;根据所述用户画像得到语料领域集合,所述语料领域集合中包括了所述语料标注者所能够标注的感兴趣的垂直领域内的所有语料;以所述目标语料领域为关键词检索所述语料领域集合;当从所述语料领域集合中检索到与所述目标语料领域相同的语料领域时,将所述待标注语料分为第一类待标注语料;获取所述第一类待标注语料的语料标注等级要求;根据所述语料标注等级要求及所述用户画像从所述第一类待标注语料中获取所述目标待标注语料;
分组模块,用于对所述目标待标注语料进行分组,并确定每组目标待标注语料对应的目标语料标注者;
测试模块,用于基于每组目标待标注语料生成测试语料集,并将所述测试语料集发送给对应组的目标语料标注者进行标注测试,所述基于每组目标待标注语料生成测试语料集包括:对于任意一个目标待标注语料,计算所述任意一个目标待标注语料与预设对照语料集中每个对照语料的第一相似度;根据所述第一相似度确定所述任意一个目标待标注语料的目标对照语料;通过对抗神经网络为所述目标对照语料生成多个扩充语料;计算所述任意一个目标待标注语料与每个所述扩充语料的第二相似度;根据所述第二相似度确定所述任意一个目标待标注语料的目标扩充语料;将所述目标对照语料及所述目标扩充语料合并至对应组的目标待标注语料中,得到测试语料集;
计算模块,用于获取每组目标语料标注者标注的所述测试语料集的语料标签,并根据所述语料标签计算对应组的目标待标注语料的语料置信度;
确定模块,用于基于所述语料置信度得到对应组的目标待标注语料的目标语料标签。
7.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至5中任意一项所述基于人工智能的数据标注方法。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述基于人工智能的数据标注方法。
CN202111104491.0A 2021-09-22 2021-09-22 基于人工智能的数据标注方法、装置、电子设备及介质 Active CN113554130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111104491.0A CN113554130B (zh) 2021-09-22 2021-09-22 基于人工智能的数据标注方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111104491.0A CN113554130B (zh) 2021-09-22 2021-09-22 基于人工智能的数据标注方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN113554130A CN113554130A (zh) 2021-10-26
CN113554130B true CN113554130B (zh) 2022-01-18

Family

ID=78134549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111104491.0A Active CN113554130B (zh) 2021-09-22 2021-09-22 基于人工智能的数据标注方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113554130B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808661A (zh) * 2017-10-23 2018-03-16 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
CN113033718A (zh) * 2021-05-27 2021-06-25 北京爱数智慧科技有限公司 人工智能数据标注任务分配方法以及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529699B2 (en) * 2013-06-11 2016-12-27 Wipro Limited System and method for test data generation and optimization for data driven testing
CN107729378A (zh) * 2017-07-13 2018-02-23 华中科技大学 一种数据标注方法
CN111259251A (zh) * 2020-01-21 2020-06-09 北京爱数智慧科技有限公司 一种推荐标注任务的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107808661A (zh) * 2017-10-23 2018-03-16 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
CN113033718A (zh) * 2021-05-27 2021-06-25 北京爱数智慧科技有限公司 人工智能数据标注任务分配方法以及装置

Also Published As

Publication number Publication date
CN113554130A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN111984793A (zh) 文本情感分类模型训练方法、装置、计算机设备及介质
CN112860848B (zh) 信息检索方法、装置、设备及介质
CN111950621B (zh) 基于人工智能的目标数据检测方法、装置、设备及介质
CN110598200B (zh) 语义识别方法及装置
CN111666415A (zh) 话题聚类方法、装置、电子设备及存储介质
CN112288337B (zh) 行为推荐方法、装置、设备及介质
CN112860989B (zh) 课程推荐方法、装置、计算机设备及存储介质
CN112149409A (zh) 医疗词云生成方法、装置、计算机设备及存储介质
CN111985545B (zh) 基于人工智能的目标数据检测方法、装置、设备及介质
CN112597135A (zh) 用户分类方法、装置、电子设备及可读存储介质
CN114663223A (zh) 基于人工智能的信用风险评估方法、装置及相关设备
CN113887941A (zh) 业务流程生成方法、装置、电子设备及介质
CN111738778A (zh) 用户画像生成方法、装置、计算机设备及存储介质
CN114706985A (zh) 文本分类方法、装置、电子设备及存储介质
CN114862140A (zh) 基于行为分析的潜力评估方法、装置、设备及存储介质
CN114020892A (zh) 基于人工智能的答案选取方法、装置、电子设备及介质
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN114003704A (zh) 指定标签客群的创建方法、装置、电子设备及存储介质
CN113157739A (zh) 跨模态检索方法、装置、电子设备及存储介质
CN111651452A (zh) 数据存储方法、装置、计算机设备及存储介质
CN113570286B (zh) 基于人工智能的资源分配方法、装置、电子设备及介质
CN113554130B (zh) 基于人工智能的数据标注方法、装置、电子设备及介质
CN113420847B (zh) 基于人工智能的目标对象匹配方法及相关设备
CN112328752B (zh) 基于搜索内容的课程推荐方法、装置、计算机设备及介质
CN113590845B (zh) 基于知识图谱的文献检索方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant