CN112906375B - 文本数据标注方法、装置、设备及存储介质 - Google Patents

文本数据标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112906375B
CN112906375B CN202110311423.5A CN202110311423A CN112906375B CN 112906375 B CN112906375 B CN 112906375B CN 202110311423 A CN202110311423 A CN 202110311423A CN 112906375 B CN112906375 B CN 112906375B
Authority
CN
China
Prior art keywords
data
labeling
preset
marked
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110311423.5A
Other languages
English (en)
Other versions
CN112906375A (zh
Inventor
李鹏宇
李剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110311423.5A priority Critical patent/CN112906375B/zh
Publication of CN112906375A publication Critical patent/CN112906375A/zh
Application granted granted Critical
Publication of CN112906375B publication Critical patent/CN112906375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能领域,公开了一种文本数据标注方法、装置、设备及存储介质,用于使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。文本数据标注方法包括:获取原始数据,并对原始数据进行任务参数的配置,生成中间数据;基于自然语言处理NLP模型对中间数据进行预标注,得到预标注数据;输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。此外,本发明还涉及区块链技术,标注后的数据可存储于区块链节点中。

Description

文本数据标注方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本数据标注方法、装置、设备及存储介质。
背景技术
文本数据尤其是有标注的文本数据,是驱动NLP模型学习和优化的重要资源,是自然语言处理相关领域的重要组成部分,在文本数据标注界面方面,相关的工作已经做的非常充分了,目前已有的信息抽取模型训练数据标注工具相比文本编辑器,显著提升了数据标注工作的速度和质量。
然而,在现有的技术中,对NLP模型的使用还不够充分,大部分数据标注工具不对待标注语料中各个样本的标注价值进行区分,标注了大量价值较低的样本,涉及大规模数据的文本数据标注工作资源消耗大,数据标注质量低。
发明内容
本发明提供了一种文本数据标注方法、装置、设备及存储介质,用于使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
本发明第一方面提供了一种文本数据标注方法,包括:获取原始数据,并对所述原始数据进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据;基于自然语言处理NLP模型对所述中间数据进行预标注,得到预标注数据;根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型。
可选的,在本发明第一方面的第一种实现方式中,所述获取原始数据,并对所述原始数据进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据包括:通过预置的接口将存储原始数据的文件上传,并获取所述原始数据,所述原始数据为待标注的文本数据;基于所述原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,所述信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。
可选的,在本发明第一方面的第二种实现方式中,所述基于自然语言处理NLP模型对所述中间数据进行预标注,得到预标注数据包括:将数据标注任务划分为t轮,t为大于1的整数;当t<3时,使用预先配置的历史NLP模型,对所述中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对所述中间数据进行预标注,得到第二预标注数据;将所述第一预标注数据和所述第二预标注数据进行合并,生成预标注数据。
可选的,在本发明第一方面的第三种实现方式中,所述根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据包括:基于所述信息抽取任务类型,选择相应的公式计算预测结果置信度,当所述信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,所述第一计算公式为:其中,T为文本的长度,Q为实体类别标签的个数,ner_probt,q为第t个标签属于第q个实体标签类别的概率大小;当所述信息抽取任务类型为实体关系抽取或事件抽取时,调用预置的第二计算公式,生成第二计算结果,所述第二计算公式为:其中,relation_probt,i,r为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小;将所述第一计算结果和所述第二计算结果合并,输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对所述置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数。
可选的,在本发明第一方面的第四种实现方式中,所述评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型包括:根据所述标注数据,调用预置的第三计算公式,计算每一个标注节点的标注样本个数,所述预置的第三计算公式为:其中,P为标注节点的个数,L为所述K个数据中用于计算一致性的样本个数,L<K;基于所述每个节点的标注样本个数,调用预置的第四计算公式,计算所述标注数据的一致性,所述预置的第四公式为:其中,Sp为第p个样本节点标注的G个样本构成的集合,len函数为计算所述集合大小的函数;基于所述标注数据的一致性,按照预置的规则判断所述标注数据的质量,生成质量达标数据,并基于所述质量达标数据训练得到最新的NLP模型。
可选的,在本发明第一方面的第五种实现方式中,所述基于所述标注数据的一致性,按照预置的规则判断所述标注数据的质量,生成质量达标数据,并基于所述质量达标数据训练得到最新的NLP模型包括:按照预置的规则判断所述标注数据的质量,当所述标注数据的质量不达标时,生成不达标数据,并将所述不达标数据退回,进行重新标注,当所述标注数据的质量达标时,生成达标数据,并将所述达标数据添加到已标注数据集;基于所述已标注数据集训练得到所述最新的NLP模型。
可选的,在本发明第一方面的第六种实现方式中,所述文本数据标注方法还包括:对所述最新的NPL模型的预测准确率进行测量。
本发明第二方面提供了一种文本数据标注装置,包括:获取模块,用于获取原始数据,并对所述原始数据进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据;预标注模块,用于基于自然语言处理NLP模型对所述中间数据进行预标注,得到预标注数据;输出模块,用于根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;质量检查模块,用于评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型。
可选的,在本发明第二方面的第一种实现方式中,所述获取模块包括:获取单元,用于通过预置的接口将存储原始数据的文件上传,并获取所述原始数据,所述原始数据为待标注的文本数据;配置单元,用于基于所述原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,所述信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。
可选的,在本发明第二方面的第二种实现方式中,所述预标注模块包括:划分单元,用于将数据标注任务划分为t轮,t为大于1的整数;预标注单元,用于当t<3时,使用预先配置的历史NLP模型,对所述中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对所述中间数据进行预标注,得到第二预标注数据;合并单元,用于将所述第一预标注数据和所述第二预标注数据进行合并,生成预标注数据。
可选的,在本发明第二方面的第三种实现方式中,所述输出模块包括:第一计算单元,用于基于所述信息抽取任务类型,选择相应的公式计算预测结果置信度,当所述信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,所述第一计算公式为:其中,T为文本的长度,Q为实体类别标签的个数,ner_probt,q为第t个标签属于第q个实体标签类别的概率大小;第二计算单元,用于当所述信息抽取任务类型为实体关系抽取或事件抽取时,调用预置的第二计算公式,生成第二计算结果,所述第二计算公式为:其中,relation_probt,i,r为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小;输出单元,用于将所述第一计算结果和所述第二计算结果合并,输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对所述置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数。
可选的,在本发明第二方面的第四种实现方式中,所述质量检查模块包括:第三计算单元,用于根据所述标注数据,调用预置的第三计算公式,计算每一个标注节点的标注样本个数,所述预置的第三计算公式为:其中,P为标注节点的个数,L为所述K个数据中用于计算一致性的样本个数,L<K;第四计算单元,用于基于所述每个节点的标注样本个数,调用预置的第四计算公式,计算所述标注数据的一致性,所述预置的第四公式为:其中,Sp为第p个样本节点标注的G个样本构成的集合,len函数为计算所述集合大小的函数;判断单元,用于基于所述标注数据的一致性,按照预置的规则判断所述标注数据的质量,生成质量达标数据,并基于所述质量达标数据训练得到最新的NLP模型。
可选的,在本发明第二方面的第五种实现方式中,所述判断单元具体用于:按照预置的规则判断所述标注数据的质量,当所述标注数据的质量不达标时,生成不达标数据,并将所述不达标数据退回,进行重新标注,当所述标注数据的质量达标时,生成达标数据,并将所述达标数据添加到已标注数据集;基于所述已标注数据集训练得到所述最新的NLP模型。
可选的,在本发明第二方面的第六种实现方式中,在所述基于所述已标注数据集训练得到所述最新的NLP模型之后,所述文本数据标注装置还包括:准确率测量模块,用于对所述最新的NPL模型的预测准确率进行测量。
本发明第三方面提供了一种文本数据标注设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本数据标注设备执行上述的文本数据标注方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文本数据标注方法。
本发明提供的技术方案中,获取原始数据,并进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据;基于NLP模型对所述中间数据进行预标注,得到预标注数据;根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;计算所述标注数据的一致性并进行质量检查,生成质量检查数据,训练得到最新的NLP模型,完成数据的标注。本发明实施例中,使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
附图说明
图1为本发明实施例中文本数据标注方法的一个实施例示意图;
图2为本发明实施例中文本数据标注方法的另一个实施例示意图;
图3为本发明实施例中文本数据标注装置的一个实施例示意图;
图4为本发明实施例中文本数据标注装置的另一个实施例示意图;
图5为本发明实施例中文本数据标注设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种文本数据标注方法、装置、设备及存储介质,用于使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中文本数据标注方法的一个实施例包括:
101、获取原始数据,并对原始数据进行任务参数的配置,生成中间数据,原始数据为待标注的文本数据。
服务器获取原始数据,并对原始数据进行任务参数的配置,生成中间数据,原始数据为待标注的文本数据。具体的,服务器通过预置的接口将存储原始数据的文件上传,并获取原始数据,原始数据为待标注的文本数据;服务器基于原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。
信息抽取(information extraction,IE)过程是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程,信息抽取主要包括三个子任务:实体识别、实体关系抽取和事件抽取,实体识别(named entity recognition,NER)是指找到文本中提到的每个命名实体并标记其类型,实体关系抽取(relation extraction)是指查找和分类文本实体之间的语义关系,事件提取(event extraction)的任务是查找这些实体参与的事件,本方案中,在数据标注开始之前,将目标任务抽象为实体识别、关系抽取或事件抽取任务,并选择训练数据对应的信息抽取任务类型,完成任务参数的配置。
可以理解的是,本发明的执行主体可以为文本数据标注装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、基于自然语言处理NLP模型对中间数据进行预标注,得到预标注数据。
服务器基于自然语言处理NLP模型对中间数据进行预标注,得到预标注数据。具体的,服务器将数据标注任务划分为t轮,t为大于1的整数;当t<3时,服务器使用预先配置的历史NLP模型,对中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对中间数据进行预标注,得到第二预标注数据;服务器将第一预标注数据和第二预标注数据进行合并,生成预标注数据。
自然语言处理(natural language process,NLP)是研究计算机处理人类语言的过程,也是人工智能领域一个重要的研究方向,在实体识别、关系抽取等标签体系复杂、标注难度大的任务中,使用已有数据训练特定的NLP模型,在新的数据生产任务中使用NLP模型对文本进行预标注,可以提升数据标注的效率和质量。
103、根据预标注数据和预置的公式输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据。
服务器根据预标注数据和预置的公式输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据。具体的,服务器基于信息抽取任务类型,选择相应的公式计算预测结果置信度,当信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,第一计算公式为:其中,T为文本的长度,Q为实体类别标签的个数,ner_probt,q为第t个标签属于第q个实体标签类别的概率大小;当信息抽取任务类型为实体关系抽取或事件抽取时,服务器调用预置的第二计算公式,生成第二计算结果,第二计算公式为:/>其中,relation_probt,i,r为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小;将第一计算结果和第二计算结果合并,输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数。
本方案中,NLP模型使用的条件随机场算法(conditional random field,CRF)层不能输出用以计算置信度的概率分布,因此,为了支持计算NLP模型预测时的置信度,本方案中对模型结构进行了修改,即为实体类别判断模块增加非规范化概率分布计算模块,模型预测时信息不高的样本,在空间中的位置接近分类边界,这类样本作为训练数据时,会带来较多的信息,相比其他位置的样本更有利于提升模型的分类能力。在实体关系抽取任务中,模型对一个样本进行预测的置信度由实体识别部分和关系分类部分构成,事件抽取任务的置信度计算方式与实体关系抽取任务相同。
104、评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。
服务器评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。具体的,服务器根据标注数据,调用预置的第三计算公式,计算每一个标注节点的标注样本个数,预置的第三计算公式为:其中,P为标注节点的个数,L为K个数据中用于计算一致性的样本个数,L<K;服务器基于每个节点的标注样本个数,调用预置的第四计算公式,计算标注数据的一致性,预置的第四公式为:其中,Sp为第p个样本节点标注的G个样本构成的集合,len函数为计算集合大小的函数;服务器基于标注数据的一致性,按照预置的规则判断标注数据的质量,生成质量达标数据,并基于质量达标数据训练得到最新的NLP模型。
当标注数据的质量不达标时,生成不达标数据,并将不达标数据退回,进行重新标注,当标注数据的质量达标时,生成达标数据,并将达标数据添加到已标注数据集,对标注数据的质量进行判断用于让标注数据更接近平均水平,从而产出一致性较高的数据。
本发明实施例中,使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
请参阅图2,本发明实施例中文本数据标注方法的另一个实施例包括:
201、获取原始数据,并对原始数据进行任务参数的配置,生成中间数据,原始数据为待标注的文本数据。
服务器获取原始数据,并对原始数据进行任务参数的配置,生成中间数据,原始数据为待标注的文本数据。具体的,服务器通过预置的接口将存储原始数据的文件上传,并获取原始数据,原始数据为待标注的文本数据;服务器基于原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。
信息抽取(information extraction,IE)过程是将嵌入在文本中的非结构化信息自动提取转换为结构化数据的过程,信息抽取主要包括三个子任务:实体识别、实体关系抽取和事件抽取,实体识别(named entity recognition,NER)是指找到文本中提到的每个命名实体并标记其类型,实体关系抽取(relation extraction)是指查找和分类文本实体之间的语义关系,事件提取(event extraction)的任务是查找这些实体参与的事件,本方案中,在数据标注开始之前,将目标任务抽象为实体识别、关系抽取或事件抽取任务,并选择训练数据对应的信息抽取任务类型,完成任务参数的配置。
可以理解的是,本发明的执行主体可以为文本数据标注装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
202、将数据标注任务划分为t轮,t为大于1的整数。
服务器将数据标注任务划分为t轮,t为大于1的整数,在第t轮标注任务开始前,服务器将对未标注的所有样本进行预标注。
203、当t<3时,使用预先配置的历史NLP模型,对中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对中间数据进行预标注,得到第二预标注数据。
当t<3时,服务器使用预先配置的历史NLP模型,对中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对中间数据进行预标注,得到第二预标注数据。NLP模型的训练消耗的时间一般为数小时,为了避免时间资源的浪费,数据标注和NLP模型的训练为异步执行的形式,具体的,在历史任务中积累的NLP模型,在第1轮标注时对文本数据进行预标注,基于本次任务产生的标注数据训练的NLP模型,在第2轮及以后对数据进行预标注,在第t轮标注完成后,系统使用第t-1轮训练好的模型进行预标注,与此同时,基于最新的已标注数据集开始训练第t轮NLP模型。
204、将第一预标注数据和第二预标注数据进行合并,生成预标注数据。
服务器将第一预标注数据和第二预标注数据进行合并,生成预标注数据。合并后生成的预标注数据中包括重复的数据,用于计算数据标注的一致性。
205、根据预标注数据和预置的公式输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据。
服务器根据预标注数据和预置的公式输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据。具体的,服务器基于信息抽取任务类型,选择相应的公式计算预测结果置信度,当信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,第一计算公式为:其中,T为文本的长度,Q为实体类别标签的个数,ner_probt,q为第t个标签属于第q个实体标签类别的概率大小;当信息抽取任务类型为实体关系抽取或事件抽取时,服务器调用预置的第二计算公式,生成第二计算结果,第二计算公式为:/>其中,relation_probt,i,r为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小;将第一计算结果和第二计算结果合并,输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数。
本方案中,NLP模型使用的条件随机场算法(conditional random field,CRF)层不能输出用以计算置信度的概率分布,因此,为了支持计算NLP模型预测时的置信度,本方案中对模型结构进行了修改,即为实体类别判断模块增加非规范化概率分布计算模块,模型预测时信息不高的样本,在空间中的位置接近分类边界,这类样本作为训练数据时,会带来较多的信息,相比其他位置的样本更有利于提升模型的分类能力。在实体关系抽取任务中,模型对一个样本进行预测的置信度由实体识别部分和关系分类部分构成,事件抽取任务的置信度计算方式与实体关系抽取任务相同。
206、评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。
服务器评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。具体的,服务器根据标注数据,调用预置的第三计算公式,计算每一个标注节点的标注样本个数,预置的第三计算公式为:其中,P为标注节点的个数,L为K个数据中用于计算一致性的样本个数,L<K;服务器基于每个节点的标注样本个数,调用预置的第四计算公式,计算标注数据的一致性,预置的第四公式为:其中,Sp为第p个样本节点标注的G个样本构成的集合,len函数为计算集合大小的函数;服务器基于标注数据的一致性,按照预置的规则判断标注数据的质量,生成质量达标数据,并基于质量达标数据训练得到最新的NLP模型。
当标注数据的质量不达标时,生成不达标数据,并将不达标数据退回,进行重新标注,当标注数据的质量达标时,生成达标数据,并将达标数据添加到已标注数据集,对标注数据的质量进行判断用于让标注数据更接近平均水平,从而产出一致性较高的数据。
本发明实施例中,使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
上面对本发明实施例中文本数据标注方法进行了描述,下面对本发明实施例中文本数据标注装置进行描述,请参阅图3,本发明实施例中文本数据标注装置的一个实施例包括:
获取模块301,用于获取原始数据,并对原始数据进行任务参数的配置,生成中间数据,原始数据为待标注的文本数据;
预标注模块302,用于基于自然语言处理NLP模型对中间数据进行预标注,得到预标注数据;
输出模块303,用于根据预标注数据和预置的公式输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;
质量检查模块304,用于评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。
本发明实施例中,使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
请参阅图4,本发明实施例中文本数据标注装置的另一个实施例包括:
获取模块301,用于获取原始数据,并对原始数据进行任务参数的配置,生成中间数据,原始数据为待标注的文本数据;
预标注模块302,用于基于自然语言处理NLP模型对中间数据进行预标注,得到预标注数据;
输出模块303,用于根据预标注数据和预置的公式输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;
质量检查模块304,用于评估标注数据的一致性并进行质量检查,生成质量检查数据,基于质量检查数据训练并得到最新的NLP模型。
可选的,获取模块301包括:
获取单元3011,用于通过预置的接口将存储原始数据的文件上传,并获取原始数据,原始数据为待标注的文本数据;
配置单元3012,用于基于原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。
可选的,预标注模块302包括:
划分单元3021,用于将数据标注任务划分为t轮,t为大于1的整数;
预标注单元3022,用于当t<3时,使用预先配置的历史NLP模型,对中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对中间数据进行预标注,得到第二预标注数据;
合并单元3023,用于将第一预标注数据和第二预标注数据进行合并,生成预标注数据。
可选的,输出模块303包括:
第一计算单元3031,用于基于所述信息抽取任务类型,选择相应的公式计算预测结果置信度,当所述信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,所述第一计算公式为:其中,T为文本的长度,Q为实体类别标签的个数,ner_probt,q为第t个标签属于第q个实体标签类别的概率大小;
第二计算单元3032,用于当信息抽取任务类型为实体关系抽取或事件抽取时,调用预置的第二计算公式,生成第二计算结果,第二计算公式为:其中,relation_probt,i,r为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小;
输出单元3033,用于将第一计算结果和第二计算结果合并,输出预测结果置信度,从预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数。
可选的,质量检查模块304包括:
第三计算单元3041,用于根据标注数据,调用预置的第三计算公式,计算每一个标注节点的标注样本个数,预置的第三计算公式为:其中,P为标注节点的个数,L为K个数据中用于计算一致性的样本个数,L<K;
第四计算单元3042,用于基于每个节点的标注样本个数,调用预置的第四计算公式,计算标注数据的一致性,预置的第四公式为:其中,Sp为第p个样本节点标注的G个样本构成的集合,len函数为计算集合大小的函数;
判断单元3043,用于基于标注数据的一致性,按照预置的规则判断标注数据的质量,生成质量达标数据,并基于质量达标数据训练得到最新的NLP模型。
可选的,判断单元3043具体用于:
按照预置的规则判断标注数据的质量,当标注数据的质量不达标时,生成不达标数据,并将不达标数据退回,进行重新标注,当标注数据的质量达标时,生成达标数据,并将达标数据添加到已标注数据集;基于已标注数据集训练得到最新的NLP模型。
可选的,文本数据标注装置还包括:
准确率测量模块305,用于对最新的NPL模型的预测准确率进行测量。
本发明实施例中,使用NLP模型进行数据的预标注,并基于标注一致性进行数据质量的检查,降低了资源的消耗,提高了数据标注的质量和效率。
上面图3和图4从模块化功能实体的角度对本发明实施例中的文本数据标注装置进行详细描述,下面从硬件处理的角度对本发明实施例中文本数据标注设备进行详细描述。
图5是本发明实施例提供的一种文本数据标注设备的结构示意图,该文本数据标注设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对文本数据标注设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在文本数据标注设备500上执行存储介质530中的一系列指令操作。
文本数据标注设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的文本数据标注设备结构并不构成对文本数据标注设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种文本数据标注设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述文本数据标注方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述文本数据标注方法的步骤。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种文本数据标注方法,其特征在于,所述文本数据标注方法包括:
获取原始数据,并对所述原始数据进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据;
基于自然语言处理NLP模型对所述中间数据进行预标注,得到预标注数据;
根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;
所述根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据包括:
基于信息抽取任务类型,选择相应的公式计算预测结果置信度,当所述信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,所述第一计算公式为:
,其中,T为文本的长度,Q为实体类别
标签的个数,为第t个标签属于第q个实体标签类别的概率大小;
当所述信息抽取任务类型为实体关系抽取或事件抽取时,调用预置的第二计算公式,生成第二计算结果,所述第二计算公式为:
,其中,
为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小,R为实体关系的个数;
将所述第一计算结果和所述第二计算结果合并,输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对所述置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数;评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型。
2.根据权利要求1所述的文本数据标注方法,其特征在于,所述获取原始数据,并进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据包括:
通过预置的接口将存储原始数据的文件上传,并获取所述原始数据,所述原始数据为待标注的文本数据;
基于所述原始数据进行任务参数的配置,选择对应的信息抽取任务类型,生成中间数据,所述信息抽取任务类型包括实体识别、实体关系抽取和事件抽取。
3.根据权利要求1所述的文本数据标注方法,其特征在于,所述基于NLP模型对所述中间数据进行预标注,得到预标注数据包括:
将数据标注任务划分为t轮,t为大于1的整数;
当t<3时,使用预先配置的历史NLP模型,对所述中间数据进行预标注,得到第一预标注数据,当t≥3时,基于t-1轮训练的NLP模型对所述中间数据进行预标注,得到第二预标注数据;
将所述第一预标注数据和所述第二预标注数据进行合并,生成预标注数据。
4.根据权利要求1所述的文本数据标注方法,其特征在于,所述评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型包括:
根据所述标注数据,调用预置的第三计算公式,计算每一个标注节点的
标注样本个数,所述预置的第三计算公式为:,其中,P为标注节点的个数,L为所述K个数据中用于计算一致性的样本个数,L<K;
基于所述每一个标注节点的标注样本个数,调用预置的第四计算公式,计算所述标注数据的一致性,所述预置的第四公式为:
,其中, Sp为第p个样本节点标注的G个样本构成的集合,len函数为计算所述集合大小的函数;
基于所述标注数据的一致性,按照预置的规则判断所述标注数据的质量,生成质量达标数据,并基于所述质量达标数据训练得到最新的NLP模型。
5.根据权利要求4所述的文本数据标注方法,其特征在于,所述基于所述标注数据的一致性,按照预置的规则判断所述标注数据的质量,生成质量达标数据,并基于所述质量达标数据训练得到最新的NLP模型包括:
按照预置的规则判断所述标注数据的质量,当所述标注数据的质量不达标时,生成不达标数据,并将所述不达标数据退回,进行重新标注,当所述标注数据的质量达标时,生成达标数据,并将所述达标数据添加到已标注数据集;
基于所述已标注数据集训练得到所述最新的NLP模型。
6.根据权利要求5所述的文本数据标注方法,其特征在于,在所述基于所述已标注数据集训练得到所述最新的NLP模型之后,所述文本数据标注方法还包括:
对所述最新的NLP模型的预测准确率进行测量。
7.一种文本数据标注装置,其特征在于,所述文本数据标注装置包括:
获取模块,用于获取原始数据,并对所述原始数据进行任务参数的配置,生成中间数据,所述原始数据为待标注的文本数据;
预标注模块,用于基于自然语言处理NLP模型对所述中间数据进行预标注,得到预标注数据;
输出模块,用于根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据;
所述根据所述预标注数据和预置的公式输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据进行数据标注,生成标注数据包括:
基于信息抽取任务类型,选择相应的公式计算预测结果置信度,当所述信息抽取任务类型为实体识别时,调用预置的第一计算公式,生成第一计算结果,所述第一计算公式为:
,其中,T为文本的长度,Q为实体类别
标签的个数,为第t个标签属于第q个实体标签类别的概率大小;
当所述信息抽取任务类型为实体关系抽取或事件抽取时,调用预置的第二计算公式,生成第二计算结果,所述第二计算公式为:
,其中,
为以第t个标签开头的实体与以第i个标签开头的实体存在第r种关系的概率大小,R为实体关系的个数;
将所述第一计算结果和所述第二计算结果合并,输出预测结果置信度,从所述预测结果置信度中选择置信度小于预设的阈值的K个数据,得到置信度数据,基于预置的规则对所述置信度数据进行校验,并进行数据的标注,生成标注数据,K为大于1的整数;
质量检查模块,用于评估所述标注数据的一致性并进行质量检查,生成质量检查数据,基于所述质量检查数据训练并得到最新的NLP模型。
8.一种文本数据标注设备,其特征在于,所述文本数据标注设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述文本数据标注设备执行如权利要求1-6中任意一项所述的文本数据标注方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-6中任一项所述文本数据标注方法。
CN202110311423.5A 2021-03-24 2021-03-24 文本数据标注方法、装置、设备及存储介质 Active CN112906375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110311423.5A CN112906375B (zh) 2021-03-24 2021-03-24 文本数据标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110311423.5A CN112906375B (zh) 2021-03-24 2021-03-24 文本数据标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112906375A CN112906375A (zh) 2021-06-04
CN112906375B true CN112906375B (zh) 2024-05-14

Family

ID=76106674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110311423.5A Active CN112906375B (zh) 2021-03-24 2021-03-24 文本数据标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112906375B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326888B (zh) * 2021-06-17 2023-10-31 北京百度网讯科技有限公司 标注能力信息确定方法、相关装置及计算机程序产品
CN113313195B (zh) * 2021-06-17 2023-09-29 北京百度网讯科技有限公司 标注任务处理方法、装置、设备、存储介质及程序产品
CN113761938B (zh) * 2021-09-06 2023-12-08 上海明略人工智能(集团)有限公司 用于训练nlp模型的方法及装置、电子设备、存储介质
CN115146622B (zh) * 2022-07-21 2023-05-05 平安科技(深圳)有限公司 数据标注纠错方法、装置、电子设备及存储介质
CN114996389B (zh) * 2022-08-04 2022-10-11 中科雨辰科技有限公司 一种标注类别一致性检验方法、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备
WO2019137196A1 (zh) * 2018-01-11 2019-07-18 阿里巴巴集团控股有限公司 图像标注信息助理方法、装置、服务器及系统
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台
CN111859872A (zh) * 2020-07-07 2020-10-30 中国建设银行股份有限公司 一种文本标注方法和装置
CN112035675A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 医疗文本标注方法、装置、设备及存储介质
CN112308237A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种问答数据增强方法、装置、计算机设备及存储介质
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719006B2 (en) * 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019137196A1 (zh) * 2018-01-11 2019-07-18 阿里巴巴集团控股有限公司 图像标注信息助理方法、装置、服务器及系统
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN110968695A (zh) * 2019-11-18 2020-04-07 罗彤 基于弱监督技术主动学习的智能标注方法、装置及平台
CN111859872A (zh) * 2020-07-07 2020-10-30 中国建设银行股份有限公司 一种文本标注方法和装置
CN112035675A (zh) * 2020-08-31 2020-12-04 康键信息技术(深圳)有限公司 医疗文本标注方法、装置、设备及存储介质
CN112308237A (zh) * 2020-10-30 2021-02-02 平安科技(深圳)有限公司 一种问答数据增强方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112906375A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906375B (zh) 文本数据标注方法、装置、设备及存储介质
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
US11915104B2 (en) Normalizing text attributes for machine learning models
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN114647732B (zh) 一种面向弱监督文本分类系统、方法和装置
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
US20210150270A1 (en) Mathematical function defined natural language annotation
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114418093A (zh) 训练路径表征模型、输出信息的方法和装置
CN112579777B (zh) 一种未标注文本的半监督分类方法
CN111950623B (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN101840402B (zh) 从多语言网站构建多语言的对象层次结构的方法和系统
CN111352820A (zh) 一种高性能应用运行状态预测和监控方法、设备和装置
CN113656586B (zh) 情感分类方法、装置、电子设备及可读存储介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN113190154B (zh) 模型训练、词条分类方法、装置、设备、存储介质及程序
CN115186738A (zh) 模型训练方法、装置和存储介质
CN114420168A (zh) 情绪识别方法、装置、设备及存储介质
JPWO2019167240A1 (ja) 情報処理装置、制御方法、及びプログラム
CN111353300B (zh) 一种数据集构建和相关信息获取方法及其装置
CN113723114A (zh) 基于多意图识别的语义分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant