CN111274821B - 一种命名实体识别数据标注质量评估方法及装置 - Google Patents

一种命名实体识别数据标注质量评估方法及装置 Download PDF

Info

Publication number
CN111274821B
CN111274821B CN202010115543.3A CN202010115543A CN111274821B CN 111274821 B CN111274821 B CN 111274821B CN 202010115543 A CN202010115543 A CN 202010115543A CN 111274821 B CN111274821 B CN 111274821B
Authority
CN
China
Prior art keywords
data set
entity
evaluated
labeling
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010115543.3A
Other languages
English (en)
Other versions
CN111274821A (zh
Inventor
伯仲璞
王道广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010115543.3A priority Critical patent/CN111274821B/zh
Publication of CN111274821A publication Critical patent/CN111274821A/zh
Application granted granted Critical
Publication of CN111274821B publication Critical patent/CN111274821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种命名实体识别数据标注质量评估方法、装置和计算机可读存储介质,其中,所述方法包括:参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;针对每个维度内的得分进行修正;对修正后的得分进行汇总,确定标注质量。本申请实施例可以自动实现数据标注质量评估,降低了人力资源成本,通过多维度评估,结果准确、可靠。

Description

一种命名实体识别数据标注质量评估方法及装置
技术领域
本文涉及命名实体识别领域,尤指一种命名实体识别数据标注质量评估方法、装置和计算机可读存储介质。
背景技术
命名实体识别(Named Entity Recognition)任务是自然语言处理领域的经典任务,该任务要求软件程序能够从输入的自然语言文本中自动识别其中包含的指定类型命名实体。
如图1所示,以组织机构名识别任务为例,目标命名实体为组织机构名,软件程序输入为下方自然语言文本(“某某集团被疑年报数据造假”),要求软件对文本中的每个字符给出标签以指示各字符在文本中的“角色”。如图中文本上方所示,图中“B”表示命名实体开始位置;“I”表示命名实体内部;“O”表示命名实体外部。
当前命名实体识别领域中效果较为优秀的算法与模型几乎全部都是有监督算法,即对应算法需要一定量人工标注数据用于模型与算法的“学习”。这使得标注数据的质量对模型整体效果至关重要:高质量的标注数据更易于模型学习,能够使模型更快、更易达到可用效果;相反,低质量的标注数据往往使得学习得到的模型无法有效收敛从而无法解决问题。
标注数据质量决定了模型最终效果,相关技术中,通常采用人工评价标注数据质量或通过简单数据清洗代替质量评估的方式。
其中,人工评价即由专家阅读全部标注数据或部分抽样标注数据然后对标注质量抽样评估和打分,此类方法具有准确性高的优点,但同时具有人力成本极高、耗时较长等缺点。
简单数据清洗代替质量评估的方式中,不对标注数据进行质量评估,转而在使用数据前做一定数据清洗工作,此类方法在明确标注数据错误况且的前提下有一定作用,但经常出现清洗不足的情况。
发明内容
本申请提供了一种命名实体识别数据标注质量评估方法、装置和计算机可读存储介质,以自动实现数据标注质量评估。
本申请实施例提供了一种命名实体识别数据标注质量评估方法,包括:
参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;
针对每个维度内的得分进行修正;
对修正后的得分进行汇总,确定标注质量。
在一实施例中,针对标注完整性,所述参照监督标注数据集,对待评估标注数据集进行质量评分,包括:
根据所述监督标注数据集中每个样本的实体个数,确定所述监督标注数据集的实体数概率分布函数;
根据所述待评估标注数据集中每个样本的实体个数,确定所述待评估标注数据集的实体数概率分布函数;
确定所述监督标注数据集的实体数概率分布函数与所述待评估标注数据集的实体数概率分布函数之间的KL距离或交叉熵。
在一实施例中,针对标注准确性,所述参照监督标注数据集,对待评估标注数据集进行质量评分,包括:
根据所述监督标注数据集中每个样本的实体长度,确定所述监督标注数据集的实体长度概率分布函数;
根据所述待评估标注数据集中每个样本的实体长度,确定所述待评估标注数据集的实体长度概率分布函数;
确定所述监督标注数据集的实体长度概率分布函数与所述待评估标注数据集的实体长度概率分布函数之间的KL距离或交叉熵。
在一实施例中,针对标注准确性,对待评估标注数据集进行质量评分,还包括:
对待评估标注数据集中的文本进行分词,确定标注实体边界跨词频率。
在一实施例中,针对标注有效性,所述参照监督标注数据集,对待评估标注数据集进行质量评分,包括:
根据所述监督标注数据集中每个样本的实体类型,确定所述监督标注数据集的实体类型概率分布函数;
根据所述待评估标注数据集中每个样本的实体类型,确定所述待评估标注数据集的实体类型概率分布函数;
确定所述监督标注数据集的实体类型概率分布函数与所述待评估标注数据集的实体类型概率分布函数之间的KL距离或交叉熵。
在一实施例中,针对标注有效性,对待评估标注数据集进行质量评分,还包括:
针对所述监督标注数据集和所述待评估标注数据集,按照词袋模型确定实体上下文特征向量;
确定所述监督标注数据集中实体上下文特征向量与所述待评估数据集中实体上下文特征向量间的余弦距离。
在一实施例中,所述针对每个维度内的得分进行修正包括:
对每个维度内的得分进行归一化并统一指标方向。
在一实施例中,所述对修正后的得分进行汇总,确定标注质量,包括:
当每个维度内存在多个得分时,将多个得分进行加权汇总;
将每个维度的得分使用调和平均数进行汇总,得到标注质量。
本申请实施例还提供一种命名实体识别数据标注质量评估装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述命名实体识别数据标注质量评估方法。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述命名实体识别数据标注质量评估方法。
与相关技术相比,本申请包括:参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;针对每个维度内的得分进行修正;对修正后的得分进行汇总,确定标注质量。本申请实施例可以自动实现数据标注质量评估,降低了人力资源成本,通过多维度评估,结果准确、可靠。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为命名实体标签数据示例;
图2为本申请实施例的命名实体识别数据标注质量评估方法的流程图;
图3为本申请实施例的标注完整性评分的流程图;
图4为本申请实施例的标注准确性评分中方式一的流程图;
图5为本申请实施例的标注有效性评分中方式一的流程图;
图6为本申请实施例的标注有效性评分中方式二的流程图;
图7为本申请实施例的步骤103的流程图;
图8为本申请应用实例的命名实体识别数据标注质量评估架构的示意图;
图9为本申请应用实例的命名实体识别数据标注质量评估的实现流程图;
图10为本申请实施例的命名实体识别数据标注质量评估装置的组成示意图。
具体实施方式
本申请描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本申请实施例的精神和范围内。
本申请实施例提出一种用于命名实体识别数据标注质量评估方法,可以帮助命名实体识别模型在训练阶段有效过滤低质量标注数据。
本申请实施例提出的方法基于两个前提假设:1、已有一定数量优质标注数据,称为监督标注数据集。2,待评估标注数据集与监督标注数据集在目标实体分布、目标实体类型分布、目标实体长度分布等纬度上无显著差异。
在上述条件满足的前提下,本申请实施例对待评估标注数据集的:1.标注完整性;2.标注准确性;3.标注有效性,三个方面使用多种方法给出打分,综合三方面得分最终得到待评估标注数据集的质量得分。其中,为衡量标注完整性,可以计算待评估标注数据集的实体数概率分布函数与监督标注数据集的实体数概率分布的KL距离(Kullback-Leiblerdistance)或交叉熵。为衡量标注准确性,可以计算待评估标注数据集的实体长度概率分布函数与监督标注数据的实体长度概率分布函数之间的KL距离或交叉熵;统计标注实体跨词频率。为衡量标注有效性,可以计算待评估标注数据集的实体类型概率分布函数与监督标注数据集的实体类型概率分布函数之间的KL距离或交叉熵;使用统计语言模型计算标注内容为目标类型实体的概率。最后,综合上述三方面得分得到最终质量评估得分。
如图2所示,本申请实施例提供的命名实体识别数据标注质量评估方法,包括:
步骤101,参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性。
本申请实施例中,可以从多个维度对待评价标注数据集进行打分,其中每个维度可以有多个打分算法给出多个打分结果。
下面针对每个维度进行分别说明:
维度一,标注完整性
标注完整性是指应标注的全部实体中有多少被正确标注出。
如图3所示,在一实施例中,可采用如下步骤进行质量评分:
步骤201,根据所述监督标注数据集中每个样本的实体个数,确定所述监督标注数据集的实体数概率分布函数。
其中,样本可以是句子、文章等。
步骤202,根据所述待评估标注数据集中每个样本的实体个数,确定所述待评估标注数据集的实体数概率分布函数。
步骤203,确定所述监督标注数据集的实体数概率分布函数与所述待评估标注数据集的实体数概率分布函数之间的KL距离或交叉熵。
其中,所述监督标注数据集的实体数概率分布函数g(x)与所述待评估标注数据集的实体数概率分布函数g(x)之间的KL距离的计算公式为:
上述方式中,使用KL距离作为度量方法度量两分布函数差异。KL距离可以替换为交叉熵(Cross Entropy)。
KL距离与交叉熵具有如下关系:
KL(f||g)=CE(f,g)-H(f)
上式中KL(f||g)为概率分布函数f与概率分布函数g间的KL距离;CE(f,g)为f与g间的交叉熵,两指标之差H(f)表示概率分布f的信息熵,为常数。因而在本实施例中两指标具有可替换性。
维度二,标注准确性
标注准确性是指命名实体范围是否标注正确,如“某某集团被疑年报数据造假”中,若把“某某集”或“某某集团被”标注为组织机构则标注边界错误,标注不准确。本申请实施例提供两种准确性度量方式。
方式一:
如图4所示,在一实施例中,可采用如下步骤进行质量评分:
步骤301,根据所述监督标注数据集中每个样本的实体长度,确定所述监督标注数据集的实体长度概率分布函数。
其中,样本可以是句子、文章等。
步骤302,根据所述待评估标注数据集中每个样本的实体长度,确定所述待评估标注数据集的实体长度概率分布函数。
步骤303,确定所述监督标注数据集的实体长度概率分布函数与所述待评估标注数据集的实体长度概率分布函数之间的KL距离或交叉熵。
其中,计算公式同完整性度量公式。
方式二:
对待评估标注数据集中的文本进行分词,确定标注实体边界跨词频率。
如“某某集团被疑年报数据造假”经分词后得到词序列:“某”、“某”、“集团”、“被”、“质疑”、“年报”、“造假”,则实体“某某集团”边界未跨词;实体“某某集”跨一词(“集团”),计算全部被标注实体跨词频率。此处可使用任意已有方法实现分词。
维度三,标注有效性
标注有效性是指命名实体是否标注为正确类型。
当命名实体识别任务需要同时抽取多种实体(如“李某某在一个地点名称”中存在人物实体“李某某”和地点实体“一个地点名称”)时,需要考虑命名实体是否标注为正确类型。本申请实施例提供两种度量方式。
方式一
如图5所示,在一实施例中,可采用如下步骤进行质量评分:
步骤401,根据所述监督标注数据集中每个样本的实体类型,确定所述监督标注数据集的实体类型概率分布函数。
步骤402,根据所述待评估标注数据集中每个样本的实体类型,确定所述待评估标注数据集的实体类型概率分布函数。
步骤403,确定所述监督标注数据集的实体类型概率分布函数与所述待评估标注数据集的实体类型概率分布函数之间的KL距离或交叉熵。
其中,计算公式同完整性度量公式。
方式二:
使用词袋(bag-of-words,bow)方法建模实体上下文特征,计算监督数据集实体上下文特征向量与待评估数据集实体上下文特征向量间的余弦距离。
如图6所示,在一实施例中,可采用如下步骤进行质量评分:
步骤501,针对所述监督标注数据集和所述待评估标注数据集,按照词袋模型确定实体上下文特征向量。
其中,实体上下文特征向量为实体上下文词袋向量。可以以窗口长度L获取实体前后L各字符组成该实体上下文字符集合,根据该字符集合获得该实体上下文词袋向量。词袋向量的计算方法可以采用已有技术,此处不再赘述。
以组织机构名抽取任务为例,在监督标注数据集中获取每个组织机构实体的上下文词袋向量,取平均后获得组织机构实体上下文词袋向量。相应地,在待评估标注数据集中计算每个被标注为组织机构实体的上下文词袋向量。
步骤502,确定所述监督标注数据集中实体上下文特征向量与所述待评估数据集中实体上下文特征向量间的余弦距离。
其中,计算监督标注数据集中实体上下文特征向量与所述待评估数据集中实体上下文特征向量间的余弦距离,将该余弦距离作为该标注的标注有效性得分。以组织机构名抽取任务时,平均待评估标注数据集所有被标注为组织机构的标注有效性得分得到待评估标注数据集的标注有效性得分。
步骤102,针对每个维度内的得分进行修正。
在一实施例中,对每个维度内的得分进行归一化并统一指标方向。
其中,步骤101中各维度得到的评分乃至维度内不同方法得到的评分存在不同量纲不同方向问题。如标注完整性度量采用的KL距离算法得到的KL距离指标值域为[0,+∞)且得分与标注质量为负相关关系;维度二中方式二得到的跨词频率值域为[0,1]且得分与标注质量为正相关关系。
设原得分为Si,i∈(1,2,3,…n),可使用如下归一化方法对值域非[0,1]的指标进行归一化,使其值域压缩/拉伸至[0,1]
其中,S'i为归一化后得到的得分。
经过归一化后的指标,若其指标方向与标注质量负相关则使用如下方式处理:
S’i'=1-S’i
其中,S'i为归一化后得到的得分,S'i'为修改指标方向后的得分。
步骤103,对修正后的得分进行汇总,确定标注质量。
如图7所示,在一实施例中,步骤103可包括:
步骤601,当每个维度内存在多个得分时,将多个得分进行加权汇总。
其中,各维度内得分经过汇总使得各维度评估模块输出唯一得分。
本申请实施例使用加权求和方式对维度内得分进行汇总,不同方法使用的权重可以根据实际业务场景给出。
以维度二为例,若分别给KL距离和跨词频率两项得分置权a、b,则维度评价得分为:Sd2=a*Skl+b*Scw,其中Skl为修正后的KL距离得分;Scw为修正后的跨词频率得分。
步骤602,将每个维度的得分使用调和平均数进行汇总,得到标注质量。
本申请实施例中,各维度得分使用调和平均数进行最终汇总,公式为:
上式中,Sd1、Sd2、Sd3分别为维度一、二、三的维度内汇总得分。
如图8所示,本申请应用实例中,命名实体识别数据标注质量评估架构可以包括四层,其中,数据层包括监督标注数据集和待评估标注数据集,打分层包括完整性打分模块、准确性打分模块和有效性打分模块,分别根据监督标注数据集和待评估标注数据集进行打分;得分层实现打分的归一化(去量纲)和统一指标方向;输入层对每个维度内的得分进行汇总,以及进行总的得分汇总。
如图9所示,本申请应用实例中,分别执行三个维度的打分:完整性打分、准确性打分和有效性打分,三个维度的得分修正以及得分汇总,最后进行总的得分汇总。
综上所述,本申请实施例具有如下优点:
1、低人力成本,可以采用软件程序自动执行,人力资源消耗少。
2、低计算成本,可以基于统计算法,计算复杂度低,可并行运算。
3、结果准确、可靠,可以基于统计自然语言处理技术,结果可靠。
如图10所示,本申请实施例还提供一种命名实体识别数据标注质量评估装置,包括:
评分单元71,用于参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;
修正单元72,用于针对每个维度内的得分进行修正;
汇总单元73,用于对修正后的得分进行汇总,确定标注质量。
在一实施例中,评分单元71,用于:
根据所述监督标注数据集中每个样本的实体个数,确定所述监督标注数据集的实体数概率分布函数;
根据所述待评估标注数据集中每个样本的实体个数,确定所述待评估标注数据集的实体数概率分布函数;
确定所述监督标注数据集的实体数概率分布函数与所述待评估标注数据集的实体数概率分布函数之间的KL距离或交叉熵。
在一实施例中,评分单元71,用于:
根据所述监督标注数据集中每个样本的实体长度,确定所述监督标注数据集的实体长度概率分布函数;
根据所述待评估标注数据集中每个样本的实体长度,确定所述待评估标注数据集的实体长度概率分布函数;
确定所述监督标注数据集的实体长度概率分布函数与所述待评估标注数据集的实体长度概率分布函数之间的KL距离或交叉熵。
在一实施例中,评分单元71,用于:
对待评估标注数据集中的文本进行分词,确定标注实体边界跨词频率。
在一实施例中,评分单元71,用于:
根据所述监督标注数据集中每个样本的实体类型,确定所述监督标注数据集的实体类型概率分布函数;
根据所述待评估标注数据集中每个样本的实体类型,确定所述待评估标注数据集的实体类型概率分布函数;
确定所述监督标注数据集的实体类型概率分布函数与所述待评估标注数据集的实体类型概率分布函数之间的KL距离或交叉熵。
在一实施例中,评分单元71,用于:
针对所述监督标注数据集和所述待评估标注数据集,按照词袋模型确定实体上下文特征向量;
确定所述监督标注数据集中实体上下文特征向量与所述待评估数据集中实体上下文特征向量间的余弦距离。
在一实施例中,修正单元72,用于:
对每个维度内的得分进行归一化并统一指标方向。
在一实施例中,汇总单元73,用于:
当每个维度内存在多个得分时,将多个得分进行加权汇总;
将每个维度的得分使用调和平均数进行汇总,得到标注质量。
本申请实施例还提供一种命名实体识别数据标注质量评估装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述命名实体识别数据标注质量评估方法。
本申请实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述命名实体识别数据标注质量评估方法。
在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (7)

1.一种命名实体识别数据标注质量评估方法,其特征在于,包括:
参照监督标注数据集,对待评估标注数据集进行多维度质量评分;其中,所述多维度包括标注完整性、标注准确性和标注有效性;
针对每个维度内的得分进行修正;
对修正后的得分进行汇总,确定标注质量;
其中,针对标注完整性,所述参照监督标注数据集,对待评估标注数据集进行多维度质量评分,包括:根据所述监督标注数据集中每个样本的实体个数,确定所述监督标注数据集的实体数概率分布函数;根据所述待评估标注数据集中每个样本的实体个数,确定所述待评估标注数据集的实体数概率分布函数;确定所述监督标注数据集的实体数概率分布函数与所述待评估标注数据集的实体数概率分布函数之间的KL距离或交叉熵;
针对标注准确性,所述参照监督标注数据集,对待评估标注数据集进行多维度质量评分,包括:根据所述监督标注数据集中每个样本的实体长度,确定所述监督标注数据集的实体长度概率分布函数;根据所述待评估标注数据集中每个样本的实体长度,确定所述待评估标注数据集的实体长度概率分布函数;确定所述监督标注数据集的实体长度概率分布函数与所述待评估标注数据集的实体长度概率分布函数之间的KL距离或交叉熵;
针对标注有效性,所述参照监督标注数据集,对待评估标注数据集进行多维度质量评分,包括:根据所述监督标注数据集中每个样本的实体类型,确定所述监督标注数据集的实体类型概率分布函数;根据所述待评估标注数据集中每个样本的实体类型,确定所述待评估标注数据集的实体类型概率分布函数;确定所述监督标注数据集的实体类型概率分布函数与所述待评估标注数据集的实体类型概率分布函数之间的KL距离或交叉熵。
2.根据权利要求1所述的方法,其特征在于,针对标注准确性,对待评估标注数据集进行多维度质量评分,还包括:
对待评估标注数据集中的文本进行分词,确定标注实体边界跨词频率。
3.根据权利要求1所述的方法,其特征在于,针对标注有效性,对待评估标注数据集进行多维度质量评分,还包括:
针对所述监督标注数据集和所述待评估标注数据集,按照词袋模型确定实体上下文特征向量;
确定所述监督标注数据集中实体上下文特征向量与所述待评估标注数据集中实体上下文特征向量间的余弦距离。
4.根据权利要求1所述的方法,其特征在于,所述针对每个维度内的得分进行修正包括:
对每个维度内的得分进行归一化并统一指标方向。
5.根据权利要求1所述的方法,其特征在于,所述对修正后的得分进行汇总,确定标注质量,包括:
当每个维度内存在多个得分时,将多个得分进行加权汇总;
将每个维度的得分使用调和平均数进行汇总,得到标注质量。
6.一种命名实体识别数据标注质量评估装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~5中任意一项所述的方法。
7.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~5中任意一项所述的方法。
CN202010115543.3A 2020-02-25 2020-02-25 一种命名实体识别数据标注质量评估方法及装置 Active CN111274821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010115543.3A CN111274821B (zh) 2020-02-25 2020-02-25 一种命名实体识别数据标注质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010115543.3A CN111274821B (zh) 2020-02-25 2020-02-25 一种命名实体识别数据标注质量评估方法及装置

Publications (2)

Publication Number Publication Date
CN111274821A CN111274821A (zh) 2020-06-12
CN111274821B true CN111274821B (zh) 2024-04-26

Family

ID=71002286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010115543.3A Active CN111274821B (zh) 2020-02-25 2020-02-25 一种命名实体识别数据标注质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN111274821B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749563A (zh) * 2021-01-21 2021-05-04 北京明略昭辉科技有限公司 一种命名实体识别数据标注质量评估与控制方法及系统
CN112988727B (zh) * 2021-03-25 2022-09-16 北京百度网讯科技有限公司 数据标注方法、装置、设备、存储介质及计算机程序产品
CN113191120A (zh) * 2021-06-02 2021-07-30 云知声智能科技股份有限公司 一种智能标注平台的方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268339A (zh) * 2013-05-17 2013-08-28 中国科学院计算技术研究所 微博消息中命名实体识别方法及系统
WO2017157203A1 (zh) * 2016-03-18 2017-09-21 阿里巴巴集团控股有限公司 一种分布式环境下监督学习算法的基准测试方法和装置
CN108363701A (zh) * 2018-04-13 2018-08-03 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268339A (zh) * 2013-05-17 2013-08-28 中国科学院计算技术研究所 微博消息中命名实体识别方法及系统
WO2017157203A1 (zh) * 2016-03-18 2017-09-21 阿里巴巴集团控股有限公司 一种分布式环境下监督学习算法的基准测试方法和装置
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN108363701A (zh) * 2018-04-13 2018-08-03 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108959252A (zh) * 2018-06-28 2018-12-07 中国人民解放军国防科技大学 基于深度学习的半监督中文命名实体识别方法

Also Published As

Publication number Publication date
CN111274821A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
US10853695B2 (en) Method and system for cell annotation with adaptive incremental learning
CN111274821B (zh) 一种命名实体识别数据标注质量评估方法及装置
WO2022032471A1 (zh) 一种神经网络模型的训练方法、装置、存储介质及设备
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN110555399B (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN111222336B (zh) 一种识别未知实体的方法及装置
CN110852107B (zh) 一种关系提取方法、装置、及存储介质
US20130279740A1 (en) Identifying Multimedia Objects Based on Multimedia Fingerprint
CN113850300B (zh) 训练分类模型的方法和装置
CN112560491A (zh) 一种基于ai技术的信息抽取方法、装置和存储介质
WO2023000764A1 (zh) 目标检索方法、装置、设备及存储介质
CN113807096B (zh) 文本数据的处理方法、装置、计算机设备和存储介质
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN114241505A (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN111144109B (zh) 文本相似度确定方法和装置
CN111898754A (zh) 一种神经网络模型的训练方法、装置、存储介质及设备
CN114255381A (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN112464966B (zh) 鲁棒性估计方法、数据处理方法和信息处理设备
CN109977400B (zh) 一种校验处理的方法、装置、计算机存储介质及终端
CN111178037A (zh) 重复缺陷报告识别方法、装置及电子设备
CN116306909A (zh) 一种实现模型训练的方法、计算机存储介质及终端
CN112597862B (zh) 一种用于人脸数据清洗的方法与设备
CN114049528B (zh) 一种品牌名称识别的方法及设备
CN113260044A (zh) 基于双层字典学习的csi指纹定位方法、装置及设备
CN111984812A (zh) 一种特征提取模型生成方法、图像检索方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant