CN114547232A - 一种低标注成本的嵌套实体识别方法及系统 - Google Patents

一种低标注成本的嵌套实体识别方法及系统 Download PDF

Info

Publication number
CN114547232A
CN114547232A CN202111406140.5A CN202111406140A CN114547232A CN 114547232 A CN114547232 A CN 114547232A CN 202111406140 A CN202111406140 A CN 202111406140A CN 114547232 A CN114547232 A CN 114547232A
Authority
CN
China
Prior art keywords
training
text
entity
sample
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111406140.5A
Other languages
English (en)
Inventor
单丽莉
何长鸿
孙承杰
林磊
刘秉权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Konami Sports Club Co Ltd
Original Assignee
Harbin Institute of Technology
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, People Co Ltd filed Critical Harbin Institute of Technology
Priority to CN202111406140.5A priority Critical patent/CN114547232A/zh
Publication of CN114547232A publication Critical patent/CN114547232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供了一种低标注成本的嵌套实体识别方法及系统,该方法包括:获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本;从所述标注文本中提取正样本;对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集,其中,所述负样本的类别标注为非实体类别;基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码,向所述语义编码中添加相对位置信息获得样本编码;将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型。保证在减少人工标注成本的前提下获得准确率高、鲁棒性好的预测模型。

Description

一种低标注成本的嵌套实体识别方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种低标注成本的嵌套实体识别方法及系统。
背景技术
在命名实体识别技术领域中,主要分为普通命名实体识别和嵌套命名实体识别两种识别类型。其中,普通命名实体识别方案主要为序列标注方案,该种方案无法同时识别出文本中相互嵌套的多个实体。而现有的嵌套命名实体识别方案中,基于阅读理解的嵌套实体识别方案依赖于嵌套标注的数据集,当数据集中存在大量漏标实体时,此类方案效果较差。另外,通过人工标注的嵌套命名实体识别的数据集难度较大,当实体类别数目较多时,很容易出现漏标的现象。如何减少对人工标注的依赖,现有技术还没有很好的解决方案。
发明内容
本发明解决的问题是如何降低嵌套实体识别的人工成本。
为解决上述问题,本发明提供一种低标注成本的嵌套实体识别方法,包括:
获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本;从所述标注文本中提取正样本;对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集,其中,所述负样本的类别标注为非实体类别;基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码,向所述语义编码中添加相对位置信息获得样本编码;将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型。
相对于现有技术,本发明通过正采样获得的正样本,正向训练预测模型,通过负采样获得的负样本,增加预测模型的鲁棒性,防止预标注出现漏标、错标所导致的预测模型准确率较低的问题,通过正样本和负样本共同作用,可以在人工标注不准确的情况下获得预测率较好的预测模型,减少了对人工标注的依赖性,另一方面,也可以有效降低嵌套命名实体识别的数据标注成本;因为片段的实体类型与其在文本中的位置具有关联性,所以向语义编码中添加字符位置信息可以进一步增加预测模型的准确率,也可以增加预测模型的鲁棒性,帮助降低人工标注成本。
可选地,所述将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型之后,还包括:
获取待预测文本;获取所述待预测文本中的所有字符片段;通过优化后的所述分类模型预测所有所述字符片段的实体类型与概率,作为第一预测结果。
由此,对预测文本中所有的字符片段组合进行预测,将预测的实体类型和概率作为第一预测结果,可以防止落下任何一个字符片段,将所有可能是实体的字符片段都进行预测,保证结果的完整性。
可选地,在所述通过优化后的所述分类模型预测所有所述字符片段的实体类型与概率,作为第一预测结果之后,还包括:
剔除所有预测类别为非实体的结果片段;若两个结果片段的字符位置相交,则剔除所述概率相对较小的结果片段;若两个结果片段的字符位置相互包含且预测的所述实体类型相同,则剔除所述概率相对较小的结果片段。
由此,利用嵌套实体的规律筛选准确率较低的第一预测结果,其中,嵌套实体的规律包括:互相嵌套的实体在位置上存在包含关系,且一定不属于同一个类别。保证获得准确且不冗杂的输出结果。
可选地,所述基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码包括:
通过所述预训练语言模型,将所述训练样本中的每个字进行向量编码,获得文字编码;提取每个所述训练样本的第一个字符和最后一个字符的所述文字编码作为起始编码和结束编码;将所述起始编码和所述结束编码向量相加,获得相加编码;将所述起始编码和所述结束编码向量相乘,获得相乘编码;将所述起始编码、所述结束编码、所述相加编码和所述相乘编码依次进行向量连接,获得所述语义编码。
由此,将起始编码、结束编码、相加编码和相乘编码依次进行向量连接,可以使片段头和片段尾的信息在计算中交互,保证提高训练出的预测模型的鲁棒性。
可选地,所述向所述语义编码中添加相对位置信息获得样本编码包括:
根据所述语义编码提取对应的所述训练样本在所述标注文本中的位置与长度;基于嵌入技术,将所述训练样本的所述长度特征转换为以向量表示的相对位置编码;将所述相对位置编码与所述语义编码拼接,获得所述样本编码。
由此,基于实体类别与其在文本中位置的相关关系,通过向语义编码中添加相对位置编码,保证获得更准确的预测模型。
可选地,所述从所述标注文本中提取正样本包括:
从所述标注文本中提取已被标注为实体的实体片段,将所述实体片段处理成三元组,作为所述正样本,其中,所述三元组的内容包括所述实体片段的起始字符位置、结束字符位置和实体类别。
由此,通过三元组表示正样本,保证完整记录正样本信息。
可选地,所述对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集包括:
从所述负样本集合中随机抽取预设个数的所述负样本,其中,所述预设个数为所述标注文本的文本长度*0.3。
由此,基于文本的长度确定训练样本集中负样本的个数,保证训练出的预测模型不会过拟合也不会欠拟合,提高准确率。
可选地,所述获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本包括下述情况中的至少一种:
获取所述训练文本对应的词典,基于所述词典标注所述训练文本的实体类别;通过规则模板标注所述训练文本中的特殊类别的实体;引入人工标注标签。
由此,可以在减少人工标注成本的基础上保证具有较高的标注准确率。
可选地,所述将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型包括:
使用Softmax激活函数和交叉熵损失函数作为所述分类模型,对所述样本编码进行多分类,获得所述第一训练结果,其中,预设的多分类类别数目为所述词典包含的实体类别数目与非实体类别。
由此,保证获得准确率更高的预测模型。
本发明还提出一种低标注成本的嵌套实体识别系统,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的低标注成本的嵌套实体识别方法。
所述低标注成本的嵌套实体识别系统相对于现有技术与所述低标注成本的嵌套实体识别方法所具有的优势相同,在此不再赘述。
附图说明
图1为本发明实施例的低标注成本的嵌套实体识别方法的流程示意图;
图2为本发明实施例的低标注成本的嵌套实体识别方法步骤S500之后的细化流程示意图;
图3为本发明实施例的低标注成本的嵌套实体识别方法步骤S400细化后的流程示意图;
图4为本发明实施例的低标注成本的嵌套实体识别方法步骤S400细化后的另一流程示意图;
图5为本发明实施例的低标注成本的嵌套实体识别方法训练部分的流程框图;
图6为本发明实施例的低标注成本的嵌套实体识别方法使用部分的流程框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
命名实体识别是自然语言处理领域中的一项基础任务,在一些场景下,所要识别的实体中可能存在嵌套的情况,如“北京烤鸭”,此处的“北京烤鸭”是一种食物,同时,“北京”又是一个地点,如果一种命名实体识别方法不具备识别嵌套实体的能力,则只能识别出食物类实体,而不具备同时识别出地点类实体的能力。若该方法具备识别嵌套实体的能力,则既能识别出“北京烤鸭”中包含的食物类实体,也能识别出地点类实体,我们也会认为它有能力将类似地点+食物的食物名字识别出来,如“宁波汤圆”。
在现有的嵌套命名实体识别方法中,非常依赖嵌套标注的数据集,当数据集中存在大量漏标实体时,会影响实体识别方法的效果;若实体类别数量较多时,通过人工标注的方法对数据集进行标注,还会出现漏标现象,且标注成本大,费时费力。
基于上述问题,本发明提出一种低标注成本的嵌套实体识别方法,如图1 所示,包括:
步骤S100,获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本。
在一实施例中,训练文本包括,可以表达语义的一段文字,如一篇文章、一句话、一段对话或一个通知。对训练文本进行预标注,包括对训练文本中的文字进行词性划分、语义划分或直接进行实体划分。例如,将“鲁迅在1918 年1月参加《新青年》改组,任编委。”中的“鲁迅”标记为人名、“1918年 1月”标记为日期、“编委”标记为职位。将标注后的训练文本作为标注文本,将标注文本作为后续训练用的输入数据。
可选地,对训练文本进行分字,以每个字符为单位进行处理。
如将“鲁迅在1918年1月参加《新青年》改组,任编委。”处理为[‘鲁’, ‘迅’,‘在’,‘1’,‘9’,‘1’,‘8’,‘年’,‘1’,‘月’,‘参’,‘加’, ‘《’,‘新’,‘青’,‘年’,‘》’,‘改’,‘组’,‘,’,‘任’,‘编’, ‘委’,‘。’]
步骤S200,从所述标注文本中提取正样本。
将标注文本中被标注出的所有实体片段均作为正样本,如上文提到的“鲁迅”、“1918年1月”、“编委”,均在本步骤中作为正样本提取,并将每个正样本与实体类别对应。正样本用于正向辅助训练模型识别实体。
可选地,步骤S200包括:从所述标注文本中提取已被标注为实体的实体片段,将所述实体片段处理成三元组,作为所述正样本,其中,所述三元组的内容包括所述实体片段的起始字符位置、结束字符位置和实体类别。
在一实施例中,三元组表示形式为(i,j,type),其中,i,j分别为实体的起始字符位置和结束字符位置,type为该正样本的实体类别,例如,正样本“鲁迅”三元组表示为(0,1,name)。
步骤S300,对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集,其中,所述负样本的类别标注为非实体类别。
本发明所称的负样本与正样本含义相对,每个正样本均对应一个实体类别,而每个负样本则不属于所要识别的任何实体,且符合标注文本的语序,换言之,负样本为标注文本中的不属于任何实体的字符片段。
可选地,所述负样本被处理成三元组,所述三元组包括所述负样本的起始字符位置、结束字符位置和实体类别,其中,负样本的实体类别为非实体。
在一实施例中,负样本的三元组的表示形式为(i,j,O),其中,O表示非实体类型。
在一实施例中,负采样包括除“鲁迅”、“1918年1月”、“编委”三个正样本的所有符合原句语序的片段,例如“鲁迅在1918年1月”、“参加《新青年》”、“《新青年》改组”、“青年》改组”等。将标注文本中所有负样本组成负样本集合,从负样本集合中选择至少一个负样本,与所有正样本共同组成训练样本集,训练样本集用于训练识别模型,其中,正样本用于正向训练模型,负样本用于在训练过程中加入非实体片段,以降低步骤S100中漏标实体带来的负面影响,从而减小对标注文本中实体标注的依赖,进而增加识别模型的鲁棒性。
可选地,步骤S300包括:从所述负样本集合中随机抽取预设个数的所述负样本,其中,所述预设个数为所述标注文本的文本长度*0.3。
例如,若标注文本的文本长度为10,则预设个数为10/3,此时10不能被3整除,则对结果四舍五入,最终获得的预设个数为3个。所以从负样本集合中随机抽取3个负样本,与所有正样本形成样本集合。
步骤S400,基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码,向所述语义编码中添加相对位置信息获得样本编码。
在一实施例中,使用BERT预训练模型作为预训练语言模型。将BERT预训练模型作为训练样本的编码器。
对训练样本集中的训练样本进行编码,无论是正样本还是负样本,均由字符组成,所以以字符为单位,对训练样本进行编码操作,在本实施例中,由于使用BERT预训练模型作为编码器,所以将每个字符编码成一个768维的向量,对样本中所有字符进行编码操作,从而获得该样本对应的语义编码。
在文本中,一个片段所属实体的类别与其在该本文中的位置有一定的相关关系,所以为了增加模型预测的准确率,本发明在语义编码的基础上,添加语义编码对应的字符位置信息,从而更准确地筛选和预测一个片段的实体类型,将样本与其字符位置信息作为样本编码共同参与模型的训练,可以增加模型预测的准确率,也可以增加模型的鲁棒性。
在一实施例中,一个片段所述实体的类别与在对应文本的位置和长度均有一定相关关系,如当片段长度大于等于四个字时,此片段为中文人名的可能性较小。
可选地,基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码包括:
步骤S401,通过所述预训练语言模型,将所述训练样本中的每个字进行向量编码,获得文字编码。
以每个字符为单位,进行向量编码,包括将每个字编码成768维向量,所述768维向量即为该字符的文字编码。
步骤S402,提取每个所述训练样本的第一个字符和最后一个字符的所述文字编码作为起始编码和结束编码。
在一实施例中,使用BERT预训练模型进行编码操作,对于每个训练样本,获取该训练样本的第一个字符和最后一个字符的BERT编码向量hhead、htail分别作为起始编码和结束编码。
步骤S403,将所述起始编码和所述结束编码向量相加,获得相加编码。
相加编码表示为
Figure RE-GDA0003617658200000081
步骤S404,将所述起始编码和所述结束编码向量相乘,获得相乘编码。
相乘编码表示为
Figure RE-GDA0003617658200000082
步骤S405,将所述起始编码、所述结束编码、所述相加编码和所述相乘编码依次进行向量连接,获得所述语义编码。
语义编码表示为
Figure RE-GDA0003617658200000083
语义编码由起始编码、结束编码、相加编码和相乘编码四个向量进行拼接成为一个3072维的向量。
通过步骤S401-步骤S405,可以将实体识别问题转化为对文本片段提取特征并对特征进行分类的问题,将复杂问题简化,从而提高实体识别的正确率。
可选地,所述向所述语义编码中添加相对位置信息获得样本编码包括:
步骤S406,根据所述语义编码提取对应的所述训练样本在所述标注文本中的位置与长度。
在语义编码中,包含训练样本的首字符与尾字符的位置信息,通过首字符与尾字符的位置信息,可以进一步获得该训练样本包含的文本片段在该文本中的位置以及该文本片段的字符长度。
步骤S407,基于嵌入技术,将所述训练样本的所述长度特征转换为以向量表示的相对位置编码。
相对位置编码向量包括,随机初始化为一个512*768维的embedding矩阵E,该矩阵索引为j-i的行Ej-i,表示长度为j-i的片段的相对位置编码。其中,512表示词向量的维度,768表示每个字符的向量维度,i和j分别表示该训练样本在标注文本中的起始字符位置和结尾字符位置。
对训练样本的长度进行嵌入表示,将不同的长度特征随机初始化为向量,获得相对位置编码。将所述相对位置编码与所述语义编码拼接(或者融合),获得所述样本编码。
步骤S408,将所述相对位置编码与所述语义编码拼接,获得所述样本编码。
样本编码表示为hspan=[h'span;Ej-i]。
同一个字符在不同位置可能会出现不同的实体类型,为更加准确地识别出片段的实体类型,提升预测的准确率,向所述语义编码中融入其对应的训练样本的起始字符和结束字符的相对位置编码,其中,相对位置表示该字符在文本中的位置。
步骤S500,将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型。
全连接层网络,包括将处理好的样本编码(即通过预训练语言模型处理得出的向量)一个接一个串联在一起,作为判断的投票值,再通过分类模型进行多分类处理,获得训练结果。在实际需要识别的文本中,具有很多种实体类型,所以需要通过分类模型进行多分类,以实现对文本的实体识别。
在一实施例中,将训练样本集中的所有训练样本通过步骤S400进行编码后,获得对应的样本编码,将所有样本编码输入至全连接网络进行多分类处理,其中分类的数量为所要识别的实体数量+1。举例说明,若根据步骤S100 中的训练文本可得出,所要识别的实体类型包括时间、地点、人物、书刊四种,则需要识别的实体数量为五种,其中,第五种为非实体类型(负样本所属类型)。
在一实施例中,将第一训练结果反向传播,优化所述分类模型,以得到分类结果更准确的分类模型。
可选地,使用Softmax激活函数和交叉熵损失函数作为所述分类模型,对所述样本编码进行多分类,获得所述第一训练结果,其中,预设的多分类类别数目为所述词典包含的实体类别数目与非实体类别。
可选地,步骤S500之后,还包括:
步骤S600,获取待预测文本。
对分类模型训练完毕后,获取待预测文本进行实体预测,所述待预测文本可以为表达语义的一段文字,如一篇文章、一句话、一段对话或一个通知。
步骤S601,获取所述待预测文本中的所有字符片段。
在一实施例中,获取待预测文本中所有符合文本顺序的、至少两个字符的片段,对于长度为L的文本,其所有片段集合的大小为
Figure RE-GDA0003617658200000101
例如,待预测文本为“我爱祖国”,则该文本中所有字符片段可列举为我、爱、祖、国、我爱、我爱祖、我爱祖国、爱祖、爱祖国、祖国十个片段,其片段集合的大小为10。
步骤S602,通过优化后的所述分类模型预测所有所述字符片段的实体类型与概率,作为第一预测结果。
在一实施例中,将所有的片段进行实体类型预测,获得每个字符片段的实体类型以及此字符片段为该实体类型的概率。
可选地,每个字符片段的预测结果可以表示为一个四元组,即(i,j, cls,prob)。其中,i表示字符片段的首字符在待预测文本中的位置;j表示字符片段的尾字符在待预测文本中的位置;cls表示预测概率最大的实体类型;prob表示对应的概率。
下面通过一个实施例举例说明四元组以及第一预测结果,例如待预测文本为"第一小组办公室1月16日召开会议,审议了《小组办公室委员会听取和研究第二小组办公室工作汇报和第三工作组工作报告的综合情况报告》。",则部分片段对应的四元组如下表所示:
表1
Figure RE-GDA0003617658200000102
Figure RE-GDA0003617658200000111
将表1列举出的所有四元组作为第一预测结果。
步骤S603,对所述第一预测结果添加约束条件,获得输出结果,其中,所述约束条件包括:剔除所有预测类别为非实体的结果片段;若两个结果片段的字符位置相交,则剔除所述概率相对较小的结果片段;若两个结果片段的字符位置相互包含且预测的所述实体类型相同,则剔除所述概率相对较小的结果片段。
第一预测结果具有较多的错误预测,所以需要对第一预测结果添加约束条件,对第一预测结果进行进一步筛选,尽可能消除错误预测结果对训练的影响,提升预测准确率。因第一预测结果包括实体类型与概率两方面信息,所以将概率低于预设概率的结果片段进行筛选,获得输出结果。
考虑到嵌套实体的位置分布规律,需要对第一预测结果进行约束,以消除多个预测实体之间的位置冲突,可以极大提升输出结果的准确率。因为嵌套实体的分布规律包括:对于合理设计的实体类别以及标注规范,文本中互相嵌套的两个实体通常不属于同一类别,如“某市领导小组”为一个政府机构类的实体,其中,嵌套的“某市”是一个地点实体,为尽可能提升模型预测的准确率,在得到第一预测结果后,先去掉所有预测类别为o(非实体类型) 的片段,按照约束条件进行筛选,获得输出结果。
如表1所示,筛选的主要方法包括:
①根据预测的每个片段类别和对应概率从小到大排序。②如果两个边界不同的片段存在位置相交的情况,则丢弃掉其中概率较小的片段。③如果两个边界不同的片段存在位置相包含的情况,并且预测类别相同,则丢弃掉其中概率较小的片段。④如果两个边界不同的片段存在位置相包含的情况,并且预测类别不同,则同时保留两个片段的预测结果。
其中,边界表示该片段的i与j所表示的边界,通过举例详细说明约束条件。
表2
Figure RE-GDA0003617658200000121
Figure RE-GDA0003617658200000131
将片段2与片段3单独比较,符合②情况,片段2与片段3位置相交,说明概率较小的片段有较大可能被错误识别了实体,所以丢弃概率较小的片段,即丢弃片段2;将片段1与片段2单独比较,符合③情况,片段1包含片段2,且预测类别相同,说明概率较小的片段有较大可能被识别错误,所以丢弃掉概率较小的片段,即丢弃片段1;将片段1与片段4单独比较,符合④情况,片段1包含片段4,且预测类别不同,说明两个片段预测结果准确度较高,保留片段1和片段4。
对于表1,在一实施例中,通过步骤S603进行约束后,获得输出结果如下表所示:
表3
Figure RE-GDA0003617658200000132
可选地,步骤S100包括:获取所述训练文本对应的词典,基于所述词典标注所述训练文本的实体类别;或通过规则模板标注所述训练文本中的特殊类别的实体;或引入人工标注标签,中的至少一种。
因本发明采用了对数据集中实体漏标鲁棒的方法,即当训练文本中存在一定程度的实体漏标时,也能获取较好的实体识别效果。因此数据标注阶段可以使用一些低成本的方法,无需投入大量人力保证实体标注的完整性。通过搜集需要识别的实体类别对应的词典,使用词典进行标注,可以一定程度上分担人力标注的工作量而无需担心其标注准确度;通过特殊类别的实体进行标注,可以在节省人力的前提下获得准确度较高的特殊类别实体标注,例如将被括进书名号中的片段的实体类型标注为“书”;通过人工粗略标注,仍可以获得准确度较高的预测模型。
本发明还提出一种低标注成本的嵌套实体识别系统,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如上所述的低标注成本的嵌套实体识别方法。
所述低标注成本的嵌套实体识别系统相对于现有技术与所述低标注成本的嵌套实体识别方法所具有的优势相同,在此不再赘述。
虽然本公开披露如上,但本公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (10)

1.一种低标注成本的嵌套实体识别方法,其特征在于,包括:
获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本;
从所述标注文本中提取正样本;
对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集,其中,所述负样本的类别标注为非实体类别;
基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码,向所述语义编码中添加相对位置信息获得样本编码;
将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型。
2.根据权利要求1所述的低标注成本的嵌套实体识别方法,其特征在于,在所述将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型之后,还包括:
获取待预测文本;
获取所述待预测文本中的所有字符片段;
通过优化后的所述分类模型预测所有所述字符片段的实体类型与概率,作为第一预测结果。
3.根据权利要求2所述的低标注成本的嵌套实体识别方法,其特征在于,在所述通过优化后的所述分类模型预测所有所述字符片段的实体类型与概率,作为第一预测结果之后,还包括:
对所述第一预测结果添加约束条件,获得输出结果,其中,所述约束条件包括:
剔除所有预测类别为非实体的结果片段;若两个结果片段的字符位置相交,则剔除所述概率相对较小的结果片段;若两个结果片段的字符位置相互包含且预测的所述实体类型相同,则剔除所述概率相对较小的结果片段。
4.根据权利要求1所述的低标注成本的嵌套实体识别方法,其特征在于,所述基于预训练语言模型处理所述训练样本集中的训练样本,获得语义编码包括:
通过所述预训练语言模型,将所述训练样本中的每个字进行向量编码,获得文字编码;
提取每个所述训练样本的第一个字符和最后一个字符的所述文字编码作为起始编码和结束编码;
将所述起始编码和所述结束编码向量相加,获得相加编码;
将所述起始编码和所述结束编码向量相乘,获得相乘编码;
将所述起始编码、所述结束编码、所述相加编码和所述相乘编码依次进行向量连接,获得所述语义编码。
5.根据权利要求1-4任一所述的低标注成本的嵌套实体识别方法,其特征在于,所述向所述语义编码中添加相对位置信息获得样本编码包括:
根据所述语义编码提取对应的所述训练样本在所述标注文本中的位置与长度特征;
基于嵌入技术,将所述训练样本的所述长度特征转换为以向量表示的相对位置编码;
将所述相对位置编码与所述语义编码拼接,获得所述样本编码。
6.根据权利要求5所述的低标注成本的嵌套实体识别方法,其特征在于,所述从所述标注文本中提取正样本包括:
从所述标注文本中提取已被标注为实体的实体片段,将所述实体片段处理成三元组,作为所述正样本,其中,所述三元组的内容包括所述实体片段的起始字符位置、结束字符位置和实体类别。
7.根据权利要求5所述的低标注成本的嵌套实体识别方法,其特征在于,所述对所述标注文本进行负采样,获得负样本集合,将所有所述正样本与至少一个负样本作为训练样本集包括:
从所述负样本集合中随机抽取预设个数的所述负样本,其中,所述预设个数为所述标注文本的文本长度*0.3。
8.根据权利要求5所述的低标注成本的嵌套实体识别方法,其特征在于,所述获取训练文本,对所述训练文本中的实体进行预标注,获得标注文本包括下述情况中的至少一种:
获取所述训练文本对应的词典,基于所述词典标注所述训练文本的实体类别;
通过规则模板标注所述训练文本中的特殊类别的实体;
引入人工标注标签。
9.根据权利要求8所述的低标注成本的嵌套实体识别方法,其特征在于,所述将每个所述样本编码输入至全连接网络,使用分类模型进行多分类处理,获得第一训练结果,基于所述第一训练结果优化所述分类模型包括:
使用Softmax激活函数和交叉熵损失函数作为所述分类模型,对所述样本编码进行多分类,获得所述第一训练结果,其中,预设的多分类类别数目为所述词典包含的实体类别数目与非实体类别。
10.一种低标注成本的嵌套实体识别系统,其特征在于,包括存储有计算机程序的计算机可读存储介质和处理器,所述计算机程序被所述处理器读取并运行时,实现如权利要求1-9任一项所述的低标注成本的嵌套实体识别方法。
CN202111406140.5A 2021-11-24 2021-11-24 一种低标注成本的嵌套实体识别方法及系统 Pending CN114547232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111406140.5A CN114547232A (zh) 2021-11-24 2021-11-24 一种低标注成本的嵌套实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111406140.5A CN114547232A (zh) 2021-11-24 2021-11-24 一种低标注成本的嵌套实体识别方法及系统

Publications (1)

Publication Number Publication Date
CN114547232A true CN114547232A (zh) 2022-05-27

Family

ID=81668486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111406140.5A Pending CN114547232A (zh) 2021-11-24 2021-11-24 一种低标注成本的嵌套实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN114547232A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438658A (zh) * 2022-11-08 2022-12-06 浙江大华技术股份有限公司 一种实体识别方法、识别模型的训练方法和相关装置
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438658A (zh) * 2022-11-08 2022-12-06 浙江大华技术股份有限公司 一种实体识别方法、识别模型的训练方法和相关装置
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116776887B (zh) * 2023-08-18 2023-10-31 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN111222305B (zh) 一种信息结构化方法和装置
CN112214610A (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN108509425A (zh) 一种基于新颖度的中文新词发现方法
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN114547232A (zh) 一种低标注成本的嵌套实体识别方法及系统
CN113961685A (zh) 信息抽取方法及装置
CN112417854A (zh) 中文文档抽取式摘要方法
CN112559781B (zh) 一种图像检索系统和方法
CN111651566B (zh) 基于多任务的小样本学习的裁判文书争议焦点提取方法
CN115630843A (zh) 合同条款自动审核方法及系统
CN114880468A (zh) 基于BiLSTM与知识图谱的建筑规范审查方法与系统
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
CN114372153A (zh) 基于知识图谱的法律文书结构化入库方法及系统
CN113946677A (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN113094512A (zh) 一种工业生产制造中故障分析系统及方法
CN113360659B (zh) 一种基于半监督学习的跨领域情感分类方法及系统
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN111783416B (zh) 一种利用先验知识构建文档图像数据集的方法
CN111259223B (zh) 基于情感分析模型的新闻推荐和文本分类方法
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN114997167A (zh) 简历内容提取方法及装置
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination