CN112347785A - 一种基于多任务学习的嵌套实体识别系统 - Google Patents

一种基于多任务学习的嵌套实体识别系统 Download PDF

Info

Publication number
CN112347785A
CN112347785A CN202011292686.8A CN202011292686A CN112347785A CN 112347785 A CN112347785 A CN 112347785A CN 202011292686 A CN202011292686 A CN 202011292686A CN 112347785 A CN112347785 A CN 112347785A
Authority
CN
China
Prior art keywords
entity
span
nested
task
system based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011292686.8A
Other languages
English (en)
Other versions
CN112347785B (zh
Inventor
刘晨旭
范红杰
胡振宇
柳军飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Guofa Holding Co ltd
Original Assignee
Hunan Guofa Holding Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Guofa Holding Co ltd filed Critical Hunan Guofa Holding Co ltd
Priority to CN202011292686.8A priority Critical patent/CN112347785B/zh
Publication of CN112347785A publication Critical patent/CN112347785A/zh
Application granted granted Critical
Publication of CN112347785B publication Critical patent/CN112347785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种基于多任务学习的嵌套实体识别系统,本方法使用基于跨度的方法解决命名实体识别中命名实体出现嵌套的情况;利用BERT模型编码上下文信息解决跨度表示的问题;将命名实体识别分解为实体确定和实体分类两个任务,使用多任务学习的方法解决正负样本分布不均衡的问题;提出实体交并比损失函数解决困难样本的问题。本发明能有效解决嵌套命名实体问题,与当前未使用额外数据的同类方法对比,本发明在三个公开嵌套命名实体数据集GENIA、ACE2004、ACE2005上均取得了最好效果,并且在非嵌套命名实体问题上也能取得有竞争力的效果,可以作为命名实体通用方法使用。

Description

一种基于多任务学习的嵌套实体识别系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于多任务学习的嵌套实体识别系统。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。目前多采用序列标注模型处理命名实体识别问题,即给文本中的每个字都标注上相应的标签。常见的标注方法有BIO方法,命名实体的开始位置标注为B(begin),其他位置标注为I(inside),非命名实体位置标注为O(outside)。这种方法对水平命名实体识别问题比较有效,但是当命名实体出现嵌套如“我今天听了《北京欢迎你》这首歌”中“北京欢迎你”歌曲实体与“北京”地点实体发生了嵌套,序列标注模型就无法同时识别出这两个命名实体。因此当嵌套实体比例较高时,该方案效果较差。现有技术中存在的一种技术方案(参考Beatrice Alex,BarryHaddow,and Claire Grover.2007.Recognising nested named entities in biomedicaltext.In Proceedings of the Workshop on BioNLP 2007:Biological,Translational,and Clinical Language Processing,pages 65–72.),该方案中使用多个水平命名实体模型进行嵌套命名实体识别,每个模型识别一种类型的命名实体。这种方案无法处理嵌套的两个命名实体是同一类别的情况。现有技术中存在的另一种技术方案(参考MohammadGolam Sohrab and Makoto Miwa.2018.Deep exhaustive model for nested namedentity recognition.In Proceedings of the 2018 Conference on Empirical Methodsin Natural Language Processing,pages 2843–2849.),该方案中使用LSTM对文本句进行编码,表示出句子中所有跨度,然后对其分类。该方案从原理上可以有效识别出嵌套命名实体,但是LSTM特征抽取能力较弱,无法获得较好的跨度表示,且该方案没有考虑到跨度中正负样本不均衡的情况。
发明内容
本发明的目的是克服现有技术的上述不足而提供一种基于多任务学习的嵌套实体识别系统,本方法使用基于跨度的方法解决命名实体识别中命名实体出现嵌套的情况;利用BERT模型编码上下文信息解决跨度表示的问题;将命名实体识别分解为实体确定和实体分类两个任务,使用多任务学习的方法解决正负样本分布不均衡的问题;提出实体交并比损失函数解决困难样本的问题。
本发明的技术方案是:一种基于多任务学习的嵌套实体识别系统,包括语义编码模块、跨度表示模块、多任务模块;其中语义编码模块用于负责编码文本的上下文语义信息,将文本转化为特征向量便于后续处理;跨度表示模块用于根据语义编码模块的输出结果对跨度进行表示;多任务模块用于实现实体确定和实体分类。
进一步的,语义编码模块使用BERT预训练语言模型对待处理的文本句进行编码,融合上下文信息将文本转化为特征向量表示;对于一个包含n个词的句子(t1,t2,…,tn),为了限制词表大小以及缓解未登录词问题,BERT使用双字节编码可以将不常见的词转换为常见的子词,这样得到一个包含m个子词的句子,其中m≥n,子词序列通过BERT编码得到一个向量序列e=(cls,e1,e2,…,em),其中cls编码了整个句子的语义信息,ei为对应子词的特征向量表示。
进一步的,跨度表示模块根据语义编码得到的e求出每个跨度的向量表示。为限制模型复杂度,该模块枚举出所有长度小于某定值的跨度。如对于一个由第i个子词到第j个子词组成的跨度span(i,j),其表示分为三个部分:
1、跨度上下文编码,该部分由(ei,ei+1,…,ej)通过最大池化操作得到;
2、句子语义编码,一个实体的类别与该实体所处的整个句子语义信息有一定关联,该部分使用cls的结果;
3、长度嵌入,一个跨度的长度越长,其成为实体的概率就越低,为了将这个先验知识融合到模型中,该部分使用一个长度嵌入将跨度的长度编码为向量表示。
将以上三个部分得到的向量表示拼接起来就得到了跨度的表示。
进一步的,跨度表示模块枚举出的跨度中,存在大量的非实体跨度,正负样本分布极度不均衡,会严重影响模型的效果。因此多任务模块将实体识别分解为实体确定和实体分类两个子任务。实体确定任务确定一个跨度是否为实体,实体分类任务在确定一个跨度为实体后将其分类为对应的类别。
进一步的,在实体确定任务的训练阶段,为关注困难样本(比如与实体重叠较多的非实体跨度),本发明提出一种实体交并比损失函数进行优化。该损失函数需要计算跨度之间的交并比,两个跨度之间的交并比可以通过如下公式计算得到:
Figure BDA0002784271890000031
然后求得每个跨度与其所在句中实体最大的交并比,作为该跨度的实体交并比,使用ENIoU表示,实体交并比损失定义如下所示:
Figure BDA0002784271890000032
其中y取值为0或1,代表跨度的真实标签(0为非实体跨度,1为实体跨度),α取值为0到1之间的实数,作为平衡系数缓解类别不均衡问题,p为模型预测该跨度为1的概率。该损失函数可以增大困难样本的损失值,使模型在训练阶段关注困难样本,提升模型效果。
进一步的,实体分类任务在训练阶段使用排序损失函数进行优化,计算出实体确定任务和实体分类任务的损失之后,将两个损失值加权求和,通过多任务学习的方法联合优化。
进一步的,在预测阶段,为防止错误传播,仅通过实体分类任务进行实体识别,实体确定任务仅用来优化模型参数。
本发明的有益效果:
本发明中将实体识别分解为实体确定和实体分类两个子任务,通过多任务学习的方法优化模型,缓解跨度中类别不平衡的问题;在实体确定任务的训练阶段,为关注困难样本,本发明提出了一种实体交并比损失函数,该损失函数可以增大困难样本的损失值,使模型在训练阶段关注困难样本,提升模型效果。本发明能有效解决嵌套命名实体问题,与当前未使用额外数据的同类方法对比,本发明在三个公开嵌套命名实体数据集GENIA、ACE2004、ACE2005上均取得了最好效果,并且在非嵌套命名实体问题上也能取得有竞争力的效果,可以作为命名实体通用方法使用。
附图说明
图1是本发明的整体结构图。
具体实施方式
以下将结合具体实施例对本发明做进一步详细说明,本实施例中未具体说明的细节,均为现有技术。
实施例
以句子“我今天听了《北京欢迎你》这首歌”为例。在训练阶段,该句中跨度“北京欢迎你”被标注为歌曲实体,跨度“北京”被标注为地点实体。该句通过BERT模型得到一个d维的句子表示向量cls和一个15*d维的字表示向量。列举出句子中的120个跨度,根据句子表示向量和字表示向量以及跨度长度嵌入对每个跨度计算其向量表示,然后通过两个全连接层计算每个跨度为实体的概率以及其属于某类实体的概率。计算出两个任务的概率之后,根据标注的信息计算损失函数,然后反向传播优化模型参数。在预测阶段,没有标注的信息,计算出每个跨度的表示之后,对每个跨度做分类。“北京”被分类为地点实体,“北京欢迎你”被分类为歌曲实体,其余跨度被分类为非实体。
显然,以上仅为本发明的部分实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有前述各种技术特征的组合和变型,本领域的技术人员在不脱离本发明的精神和范围的前提下,对本发明的改进、变型、等同替换,或者将本发明的结构或方法用于其它领域以取得同样的效果,都属于本发明包括的保护范围。
名词解释:
实体,具有可区别性且独立存在的某种事物。如某一国家、某一公司、某一疾病、某一个人等;
命名实体识别,识别文本中指定类别实体的过程,可以检测文本中的新实体。跨度,句子中的连续子序列,如“我爱北京天安门”中的跨度包括“我”、“我爱”、“爱北京”等;
BERT(Bidirectional Encoder Representation from Transformers),一种双向语言模型,参见Jacob Devlin,Ming-Wei Chang,Kenton Lee,andKristinaToutanova.2019.Bert:Pre-training of deep bidirectional transformersfor language understanding.In Proceedings of the 2019 Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies,Volume 1(Long and Short Papers),pages 4171-4186.;
LSTM(Long Short Term Memory networks),长短时记忆网络;
最大池化(max-pooling),即取局部接受域中值最大的点;
排序损失函数,参见
Figure BDA0002784271890000051
Nogueira dos Santos,Bing Xiang,and BowenZhou.2015.Classifying relations by ranking with convolutional neuralnetworks.In Proceedings of the 53rd Annual Meeting of the Association forComputational Linguistics and the 7th International Joint Conference onNatural Language Processing of the Asian Federation of Natural LanguageProcessing(Volume 1:Long Papers),pages 626–634。

Claims (10)

1.一种基于多任务学习的嵌套实体识别系统,其特征在于:包括语义编码模块、跨度表示模块、多任务模块;
其中语义编码模块用于负责编码文本的上下文语义信息,将文本转化为特征向量便于后续处理;
跨度表示模块用于根据语义编码模块的输出结果对跨度进行表示;
多任务模块用于实现实体确定和实体分类。
2.根据权利要求1所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:所述语义编码模块使用BERT预训练语言模型对待处理的文本句进行编码,融合上下文信息将文本转化为特征向量表示。
3.根据权利要求2所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:对于一个包含n个词的句子(t1,t2,…,tn),为了限制词表大小以及缓解未登录词问题,BERT使用双字节编码可以将不常见的词转换为常见的子词,得到一个包含m个子词的句子,其中m和n为整数,且m≥n,子词序列通过BERT编码得到一个向量序列e=(cls,e1,e2,…,em),其中cls编码了整个句子的语义信息,ei为对应子词的特征向量表示。
4.根据权利要求3所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:所述跨度表示模块根据语义编码得到的e求出每个跨度的向量表示。
5.根据权利要求4所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:所述跨度表示由跨度上下文编码、句子语义编码、长度嵌入三个部分拼接而成。
6.根据权利要求1所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:所述多任务模块将实体识别分解为实体确定和实体分类两个子任务,实体确定任务确定一个跨度是否为实体,实体分类任务在确定一个跨度为实体后将其分类为对应的类别。
7.根据权利要求6所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:在实体确定任务的训练阶段,为关注困难样本,利用一种实体交并比损失函数进行优化;该损失函数需要计算跨度之间的交并比,两个跨度之间的交并比通过公式(1)计算得到,
Figure FDA0002784271880000021
然后求得每个跨度与其所在句中实体最大的交并比,作为该跨度的实体交并比,使用ENIoU表示,实体交并比损失定义如式(2)所示:
Figure FDA0002784271880000022
其中y取值为0或1,代表跨度的真实标签,0为非实体跨度,1为实体跨度;α取值为0到1之间的实数,作为平衡系数缓解类别不均衡问题,p为模型预测该跨度为1时的概率。
8.根据权利要求7所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:实体分类任务在训练阶段使用排序损失函数进行优化。
9.根据权利要求8所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:在计算出实体确定任务和实体分类任务的损失之后,将两个损失值加权求和,通过多任务学习的方法联合优化。
10.根据权利要求9所述的一种基于多任务学习的嵌套实体识别系统,其特征在于:在预测阶段,为防止错误传播,仅通过实体分类任务进行实体识别,实体确定任务仅用来优化模型参数。
CN202011292686.8A 2020-11-18 2020-11-18 一种基于多任务学习的嵌套实体识别系统 Active CN112347785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011292686.8A CN112347785B (zh) 2020-11-18 2020-11-18 一种基于多任务学习的嵌套实体识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011292686.8A CN112347785B (zh) 2020-11-18 2020-11-18 一种基于多任务学习的嵌套实体识别系统

Publications (2)

Publication Number Publication Date
CN112347785A true CN112347785A (zh) 2021-02-09
CN112347785B CN112347785B (zh) 2024-06-28

Family

ID=74364249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011292686.8A Active CN112347785B (zh) 2020-11-18 2020-11-18 一种基于多任务学习的嵌套实体识别系统

Country Status (1)

Country Link
CN (1) CN112347785B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861539A (zh) * 2021-03-16 2021-05-28 云知声智能科技股份有限公司 嵌套命名实体识别方法、装置、电子设备和存储介质
CN113392629A (zh) * 2021-06-29 2021-09-14 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN114462391A (zh) * 2022-03-14 2022-05-10 和美(深圳)信息技术股份有限公司 基于对比学习的嵌套实体识别方法和系统
CN114722822A (zh) * 2022-03-22 2022-07-08 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN114925694A (zh) * 2022-05-11 2022-08-19 厦门大学 一种利用实体判别信息来提高生物医学命名体识别的方法
CN117114004A (zh) * 2023-10-25 2023-11-24 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492230A (zh) * 2019-01-11 2019-03-19 浙江大学城市学院 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法
CN110968678A (zh) * 2018-09-28 2020-04-07 科沃斯商用机器人有限公司 文本指代消解的方法、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968678A (zh) * 2018-09-28 2020-04-07 科沃斯商用机器人有限公司 文本指代消解的方法、设备及介质
CN109492230A (zh) * 2019-01-11 2019-03-19 浙江大学城市学院 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUANQI TAN ETAL.: ""Boundary Enhanced Neural Span Classification for Nested Named Entity Recognition"", 《THE THIRTY-FOURTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE (AAAI-20)》, pages 9016 - 9023 *
LIN SUN ETAL.: ""Joint Learning of Token Context and Span Feature for Span-Based Nested NER"", 《IEEE》, pages 2720 - 2730 *
MARKUS EBERTS AND ADRIAN ULGES: ""Span-based Joint Entity and Relation Extraction with Transformer Pre-training"", 《ARXIV》, pages 1 - 8 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861539A (zh) * 2021-03-16 2021-05-28 云知声智能科技股份有限公司 嵌套命名实体识别方法、装置、电子设备和存储介质
CN112861539B (zh) * 2021-03-16 2023-12-15 云知声智能科技股份有限公司 嵌套命名实体识别方法、装置、电子设备和存储介质
CN113392629A (zh) * 2021-06-29 2021-09-14 哈尔滨工业大学 基于预训练模型的人称代词消解方法
CN114462391A (zh) * 2022-03-14 2022-05-10 和美(深圳)信息技术股份有限公司 基于对比学习的嵌套实体识别方法和系统
CN114462391B (zh) * 2022-03-14 2024-05-14 和美(深圳)信息技术股份有限公司 基于对比学习的嵌套实体识别方法和系统
CN114722822A (zh) * 2022-03-22 2022-07-08 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN114722822B (zh) * 2022-03-22 2024-01-19 平安科技(深圳)有限公司 命名实体识别方法、装置、设备和计算机可读存储介质
CN114925694A (zh) * 2022-05-11 2022-08-19 厦门大学 一种利用实体判别信息来提高生物医学命名体识别的方法
CN114925694B (zh) * 2022-05-11 2024-06-04 厦门大学 一种利用实体判别信息来提高生物医学命名体识别的方法
CN117114004A (zh) * 2023-10-25 2023-11-24 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法
CN117114004B (zh) * 2023-10-25 2024-01-16 江西师范大学 一种基于门控纠偏的少样本两阶段命名实体识别方法

Also Published As

Publication number Publication date
CN112347785B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN112347785B (zh) 一种基于多任务学习的嵌套实体识别系统
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN111552821A (zh) 法律意图搜索方法、法律意图搜索装置和电子设备
CN116821168B (zh) 一种改进的基于生成式大语言模型的nl2sql方法
CN111475650B (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN110414004A (zh) 一种核心信息提取的方法和系统
CN112434161B (zh) 一种采用双向长短期记忆网络的方面级情感分析方法
CN113159187B (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN116069916A (zh) 旅游景点问答系统
Shruthi et al. A prior case study of natural language processing on different domain
CN114757184A (zh) 实现航空领域知识问答的方法和系统
Xue et al. A method of chinese tourism named entity recognition based on bblc model
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
Keezhatta Understanding EFL Linguistic Models through Relationship between Natural Language Processing and Artificial Intelligence Applications.
Behzadi Natural language processing and machine learning: A review
Islam et al. A Review on BERT: Language Understanding for Different Types of NLP Task
Van Tu A deep learning model of multiple knowledge sources integration for community question answering
Shih et al. Improved Rapid Automatic Keyword Extraction for Voice-based Mechanical Arm Control.
Rajeshwari et al. Regional Language Code-Switching for Natural Language Understanding and Intelligent Digital Assistants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant