CN114118093B - 一种扁平化标记增强的嵌套命名实体识别方法与系统 - Google Patents

一种扁平化标记增强的嵌套命名实体识别方法与系统 Download PDF

Info

Publication number
CN114118093B
CN114118093B CN202210098582.6A CN202210098582A CN114118093B CN 114118093 B CN114118093 B CN 114118093B CN 202210098582 A CN202210098582 A CN 202210098582A CN 114118093 B CN114118093 B CN 114118093B
Authority
CN
China
Prior art keywords
word
information
semantic vector
words
flattened
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210098582.6A
Other languages
English (en)
Other versions
CN114118093A (zh
Inventor
万义晨
黄兆华
邬昌兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202210098582.6A priority Critical patent/CN114118093B/zh
Publication of CN114118093A publication Critical patent/CN114118093A/zh
Application granted granted Critical
Publication of CN114118093B publication Critical patent/CN114118093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种扁平化标记增强的嵌套命名实体识别方法与系统,该方法包括:将对象语句中的每个词转换为词对应的语义向量表示;进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;对对象语句中的每个词分别预测对应的扁平化标记信息;将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;基于融合扁平化标记信息的词的语义向量表示,对对象语句中的所有文本片段进行分类,以确定得到文本片段为某种实体或不为实体对应的概率分布。本发明充分利用内层实体的信息和文本片段的信息,可有效减少可能出现的错误传播问题。

Description

一种扁平化标记增强的嵌套命名实体识别方法与系统
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种扁平化标记增强的嵌套命名实体识别方法与系统。
背景技术
命名实体识别(Named Entity Recognition,NER)是自然语言处理(NaturalLanguage Processing,NLP)的一项基本任务,目的是自动识别无结构文本中具有特定意义的实体。例如,人名、地名、机构名以及其它专有名词等。命名实体识别的结果被广泛运用于信息提取,问答系统,知识图谱和推荐系统等下游任务,在自然语言处理技术的研究和走向实用化的过程中占有重要的地位。
现有大部分命名实体的研究主要针对平面实体展开,基于深度学习的序列标注方法是目前主流的方法。这类方法在平面命名实体上取得了较好的识别性能,但主要缺点之一是无法识别句子中具有嵌套结构的实体。如图1所示,序列标注的方法不能同时识别嵌套的机构实体“软件 学院”和人物实体“软件 学院 的 教授”,而只能识别他们中的一个。然后,在真实的自然语言文本中,嵌套实体出现的频率并不低,例如,在常用的数据集ACE2004和ACE2005中嵌套实体占比均超过30%。忽略嵌套实体的识别必然会对下游的自然语言处理任务产生负面的影响,例如,只识别出机构实体“软件 学院”而没有识别出人物实体“软件学院 的 教授”,会导致信息提取任务中到达“行政楼”的人物信息的丢失。因此,近年来,嵌套命名实体识别(Nested Named Entity Recognition,NNER)受到学术界和工业界越来越多的关注,成为当前的研究热点之一。
现有嵌套命名实体识别的方法可以大致分为以下两大类:堆叠序列标注的方法和基于文本片段的两阶段方法。1)堆叠序列标注的方法:把文本中的嵌套实体看成多层平面实体,堆叠多个较为成熟的序列标注层,先识别最内层的实体,然后逐层识别外层实体。例如,在图1中,先识别出内层的实体“软件 学院”和“行政楼”,在此基础上识别外层实体“软件 学院 的 教授”。此类方法的好处是,在识别外层实体时,可充分利用内层实体的信息。其不足之处是序列标注方法较难充分利用文本片段的信息。2)基于文本片段的两阶段方法:将嵌套命名实体识别分解成边界检测和类型预测两个子任务。边界检测子任务的目的是找出句子中所有可能的实体首词或实体尾词,从而得到可能是实体的候选文本片段。类型预测子任务以候选文本片段为单元进行编码,用于判断其为哪种实体或不是实体。现有研究表明:基于文本片段的两阶段方法通常能取得比堆叠序列标注的方法更好的识别性能,但不足之处是在预测外层实体时没有利用内层实体的信息。另外,堆叠序列标注的方法中错误识别出的内层实体和基于文本片段的两阶段方法中漏识别的首词或尾词,都可能带来错误传播问题。
基于此,有必要一种扁平化标记增强的嵌套命名实体识别方法,以充分利用内层实体的信息和文本片段的信息,并能同时减少可能出现的错误传播问题。
发明内容
鉴于上述状况,本发明提出一种扁平化标记增强的嵌套命名实体识别方法,以解决上述技术问题。
本发明实施例提供了一种扁平化标记增强的嵌套命名实体识别方法,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其中,所述方法包括如下步骤:
步骤一,将对象语句中的每个词转换为词对应的语义向量表示;
步骤二,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
步骤三,对所述对象语句中的每个词分别预测对应的扁平化标记信息;
步骤四,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
步骤五,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为某种实体或不为实体对应的概率分布。
本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,首先将对象语句中的每个词转换为词对应的语义向量表示;学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;然后对每个词分别预测对应的扁平化标记信息,将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,以得到融合扁平化标记信息的词的语义向量表示;最后对句子中的所有文本片段进行分类,以确定文本片段为某种实体或不为实体的概率分布。本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,能充分利用内层实体的信息和文本片段的信息,且可有效减少可能出现的错误传播问题。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤一中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量;
其中,包含
Figure 864041DEST_PATH_IMAGE001
个词的对象语句
Figure 813543DEST_PATH_IMAGE002
,词
Figure 184612DEST_PATH_IMAGE003
对应的语义向量表示为:
Figure 635185DEST_PATH_IMAGE004
其中,
Figure 798313DEST_PATH_IMAGE005
为词
Figure 184295DEST_PATH_IMAGE003
对应的语义向量表示,
Figure 573819DEST_PATH_IMAGE006
为词
Figure 437870DEST_PATH_IMAGE007
对应的静态词向量,
Figure 580139DEST_PATH_IMAGE008
为词
Figure 137022DEST_PATH_IMAGE003
对应的动态词向量,
Figure 748263DEST_PATH_IMAGE009
为词
Figure 150425DEST_PATH_IMAGE003
的词性向量,
Figure 412780DEST_PATH_IMAGE010
为向量的拼接操作,
Figure 406143DEST_PATH_IMAGE011
表示对象语句中词的序号。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤二中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:
根据词的语义向量表示
Figure 970592DEST_PATH_IMAGE012
,使用长短时记忆网络
Figure 707604DEST_PATH_IMAGE013
从左至右建模以得到融合上文信息的词
Figure 824465DEST_PATH_IMAGE003
的语义向量表示
Figure 457571DEST_PATH_IMAGE014
,使用长短时记忆网络
Figure 43405DEST_PATH_IMAGE015
从右至左建模以得到融合下文信息的词
Figure 52949DEST_PATH_IMAGE003
的语义向量表示
Figure 24316DEST_PATH_IMAGE016
拼接所述融合上文信息的词
Figure 93903DEST_PATH_IMAGE003
的语义向量表示
Figure 901453DEST_PATH_IMAGE014
与所述融合下文信息的词
Figure 980268DEST_PATH_IMAGE003
的语义向量表示
Figure 947087DEST_PATH_IMAGE017
,以得到融合上下文信息的词
Figure 46630DEST_PATH_IMAGE003
的语义向量表示
Figure 731689DEST_PATH_IMAGE018
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤二中,存在如下关系式:
Figure 958402DEST_PATH_IMAGE019
其中,
Figure 779728DEST_PATH_IMAGE014
为融合上文信息的词
Figure 50172DEST_PATH_IMAGE003
的语义向量表示,
Figure 222527DEST_PATH_IMAGE020
为融合下文信息的词
Figure 250002DEST_PATH_IMAGE003
的语义向量表示,
Figure 925834DEST_PATH_IMAGE021
为融合上文信息的词
Figure 632758DEST_PATH_IMAGE022
的语义向量表示,
Figure 26831DEST_PATH_IMAGE023
为融合下文信息的词
Figure 595346DEST_PATH_IMAGE024
的语义向量表示。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤三中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:
基于所述融合上下文信息的词
Figure 391264DEST_PATH_IMAGE003
的语义向量表示
Figure 269090DEST_PATH_IMAGE025
,使用softmax层计算词
Figure 150459DEST_PATH_IMAGE003
对应的扁平化标记的概率分布
Figure 647299DEST_PATH_IMAGE026
Figure 173089DEST_PATH_IMAGE027
其中,
Figure 97183DEST_PATH_IMAGE028
Figure 590481DEST_PATH_IMAGE029
为扁平化标记预测层的参数;
分别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;
Figure 625433DEST_PATH_IMAGE030
其中,
Figure 5730DEST_PATH_IMAGE031
为扁平化标记预测任务的代价函数,
Figure 100725DEST_PATH_IMAGE032
为词
Figure 815740DEST_PATH_IMAGE003
属于第
Figure 654383DEST_PATH_IMAGE033
个扁平化标记的真实概率,
Figure 151836DEST_PATH_IMAGE034
为概率分布
Figure 417733DEST_PATH_IMAGE026
中对应于
Figure 620044DEST_PATH_IMAGE033
个扁平化标记的预测概率,
Figure 996799DEST_PATH_IMAGE035
Figure 617267DEST_PATH_IMAGE036
为扁平化标记的数量,
Figure 54064DEST_PATH_IMAGE033
表示扁平化标记的序号。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤四中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法包括如下步骤:
根据概率分布
Figure 743672DEST_PATH_IMAGE037
中的预测概率与扁平化标记的向量表示进行加权求和,以得到词
Figure 924117DEST_PATH_IMAGE003
的扁平化标记信息的向量表示
Figure 399092DEST_PATH_IMAGE038
将所述融合上下文信息的词
Figure 6791DEST_PATH_IMAGE003
的语义向量表示
Figure 918115DEST_PATH_IMAGE025
与所述词
Figure 902252DEST_PATH_IMAGE003
的扁平化标记信息的向量表示
Figure 231733DEST_PATH_IMAGE038
进行拼接,以得到词
Figure 10333DEST_PATH_IMAGE003
的融合标记信息的编码层的输入
Figure 408953DEST_PATH_IMAGE039
根据所述词
Figure 196781DEST_PATH_IMAGE003
的融合标记信息的编码层的输入
Figure 505403DEST_PATH_IMAGE040
,通过双向长短时记忆网络构建融合标记信息的编码层以得到融合标记信息的词
Figure 61761DEST_PATH_IMAGE003
的语义向量表示
Figure 354202DEST_PATH_IMAGE041
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,在所述步骤四中,词
Figure 539196DEST_PATH_IMAGE003
的扁平化标记信息的向量表示
Figure 967903DEST_PATH_IMAGE038
表示为:
Figure 963672DEST_PATH_IMAGE042
其中,
Figure 212251DEST_PATH_IMAGE043
为第
Figure 200936DEST_PATH_IMAGE044
个扁平化标记的向量表示;
Figure 484149DEST_PATH_IMAGE003
的融合标记信息的编码层的输入
Figure 650820DEST_PATH_IMAGE045
表示为:
Figure 652274DEST_PATH_IMAGE046
其中,
Figure 444649DEST_PATH_IMAGE047
表示向量的拼接操作;
融合标记信息的词
Figure 582370DEST_PATH_IMAGE003
的语义向量表示
Figure 919941DEST_PATH_IMAGE048
的计算过程为:
Figure 143112DEST_PATH_IMAGE049
其中,
Figure 739178DEST_PATH_IMAGE050
表示融合上文标记信息的词
Figure 731405DEST_PATH_IMAGE003
的语义向量表示,
Figure 236948DEST_PATH_IMAGE051
表示融合下文标记信息的词
Figure 947415DEST_PATH_IMAGE003
的语义向量表示,
Figure 81594DEST_PATH_IMAGE052
为融合上文标记信息的词
Figure 928327DEST_PATH_IMAGE053
的语义向量表示,
Figure 873280DEST_PATH_IMAGE054
为融合下文标记信息的词
Figure 805464DEST_PATH_IMAGE055
的语义向量表示,
Figure 743333DEST_PATH_IMAGE056
均表示长短时记忆网络。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布的方法包括如下步骤:
基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重;
根据所述文本片段中间词的权重计算得到文本片段
Figure 710152DEST_PATH_IMAGE057
的语义向量表示
Figure 950641DEST_PATH_IMAGE058
基于所述文本片段的语义向量表示,通过softmax层计算所述文本片段为实体或不为实体对应的概率分布
Figure 245487DEST_PATH_IMAGE059
,其中,
Figure 596834DEST_PATH_IMAGE060
也表示对象语句中词的序号。
所述一种扁平化标记增强的嵌套命名实体识别方法,其中,文本片段
Figure 542793DEST_PATH_IMAGE061
的语义向量表示
Figure 954183DEST_PATH_IMAGE062
的计算过程为:
Figure 736325DEST_PATH_IMAGE063
其中,
Figure 891363DEST_PATH_IMAGE048
为融合标记信息的首词
Figure 691829DEST_PATH_IMAGE003
的语义向量表示,
Figure 274120DEST_PATH_IMAGE064
为融合标记信息的尾词
Figure 540628DEST_PATH_IMAGE065
的语义向量表示,
Figure 233778DEST_PATH_IMAGE066
为基于首词
Figure 154329DEST_PATH_IMAGE003
计算的中间词的语义向量表示,
Figure 641943DEST_PATH_IMAGE067
为基于首词
Figure 664256DEST_PATH_IMAGE003
计算的中间词
Figure 161097DEST_PATH_IMAGE068
的权重,
Figure 936155DEST_PATH_IMAGE069
为基于尾词
Figure 860248DEST_PATH_IMAGE070
计算的文本片段中间词的语义向量表示,
Figure 838700DEST_PATH_IMAGE071
为基于尾词
Figure 873652DEST_PATH_IMAGE072
计算的中间词
Figure 768796DEST_PATH_IMAGE073
的权重,
Figure 863791DEST_PATH_IMAGE074
为融合标记信息的中间词
Figure 329538DEST_PATH_IMAGE075
的语义向量表示,
Figure 433760DEST_PATH_IMAGE076
为融合标记信息的中间词
Figure 58777DEST_PATH_IMAGE077
的语义向量表,
Figure 449307DEST_PATH_IMAGE078
为向量的转置操作,
Figure 526984DEST_PATH_IMAGE079
表示向量的拼接操作。
本发明还提出一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,所述系统包括:
输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;
上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;
融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为现有技术中嵌套命名实体示例图;
图2为本发明中嵌套命名实体的扁平化标记示例图;
图3为本发明提出的一种扁平化标记增强的嵌套命名实体识别方法的流程图;
图4为本发明中扁平化标记增强的嵌套命名实体识别模型图;
图5为本发明提出的一种扁平化标记增强的嵌套命名实体识别系统的结构图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
在本发明中,针对嵌套命名实体设计了一套扁平化标记。具体地,基于内层实体优先的原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予一个标记。生成嵌套命名实体的扁平化标记包括以下两个步骤:(1)联合BIO标记及实体类别,对句子中的词进行标记。其中,“B”(Begin)表示实体的首词,“I”(Inside)表示实体的内部词,“O”(Other)表示不在实体中的词;实体类别包括机构(ORG)、人物(PER)和地点(LOC)等;B-ORG表示机构实体的首词,I-ORG表示机构实体的内部词等。如图2所示,第1层机构实体“软件 学院”中的词分别被标记为“B-ORG I-ORG”,地点实体“行政楼”中的词被标记为“B-LOC”;第2层人物实体“软件 学院 的 教授”中的词分别被标记为“B-PER I-PER I-PER I-PER”,词“到达”不属于任何实体,标记为“O”。(2)基于内层实体优先的原则,对这些标记进行扁平化,使得句子中的每个词仅对应一个标记。如图2所示,嵌套的实体“软件学院”和“软件学院的教授”中都包含词“软件”,且在第一步中分别被标记为“B-ORG”和“B-PER”,基于内层实体优先的原则,词“软件”的扁平化标记为“B-ORG”。经过上述两个步骤,可以为已标注嵌套命名实体的句子中的每个词赋予一个标记,称之为嵌套命名实体的扁平化标记。
进一步的,将嵌套命名实体的扁平化标记的预测作为前期辅助任务,并将识别的结果用作额外的输入信息,非常有利于后期嵌套命名实体的识别,主要表现在以下两个方面:(1)、扁平化标记中包含了内层实体的全部边界信息和类别信息,在这些信息的基础上进行外层实体的识别是比较容易的。例如,在已经知道“软件 学院”是一个内层的机构实体的情况下,模型能较容易地识别出外层实体“软件 学院 的 教授”的边界和类别(人物)。更重要的是,这也有利于模型学到一些外层实体的构成规则,比如,“某机构实体+的 教授”即为人物实体。(2)、扁平化标记中已经包含了外层实体的部分边界信息和类别信息。例如,假设预测的词序列“软件 学院 的 教授 到达”的扁平化标记分别为“B-ORG I-ORG I-PER I-PER O”,这表明包含词“教授”的外层实体类别应该是“人物”,且“教授”应该为该实体的尾词。
下面以一个具体的实例对本发明的方案进行详细地叙述。请参阅图2至图4,本发明提出一种扁平化标记增强的嵌套命名实体识别方法,其中,所述方法包括如下步骤:
S101,将对象语句中的每个词转换为词对应的语义向量表示。
在步骤S101中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量。
具体的,给定一个包含
Figure 776175DEST_PATH_IMAGE001
个词的对象语句
Figure 255698DEST_PATH_IMAGE002
,词
Figure 817130DEST_PATH_IMAGE003
对应的语义向量表示为:
Figure 647682DEST_PATH_IMAGE004
其中,
Figure 703494DEST_PATH_IMAGE005
为词
Figure 37524DEST_PATH_IMAGE003
对应的语义向量表示,
Figure 769856DEST_PATH_IMAGE080
为词
Figure 822126DEST_PATH_IMAGE003
对应的静态词向量,
Figure 681629DEST_PATH_IMAGE008
为词
Figure 135744DEST_PATH_IMAGE003
对应的动态词向量,
Figure 914344DEST_PATH_IMAGE009
为词
Figure 578543DEST_PATH_IMAGE003
的词性向量,
Figure 100792DEST_PATH_IMAGE010
为向量的拼接操作,
Figure 284779DEST_PATH_IMAGE011
表示对象语句中词的序号。
作为补充的,静态词向量可使用现有算法word2vec和GloVe等基于大量的文本预训练得到。动态词向量可使用现有算法ELMo和BERT等基于大量的文本预训练得到。每一种词性(例如,名词、动词和介词)随机初始化为一个对应的词性向量,并把所有的词性向量作为模型的参数,在模型训练的过程中进行优化。
S102,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示。
在步骤S102中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:
S1021,根据词的语义向量表示
Figure 499860DEST_PATH_IMAGE012
,使用长短时记忆网络
Figure 651356DEST_PATH_IMAGE013
从左至右建模以得到融合上文信息的词
Figure 711716DEST_PATH_IMAGE003
的语义向量表示
Figure 770718DEST_PATH_IMAGE014
,使用长短时记忆网络
Figure 156700DEST_PATH_IMAGE015
从右至左建模以得到融合下文信息的词
Figure 529912DEST_PATH_IMAGE003
的语义向量表示
Figure 393963DEST_PATH_IMAGE081
Figure 286964DEST_PATH_IMAGE082
其中,
Figure 437322DEST_PATH_IMAGE014
为融合上文信息的词
Figure 438777DEST_PATH_IMAGE003
的语义向量表示,
Figure 106518DEST_PATH_IMAGE020
为融合下文信息的词
Figure 119605DEST_PATH_IMAGE003
的语义向量表示,
Figure 581810DEST_PATH_IMAGE083
为融合上文信息的词
Figure 929615DEST_PATH_IMAGE022
的语义向量表示,
Figure 135468DEST_PATH_IMAGE023
为融合下文信息的词
Figure 3061DEST_PATH_IMAGE084
的语义向量表示。
S1022,拼接所述融合上文信息的词
Figure 901747DEST_PATH_IMAGE003
的语义向量表示
Figure 736848DEST_PATH_IMAGE014
与所述融合下文信息的词
Figure 480813DEST_PATH_IMAGE003
的语义向量表示
Figure 465562DEST_PATH_IMAGE085
,以得到融合上下文信息的词
Figure 128625DEST_PATH_IMAGE003
的语义向量表示
Figure 60808DEST_PATH_IMAGE025
。也即存在如下公式:
Figure 483831DEST_PATH_IMAGE086
其中,
Figure 309704DEST_PATH_IMAGE010
表示向量的拼接操作。
S103,对所述对象语句中的每个词分别预测对应的扁平化标记信息。
需要指出的是,在本发明中,把扁平化标记预测作为前期辅助任务,并将识别的结果用作额外的输入信息,非常有利于后期嵌套命名实体的识别。
具体的,在步骤S103中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:
S1031,基于所述融合上下文信息的词
Figure 550193DEST_PATH_IMAGE003
的语义向量表示
Figure 579460DEST_PATH_IMAGE025
,使用softmax层计算词
Figure 930807DEST_PATH_IMAGE003
对应的扁平化标记的概率分布
Figure 611187DEST_PATH_IMAGE087
Figure 897943DEST_PATH_IMAGE027
其中,
Figure 804719DEST_PATH_IMAGE028
Figure 818811DEST_PATH_IMAGE029
为扁平化标记预测层的参数;
S1032,别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;
Figure 760222DEST_PATH_IMAGE088
其中,
Figure 214950DEST_PATH_IMAGE089
为扁平化标记预测任务的代价函数,
Figure 343443DEST_PATH_IMAGE032
为词
Figure 161226DEST_PATH_IMAGE003
属于第
Figure 691565DEST_PATH_IMAGE033
个扁平化标记的真实概率,
Figure 54544DEST_PATH_IMAGE090
为概率分布
Figure 60546DEST_PATH_IMAGE026
中对应于第
Figure 291807DEST_PATH_IMAGE033
个扁平化标记的预测概率,
Figure 817598DEST_PATH_IMAGE035
Figure 476112DEST_PATH_IMAGE036
为扁平化标记的数量,
Figure 969410DEST_PATH_IMAGE033
表示扁平化标记的序号。
需要补充说明的是,概率分布
Figure 4363DEST_PATH_IMAGE037
中最大的概率对应的标记即为预测的扁平化标记。
S104,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示。
在步骤S104中,具体包括如下步骤:
S1041,根据概率分布
Figure 650239DEST_PATH_IMAGE087
中的预测概率与扁平化标记的向量表示进行加权求和,以得到词
Figure 479654DEST_PATH_IMAGE003
的扁平化标记信息的向量表示
Figure 460249DEST_PATH_IMAGE038
Figure 298892DEST_PATH_IMAGE003
的扁平化标记信息的向量表示
Figure 530765DEST_PATH_IMAGE038
表示为:
Figure 796662DEST_PATH_IMAGE091
其中,
Figure 998973DEST_PATH_IMAGE043
为第
Figure 641307DEST_PATH_IMAGE044
个扁平化标记的向量表示。需要说明的是,扁平化标记的向量表示
Figure 996196DEST_PATH_IMAGE092
是扁平化标记增强的嵌套命名实体识别模型的参数,在模型训练的过程中随机初始化并进行优化。可以理解的,在本实施例中,为了降低错误预测的扁平化标记带来的影响,本发明中不是简单地将预测的扁平化标记作为下一层的输入,而是基于预测的概率分布进行加权求和,获得预测的扁平化标记信息的向量表示。
S1042,将所述融合上下文信息的词
Figure 432994DEST_PATH_IMAGE003
的语义向量表示
Figure 122601DEST_PATH_IMAGE025
与所述词
Figure 303046DEST_PATH_IMAGE003
的扁平化标记信息的向量表示
Figure 512442DEST_PATH_IMAGE038
进行拼接,以得到词
Figure 120141DEST_PATH_IMAGE003
的融合标记信息的编码层的输入
Figure 297044DEST_PATH_IMAGE045
Figure 15602DEST_PATH_IMAGE003
的融合标记信息的编码层的输入
Figure 345083DEST_PATH_IMAGE093
表示为:
Figure 123683DEST_PATH_IMAGE094
其中,
Figure 53462DEST_PATH_IMAGE047
表示向量的拼接操作。
S1043,根据所述词
Figure 575710DEST_PATH_IMAGE003
的融合标记信息的编码层的输入
Figure 756768DEST_PATH_IMAGE093
,通过双向长短时记忆网络构建融合标记信息的编码层以得到融合标记信息的词
Figure 706270DEST_PATH_IMAGE003
的语义向量表示
Figure 592186DEST_PATH_IMAGE095
具体的,融合标记信息的词
Figure 918125DEST_PATH_IMAGE003
的语义向量表示
Figure 956619DEST_PATH_IMAGE095
的计算过程为:
Figure 342601DEST_PATH_IMAGE049
其中,
Figure 856759DEST_PATH_IMAGE050
表示融合上文标记信息的词
Figure 845444DEST_PATH_IMAGE003
的语义向量表示,
Figure 863079DEST_PATH_IMAGE051
表示融合下文标记信息的词
Figure 295328DEST_PATH_IMAGE003
的语义向量表示,
Figure 31203DEST_PATH_IMAGE096
为融合上文标记信息的词
Figure 823578DEST_PATH_IMAGE097
的语义向量表示,
Figure 695719DEST_PATH_IMAGE098
为融合下文标记信息的词
Figure 564449DEST_PATH_IMAGE099
的语义向量表示,
Figure 787620DEST_PATH_IMAGE056
均表示长短时记忆网络。
S105,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布。
具体的,包括如下步骤:
S1051,基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重。
S1052,根据所述文本片段中间词的权重计算得到文本片段
Figure 118108DEST_PATH_IMAGE100
的语义向量表示
Figure 110334DEST_PATH_IMAGE101
文本片段
Figure 881457DEST_PATH_IMAGE102
的语义向量表示
Figure 326345DEST_PATH_IMAGE103
的计算过程为:
Figure 460523DEST_PATH_IMAGE104
其中,
Figure 572835DEST_PATH_IMAGE105
为融合标记信息的首词
Figure 252209DEST_PATH_IMAGE106
的语义向量表示,
Figure 449972DEST_PATH_IMAGE107
为融合标记信息的尾词
Figure 122262DEST_PATH_IMAGE065
的语义向量表示,
Figure 89081DEST_PATH_IMAGE066
为基于首词
Figure 939357DEST_PATH_IMAGE106
计算的中间词的语义向量表示,
Figure 624416DEST_PATH_IMAGE108
为基于首词
Figure 241342DEST_PATH_IMAGE106
计算的中间词
Figure 187301DEST_PATH_IMAGE109
的权重,
Figure 598691DEST_PATH_IMAGE110
为基于尾词
Figure 380833DEST_PATH_IMAGE111
计算的文本片段中间词的语义向量表示,
Figure 270292DEST_PATH_IMAGE112
为基于尾词
Figure 336337DEST_PATH_IMAGE113
计算的中间词
Figure 918628DEST_PATH_IMAGE114
的权重,
Figure 919558DEST_PATH_IMAGE115
为融合标记信息的中间词
Figure 612707DEST_PATH_IMAGE116
的语义向量表示,
Figure 798838DEST_PATH_IMAGE117
为融合标记信息的中间词
Figure 552030DEST_PATH_IMAGE118
的语义向量表,
Figure 308765DEST_PATH_IMAGE078
为向量的转置操作,
Figure 540026DEST_PATH_IMAGE119
表示向量的拼接操作。
S1053,基于所述文本片段的语义向量表示,通过softmax层计算所述文本片段为实体或不为实体对应的概率分布
Figure 315084DEST_PATH_IMAGE120
,其中,
Figure 239178DEST_PATH_IMAGE060
也表示对象语句中词的序号。
Figure 483208DEST_PATH_IMAGE121
其中,
Figure 518160DEST_PATH_IMAGE122
Figure 147725DEST_PATH_IMAGE123
softmax层的参数,
Figure 242720DEST_PATH_IMAGE124
为文本片段
Figure 974047DEST_PATH_IMAGE125
的语义向量表示,概率分布
Figure 547110DEST_PATH_IMAGE126
中的概率
Figure 437706DEST_PATH_IMAGE127
是文本片段
Figure 828236DEST_PATH_IMAGE125
属于第
Figure 905913DEST_PATH_IMAGE128
个实体类别的预测概率,
Figure 420684DEST_PATH_IMAGE129
为实体类别的数量;概率分布
Figure 900207DEST_PATH_IMAGE130
中的最后一个概率
Figure 461638DEST_PATH_IMAGE131
为文本片段
Figure 292191DEST_PATH_IMAGE132
不是实体的预测概率。
在扁平化标记增强的嵌套命名实体识别模型的训练过程中,将常用于多分类任务的交叉熵代价函数作为嵌套命名实体识别的代价函数,具体如下:
Figure 82423DEST_PATH_IMAGE133
其中,
Figure 682032DEST_PATH_IMAGE134
为文本片段
Figure 414365DEST_PATH_IMAGE135
属于第
Figure 466634DEST_PATH_IMAGE136
个实体类别的真实概率,
Figure 60558DEST_PATH_IMAGE137
为文本片段
Figure 514673DEST_PATH_IMAGE138
属于第
Figure 417907DEST_PATH_IMAGE139
个实体类别的预测概率,
Figure 957473DEST_PATH_IMAGE140
为文本片段
Figure 355087DEST_PATH_IMAGE141
不是实体的真实概率,
Figure 663709DEST_PATH_IMAGE142
为文本片段
Figure 737844DEST_PATH_IMAGE143
不是实体的预测概率。
最后,基于多任务学习同时训练扁平化标记预测任务和嵌套实体识别任务,以达到相互促进的目的。为此,定义模型训练的总代价函数如下:
Figure 499126DEST_PATH_IMAGE144
其中,
Figure 90645DEST_PATH_IMAGE145
为总代价函数,
Figure 149647DEST_PATH_IMAGE146
为扁平化标记预测任务的代价函数,
Figure 270050DEST_PATH_IMAGE147
为嵌套命名实体识别的代价函数,
Figure DEST_PATH_IMAGE148
为调节两种代价函数重要程度的系数。
本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,首先将对象语句中的每个词转换为词对应的语义向量表示;学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;然后对每个词分别预测对应的扁平化标记信息,将融合上下文信息的词的语义向量表示与扁平化标记信息作为输入,以得到融合扁平化标记信息的词的语义向量表示;最后对句子中的所有文本片段进行分类,以确定文本片段为某种实体或不为实体的概率分布。本发明提出的一种扁平化标记增强的嵌套命名实体识别方法,充分利用内层实体的信息和文本片段的信息,可有效减少可能出现的错误传播问题。
请参阅图5,本发明还提出一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,所述系统包括:
输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;
上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;
融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为某种实体或不为实体对应的概率分布。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种扁平化标记增强的嵌套命名实体识别方法,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其特征在于,所述方法包括如下步骤:
步骤一,将对象语句中的每个词转换为词对应的语义向量表示;
步骤二,进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
步骤三,对所述对象语句中的每个词分别预测对应的扁平化标记信息;
步骤四,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
步骤五,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布;
在所述步骤四中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法包括如下步骤:
根据概率分布
Figure 757079DEST_PATH_IMAGE001
中的预测概率与扁平化标记的向量表示进行加权求和,以得到词
Figure 305741DEST_PATH_IMAGE002
的扁平化标记信息的向量表示
Figure 486186DEST_PATH_IMAGE003
将融合上下文信息的词
Figure 820216DEST_PATH_IMAGE002
的语义向量表示
Figure 693494DEST_PATH_IMAGE004
与所述词
Figure 995031DEST_PATH_IMAGE005
的扁平化标记信息的向量表示
Figure 713588DEST_PATH_IMAGE006
进行拼接,以得到词
Figure 167703DEST_PATH_IMAGE002
的融合标记信息的编码层的输入
Figure 946303DEST_PATH_IMAGE007
根据所述词
Figure 735137DEST_PATH_IMAGE002
的融合标记信息的编码层的输入
Figure 257385DEST_PATH_IMAGE007
,通过双向长短时记忆网络构建融合标记信息的编码层以得到融合标记信息的词
Figure 831586DEST_PATH_IMAGE005
的语义向量表示
Figure 781087DEST_PATH_IMAGE008
2.根据权利要求1所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,在所述步骤一中,所述词对应的语义向量表示包括静态词向量、动态词向量以及词性向量;
其中,包含
Figure 791637DEST_PATH_IMAGE009
个词的对象语句
Figure 117577DEST_PATH_IMAGE010
,词
Figure 280705DEST_PATH_IMAGE002
对应的语义向量表示为:
Figure 401107DEST_PATH_IMAGE011
其中,
Figure 180845DEST_PATH_IMAGE012
为词
Figure 294163DEST_PATH_IMAGE002
对应的语义向量表示,
Figure 311798DEST_PATH_IMAGE013
为词
Figure 868681DEST_PATH_IMAGE014
对应的静态词向量,
Figure 604556DEST_PATH_IMAGE015
为词
Figure 255986DEST_PATH_IMAGE016
对应的动态词向量,
Figure 659285DEST_PATH_IMAGE017
为词
Figure 387070DEST_PATH_IMAGE002
的词性向量,
Figure 344662DEST_PATH_IMAGE018
为向量的拼接操作,
Figure 71221DEST_PATH_IMAGE019
表示对象语句中词的序号。
3.根据权利要求2所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,在所述步骤二中,所述融合上下文信息的词的语义向量表示的生成方法包括如下步骤:
根据词的语义向量表示
Figure 63448DEST_PATH_IMAGE020
,使用长短时记忆网络
Figure 696555DEST_PATH_IMAGE021
从左至右建模以得到融合上文信息的词
Figure 407022DEST_PATH_IMAGE014
的语义向量表示
Figure 665833DEST_PATH_IMAGE022
,使用长短时记忆网络
Figure 512567DEST_PATH_IMAGE023
从右至左建模以得到融合下文信息的词
Figure 582154DEST_PATH_IMAGE014
的语义向量表示
Figure 514338DEST_PATH_IMAGE024
拼接所述融合上文信息的词
Figure 576841DEST_PATH_IMAGE014
的语义向量表示
Figure 543660DEST_PATH_IMAGE022
与所述融合下文信息的词
Figure 518569DEST_PATH_IMAGE014
的语义向量表示
Figure 203628DEST_PATH_IMAGE025
,以得到融合上下文信息的词
Figure 804243DEST_PATH_IMAGE014
的语义向量表示
Figure 891147DEST_PATH_IMAGE026
4.根据权利要求3所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,在所述步骤二中,存在如下关系式:
Figure 36958DEST_PATH_IMAGE027
其中,
Figure 943734DEST_PATH_IMAGE022
为融合上文信息的词
Figure 98772DEST_PATH_IMAGE014
的语义向量表示,
Figure 23871DEST_PATH_IMAGE028
为融合下文信息的词
Figure 606162DEST_PATH_IMAGE014
的语义向量表示,
Figure 235DEST_PATH_IMAGE029
为融合上文信息的词
Figure 693384DEST_PATH_IMAGE030
的语义向量表示,
Figure 738569DEST_PATH_IMAGE031
为融合下文信息的词
Figure 757341DEST_PATH_IMAGE032
的语义向量表示。
5.根据权利要求3所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,在所述步骤三中,对所述对象语句中的每个词分别预测对应的扁平化标记信息的方法包括如下步骤:
基于所述融合上下文信息的词
Figure 373130DEST_PATH_IMAGE002
的语义向量表示
Figure 869971DEST_PATH_IMAGE033
,使用softmax层计算词
Figure 769662DEST_PATH_IMAGE002
对应的扁平化标记的概率分布
Figure 959335DEST_PATH_IMAGE001
Figure 328000DEST_PATH_IMAGE034
其中,
Figure 362952DEST_PATH_IMAGE035
Figure 867882DEST_PATH_IMAGE036
为扁平化标记预测层的参数;
分别预测得到每个词对应的扁平化标记信息,在预测训练时,将多分类任务的交叉熵代价函数作为扁平化标记预测任务的代价函数,其中代价函数表示为;
Figure 212145DEST_PATH_IMAGE037
其中,
Figure 802526DEST_PATH_IMAGE038
为扁平化标记预测任务的代价函数,
Figure 641169DEST_PATH_IMAGE039
为词
Figure 531765DEST_PATH_IMAGE040
属于第
Figure 64507DEST_PATH_IMAGE041
个扁平化标记的真实概率,
Figure 142184DEST_PATH_IMAGE042
为概率分布
Figure 518939DEST_PATH_IMAGE001
中对应于第
Figure 998462DEST_PATH_IMAGE041
个扁平化标记的预测概率,
Figure 684527DEST_PATH_IMAGE043
Figure 249501DEST_PATH_IMAGE044
为扁平化标记的数量,
Figure 695525DEST_PATH_IMAGE041
表示扁平化标记的序号。
6.根据权利要求5所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,在所述步骤四中,词
Figure 295134DEST_PATH_IMAGE045
的扁平化标记信息的向量表示
Figure 902833DEST_PATH_IMAGE046
表示为:
Figure 938791DEST_PATH_IMAGE047
其中,
Figure 922927DEST_PATH_IMAGE048
为第
Figure 377042DEST_PATH_IMAGE049
个扁平化标记的向量表示;
Figure 155643DEST_PATH_IMAGE002
的融合标记信息的编码层的输入
Figure 678897DEST_PATH_IMAGE050
表示为:
Figure 466724DEST_PATH_IMAGE051
其中,
Figure 775346DEST_PATH_IMAGE018
表示向量的拼接操作;
融合标记信息的词
Figure 724847DEST_PATH_IMAGE052
的语义向量表示
Figure 977DEST_PATH_IMAGE053
的计算过程为:
Figure 61337DEST_PATH_IMAGE054
其中,
Figure 490044DEST_PATH_IMAGE055
表示融合上文标记信息的词
Figure 610447DEST_PATH_IMAGE056
的语义向量表示,
Figure 108293DEST_PATH_IMAGE057
表示融合下文标记信息的词
Figure 237923DEST_PATH_IMAGE058
的语义向量表示,
Figure 255557DEST_PATH_IMAGE059
为融合上文标记信息的词
Figure 546862DEST_PATH_IMAGE060
的语义向量表示,
Figure 532004DEST_PATH_IMAGE061
为融合下文标记信息的词
Figure 465325DEST_PATH_IMAGE062
的语义向量表示,
Figure 337466DEST_PATH_IMAGE063
均表示长短时记忆网络。
7.根据权利要求6所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布的方法包括如下步骤:
基于文本片段的首词与文本片段的尾词计算得到文本片段中间词的权重;
根据所述文本片段中间词的权重计算得到文本片段
Figure 799671DEST_PATH_IMAGE064
的语义向量表示
Figure 272110DEST_PATH_IMAGE065
基于所述文本片段的语义向量表示,通过softmax层计算所述文本片段为实体或不为实体对应的概率分布
Figure 9122DEST_PATH_IMAGE066
,其中,
Figure 1348DEST_PATH_IMAGE067
也表示对象语句中词的序号。
8.根据权利要求7所述的一种扁平化标记增强的嵌套命名实体识别方法,其特征在于,文本片段
Figure 634455DEST_PATH_IMAGE068
的语义向量表示
Figure 344922DEST_PATH_IMAGE069
的计算过程为:
Figure 609593DEST_PATH_IMAGE070
其中,
Figure 456327DEST_PATH_IMAGE053
为融合标记信息的首词
Figure 525914DEST_PATH_IMAGE071
的语义向量表示,
Figure 458098DEST_PATH_IMAGE072
为融合标记信息的尾词
Figure 520601DEST_PATH_IMAGE073
的语义向量表示,
Figure 221840DEST_PATH_IMAGE074
为基于首词
Figure 462329DEST_PATH_IMAGE075
计算的中间词的语义向量表示,
Figure 881809DEST_PATH_IMAGE076
为基于首词
Figure 482423DEST_PATH_IMAGE075
计算的中间词
Figure 303749DEST_PATH_IMAGE077
的权重,
Figure 715139DEST_PATH_IMAGE078
为基于尾词
Figure 621915DEST_PATH_IMAGE079
计算的文本片段中间词的语义向量表示,
Figure 26220DEST_PATH_IMAGE080
为基于尾词
Figure 702052DEST_PATH_IMAGE081
计算的中间词
Figure 284343DEST_PATH_IMAGE082
的权重,
Figure 678415DEST_PATH_IMAGE083
为融合标记信息的中间词
Figure 620832DEST_PATH_IMAGE084
的语义向量表示,
Figure 416750DEST_PATH_IMAGE085
为融合标记信息的中间词
Figure 904363DEST_PATH_IMAGE086
的语义向量表示,
Figure 785732DEST_PATH_IMAGE087
为向量的转置操作,
Figure 531840DEST_PATH_IMAGE018
表示向量的拼接操作。
9.一种扁平化标记增强的嵌套命名实体识别系统,其中,扁平化标记为基于内层实体优先原则,联合BIO标记及实体类别,为已标注嵌套命名实体的句子中的每个词赋予对应的扁平化标记,其特征在于,所述系统包括:
输入层,用于将对象语句中的每个词转换为词对应的语义向量表示;
上下文编码层,用于进一步学习每个词在上下文中的表示,以得到融合上下文信息的词的语义向量表示;
扁平化标记预测层,用于对所述对象语句中的每个词分别预测对应的扁平化标记信息;
融合标记信息的编码层,用于将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示;
嵌套命名实体识别层,用于基于所述融合扁平化标记信息的词的语义向量表示,对所述对象语句中的所有文本片段进行分类,以确定得到所述文本片段为实体或不为实体对应的概率分布;
其中,在所述融合标记信息的编码层中,将所述融合上下文信息的词的语义向量表示与所述扁平化标记信息作为输入,学习得到融合扁平化标记信息的词的语义向量表示的方法具体包括:
根据概率分布
Figure 182264DEST_PATH_IMAGE088
中的预测概率与扁平化标记的向量表示进行加权求和,以得到词
Figure 106357DEST_PATH_IMAGE005
的扁平化标记信息的向量表示
Figure 209443DEST_PATH_IMAGE006
将融合上下文信息的词
Figure 759242DEST_PATH_IMAGE005
的语义向量表示
Figure 264172DEST_PATH_IMAGE004
与所述词
Figure 624746DEST_PATH_IMAGE005
的扁平化标记信息的向量表示
Figure 949549DEST_PATH_IMAGE006
进行拼接,以得到词
Figure 37459DEST_PATH_IMAGE005
的融合标记信息的编码层的输入
Figure 662476DEST_PATH_IMAGE007
根据所述词
Figure 928372DEST_PATH_IMAGE005
的融合标记信息的编码层的输入
Figure 271628DEST_PATH_IMAGE007
,通过双向长短时记忆网络构建融合标记信息的编码层以得到融合标记信息的词
Figure 891791DEST_PATH_IMAGE005
的语义向量表示
Figure 105735DEST_PATH_IMAGE008
CN202210098582.6A 2022-01-27 2022-01-27 一种扁平化标记增强的嵌套命名实体识别方法与系统 Active CN114118093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210098582.6A CN114118093B (zh) 2022-01-27 2022-01-27 一种扁平化标记增强的嵌套命名实体识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210098582.6A CN114118093B (zh) 2022-01-27 2022-01-27 一种扁平化标记增强的嵌套命名实体识别方法与系统

Publications (2)

Publication Number Publication Date
CN114118093A CN114118093A (zh) 2022-03-01
CN114118093B true CN114118093B (zh) 2022-04-15

Family

ID=80361352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210098582.6A Active CN114118093B (zh) 2022-01-27 2022-01-27 一种扁平化标记增强的嵌套命名实体识别方法与系统

Country Status (1)

Country Link
CN (1) CN114118093B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN110110335A (zh) * 2019-05-09 2019-08-09 南京大学 一种基于层叠模型的命名实体识别方法
CN112446216A (zh) * 2021-02-01 2021-03-05 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置
WO2022005188A1 (en) * 2020-07-01 2022-01-06 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087086B2 (en) * 2019-07-12 2021-08-10 Adp, Llc Named-entity recognition through sequence of classification using a deep learning neural network
CN111126068A (zh) * 2019-12-25 2020-05-08 中电云脑(天津)科技有限公司 一种中文命名实体识别方法和装置及电子设备
CN113688631B (zh) * 2021-07-05 2023-06-09 广州大学 一种嵌套命名实体识别方法、系统、计算机和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN110110335A (zh) * 2019-05-09 2019-08-09 南京大学 一种基于层叠模型的命名实体识别方法
WO2022005188A1 (en) * 2020-07-01 2022-01-06 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium
CN112446216A (zh) * 2021-02-01 2021-03-05 华东交通大学 一种融合中心词信息的嵌套命名实体识别方法与装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Research on Named Entity Recognition Technology of Knowledge Graph for Flipped Classroom;Yifeng Li;《IEEE》;20210628;全文 *
基于深度学习的命名实体识别综述;邓依依;《中文信息学报》;20210915;第35卷(第09期);第30-45页 *
基于边界的嵌套命名实体识别方法研究;武乐飞;《万方学位论文库》;20201027;全文 *

Also Published As

Publication number Publication date
CN114118093A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN112084337B (zh) 文本分类模型的训练方法、文本分类方法及设备
WO2022178919A1 (zh) 一种基于噪声标签学习的纳税人行业分类方法
CN112528676B (zh) 文档级别的事件论元抽取方法
Joty et al. Combining intra-and multi-sentential rhetorical parsing for document-level discourse analysis
CN109325228B (zh) 英文事件触发词抽取方法和系统
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN109815336B (zh) 一种文本聚合方法及系统
Chen et al. Robust coreference resolution and entity linking on dialogues: Character identification on tv show transcripts
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN114297394B (zh) 对文本中的事件论元进行抽取的方法和电子设备
CN113221539B (zh) 一种集成句法信息的嵌套命名实体识别方法与系统
CN111428504B (zh) 一种事件抽取方法和装置
CN112507039A (zh) 基于外部知识嵌入的文本理解方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
WO2023124647A1 (zh) 一种纪要确定方法及其相关设备
CN113268985B (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及系统
CN114647730A (zh) 一种融合图注意力和图卷积网络的事件检测方法
CN114118093B (zh) 一种扁平化标记增强的嵌套命名实体识别方法与系统
CN113010635A (zh) 一种文本纠错方法及装置
CN116910196A (zh) 一种基于多任务学习的校园安全突发事件抽取方法
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
US11727062B1 (en) Systems and methods for generating vector space embeddings from a multi-format document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant