CN112446216A - 一种融合中心词信息的嵌套命名实体识别方法与装置 - Google Patents

一种融合中心词信息的嵌套命名实体识别方法与装置 Download PDF

Info

Publication number
CN112446216A
CN112446216A CN202110134242.XA CN202110134242A CN112446216A CN 112446216 A CN112446216 A CN 112446216A CN 202110134242 A CN202110134242 A CN 202110134242A CN 112446216 A CN112446216 A CN 112446216A
Authority
CN
China
Prior art keywords
word
entity
information
prediction
prediction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110134242.XA
Other languages
English (en)
Other versions
CN112446216B (zh
Inventor
邬昌兴
李家祯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202110134242.XA priority Critical patent/CN112446216B/zh
Publication of CN112446216A publication Critical patent/CN112446216A/zh
Application granted granted Critical
Publication of CN112446216B publication Critical patent/CN112446216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种融合中心词信息的嵌套命名实体识别方法与装置,该方法包括:以标注了嵌套实体信息以及中心词信息的语句作为训练语句;构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于训练语句中的每个词在上下文中的向量表示,分别进行预测;根据首词预测结果以及尾词预测结果,筛选出候选文本片段集;构建中心词增强的类别预测神经网络模型,以候选文本片段集以及中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示及在上下文中的向量表示,进而计算得到类别预测结果。本发明提出的实体识别方法,具有更好的识别性能,满足了应用需求。

Description

一种融合中心词信息的嵌套命名实体识别方法与装置
技术领域
本发明涉及计算机语句识别技术领域,特别涉及一种融合中心词信息的嵌套命名实体识别方法与装置。
背景技术
命名实体识别是自然语言处理中的一项基本任务,其目的是从无结构的文本中找出代表实体的文本片段并判断其类别。例如,人物、机构以及地点等。命名实体识别性能的提高有利于众多下游的自然语言处理应用。例如,事件抽取、关系抽取和机器阅读理解等。
现有研究工作主要是针对无嵌套的命名实体识别,即认为文本中的每个词只能属于某个实体,各实体的文本片段之间没有重叠。针对无嵌套的命名实体识别提出的序列标注模型,虽然能够取得较好的识别性能,但这类方法给文本中的每个词预测一个类别标记,不能用于嵌套命名实体的识别。如图1所示,在句子“交通 大学 校长 发言”中,存在一个机构实体“交通 大学”和一个人物实体“交通 大学 校长”,且机构实体嵌套在人物实体中。据统计,常用数据集ACE2004和ACE 2005中嵌套的命名实体占比分别约为43%和37%,占比非常高。因此,嵌套命名实体识别方法是当前研究的热点之一。
现有的嵌套命名实体识别方法可大致分为以下两大类:(1)层叠多个序列标注模型的方法。此类方法通常使用第一个序列标注模型识别最低层的实体,层叠多个序列标注模型用于对应层实体的识别,前一层识别的结果用于当前层模型的输入。上述层叠的方法能够利用嵌套实体之间的依赖关系,但性能受错误传播的影响比较大,计算效率也较低。(2)文本片段分类的方法。这类方法把嵌套命名实体识别分解成两个子任务。首先,使用一个神经网络预测句子中的词是否是实体的首词(开始词)或尾词(结尾词),找出可能是实体的文本片段,称为边界检测神经网络;然后,使用另一个神经网络预测文本片段对应的实体类别,称为类别预测神经网络。然而,现有的方法都忽略了中心词信息的利用,识别性能较差。
发明内容
鉴于上述状况,有必要解决现有的方法都忽略了中心词信息的利用,识别性能较差的问题。
本发明实施例提供了一种融合中心词信息的嵌套命名实体识别方法,其中,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型实现,所述方法包括如下步骤:
步骤一:以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
步骤二:构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
步骤三:根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
步骤四:构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
本发明提出的融合中心词信息的嵌套命名实体识别方法,利用中心词信息,通过构建基于多任务学习的边界检测神经网络模型和中心词增强的类别预测神经网络模型实现;首先通过基于多任务学习的边界检测神经网络模型中的输入层,在基于预训练好的词向量矩阵的基础上,将训练语句中的每个词转换成对应的词向量表示;然后通过上下文信息建模层,基于双向长短时记忆网络,根据上述的词向量表示,计算得到每个词在上下文中的向量表示;再通过多个不同的分类子层进行预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果,并根据首词预测结果以及尾词预测结果确定可能为实体的候选文本片段集;进一步的,通过类别预测神经网络模型,基于双向长短时记忆网络以及注意力机制,计算每个候选文本片段在上下文中的向量表示,基于卷积神经网络计算每个候选文本片段本身的向量表示,最后计算得到每个候选文本片段对应的类别预测结果。其中,类别预测结果用于表明候选文本片段
Figure 451549DEST_PATH_IMAGE001
属于何种命名实体或不是命名实体的概率,从而对命名实体进行良好的预测,以提高识别效果。
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤一中,所述训练语句表示为:
Figure 820214DEST_PATH_IMAGE002
其中,
Figure 58428DEST_PATH_IMAGE003
表示所述训练语句中所包含的词的数量;
对所述训练语句中的第
Figure 94517DEST_PATH_IMAGE004
个词,其作为首词时对应的真实标记表示为
Figure 455092DEST_PATH_IMAGE005
,作为尾词时对应的真实标记表示为
Figure 842211DEST_PATH_IMAGE006
,作为实体中心词时对应的真实标记表示为
Figure 382651DEST_PATH_IMAGE007
对所述训练语句中的文本片段
Figure 742088DEST_PATH_IMAGE008
,其作为真实实体类别标记时表示为
Figure 7985DEST_PATH_IMAGE009
Figure 85662DEST_PATH_IMAGE010
为所述训练语句中的第
Figure 524734DEST_PATH_IMAGE011
个词。
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤二中,所述首词预测结果表示为:
Figure 4256DEST_PATH_IMAGE012
所述尾词预测结果表示为:
Figure 175475DEST_PATH_IMAGE013
所述中心词预测结果表示为:
Figure 740448DEST_PATH_IMAGE014
其中,
Figure 655315DEST_PATH_IMAGE015
为第
Figure 51661DEST_PATH_IMAGE016
个词在上下文中的向量表示,
Figure 157895DEST_PATH_IMAGE017
为sigmoid函数,
Figure 944585DEST_PATH_IMAGE018
为首词预测任务中分类子层的参数,
Figure 663143DEST_PATH_IMAGE019
为第
Figure 117258DEST_PATH_IMAGE020
个词是实体首词的概率,
Figure 692596DEST_PATH_IMAGE021
为第
Figure 232161DEST_PATH_IMAGE020
个词不是实体首词的概率;
Figure 488830DEST_PATH_IMAGE022
为尾词预测任务中分类子层的参数,
Figure 797452DEST_PATH_IMAGE023
为第
Figure 746953DEST_PATH_IMAGE024
个词是实体尾词的概率,
Figure 39394DEST_PATH_IMAGE025
为第
Figure 129448DEST_PATH_IMAGE026
个词不是实体尾词的概率;
Figure 823734DEST_PATH_IMAGE027
为中心词预测结果,softmax为计算概率的归一化指数函数,
Figure 147400DEST_PATH_IMAGE028
为用于中心词预测任务的分类子层的参数,向量
Figure 458295DEST_PATH_IMAGE029
中的第
Figure 322346DEST_PATH_IMAGE030
维为第
Figure 74401DEST_PATH_IMAGE031
个词是实体类别
Figure 631285DEST_PATH_IMAGE032
的中心词的概率,最后1维为该词不是实体中心词的概率,
Figure 367159DEST_PATH_IMAGE033
指代的为
Figure 566060DEST_PATH_IMAGE034
维的实数向量。
所述融合中心词信息的嵌套命名实体识别方法,其中,所述基于多任务学习的边界检测神经网络模型训练时的总代价函数为:
Figure 703780DEST_PATH_IMAGE035
其中,首词预测任务对应的代价函数表示为:
Figure 664520DEST_PATH_IMAGE036
尾词预测任务对应的代价函数表示为:
Figure 622112DEST_PATH_IMAGE037
中心词预测任务对应的代价函数为:
Figure 93545DEST_PATH_IMAGE038
其中,
Figure 882509DEST_PATH_IMAGE039
为训练语句中词的个数,
Figure 515616DEST_PATH_IMAGE040
Figure 960504DEST_PATH_IMAGE041
分别为
Figure 970048DEST_PATH_IMAGE042
Figure 613519DEST_PATH_IMAGE043
的第
Figure 683106DEST_PATH_IMAGE044
个分量,
Figure 615290DEST_PATH_IMAGE045
是一个
Figure 661481DEST_PATH_IMAGE046
维的一维有效编码向量;
Figure 628300DEST_PATH_IMAGE048
取值为1或0,当第
Figure 399947DEST_PATH_IMAGE049
个词为实体首词时取值为1,当第
Figure 85006DEST_PATH_IMAGE050
个词不是实体首词时取值为0;
Figure 436353DEST_PATH_IMAGE051
取值为1或0,当第
Figure 992099DEST_PATH_IMAGE052
个词为实体尾词时取值为1,当第
Figure 137910DEST_PATH_IMAGE024
个词不是实体尾词时取值为0。
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤三中:
对于所述训练语句中任意的从第
Figure 841424DEST_PATH_IMAGE053
个词到第
Figure 730882DEST_PATH_IMAGE054
个词的文本片段
Figure 672294DEST_PATH_IMAGE055
,若满足以下条件,则加入到实体的侯选文本片段集
Figure 785743DEST_PATH_IMAGE056
中:
Figure 678351DEST_PATH_IMAGE057
其中,
Figure 902658DEST_PATH_IMAGE058
是一个人为指定的阈值,
Figure 901838DEST_PATH_IMAGE059
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤四中,以所述候选文本片段集以及所述中心词预测结果作为输入表示为:
Figure 655031DEST_PATH_IMAGE060
其中,
Figure 270820DEST_PATH_IMAGE061
为所述训练语句中第
Figure 564398DEST_PATH_IMAGE062
个词的词向量,
Figure 214822DEST_PATH_IMAGE063
表示向量的拼接操作,
Figure 138916DEST_PATH_IMAGE064
指代的是
Figure 242001DEST_PATH_IMAGE065
维的实数向量,
Figure 775488DEST_PATH_IMAGE066
为词向量的维度。
所述融合中心词信息的嵌套命名实体识别方法,其中,在所述步骤四中,所述候选文本片段对应的类别预测结果表示为:
Figure 280419DEST_PATH_IMAGE067
其中,
Figure 172152DEST_PATH_IMAGE068
为侯选文本片段本身的向量表示,
Figure 762533DEST_PATH_IMAGE069
为侯选文本片段在上下文中的向量表示,
Figure 335597DEST_PATH_IMAGE070
Figure 960613DEST_PATH_IMAGE071
为网络参数,
Figure 23247DEST_PATH_IMAGE072
为候选文本片段对应的类别预测结果,
Figure 100925DEST_PATH_IMAGE073
表示实体的类别数。
所述融合中心词信息的嵌套命名实体识别方法,其中,所述训练语句中每个词在上下文中的向量表示为
Figure 212100DEST_PATH_IMAGE074
Figure 691623DEST_PATH_IMAGE075
其中,
Figure 626956DEST_PATH_IMAGE076
表示从左至右建模词的上文信息,
Figure 988667DEST_PATH_IMAGE077
表示从右至左建模词的下文信息,
Figure 169112DEST_PATH_IMAGE078
以及
Figure 768721DEST_PATH_IMAGE079
用于计算个方向的信息以用作词在上下文中的表示,
Figure 110841DEST_PATH_IMAGE080
表示两个向量的拼装操作,
Figure 897531DEST_PATH_IMAGE078
Figure 678405DEST_PATH_IMAGE081
中的起始向量
Figure 866941DEST_PATH_IMAGE082
Figure 176700DEST_PATH_IMAGE083
可初始化为零向量,
Figure 716265DEST_PATH_IMAGE084
Figure 238514DEST_PATH_IMAGE085
分别为融合了上文信息的第
Figure 78294DEST_PATH_IMAGE086
个词的向量表示和融合了下文信息的第
Figure 729593DEST_PATH_IMAGE087
个词的向量表示,LSTM为长短时记忆网络。
所述融合中心词信息的嵌套命名实体识别方法,其中,
Figure 756455DEST_PATH_IMAGE088
的具体计算公式如下:
Figure 347973DEST_PATH_IMAGE089
其中,
Figure 42259DEST_PATH_IMAGE090
为网络参数,
Figure 693821DEST_PATH_IMAGE091
为sigmoid函数;
Figure 411241DEST_PATH_IMAGE092
分别为输入门、遗忘门和输出门,用于控制信息的流动;
Figure 9712DEST_PATH_IMAGE093
为第
Figure 680210DEST_PATH_IMAGE094
个词对应的记忆状态,
Figure 345415DEST_PATH_IMAGE095
为第
Figure 284552DEST_PATH_IMAGE096
个词在上下文中的表示
Figure 952294DEST_PATH_IMAGE097
与第
Figure 886752DEST_PATH_IMAGE098
个词的向量表示
Figure 348957DEST_PATH_IMAGE099
融合后的结果,
Figure 306549DEST_PATH_IMAGE100
为第
Figure 574719DEST_PATH_IMAGE101
个词在上下文中的表示。
本发明提出一种融合中心词信息的嵌套命名实体识别装置,其特征在于,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型,所述装置包括:
第一处理模块,用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
第一计算模块,用于构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
第二处理模块,用于根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
第二计算模块,用于构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明中嵌套命名实体的示意图;
图2为本发明提出的融合中心词信息的嵌套命名实体识别方法的流程图;
图3为本发明中基于多任务学习的边界检测神经网络模型的结构示意图;
图4为本发明中中心词增强的类别预测神经网络模型的结构示意图;
图5为本发明提出的融合中心词信息的嵌套命名实体识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
中心词指的是一个实体或短语中最核心的词,这个词在很大程度上能反映该实体的类型或者短语的语义。对于嵌套命名实体而言,虽然实体之间可能存在嵌套的结构,但嵌套的多个实体的中心词绝大部分情况下是不相同的。例如,“大学”是机构实体“交通 大学”的中心词,“校长”是人物实体“交通 大学 校长”的中心词。
其中,融入了中心词信息对嵌套命名实体识别是非常有用的。具体的,一方面,融入中心词信息有利于实体边界的预测,从而更准确地找出可能是实体的文本片段。例如,汉语中实体的中心词通常位于一个实体的尾部。另一方面,融入中心词信息有利于实体类别的预测。例如,在预测“交通 大学”文本片段的类别时,通过给中心词“大学”相对高的权重、词“交通”相对低的权重,可以较容易地识别出其该文本片段为机构实体。
基于以上分析,本发明提出一种融合中心词信息的嵌套命名实体识别方法,通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及融合了中心词信息的中心词增强的类别预测神经网络模型进行实现。
在本发明中,首先定义三个分类任务。第一个是首词预测任务,是一个2分类问题,即针对句子中的每一个词,预测其是否是实体首词的概率。第二个是尾词预测任务,也是一个2分类问题,即针对句子中的每一个词,预测其是否是实体尾词的概率。第三个是中心词预测任务,是一个
Figure 770208DEST_PATH_IMAGE102
分类问题,其中
Figure 934473DEST_PATH_IMAGE103
是预定义的实体的类别数,即针对句子中的每一个词,预测其分别是实体类别1的中心词、实体类别2的中心词、……、实体类别
Figure 409055DEST_PATH_IMAGE104
的中心词以及不是中心词对应的概率。
需要说明的是,首词预测任务、尾词预测任务以及中心词预测任务虽然是三个不同的分类任务,但它们之间具有较强的相关性。具体表现在以下两个方面:(1)在确定了实体首尾词的情况下,中心词预测显然会更容易;(2)在明确了中心词的情况下,首尾词的预测也会更准确。大量的研究证实:在多个具有相关性的任务之间共享信息,可以达到相互促进、共同提高的目的。
如图3所示,融合中心词信息的基于多任务学习的边界检测神经网络模型包括三个神经网络层:(1)输入层,其作用是把句子中的每个词转换成语义向量表示,
Figure 949758DEST_PATH_IMAGE105
为句子中第
Figure 796491DEST_PATH_IMAGE094
个词的向量表示;(2)上下文信息建模层,其作用是把词所在句子的上下文信息融入到词的语义向量表示中,也即学习词在上下文中的表示
Figure 69340DEST_PATH_IMAGE106
;(3)分类层,其作用是使用三个不同的分类子层,基于词在上下文中的表示分别计算首词预测、尾词预测以及中心词预测三个任务的结果
Figure 1524DEST_PATH_IMAGE107
(图3中以第3个词为例进行说明)。
本质上,融合中心词信息的边界检测神经网络是一个多任务学习模型。其中,用于三个分类任务的神经网络共享输入层和上下文信息建模层,而使用不同的分类层。在多任务学习策略下,通过同时训练这三个分类任务,可以基于共享的参数在它们之间实现信息的共享,从而达到共同提高预测性能的目的。
下面详细介绍使用的输入层、上下文信息建模层以及分类层的使用方法。请参阅图1至图4,对于本发明提出的融合中心词信息的嵌套命名实体识别方法,所述方法包括如下步骤:
S101,以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词。
在本步骤中,训练语句表示为:
Figure 611497DEST_PATH_IMAGE108
其中,
Figure 312737DEST_PATH_IMAGE109
表示训练语句中所包含的词的数量。
对所述训练语句中的第
Figure 287646DEST_PATH_IMAGE110
个词,其作为首词时对应的真实标记表示为
Figure 707126DEST_PATH_IMAGE111
,作为尾词时对应的真实标记表示为
Figure 580446DEST_PATH_IMAGE112
,作为实体中心词时对应的真实标记表示为
Figure 198509DEST_PATH_IMAGE113
对所述训练语句中的文本片段
Figure 609899DEST_PATH_IMAGE114
,其作为真实实体类别标记时表示为
Figure 516675DEST_PATH_IMAGE115
Figure 406133DEST_PATH_IMAGE116
为所述训练语句中的第
Figure 81965DEST_PATH_IMAGE117
个词。
S102,构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果。
输入层将第
Figure 460994DEST_PATH_IMAGE119
个词对应的词向量表示为:
Figure 58329DEST_PATH_IMAGE120
其中,
Figure 548216DEST_PATH_IMAGE121
为预训练好的词向量矩阵,
Figure 344134DEST_PATH_IMAGE122
表示一个
Figure 64703DEST_PATH_IMAGE123
行、
Figure 946071DEST_PATH_IMAGE124
列的二维实数矩阵,
Figure 239649DEST_PATH_IMAGE125
表示词表中词的个数,
Figure 624494DEST_PATH_IMAGE126
表示词向量的维度,
Figure 814167DEST_PATH_IMAGE127
中的每一行对应一个词。词向量矩阵
Figure 448411DEST_PATH_IMAGE128
可以使用Word2VecGloVe等开源工具在大规模无标注的文本上训练获得。
上下文信息建模层基于双向长短时记忆网络(Bi-directional Long Short Term Memory,BiLSTM)将词所在训练语句的上下文信息融入词的语义向量表示中。BiLSTM是一种常用于句子中上下文信息建模的神经网络,在众多自然语言处理任务上取得了较好的效果。具体地,给定词向量表示
Figure 686625DEST_PATH_IMAGE129
,双向长短时记忆网络
Figure 457135DEST_PATH_IMAGE130
按如下公式计算词在上下文中的向量表示
Figure 348868DEST_PATH_IMAGE131
其中,每个词在上下文中的向量表示为
Figure 939249DEST_PATH_IMAGE132
,计算公式为:
Figure 309050DEST_PATH_IMAGE133
其中,
Figure 432602DEST_PATH_IMAGE076
表示从左至右建模词的上文信息,
Figure 901760DEST_PATH_IMAGE134
表示从右至左建模词的下文信息,
Figure 979438DEST_PATH_IMAGE135
以及
Figure 152930DEST_PATH_IMAGE136
用于计算个方向的信息以用作词在上下文中的表示,
Figure 632453DEST_PATH_IMAGE063
表示两个向量的拼装操作,
Figure 803671DEST_PATH_IMAGE137
Figure 368645DEST_PATH_IMAGE138
中的起始向量
Figure 549091DEST_PATH_IMAGE139
Figure 679858DEST_PATH_IMAGE140
可初始化为零向量。
Figure 786092DEST_PATH_IMAGE135
的具体计算公式如下:
Figure 572782DEST_PATH_IMAGE141
其中,
Figure 556919DEST_PATH_IMAGE142
为网络参数,
Figure 745454DEST_PATH_IMAGE143
为sigmoid函数;
Figure 320792DEST_PATH_IMAGE144
分别为输入门、遗忘门和输出门,用于控制信息的流动;
Figure 860358DEST_PATH_IMAGE145
为第
Figure 117027DEST_PATH_IMAGE118
个词对应的记忆状态,
Figure 425649DEST_PATH_IMAGE146
为融合了上文信息(句子中当前词前面的词)的第
Figure 171888DEST_PATH_IMAGE086
个词的向量表示,
Figure 198750DEST_PATH_IMAGE095
为第
Figure 757645DEST_PATH_IMAGE147
个词在上下文中的表示
Figure 655194DEST_PATH_IMAGE148
与第
Figure 837913DEST_PATH_IMAGE149
个词的向量表示
Figure 86492DEST_PATH_IMAGE150
融合后的结果。
Figure 481701DEST_PATH_IMAGE151
的计算公式与
Figure 968177DEST_PATH_IMAGE152
类似,只是网络参数的值不同,在此不再赘述。
在分类层中,使用三个独立的分类子层分别用于首词预测任务、尾词预测任务以及中心词预测任务。其中,首词预测任务和尾词预测任务均为2分类任务,分别按如下公式计算预测结果:
其中,首词预测结果表示为:
Figure 259481DEST_PATH_IMAGE154
尾词预测结果表示为:
Figure 526515DEST_PATH_IMAGE155
其中,
Figure 459836DEST_PATH_IMAGE156
为sigmoid函数,
Figure 128714DEST_PATH_IMAGE157
为首词预测任务中分类子层的参数,
Figure 558296DEST_PATH_IMAGE158
为第
Figure 515888DEST_PATH_IMAGE159
个词是实体首词的概率,
Figure 721741DEST_PATH_IMAGE160
为第
Figure 713968DEST_PATH_IMAGE052
个词不是实体首词的概率;
Figure 409392DEST_PATH_IMAGE161
为尾词预测任务中分类子层的参数,
Figure 119859DEST_PATH_IMAGE162
为第
Figure 598245DEST_PATH_IMAGE024
个词是实体尾词的概率,
Figure 710557DEST_PATH_IMAGE163
为第
Figure 311303DEST_PATH_IMAGE164
个词不是实体尾词的概率。
中心词预测结果表示为:
Figure 509066DEST_PATH_IMAGE165
其中,
Figure 555257DEST_PATH_IMAGE166
为中心词预测结果,softmax为用于计算概率的归一化指数函数,
Figure 256497DEST_PATH_IMAGE167
为用于中心词预测任务的分类子层的参数,向量
Figure 496985DEST_PATH_IMAGE168
中的第
Figure 916465DEST_PATH_IMAGE032
维为第
Figure 64550DEST_PATH_IMAGE050
个词是实体类别
Figure 885875DEST_PATH_IMAGE169
的中心词的概率,最后1维为该词不是实体中心词的概率,
Figure 31686DEST_PATH_IMAGE170
指代的为
Figure 938462DEST_PATH_IMAGE171
维的实数向量。
在基于多任务学习的边界检测神经网络模型的训练过程中,对于人工标注好的嵌套命名实体(也即标注了实体的首尾词)及中心词的训练语料中的每个句子
Figure 827921DEST_PATH_IMAGE172
。定义首词预测任务的交叉熵代价函数(二分类)表示如下:
Figure 566070DEST_PATH_IMAGE174
其中,
Figure 646896DEST_PATH_IMAGE003
为句子中词的个数,
Figure 572126DEST_PATH_IMAGE175
为第
Figure 265276DEST_PATH_IMAGE159
个词对应于首词预测任务的真实标记,取值为1表示该词是某个实体的首词,取值为0表示该词不是任何实体的首词,
Figure 998877DEST_PATH_IMAGE176
为首词预测结果。
与此同时,定义尾词预测任务的交叉熵代价函数(二分类)表示如下:
Figure 283228DEST_PATH_IMAGE178
其中,
Figure 164596DEST_PATH_IMAGE179
为句子中词的个数,
Figure 192595DEST_PATH_IMAGE180
为第
Figure 108598DEST_PATH_IMAGE181
个词对应于尾词预测任务的真实标记,取值为1表示该词是某个实体的尾词,取值为0表示该词不是任何实体的尾词,
Figure 767113DEST_PATH_IMAGE182
为尾词预测结果。
进一步的,定义中心词预测任务的交叉熵代价函数(多分类)表示如下:
Figure 666936DEST_PATH_IMAGE184
其中,
Figure 669264DEST_PATH_IMAGE185
为句子中词的个数,
Figure 174195DEST_PATH_IMAGE186
为第
Figure 3611DEST_PATH_IMAGE031
个词对应于中心词预测任务的真实标记向量,
Figure 656309DEST_PATH_IMAGE187
为中心词预测的结果向量,
Figure 494952DEST_PATH_IMAGE188
Figure 854389DEST_PATH_IMAGE189
分别为
Figure 854706DEST_PATH_IMAGE190
Figure 932384DEST_PATH_IMAGE191
的第
Figure 371455DEST_PATH_IMAGE192
个分量;
Figure 850978DEST_PATH_IMAGE193
是一个
Figure 786311DEST_PATH_IMAGE194
维的一维有效编码向量,即如果第
Figure 85705DEST_PATH_IMAGE159
个词是某一实体类别的中心词,那么
Figure 266151DEST_PATH_IMAGE193
中对应于该类别的那一维为1,其他维均为0;如果第
Figure 600180DEST_PATH_IMAGE086
个词不是中心词,则
Figure 4617DEST_PATH_IMAGE186
中最后一维为1,其他维均为0。
基于多任务学习策略同时训练上述三个任务,即可以在它们之间实现信息共享,从而达到同时提高性能的目的。因此,总体的代价函数定义为上述三个分类任务的代价函数之和:
Figure 56886DEST_PATH_IMAGE196
在此需要指出的是,训练好的边界检测神经网络模型可用于计算语句中每个词对应的首词预测结果、尾词预测结果以及中心词预测结果。
S103,根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集。
基于首词预测的结果和尾词预测的结果,可以确定训练语句中可能是命名实体的文本片段。具体地,对于训练语句中任意的从第
Figure 509864DEST_PATH_IMAGE197
个词到第
Figure 963979DEST_PATH_IMAGE198
个词(
Figure 539317DEST_PATH_IMAGE199
)的文本片段
Figure 78883DEST_PATH_IMAGE200
。如果满足以下条件,则加入到实体的侯选文本片段集
Figure 132290DEST_PATH_IMAGE201
中:
Figure 939446DEST_PATH_IMAGE203
其中,
Figure 92210DEST_PATH_IMAGE204
是一个人为指定的阈值,
Figure 384651DEST_PATH_IMAGE205
为第
Figure 710590DEST_PATH_IMAGE004
个词是实体首词的概率,
Figure 404877DEST_PATH_IMAGE206
为第
Figure 994121DEST_PATH_IMAGE207
个词是实体尾词的概率。
S104,构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
在本步骤中,需要指出的是,在类别预测神经网络中融合中心词信息主要有以下三个方面的作用:(1)对仅包含非嵌套命名实体的文本片段而言,如果知道中心词信息,则实体类别的识别会更加容易。例如,在文本片段“交通 大学”中,唯一的中心词“大学”非常明确地表明了该实体应为机构实体;若文本片段中的每个词是中心词的概率都比较小,则该文本片段是命名实体的可能性就比较小。(2)对包含多个嵌套的命名实体的文本片段而言,虽然含有多个中心词,但知道这些中心词信息有利于模型学到嵌套的多种命名实体之间的关系。例如,在文本“交通 大学 校长”中,“大学”是机构实体的中心词,“校长”是人物实体的中心词,那么模型就可能学到“机构实体通常与人物实体嵌套在一起”这样一种实体之间的关系。(3)在建模上下文信息或文本片段本身的信息时,可以给实体中心词分配更高的权重。
进一步的,在确定了句子中实体的侯选文本片段集
Figure 508279DEST_PATH_IMAGE208
后,本发明设计了一种融合中心词信息的的类别预测神经网络模型,用于预测
Figure 169068DEST_PATH_IMAGE201
中的侯选文本片段属于哪种命名实体或是否为命名实体。
如图4所示,融合中心词信息的类别预测神经网络建模了以下三个方面的信息:(1)基于双向长短时记忆网络
Figure 186702DEST_PATH_IMAGE209
和注意力机制学习侯选文本片段在上下文中的向量表示
Figure 242121DEST_PATH_IMAGE210
(图4中以文本片段
Figure 712416DEST_PATH_IMAGE211
为例),因为上下文信息对实体类别的识别是有帮助的;(2)基于卷积神经网络(Convolutional Neural Network,CNN)和注意力机制学习侯选文本片段本身的表示
Figure 380158DEST_PATH_IMAGE212
,因为相当一部分情况下,仅根据命名实体本身就能准确地推导出其类别,加入上下文信息反而可能造成干扰;(3)在上述网络
Figure 252299DEST_PATH_IMAGE213
Figure 776821DEST_PATH_IMAGE214
的输入中,不仅包括常用的词向量信息
Figure 999992DEST_PATH_IMAGE215
,还包括中心词的预测结果向量
Figure 940266DEST_PATH_IMAGE187
。其中,
Figure 932493DEST_PATH_IMAGE216
给出了句子中的第
Figure 627917DEST_PATH_IMAGE217
个词属于何种实体的中心词的概率以及不是中心词的概率。
下面对融合中心词信息的类别预测神经网络模型的工作原理进行详细介绍。
在步骤S104中,候选文本片段在上下文中的向量表示的计算方法包括:
(1)基于双向长短时记忆网络,学习候选文本片段中的词在上下文中的向量表示。
其输入是该文本片段所在的整个句子,对应的计算公式如下:
Figure 72805DEST_PATH_IMAGE218
其中,
Figure 580884DEST_PATH_IMAGE219
是句子中第
Figure 427617DEST_PATH_IMAGE220
个词的词向量,
Figure 231625DEST_PATH_IMAGE221
指代的是
Figure 226126DEST_PATH_IMAGE065
维的实数向量,
Figure 773782DEST_PATH_IMAGE222
为词向量的维度,
Figure 475022DEST_PATH_IMAGE223
为对应的中心词预测结果,
Figure 449931DEST_PATH_IMAGE033
指代的为
Figure 134990DEST_PATH_IMAGE034
维的实数向量,
Figure 283075DEST_PATH_IMAGE224
表示向量的拼接操作;
Figure 635559DEST_PATH_IMAGE225
表示从左至右建模词的上文信息,
Figure 46949DEST_PATH_IMAGE226
表示从右至左建模词的下文信息,
Figure 655522DEST_PATH_IMAGE227
为句子中第
Figure 76139DEST_PATH_IMAGE228
个词在上下文中的向量表示。
Figure 17550DEST_PATH_IMAGE229
Figure 599841DEST_PATH_IMAGE230
的计算分别与上一节中
Figure 525072DEST_PATH_IMAGE151
Figure 218222DEST_PATH_IMAGE137
的计算类似,在此不再赘述。
(2)基于注意力机制,根据所述候选文本片段中的词在上下文中的向量表示计算候选文本片段在上下文中的向量表示。
使用注意力机制计算候选文本片段
Figure 545298DEST_PATH_IMAGE231
在上下文中的向量表示,对应的计算公式如下:
Figure 767332DEST_PATH_IMAGE233
其中,
Figure 648700DEST_PATH_IMAGE234
表示由向量
Figure 378496DEST_PATH_IMAGE235
构成的二维矩阵,矩阵的第一列为
Figure 763341DEST_PATH_IMAGE236
,最后一列为
Figure 687435DEST_PATH_IMAGE237
Figure 852837DEST_PATH_IMAGE238
为注意力机制中的参数矩阵,
Figure 887789DEST_PATH_IMAGE239
为计算得到的权重向量,
Figure 127141DEST_PATH_IMAGE240
Figure 222136DEST_PATH_IMAGE241
中对应于片段
Figure 78096DEST_PATH_IMAGE242
Figure 651160DEST_PATH_IMAGE243
Figure 72914DEST_PATH_IMAGE244
个词的权重值;加权求和的结果向量
Figure 837345DEST_PATH_IMAGE245
即为融合了中心词信息的侯选文本片段
Figure 649444DEST_PATH_IMAGE246
在上下文中的向量表示。
进一步的,候选文本片段对应的本身信息表示的计算方法包括:
(1)基于卷积神经网络,学习候选文本片段中的词本身的向量表示。
在本步骤中,使用一个
Figure 291778DEST_PATH_IMAGE247
学习侯选文本片段
Figure 771300DEST_PATH_IMAGE248
本身的表示,即仅仅建模文本片段内部的信息,而不考虑上下文信息。考虑到命名实体中包含的词的个数通常较少,该
Figure 4836DEST_PATH_IMAGE249
使用窗口为2的卷积核,其计算公式如下:
Figure 569809DEST_PATH_IMAGE250
其中,
Figure 219096DEST_PATH_IMAGE251
为代表卷积核的参数矩阵,用于建模候选文本片段中相邻的两个词的信息,
Figure 615443DEST_PATH_IMAGE252
为偏置项参数,
Figure 223142DEST_PATH_IMAGE253
为候选文本片段中的第
Figure 806570DEST_PATH_IMAGE228
个词本身的向量表示。
(2)基于注意力机制,根据所述候选文本片段中的词本身的向量表示计算得到候选文本片段本身的向量表示。
在本步骤中,使用注意力机制计算候选文本片段
Figure 250362DEST_PATH_IMAGE055
本身的表示,如下所示:
Figure 235635DEST_PATH_IMAGE255
其中,
Figure 279815DEST_PATH_IMAGE256
表示由向量
Figure 819381DEST_PATH_IMAGE257
构成的二维矩阵,矩阵的第一列为
Figure 872787DEST_PATH_IMAGE258
,最后一列为
Figure 181409DEST_PATH_IMAGE259
Figure 334173DEST_PATH_IMAGE260
为注意力机制中的参数矩阵,
Figure 95455DEST_PATH_IMAGE261
为计算得到的权重向量,
Figure 218132DEST_PATH_IMAGE263
Figure 381260DEST_PATH_IMAGE264
中对应片段
Figure 198DEST_PATH_IMAGE265
Figure 248777DEST_PATH_IMAGE266
Figure 112828DEST_PATH_IMAGE267
个词的权重值;加权求和的结果向量
Figure 130462DEST_PATH_IMAGE268
即为融合了中心词信息的侯选文本片段
Figure 484083DEST_PATH_IMAGE269
本身的向量表示。
拼接融合了中心词信息的侯选文本片段
Figure 219958DEST_PATH_IMAGE270
在上下文中的向量表示
Figure 356541DEST_PATH_IMAGE271
和其本身的向量表示
Figure 494261DEST_PATH_IMAGE272
用于分类,如下所示:
类别预测结果的计算公式为:
Figure 18784DEST_PATH_IMAGE273
其中,
Figure 976375DEST_PATH_IMAGE274
Figure 946343DEST_PATH_IMAGE275
为网络参数,
Figure 672991DEST_PATH_IMAGE072
为类别预测结果,
Figure 306097DEST_PATH_IMAGE073
表示实体的类别数。
在此需要补充说明的是,在融合中心词信息的类别预测神经网络模型的训练过程中,给定
Figure DEST_PATH_IMAGE276
中所有侯选文本片段的真实类别标记向量,定义其代价函数为:
Figure DEST_PATH_IMAGE278
其中,真实类别标记
Figure 485406DEST_PATH_IMAGE279
是一个
Figure 291688DEST_PATH_IMAGE194
维的一维有效编码向量,
Figure 341684DEST_PATH_IMAGE280
为类别预测的结果向量,
Figure 942429DEST_PATH_IMAGE281
Figure DEST_PATH_IMAGE282
分别是
Figure 107569DEST_PATH_IMAGE283
Figure 451963DEST_PATH_IMAGE284
的第
Figure 418782DEST_PATH_IMAGE285
个分量。可以理解的,基于此处的代价函数,训练好的类别预测神经网络模型可以用于计算候选文本片段对应的类别预测结果。
请参阅图5,对于本发明提出的一种融合中心词信息的嵌套命名实体识别装置,其中,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型,所述装置包括依次连接的第一处理模块11、第一计算模块12、第二处理模块13以及第二计算模块14;
第一处理模块11,用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
第一计算模块12,用于构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
第二处理模块13,用于根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
第二计算模块14,用于构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
本发明提出的融合中心词信息的嵌套命名实体识别方法,通过融合中心词信息的边界检测神经网络模型以及类别预测神经网络模型实现,首先通过边界检测神经网络模型中的输入层,在基于预训练好的词向量矩阵的基础上,将训练语句中的每个词转换成对应的词向量表示;然后通过上下文信息建模层,基于双向长短时记忆网络,根据上述的词向量表示,计算得到每个词在上下文中的向量表示;再通过多个分类子层进行预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果,并根据首词预测结果以及尾词预测结果确定实体的候选文本片段集;进一步的,通过类别预测神经网络模型,基于双向长短时记忆网络以及注意力机制,计算每个候选文本片段在上下文中的向量表示,基于卷积神经网络计算每个候选文本片段本身的向量表示,最后计算得到每个候选文本片段对应的类别预测结果。其中,类别预测结果用于表明候选文本片段属于何种命名实体或不是命名实体的概率,从而对命名实体进行良好的预测,以提高识别效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种融合中心词信息的嵌套命名实体识别方法,其特征在于,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型实现,所述方法包括如下步骤:
步骤一:以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
步骤二:构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
步骤三:根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
步骤四:构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
2.根据权利要求1所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,在所述步骤一中,所述训练语句表示为:
Figure 939330DEST_PATH_IMAGE001
其中,
Figure 624389DEST_PATH_IMAGE002
表示所述训练语句中所包含的词的数量;
对所述训练语句中的第
Figure 975736DEST_PATH_IMAGE003
个词,其作为首词时对应的真实标记表示为
Figure 593799DEST_PATH_IMAGE005
,作为尾词时对应的真实标记表示为
Figure 739610DEST_PATH_IMAGE006
,作为实体中心词时对应的真实标记表示为
Figure 144921DEST_PATH_IMAGE008
对所述训练语句中的文本片段
Figure 299959DEST_PATH_IMAGE009
,其作为真实实体类别标记时表示为
Figure 710212DEST_PATH_IMAGE010
Figure 292503DEST_PATH_IMAGE011
为所述训练语句中的第
Figure 483313DEST_PATH_IMAGE003
个词。
3.根据权利要求2所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,在所述步骤二中,所述首词预测结果表示为:
Figure 176462DEST_PATH_IMAGE012
所述尾词预测结果表示为:
Figure 706801DEST_PATH_IMAGE013
所述中心词预测结果表示为:
Figure 459993DEST_PATH_IMAGE015
其中,
Figure 75782DEST_PATH_IMAGE016
为第
Figure 71158DEST_PATH_IMAGE017
个词在上下文中的向量表示,
Figure 518320DEST_PATH_IMAGE018
为sigmoid函数,
Figure 442413DEST_PATH_IMAGE019
为首词预测任务中分类子层的参数,
Figure 811078DEST_PATH_IMAGE020
为第
Figure 580451DEST_PATH_IMAGE021
个词是实体首词的概率,
Figure 85381DEST_PATH_IMAGE022
为第
Figure 180376DEST_PATH_IMAGE021
个词不是实体首词的概率;
Figure 567495DEST_PATH_IMAGE023
为尾词预测任务中分类子层的参数,
Figure 406138DEST_PATH_IMAGE024
为第
Figure 765575DEST_PATH_IMAGE025
个词是实体尾词的概率,
Figure 530007DEST_PATH_IMAGE026
为第
Figure 404422DEST_PATH_IMAGE025
个词不是实体尾词的概率;
Figure 781177DEST_PATH_IMAGE027
为中心词预测结果,softmax为计算概率的归一化指数函数,
Figure 995120DEST_PATH_IMAGE028
为用于中心词预测任务的分类子层的参数,向量
Figure 431918DEST_PATH_IMAGE029
中的第
Figure 996891DEST_PATH_IMAGE030
维为第
Figure 974075DEST_PATH_IMAGE031
个词是实体类别
Figure 573683DEST_PATH_IMAGE032
的中心词的概率,最后1维为该词不是实体中心词的概率,
Figure 915803DEST_PATH_IMAGE033
指代的为
Figure 702493DEST_PATH_IMAGE034
维的实数向量。
4.根据权利要求3所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,所述基于多任务学习的边界检测神经网络模型训练时的总代价函数为:
Figure 483367DEST_PATH_IMAGE035
其中,首词预测任务对应的代价函数表示为:
Figure 436018DEST_PATH_IMAGE036
尾词预测任务对应的代价函数表示为:
Figure 214618DEST_PATH_IMAGE037
中心词预测任务对应的代价函数为:
Figure 223025DEST_PATH_IMAGE038
其中,
Figure 745273DEST_PATH_IMAGE039
为训练语句中词的个数,
Figure 850633DEST_PATH_IMAGE040
Figure 800134DEST_PATH_IMAGE041
分别为
Figure 561417DEST_PATH_IMAGE042
Figure 621777DEST_PATH_IMAGE043
的第
Figure 50484DEST_PATH_IMAGE044
个分量,
Figure 967624DEST_PATH_IMAGE045
是一个
Figure 714738DEST_PATH_IMAGE046
维的一维有效编码向量;
Figure 313210DEST_PATH_IMAGE047
取值为1或0,当第
Figure 596424DEST_PATH_IMAGE048
个词为实体首词时取值为1,当第
Figure 684465DEST_PATH_IMAGE017
个词不是实体首词时取值为0;
Figure 420340DEST_PATH_IMAGE049
取值为1或0,当第
Figure 88082DEST_PATH_IMAGE050
个词为实体尾词时取值为1,当第
Figure 960223DEST_PATH_IMAGE051
个词不是实体尾词时取值为0。
5.根据权利要求4所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,在所述步骤三中:
对于所述训练语句中任意的从第
Figure 422428DEST_PATH_IMAGE052
个词到第
Figure 442337DEST_PATH_IMAGE053
个词的文本片段
Figure 913769DEST_PATH_IMAGE054
,若满足以下条件,则加入到实体的侯选文本片段集
Figure 138952DEST_PATH_IMAGE055
中:
Figure 772059DEST_PATH_IMAGE056
其中,
Figure 279264DEST_PATH_IMAGE057
是一个人为指定的阈值,
Figure 288808DEST_PATH_IMAGE058
6.根据权利要求5所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,在所述步骤四中,以所述候选文本片段集以及所述中心词预测结果作为输入表示为:
Figure 135541DEST_PATH_IMAGE059
其中,
Figure 939549DEST_PATH_IMAGE060
为所述训练语句中第
Figure 871733DEST_PATH_IMAGE061
个词的词向量,
Figure 481706DEST_PATH_IMAGE062
表示向量的拼接操作,
Figure 182946DEST_PATH_IMAGE063
指代的是
Figure 157855DEST_PATH_IMAGE064
维的实数向量,
Figure 75870DEST_PATH_IMAGE065
为词向量的维度。
7.根据权利要求5所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,在所述步骤四中,所述候选文本片段对应的类别预测结果表示为:
Figure 427217DEST_PATH_IMAGE066
其中,
Figure 45280DEST_PATH_IMAGE067
为侯选文本片段本身的向量表示,
Figure 456670DEST_PATH_IMAGE068
为侯选文本片段在上下文中的向量表示,
Figure 97867DEST_PATH_IMAGE069
Figure 252905DEST_PATH_IMAGE070
为网络参数,
Figure 725474DEST_PATH_IMAGE071
为候选文本片段对应的类别预测结果,
Figure 307765DEST_PATH_IMAGE072
表示实体的类别数。
8.根据权利要求3所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,所述训练语句中每个词在上下文中的向量表示为
Figure 701838DEST_PATH_IMAGE073
Figure 129408DEST_PATH_IMAGE074
其中,
Figure 423861DEST_PATH_IMAGE075
表示从左至右建模词的上文信息,
Figure 708212DEST_PATH_IMAGE076
表示从右至左建模词的下文信息,
Figure 589580DEST_PATH_IMAGE077
以及
Figure 820841DEST_PATH_IMAGE078
用于计算个方向的信息以用作词在上下文中的表示,
Figure 471265DEST_PATH_IMAGE079
表示两个向量的拼装操作,
Figure 395359DEST_PATH_IMAGE080
Figure 295182DEST_PATH_IMAGE078
中的起始向量
Figure 330134DEST_PATH_IMAGE081
Figure 835065DEST_PATH_IMAGE082
可初始化为零向量,
Figure 930060DEST_PATH_IMAGE083
Figure 317179DEST_PATH_IMAGE084
分别为融合了上文信息的第
Figure 654357DEST_PATH_IMAGE085
个词的向量表示和融合了下文信息的第
Figure 279373DEST_PATH_IMAGE085
个词的向量表示,LSTM为长短时记忆网络。
9.根据权利要求8所述的融合中心词信息的嵌套命名实体识别方法,其特征在于,
Figure 279690DEST_PATH_IMAGE086
的具体计算公式如下:
Figure 357368DEST_PATH_IMAGE087
其中,
Figure 530860DEST_PATH_IMAGE088
为网络参数,
Figure 10383DEST_PATH_IMAGE089
为sigmoid函数;
Figure 181601DEST_PATH_IMAGE090
分别为输入门、遗忘门和输出门,用于控制信息的流动;
Figure 746575DEST_PATH_IMAGE091
为第
Figure 723758DEST_PATH_IMAGE092
个词对应的记忆状态,
Figure 57787DEST_PATH_IMAGE093
为第
Figure 164021DEST_PATH_IMAGE094
个词在上下文中的表示
Figure 950712DEST_PATH_IMAGE095
与第
Figure 731586DEST_PATH_IMAGE096
个词的向量表示
Figure 920122DEST_PATH_IMAGE097
融合后的结果,
Figure 698722DEST_PATH_IMAGE098
为第
Figure 972709DEST_PATH_IMAGE099
个词在上下文中的表示。
10.一种融合中心词信息的嵌套命名实体识别装置,其特征在于,用于通过融合了中心词信息的基于多任务学习的边界检测神经网络模型以及中心词增强的类别预测神经网络模型,所述装置包括:
第一处理模块,用于以标注了嵌套实体信息以及中心词信息的语句作为训练语句,其中所述嵌套实体信息为所述训练语句中各实体的位置及类别,所述中心词信息为各所述实体中的核心词;
第一计算模块,用于构建基于多任务学习的边界检测神经网络模型,引入中心词预测任务作为辅助任务,基于所述训练语句中的每个词在上下文中的向量表示,分别进行首词预测、尾词预测以及中心词预测以分别得到首词预测结果、尾词预测结果以及中心词预测结果;
第二处理模块,用于根据所述首词预测结果以及所述尾词预测结果,以筛选出存在实体概率的候选文本片段集;
第二计算模块,用于构建中心词增强的类别预测神经网络模型,以所述候选文本片段集以及所述中心词预测结果作为输入,计算得到每个候选文本片段本身的向量表示以及每个所述候选文本片段在上下文中的向量表示,进而计算得到每个所述候选文本片段对应的类别预测结果。
CN202110134242.XA 2021-02-01 2021-02-01 一种融合中心词信息的嵌套命名实体识别方法与装置 Active CN112446216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110134242.XA CN112446216B (zh) 2021-02-01 2021-02-01 一种融合中心词信息的嵌套命名实体识别方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110134242.XA CN112446216B (zh) 2021-02-01 2021-02-01 一种融合中心词信息的嵌套命名实体识别方法与装置

Publications (2)

Publication Number Publication Date
CN112446216A true CN112446216A (zh) 2021-03-05
CN112446216B CN112446216B (zh) 2021-05-04

Family

ID=74739492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110134242.XA Active CN112446216B (zh) 2021-02-01 2021-02-01 一种融合中心词信息的嵌套命名实体识别方法与装置

Country Status (1)

Country Link
CN (1) CN112446216B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221539A (zh) * 2021-07-08 2021-08-06 华东交通大学 一种集成句法信息的嵌套命名实体识别方法与系统
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN113722436A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 文本信息提取方法、装置、计算机设备及存储介质
CN114118093A (zh) * 2022-01-27 2022-03-01 华东交通大学 一种扁平化标记增强的嵌套命名实体识别方法与系统
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法
CN114372470A (zh) * 2022-03-22 2022-04-19 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN115879474A (zh) * 2023-02-14 2023-03-31 华东交通大学 基于机器阅读理解的故障嵌套命名实体识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
CN109977229A (zh) * 2019-03-27 2019-07-05 中南大学 一种基于通用语言特征的生物医学命名实体识别方法
CN110472237A (zh) * 2019-07-25 2019-11-19 中国科学院软件研究所 一种基于锚点区域网络的命名实体识别方法和装置
US20200073939A1 (en) * 2018-08-30 2020-03-05 Roman Levchenko Artificial Intelligence Process Automation for Enterprise Business Communication
WO2020068945A1 (en) * 2018-09-26 2020-04-02 Leverton Holding Llc Named entity recognition with convolutional networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133220A (zh) * 2017-06-07 2017-09-05 东南大学 一种地理学科领域命名实体识别方法
US20200073939A1 (en) * 2018-08-30 2020-03-05 Roman Levchenko Artificial Intelligence Process Automation for Enterprise Business Communication
WO2020068945A1 (en) * 2018-09-26 2020-04-02 Leverton Holding Llc Named entity recognition with convolutional networks
CN109977229A (zh) * 2019-03-27 2019-07-05 中南大学 一种基于通用语言特征的生物医学命名实体识别方法
CN110472237A (zh) * 2019-07-25 2019-11-19 中国科学院软件研究所 一种基于锚点区域网络的命名实体识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEIZHI JU .ETC: "A Neural Layered Model for Nested Named Entity Recognition", 《PROCEEDINGS OF NAACL-HLT 2018》 *
丁志远: "基于证据匹配的案件质量评估方法设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221539A (zh) * 2021-07-08 2021-08-06 华东交通大学 一种集成句法信息的嵌套命名实体识别方法与系统
CN113722436A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 文本信息提取方法、装置、计算机设备及存储介质
CN113468333A (zh) * 2021-09-02 2021-10-01 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN113468333B (zh) * 2021-09-02 2021-11-19 华东交通大学 一种融合层次类别信息的事件检测方法与系统
CN114154504A (zh) * 2021-12-06 2022-03-08 重庆邮电大学 一种基于多信息增强的中文命名实体识别算法
CN114118093A (zh) * 2022-01-27 2022-03-01 华东交通大学 一种扁平化标记增强的嵌套命名实体识别方法与系统
CN114118093B (zh) * 2022-01-27 2022-04-15 华东交通大学 一种扁平化标记增强的嵌套命名实体识别方法与系统
CN114611517A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN114611517B (zh) * 2022-03-15 2023-07-25 平安科技(深圳)有限公司 基于深度学习的命名实体识别方法、装置、设备和介质
CN114372470A (zh) * 2022-03-22 2022-04-19 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN114372470B (zh) * 2022-03-22 2022-07-29 中南大学 基于边界检测和提示学习的中文法律文本实体识别方法
CN115879474A (zh) * 2023-02-14 2023-03-31 华东交通大学 基于机器阅读理解的故障嵌套命名实体识别方法

Also Published As

Publication number Publication date
CN112446216B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN112446216B (zh) 一种融合中心词信息的嵌套命名实体识别方法与装置
Teng et al. Context-sensitive lexicon features for neural sentiment analysis
Liu et al. Recognizing implicit discourse relations via repeated reading: Neural networks with multi-level attention
Rei et al. Zero-shot sequence labeling: Transferring knowledge from sentences to tokens
CN111428525B (zh) 隐式篇章关系识别方法、系统及可读存储介质
Ansari et al. Ensemble hybrid learning methods for automated depression detection
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN112926324B (zh) 融合词典与对抗迁移的越南语事件实体识别方法
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
Ramaswamy et al. RecogNet-LSTM+ CNN: a hybrid network with attention mechanism for aspect categorization and sentiment classification
Chakravarthi et al. Offensive language identification in dravidian languages using mpnet and cnn
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
Le et al. Requirement text detection from contract packages to support project definition determination
Liu et al. Semantic neural network ensemble for automated dependency relation extraction from bridge inspection reports
CN111259147B (zh) 基于自适应注意力机制的句子级情感预测方法及系统
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
Obaid et al. Cyberbullying detection and severity determination model
Liu et al. Handling negative samples problems in span-based nested named entity recognition
Wei et al. Sentiment classification of tourism reviews based on visual and textual multifeature fusion
Lee et al. Detecting suicidality with a contextual graph neural network
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
Ouamour et al. A comparative survey of authorship attribution on short Arabic texts
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant