CN111581957A - 一种基于金字塔层级网络的嵌套实体检测方法 - Google Patents

一种基于金字塔层级网络的嵌套实体检测方法 Download PDF

Info

Publication number
CN111581957A
CN111581957A CN202010371816.0A CN202010371816A CN111581957A CN 111581957 A CN111581957 A CN 111581957A CN 202010371816 A CN202010371816 A CN 202010371816A CN 111581957 A CN111581957 A CN 111581957A
Authority
CN
China
Prior art keywords
text
word
named entity
representation
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010371816.0A
Other languages
English (en)
Other versions
CN111581957B (zh
Inventor
寿黎但
王珏
陈珂
陈刚
骆歆远
伍赛
胡天磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010371816.0A priority Critical patent/CN111581957B/zh
Publication of CN111581957A publication Critical patent/CN111581957A/zh
Application granted granted Critical
Publication of CN111581957B publication Critical patent/CN111581957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于金字塔层级网络的嵌套实体检测方法,属于自然语言处理技术领域。该嵌套实体检测方法包括:(一)对单词进行编码获得词向量,将词向量作为仅包含单个单词的文本区域的表示输入第一个解码层;(二)当前解码层对输入的每个文本区域的表示进行命名实体识别,将相邻的两个文本区域的表示被合并为一个新的文本区域的表示,输入到下一解码层,重复该步骤直到次数达到预设的层数或输入文本的长度;(三)对应于上述金字塔层级网络,使用合适的优化方法进行训练;(四)将待检测文本输入训练好的金字塔层级网络,获得命名实体识别结果。本发明的基于金字塔层级网络的嵌套实体检测方法可以解决命名实体识别中存在实体嵌套的问题。

Description

一种基于金字塔层级网络的嵌套实体检测方法
技术领域
本发明属于自然语言处理技术领域,涉及一种嵌套实体检测方法,特别是涉及一种基于金字塔层级网络的嵌套实体检测方法。
背景技术
命名实体识别是信息抽取中的重要任务。给定文本作为输入,命名实体识别的目的是识别出输入文本中对应类别的命名实体。例如给定输入“Former U.N.AmbassadorJeane Kirkpatrick”,我们需要识别出“Jeane Kirkpatrick”是一个人物命名实体。
传统的方法通常将命名实体识别视为一个序列标注问题,即给定输入文本,对文本中的每一个词打上一个特定的标签,然后根据合并词级别的标签来最终得到命名实体。这类方法通常假定每一个词至多只属于一个命名实体。然而,嵌套命名实体在自然语言中分布十分广泛,对于上述例子“Former U.N.Ambassador Jeane Kirkpatrick”,其中“U.N.”为组织命名实体,“Ambassador”为角色命名实体,“Jeane”为姓命名实体,“Kirkpatrick”为名命名实体,“U.N.Ambassador”为角色命名实体,“Former U.N.Ambassador”为角色命名实体,“Jeane Kirkpatrick”为人物命名实体,“Former U.N.Ambassador JeaneKirkpatrick”整个短语为人物命名实体。这些命名实体存在大量的嵌套关系,这类嵌套结构通常揭示了命名实体之间的特殊关系,因此忽视这类的嵌套命名实体会对许多下游任务(如关系抽取、事件抽取等)产生重大的影响。
发明内容
为克服现有的命名实体提及检测方法无法解决嵌套命名实体提及识别的不足,本发明提供了一种基于金字塔层级网络的命名实体识别方法。对于存在嵌套关系的两个不同的命名实体,嵌套的命名实体长度一定大于被嵌套的命名实体长度,否则无法构成嵌套关系。因此在本发明中,嵌套的命名实体根据命名实体的长度被分离到不同的解码层进行解码,先识别长度较短的命名实体,再识别较长的命名实体,从而解决嵌套命名实体识别的问题。本发明所采用的技术方案如下:一种基于金字塔层级网络的嵌套实体检测方法,所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成;所述编码层由词嵌入层和第一长短记忆神经网络LSTM1,所述词嵌入层的输出端与第一长短记忆神经网络LSTM1的输入端连接;所述解码层包括:第二长短记忆神经网络LSTM2、卷积神经网络、全连接神经网络,所述第二长短记忆神经网络LSTM2的输出端与卷积神经网络的输入端连接,卷积神经网络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤:
(1)将文本输入到金字塔层级网络,通过编码层,对输入文本中的单词编码为词向量;
(2)将编码后的词向量作为仅包含单个词的文本区域的表示,并将所述文本区域的表示输入到第一个解码层;
(3)对于输入的文本区域的表示,使用当前解码层的命名实体识别器检测每个文本区域是否为命名实体,若是则输出该文本区域对应的命名实体类型;若不是,则输出该文本区域对应的命名实体类型为空类型;
(4)对于经过当前解码层的命名实体识别器的文本区域的表示,使用当前解码层的卷积神经网络将相邻的文本区域的表示融合为新的文本区域的表示;
(5)将融合后的新的文本区域的表示输入到下一解码层;
(6)重复步骤(3)-(5),直到重复次数达到与预设的解码层数相同或重复次数达到与输入文本的长度相同。
(7)将每次获得的命名实体类型与正确的命名实体类型进行比较,计算损失值,并通过优化方法最小化该损失值,最终获得训练好的用于命名实体识别的金字塔层级网络。
(8)获取待检测文本,将待检测文本输入训练好的用于命名实体识别的金字塔层级网络,获得命名实体识别结果。
进一步地,步骤(1)包括以下子步骤:
(1.1)输入文本包含单词x1,x2,…,xi,…,xT,将文本输入到金字塔层及网络,通过词嵌入层先被映射到一个稠密的词向量
Figure BDA0002478399510000021
其中
Figure BDA0002478399510000022
是词xi的词向量,T是所述文本包含单词的数量;
(1.2)通过第一长短时记忆神经网络层LSTM1来获得编码后的词向量:
Figure BDA0002478399510000023
Figure BDA0002478399510000024
Figure BDA0002478399510000025
其中,hi表示文本中第i个词的上下文相关表示,
Figure BDA0002478399510000026
表示从左到右的LSTM1上下文相关表示,
Figure BDA0002478399510000027
表示从右到左的LSTM1上下文相关表示,[;]表示两个向量的连接。
进一步地,步骤(3)包括以下子步骤:
(3.1)通过层标准化处理输入文本区域的表示,将处理前的文本区域的表示记为x′i,处理后的文本区域的表示记为x″i
(3.2)通过第二长短时记忆神经网络层LSTM2来获取上下文相关的文本区域的表示:
Figure BDA0002478399510000031
Figure BDA0002478399510000032
Figure BDA0002478399510000033
其中,h′i表示第i个文本区域的上下文相关表示,
Figure BDA0002478399510000034
表示从左到右的LSTM2上下文相关表示,
Figure BDA0002478399510000035
表示从右到左的上下文相关表示,[;]表示两个向量的连接。若当前为第n层解码层,则h′i实际表示从第i个单词开始到第i+n-1个单词结束的文本区域;
(3.3)将h′i送入全连接神经网络,该全连接神经网络计算每个文本区域是某一特定类别命名实体的打分logitsi,其中包括有一个空类别表示该文本区域不是任何一个命名实体;
logitsi=Linear(h′i)
其中Linear表示一个全连接神经网络;
(3.4)使用软最大化函数来对各个类别上的打分进行归一化,从而获得每个文本实体是某一特定命名实体类型的概率值:
Figure BDA0002478399510000036
其中xi,…,i+n-1表示从第i个单词开始到第i+n-1个单词结束的文本区域,C表示命名实体类型的集合,|C|表示命名实体类型集合所包含命名实体类型的数量,cj为一个命名实体类型满足cj∈C,e为自然对数函数的底数;
(3.5)选择概率值最高的命名实体类型作为输出的文本区域所对应的命名实体类型;其中包括用空类别表示该文本区域不是任何一个命名实体。
进一步地,步骤(4)中相邻的文本区域的表示满足以下条件:
(1)两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第j1和j2个单词;
(2)i1+1=i2
(3)j1+1=j2
进一步地,步骤(4)中融合为新的文本区域的表示,满足以下条件:
(1)输入的两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第j1和j2个单词;
(2)融合的文本区域的表示所对应的文本区域起始于第i1个单词,结束于第j2个单词。
进一步地,步骤(4)中所述的卷积神经网络的窗口大小为2,通过以下步骤融合两个相邻文本区域的表示:
x′i=CNNw=2(h′i,h′i+1)
其中CNNw=2为窗口大小为2的卷积神经网络;
若当前为第n层解码层,融合前的两个相邻文本区域的表示所对应的文本区域分别起始于第i和i+1个单词,结束于第i+n-1和i+n个单词,融合的新的文本区域的表示所对应的文本区域起始于第i个单词,结束于第i+n个单词。
进一步地,步骤(7)中损失值的计算方法为交叉熵损失函数,所述优化方法为随机梯度下降(SGD)。
与现有技术相比,本发明的有益效果如下:本发明提出了一种全新的用于嵌套实体检测的金字塔层级网络,所述金字塔层级网络的每一层解码层所处理的文本区域为上一层解码层所处理文本区域的相邻两两融合,并且所述金字塔层级网络将不同长度的命名实体在不同解码层输出,因此当前层解码层所预测的命名实体所对应的文本区域可以包含上一层解码层预测的命名实体所对应的文本区域,从而能够解决嵌套命名实体识别的问题。实验表明,该命名实体识别方法能有效识别嵌套命名实体识别,并能显著提高命名实体识别的准确率。
附图说明
图1是本发明采用的金字塔层级网络的整体构架图;
图2是本发明采用所述金字塔层级网络进行命名实体识别的示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提供了一种基于金字塔层级网络的嵌套实体检测方法,如图1所示,所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成;所述编码层由词嵌入层和第一长短记忆神经网络LSTM1,所述词嵌入层的输出端与第一长短记忆神经网络LSTM1的输入端连接;所述解码层包括:第二长短记忆神经网络LSTM2、卷积神经网络、全连接神经网络,所述第二长短记忆神经网络LSTM2的输出端与卷积神经网络的输入端连接,卷积神经网络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤:
(1)将文本输入到金字塔层级网络,通过编码层,对输入文本中的单词编码为词向量;具体包括以下子步骤:
(1.1)输入文本包含单词x1,x2,…,xi,…,xT,将文本输入到金字塔层及网络,通过词嵌入层先被映射到一个稠密的词向量
Figure BDA0002478399510000041
其中
Figure BDA0002478399510000042
是词xi的词向量,T是所述文本包含单词的数量;
(1.2)通过第一长短时记忆神经网络层LSTM1来获得编码后的词向量:
Figure BDA0002478399510000043
Figure BDA0002478399510000051
Figure BDA0002478399510000052
其中,hi表示文本中第i个词的上下文相关表示,
Figure BDA0002478399510000053
表示从左到右的LSTM1上下文相关表示,
Figure BDA0002478399510000054
表示从右到左的LSTM1上下文相关表示,[;]表示两个向量的连接。
(2)将编码后的词向量作为仅包含单个词的文本区域的表示,并将所述文本区域的表示输入到第一个解码层;
(3)对于输入的文本区域的表示,使用当前解码层的命名实体识别器检测每个文本区域是否为命名实体,若是则输出该文本区域对应的命名实体类型;若不是,则输出该文本区域对应的命名实体类型为空类型。具体包括以下子步骤:
(3.1)通过层标准化(LayerNormalization)处理输入文本区域的表示,将处理前的文本区域的表示记为x′i,处理后的文本区域的表示记为x″i;所述层标准化的过程为:
Figure BDA0002478399510000055
Figure BDA0002478399510000056
Figure BDA0002478399510000057
Figure BDA0002478399510000058
其中x′i,k是输入向量;μ是向量x′i的平均值;σ2是向量x′i的方差;K是向量x′i的维度;
Figure BDA0002478399510000059
是经过标准化的向量;λ是仿射变换的权值;β是仿射变换的偏置;
层标准化用于消除多个解码层的输入的均值和方差的差异,从而提高嵌套命名实体检测的准确率;
(3.2)通过第二长短时记忆神经网络层LSTM2来获取上下文相关的文本区域的表示:
Figure BDA00024783995100000510
Figure BDA00024783995100000511
Figure BDA00024783995100000512
其中,h′i表示第i个文本区域的上下文相关表示,
Figure BDA00024783995100000513
表示从左到右的LSTM2上下文相关表示,
Figure BDA00024783995100000514
表示从右到左的上下文相关表示,[;]表示两个向量的连接。若当前为第n层解码层,则h′i实际表示从第i个单词开始到第i+n-1个单词结束的文本区域;
(3.3)将h′i送入全连接神经网络,该全连接神经网络计算每个文本区域是某一特定类别命名实体的打分logitsi,其中包括有一个空类别表示该文本区域不是任何一个命名实体;
logitsi=Linear(h′i)
其中Linear表示一个全连接神经网络;
(3.4)使用软最大化函数(SoftMax)来对各个类别上的打分进行归一化,从而获得每个文本实体是某一特定命名实体类型的概率值:
P(cj|xi,…,i+n-1)=SoftMax(logitsi)j
其中xi,…,i+n-1表示从第i个单词开始到第i+n-1个单词结束的文本区域,cj为一个命名实体类型。
所述软最大化的过程为:
Figure BDA0002478399510000061
其中logitsi为输入向量,K为输入向量logitsi的维度,e为自然对数函数的底数。
(3.5)选择概率值最高的命名实体类型作为输出的文本区域所对应的命名实体类型;其中包括用空类别表示该文本区域不是任何一个命名实体。
(4)对于经过当前解码层的命名实体识别器的文本区域的表示,使用当前解码层的卷积神经网络将相邻的文本区域的表示融合为新的文本区域的表示;
所述相邻的文本区域的表示满足以下条件:
(1)两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第j1和j2个单词;
(2)i1+1=i2
(3)j1+1=j2
所述融合为新的文本区域的表示,满足以下条件:
(1)输入的两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第j1和j2个单词;
(2)融合的文本区域的表示所对应的文本区域起始于第i1个单词,结束于第j2个单词。
所述的卷积神经网络的窗口大小为2,通过以下步骤融合两个相邻文本区域的表示:
x′i=CNNw=2(h′i,h′i+1)
其中CNNw=2为窗口大小为2的卷积神经网络;
若当前为第n层解码层,融合前的两个相邻文本区域的表示所对应的文本区域分别起始于第i和i+1个单词,结束于第i+n-1和i+n个单词,融合的新的文本区域的表示所对应的文本区域起始于第i个单词,结束于第i+n个单词;
所述基于卷积神经网络的融合相邻文本区域的表示的过程,能更加有效地表示融合后的文本区域,优于常见的平均池化、最大池化等方法,具体体现在嵌套实体识别的准确率更高;
所述融合的新的文本区域的表示所对应的文本区域包含了融合前的两个相邻文本区域,因此允许预测嵌套的命名实体,即一个命名实体包含另一个或多个命名实体。
(5)将融合后的新的文本区域的表示输入到下一解码层;
(6)重复步骤(3)-(5),直到重复次数达到与预设的解码层数相同或重复次数达到与输入文本的长度相同。
(7)将每次获得的命名实体类型与正确的命名实体类型进行比较,通过交叉熵损失函数计算损失值,并通过随机梯度下降(SGD)优化方法最小化该损失值,最终获得训练好的用于命名实体识别的金字塔层级网络。
(8)获取待检测文本,将待检测文本输入训练好的用于命名实体识别的金字塔层级网络,获得命名实体识别结果。
实施例
下面以识别“Former U.N.Ambassador JeaneKirkpatrick”中的“U.N.”为组织命名实体,“Ambassador”为角色命名实体,“Jeane”为姓命名实体,“Kirkpatrick”为名命名实体,“U.N.Ambassador”为角色命名实体,“Former U.N.Ambassador”为角色命名实体,“JeaneKirkpatrick”为人物命名实体,“Former U.N.Ambassador JeaneKirkpatrick”为人物命名实体,并参照图2,说明本发明的嵌套实体检测方法。
(1)基于训练语料,训练基于金字塔层级网络的命名实体识别器,该基于金字塔层级网络的命名实体识别器包含一层编码层和多层解码层。以上文的例子为例,输入文本为“FormerU.N.Ambassador JeaneKirkpatrick”,输入文本包含的“U.N.”为组织命名实体,“Ambassador”为角色命名实体,“Jeane”为姓命名实体,“Kirkpatrick”为名命名实体,“U.N.Ambassador”为角色命名实体,“Former U.N.Ambassador”为角色命名实体,“JeaneKirkpatrick”为人物命名实体,“Former U.N.Ambassador Jeane Kirkpatrick”为人物命名实体;
(2)编码层将输入输入文本中的每个词编码为一个固定长度的向量,并将编码后的词向量看做仅包含一个词的文本区域的表示,输入到第一层解码层;
(3)第一层解码层包含一个基于神经网络的命名实体识别器,该命名实体识别器分别判断输入的仅包含一个词的文本区域是否为命名实体,若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“U.N.”为组织命名实体,“Ambassador”为角色命名实体,“Jeane”为姓命名实体,“Kirkpatrick”为名命名实体;
(4)第一层解码器包含一个窗口大小为2的卷积神经网络,用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“Former”、“U.N.”、“Ambassador”、“Jeane”、“Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.”、“U.N.Ambassador”、“Ambassador Jeane”、“JeaneKirkpatrick”的表示。将新的文本区域的表示输入到第二层解码层;
(5)第二层解码层包含一个基于神经网络的命名实体识别器,该命名实体识别器分别判断包含两个词的文本区域是否为命名实体,若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“U.N.Ambassador”为角色命名实体,“Jeane Kirkpatrick”为人物命名实体;
(6)第二层解码器包含一个窗口大小为2的卷积神经网络,用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“Former U.N.”、“U.N.Ambassador”、“Ambassador Jeane”、“Jeane Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.Ambassador”、“U.N.AmbassadorJeane”、“Ambassador Jeane Kirkpatrick”的表示。将新的文本区域的表示输入到第三层解码层;
(5)第三层解码层包含一个基于神经网络的命名实体识别器,该命名实体识别器分别判断包含三个词的文本区域是否为命名实体,若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“Former U.N.Ambassador”为角色命名实体;
(6)第三层解码器包含一个窗口大小为2的卷积神经网络,用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“FormerU.N.Ambassador”、“U.N.Ambassador Jeane”、“Ambassador Jeane Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.Ambassador Jeane”、“U.N.Ambassador Jeane Kirkpatrick”的表示。将新的文本区域的表示输入到第四层解码层;
(7)第四层解码层包含一个基于神经网络的命名实体识别器,该命名实体识别器分别判断包含四个词的文本区域是否为命名实体,若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测所有包含四个词的文本区域都不是命名实体;
(8)第四层解码器包含一个窗口大小为2的卷积神经网络,用于将相邻的文本区域的表示融合为新的文本区域的表示。该层解码器的卷积神经网络将“FormerU.N.Ambassador Jeane”、“U.N.Ambassador Jeane Kirkpatrick”中任意两个相邻的文本区域所对应的表示融合为新的文本区域“Former U.N.Ambassador Jeane Kirkpatrick”的表示。将新的文本区域的表示输入到第五层解码层;
(9)第五层解码层包含一个基于神经网络的命名实体识别器,该命名实体识别器分别判断包含五个词的文本区域是否为命名实体,若是命名实体则输出该文本区域所对应的命名实体类型。该层解码层的命名实体识别器需要预测“Former U.N.Ambassador JeaneKirkpatrick”为角色命名实体;
(10)第五层解码器包含一个窗口大小为2的卷积神经网络,用于将相邻的文本区域的表示融合为新的文本区域的表示。但由于输入文本的最大长度为五,因此无需且无法融合相邻文本区域,故所述金字塔层级网络在第五层解码层停止运行;
(11)输出所有解码层预测的文本区域所对应的命名实体类型。所述金字塔层级网络预测的命名实体类型与正确的命名实体类型一致,表明所述基于金字塔层级网络的嵌套实体检测方法能够有效地检测嵌套实体,并且具有较高的准确率。
上述实施例中提到的第一长短记忆神经网络LSTM1和第二长短记忆神经网络LSTM2可以使用任意一种机器学习中的文本编码器替代,例如GRU、CNN、Transformer等。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种基于金字塔层级网络的嵌套实体检测方法,其特征在于,所述金字塔层级网络依次由一个编码层与若干个解码层首尾连接组成;所述编码层由词嵌入层和第一长短记忆神经网络LSTM1,所述词嵌入层的输出端与第一长短记忆神经网络LSTM1的输入端连接;所述解码层包括:第二长短记忆神经网络LSTM2、卷积神经网络、全连接神经网络,所述第二长短记忆神经网络LSTM2的输出端与卷积神经网络的输入端连接,卷积神经网络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤:
(1)将文本输入到金字塔层级网络,通过编码层,对输入文本中的单词编码为词向量;
(2)将编码后的词向量作为仅包含单个词的文本区域的表示,并将所述文本区域的表示输入到第一个解码层;
(3)对于输入的文本区域的表示,使用当前解码层的命名实体识别器检测每个文本区域是否为命名实体,若是则输出该文本区域对应的命名实体类型;若不是,则输出该文本区域对应的命名实体类型为空类型;
(4)对于经过当前解码层的命名实体识别器的文本区域的表示,使用当前解码层的卷积神经网络将相邻的文本区域的表示融合为新的文本区域的表示;
(5)将融合后的新的文本区域的表示输入到下一解码层;
(6)重复步骤(3)-(5),直到重复次数达到与预设的解码层数相同或重复次数达到与输入文本的长度相同。
(7)将每次获得的命名实体类型与正确的命名实体类型进行比较,计算损失值,并通过优化方法最小化该损失值,最终获得训练好的用于命名实体识别的金字塔层级网络。
(8)获取待检测文本,将待检测文本输入训练好的用于命名实体识别的金字塔层级网络,获得命名实体识别结果。
2.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(1)包括以下子步骤:
(1.1)输入文本包含单词x1,x2,…,xi,…,xT,将文本输入到金字塔层及网络,通过词嵌入层先被映射到一个稠密的词向量
Figure FDA0002478399500000011
其中
Figure FDA0002478399500000012
是词xi的词向量,T是所述文本包含单词的数量;
(1.2)通过第一长短时记忆神经网络层LSTM1来获得编码后的词向量:
Figure FDA0002478399500000013
Figure FDA0002478399500000014
Figure FDA0002478399500000015
其中,hi表示文本中第i个词的上下文相关表示,
Figure FDA0002478399500000021
表示从左到右的LSTM1上下文相关表示,
Figure FDA0002478399500000022
表示从右到左的LSTM1上下文相关表示,[;]表示两个向量的连接。
3.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(3)包括以下子步骤:
(3.1)通过层标准化处理输入文本区域的表示,将处理前的文本区域的表示记为x′i,处理后的文本区域的表示记为x″i
(3.2)通过第二长短时记忆神经网络层LSTM2来获取上下文相关的文本区域的表示:
Figure FDA0002478399500000023
Figure FDA0002478399500000024
Figure FDA0002478399500000025
其中,h′i表示第i个文本区域的上下文相关表示,
Figure FDA0002478399500000026
表示从左到右的LSTM2上下文相关表示,
Figure FDA0002478399500000027
表示从右到左的上下文相关表示,[;]表示两个向量的连接。若当前为第n层解码层,则h′i实际表示从第i个单词开始到第i+n-1个单词结束的文本区域;
(3.3)将h′i送入全连接神经网络,该全连接神经网络计算每个文本区域是某一特定类别命名实体的打分logitsi,其中包括有一个空类别表示该文本区域不是任何一个命名实体;
logitsi=Linear(h′i)
其中Linear表示一个全连接神经网络;
(3.4)使用软最大化函数来对各个类别上的打分进行归一化,从而获得每个文本实体是某一特定命名实体类型的概率值:
Figure FDA0002478399500000028
其中xi,…,i+n-1表示从第i个单词开始到第i+n-1个单词结束的文本区域,C表示命名实体类型的集合,|C|表示命名实体类型集合所包含命名实体类型的数量,cj为一个命名实体类型满足cj∈C,e为自然对数函数的底数;
(3.5)选择概率值最高的命名实体类型作为输出的文本区域所对应的命名实体类型;其中包括用空类别表示该文本区域不是任何一个命名实体。
4.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(4)中相邻的文本区域的表示满足以下条件:
(1)两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第j1和j2个单词;
(2)i1+1=i2
(3)j1+1=j2
5.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(4)中融合为新的文本区域的表示,满足以下条件:
(1)输入的两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第j1和j2个单词;
(2)融合的文本区域的表示所对应的文本区域起始于第i1个单词,结束于第j2个单词。
6.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(4)中所述的卷积神经网络的窗口大小为2,通过以下步骤融合两个相邻文本区域的表示:
x′i=CNNw=2(h′i,h′i+1)
其中CNNw=2为窗口大小为2的卷积神经网络;
若当前为第n层解码层,融合前的两个相邻文本区域的表示所对应的文本区域分别起始于第i和i+1个单词,结束于第i+n-1和i+n个单词,融合的新的文本区域的表示所对应的文本区域起始于第i个单词,结束于第i+n个单词。
7.如权利要求1所述嵌套实体检测方法,其特征在于:步骤(7)中损失值的计算方法为交叉熵损失函数,所述优化方法为随机梯度下降(SGD)。
CN202010371816.0A 2020-05-06 2020-05-06 一种基于金字塔层级网络的嵌套实体检测方法 Active CN111581957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010371816.0A CN111581957B (zh) 2020-05-06 2020-05-06 一种基于金字塔层级网络的嵌套实体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010371816.0A CN111581957B (zh) 2020-05-06 2020-05-06 一种基于金字塔层级网络的嵌套实体检测方法

Publications (2)

Publication Number Publication Date
CN111581957A true CN111581957A (zh) 2020-08-25
CN111581957B CN111581957B (zh) 2022-04-12

Family

ID=72124666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010371816.0A Active CN111581957B (zh) 2020-05-06 2020-05-06 一种基于金字塔层级网络的嵌套实体检测方法

Country Status (1)

Country Link
CN (1) CN111581957B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800768A (zh) * 2021-02-03 2021-05-14 北京金山数字娱乐科技有限公司 一种嵌套命名实体识别模型的训练方法及装置
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
EP3500942A1 (en) * 2016-08-19 2019-06-26 Accenture Global Solutions Limited Identifying attributes associated with an entity using natural language processing
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN110377903A (zh) * 2019-06-24 2019-10-25 浙江大学 一种句子级实体和关系联合抽取方法
CN110472237A (zh) * 2019-07-25 2019-11-19 中国科学院软件研究所 一种基于锚点区域网络的命名实体识别方法和装置
CN110956042A (zh) * 2019-12-16 2020-04-03 中国电子科技集团公司信息科学研究院 嵌套命名实体识别方法及系统、电子设备及可读介质
CN110969020A (zh) * 2019-11-21 2020-04-07 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3500942A1 (en) * 2016-08-19 2019-06-26 Accenture Global Solutions Limited Identifying attributes associated with an entity using natural language processing
WO2018218705A1 (zh) * 2017-05-27 2018-12-06 中国矿业大学 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN110008469A (zh) * 2019-03-19 2019-07-12 桂林电子科技大学 一种多层次命名实体识别方法
CN110032737A (zh) * 2019-04-10 2019-07-19 贵州大学 一种基于神经网络的边界组合命名实体识别方法
CN110377903A (zh) * 2019-06-24 2019-10-25 浙江大学 一种句子级实体和关系联合抽取方法
CN110472237A (zh) * 2019-07-25 2019-11-19 中国科学院软件研究所 一种基于锚点区域网络的命名实体识别方法和装置
CN110969020A (zh) * 2019-11-21 2020-04-07 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110956042A (zh) * 2019-12-16 2020-04-03 中国电子科技集团公司信息科学研究院 嵌套命名实体识别方法及系统、电子设备及可读介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CONGYING XIA ET.AL: "Multi-Grained Named Entity Recognition", 《ARXIV:1906.08449V1 [CS.CL]》 *
LIN SUN ET.AL: "Multilayer ToI Detection Approach for Nested NER", 《IEEE ACCESS》 *
寿黎但等: "多源异构数据的实体匹配方法研究", 《计算机工程与应用》 *
尹迪等: "基于联合模型的中文嵌套命名实体识别", 《南京师大学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800768A (zh) * 2021-02-03 2021-05-14 北京金山数字娱乐科技有限公司 一种嵌套命名实体识别模型的训练方法及装置
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115688777B (zh) * 2022-09-28 2023-05-05 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Also Published As

Publication number Publication date
CN111581957B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN110008469B (zh) 一种多层次命名实体识别方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN110826335B (zh) 一种命名实体识别的方法和装置
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN111581957B (zh) 一种基于金字塔层级网络的嵌套实体检测方法
CN114417839A (zh) 基于全局指针网络的实体关系联合抽取方法
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN117151223B (zh) 一种基于可学习提示的多模态实体识别和关系抽取方法
CN118227769B (zh) 一种基于知识图谱增强的大语言模型问答生成方法
CN114564950A (zh) 一种结合字词序列的电力中文命名实体识别方法
CN113704396A (zh) 短文本分类方法、装置、设备及存储介质
CN110175330B (zh) 一种基于注意力机制的命名实体识别方法
CN112989833A (zh) 一种基于多层lstm的远程监督实体关系联合抽取方法和系统
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN115081472A (zh) 一种用于雷达行为分析的脉冲信号语法建模及特征提取方法
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN113191150A (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN115809666B (zh) 一种融合词典信息和注意力机制的命名实体识别方法
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN113449524B (zh) 一种命名实体识别方法、系统、设备以及介质
CN116127978A (zh) 基于医学文本的嵌套命名实体抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant