CN113947083A - 一种文档级别命名实体识别方法 - Google Patents

一种文档级别命名实体识别方法 Download PDF

Info

Publication number
CN113947083A
CN113947083A CN202110155109.2A CN202110155109A CN113947083A CN 113947083 A CN113947083 A CN 113947083A CN 202110155109 A CN202110155109 A CN 202110155109A CN 113947083 A CN113947083 A CN 113947083A
Authority
CN
China
Prior art keywords
level
word
label
sentence
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110155109.2A
Other languages
English (en)
Inventor
桂韬
叶佳成
张奇
李争彦
费子楚
宫叶云
黄萱菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202110155109.2A priority Critical patent/CN113947083A/zh
Publication of CN113947083A publication Critical patent/CN113947083A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文档级别命名实体识别方法,通过分别将引入了一种新颖的两阶段标签修正方法来处理文档级标签的一致性依赖关系,首先使用键值记忆网络来记录第一阶段模型预测的草稿标签,然后基于键值记忆网络存储的相同词的上下文和草稿标签信息,使用双通道Transformer对草稿标签进行修正。因此,通过本发明提出的方法可以在通过所使用的贝叶斯神经网络来指示所有草稿标签的不确定性,从而减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。

Description

一种文档级别命名实体识别方法
技术领域
本发明属于命名实体识别技术领域,具体涉及一种文档级别命名实体识别方法。
背景技术
目前的命名实体识别领域所采用的主流的方法是使用BiLSTM+CRF模型,然而CRF存在两个问题,一是其只能建模周围词的依赖关系,无法建模长距离的依赖(例如相同词可能存在标签一致性关系的情况);二是CRF在推断阶段使用的维特比算法在处理长文本的时候效率很低,导致了在一些实时性要求较高的场合难以适用。
为了建模文档级别的标签依赖关系,近年来包括Graph-IE和Hier-NER的一些模型通过尝试通过融合相同词在文档级别的上下文信息来建模文档级别的依赖关系,但是该类方法的工作重点仅放在文档级上下文表示上,并没有为相同词之间的文档级标签一致性关系进行显式建模。
目前的模型无法显式建模标签的文档级依赖关系。此外,包括BiLSTM-seq2seq和BiLSTM-LAN的另一些模型通过引入标签嵌入来建模标签间的长距离依赖关系,但是该类方法仅局限于建模句子级别的依赖关系,以此同时也无法有效建模文档级别的依赖关系。
发明内容
为解决上述问题,提供一种能同时且高效的建模句子级别和文档级别的标签依赖的文档级别命名实体识别方法,本发明采用了如下技术方案:
本发明提供了一种文档级别命名实体识别方法,用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签,其特征在于,包括如下步骤:步骤S1,对待识别文档进行一阶段识别得到每个词所对应的句子级别草稿标签以及草稿标签对应的不确定性值,并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络;步骤S2,基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签;步骤S3,依次判断每个词对应的句子级别草稿标签的不确定性值是否大于预定的阈值;步骤S4,当不确定性值大于预定的阈值时,将修正标签设置为实体标签;步骤S5,当不确定性值小于等于预定的阈值时,将句子级别草稿标签设置为实体标签;步骤S6,输出每个词所对应的实体标签,其中,步骤S1包括以下子步骤:步骤S1-1,将待识别文档通过编码前处理得每个词的初始词表示以及初始特征;步骤S1-2,将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示;步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值;步骤S1-4,将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中,其中相同的词占用一个键值块,步骤S2包括以下子步骤:步骤S2-1,通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示;步骤S2-2,根据每个词在键值记忆网络中对应的键值块,以上下文表示作为查询条件,从键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签;步骤S2-3,将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-1包括以下子步骤:步骤S1-1-1,通过待识别文档得到词向量以及词标签;步骤S1-1-2,通过词嵌入矩阵进行初始化得到初始词表示:wi=ew(wi),式中,wi为第i个词的初始词表示,ew是词嵌入矩阵,wi为初始化词向量;步骤S1-1-3,将词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:lj=el(lj),式中,lj为初始特征,el为标签嵌入矩阵,lj为词标签;步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;步骤S1-1-5,将字符级别特征和预先设有的字特征进行拼接得到初始特征:xi=[wi;ci],式中,xi为初始特征,wi为第i个词的词表示,ci为字特征。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-2中的句子级别上下文表示为:
Figure BDA0002933091200000031
Figure BDA0002933091200000041
式中,hi为句子级别上下文表示,
Figure BDA0002933091200000042
为前向特征,
Figure BDA0002933091200000043
为后向特征。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-3包括以下子步骤:步骤S1-3-1,通过句子级别上下文表示并根据采样得到的结果来计算句子级别草稿标签以及不确定性值:
Figure BDA0002933091200000044
Figure BDA0002933091200000045
Figure BDA0002933091200000046
式中,
Figure BDA0002933091200000047
为用于进行采样的VLSTM网络参数,T为采样次数,t表示当前为第t次采样,pi为经多次采样得到的第i个词的标签预测分布,
Figure BDA00029330912000000410
为第i个词的句子级别草稿标签,hi为第i个词的句子级别上下文表示,ui为第i个句子级别草稿标签的不确定性值,pi为第i个词的标签预测分布,pc为第c个类别的概率值;步骤S1-3-2,得到所有句子级别草稿标签L*以及所有不确定性值U:
Figure BDA0002933091200000048
U={u1,u2,...,un}
式中,
Figure BDA0002933091200000049
为第i个句子级别草稿标签,un为第n个句子级别草稿标签的不确定性值。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-4包括以下子步骤:步骤S1-4-1,将每个句子级别草稿标签以及对应的不确定性值按照每个词占用一个键值块进行储存:
Figure BDA0002933091200000051
式中,
Figure BDA0002933091200000052
表示第i个词wi对应的键值块,ki;s表示了词wi在待识别文档中第s次出现的句子级别上下文表示,vi;s表示词wi在该文档中第s次出现的句子级别草稿标签的嵌入向量;步骤S1-4-2,得到由所有键值块构成的键值记忆网络M:
Figure BDA00029330912000000512
式中,r表示待识别文档中的词表的数量。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S2-2中每个词的注意力权重
Figure BDA0002933091200000053
为:
Figure BDA0002933091200000054
Figure BDA0002933091200000055
式中,xi表示第i个词的上下文表示,Hi表示键值记忆模块中第i个词对应的
Figure BDA0002933091200000056
中所有句子级别上下文表示ki;m构成的矩阵,Wh是预先设定的网络权重,文档级别上下文表示
Figure BDA0002933091200000057
以及文档级别草稿标签
Figure BDA0002933091200000058
通过如下公式计算得到:
Figure BDA0002933091200000059
式中,Li表示键值记忆模块中第i个词对应的
Figure BDA00029330912000000510
中所有的句子级别草稿标签的嵌入向量。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,双通道Transformer包含多个参数不共享但结构一致的层,每一层包括一个内容注意力模块和一个标签注意力模块,分别用于计算内容注意力权重以及标签注意力权重:
Figure BDA00029330912000000511
Figure BDA0002933091200000061
式中,
Figure BDA0002933091200000062
表示第i个词对第j个词的内容注意力权重,
Figure BDA0002933091200000063
表示第i个词对第j个词的草稿标签的标签注意力权重,R为采用了相对位置编码的位置编码矩阵,Wqh、Wkh、WkR、Wql、Wkl、ui、vi为可学习的参数,双通道Transformer的的每一层在得到的注意力权重后,进行如下操作:
Figure BDA0002933091200000064
Vh=H1Wh,ah=Softmax(Ah2h)Vh
Figure BDA0002933091200000065
Vl=L1Wl,al=Softmax(Ah2l)Vl
H2=FeedForward(LayerNorm(Linear(ah)+H1))
L2=FeedForward(LayerNorm(Linear(al)+L1)).
式中,H1表示句子级别上下文表示与文档级别上下文表示拼接后的向量构成的矩阵,L1表示句子级别草稿标签与文档级别草稿标签拼接后的向量构成的矩阵,Ah2h为所有内容注意力权重,ah表示内容注意力分布,Ah2l为所有标签注意力权重,al表示标签注意力分布,Vh为对H1变换后的表示,Vl为对L1变换后的表示,Wh、Wl均为可学习的参数,最终得到的H2和L2将作为双通道Transformer的下一层输入,双通道Transformer的最后一层输出的H2和L2用于被连接并预测得到所有修正标签:
Figure BDA0002933091200000066
式中,
Figure BDA0002933091200000067
为第n个词的修正标签。
发明作用与效果
根据本发明提供的一种文档级别命名实体识别方法,由于通过两阶段标签修正方法来处理文档级标签的一致性依赖关系,即,首先通过一阶段识别来识别出待识别文档中各个词的草稿标签以及不确定性值,并将各个词的草稿标签以及上下文表示构建一个对应的键值记忆网络,然后在使用双通道Transformer对待识别文档进行二阶段识别时,基于键值记忆网络中相同词的上下文和草稿标签信息进行实体识别得到修正标签。因此,通过这样的方式,在草稿标签的不确定性较高时,可以将修正标签进行替换来作为词的最终标签,从而有效减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
附图说明
图1是本发明实施例中文档级别标签的依赖示意图;
图2是本发明实施例中文档级别命名实体识别方法的流程图;
图3是本发明实施例中文档级别命名实体识别方法的过程的结构示意图;
图4是本发明实施例中文档级别命名实体识别方法的步骤S1的流程图;
图5是本发明实施例中文档级别命名实体识别方法的步骤S2的流程图;
图6是本发明实施例中文档级别命名实体识别方法与以往方法的对比实验结果;以及
图7是本发明实施例中文档级别命名实体识别方法与以往方法的效率对比实验结果。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种文档级别命名实体识别方法作具体阐述。
<实施例>
图1是本发明实施例中文档级别标签的依赖示意图。
在图1示出的文档的部分句子中,“Rusty Greer”以及“Julia Tavarez”两者是相邻词汇,具有局部依赖的关系,可以通过该局部依赖来判断出两者的标签分别为B-PER和E-PER。但是,在句子“Greer hit a…”中,词汇“Greer”与“Rusty Greer”分别属于一个文档中独立的两个句子,属于文档级别依赖。另外,图1中还示出了一致性依赖,该一致性依赖是一种特殊的文档级别依赖
图2是本发明实施例中文档级别命名实体识别方法的流程图,图3是本发明实施例中文档级别命名实体识别方法的过程的结构示意图。
如图2以及图3所示,以被输入的待识别文档为“Office of Fair Trading”为例,文档级别命名实体识别方法对该待识别文档进行处理后,就会预测出文档中每个词的标签,其中,“Office”最终预测的标签为B-ORG,“of”和“Fair”均对应标签I-ORG,“Trading”对应标签E-ORG。文档级别命名实体识别方法具体包括步骤S1至步骤S6。
步骤S1,将待识别文档通过贝叶斯LSTM处理得到草稿标签以及草稿标签对应的不确定性值,并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络。
图4是本发明实施例中文档级别命名实体识别方法的步骤S1的流程图。
如图4所示,步骤S1包括步骤S1-1至步骤S1-4。
步骤S1-1,将待识别文档通过编码前处理得每个词的初始词表示以及初始特征。本实施例中,该步骤S1-1具体包括以下步骤S1-1-1至步骤S1-1-5。
步骤S1-1-1,通过待识别文档得到词向量以及词标签;
步骤S1-1-2,通过词嵌入矩阵进行初始化得到初始词表示:,具体通过以下公式:
wi=ew(wi)
式中,wi为第i个词的初始词表示,ew是词嵌入矩阵,wi为初始化词向量;
步骤S1-1-3,将词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:
lj=el(lj)
式中,lj为初始特征,el为标签嵌入矩阵,lj为词标签;
步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;
步骤S1-1-5,将字符级别特征和预先设有的字特征进行拼接得到初始特征:
xi=[wi;ci]
式中,xi为初始特征,wi为第i个词的词表示,ci为字特征。
步骤S1-2,将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示。本实施例中,句子级别上下文表示为:
Figure BDA0002933091200000101
式中,hi为句子级别上下文表示,
Figure BDA0002933091200000102
为前向特征,
Figure BDA0002933091200000103
为后向特征。
步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值。如图3所示,“Office”以及“of”预测得到的句子级别草稿标签均为O,且不确定性值都为0.8;“Fair”预测得到的句子级别草稿标签为S-ORG,不确定性值为0.6;“Trading”预测得到的句子级别草稿标签为E-ORG,不确定性值为0.1。
本实施例中,该步骤S1-3具体包括步骤S1-3-1至步骤S1-3-2:
步骤S1-3-1,通过句子级别上下文表示并根据采样得到的结果来计算句子级别草稿标签以及不确定性值:
Figure BDA0002933091200000104
Figure BDA0002933091200000105
Figure BDA0002933091200000106
式中,
Figure BDA0002933091200000111
为用于进行采样的VLSTM网络参数,T为采样次数,t表示当前为第t次采样,pi为经多次采样得到的第i个词的标签预测分布,
Figure BDA0002933091200000114
为第i个词的句子级别草稿标签,hi为第i个词的句子级别上下文表示,ui为第i个句子级别草稿标签的不确定性值,pi为第i个词的标签预测分布,pc为第c个类别的概率值。
步骤S1-3-2,得到所有句子级别草稿标签L*以及所有不确定性值U:
Figure BDA0002933091200000112
U={u1,u2,...,un}
式中,
Figure BDA0002933091200000113
为第i个句子级别草稿标签,un为第n个句子级别草稿标签的不确定性值。
步骤S1-4,将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中,其中相同的词占用一个键值块。
本实施例中,如图3所示,在键值记忆网络中,词m1、m2和m3分别占用一个键值块,其中,由于词m1在整个待识别文档中出现两次,因此在词m1的键值块中对应地存储有两个句子级别草稿标签以及相应的句子级别上下文表示,分别为句子级别草稿标签l1;1和l1;2以及句子级别上下文表示h1;1和h1;2
本实施例的步骤S1-4具体包括步骤S1-4-1至步骤S1-4-2:
步骤S1-4-1,将每个句子级别草稿标签以及对应的不确定性值按照每个词占用一个键值块进行储存:
Figure BDA0002933091200000121
式中,
Figure BDA0002933091200000122
表示第i个词wi对应的键值块,ki;s表示了词wi在待识别文档中第s次出现的句子级别上下文表示,vi;s表示词wi在该文档中第s次出现的句子级别草稿标签的嵌入向量;
步骤S1-4-2,得到由所有键值块构成的键值记忆网络M:
Figure BDA0002933091200000123
式中,r表示待识别文档中的词表的数量。
步骤S2,将基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签。
图5是本发明实施例中文档级别命名实体识别方法的步骤S2的流程图。
如图5所示,步骤S2具体包括以下步骤S2-1至步骤S2-3:
步骤S2-1,通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示。
步骤S2-2,根据每个词在键值记忆网络中对应的键值块,以上下文表示作为查询条件,从键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签。
本实施例中,每个词的注意力权重
Figure BDA0002933091200000124
为:
Figure BDA0002933091200000125
式中,xi表示第i个词的上下文表示,Hi表示键值记忆模块中第i个词对应的
Figure BDA0002933091200000131
中所有句子级别上下文表示ki;m构成的矩阵,Wh是预先设定的网络权重,
文档级别上下文表示
Figure BDA0002933091200000132
以及文档级别草稿标签
Figure BDA0002933091200000133
通过如下公式计算得到:
Figure BDA0002933091200000134
式中,Li表示键值记忆模块中第i个词对应的
Figure BDA0002933091200000135
中所有的句子级别草稿标签的嵌入向量。
步骤S2-3,将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
本实施例中,双通道Transformer包含多个参数不共享但结构一致的层,每一层包括一个内容注意力模块和一个标签注意力模块,分别用于计算内容注意力权重以及标签注意力权重:
Figure BDA0002933091200000136
Figure BDA0002933091200000137
式中,
Figure BDA0002933091200000138
表示第i个词对第j个词的内容注意力权重,
Figure BDA0002933091200000139
表示第i个词对第j个词的草稿标签的标签注意力权重,R为采用了相对位置编码的位置编码矩阵,Wqh、Wkh、WkR、Wql、Wkl、ui、vi为可学习的参数。
双通道Transformer的的每一层在得到的注意力权重后,进行如下操作:
Figure BDA0002933091200000141
Vh=H1Wh,ah=Softmax(Ah2h)Vh
Figure BDA0002933091200000142
Vl=L1Wl,al=Softmax(Ah2l)Vl
H2=FeedForward(LayerNorm(Linear(ah)+H1))
L2=FeedForward(LayerNorm(Linear(al)+L1)).
式中,H1表示句子级别上下文表示与文档级别上下文表示拼接后的向量构成的矩阵,L1表示句子级别草稿标签与文档级别草稿标签拼接后的向量构成的矩阵,Ah2h为所有内容注意力权重,ah表示内容注意力分布,Ah2l为所有标签注意力权重,al表示标签注意力分布,Vh为对H1变换后的表示,Vl为对L1变换后的表示,Wh、Wl均为可学习的参数,最终得到的H2和L2将作为双通道Transformer的下一层输入。
双通道Transformer的最后一层输出的H2和L2用于被连接并预测得到所有修正标签:
Figure BDA0002933091200000143
式中,
Figure BDA0002933091200000144
为第n个词的修正标签。
通过上述过程,即可得到待识别文档中每个词的修正标签,如图3所示,“Office”的修正标签为B-ORG,“of”和“Fair”的修正标签为I-ORG,“Trading”的修正标签为S-ORG。
步骤S3,判断草稿标签不确定性值是否大于预定的阈值。
步骤S4,当草稿标签不确定性值大于预定的阈值时,将修正标签设置为最终标签。
步骤S5,当草稿标签不确定性值小于等于预定的阈值时,将草稿标签设置为最终标签。
步骤S6,输出最终结果,
本实施例中,为了减轻第一阶段不正确的草稿标签对正确的草稿标签产生负面影响,我们预设一个不确定性阈值Γ,只对草稿标签中不确定行值大于Γ的标签进行修正,并保持其余标签不变。例如,给定u1>Γ,u2≤Γ以及un>Γ,则最终的输出标签序列为
Figure BDA0002933091200000151
图6是本发明实施例中文档级别命名实体识别方法与以往方法的对比实验结果。
如图6所示,针对CoNLL2003、OntoNotes、CHENDNER三种标准数据集,本实施例的文档级别命名实体识别方法(DocL-NER)相对于传统的各种方法准确率都明显优于目前的其他各种方法。
图7是本发明实施例中文档级别命名实体识别方法与以往方法的效率对比实验结果。
从图7可以看出,文档级别命名实体识别方法(DocL-NER)的训练以及推断速度相对于Hier-Ner的效率分别是2.64倍以及5.48倍,相对于GraphIE和BiLSTM-CRF这两种方法也具有明显的优势。
实施例作用与效果
根据本发明提供的一种文档级别命名实体识别方法,由于通过两阶段标签修正方法来处理文档级标签的一致性依赖关系,即,首先通过一阶段识别来识别出待识别文档中各个词的草稿标签以及不确定性值,并将各个词的草稿标签以及上下文表示构建一个对应的键值记忆网络,然后在使用双通道Transformer对待识别文档进行二阶段识别时,基于键值记忆网络中相同词的上下文和草稿标签信息进行实体识别得到修正标签。因此,通过这样的方式,在草稿标签的不确定性较高时,可以将修正标签进行替换来作为词的最终标签,从而有效减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
在实施例中,由于通过在待识别文档提取词向量以及词标签能够更将详细的获取待识别文档的上下文信息,因此使得得到的最终标签能够更加准确。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。

Claims (7)

1.一种文档级别命名实体识别方法,用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签,其特征在于,包括如下步骤:
步骤S1,对所述待识别文档进行一阶段识别得到每个所述词所对应的句子级别草稿标签以及所述草稿标签对应的不确定性值,并基于该句子级别草稿标签构建对应所述待识别文档的键值记忆网络;
步骤S2,基于所述键值记忆挖网络对所述待识别文档进行二阶段识别得到每个所述词所对应的修正标签;
步骤S3,依次判断每个所述词对应的所述句子级别草稿标签的所述不确定性值是否大于预定的阈值;
步骤S4,当所述不确定性值大于预定的阈值时,将所述修正标签设置为实体标签;
步骤S5,当所述不确定性值小于等于预定的阈值时,将所述句子级别草稿标签设置为所述实体标签;
步骤S6,输出每个词所对应的所述实体标签,
其中,所述步骤S1包括以下子步骤:
步骤S1-1,将所述待识别文档通过编码前处理得每个所述词的初始词表示以及初始特征;
步骤S1-2,将所述初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示;
步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个所述词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值;
步骤S1-4,将每个词对应的所述句子级别草稿标签以及所述句子级别上下文表示按照键值块存储在所述键值记忆网络中,其中相同的所述词占用一个所述键值块,
所述步骤S2包括以下子步骤:
步骤S2-1,通过单通道Transformer对所述待识别文档进行编码得到每个词对应的上下文表示;
步骤S2-2,根据每个词在所述键值记忆网络中对应的所述键值块,以所述上下文表示作为查询条件,从所述键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个所述词对应的文档级别上下文表示以及文档级别草稿标签;
步骤S2-3,将所述句子级别上下文表示和所述句子级别草稿标签分别与所述文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
2.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-1包括以下子步骤:
步骤S1-1-1,通过所述待识别文档得到词向量以及词标签;
步骤S1-1-2,通过词嵌入矩阵进行初始化得到所述初始词表示:
wi=ew(wi)
式中,wi为第i个所述词的所述初始词表示,ew是词嵌入矩阵,wi为初始化词向量;
步骤S1-1-3,将所述词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:
lj=el(lj)
式中,lj为所述初始特征,el为所述标签嵌入矩阵,lj为所述词标签;
步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;
步骤S1-1-5,将所述字符级别特征和预先设有的字特征进行拼接得到所述初始特征:
xi=[wi;ci]
式中,xi为所述初始特征,wi为第i个词的所述词表示,ci为所述字特征。
3.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-2中的所述句子级别上下文表示为:
Figure FDA0002933091190000031
式中,hi为所述句子级别上下文表示,
Figure FDA0002933091190000032
为所述前向特征,
Figure FDA0002933091190000033
为所述后向特征。
4.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-3包括以下子步骤:
步骤S1-3-1,通过所述句子级别上下文表示并根据所述采样得到的结果来计算句子级别草稿标签以及所述不确定性值:
Figure FDA0002933091190000041
Figure FDA0002933091190000042
Figure FDA0002933091190000043
式中,
Figure FDA0002933091190000044
为用于进行所述采样的VLSTM网络参数,T为采样次数,t表示当前为第t次采样,pi为经多次所述采样得到的第i个词的标签预测分布,
Figure FDA0002933091190000045
为第i个词的所述句子级别草稿标签,hi为第i个词的所述句子级别上下文表示,ui为第i个所述句子级别草稿标签的所述不确定性值,pi为第i个词的所述标签预测分布,pc为第c个类别的概率值;
步骤S1-3-2,得到所有所述句子级别草稿标签L*以及所有所述不确定性值U:
Figure FDA0002933091190000046
U={u1,u2,…,un}
式中,
Figure FDA0002933091190000047
为第i个所述句子级别草稿标签,un为第n个句子级别草稿标签的不确定性值。
5.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-4包括以下子步骤:
步骤S1-4-1,将每个所述句子级别草稿标签以及对应的所述不确定性值按照每个词占用一个键值块进行储存:
Figure FDA0002933091190000051
式中,
Figure FDA0002933091190000052
表示第i个词wi对应的键值块,ki;s表示了词wi在所述待识别文档中第s次出现的所述句子级别上下文表示,vi;s表示词wi在该文档中第s次出现的所述句子级别草稿标签的嵌入向量;
步骤S1-4-2,得到由所有所述键值块构成的所述键值记忆网络M:
Figure FDA0002933091190000053
式中,r表示所述待识别文档中的词表的数量。
6.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S2-2中每个词的所述注意力权重
Figure FDA0002933091190000054
为:
Figure FDA0002933091190000055
式中,xi表示第i个词的所述上下文表示,Hi表示所述键值记忆模块中第i个词对应的
Figure FDA0002933091190000056
中所有句子级别上下文表示ki;m构成的矩阵,Wh是预先设定的网络权重,
所述文档级别上下文表示
Figure FDA0002933091190000061
以及所述文档级别草稿标签
Figure FDA0002933091190000062
通过如下公式计算得到:
Figure FDA0002933091190000063
式中,Li表示所述键值记忆模块中第i个词对应的
Figure FDA0002933091190000064
中所有的所述句子级别草稿标签的嵌入向量。
7.根据权利要求6所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述双通道Transformer包含多个参数不共享但结构一致的层,每一所述层包括一个内容注意力模块和一个标签注意力模块,分别用于计算内容注意力权重以及标签注意力权重:
Figure FDA0002933091190000065
Figure FDA0002933091190000066
式中,
Figure FDA0002933091190000067
表示第i个词对第j个词的内容注意力权重,
Figure FDA0002933091190000068
表示第i个词对第j个词的草稿标签的标签注意力权重,R为采用了相对位置编码的位置编码矩阵,Wqh、Wkh、WkR、Wql、Wkl、ui、vi为可学习的参数,
所述双通道Transformer的的每一层在得到的注意力权重后,进行如下操作:
Figure FDA0002933091190000069
Vh=H1Wh,ah=Softmax(Ah2h)Vh,
Figure FDA00029330911900000610
Vl=L1Wl,al=Softmax(Ah2l)Vl,
H2=FeedForward(LayerNorm(Linear(ah)+H1))
L2=FeedForward(LayerNorm(Linear(al)+L1)).
式中,H1表示所述句子级别上下文表示与所述文档级别上下文表示拼接后的向量构成的矩阵,L1表示所述句子级别草稿标签与所述文档级别草稿标签拼接后的向量构成的矩阵,Ah2h为所有所述内容注意力权重,ah表示内容注意力分布,Ah2l为所有所述标签注意力权重,al表示标签注意力分布,Vh为对H1变换后的表示,Vl为对L1变换后的表示,Wh、Wl均为可学习的参数,最终得到的H2和L2将作为所述双通道Transformer的下一所述层输入,
所述双通道Transformer的最后一层输出的H2和L2用于被连接并预测得到所有所述修正标签:
Figure FDA0002933091190000071
式中,
Figure FDA0002933091190000072
为第n个词的所述修正标签。
CN202110155109.2A 2021-02-04 2021-02-04 一种文档级别命名实体识别方法 Pending CN113947083A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110155109.2A CN113947083A (zh) 2021-02-04 2021-02-04 一种文档级别命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110155109.2A CN113947083A (zh) 2021-02-04 2021-02-04 一种文档级别命名实体识别方法

Publications (1)

Publication Number Publication Date
CN113947083A true CN113947083A (zh) 2022-01-18

Family

ID=79327288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110155109.2A Pending CN113947083A (zh) 2021-02-04 2021-02-04 一种文档级别命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113947083A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049347A (zh) * 2022-06-24 2023-05-02 荣耀终端有限公司 一种基于词融合的序列标注方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049347A (zh) * 2022-06-24 2023-05-02 荣耀终端有限公司 一种基于词融合的序列标注方法及相关设备
CN116049347B (zh) * 2022-06-24 2023-10-31 荣耀终端有限公司 一种基于词融合的序列标注方法及相关设备

Similar Documents

Publication Publication Date Title
CN111160008B (zh) 一种实体关系联合抽取方法及系统
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN112380863A (zh) 一种基于多头自注意力机制的序列标注方法
CN114155477B (zh) 一种基于平均教师模型的半监督视频段落定位方法
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN112084783B (zh) 基于民航不文明旅客的实体识别方法及系统
CN113947083A (zh) 一种文档级别命名实体识别方法
CN117390189A (zh) 基于前置分类器的中立文本生成方法
CN113822018B (zh) 实体关系联合抽取方法
CN117271759A (zh) 文本摘要生成模型训练方法、文本摘要生成方法和装置
CN111680151B (zh) 一种基于层次化transformer的个性化商品评论摘要生成方法
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN112650861A (zh) 一种基于任务分层的人格预测方法、系统及装置
CN114996407B (zh) 基于包重构的远程监督关系抽取方法及系统
CN116882398B (zh) 基于短语交互的隐式篇章关系识别方法和系统
CN117669574B (zh) 基于多语义特征融合的人工智能领域实体识别方法及系统
CN116992035B (zh) 一种提案智能分类的方法、装置、计算机设备和介质
CN116701576B (zh) 无触发词的事件检测方法和系统
CN116562305B (zh) 方面情感四元组预测方法与系统
CN111158640B (zh) 一种基于深度学习的一对多需求分析识别方法
CN113297828A (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN117648979A (zh) 知识图谱数据的构建方法、装置和计算机设备
CN117932487A (zh) 一种风险分类模型训练、风险分类方法及装置
CN116629244A (zh) 融合理解与生成的文档级事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination