CN113947083A - 一种文档级别命名实体识别方法 - Google Patents
一种文档级别命名实体识别方法 Download PDFInfo
- Publication number
- CN113947083A CN113947083A CN202110155109.2A CN202110155109A CN113947083A CN 113947083 A CN113947083 A CN 113947083A CN 202110155109 A CN202110155109 A CN 202110155109A CN 113947083 A CN113947083 A CN 113947083A
- Authority
- CN
- China
- Prior art keywords
- level
- word
- label
- sentence
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文档级别命名实体识别方法,通过分别将引入了一种新颖的两阶段标签修正方法来处理文档级标签的一致性依赖关系,首先使用键值记忆网络来记录第一阶段模型预测的草稿标签,然后基于键值记忆网络存储的相同词的上下文和草稿标签信息,使用双通道Transformer对草稿标签进行修正。因此,通过本发明提出的方法可以在通过所使用的贝叶斯神经网络来指示所有草稿标签的不确定性,从而减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
Description
技术领域
本发明属于命名实体识别技术领域,具体涉及一种文档级别命名实体识别方法。
背景技术
目前的命名实体识别领域所采用的主流的方法是使用BiLSTM+CRF模型,然而CRF存在两个问题,一是其只能建模周围词的依赖关系,无法建模长距离的依赖(例如相同词可能存在标签一致性关系的情况);二是CRF在推断阶段使用的维特比算法在处理长文本的时候效率很低,导致了在一些实时性要求较高的场合难以适用。
为了建模文档级别的标签依赖关系,近年来包括Graph-IE和Hier-NER的一些模型通过尝试通过融合相同词在文档级别的上下文信息来建模文档级别的依赖关系,但是该类方法的工作重点仅放在文档级上下文表示上,并没有为相同词之间的文档级标签一致性关系进行显式建模。
目前的模型无法显式建模标签的文档级依赖关系。此外,包括BiLSTM-seq2seq和BiLSTM-LAN的另一些模型通过引入标签嵌入来建模标签间的长距离依赖关系,但是该类方法仅局限于建模句子级别的依赖关系,以此同时也无法有效建模文档级别的依赖关系。
发明内容
为解决上述问题,提供一种能同时且高效的建模句子级别和文档级别的标签依赖的文档级别命名实体识别方法,本发明采用了如下技术方案:
本发明提供了一种文档级别命名实体识别方法,用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签,其特征在于,包括如下步骤:步骤S1,对待识别文档进行一阶段识别得到每个词所对应的句子级别草稿标签以及草稿标签对应的不确定性值,并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络;步骤S2,基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签;步骤S3,依次判断每个词对应的句子级别草稿标签的不确定性值是否大于预定的阈值;步骤S4,当不确定性值大于预定的阈值时,将修正标签设置为实体标签;步骤S5,当不确定性值小于等于预定的阈值时,将句子级别草稿标签设置为实体标签;步骤S6,输出每个词所对应的实体标签,其中,步骤S1包括以下子步骤:步骤S1-1,将待识别文档通过编码前处理得每个词的初始词表示以及初始特征;步骤S1-2,将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示;步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值;步骤S1-4,将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中,其中相同的词占用一个键值块,步骤S2包括以下子步骤:步骤S2-1,通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示;步骤S2-2,根据每个词在键值记忆网络中对应的键值块,以上下文表示作为查询条件,从键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签;步骤S2-3,将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-1包括以下子步骤:步骤S1-1-1,通过待识别文档得到词向量以及词标签;步骤S1-1-2,通过词嵌入矩阵进行初始化得到初始词表示:wi=ew(wi),式中,wi为第i个词的初始词表示,ew是词嵌入矩阵,wi为初始化词向量;步骤S1-1-3,将词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:lj=el(lj),式中,lj为初始特征,el为标签嵌入矩阵,lj为词标签;步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;步骤S1-1-5,将字符级别特征和预先设有的字特征进行拼接得到初始特征:xi=[wi;ci],式中,xi为初始特征,wi为第i个词的词表示,ci为字特征。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-3包括以下子步骤:步骤S1-3-1,通过句子级别上下文表示并根据采样得到的结果来计算句子级别草稿标签以及不确定性值:
式中,为用于进行采样的VLSTM网络参数,T为采样次数,t表示当前为第t次采样,pi为经多次采样得到的第i个词的标签预测分布,为第i个词的句子级别草稿标签,hi为第i个词的句子级别上下文表示,ui为第i个句子级别草稿标签的不确定性值,pi为第i个词的标签预测分布,pc为第c个类别的概率值;步骤S1-3-2,得到所有句子级别草稿标签L*以及所有不确定性值U:
U={u1,u2,...,un}
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S1-4包括以下子步骤:步骤S1-4-1,将每个句子级别草稿标签以及对应的不确定性值按照每个词占用一个键值块进行储存:式中,表示第i个词wi对应的键值块,ki;s表示了词wi在待识别文档中第s次出现的句子级别上下文表示,vi;s表示词wi在该文档中第s次出现的句子级别草稿标签的嵌入向量;步骤S1-4-2,得到由所有键值块构成的键值记忆网络M:式中,r表示待识别文档中的词表的数量。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,步骤S2-2中每个词的注意力权重为: 式中,xi表示第i个词的上下文表示,Hi表示键值记忆模块中第i个词对应的中所有句子级别上下文表示ki;m构成的矩阵,Wh是预先设定的网络权重,文档级别上下文表示以及文档级别草稿标签通过如下公式计算得到:式中,Li表示键值记忆模块中第i个词对应的中所有的句子级别草稿标签的嵌入向量。
本发明提供的一种文档级别命名实体识别方法,还可以具有这样的技术特征,其中,双通道Transformer包含多个参数不共享但结构一致的层,每一层包括一个内容注意力模块和一个标签注意力模块,分别用于计算内容注意力权重以及标签注意力权重:
式中,表示第i个词对第j个词的内容注意力权重,表示第i个词对第j个词的草稿标签的标签注意力权重,R为采用了相对位置编码的位置编码矩阵,Wqh、Wkh、WkR、Wql、Wkl、ui、vi为可学习的参数,双通道Transformer的的每一层在得到的注意力权重后,进行如下操作:
Vh=H1Wh,ah=Softmax(Ah2h)Vh,
Vl=L1Wl,al=Softmax(Ah2l)Vl,
H2=FeedForward(LayerNorm(Linear(ah)+H1))
L2=FeedForward(LayerNorm(Linear(al)+L1)).
式中,H1表示句子级别上下文表示与文档级别上下文表示拼接后的向量构成的矩阵,L1表示句子级别草稿标签与文档级别草稿标签拼接后的向量构成的矩阵,Ah2h为所有内容注意力权重,ah表示内容注意力分布,Ah2l为所有标签注意力权重,al表示标签注意力分布,Vh为对H1变换后的表示,Vl为对L1变换后的表示,Wh、Wl均为可学习的参数,最终得到的H2和L2将作为双通道Transformer的下一层输入,双通道Transformer的最后一层输出的H2和L2用于被连接并预测得到所有修正标签:式中,为第n个词的修正标签。
发明作用与效果
根据本发明提供的一种文档级别命名实体识别方法,由于通过两阶段标签修正方法来处理文档级标签的一致性依赖关系,即,首先通过一阶段识别来识别出待识别文档中各个词的草稿标签以及不确定性值,并将各个词的草稿标签以及上下文表示构建一个对应的键值记忆网络,然后在使用双通道Transformer对待识别文档进行二阶段识别时,基于键值记忆网络中相同词的上下文和草稿标签信息进行实体识别得到修正标签。因此,通过这样的方式,在草稿标签的不确定性较高时,可以将修正标签进行替换来作为词的最终标签,从而有效减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
附图说明
图1是本发明实施例中文档级别标签的依赖示意图;
图2是本发明实施例中文档级别命名实体识别方法的流程图;
图3是本发明实施例中文档级别命名实体识别方法的过程的结构示意图;
图4是本发明实施例中文档级别命名实体识别方法的步骤S1的流程图;
图5是本发明实施例中文档级别命名实体识别方法的步骤S2的流程图;
图6是本发明实施例中文档级别命名实体识别方法与以往方法的对比实验结果;以及
图7是本发明实施例中文档级别命名实体识别方法与以往方法的效率对比实验结果。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种文档级别命名实体识别方法作具体阐述。
<实施例>
图1是本发明实施例中文档级别标签的依赖示意图。
在图1示出的文档的部分句子中,“Rusty Greer”以及“Julia Tavarez”两者是相邻词汇,具有局部依赖的关系,可以通过该局部依赖来判断出两者的标签分别为B-PER和E-PER。但是,在句子“Greer hit a…”中,词汇“Greer”与“Rusty Greer”分别属于一个文档中独立的两个句子,属于文档级别依赖。另外,图1中还示出了一致性依赖,该一致性依赖是一种特殊的文档级别依赖
图2是本发明实施例中文档级别命名实体识别方法的流程图,图3是本发明实施例中文档级别命名实体识别方法的过程的结构示意图。
如图2以及图3所示,以被输入的待识别文档为“Office of Fair Trading”为例,文档级别命名实体识别方法对该待识别文档进行处理后,就会预测出文档中每个词的标签,其中,“Office”最终预测的标签为B-ORG,“of”和“Fair”均对应标签I-ORG,“Trading”对应标签E-ORG。文档级别命名实体识别方法具体包括步骤S1至步骤S6。
步骤S1,将待识别文档通过贝叶斯LSTM处理得到草稿标签以及草稿标签对应的不确定性值,并基于该句子级别草稿标签以及不确定性值构建对应待识别文档的键值记忆网络。
图4是本发明实施例中文档级别命名实体识别方法的步骤S1的流程图。
如图4所示,步骤S1包括步骤S1-1至步骤S1-4。
步骤S1-1,将待识别文档通过编码前处理得每个词的初始词表示以及初始特征。本实施例中,该步骤S1-1具体包括以下步骤S1-1-1至步骤S1-1-5。
步骤S1-1-1,通过待识别文档得到词向量以及词标签;
步骤S1-1-2,通过词嵌入矩阵进行初始化得到初始词表示:,具体通过以下公式:
wi=ew(wi)
式中,wi为第i个词的初始词表示,ew是词嵌入矩阵,wi为初始化词向量;
步骤S1-1-3,将词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:
lj=el(lj)
式中,lj为初始特征,el为标签嵌入矩阵,lj为词标签;
步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;
步骤S1-1-5,将字符级别特征和预先设有的字特征进行拼接得到初始特征:
xi=[wi;ci]
式中,xi为初始特征,wi为第i个词的词表示,ci为字特征。
步骤S1-2,将初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示。本实施例中,句子级别上下文表示为:
步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值。如图3所示,“Office”以及“of”预测得到的句子级别草稿标签均为O,且不确定性值都为0.8;“Fair”预测得到的句子级别草稿标签为S-ORG,不确定性值为0.6;“Trading”预测得到的句子级别草稿标签为E-ORG,不确定性值为0.1。
本实施例中,该步骤S1-3具体包括步骤S1-3-1至步骤S1-3-2:
步骤S1-3-1,通过句子级别上下文表示并根据采样得到的结果来计算句子级别草稿标签以及不确定性值:
式中,为用于进行采样的VLSTM网络参数,T为采样次数,t表示当前为第t次采样,pi为经多次采样得到的第i个词的标签预测分布,为第i个词的句子级别草稿标签,hi为第i个词的句子级别上下文表示,ui为第i个句子级别草稿标签的不确定性值,pi为第i个词的标签预测分布,pc为第c个类别的概率值。
步骤S1-3-2,得到所有句子级别草稿标签L*以及所有不确定性值U:
U={u1,u2,...,un}
步骤S1-4,将每个词对应的句子级别草稿标签以及句子级别上下文表示按照键值块存储在键值记忆网络中,其中相同的词占用一个键值块。
本实施例中,如图3所示,在键值记忆网络中,词m1、m2和m3分别占用一个键值块,其中,由于词m1在整个待识别文档中出现两次,因此在词m1的键值块中对应地存储有两个句子级别草稿标签以及相应的句子级别上下文表示,分别为句子级别草稿标签l1;1和l1;2以及句子级别上下文表示h1;1和h1;2。
本实施例的步骤S1-4具体包括步骤S1-4-1至步骤S1-4-2:
步骤S1-4-1,将每个句子级别草稿标签以及对应的不确定性值按照每个词占用一个键值块进行储存:
步骤S1-4-2,得到由所有键值块构成的键值记忆网络M:
式中,r表示待识别文档中的词表的数量。
步骤S2,将基于键值记忆挖网络对待识别文档进行二阶段识别得到每个词所对应的修正标签。
图5是本发明实施例中文档级别命名实体识别方法的步骤S2的流程图。
如图5所示,步骤S2具体包括以下步骤S2-1至步骤S2-3:
步骤S2-1,通过单通道Transformer对待识别文档进行编码得到每个词对应的上下文表示。
步骤S2-2,根据每个词在键值记忆网络中对应的键值块,以上下文表示作为查询条件,从键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个词对应的文档级别上下文表示以及文档级别草稿标签。
步骤S2-3,将句子级别上下文表示和句子级别草稿标签分别与文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
本实施例中,双通道Transformer包含多个参数不共享但结构一致的层,每一层包括一个内容注意力模块和一个标签注意力模块,分别用于计算内容注意力权重以及标签注意力权重:
式中,表示第i个词对第j个词的内容注意力权重,表示第i个词对第j个词的草稿标签的标签注意力权重,R为采用了相对位置编码的位置编码矩阵,Wqh、Wkh、WkR、Wql、Wkl、ui、vi为可学习的参数。
双通道Transformer的的每一层在得到的注意力权重后,进行如下操作:
Vh=H1Wh,ah=Softmax(Ah2h)Vh,
Vl=L1Wl,al=Softmax(Ah2l)Vl,
H2=FeedForward(LayerNorm(Linear(ah)+H1))
L2=FeedForward(LayerNorm(Linear(al)+L1)).
式中,H1表示句子级别上下文表示与文档级别上下文表示拼接后的向量构成的矩阵,L1表示句子级别草稿标签与文档级别草稿标签拼接后的向量构成的矩阵,Ah2h为所有内容注意力权重,ah表示内容注意力分布,Ah2l为所有标签注意力权重,al表示标签注意力分布,Vh为对H1变换后的表示,Vl为对L1变换后的表示,Wh、Wl均为可学习的参数,最终得到的H2和L2将作为双通道Transformer的下一层输入。
双通道Transformer的最后一层输出的H2和L2用于被连接并预测得到所有修正标签:
通过上述过程,即可得到待识别文档中每个词的修正标签,如图3所示,“Office”的修正标签为B-ORG,“of”和“Fair”的修正标签为I-ORG,“Trading”的修正标签为S-ORG。
步骤S3,判断草稿标签不确定性值是否大于预定的阈值。
步骤S4,当草稿标签不确定性值大于预定的阈值时,将修正标签设置为最终标签。
步骤S5,当草稿标签不确定性值小于等于预定的阈值时,将草稿标签设置为最终标签。
步骤S6,输出最终结果,
本实施例中,为了减轻第一阶段不正确的草稿标签对正确的草稿标签产生负面影响,我们预设一个不确定性阈值Γ,只对草稿标签中不确定行值大于Γ的标签进行修正,并保持其余标签不变。例如,给定u1>Γ,u2≤Γ以及un>Γ,则最终的输出标签序列为
图6是本发明实施例中文档级别命名实体识别方法与以往方法的对比实验结果。
如图6所示,针对CoNLL2003、OntoNotes、CHENDNER三种标准数据集,本实施例的文档级别命名实体识别方法(DocL-NER)相对于传统的各种方法准确率都明显优于目前的其他各种方法。
图7是本发明实施例中文档级别命名实体识别方法与以往方法的效率对比实验结果。
从图7可以看出,文档级别命名实体识别方法(DocL-NER)的训练以及推断速度相对于Hier-Ner的效率分别是2.64倍以及5.48倍,相对于GraphIE和BiLSTM-CRF这两种方法也具有明显的优势。
实施例作用与效果
根据本发明提供的一种文档级别命名实体识别方法,由于通过两阶段标签修正方法来处理文档级标签的一致性依赖关系,即,首先通过一阶段识别来识别出待识别文档中各个词的草稿标签以及不确定性值,并将各个词的草稿标签以及上下文表示构建一个对应的键值记忆网络,然后在使用双通道Transformer对待识别文档进行二阶段识别时,基于键值记忆网络中相同词的上下文和草稿标签信息进行实体识别得到修正标签。因此,通过这样的方式,在草稿标签的不确定性较高时,可以将修正标签进行替换来作为词的最终标签,从而有效减轻不正确的草稿标签的副作用,避免了不确定性很高的草稿标签对最终标签产生的干扰。
在实施例中,由于通过在待识别文档提取词向量以及词标签能够更将详细的获取待识别文档的上下文信息,因此使得得到的最终标签能够更加准确。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (7)
1.一种文档级别命名实体识别方法,用于对待识别文档进行命名实体识别得到该待识别文档中每个词所对应的实体标签,其特征在于,包括如下步骤:
步骤S1,对所述待识别文档进行一阶段识别得到每个所述词所对应的句子级别草稿标签以及所述草稿标签对应的不确定性值,并基于该句子级别草稿标签构建对应所述待识别文档的键值记忆网络;
步骤S2,基于所述键值记忆挖网络对所述待识别文档进行二阶段识别得到每个所述词所对应的修正标签;
步骤S3,依次判断每个所述词对应的所述句子级别草稿标签的所述不确定性值是否大于预定的阈值;
步骤S4,当所述不确定性值大于预定的阈值时,将所述修正标签设置为实体标签;
步骤S5,当所述不确定性值小于等于预定的阈值时,将所述句子级别草稿标签设置为所述实体标签;
步骤S6,输出每个词所对应的所述实体标签,
其中,所述步骤S1包括以下子步骤:
步骤S1-1,将所述待识别文档通过编码前处理得每个所述词的初始词表示以及初始特征;
步骤S1-2,将所述初始词表示通过贝叶斯神经网络进行编码得到前向特征以及后向特征,并将两者拼接形成句子级别上下文表示;
步骤S1-3,通过采样得到标签预测分布,并根据该标签预测分布计算得到每个所述词的句子级别草稿标签以及对应该句子级别草稿标签的不确定性值;
步骤S1-4,将每个词对应的所述句子级别草稿标签以及所述句子级别上下文表示按照键值块存储在所述键值记忆网络中,其中相同的所述词占用一个所述键值块,
所述步骤S2包括以下子步骤:
步骤S2-1,通过单通道Transformer对所述待识别文档进行编码得到每个词对应的上下文表示;
步骤S2-2,根据每个词在所述键值记忆网络中对应的所述键值块,以所述上下文表示作为查询条件,从所述键值块里检索到对应的句子级别上下文表示作为共现表示,并对该共现表示执行注意力机制从而得到每个词的注意力权重,进一步基于该注意力权重、对应的句子级别上下文表示和句子级别草稿标签计算得到每个所述词对应的文档级别上下文表示以及文档级别草稿标签;
步骤S2-3,将所述句子级别上下文表示和所述句子级别草稿标签分别与所述文档级别上下文表示和文档级别草稿标签进行连接,并作为双通道Transformer的输入从而得到该双通道Transformer输出的修正标签。
2.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-1包括以下子步骤:
步骤S1-1-1,通过所述待识别文档得到词向量以及词标签;
步骤S1-1-2,通过词嵌入矩阵进行初始化得到所述初始词表示:
wi=ew(wi)
式中,wi为第i个所述词的所述初始词表示,ew是词嵌入矩阵,wi为初始化词向量;
步骤S1-1-3,将所述词标签通过随机初始化的标签嵌入矩阵进行初始化从而得到初始特征:
lj=el(lj)
式中,lj为所述初始特征,el为所述标签嵌入矩阵,lj为所述词标签;
步骤S1-1-4,通过CNN网络通过编码得到字符级别特征;
步骤S1-1-5,将所述字符级别特征和预先设有的字特征进行拼接得到所述初始特征:
xi=[wi;ci]
式中,xi为所述初始特征,wi为第i个词的所述词表示,ci为所述字特征。
4.根据权利要求1所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述步骤S1-3包括以下子步骤:
步骤S1-3-1,通过所述句子级别上下文表示并根据所述采样得到的结果来计算句子级别草稿标签以及所述不确定性值:
式中,为用于进行所述采样的VLSTM网络参数,T为采样次数,t表示当前为第t次采样,pi为经多次所述采样得到的第i个词的标签预测分布,为第i个词的所述句子级别草稿标签,hi为第i个词的所述句子级别上下文表示,ui为第i个所述句子级别草稿标签的所述不确定性值,pi为第i个词的所述标签预测分布,pc为第c个类别的概率值;
步骤S1-3-2,得到所有所述句子级别草稿标签L*以及所有所述不确定性值U:
U={u1,u2,…,un}
7.根据权利要求6所述的一种文档级别命名实体识别方法,其特征在于:
其中,所述双通道Transformer包含多个参数不共享但结构一致的层,每一所述层包括一个内容注意力模块和一个标签注意力模块,分别用于计算内容注意力权重以及标签注意力权重:
式中,表示第i个词对第j个词的内容注意力权重,表示第i个词对第j个词的草稿标签的标签注意力权重,R为采用了相对位置编码的位置编码矩阵,Wqh、Wkh、WkR、Wql、Wkl、ui、vi为可学习的参数,
所述双通道Transformer的的每一层在得到的注意力权重后,进行如下操作:
Vh=H1Wh,ah=Softmax(Ah2h)Vh,
Vl=L1Wl,al=Softmax(Ah2l)Vl,
H2=FeedForward(LayerNorm(Linear(ah)+H1))
L2=FeedForward(LayerNorm(Linear(al)+L1)).
式中,H1表示所述句子级别上下文表示与所述文档级别上下文表示拼接后的向量构成的矩阵,L1表示所述句子级别草稿标签与所述文档级别草稿标签拼接后的向量构成的矩阵,Ah2h为所有所述内容注意力权重,ah表示内容注意力分布,Ah2l为所有所述标签注意力权重,al表示标签注意力分布,Vh为对H1变换后的表示,Vl为对L1变换后的表示,Wh、Wl均为可学习的参数,最终得到的H2和L2将作为所述双通道Transformer的下一所述层输入,
所述双通道Transformer的最后一层输出的H2和L2用于被连接并预测得到所有所述修正标签:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110155109.2A CN113947083A (zh) | 2021-02-04 | 2021-02-04 | 一种文档级别命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110155109.2A CN113947083A (zh) | 2021-02-04 | 2021-02-04 | 一种文档级别命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113947083A true CN113947083A (zh) | 2022-01-18 |
Family
ID=79327288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110155109.2A Pending CN113947083A (zh) | 2021-02-04 | 2021-02-04 | 一种文档级别命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113947083A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049347A (zh) * | 2022-06-24 | 2023-05-02 | 荣耀终端有限公司 | 一种基于词融合的序列标注方法及相关设备 |
-
2021
- 2021-02-04 CN CN202110155109.2A patent/CN113947083A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049347A (zh) * | 2022-06-24 | 2023-05-02 | 荣耀终端有限公司 | 一种基于词融合的序列标注方法及相关设备 |
CN116049347B (zh) * | 2022-06-24 | 2023-10-31 | 荣耀终端有限公司 | 一种基于词融合的序列标注方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160008B (zh) | 一种实体关系联合抽取方法及系统 | |
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN112380863A (zh) | 一种基于多头自注意力机制的序列标注方法 | |
CN114155477B (zh) | 一种基于平均教师模型的半监督视频段落定位方法 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN112084783B (zh) | 基于民航不文明旅客的实体识别方法及系统 | |
CN113947083A (zh) | 一种文档级别命名实体识别方法 | |
CN117390189A (zh) | 基于前置分类器的中立文本生成方法 | |
CN113822018B (zh) | 实体关系联合抽取方法 | |
CN117271759A (zh) | 文本摘要生成模型训练方法、文本摘要生成方法和装置 | |
CN111680151B (zh) | 一种基于层次化transformer的个性化商品评论摘要生成方法 | |
CN114417891A (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN112650861A (zh) | 一种基于任务分层的人格预测方法、系统及装置 | |
CN114996407B (zh) | 基于包重构的远程监督关系抽取方法及系统 | |
CN116882398B (zh) | 基于短语交互的隐式篇章关系识别方法和系统 | |
CN117669574B (zh) | 基于多语义特征融合的人工智能领域实体识别方法及系统 | |
CN116992035B (zh) | 一种提案智能分类的方法、装置、计算机设备和介质 | |
CN116701576B (zh) | 无触发词的事件检测方法和系统 | |
CN116562305B (zh) | 方面情感四元组预测方法与系统 | |
CN111158640B (zh) | 一种基于深度学习的一对多需求分析识别方法 | |
CN113297828A (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN117648979A (zh) | 知识图谱数据的构建方法、装置和计算机设备 | |
CN117932487A (zh) | 一种风险分类模型训练、风险分类方法及装置 | |
CN116629244A (zh) | 融合理解与生成的文档级事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |