CN112989796B - 一种基于句法指导的文本命名实体信息识别方法 - Google Patents
一种基于句法指导的文本命名实体信息识别方法 Download PDFInfo
- Publication number
- CN112989796B CN112989796B CN202110259151.9A CN202110259151A CN112989796B CN 112989796 B CN112989796 B CN 112989796B CN 202110259151 A CN202110259151 A CN 202110259151A CN 112989796 B CN112989796 B CN 112989796B
- Authority
- CN
- China
- Prior art keywords
- syntactic
- word
- guidance
- text
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000012546 transfer Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000012217 deletion Methods 0.000 claims abstract 2
- 230000037430 deletion Effects 0.000 claims abstract 2
- 239000011159 matrix material Substances 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 8
- 230000007812 deficiency Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明公布了一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层;仅需建模依存句法树结构而无需引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失。采用本发明方法能够避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。
Description
技术领域
本发明提供一种文本命名实体的识别技术,具体涉及一种基于句法指导的文本命名实体信息的识别方法,属于自然语言处理中的信息抽取技术领域。
背景技术
近年来,在自然语言处理技术领域中,神经网络模型凭借其强大的上下文编码能力以及无需人工构建特征的优势,在文本命名实体的识别任务中起着重要作用。然而,为了提高现有神经网络模型的表现,除了建模上下文之外,一个直接的方法就是引入更多的知识,这些知识包括了外部知识,例如知识库;还有文本内部的语言学知识,例如句法信息。
现有的命名实体识别模型中,Jie et al.提出了依存句法指导的命名实体识别模型DGLSTM-CRF,该模型将从文本中抽取出来的句法信息当作正确知识并将它们直接拼接到词向量上(依存关系类型)或通过交互函数建模进模型(依存句法树结构)。然而,这种做法忽视了这些抽取出来的信息中包含的噪声,若在第一步中抽取出的依存关系类型存在错误,则会将错误传递到后续的模型训练及预测中。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于句法指导的文本命名实体信息的识别方法,针对自然语言处理中信息抽取现有技术存在的句法信息中的噪声问题,通过仅建模依存句法树结构而不引入依存关系类型,采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失,避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。
为方便起见,以下列出本发明相关术语名称及含义:
依存句法分析:依存句法是由法国语言学家L.Tesniere最先提出,它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。在依存句法中的共同的基本假设是:句法结构本质上包含词和词对之间的关系,这种关系就是依存关系,其中一个依存关系连接两个词,一个是核心词(head)、另一个是修饰词(dependant)。
依存句法树结构:依存句法树结构是依存句法分析结果的一种典型表示形式。以下给出依存句法树的形式化定义:给定一个集合R={r1,r2,...,rR},其中每个元素表示一种依存关系(比如主谓关系、定中关系等),一个句子的依存树是一棵有向树G=(V,A),满足以下条件:
(1)V={0,1,...,n},V是依存树中顶点的集合;
(2)A是依存树中依存弧的集合。
V是顶点集合,用非负整数表示,V中每个顶点依次与句子s中的单词wi相对应(ROOT编号为0)。A是依存弧集合,用三元组(wi,r,wj)表示,wi和wj是顶点,r表示它们之间的依存关系。本专利规定在三元组(wi,r,wj)中,依存弧由wi指向wj,即wi是wj的父亲结点,r是wj的依存关系类型。
父亲节点:若一个节点含有子节点,则这个节点称为其子节点的父节点。
祖先节点:从根到该节点所经分支上的所有节点。
Transformer:自然语言处理中有一类任务叫做序列到序列(Seq2Seq)任务,常用的结构是基于编码器-解码器(encoder-decoder)框架的,简而言之就是使用编码器把源序列映射成一个向量,然后使用解码器外加一些注意力机制来预测目标序列。常用的Seq2Seq包括了基于循环神经网络(RNN)的、卷积神经网络(CNN)的、变形金刚(Transformer)的,其中基于Transformer的模型由于以下几个特点,取得了较好的表现,被广泛应用:抛弃了传统RNN模型的时序结构,使用位置编码作为替代方案,实现了较高程度的并行化,训练速度较快;它的自注意力机制能够自动捕捉到字之间的联系(从语言学角度来说,就是某种程度上的句法信息),句法信息对于句子级别上的机器翻译任务来说非常重要,且能缓解时序结构模型的长依赖建模中的信息丢失问题。
基于Transformer的模型(或称Transformer模型)的整体结构是个编码器-解码器框架(如图3所示),编码部分由六个编码器(encoder)堆叠而成,每个编码器由多头注意力(multi-head attention)层和前馈神经网络(feed forward)层组成;解码部分由六个解码器(decoder)组成,每个解码器在编码器基础上,在多头注意力层和前馈网络层之间添加了一层编码器-解码器注意力层用来对源端词到目标端词的依赖关系进行建模。在编码器、解码器结构内部的层与层之间,还进行了残差计算和归一化操作来防止随着编码器的层数增加而发生梯度消失,保证训练的稳定性。
上述Transformer模型总框架中的多头注意力层是由h个自注意力层的输出拼接起来,然后用一个降维矩阵将拼接得到的维度较大的矩阵压缩成正常大小,避免后续矩阵操作维度过大导致整个开销较大。公式为MultiHead(Q,K,V)=Concat(Z0,Z1,...,Zh)*Wo,其中 多头注意力层的作用是:从机器学习角度来说,通过学习更多的参数提高了模型的拟合能力,从语言学角度来说,通过不同子空间来表示不同角度的语言学特征(比如某个子空间用来表示依存关系,另一个子空间用来表示指代信息)。
在自注意力层中对于每一个输入词向量,使用三个64*64维的可训练矩阵(WK、WQ、WV),分别对输入矩阵做乘法得到三个矩阵K、Q、V,对Q和K进行点积操作,得到输入句子中每个词与其他词之间的打分,通过归一化指数函数(softmax)得到在某个位置编码特定单词时,应该将多少注意力集中于输入句子的其他部分,也就是对其他每个词的权重,使用权重对V进行加权求和,得到带注意力机制的表示Z。公式为Q=XWQ,K=XWK,V=XWV, 其中,X是输入矩阵;WK、WQ、WV是可训练矩阵。
由于上述自注意力层本质上是计算词与词之间的相互联系,而未对每个词的顺序进行建模,于是在词表示进入编码器之前,使用一个与词嵌入维度一样的位置编码,加在词表示上,再输入编码器以对词序进行建模。
本发明通过仅建模依存句法树结构而不引入依存关系类型来避免抽取出的依存关系类型的错误传递问题,同时,考虑到正确的依存关系类型确实能帮助模型更好地预测实体类型(如Jie文献中举的例子:从near指向premises的介宾关系可以帮助判断premises实体是地点),为了弥补不引入依存关系类型带来的信息缺失,我们引入了词级别的词性信息,这种较低级别的信息在抽取时的准确率相较于句级别信息更高、也更易获取,同时一定程度上也可以辅助实体类型的判断,例如上述Jie文献例子中near的介词词性可以指导模型其邻近词premises更大概率是地点类型实体。
本发明的核心是:对一个句子,构建它的句法依存树,该句中的命名实体都作为完整的叶子结点出现在此句法依存树当中。通过采用注意力机制,使得树中的每个结点关注以此结点作为子树的树中的所有叶子结点和此结点本身。这种注意力机制既从句法中获益引导模型去关注可能的命名实体(命名实体常常作为句法依存树的叶子结点),又能使得模型获取词汇的格子(Lattice)信息(句法依存分析的过程中就进行了分词,每个结点关注自己本身就获得了完整的Lattice信息)。
本发明提供的技术方案是:
一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层(由下述的A、B、C、D、E、F、G步骤组成)、表示融合层(由下述的H步骤组成)、条件随机场(CRF)解码层(由下述的I步骤组成)。其中,基于Transformer模型的编码层用来将输入的句子文本编码为词向量作为词表示,便于进行计算;句法指导自注意力层对上一层得到的原词表示(与句法指导的词表示作区分)进行加权求和得到句法指导的词表示,这一层通过句子的句法信息来指导模型应该更关注句中的哪一些词并对这些词赋予更大的权重;表示融合层将上一层得到的句法指导的词表示和原词表示进行加权求和,得到最终的词表示;条件随机场(CRF)解码层对最终的词表示进行解码,得到输入句子中每个词对应的实体类型标签,也就是模型的输出结果。上述方法通过仅建模依存句法树结构而不引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失;包括如下步骤:
1)构建句法指导自注意力层,得到每个文本句子的句法指导的表示;包括步骤A~G:
A.获取每个文本句子的依存句法树;
给定一个文本句子S,S={s1,s2,...,si,...,sn},si为文本句子S中的每个词,n为S包含的词的个数,使用预训练好的依存句法解析器(本发明使用了pyhanlp工具)得到每个句子的依存句法树,依存句法树中的每个节点也就是句子中的每个词si;
B.根据依存句法树结构对树中每个节点,计算其祖先节点集合Pi;
C.对于每个词si以及它的祖先节点集合Pi,i和j为句子中第i和第j个词的下标,根据如下公式计算遮盖矩阵n为句子长度:
由上式可知,遮盖矩阵M的含义为:如果M[i,j]=1则表示si是sj的祖先节点。
D.对于Transformer模型中的最后一层编码器中的第i个头,将其输出Zi通过矩阵乘法映射成三个矩阵:
K′i=ZiWi K
Q′i=ZiWi Q
V′i=ZiWi V
其中,n为句子长度,/>
dmodel设置为512,dk和dv设置为64。
E.将上述得到的矩阵K′i,Q′i和C步骤得到的遮盖矩阵M点乘,得到注意力权重
其中,分母上的用来防止点积的值随着维度的增大而急剧增大,从而导致计算得到的梯度过小。softmax为归一化指数函数。
F.将矩阵Vi′与注意力权重A′i相乘,得到每个头的句法指导的词表示
Wi′=A′iVi′
G.将每个头的词表示Wi′拼接起来,通过一个全连接层并通过GeLU激活函数得到句法指导的表示
H′=GeLU(Cat(H1,…,Hn)WO)
其中,n为句子长度,/>Cat表示拼接操作,GeLU为激活函数。
2)构建表示融合层,根据每个文本句子的句法指导的表示和原词表示,得到文本句子最终句法指导的表示;包括步骤:
H.对句法指导的表示H′={h′1,h′2,...,h′n}和通过基于Transformer模型的编码层得到的原词表示H={h1,h2,...,hm}加权,得到最终句法指导的表示G=(g1,g2,...,gn);
其中,gi=αhi+(1-α)h′i,
3)构建条件随机场解码层,包括步骤:
I.将最终句法指导的表示输入条件随机场(CRF)中,得到每个词对应的实体标签;对于H步骤得到的表示接一个全连接层来获取每个词对应的实体标签得分
S=softmax(WG+b)
其中,Sij为第j个字符为第i个标签的分数,其中n为输入序列长度,k为标签集合的大小。
将Sij作为条件随机场模型中的发射分数矩阵,则对于一条可能的预测标签序列y=(y1,y2,...,yn),序列的得分计算公式表示为:
其中,为通过梯度下降算法可习得的转移分数矩阵,/>表示标签yi转移到标签yi+1的转移分数;/>为第i个字符为第yi个标签的分数。通过序列得分可以进一步算出序列的条件概率P(y|X):
其中,YX为将标签集合进行排列得到的所有可能的标签序列。
参数学习过程基于最大化对数似然函数(损失函数)来求解模型参数,损失函数如下:
通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。
4)训练完成的模型即可用来做预测,条件随机场的预测过程基于维特比算法求解最优预测序列y*,y*为对应于每个输入词的实体标签结果序列,即:
通过上述步骤,实现基于句法指导的文本命名实体信息识别。
与现有技术相比,本发明的有益技术效果:
通过本发明所提供的句法信息指导的命名实体识别技术,通过仅建模依存句法树结构而不引入依存关系类型,采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失,避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题,降低了从文本中抽取出的句法信息中的噪声对模型预测结果的影响,提高了命名实体识别模型的表现,提高命名实体识别的准确性。
附图说明
图1是本发明提供的基于句法指导的文本命名实体信息识别模型的总体结构示意图;
其中,从下至上分别为模型的Transformer编码层、句法指导的自注意力层、表示融合层、CRF解码层。
图2是本发明提供文本命名实体信息方法的流程框图。
图3是Transformer模型框架图;
本发明中采用的基于Transformer模型的编码层为此图左侧的编码器模块。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供了基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括Transformer编码层、句法指导自注意力层、表示融合层、CRF解码层;通过仅建模依存句法树结构而不引入依存关系类型,采用抽取准确率高、易于获取的词级别的词性信息弥补不引入依存关系类型带来的信息缺失,避免自然语言处理中信息抽取中抽取出的依存关系类型的错误传递问题。
具体实施时,我们使用了Pytorch作为深度学习框架,pyhanlp来进行依存句法分析,chinese_roberta_wwm_ext_pytorch作为预训练模型。预训练模型学习率设置为2e-5,CRF学习率设置为1e-3,warm-up率设置为0.1,L2权重衰减设置为0.01,批大小设置为128,最大训练轮数设置为10。表示融合中的权重设置为0.5。最大输入长度设置为52。使用wordpiece进行分词。Transformer编码层的参数参照文献(Vaswani,Ashish,NoamShazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,Lukasz Kaiser,and Illia Polosukhin.“Attention Is All You Need.”ArXiv:1706.03762[Cs],December 5,2017.http://arxiv.org/abs/1706.03762.),使用6个编码器堆叠而成,每个编码器具有8个头,dmodel为512维,dk和dv为64维。
本发明的具体实施方式,其模型总框架如图1所示,包括Transformer编码层、句法指导的自注意力层、表示融合层、CRF解码层。
训练样本包括中文命名实体识别数据样本,具体来说是CLUENER中文命名实体识别数据集。
此数据集包括了十个标签类别:地址(address)、书名(book)、公司(company)、游戏(game)、政府(government)、电影(movie)、姓名(name)、组织机构(organization)、职位(position)、景点(scene)。数据集一共包括了10748条训练数据(在train.json文件中)和1343条验证数据(在dev.json文件中)。
以train.json为例,数据分为两列:text和label,其中text列代表文本,label列代表文本中出现的所有包含在10个类别中的实体。
基于句法指导的文本命名实体信息识别模型的训练和预测方法流程如图2所示,包括以下步骤:
A.获取每个文本句子的依存句法树;
给定一个文本句子S,S={s1,s2,...,si,...,sn},si为文本句子S中的每个词,n为S包含的词的个数,使用预训练好的依存句法解析器(本发明使用了pyhanlp工具)得到每个句子的依存句法树,依存句法树中的每个节点也就是句子中的每个词si;
B.根据依存句法树结构对树中每个节点,计算其祖先节点集合Pi;
C.对于每个词si以及它的祖先节点集合Pi,i和j为句子中第i和第j个词的下标,根据如下公式计算遮盖矩阵M:
由上式可知,遮盖矩阵M的含义为:如果M[i,j]=1则表示si是sj的祖先节点。
D.对于Transformer模型中的最后一层编码器中的第i个头,将其输出Zi映射成三个矩阵K′i,Q′i,Vi′。
E.将矩阵K′i,Q′i和遮盖矩阵M点乘,得到注意力权重A′i,表示为:
F.将矩阵Vi′与注意力权重A′i相乘,得到每个头的句法指导的词表示Wi′:
Wi′=A′iVi′
G.将每个头的词表示Wi′拼接起来,通过一个全连接层并通过GeLU激活函数得到句法指导的表示H′={h′1,h′2,...,h′n};
H.对句法指导的表示H′={h′1,h′2,...,h′n}和通过基于Transformer模型的编码层得到的原词表示H={h1,h2,...,hn}加权,得到最终句法指导的表示gi=αhi+(1-α)h′i;
I.将最终句法指导的表示输入条件随机场(CRF)中,得到每个词对应的实体标签;对于输入文本x=(g1,g2,...,gn),通过基于句法指导的文本命名实体信息识别模型接一个全连接层来获取每个词对应的实体标签得分Sn×k:
S=softmax(Wgi+b)
其中Sij为第i个字符为第j个标签的分数,其中n为输入序列长度,k为标签集合的大小。
将Sij作为条件随机场模型中的发射分数矩阵,则对于一条可能的预测标签序列y=(y1,y2,...,yn),序列的得分计算公式表示为:
其中,A为通过梯度下降算法可习得的转移分数矩阵,表示标签yi转移到标签yi+1的转移分数。通过序列得分可以进一步算出序列的条件概率P(y|X):
其中,YX为将标签集合进行排列得到的所有可能的标签序列。
参数学习过程基于最大化对数似然函数来求解模型参数,损失函数如下:
通过梯度下降优化算法迭代地找到损失函数的最小值完成神经网络的参数训练过程。训练完成的模型即可用来做预测,条件随机场的预测过程基于维特比算法求解最优预测序列y*,y*为对应于每个输入词的实体标签结果序列,即:
通过上述步骤,实现基于句法指导的文本命名实体信息识别。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (9)
1.一种基于句法指导的文本命名实体信息识别方法,构建基于句法指导的文本命名实体信息识别模型,模型包括基于Transformer模型的编码层、句法指导自注意力层、表示融合层、条件随机场CRF解码层;仅需建模依存句法树结构而无需引入依存关系类型,通过采用注意力机制,采用抽取准确率高、易于获取词级别的词性信息弥补不引入依存关系类型带来的信息缺失;包括如下步骤:
1)构建句法指导自注意力层,得到每个文本句子的句法指导的表示;
基于Transformer模型的编码层用于将输入的句子文本编码为词向量作为词表示;构建的句法指导自注意力层对上一层得到的原词表示进行加权求和,得到句法指导的词表示;构建句法指导自注意力层包括步骤A~G:
A.获取每个文本句子的依存句法树;
给定一个文本句子S,S={s1,s2,...,si,...,sn},si为文本句子S中的每个词,n为S包含的词的个数;通过预训练好的依存句法解析器得到每个句子的依存句法树,依存句法树中的每个节点即句子中的每个词si;
B.根据依存句法树结构对树中每个节点,计算其祖先节点集合Pi;
C.对于每个词si和它的祖先节点集合Pi,根据如下公式计算遮盖矩阵M:
其中,i和j为句子中第i和第j个词的下标;遮盖矩阵M的含义为:如果M[i,j]=1则表示si是sj的祖先节点;
D.对于Transformer模型中的最后一层编码器中的第i个头,将其输出Zi映射成三个矩阵K′i,Q′i,V′i;
E.将矩阵K′i,Q′i和遮盖矩阵M点乘,得到注意力权重A′i;
F.将矩阵V′i与注意力权重A′i相乘,得到每个头的句法指导的词表示W′i;
G.将每个头的词表示W′i拼接起来,通过一个全连接层并通过GeLU激活函数得到句法指导的表示H′={h′1,h′2,...,h′i,...,h′n},
2)构建表示融合层,根据每个文本句子的句法指导的表示和原词表示,得到文本句子最终句法指导的表示;包括步骤:
H.对句法指导的表示H′={h′1,h′2,...,h′n}和通过基于Transformer模型的编码层得到的原词表示H={h1,h2,...,hn}加权,得到最终句法指导的表示G=(g1,g2,…,gn);其中,gi=αhi+(1-α)h′i;
3)构建条件随机场解码层,对最终的词表示进行解码,得到输入句子中每个词对应的实体类型标签,即模型的输出结果;包括如下步骤:
I.将最终句法指导的表示输入条件随机场CRF中,得到每个词对应的实体标签;
对于H步骤得到的最终句法指导的表示通过接一个全连接层获取每个词对应的实体标签得分/>
S=softmax(WG+b)
其中,Sij为第j个字符为第i个标签的分数,其中n为输入序列长度,k为标签集合的大小;
将Sij作为条件随机场模型中的发射分数矩阵,对于一条可能的预测标签序列y=(y1,y2,…,yn),通过如下公式计算得到序列的得分:
其中,A为通过梯度下降算法可习得的转移分数矩阵;表示标签yi转移到标签yi+1的转移分数;通过序列得分进一步算出序列的条件概率P(y|X);
参数学习过程基于最大化对数似然函数作为损失函数,求解模型参数;
通过梯度下降优化算法进行迭代,找到损失函数的最小值,完成神经网络的参数训练过程;
4)利用训练完成的模型进行预测,条件随机场的预测过程基于维特比算法求解最优预测序列y*,即:
其中,y*为对应于每个输入词的实体标签结果序列;
通过上述步骤,实现基于句法指导的文本命名实体信息识别。
2.如权利要求1所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤A中,预训练好的依存句法解析器具体使用pyhanlp工具获取每个文本句子的依存句法树。
3.如权利要求1所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤D中,将Zi通过矩阵乘法映射成三个矩阵,表示为:
其中,n为句子长度;/>
4.如权利要求1所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤E中,通过如下公式计算得到注意力权重A′i:
其中,M为C步骤中得到的遮盖矩阵,Q′i和K′i为D步骤得到的矩阵,dk为超参数,softmax为指数归一化函数。
5.如权利要求1所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤F中,通过如下公式计算得到每个头的句法指导的词表示W′i:
W′i=A′iV′i
其中,A′i为D步骤中得到的注意力权重矩阵,V′i为D步骤得到的矩阵。
6.如权利要求1所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤I中,对于H步骤得到的矩阵表示G=(g1,g2,…,gn),通过一个全连接层加softmax激活函数得到每个词对应的实体标签得分矩阵S,表示为:
S=softmax(WG+b)
其中,Sij为第j个字符为第i个标签的分数,其中n为输入序列长度,k为标签集合的大小。
7.如权利要求6所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤I中,根据以下公式,通过序列得分算出序列的条件概率P(y|X):
其中,YX为将标签集合进行排列得到的所有可能的标签序列。
8.如权利要求7所述基于句法指导的文本命名实体信息识别方法,其特征是,步骤I中,求解模型参数的损失函数如下:
其中,s(X,y)为序列得分;YX为将标签集合进行排列得到的所有可能的标签序列。
9.如权利要求1所述基于句法指导的文本命名实体信息识别方法,其特征是,具体使用Pytorch作为深度学习框架;使用pyhanlp进行依存句法分析;将chinese_roberta_wwm_ext_pytorch作为预训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110259151.9A CN112989796B (zh) | 2021-03-10 | 2021-03-10 | 一种基于句法指导的文本命名实体信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110259151.9A CN112989796B (zh) | 2021-03-10 | 2021-03-10 | 一种基于句法指导的文本命名实体信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989796A CN112989796A (zh) | 2021-06-18 |
CN112989796B true CN112989796B (zh) | 2023-09-22 |
Family
ID=76336300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110259151.9A Active CN112989796B (zh) | 2021-03-10 | 2021-03-10 | 一种基于句法指导的文本命名实体信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989796B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221539B (zh) * | 2021-07-08 | 2021-09-24 | 华东交通大学 | 一种集成句法信息的嵌套命名实体识别方法与系统 |
CN113822018B (zh) * | 2021-09-16 | 2022-06-14 | 湖南警察学院 | 实体关系联合抽取方法 |
CN113626608B (zh) * | 2021-10-12 | 2022-02-15 | 深圳前海环融联易信息科技服务有限公司 | 增强语义的关系抽取方法、装置、计算机设备及存储介质 |
CN114742034A (zh) * | 2022-03-23 | 2022-07-12 | 北京快确信息科技有限公司 | 基于句法依存的交易信息识别方法、装置、系统及介质 |
CN114626363B (zh) * | 2022-05-16 | 2022-09-13 | 天津大学 | 一种基于翻译的跨语言短语结构分析方法及装置 |
CN116541705A (zh) * | 2023-05-06 | 2023-08-04 | 石家庄铁道大学 | 文本分类模型的训练方法及文本分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
CN111291221A (zh) * | 2020-01-16 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 对数据源生成语义描述的方法、设备和电子设备 |
CN111783461A (zh) * | 2020-06-16 | 2020-10-16 | 北京工业大学 | 一种基于句法依存关系的命名实体识别方法 |
WO2020261234A1 (en) * | 2019-06-28 | 2020-12-30 | Tata Consultancy Services Limited | System and method for sequence labeling using hierarchical capsule based neural network |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1452102A (zh) * | 2002-04-19 | 2003-10-29 | 英业达股份有限公司 | 不完全提示造句系统及其方法 |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
-
2021
- 2021-03-10 CN CN202110259151.9A patent/CN112989796B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN109543183A (zh) * | 2018-11-16 | 2019-03-29 | 西安交通大学 | 基于深度神经网络和标注策略的多标签实体-关系联合提取方法 |
WO2020261234A1 (en) * | 2019-06-28 | 2020-12-30 | Tata Consultancy Services Limited | System and method for sequence labeling using hierarchical capsule based neural network |
CN111291221A (zh) * | 2020-01-16 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 对数据源生成语义描述的方法、设备和电子设备 |
CN111783461A (zh) * | 2020-06-16 | 2020-10-16 | 北京工业大学 | 一种基于句法依存关系的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112989796A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989796B (zh) | 一种基于句法指导的文本命名实体信息识别方法 | |
CN109344391B (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
CN110309287B (zh) | 建模对话轮次信息的检索式闲聊对话打分方法 | |
CN109948152A (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN114722839B (zh) | 人机协同对话交互系统及方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN111611346A (zh) | 一种基于动态语义编码和双注意力的文本匹配方法及装置 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
CN112069781B (zh) | 一种评语生成方法、装置、终端设备及存储介质 | |
CN113901847A (zh) | 基于源语言句法增强解码的神经机器翻译方法 | |
CN112905772B (zh) | 语义相关性分析方法、装置及相关产品 | |
CN113807079A (zh) | 一种基于序列到序列的端到端实体和关系联合抽取方法 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN114298011A (zh) | 神经网络、训练方法、方面级情感分析方法、装置及存储介质 | |
Baranwal et al. | Extracting primary objects and spatial relations from sentences | |
CN114036246A (zh) | 商品图谱向量化方法、装置、电子设备及存储介质 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN110929265B (zh) | 一种面向阅读理解问答的多角度答案验证方法 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
US20240153508A1 (en) | End-to-End Speech Recognition Adapted for Multi-Speaker Applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |