CN113128229B - 一种中文实体关系联合抽取方法 - Google Patents
一种中文实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN113128229B CN113128229B CN202110397595.9A CN202110397595A CN113128229B CN 113128229 B CN113128229 B CN 113128229B CN 202110397595 A CN202110397595 A CN 202110397595A CN 113128229 B CN113128229 B CN 113128229B
- Authority
- CN
- China
- Prior art keywords
- relation
- entity
- layer
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 80
- 230000007246 mechanism Effects 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 30
- 238000010276 construction Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000003935 attention Effects 0.000 abstract description 25
- 238000009825 accumulation Methods 0.000 abstract description 4
- 230000010332 selective attention Effects 0.000 abstract description 2
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种中文实体关系联合抽取方法,包括使用bert模型学习字符向量,字符向量拼接字形特征及字符位置信息;使用双向LSTM模型学习字符特征;使用选择性注意力机制进行实体识别;使用层次注意力机制LSTM进行关系抽取方法。本申请通过底层共享网络参数的方式,进行联合知识抽取,解决抽取中实体识别和关系抽取错误累计的问题;通过引入分词与词表向量,在词向量中拼接中文特征,解决中文特征信息不充分的问题;通过在结合自注意力机制的双向LSTM编码层,对长距离序列进行建模;通过层级注意力机制,解决实体关系之间关联不足的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种中文实体关系联合抽取方法。
技术背景
实体关系抽取是信息抽取的关键任务之一,主要用于从非结构化文档中自动抽取用户关注的实体和实体之间的关系,广泛应用于自然语言处理领域,如知识图谱构建、智能问答、推荐系统等。知识抽取是级联任务,分为两个子任务:实体抽取和实体关系抽取。
实体关系抽取方法主要有pipeline方法和联合抽取方法,目前,中文实体关系抽取主要通过pipeline方式进行抽取,这种方法存在如下不足:1、pipeline方法将命名实体识别和关系抽取两部分分开进行,先进行命名实体识别,将实体识别的结果放入关系抽取任务中进行实体间关系的识别,没有考虑到两个任务之间的关联性,会导致命名实体识别过程中识别的无效实体信息传入关系抽取任务时带来错误的累计;2、由于现有的语言模型没有考虑中文信息中包含的丰富的语义信息例如字形特征,以及句子中实体关系词之间的位置信息等特征信息,充分利用这些信息能为抽取效果带来较好的提升;3、长距离依赖问题:循环神经网络理论上可以建立长距离依赖关系,但是由于信息传递的容量以及梯度消失问题,传统方法中采用LSTM处理输入的句子时会出现语义向量不能完全表示整个序列,这也就直接导致了模型无法对长距离序列进行建模;4、实体关联不足问题:对句子进行关系抽取时,只是简单的对两个实体的编码进行处理,没有充分考虑实体之间的关联信息,关系抽取的结果不准确。
发明内容
本发明的目的是提供一种基于自注意力机制和层次注意力机制的参数共享实体关系联合抽取方法,通过命名实体识别和关系抽取共用底层BiLSTM编码层,以及将两个任务的损失函数结合作为模型最终的损失函数的方式进行参数共享,实现命名实体识别和关系抽取两个任务的关联,从而实现联合抽取,解决pipeline方法中误差累计的问题;通过引入中文字形特征和位置特征,解决中文特征信息缺少的问题;通过引入自注意力机制,自注意力机制对每个词和所有词都计算注意力,所以不管两个词中间有多长距离,他们的最大路径长度都为1,捕捉当前输入中对输出最重要的部分,解决句子的长距离依赖问题;通过树形LSTM模型结合层次注意力机制,解决实体关联信息不足的问题。
本申请采用如下技术方案:
一种中文实体关系联合抽取方法,包括:
步骤一,多特征中文词嵌入:使用bert模型学习字符向量,字符向量拼接字形特征和字符位置信息作为词嵌入向量;
步骤二,自注意力机制BiLSTM编码层:将步骤一中词嵌入层得到的中文多特征词嵌入向量输入自注意力机制BiLSTM编码层中,使用自注意力双向LSTM编码器模型学习字符上下文信息特征,得到隐层输出结果;
步骤三,命名实体识别:将步骤二中隐层输出结果作为命名实体识别模块的输入,使用LSTM结合softmax进行命名实体识别;
步骤四,层次注意力机制关系抽取:将步骤二中隐层输出结果作为关系识别模块的输入,使用层次注意力机制LSTM进行关系分类。
具体地,所述步骤一中使用卷积神经网络模型,以汉字的五笔编码为输入,自动提取字形特征,同时,通过bert模型分词后,该字在词中的开头、中间和结尾的位置不同,通过独热方式生成边界特征向量,在Embeding层中将字符向量、字形向量、词边界特征向量进行拼接。
使用bert模型学习字符向量,bert是一种基于微调的多层双向Transformer编码器,对于给定的词,BERT最终输入的向量由三部分token向量(token Embeddings)、分句向量(Segment Embeddings)以及位置向量(PositionEmbeddings)组成,其中token向量为token的词向量,分句向量用于让模型能够区分两个句子,位置向量用于为Transformer编码器补充词的位置信息编码。为了更合理地引入该字所属于的词的词向量信息,使用卷积神经网络模型,以汉字的五笔编码为输入,提取字形特征。最终拼接bert的输出向量和字形特征向量,得到最终的词嵌入向量。
具体地,所述步骤二中自注意力双向LSTM编码器为:将Embedding向量输入自注意力层,得到注意力输出,将自注意力输出结果输入BiLSTM模型中,获取每个字符序列的上下文信息,自注意力BiLSTM编码层的编码结果由命名实体识别和关系抽取两个模块共同使用,实现编码层的参数共享。
将步骤一中词嵌入层得到的中文多特征词嵌入向量输入自注意力机制BiLSTM编码层中,该层是后续命名实体识别和关系抽取任务共用的底层编码层。LSTM是一种特殊的循环神经网络,主要是通过遗忘、输入和输出几个门对当前信息进行取舍。双向LSTM循环神经网络BiLSTM是在LSTM基础上添加一层反向LSTM模型组合而成,通过BiLSTM编码器模型,能够学习到句子的上下文信息表征;通过引入自注意力机制与BiLSTM编码层结合,解决句子的长距离依赖问题,该层得到的隐层输出结果作为后续的命名实体识别和关系抽取任务中的输入。
具体地,所述步骤三中命名实体识别具体为:自注意力双向LSTM编码器的输出结果,通过LSTM进行解码,最后通过softmax预测实体标签。
具体地,所述步骤四中实体关系分类具体为:双向LSTM编码器和实体识别softmax输出结果进行拼接,输入关系抽取模块的树形LSTM层中,输出实体关系分类特征向量。
关系识别模块同样使用步骤二中的自注意力BiLSTM编码层的隐层输出,并使用层次注意力机制进行关系分类。句子的依存关系可看作一种树形结构,因此具有明显的层次结构,不同层包含不同的粒度信息,为了综合利用不同层次上不同粒度信息对关系的重要程度,使用注意力机制对不同层上的节点计算注意力权重。
优选地,步骤四之后还包括:步骤五,模型损失函数设置:设置模型的损失函数为步骤三中命名实体识别的损失函数和步骤四种关系抽取损失函数之和,进行训练。
进一步地,所述模型损失函数为:
Loss=α*Entity_Loss+β*Relation_Loss;其中Entity_Loss为实体识别损失函数,Relation_Loss为实体关系抽取损失函数,α、β为损失函数权重,α、β>=1。
与现有技术相比,本发明的有益效果在于:
本申请通过将底层BiLSTM编码层作为命名实体识别和关系抽取的共用编码层,并且将两个任务的损失函数结合作为模型整体的损失函数,实现实体识别和关系抽取两个子任务之间参数的共享,实现联合知识抽取,解决抽取中实体识别和关系抽取错误累计的问题;通过引入分词与词表向量,在词向量中拼接中文字形特征和位置特征,解决中文特征信息不充分的问题;通过在BiLSTM中结合自注意力机制,对每个词和所有词都计算注意力,解决循环神经网络的不能对长距离序列建模的问题;通过将句子转为依存句法树,对树形结构上的不同层次节点使用层级注意力机制,解决实体关系之间关联不足的问题,克服了现有技术的不足。
附图说明
图1为本发明方法的流程示意图;
图2为方法步骤一中多特征中文词嵌入的流程图;
图3为方法步骤二中自注意力BiLSTM编码器的工作流程示意图;
图4为方法步骤三中实体识别方法流程示意图;
图5为方法步骤四中实体关系抽取流程示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
本发明所述一种中文实体关系联合抽取方法,通过底层共享网络参数的方式,进行联合抽取,解决实体识别和关系抽取中误差累计的问题;通过引入中文字形特征和位置特征,解决中文特征信息缺少的问题;通过引入选择性注意力机制,解决远程监督错误标注问题;通过树形LSTM模型结合层次注意力机制,解决实体关联信息不足的问题。
如图1-5所示,为本申请的一种中文实体关系联合抽取方法,包括:
步骤1:多特征中文词嵌入
首先利用Bert的Tokenizer分词器对输入文本做切分操作,并在句首添加输入开始标记“CLS”以及在句尾添加句子的结束标记“SEP”,将句子转换为token序列P={“CLS”,c1,c2,c3,…,cn,”SEP”},其中c1∈C,本文选用以中文字为单位的分割方式,cn便代表每个位置上对应的中文汉字;n表示段落中汉字的个数,C表示所有字符空间。将token映射为向量与位置向量、分句向量进行求和,作为Bert模型的输入向量。将token向量传入多层Transformer编码器中获取每个token的特征向量。将拆分的subword每一维求平均值作为原始单词的输出,保证输入输出序列长度的一致性。
将输入的句子表示成序列形式:W=[w1,w2,...,wn],w表示输入中文句子的以字为单位的切分,就是句子中每个位置上的中文汉字;n表示输入句子的长度,经过bert层编码后得到最终输出序列E=[e0,e1,...,en,en+1]∈R(n+2)*dT,其中R代表实数集合,dT为bert的隐藏层维度,e0为“CLS”对应的语义编码,en+1为“SEP”对应的语义编码,en为第n个词对应的语义编码。
中文包含丰富的语义特征,但由于分词工具的误差问题,分词会产生较大的歧义,为了歧义问题,更合理地引入该字所属于的词的词向量信息,采用了CNN模型,以汉字的五笔编码为输入,自动提取字形特征。同时,将该字在词中的开头、中间和结尾的位置不同,通过独热方式生成边界特征向量。最后如图2,在Embeding层中将bert向量、字形特征向量、词边界特征向量进行拼接,作为BiLSTM编码层的输入。
步骤2:自注意力机制BiLSTM编码器
该编码器包括自注意力层,前向LSTM层、后向LSTM层及合并层。Bert层将输入的句子表示为分布式表示,因此一个句子序列可表示为:
X={x1,...,xt,xt+1...,xn},xt∈Rd表示与句子中第t个词相对应的一个d维词向量,n表示所给句子的长度。
编码流程见图3,首先将句子序列输入自注意力层,自注意力机制使用缩放点击注意力作为打分函数,输入文本经过词嵌入层输出表示为其中R为实数集合,n表示输入句子序列的长度,dencoder表示bert隐层的维度,则有Q=K=V=W,其中Q代表Query;K代表Key;V表示Value。自注意力机制首先对Q、K、V进行线性变换,随后计算线性变换后的Q和K的内积,最后通过softmax归一化得到权重分布,并对V加权求和得到自注意力的输出表示:
其中,Q∈Rn×d,K∈Rn×d,V∈Rn×d,KT为K的转置,n为输入序列的长度。为缩放因子,防止内积过大时导致softmax计算的结果非0即1,Matt={m1,m2,...,mn}其维度为Rn×d。其中,d为词嵌入的维度。
将自注意力的序列表示输入BiLSTM模型中的前向LSTM层x1到xn的上下文信息进行编码,记为同样的,该句子序列被后向LSTM基于xn到x1上下文信息进行编码,记为/>其中,/>和/>需要通过LSTM中的输入、输出及遗忘三个门控单元进行状态更新,可分别记为:
和/>ht-1为LSTM中上一细胞的隐层向量,ct-1为上一细胞状态的输出向量,xt为输入的词向量。具体步骤为:
输入门:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
遗忘门:
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
输出门:
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
状态候选值:
zt=tanh(Wxcxt+Whcht-1+Wtcct-1+bc)
状态更新:
ct=itzt+ftct-1
ht=ottanh(ct)
其中,公式中it代表当前LSTM的输入,Wxi,Wxi,Wxi代表输入门的权重参数,bi为输入门的偏置参数;ft代表当前LSTM需要遗忘的信息,Wxf,Wxf,Wxf代表遗忘门的权重参数,bf为遗忘门的偏置参数;ot代表当前LSTM输出的内容,Wxo,Wxo,Wxo代表输出门的权重参数,bo为输出门的偏置参数;zt代表当前LSTM中新学到的东西,Wxc,Wxc,Wxc代表候选状态的权重参数,bc为候选状态的偏置参数;ct为LSTM的更新后的值,ht为最终序列的隐层输出结果。
最后,连接两个向量作为当前时刻的隐层向量
步骤3:命名实体识别;
命名实体部分见图4,本模块采用LSTM网络对标签信息显示建模,当预测单词t的实体标签时,将BiLSTM编码层的输出向量ht,实体识别中LSTM层中的前一个隐藏层状态Ht-1以及前一个单词的标签预测向量Tt-1作为LSTM层的输入,编码层的编码具体计算同步骤2。
使用softmax归一化进行标签预测:
yt=WyTt+by
其中Wy是权重参数,by是偏置参数,Tt为标签预测向量,yt表示标签的得分向量,表示第i个标签的得分概率,/>为标签i的得分,Nt为实体标签的总数量,j为实体标签的位置,/>为j位置的标签得分。
步骤4:层级注意力机制关系抽取;
关系抽取流程见图5,关系抽取模块为依赖树结构模型,将从实体识别模块获取的句子标签的编码信息[ht,ht+1,...,hn],(hi∈Rd)和BiLSTM编码层得到的实体间的子句信息[wt,wt+1,...,wn](wi∈Rd)进行拼接,wt代表当前位置的中文汉字经过BiLSTM的到的隐层编码结果,t代表头实体在句子中的结束位置,作为该模块的输入H。
关系识别模块首先采用双向树状结构网络模型,通过捕获目标词对周围的依存关系结构来表示候选关系,从而能够识别两个实体间的先后序列关系,其构造步骤为:将预先定义的底层关系集合R经过k-1次层次生成后得到总共k层的层次关系集{R1,R2,...,Rk},R1则是我们需要抽取的底层关系集,对需要提取的特定关系r1∈R1,通过(r1,...,rk)∈R1×...×Rk回溯关系层次构建其祖先关系层次链从而得到树形层次链,父节点为关系集Rk。
为每个关系r分配一个注意力机制查询向量qr,在关系依赖树的每层上进行注意力机制操作,得到对应的文本关系表示:
其中,是最终得到的关系文本表示,qri为第i层关系的注意力权重参数,H(h,t)为头尾实体组成的实体对。
树形结构具有明显的层次结构,不同层具有不同的粒度信息,为了综合利用不同层次上不同粒度的注意力特征,使用层次注意力机制对不同层的文本关系表示进行拼接,将得到的文本关系表示S作为模型后续部分的输入参与条件概率计算,通过softmax层计算条件概率:
其中,θ为全部模型的参数,|R|是关系类型的总数,o是神经网络的最终输出向量,定义为o=MS+d,其中d是偏置函数,S是文本关系表示向量,M是所有关系类型的表示矩阵。
步骤5:将模型整体损失函数设置为命名实体识别模块的损失函数与关系抽取模块的线性求和Loss=α*Entity_Loss+β*Relation_Loss,其中Entity_Loss为实体识别损失函数,Relation_Loss为关系抽取损失函数,设置损失函数参数α=1,β=2,进行模型训练。
为了更好的理解我们的发明方法,现以中文作家信息构建数据集用本方法进行训练,并以其中的包含多个三元组的长句字“《国家构建》是由中国社会科学出版社出版的图书,作者是弗朗西斯·福山”为例,对本申请一种实体关系联合抽取方法进行举例说明。
步骤一:多特征中文词嵌入
如图2,将每个句子的字符序列输入BERT模型,得到每个字符的向量表示,其中每个字符768维;使用了CNN模型来提取汉字的字形特征,通过one-hot的方式,得到该字在句子中的位置信息;拼接Bert向量和字形特征向量和位置向量作为字符输入序列的最终的词嵌入表示。
步骤二:自注意力BiLSTM编码层
如图3,将序列的词嵌入通过自注意力层,得到注意力输出,将注意力输出通过BiLSTM编码得到的隐层输出作为句子的上下文编码表示,后续的命名实体识别和关系抽取都需用到该隐层表示。
步骤三:命名实体识别
如图4,通过LSTM+Softmax计算出每个字符对应的标签的概率,预测向量的维度为实体标签数,预测向量中最高的便是该字符对应的标签,最终将每个字符的标签都识别出来便可得到句子中的实体。
步骤四:关系抽取
如图5,关系抽取模块由依赖树结构模型,将步骤三实体识别模块获取的字句标签的编码信息[ht,ht+1,...,hn],(hi∈Rd)和步骤二BiLSTM编码层的隐层[wt,wt+1,...,wn](wi∈Rd)进行拼接,作为该模块的输入。构建句子的依赖树结构,在依赖树的每层上进行注意力机制操作,得到对应的文本关系表示S,用层次注意力机制对不同层的文本关系表示进行拼接,将得到的文本关系表示S作为模型后续部分的输入参与条件概率计算,通过softmax层计算条件概率。
步骤五:将命名实体识别的损失函数和关系抽取的损失函数结合作为模型的损失函数进行训练。
最后,例句“《国家构建》是由中国社会科学出版社出版的图书,作者是弗朗西斯·福山”蕴含丰富的中文特征,是一种长序列句子,同时含有多个关系。使用训练好的模型进行预测,得到输出结果[《国家构建》,出版社,中国社会科学出版社];[《国家构建》,作者,弗朗西斯·福山]。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (5)
1.一种中文实体关系联合抽取方法,其特征在于,包括:
步骤一,多特征中文词嵌入:使用bert模型学习字符向量,字符向量拼接字形特征和字符位置信息作为词嵌入向量;bert模型是一种基于微调的多层双向Transformer编码器,对于给定的词,bert最终输入的向量由token向量、分句向量以及位置向量三部分组成;
使用卷积神经网络模型,以汉字的五笔编码为输入,自动提取字形特征,同时,通过bert模型分词后,字在词中的开头、中间和结尾的位置不同,通过独热方式生成边界特征向量,在Embeding层中将字符向量、字形向量、词边界特征向量进行拼接;
步骤二,自注意力机制BiLSTM编码层:将步骤一中词嵌入层得到的中文多特征词嵌入向量输入自注意力机制BiLSTM编码层中,使用自注意力双向LSTM编码器模型学习字符上下文信息特征,得到隐层输出结果;
步骤三,命名实体识别:将步骤二中隐层输出结果作为命名实体识别模块的输入,使用LSTM结合softmax进行命名实体识别;
步骤四,层次注意力机制关系抽取:将步骤二中隐层输出结果作为关系识别模块的输入,使用层次注意力机制LSTM进行关系分类,具体为:双向LSTM编码器和实体识别softmax输出结果进行拼接,输入关系抽取模块的树形LSTM层中,输出实体关系分类特征向量;
关系抽取模块为依赖树结构模型,将从实体识别模块获取的句子标签的编码信息[ht,ht+1,...,hn]和BiLSTM编码层得到的实体间的子句信息[wt,wt+1,...,wn]进行拼接,hi∈Rd,wi∈Rd,wt代表当前位置的中文汉字经过BiLSTM的到的隐层编码结果,t代表头实体在句子中的结束位置,作为该模块的输入H;
关系识别模块首先采用双向树状结构网络模型,通过捕获目标词对周围的依存关系结构来表示候选关系,从而能够识别两个实体间的先后序列关系,其构造步骤为:将预先定义的底层关系集合R经过k-1次层次生成后得到总共k层的层次关系集{R1,R2,...,Rk},R1则是我们需要抽取的底层关系集,对需要提取的特定关系r1∈R1,通过(r1,...,rk)∈R1×...×Rk回溯关系层次构建其祖先关系层次链从而得到树形层次链,父节点为关系集Rk;
为每个关系r分配一个注意力机制查询向量qr,在关系依赖树的每层上进行注意力机制操作,得到对应的文本关系表示:
其中,是最终得到的关系文本表示,/>为第i层关系的注意力权重参数,H(h,t)为头尾实体组成的实体对;
树形结构具有明显的层次结构,不同层具有不同的粒度信息,为了综合利用不同层次上不同粒度的注意力特征,使用层次注意力机制对不同层的文本关系表示进行拼接,将得到的文本关系表示S作为模型后续部分的输入参与条件概率计算,通过softmax层计算条件概率:
其中,θ为全部模型的参数,|R|是关系类型的总数,o是神经网络的最终输出向量,定义为o=MS+d,其中d是偏置函数,S是文本关系表示向量,M是所有关系类型的表示矩阵。
2.根据权利要求1所述的一种中文实体关系联合抽取方法,其特征在于,所述步骤二中自注意力双向LSTM编码器为:将Embedding向量输入自注意力层,得到注意力输出,将自注意力输出结果输入BiLSTM模型中,获取每个字符序列的上下文信息,自注意力BiLSTM编码层的编码结果由命名实体识别和关系抽取两个模块共同使用,实现编码层的参数共享。
3.根据权利要求2所述的一种中文实体关系联合抽取方法,其特征在于,所述步骤三中命名实体识别具体为:自注意力双向LSTM编码器的输出结果,通过LSTM进行解码,最后通过softmax预测实体标签。
4.根据权利要求1-3任意一项所述的一种中文实体关系联合抽取方法,其特征在于,步骤四之后还包括:
步骤五,模型损失函数设置:设置模型的损失函数为步骤三中命名实体识别的损失函数和步骤四中关系抽取损失函数之和,进行训练。
5.根据权利要求4所述的一种中文实体关系联合抽取方法,其特征在于,所述模型损失函数为:
Loss=α*Entity_Loss+β*Relation_Loss;其中Entity_Loss为实体识别损失函数,Relation_Loss为实体关系抽取损失函数,d、β为损失函数权重,d、β>=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397595.9A CN113128229B (zh) | 2021-04-14 | 2021-04-14 | 一种中文实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397595.9A CN113128229B (zh) | 2021-04-14 | 2021-04-14 | 一种中文实体关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128229A CN113128229A (zh) | 2021-07-16 |
CN113128229B true CN113128229B (zh) | 2023-07-18 |
Family
ID=76776222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110397595.9A Active CN113128229B (zh) | 2021-04-14 | 2021-04-14 | 一种中文实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128229B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113849597B (zh) * | 2021-08-31 | 2024-04-30 | 艾迪恩(山东)科技有限公司 | 基于命名实体识别的违法广告词检测方法 |
CN113886602B (zh) * | 2021-10-19 | 2023-08-01 | 四川大学 | 一种基于多粒度认知的领域知识库实体识别方法 |
CN113889281B (zh) * | 2021-11-17 | 2024-05-03 | 华美浩联医疗科技(北京)有限公司 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN114298043A (zh) * | 2021-12-24 | 2022-04-08 | 厦门快商通科技股份有限公司 | 基于联合学习的实体标准化方法、装置、设备及可读介质 |
CN114528411B (zh) * | 2022-01-11 | 2024-05-07 | 华南理工大学 | 一种中文医药知识图谱自动化构建方法、装置及介质 |
CN114372138A (zh) * | 2022-01-11 | 2022-04-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于最短依存路径和bert的电力领域关系抽取的方法 |
CN114254102B (zh) * | 2022-02-28 | 2022-06-07 | 南京众智维信息科技有限公司 | 一种基于自然语言的协同应急响应soar剧本推荐方法 |
CN115169326A (zh) * | 2022-04-15 | 2022-10-11 | 山西长河科技股份有限公司 | 一种中文关系抽取方法、装置、终端及存储介质 |
CN115034302B (zh) * | 2022-06-07 | 2023-04-11 | 四川大学 | 优化信息融合策略的关系抽取方法、装置、设备及介质 |
WO2024000966A1 (zh) * | 2022-06-29 | 2024-01-04 | 苏州思萃人工智能研究所有限公司 | 用于自然语言模型的优化方法 |
CN115879474A (zh) * | 2023-02-14 | 2023-03-31 | 华东交通大学 | 基于机器阅读理解的故障嵌套命名实体识别方法 |
CN116502641B (zh) * | 2023-04-11 | 2024-04-05 | 成都图奕科技有限公司 | 基于字符字形特征的中文命名实体识别方法及系统 |
CN116629264B (zh) * | 2023-05-24 | 2024-01-23 | 成都信息工程大学 | 一种基于多个词嵌入和多头自注意力机制的关系抽取方法 |
CN117290510B (zh) * | 2023-11-27 | 2024-01-30 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
CN117557347B (zh) * | 2024-01-11 | 2024-04-12 | 北京华电电子商务科技有限公司 | 一种电子商务平台用户行为管理方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824073A (zh) * | 2012-11-16 | 2014-05-28 | 方正国际软件(北京)有限公司 | 一种图像信息的抽取方法 |
CN109960506A (zh) * | 2018-12-03 | 2019-07-02 | 复旦大学 | 一种基于结构感知的代码注释生成方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN111125367A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 一种基于多层次注意力机制的多种人物关系抽取方法 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111783474A (zh) * | 2020-07-16 | 2020-10-16 | 厦门市美亚柏科信息股份有限公司 | 一种评论文本观点信息处理方法、装置及存储介质 |
CN111814489A (zh) * | 2020-07-23 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 口语语义理解方法及系统 |
CN112163091A (zh) * | 2020-09-25 | 2021-01-01 | 大连民族大学 | 基于cnn的方面级跨领域情感分析方法 |
CN112446215A (zh) * | 2020-12-14 | 2021-03-05 | 云南电网有限责任公司电力科学研究院 | 一种实体关系联合抽取方法 |
CN112560487A (zh) * | 2020-12-04 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于国产设备的实体关系抽取方法及系统 |
CN112579477A (zh) * | 2021-02-26 | 2021-03-30 | 北京北大软件工程股份有限公司 | 一种缺陷检测方法、装置以及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6791780B2 (ja) * | 2017-02-16 | 2020-11-25 | 株式会社日立製作所 | 文章作成装置 |
-
2021
- 2021-04-14 CN CN202110397595.9A patent/CN113128229B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824073A (zh) * | 2012-11-16 | 2014-05-28 | 方正国际软件(北京)有限公司 | 一种图像信息的抽取方法 |
CN109960506A (zh) * | 2018-12-03 | 2019-07-02 | 复旦大学 | 一种基于结构感知的代码注释生成方法 |
CN110287814A (zh) * | 2019-06-04 | 2019-09-27 | 北方工业大学 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
CN110795556A (zh) * | 2019-11-01 | 2020-02-14 | 中山大学 | 一种基于细粒度插入式解码的摘要生成方法 |
CN111125367A (zh) * | 2019-12-26 | 2020-05-08 | 华南理工大学 | 一种基于多层次注意力机制的多种人物关系抽取方法 |
CN111177393A (zh) * | 2020-01-02 | 2020-05-19 | 广东博智林机器人有限公司 | 一种知识图谱的构建方法、装置、电子设备及存储介质 |
CN111783474A (zh) * | 2020-07-16 | 2020-10-16 | 厦门市美亚柏科信息股份有限公司 | 一种评论文本观点信息处理方法、装置及存储介质 |
CN111814489A (zh) * | 2020-07-23 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 口语语义理解方法及系统 |
CN112163091A (zh) * | 2020-09-25 | 2021-01-01 | 大连民族大学 | 基于cnn的方面级跨领域情感分析方法 |
CN112560487A (zh) * | 2020-12-04 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于国产设备的实体关系抽取方法及系统 |
CN112446215A (zh) * | 2020-12-14 | 2021-03-05 | 云南电网有限责任公司电力科学研究院 | 一种实体关系联合抽取方法 |
CN112579477A (zh) * | 2021-02-26 | 2021-03-30 | 北京北大软件工程股份有限公司 | 一种缺陷检测方法、装置以及存储介质 |
Non-Patent Citations (2)
Title |
---|
Causality extraction based on self-attentive BiLSTM-CRF with transferred embeddings;Zhaoning Li 等;《Neurocomputing》;第1-13页 * |
基于双向长短期记忆网络和标签嵌入的文本分类模型;董彦如 等;《山东大学学报( 理学版) 》;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113128229A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN109635109B (zh) | 基于lstm并结合词性及多注意力机制的句子分类方法 | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
CN111639175A (zh) | 一种自监督的对话文本摘要方法及系统 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN114881042B (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN112084336A (zh) | 一种高速公路突发事件的实体提取和事件分类方法及装置 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN114154504A (zh) | 一种基于多信息增强的中文命名实体识别算法 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN116384371A (zh) | 一种基于bert和依存句法联合实体及关系抽取方法 | |
CN113051904B (zh) | 一种面向小规模知识图谱的链接预测方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113158659B (zh) | 一种基于司法文本的涉案财物计算方法 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN114020900A (zh) | 基于融合空间位置注意力机制的图表英语摘要生成方法 | |
CN116484852A (zh) | 一种基于关系图注意力网络的中文专利实体关系联合抽取方法 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN116562286A (zh) | 一种基于混合图注意力的智能配置事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |