CN111581387B - 一种基于损失优化的实体关系联合抽取方法 - Google Patents
一种基于损失优化的实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN111581387B CN111581387B CN202010385529.5A CN202010385529A CN111581387B CN 111581387 B CN111581387 B CN 111581387B CN 202010385529 A CN202010385529 A CN 202010385529A CN 111581387 B CN111581387 B CN 111581387B
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- vector
- relation
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 238000005457 optimization Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 106
- 230000002457 bidirectional effect Effects 0.000 claims description 17
- 238000013145 classification model Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000035945 sensitivity Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 241000764238 Isis Species 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 24
- 230000006870 function Effects 0.000 abstract description 12
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000002238 attenuated effect Effects 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,具体提供一种基于损失优化的实体关系联合抽取方法,该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题,对传统方法的损失计算部分进行优化;一方面,在损失函数中引入敏感因子,忽略训练中已经学习良好的成分,从而降低非实体损失在总体损失中的比例,让模型更加“关注”实体类的损失,以缓解实体和非实体数目不平衡问题,提高了实体识别的精度;另一方面,在损失函数中引入衰减因子,按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减,从而降低了由于标注噪声带来的损失计算误差,进一步提高了实体关系总体识别精度。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于损失优化的实体关系联合抽取方法。
背景技术
当前,由大数据驱动的智能化浪潮给金融业的发展带来了新的创新机遇,金融领域每天都会产生大量不同形式的互联网文本数据;如何准确、高效地挖掘这些金融文本中的重要信息,以提升金融服务效率是金融智能化面临的一个关键问题。在金融信息挖掘中,实体关系抽取是核心任务,其目标是从文本数据中识别出金融实体,并判断出实体间存在的语义关系。
根据抽取流程的不同,实体关系抽取方法可分为管道式方法和联合式方法两类。管道式方法将实体关系抽取任务划分为实体识别和关系抽取两个独立的子任务,对于一段输入文本,它先用实体识别模型识别文本中出现的有效实体,然后再用关系模型判断实体间的语义关系;管道式方法简单,但是存在错误传播问题,即实体模型造成的错误会直接影响下游的关系抽取的效果;另外,管道式建模方式也忽略了实体识别和关系抽取两个子任务之间的依赖关系。相比之下,联合式抽取方法对实体识别和关系抽取进行统一建模,从而克服了管道式方法的缺点。
然而由于一些客观因素的存在,现有联合式抽取方法在提高识别精度方面面临困难;一方面,由于一个句子的实体数目通常远少于非实体数目,即实体和非实体的数目客观上存在不平衡的现象,而传统方法将实体与非实体等同对待,往往导致训练的模型倾向于“关注”不重要的非实体类样本,忽略重要的实体类样本,给实体的识别精度带来负面的影响;另一方面,人工标注数据可能会引入噪声,比如部分实体被人工错误地标注为非实体,标注噪声导致模型训练错误,识别精度下降。
发明内容
本发明的目的在于针对上述现有技术的不足,提供了一种基于损失优化的实体关系联合抽取方法,采用新的损失函数计算方法,有效地提升了实体关系的识别精度。
为了达到上述目的,本发明采用的技术方案为:
一种基于损失优化的实体关系联合抽取方法,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取实体标签数据:
步骤1.1.1、对文本T,从标签文件中读取分词信息,将T分割成不同的词ti(1≤i≤Nw),Nw为文本T中词的总个数,其中标点符号视为一个词;
步骤1.1.2、对文本T中的每一个词ti,从标签文件中读取实体类型信息,生成ti的实体类型编号li:若ti被标注为某实体、则令li为该实体的实体类别编号,否则、令li=Ne+1,Ne为实体类型的总数;
步骤1.1.3、对文本T中的每一个词ti,将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi;
步骤1.2、读取关系标签数据:
步骤1.2.1、将文本T中的任意两个不同的词ti和tj(1≤i,j≤Nw,i≠j)组成词对(ti,tj),从标签文件中读取词对(ti,tj)的关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系、则令mi,j为该关系的关系类别编号,否则、令mi,j=Nr+1,Nr为关系类别总数;
步骤1.2.2、对每一个词对(ti,tj)(1≤i,j≤Nw,i≠j),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j;
步骤2、构建及训练联合分类模型;
步骤2.1、构建联合分类模型,包括:输入层、隐藏层及输出层;
所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为dw;将文本T中的每一个词ti(1≤i≤Nw)输入到输入层进行词嵌入,得到维数为dw的词向量wi;
所述隐藏层采用双向LSTM结构、并设置其输出矢量的维数为dc;其中,前向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行前向LSTM编码得到维数为dc的前向编码向量后向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行后向LSTM编码得到维数为dc的后向编码向量将每一个词ti所对应的前向编码向量和后向编码向量进行拼接,得到维数为2×dc双向编码向量hi:
所述输出层采用softmax与sigmoid分类器的联合结构;其中:
所述softmax分类器进行实体类型预测,将每一个双向编码向量hi(1≤i≤Nw)输入到softmax分类器,得到维数为Ne+1的实体类型预测向量该向量的第q个元素对应于将词ti的实体类型预测为第q种实体类型的概率;
所述sigmoid分类器进行关系类型预测,将每一个词对(ti,tj)中ti和tj所对应的双向编码向量hi和hj输入到sigmoid分类器,得到维数为Nr+1的关系类型预测向量该向量的第k个元素对应于将词对(ti,tj)的关系类型预测为第k种关系类型的概率;
步骤2.2、训练联合分类模型:设置训练集的文本总条数为Ntrain、训练总迭代次数为Nt以及损失函数,采用反向传播算法对联合分类模型参数进行更新,训练结束得到联合分类模型;
所述损失函数为:
δi为词ti的敏感因子:
为实体标签向量yi的第li(1≤li≤Ne+1)个元素、表示ti属于第li种实体类型的概率,为实体类型预测向量的第li个元素、表示ti被预测为第li种实体类型的概率,λ为预设敏感阈值,sgn(·)为符号函数:
βi为词ti(1≤i≤Nw)的衰减因子:
NO表示文本T中非实体类型的词的个数;
步骤3、实体关系联合抽取;
步骤3.1、采用中文分词工具对待处理文本T'进行分词处理,将T'分割成不同的词t'i'(1≤i'≤N'w)、N'w为T'中词的总个数,并形成词对(t'i',t'j')(1≤i',j'≤N'w,i'≠j'),输入至训练得到的联合分类模型,得到每一个词t'i'的实体类型预测向量以及词对(t'i',t'j')的关系类型预测向量其中,实体类型预测向量中最大值对应的位置编号作为词t'i'的实体类型预测编号关系类型预测向量中最大值所对应的位置编号作为词对(t'i',t'j')的关系类型预测编号
步骤3.2、输出实体关系三元组:对每个词对(t'i',t'j')(1≤i',j'≤N'w,i'≠j')进行判断:若该词对对应的实体类型预测编号和均不等于Ne+1,且其关系类型预测编号不等于Nr+1,则形成实体关系三元组(t'i',Ri',j',t'j')并输出,其中,Ri',j'为关系类型预测编号所对应的关系名称。
进一步的,所述敏感阈值λ的取值范围:0.7≤λ≤0.9。
本发明的有益效果在于:
本发明提供一种基于损失优化的实体关系联合抽取方法,该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题,对传统方法的损失计算部分进行优化;一方面,在损失函数中引入敏感因子,忽略训练中已经学习良好的成分,从而降低非实体损失在总体损失中的比例,让模型更加“关注”实体类的损失,以缓解实体和非实体数目不平衡问题,提高了实体识别的精度;另一方面,在损失函数中引入衰减因子,按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减,从而降低了由于标注噪声带来的损失计算误差,进一步提高了实体关系总体识别精度。
附图说明:
图1为本发明基于损失优化的实体关系联合抽取方法的流程示意图,包含训练和识别两个阶段。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本实施例提供一种基于损失优化的实体关系联合抽取方法,其流程如图1所示,包含训练和识别两个阶段;数据集共包含5500条金融文本,其中前4500条为训练文本,后1000条为测试文本。具体步骤如下:
●训练阶段:
S1.读取训练数据:
S11.设参与训练的文本总条数为Ntrain,设置训练的总迭代次数为Nt,设置初始值为0的迭代计数器at;
在本实施例中,训练的文本总条数Ntrain=5500,训练的总迭代次数Nt=120;
S12.设置初始值为0的文本条数计数器an;
S13.从训练文本中读取一行文本T并更新文本条数计数器为an+1;
在本实施例中,以处理训练文本“华为技术有限公司是一家民营通信科技公司,主要创始人任正非,总部位于深圳。”为例进行说明;
S14.读取实体标签数据:
S141.对文本T,从标签文件中读取分词信息,将T分割成不同的词,设T中词的总个数为Nw,其中标点符号视为一个词;
在本实施例中,标签文件中的分词信息为“华为技术有限公司|是|一家|民营|通信科技公司|,|主要|创始人|任正非|,|总部|位于|深圳|。”,其中符号|为各个词的分隔符;根据该分词信息,将T分割成Nw=14个不同的词;
S142.设实体的种类有Ne种,对T中的每一个词ti(1≤i≤14),从标签文件中读取实体类型信息,生成ti所对应的实体类型编号li:若ti被标注为某实体,则令li为该实体的实体类别编号,否则,令li=Ne+1(Ne+1表示非实体类型的编号);
在本实施例中,实体的种类有Ne=5种,分别是“企业”、“人物”、“日期”、“地点”、“数字”,则实体类型共有6种,包括前5种为实体种类和第6种为非实体类型;标签文件中的实体类型信息为:第1个词“华为技术有限公司”的实体类型为“企业”,第2个词“是”的实体类型为“非实体”,第3个词“一家”的实体类型为“非实体”,…,第9个词“任正非”的实体类型为“人物”,…,第14个词“。”的实体类型为“非实体”;这里以第1个词“华为技术有限公司”和第9个词“任正非”为例,对t1=“华为技术有限公司”,其实体类型编号l1=1,对t9=“任正非”,其实体类型编号l9=2;
S143.对T中的每一个词ti(1≤i≤14),将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi,该向量的第k(1≤k≤6)个元素yi,k为:
在本实施例中,对t1,其实体标签向量y1=[1,0,0,...,0],其中y1,1=1;对t9,其实体标签向量y9=[0,1,0,...,0],其中y9,2=1;
S15.读取关系标签数据:
S151.设关系的种类有Nr种,将文本T中的任意两个不同的词ti和tj(1≤i,j≤14,i≠j)组成词对(ti,tj),从标签文件中读取关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系,则令mi,j为该关系的关系类别编号,否则,令mi,j=Nr+1(Nr+1表示非关系类型的编号);
在本实施例中,关系的种类有Nr=8种,分别是“创始人”、“董事长”、“投资”、“收购”、“合作”、“成立日期”、“注册资本”、“总部地点”,则关系类型共有9种,包括前8种为关系种类和第9种为无关系类型;标签文件中的关系类型信息为:第1个词“华为技术有限公司”和第2个词“是”的关系类型为“无关系”,第1个词“华为技术有限公司”和第3个词“一家”的关系类型为“无关系”,…,第1个词“华为技术有限公司”和第9个词“任正非”的关系类型为“创始人”,…,第1个词“华为技术有限公司”和第14个词“。”的关系类型为“无关系”,…,第14个词“。”与第13个词“深圳”的关系类型为“无关系”;这里以第1个词“华为技术有限公司”和第9个词“任正非”为例,则词对(t1,t9)的关系为“创始人”,其关系类型编号m1,9=1;
S152.对每一个词对(ti,tj)(1≤i,j≤14,i≠j),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j,则该向量的第k(1≤k≤9)个元素zi,j,k为:
在本实施例中,对词对(t1,t9),其关系标签向量z1,9=[1,0,0,...,0],其中,z1,9,1=1;
S2.生成词向量:
S21.将公开的word2vec词嵌入结构作为神经网络的输入层,初始化该层的网络参数为一组高斯分布的随机采样,并设置其输出矢量的维数为dw;
在本实施例中,输入层的输出矢量维数dw=300;
S22.将文本T中的每一个词ti(1≤i≤14)输入到输入层进行词嵌入,得到维数为dw=300的词向量wi;
在本实施例中,对最后一次迭代,即第120次迭代,迭代计数器at=119时,词t1和词t9经过词嵌入后,分别得到词向量w1=[-0.0539,-0.0381,0.1626,...,-0.1476],w9=[-0.1287,-0.0914,0.0102,...,-0.0208];
S3.双向LSTM编码:
S31.将标准双向LSTM结构作为神经网络的第二层,初始化该层的参数为一组高斯分布的随机采样,并设置其输出矢量的维数为dc;
在本实施例中,第二层输出矢量的维数dc=300;
在本实施例中,对第120次迭代,即迭代计数器at=119时,和经过拼接操作后,得到双向编码向量h1=[0.0261,0.3392,...,-0.4417,-0.0645,0.3033,...,-0.3772],和经过拼接操作后,得到双向编码向量h9=[-0.0307,0.1263,...,-0.3732,-0.5803,0.4353,...,-0.4323];
S4.预测实体关系:
S41.将标准softmax与sigmoid分类器的联合结构作为神经网络的输出层,初始化该层的网络参数为一组高斯分布的随机采样;
S42.预测实体类型:将每一个双向编码向量hi(1≤i≤14)输入到softmax分类器进行实体类型预测,得到维数为Ne+1=6的实体类型预测向量该向量的第q个元素对应于将ti预测为第q种实体类型的概率;
在本实施例中,对120次迭代,即迭代计数器at=119时,双向编码向量h1和h9经过实体类型预测操作后,分别得到实体类型预测向量 其中的第1个元素对应于将t1=“华为技术有限公司”预测为第1种实体类型“企业”的概率为0.8603,的第2个元素对应于将t9=“任正非”预测为第2种实体类型“人物”的概率为0.8940;
S43.预测关系类型:对每一个词对(ti,tj)(1≤i,j≤14,i≠j),将ti和tj所对应的双向编码向量hi和hj输入到sigmoid分类器进行关系类型预测,得到维数为Nr+1=9的关系类型预测向量该向量的第k个元素对应于将词对(ti,tj)的关系类型预测为第k种关系类型的概率;
在本实施例中,对第120次迭代,即迭代计数器at=119时,双向编码向量h1和h9经过关系类型预测操作后,分别得到关系类型预测向量其中的第1个元素对应于将词对(t1,t9)=(华为技术有限公司,任正非)预测为第1种关系类型“创始人”的概率为0.8022;
S5.计算实体关系损失:
S511.对每一个词ti(1≤i≤14),计算敏感因子δi:
其中,为实体标签向量yi的第li(1≤li≤Ne+1)个元素,表示ti属于第li种实体类型的概率;为实体类型预测向量的第li个元素,表示ti被预测为第li种实体类型的概率;λ为预设的敏感阈值,sgn(·)为符号函数,定义为:
在本实施例中,敏感阈值λ的取值范围为0.7≤λ≤0.9,这里λ的取值为0.8;对第120次迭代,即迭代计数器at=119时,词t1的实体类型编号l1=1,则实体标签向量y1的第1个元素y1,1=1为t1属于第1种实体类型的概率,实体类型预测向量中的第1个元素为t1被预测为第1种实体类型的概率,即t1=“华为技术有限公司”属于第1种实体类型“企业”的概率为1,而当前预测出的概率为0.8603,通过公式(4)计算得到t1所对应的敏感因子δ1=0;词t9的实体类型编号l9=2,则实体标签向量y9的第2个元素y9,2=1为t9属于第2种实体类型的概率,实体类型预测向量中的第2个元素为t9被预测为第2种实体类型的概率,即t9=“任正非”属于第2种实体类型“人物”的概率为1,而当前预测出的概率为0.8940,通过公式(4)计算得到t9所对应的敏感因子δ9=0;
S512.对每一个词ti(1≤i≤14),计算衰减因子βi:
其中,NO表示文本T中非实体类型的词的个数;
在本实施例中,对第120次迭代,即迭代计数器at=119时,非实体类型的词的个数NO=11,词t1的实体类型编号l1=1,词t9的实体类型编号l9=2,故通过公式(6)分别计算得到t1所对应的衰减因子β1=1,t9所对应的衰减因子β9=1;对t2=“是”,实体类型编号l2=6,计算得到的对应的衰减因子β2=0.7857;
S7.判定是否读取完所有训练文本:若当前条数计数器an小于训练文本总条数Ntrain,则转到步骤S13继续读取下一条文本,否则,更新迭代计数器为at+1;
S8.判定迭代训练是否终止:若当前迭代计数器at小于模型训练的总迭代次数Nt,则转到步骤S12继续下一次迭代训练;否则,结束训练,将当前的联合分类模型输出;
●识别阶段:
下面以处理测试文本“同时,招商银行还将作为战略投资者投资滴滴。”为例进行说明;
S1.读取测试文本:读取一行测试文本T';
S2.加载联合分类模型:读取训练得到的联合分类模型各层网络参数并将其作为当前神经网络各层的网络参数;
S3.生成词向量:
S31.使用标准中文分词工具对测试文本T'进行分词处理,将T'分割成不同的词,设T'中词的总个数为N'w,其中标点符号视为一个词;
在本实施例中,T'经过分词处理后的分词信息为“同时|,|招商银行|还|将|作为|战略|投资者|投资|滴滴|。”,其中符号|为各个词的分隔符。根据该分词信息,将T'分割成N'w=11个不同的词;
S32.对测试文本T'中的每一个词t'i'(1≤i'≤11),按训练阶段步骤S22进行词嵌入操作,得到词向量w'i';
在本实施例中,以T'的第3个词“招商银行”和第10个词“滴滴”为例,则t'3=“招商银行”,t'10=“滴滴”,词t'3和t'10经过词嵌入操作后,分别得到词向量w'3=[-0.0934,0.0117,0.0731,...,-0.2821],w'10=[-0.2307,0.1463,0.0519,...,-0.1347];
S4.双向LSTM编码:对每一个词向量w'i'(1≤i'≤11),按训练阶段步骤S3进行双向LSTM编码,得到双向编码向量h'i';
在本实施例中,词向量w'3和w'10经过双向LSTM编码后,分别得到双向编码向量h'3=[-0.0533,0.3059,-0.1171,...,-0.2999],h'10=[-0.6217,0.0441,-0.0834,...,0.0074];
S5.实体关系分类:
S51.实体分类:
在本实施例中,实体类型预测向量所有元素中的最大值0.9371所对应的位置编号为1,故词t'3的实体类型预测编号即将t'3=“招商银行”预测为“企业”实体类型;实体类型预测向量所有元素中的最大值0.9103所对应的位置编号为1,故词t'10的实体类型预测编号即将t'10=“滴滴”也预测为“企业”实体类型;
S52.关系分类:
在本实施例中,对词对(t'3,t'10),其关系类型预测向量所有元素中的最大值0.8746所对应的位置编号为3,故词对(t'3,t'10)的关系类型预测编号即将词对(招商银行,滴滴)的关系预测为“投资”关系类型;
S6.输出实体关系三元组:对每个词对(t'i',t'j')(1≤i',j'≤11,i'≠j')进行判断:若该词对对应的实体类型预测编号和均不等于Ne+1=6,且其关系类型预测编号不等于Nr+1=9,则形成实体关系三元组(t'i',Ri',j',t'j')并输出,其中,Ri,j为关系类型预测编号所对应的关系名称;
下面将本发明方法的性能与传统方法进行比较;其中,传统方法采用传统的损失计算函数,测试中两种方法采用相同的数据集。本发明方法的程序基于谷歌公司Tensorflow框架,采用Python语言编写。
表1性能比较
可以看到,相对于传统方法,本发明方法具有较为明显的优势,在实体关系识别的各项指标上都有所提升。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (2)
1.一种基于损失优化的实体关系联合抽取方法,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取实体标签数据:
步骤1.1.1、对文本T,从标签文件中读取分词信息,将T分割成不同的词ti,1≤i≤Nw、Nw为文本T中词的总个数,其中标点符号视为一个词;
步骤1.1.2、对文本T中的每一个词ti,从标签文件中读取实体类型信息,生成ti的实体类型编号li:若ti被标注为某实体、则令li为该实体的实体类别编号,否则、令li=Ne+1,Ne为实体类别总数;
步骤1.1.3、对文本T中的每一个词ti,将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi;
步骤1.2、读取关系标签数据:
步骤1.2.1、将文本T中的任意两个不同的词ti和tj组成词对(ti,tj),1≤i,j≤Nw,i≠j;从标签文件中读取词对(ti,tj)的关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系、则令mi,j为该关系的关系类别编号,否则、令mi,j=Nr+1,Nr为关系类别总数;
步骤1.2.2、对每一个词对(ti,tj),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j;
步骤2、构建及训练联合分类模型;
步骤2.1、构建联合分类模型,包括:输入层、隐藏层及输出层;
所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为dw;将文本T中的每一个词ti输入到输入层进行词嵌入,得到维数为dw的词向量wi;
所述隐藏层采用双向LSTM结构、并设置其输出矢量的维数为dc;其中,前向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行前向LSTM编码得到维数为dc的前向编码向量后向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行后向LSTM编码得到维数为dc的后向编码向量将每一个词ti所对应的前向编码向量和后向编码向量进行拼接,得到维数为2×dc双向编码向量hi:
所述输出层采用softmax与sigmoid分类器的联合结构;其中:
步骤2.2、训练联合分类模型:设置训练集的文本总条数为Ntrain、训练总迭代次数为Nt以及损失函数,采用反向传播算法对联合分类模型参数进行更新,训练结束得到联合分类模型;
所述损失函数为:
δi为词ti的敏感因子:
βi为词ti的衰减因子:
NO表示文本T中非实体类型的词的个数;
步骤3、实体关系联合抽取;
步骤3.1、采用中文分词工具对待处理文本T'进行分词处理,将T'分割成不同的词t'i',1≤i'≤N'w、N'w为T'中词的总个数;并形成词对(t'i',t'j'),1≤i',j'≤N'w,i'≠j';输入至训练得到的联合分类模型,得到每一个词t'i'的实体类型预测向量以及词对(t'i',t'j')的关系类型预测向量其中,实体类型预测向量中最大值对应的位置编号作为词t'i'的实体类型预测编号关系类型预测向量中最大值所对应的位置编号作为词对(t'i',t'j')的关系类型预测编号
2.按权利要求1所述基于损失优化的实体关系联合抽取方法,其特征在于,所述敏感阈值λ的取值范围:0.7≤λ≤0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385529.5A CN111581387B (zh) | 2020-05-09 | 2020-05-09 | 一种基于损失优化的实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010385529.5A CN111581387B (zh) | 2020-05-09 | 2020-05-09 | 一种基于损失优化的实体关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581387A CN111581387A (zh) | 2020-08-25 |
CN111581387B true CN111581387B (zh) | 2022-10-11 |
Family
ID=72122994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010385529.5A Expired - Fee Related CN111581387B (zh) | 2020-05-09 | 2020-05-09 | 一种基于损失优化的实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581387B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163092B (zh) * | 2020-10-10 | 2022-07-12 | 成都数之联科技股份有限公司 | 实体及关系抽取方法及系统、装置、介质 |
CN112749283A (zh) * | 2020-12-31 | 2021-05-04 | 江苏网进科技股份有限公司 | 一种面向法律领域的实体关系联合抽取方法 |
CN113378513B (zh) * | 2021-06-11 | 2022-12-23 | 电子科技大学 | 一种面向领域关系抽取的标注语料生成方法 |
CN114611519A (zh) * | 2022-03-31 | 2022-06-10 | 联想(北京)有限公司 | 一种文本的实体关系抽取方法、装置及电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108875000A (zh) * | 2018-06-14 | 2018-11-23 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN109344244A (zh) * | 2018-10-29 | 2019-02-15 | 山东大学 | 一种融合区分度信息的神经网络关系分类方法及其实现系统 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN110867225A (zh) * | 2019-11-04 | 2020-03-06 | 山东师范大学 | 字符级临床概念提取命名实体识别方法及系统 |
CN110941716A (zh) * | 2019-11-05 | 2020-03-31 | 北京航空航天大学 | 一种基于深度学习的信息安全知识图谱的自动构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
-
2020
- 2020-05-09 CN CN202010385529.5A patent/CN111581387B/zh not_active Expired - Fee Related
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107526799A (zh) * | 2017-08-18 | 2017-12-29 | 武汉红茶数据技术有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108416058A (zh) * | 2018-03-22 | 2018-08-17 | 北京理工大学 | 一种基于Bi-LSTM输入信息增强的关系抽取方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN108875000A (zh) * | 2018-06-14 | 2018-11-23 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
CN109344244A (zh) * | 2018-10-29 | 2019-02-15 | 山东大学 | 一种融合区分度信息的神经网络关系分类方法及其实现系统 |
CN109635280A (zh) * | 2018-11-22 | 2019-04-16 | 园宝科技(武汉)有限公司 | 一种基于标注的事件抽取方法 |
CN110867225A (zh) * | 2019-11-04 | 2020-03-06 | 山东师范大学 | 字符级临床概念提取命名实体识别方法及系统 |
CN110941716A (zh) * | 2019-11-05 | 2020-03-31 | 北京航空航天大学 | 一种基于深度学习的信息安全知识图谱的自动构建方法 |
Non-Patent Citations (4)
Title |
---|
Joint entity recognition and relation extraction as a multi-head selection problem;Bekoulis G 等;《Expert Systems with Applications》;20181230;第114卷;34-45 * |
Subsequence-Level Entity Attention LSTM for Relation Extraction;T. GAN 等;《2019 16th International Computer Conference on Wavelet Active Media Technology and Information Processing》;20200416;262-265 * |
命名实体识别与关系抽取研究及应用;李飞;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190215(第2期);I138-2411 * |
面向文本数据的金融实体关系挖掘技术研究;甘云强;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715(第7期);I138-472 * |
Also Published As
Publication number | Publication date |
---|---|
CN111581387A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581387B (zh) | 一种基于损失优化的实体关系联合抽取方法 | |
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
Zayats et al. | Disfluency detection using a bidirectional LSTM | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
US20240013000A1 (en) | Method and apparatus of ner-oriented chinese clinical text data augmentation | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN111651983A (zh) | 一种基于自训练与噪声模型的因果事件抽取方法 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN113779264A (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111273911A (zh) | 基于双向lstm和注意力机制的软件技术债务识别方法 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN116070632A (zh) | 一种非正式文本实体标签识别方法和装置 | |
CN115510236A (zh) | 基于信息融合和数据增强的篇章级事件检测方法 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN116245107A (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN114444484A (zh) | 一种基于双层图的文档级事件抽取方法及系统 | |
CN116882413A (zh) | 一种中文实体识别方法、装置及设备 | |
CN113822018B (zh) | 实体关系联合抽取方法 | |
CN116090468A (zh) | 一种基于层叠式指针网络的实体关系联合抽取方法及系统 | |
CN115455198A (zh) | 模型训练方法、法律诉讼信息对齐融合方法及其终端设备 | |
Sehrawat | Learning word embeddings from 10-K filings for financial NLP tasks | |
CN114692596A (zh) | 基于深度学习算法的债券信息解析方法、装置及电子设备 | |
Chabridon et al. | Tools for global and target sensitivity analyses in the context of high-dimensional thermal-hydraulic numerical experiments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221011 |
|
CF01 | Termination of patent right due to non-payment of annual fee |