CN111581387B - 一种基于损失优化的实体关系联合抽取方法 - Google Patents

一种基于损失优化的实体关系联合抽取方法 Download PDF

Info

Publication number
CN111581387B
CN111581387B CN202010385529.5A CN202010385529A CN111581387B CN 111581387 B CN111581387 B CN 111581387B CN 202010385529 A CN202010385529 A CN 202010385529A CN 111581387 B CN111581387 B CN 111581387B
Authority
CN
China
Prior art keywords
entity
word
vector
relation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010385529.5A
Other languages
English (en)
Other versions
CN111581387A (zh
Inventor
甘涛
甘云强
何艳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010385529.5A priority Critical patent/CN111581387B/zh
Publication of CN111581387A publication Critical patent/CN111581387A/zh
Application granted granted Critical
Publication of CN111581387B publication Critical patent/CN111581387B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理技术领域,具体提供一种基于损失优化的实体关系联合抽取方法,该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题,对传统方法的损失计算部分进行优化;一方面,在损失函数中引入敏感因子,忽略训练中已经学习良好的成分,从而降低非实体损失在总体损失中的比例,让模型更加“关注”实体类的损失,以缓解实体和非实体数目不平衡问题,提高了实体识别的精度;另一方面,在损失函数中引入衰减因子,按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减,从而降低了由于标注噪声带来的损失计算误差,进一步提高了实体关系总体识别精度。

Description

一种基于损失优化的实体关系联合抽取方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于损失优化的实体关系联合抽取方法。
背景技术
当前,由大数据驱动的智能化浪潮给金融业的发展带来了新的创新机遇,金融领域每天都会产生大量不同形式的互联网文本数据;如何准确、高效地挖掘这些金融文本中的重要信息,以提升金融服务效率是金融智能化面临的一个关键问题。在金融信息挖掘中,实体关系抽取是核心任务,其目标是从文本数据中识别出金融实体,并判断出实体间存在的语义关系。
根据抽取流程的不同,实体关系抽取方法可分为管道式方法和联合式方法两类。管道式方法将实体关系抽取任务划分为实体识别和关系抽取两个独立的子任务,对于一段输入文本,它先用实体识别模型识别文本中出现的有效实体,然后再用关系模型判断实体间的语义关系;管道式方法简单,但是存在错误传播问题,即实体模型造成的错误会直接影响下游的关系抽取的效果;另外,管道式建模方式也忽略了实体识别和关系抽取两个子任务之间的依赖关系。相比之下,联合式抽取方法对实体识别和关系抽取进行统一建模,从而克服了管道式方法的缺点。
然而由于一些客观因素的存在,现有联合式抽取方法在提高识别精度方面面临困难;一方面,由于一个句子的实体数目通常远少于非实体数目,即实体和非实体的数目客观上存在不平衡的现象,而传统方法将实体与非实体等同对待,往往导致训练的模型倾向于“关注”不重要的非实体类样本,忽略重要的实体类样本,给实体的识别精度带来负面的影响;另一方面,人工标注数据可能会引入噪声,比如部分实体被人工错误地标注为非实体,标注噪声导致模型训练错误,识别精度下降。
发明内容
本发明的目的在于针对上述现有技术的不足,提供了一种基于损失优化的实体关系联合抽取方法,采用新的损失函数计算方法,有效地提升了实体关系的识别精度。
为了达到上述目的,本发明采用的技术方案为:
一种基于损失优化的实体关系联合抽取方法,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取实体标签数据:
步骤1.1.1、对文本T,从标签文件中读取分词信息,将T分割成不同的词ti(1≤i≤Nw),Nw为文本T中词的总个数,其中标点符号视为一个词;
步骤1.1.2、对文本T中的每一个词ti,从标签文件中读取实体类型信息,生成ti的实体类型编号li:若ti被标注为某实体、则令li为该实体的实体类别编号,否则、令li=Ne+1,Ne为实体类型的总数;
步骤1.1.3、对文本T中的每一个词ti,将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi
步骤1.2、读取关系标签数据:
步骤1.2.1、将文本T中的任意两个不同的词ti和tj(1≤i,j≤Nw,i≠j)组成词对(ti,tj),从标签文件中读取词对(ti,tj)的关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系、则令mi,j为该关系的关系类别编号,否则、令mi,j=Nr+1,Nr为关系类别总数;
步骤1.2.2、对每一个词对(ti,tj)(1≤i,j≤Nw,i≠j),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j
步骤2、构建及训练联合分类模型;
步骤2.1、构建联合分类模型,包括:输入层、隐藏层及输出层;
所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为dw;将文本T中的每一个词ti(1≤i≤Nw)输入到输入层进行词嵌入,得到维数为dw的词向量wi
所述隐藏层采用双向LSTM结构、并设置其输出矢量的维数为dc;其中,前向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行前向LSTM编码得到维数为dc的前向编码向量
Figure BDA0002483664810000021
后向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行后向LSTM编码得到维数为dc的后向编码向量
Figure BDA0002483664810000031
将每一个词ti所对应的前向编码向量
Figure BDA0002483664810000032
和后向编码向量
Figure BDA0002483664810000033
进行拼接,得到维数为2×dc双向编码向量hi
Figure BDA0002483664810000034
所述输出层采用softmax与sigmoid分类器的联合结构;其中:
所述softmax分类器进行实体类型预测,将每一个双向编码向量hi(1≤i≤Nw)输入到softmax分类器,得到维数为Ne+1的实体类型预测向量
Figure BDA00024836648100000313
该向量的第q个元素对应于将词ti的实体类型预测为第q种实体类型的概率;
所述sigmoid分类器进行关系类型预测,将每一个词对(ti,tj)中ti和tj所对应的双向编码向量hi和hj输入到sigmoid分类器,得到维数为Nr+1的关系类型预测向量
Figure BDA0002483664810000035
该向量的第k个元素对应于将词对(ti,tj)的关系类型预测为第k种关系类型的概率;
步骤2.2、训练联合分类模型:设置训练集的文本总条数为Ntrain、训练总迭代次数为Nt以及损失函数,采用反向传播算法对联合分类模型参数进行更新,训练结束得到联合分类模型;
所述损失函数为:
Figure BDA0002483664810000036
其中,
Figure BDA0002483664810000037
为实体损失:
Figure BDA0002483664810000038
δi为词ti的敏感因子:
Figure BDA0002483664810000039
Figure BDA00024836648100000310
为实体标签向量yi的第li(1≤li≤Ne+1)个元素、表示ti属于第li种实体类型的概率,
Figure BDA00024836648100000311
为实体类型预测向量
Figure BDA00024836648100000312
的第li个元素、表示ti被预测为第li种实体类型的概率,λ为预设敏感阈值,sgn(·)为符号函数:
Figure BDA0002483664810000041
βi为词ti(1≤i≤Nw)的衰减因子:
Figure BDA0002483664810000042
NO表示文本T中非实体类型的词的个数;
Figure BDA0002483664810000043
为关系损失:
Figure BDA0002483664810000044
步骤3、实体关系联合抽取;
步骤3.1、采用中文分词工具对待处理文本T'进行分词处理,将T'分割成不同的词t'i'(1≤i'≤N'w)、N'w为T'中词的总个数,并形成词对(t'i',t'j')(1≤i',j'≤N'w,i'≠j'),输入至训练得到的联合分类模型,得到每一个词t'i'的实体类型预测向量
Figure BDA00024836648100000414
以及词对(t'i',t'j')的关系类型预测向量
Figure BDA0002483664810000045
其中,实体类型预测向量
Figure BDA0002483664810000046
中最大值对应的位置编号作为词t'i'的实体类型预测编号
Figure BDA0002483664810000047
关系类型预测向量
Figure BDA0002483664810000048
中最大值所对应的位置编号作为词对(t'i',t'j')的关系类型预测编号
Figure BDA0002483664810000049
步骤3.2、输出实体关系三元组:对每个词对(t'i',t'j')(1≤i',j'≤N'w,i'≠j')进行判断:若该词对对应的实体类型预测编号
Figure BDA00024836648100000410
Figure BDA00024836648100000411
均不等于Ne+1,且其关系类型预测编号
Figure BDA00024836648100000412
不等于Nr+1,则形成实体关系三元组(t'i',Ri',j',t'j')并输出,其中,Ri',j'为关系类型预测编号
Figure BDA00024836648100000413
所对应的关系名称。
进一步的,所述敏感阈值λ的取值范围:0.7≤λ≤0.9。
本发明的有益效果在于:
本发明提供一种基于损失优化的实体关系联合抽取方法,该方法针对实体和非实体的数目不平衡、实体标注存在噪声两个问题,对传统方法的损失计算部分进行优化;一方面,在损失函数中引入敏感因子,忽略训练中已经学习良好的成分,从而降低非实体损失在总体损失中的比例,让模型更加“关注”实体类的损失,以缓解实体和非实体数目不平衡问题,提高了实体识别的精度;另一方面,在损失函数中引入衰减因子,按非实体数目所占实体和非实体总数目的比例对损失函数中的非实体成分损失进行衰减,从而降低了由于标注噪声带来的损失计算误差,进一步提高了实体关系总体识别精度。
附图说明:
图1为本发明基于损失优化的实体关系联合抽取方法的流程示意图,包含训练和识别两个阶段。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本实施例提供一种基于损失优化的实体关系联合抽取方法,其流程如图1所示,包含训练和识别两个阶段;数据集共包含5500条金融文本,其中前4500条为训练文本,后1000条为测试文本。具体步骤如下:
●训练阶段:
S1.读取训练数据:
S11.设参与训练的文本总条数为Ntrain,设置训练的总迭代次数为Nt,设置初始值为0的迭代计数器at
在本实施例中,训练的文本总条数Ntrain=5500,训练的总迭代次数Nt=120;
S12.设置初始值为0的文本条数计数器an
S13.从训练文本中读取一行文本T并更新文本条数计数器为an+1;
在本实施例中,以处理训练文本“华为技术有限公司是一家民营通信科技公司,主要创始人任正非,总部位于深圳。”为例进行说明;
S14.读取实体标签数据:
S141.对文本T,从标签文件中读取分词信息,将T分割成不同的词,设T中词的总个数为Nw,其中标点符号视为一个词;
在本实施例中,标签文件中的分词信息为“华为技术有限公司|是|一家|民营|通信科技公司|,|主要|创始人|任正非|,|总部|位于|深圳|。”,其中符号|为各个词的分隔符;根据该分词信息,将T分割成Nw=14个不同的词;
S142.设实体的种类有Ne种,对T中的每一个词ti(1≤i≤14),从标签文件中读取实体类型信息,生成ti所对应的实体类型编号li:若ti被标注为某实体,则令li为该实体的实体类别编号,否则,令li=Ne+1(Ne+1表示非实体类型的编号);
在本实施例中,实体的种类有Ne=5种,分别是“企业”、“人物”、“日期”、“地点”、“数字”,则实体类型共有6种,包括前5种为实体种类和第6种为非实体类型;标签文件中的实体类型信息为:第1个词“华为技术有限公司”的实体类型为“企业”,第2个词“是”的实体类型为“非实体”,第3个词“一家”的实体类型为“非实体”,…,第9个词“任正非”的实体类型为“人物”,…,第14个词“。”的实体类型为“非实体”;这里以第1个词“华为技术有限公司”和第9个词“任正非”为例,对t1=“华为技术有限公司”,其实体类型编号l1=1,对t9=“任正非”,其实体类型编号l9=2;
S143.对T中的每一个词ti(1≤i≤14),将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi,该向量的第k(1≤k≤6)个元素yi,k为:
Figure BDA0002483664810000061
在本实施例中,对t1,其实体标签向量y1=[1,0,0,...,0],其中y1,1=1;对t9,其实体标签向量y9=[0,1,0,...,0],其中y9,2=1;
S15.读取关系标签数据:
S151.设关系的种类有Nr种,将文本T中的任意两个不同的词ti和tj(1≤i,j≤14,i≠j)组成词对(ti,tj),从标签文件中读取关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系,则令mi,j为该关系的关系类别编号,否则,令mi,j=Nr+1(Nr+1表示非关系类型的编号);
在本实施例中,关系的种类有Nr=8种,分别是“创始人”、“董事长”、“投资”、“收购”、“合作”、“成立日期”、“注册资本”、“总部地点”,则关系类型共有9种,包括前8种为关系种类和第9种为无关系类型;标签文件中的关系类型信息为:第1个词“华为技术有限公司”和第2个词“是”的关系类型为“无关系”,第1个词“华为技术有限公司”和第3个词“一家”的关系类型为“无关系”,…,第1个词“华为技术有限公司”和第9个词“任正非”的关系类型为“创始人”,…,第1个词“华为技术有限公司”和第14个词“。”的关系类型为“无关系”,…,第14个词“。”与第13个词“深圳”的关系类型为“无关系”;这里以第1个词“华为技术有限公司”和第9个词“任正非”为例,则词对(t1,t9)的关系为“创始人”,其关系类型编号m1,9=1;
S152.对每一个词对(ti,tj)(1≤i,j≤14,i≠j),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j,则该向量的第k(1≤k≤9)个元素zi,j,k为:
Figure BDA0002483664810000071
在本实施例中,对词对(t1,t9),其关系标签向量z1,9=[1,0,0,...,0],其中,z1,9,1=1;
S2.生成词向量:
S21.将公开的word2vec词嵌入结构作为神经网络的输入层,初始化该层的网络参数为一组高斯分布的随机采样,并设置其输出矢量的维数为dw
在本实施例中,输入层的输出矢量维数dw=300;
S22.将文本T中的每一个词ti(1≤i≤14)输入到输入层进行词嵌入,得到维数为dw=300的词向量wi
在本实施例中,对最后一次迭代,即第120次迭代,迭代计数器at=119时,词t1和词t9经过词嵌入后,分别得到词向量w1=[-0.0539,-0.0381,0.1626,...,-0.1476],w9=[-0.1287,-0.0914,0.0102,...,-0.0208];
S3.双向LSTM编码:
S31.将标准双向LSTM结构作为神经网络的第二层,初始化该层的参数为一组高斯分布的随机采样,并设置其输出矢量的维数为dc
在本实施例中,第二层输出矢量的维数dc=300;
S32.前向LSTM编码:将每一个词ti(1≤i≤14)所对应的词向量wi输入到第二层进行前向LSTM编码,得到维数为dc=300的前向编码向量
Figure BDA0002483664810000081
在本实施例中,对第120次迭代,即迭代计数器at=119时,词向量w1和w9经过前向LSTM编码后,分别得到前向编码向量
Figure BDA0002483664810000082
Figure BDA0002483664810000083
S33.后向LSTM编码:将每一个词ti(1≤i≤14)所对应的词向量wi输入到第二层进行后向LSTM编码,得到维数为dc=300的后向编码向量
Figure BDA0002483664810000084
在本实施例中,对第120次迭代,即迭代计数器at=119时,词向量w1和w9经过后向LSTM编码后,分别得到后向编码向量
Figure BDA0002483664810000085
Figure BDA0002483664810000086
S34.将每一个词ti(1≤i≤14)所对应的前向编码向量
Figure BDA0002483664810000087
和后向编码向量
Figure BDA0002483664810000088
进行拼接,得到维数为2×dc=600双向编码向量hi
Figure BDA0002483664810000089
其中,
Figure BDA00024836648100000810
Figure BDA00024836648100000811
分别为前向编码向量
Figure BDA00024836648100000812
和后向编码向量
Figure BDA00024836648100000813
的转置;
在本实施例中,对第120次迭代,即迭代计数器at=119时,
Figure BDA00024836648100000814
Figure BDA00024836648100000815
经过拼接操作后,得到双向编码向量h1=[0.0261,0.3392,...,-0.4417,-0.0645,0.3033,...,-0.3772],
Figure BDA00024836648100000816
Figure BDA00024836648100000817
经过拼接操作后,得到双向编码向量h9=[-0.0307,0.1263,...,-0.3732,-0.5803,0.4353,...,-0.4323];
S4.预测实体关系:
S41.将标准softmax与sigmoid分类器的联合结构作为神经网络的输出层,初始化该层的网络参数为一组高斯分布的随机采样;
S42.预测实体类型:将每一个双向编码向量hi(1≤i≤14)输入到softmax分类器进行实体类型预测,得到维数为Ne+1=6的实体类型预测向量
Figure BDA0002483664810000091
该向量的第q个元素对应于将ti预测为第q种实体类型的概率;
在本实施例中,对120次迭代,即迭代计数器at=119时,双向编码向量h1和h9经过实体类型预测操作后,分别得到实体类型预测向量
Figure BDA0002483664810000092
Figure BDA0002483664810000093
其中
Figure BDA0002483664810000094
的第1个元素对应于将t1=“华为技术有限公司”预测为第1种实体类型“企业”的概率为0.8603,
Figure BDA0002483664810000095
的第2个元素对应于将t9=“任正非”预测为第2种实体类型“人物”的概率为0.8940;
S43.预测关系类型:对每一个词对(ti,tj)(1≤i,j≤14,i≠j),将ti和tj所对应的双向编码向量hi和hj输入到sigmoid分类器进行关系类型预测,得到维数为Nr+1=9的关系类型预测向量
Figure BDA0002483664810000096
该向量的第k个元素对应于将词对(ti,tj)的关系类型预测为第k种关系类型的概率;
在本实施例中,对第120次迭代,即迭代计数器at=119时,双向编码向量h1和h9经过关系类型预测操作后,分别得到关系类型预测向量
Figure BDA0002483664810000097
其中
Figure BDA0002483664810000098
的第1个元素对应于将词对(t1,t9)=(华为技术有限公司,任正非)预测为第1种关系类型“创始人”的概率为0.8022;
S5.计算实体关系损失:
S51.计算实体损失
Figure BDA0002483664810000099
S511.对每一个词ti(1≤i≤14),计算敏感因子δi
Figure BDA00024836648100000910
其中,
Figure BDA00024836648100000911
为实体标签向量yi的第li(1≤li≤Ne+1)个元素,表示ti属于第li种实体类型的概率;
Figure BDA00024836648100000912
为实体类型预测向量
Figure BDA00024836648100000913
的第li个元素,表示ti被预测为第li种实体类型的概率;λ为预设的敏感阈值,sgn(·)为符号函数,定义为:
Figure BDA0002483664810000101
在本实施例中,敏感阈值λ的取值范围为0.7≤λ≤0.9,这里λ的取值为0.8;对第120次迭代,即迭代计数器at=119时,词t1的实体类型编号l1=1,则实体标签向量y1的第1个元素y1,1=1为t1属于第1种实体类型的概率,实体类型预测向量
Figure BDA0002483664810000102
中的第1个元素
Figure BDA0002483664810000103
为t1被预测为第1种实体类型的概率,即t1=“华为技术有限公司”属于第1种实体类型“企业”的概率为1,而当前预测出的概率为0.8603,通过公式(4)计算得到t1所对应的敏感因子δ1=0;词t9的实体类型编号l9=2,则实体标签向量y9的第2个元素y9,2=1为t9属于第2种实体类型的概率,实体类型预测向量
Figure BDA0002483664810000104
中的第2个元素
Figure BDA0002483664810000105
为t9被预测为第2种实体类型的概率,即t9=“任正非”属于第2种实体类型“人物”的概率为1,而当前预测出的概率为0.8940,通过公式(4)计算得到t9所对应的敏感因子δ9=0;
S512.对每一个词ti(1≤i≤14),计算衰减因子βi
Figure BDA0002483664810000106
其中,NO表示文本T中非实体类型的词的个数;
在本实施例中,对第120次迭代,即迭代计数器at=119时,非实体类型的词的个数NO=11,词t1的实体类型编号l1=1,词t9的实体类型编号l9=2,故通过公式(6)分别计算得到t1所对应的衰减因子β1=1,t9所对应的衰减因子β9=1;对t2=“是”,实体类型编号l2=6,计算得到的对应的衰减因子β2=0.7857;
S513.计算实体损失
Figure BDA0002483664810000107
Figure BDA0002483664810000111
在本实施例中,对第120次迭代,即迭代计数器at=119时,通过公式(7)计算得到实体损失
Figure BDA0002483664810000112
S52.计算关系损失
Figure BDA0002483664810000113
Figure BDA0002483664810000114
在本实施例中,对第120次迭代,即迭代计数器at=119时,通过公式(8)计算得到关系损失
Figure BDA0002483664810000115
S53.计算实体关系损失
Figure BDA0002483664810000116
Figure BDA0002483664810000117
在本实施例中,对第120次迭代,即迭代计数器at=119时,通过公式(9)计算得到实体关系损失
Figure BDA0002483664810000118
S6.更新联合分类模型:使用标准反向传播算法将实体关系损失
Figure BDA0002483664810000119
进行反向传播,并对神经网络模型参数进行更新;
S7.判定是否读取完所有训练文本:若当前条数计数器an小于训练文本总条数Ntrain,则转到步骤S13继续读取下一条文本,否则,更新迭代计数器为at+1;
S8.判定迭代训练是否终止:若当前迭代计数器at小于模型训练的总迭代次数Nt,则转到步骤S12继续下一次迭代训练;否则,结束训练,将当前的联合分类模型输出;
●识别阶段:
下面以处理测试文本“同时,招商银行还将作为战略投资者投资滴滴。”为例进行说明;
S1.读取测试文本:读取一行测试文本T';
S2.加载联合分类模型:读取训练得到的联合分类模型各层网络参数并将其作为当前神经网络各层的网络参数;
S3.生成词向量:
S31.使用标准中文分词工具对测试文本T'进行分词处理,将T'分割成不同的词,设T'中词的总个数为N'w,其中标点符号视为一个词;
在本实施例中,T'经过分词处理后的分词信息为“同时|,|招商银行|还|将|作为|战略|投资者|投资|滴滴|。”,其中符号|为各个词的分隔符。根据该分词信息,将T'分割成N'w=11个不同的词;
S32.对测试文本T'中的每一个词t'i'(1≤i'≤11),按训练阶段步骤S22进行词嵌入操作,得到词向量w'i'
在本实施例中,以T'的第3个词“招商银行”和第10个词“滴滴”为例,则t'3=“招商银行”,t'10=“滴滴”,词t'3和t'10经过词嵌入操作后,分别得到词向量w'3=[-0.0934,0.0117,0.0731,...,-0.2821],w'10=[-0.2307,0.1463,0.0519,...,-0.1347];
S4.双向LSTM编码:对每一个词向量w'i'(1≤i'≤11),按训练阶段步骤S3进行双向LSTM编码,得到双向编码向量h'i'
在本实施例中,词向量w'3和w'10经过双向LSTM编码后,分别得到双向编码向量h'3=[-0.0533,0.3059,-0.1171,...,-0.2999],h'10=[-0.6217,0.0441,-0.0834,...,0.0074];
S5.实体关系分类:
S51.实体分类:
S511.对每一个双向编码向量h'i'(1≤i'≤11),按训练阶段步骤S42进行实体类型预测,得到实体类型预测向量
Figure BDA0002483664810000121
在本实施例中,双向编码向量h'3和h'10在经过实体类型预测操作后,分别得到实体类型预测向量
Figure BDA0002483664810000122
S512.对每一个实体类型预测向量
Figure BDA0002483664810000123
寻找其所有元素中的最大值,并将最大值所对应的位置编号作为词t'i'的实体类型预测编号
Figure BDA0002483664810000124
在本实施例中,实体类型预测向量
Figure BDA0002483664810000125
所有元素中的最大值0.9371所对应的位置编号为1,故词t'3的实体类型预测编号
Figure BDA0002483664810000126
即将t'3=“招商银行”预测为“企业”实体类型;实体类型预测向量
Figure BDA0002483664810000131
所有元素中的最大值0.9103所对应的位置编号为1,故词t'10的实体类型预测编号
Figure BDA0002483664810000132
即将t'10=“滴滴”也预测为“企业”实体类型;
S52.关系分类:
S521.对测试文本T'中的每个词对(t'i',t'j')(1≤i',j'≤11,i'≠j'),按训练阶段步骤S43进行关系类型预测,得到词对(t'i',t'j')的关系类型预测向量
Figure BDA0002483664810000133
在本实施例中,对词对(t'3,t'10),其关系类型预测向量
Figure BDA0002483664810000134
S522.对每一个关系类型预测向量
Figure BDA0002483664810000135
寻找其所有元素中的最大值,并将最大值所对应的位置编号作为词对(t'i',t'j')的关系类型预测编号
Figure BDA0002483664810000136
在本实施例中,对词对(t'3,t'10),其关系类型预测向量
Figure BDA0002483664810000137
所有元素中的最大值0.8746所对应的位置编号为3,故词对(t'3,t'10)的关系类型预测编号
Figure BDA0002483664810000138
即将词对(招商银行,滴滴)的关系预测为“投资”关系类型;
S6.输出实体关系三元组:对每个词对(t'i',t'j')(1≤i',j'≤11,i'≠j')进行判断:若该词对对应的实体类型预测编号
Figure BDA0002483664810000139
Figure BDA00024836648100001310
均不等于Ne+1=6,且其关系类型预测编号
Figure BDA00024836648100001311
不等于Nr+1=9,则形成实体关系三元组(t'i',Ri',j',t'j')并输出,其中,Ri,j为关系类型预测编号
Figure BDA00024836648100001312
所对应的关系名称;
在本实施例中,对词对(t'3,t'10),由于
Figure BDA00024836648100001313
所对应的关系名称R3,10为“投资”,故最终输出实体关系三元组(招商银行,投资,滴滴)。
下面将本发明方法的性能与传统方法进行比较;其中,传统方法采用传统的损失计算函数,测试中两种方法采用相同的数据集。本发明方法的程序基于谷歌公司Tensorflow框架,采用Python语言编写。
表1性能比较
Figure BDA00024836648100001314
Figure BDA0002483664810000141
可以看到,相对于传统方法,本发明方法具有较为明显的优势,在实体关系识别的各项指标上都有所提升。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (2)

1.一种基于损失优化的实体关系联合抽取方法,包括以下步骤:
步骤1、数据预处理;
步骤1.1、读取实体标签数据:
步骤1.1.1、对文本T,从标签文件中读取分词信息,将T分割成不同的词ti,1≤i≤Nw、Nw为文本T中词的总个数,其中标点符号视为一个词;
步骤1.1.2、对文本T中的每一个词ti,从标签文件中读取实体类型信息,生成ti的实体类型编号li:若ti被标注为某实体、则令li为该实体的实体类别编号,否则、令li=Ne+1,Ne为实体类别总数;
步骤1.1.3、对文本T中的每一个词ti,将其实体类型编号li进行独热(one-hot)编码,得到实体标签向量yi
步骤1.2、读取关系标签数据:
步骤1.2.1、将文本T中的任意两个不同的词ti和tj组成词对(ti,tj),1≤i,j≤Nw,i≠j;从标签文件中读取词对(ti,tj)的关系类型信息,生成词对(ti,tj)所对应的关系类型编号mi,j:若词对(ti,tj)被标注为某关系、则令mi,j为该关系的关系类别编号,否则、令mi,j=Nr+1,Nr为关系类别总数;
步骤1.2.2、对每一个词对(ti,tj),将其关系类型编号mi,j进行独热编码,得到关系标签向量zi,j
步骤2、构建及训练联合分类模型;
步骤2.1、构建联合分类模型,包括:输入层、隐藏层及输出层;
所述输入层采用word2vec词嵌入结构、并设置其输出矢量的维数为dw;将文本T中的每一个词ti输入到输入层进行词嵌入,得到维数为dw的词向量wi
所述隐藏层采用双向LSTM结构、并设置其输出矢量的维数为dc;其中,前向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行前向LSTM编码得到维数为dc的前向编码向量
Figure FDA0003792736730000011
后向LSTM编码:将每一个词ti所对应的词向量wi输入到隐藏层进行后向LSTM编码得到维数为dc的后向编码向量
Figure FDA0003792736730000021
将每一个词ti所对应的前向编码向量
Figure FDA0003792736730000022
和后向编码向量
Figure FDA0003792736730000023
进行拼接,得到维数为2×dc双向编码向量hi
Figure FDA0003792736730000024
所述输出层采用softmax与sigmoid分类器的联合结构;其中:
所述softmax分类器进行实体类型预测,将每一个双向编码向量hi输入到softmax分类器,得到维数为Ne+1的实体类型预测向量
Figure FDA0003792736730000025
所述sigmoid分类器进行关系类型预测,将每一个词对(ti,tj)中ti和tj所对应的双向编码向量hi和hj输入到sigmoid分类器,得到维数为Nr+1的关系类型预测向量
Figure FDA0003792736730000026
步骤2.2、训练联合分类模型:设置训练集的文本总条数为Ntrain、训练总迭代次数为Nt以及损失函数,采用反向传播算法对联合分类模型参数进行更新,训练结束得到联合分类模型;
所述损失函数为:
Figure FDA0003792736730000027
其中,
Figure FDA0003792736730000028
为实体损失:
Figure FDA0003792736730000029
δi为词ti的敏感因子:
Figure FDA00037927367300000210
Figure FDA00037927367300000211
为实体标签向量yi的第li个元素,
Figure FDA00037927367300000212
为实体类型预测向量
Figure FDA00037927367300000213
的第li个元素,1≤li≤Ne+1;λ为预设敏感阈值,sgn(·)为符号函数:
Figure FDA00037927367300000214
βi为词ti的衰减因子:
Figure FDA0003792736730000031
NO表示文本T中非实体类型的词的个数;
Figure FDA0003792736730000032
为关系损失:
Figure FDA0003792736730000033
步骤3、实体关系联合抽取;
步骤3.1、采用中文分词工具对待处理文本T'进行分词处理,将T'分割成不同的词t'i',1≤i'≤N'w、N'w为T'中词的总个数;并形成词对(t'i',t'j'),1≤i',j'≤N'w,i'≠j';输入至训练得到的联合分类模型,得到每一个词t'i'的实体类型预测向量
Figure FDA0003792736730000034
以及词对(t'i',t'j')的关系类型预测向量
Figure FDA0003792736730000035
其中,实体类型预测向量
Figure FDA0003792736730000036
中最大值对应的位置编号作为词t'i'的实体类型预测编号
Figure FDA0003792736730000037
关系类型预测向量
Figure FDA0003792736730000038
中最大值所对应的位置编号作为词对(t'i',t'j')的关系类型预测编号
Figure FDA0003792736730000039
步骤3.2、输出实体关系三元组:对每个词对(t'i',t'j')进行判断:若该词对对应的实体类型预测编号
Figure FDA00037927367300000310
Figure FDA00037927367300000311
均不等于Ne+1,且其关系类型预测编号
Figure FDA00037927367300000312
不等于Nr+1,则形成实体关系三元组(t'i',Ri',j',t'j')并输出,其中,Ri',j'为关系类型预测编号
Figure FDA00037927367300000313
所对应的关系名称。
2.按权利要求1所述基于损失优化的实体关系联合抽取方法,其特征在于,所述敏感阈值λ的取值范围:0.7≤λ≤0.9。
CN202010385529.5A 2020-05-09 2020-05-09 一种基于损失优化的实体关系联合抽取方法 Expired - Fee Related CN111581387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010385529.5A CN111581387B (zh) 2020-05-09 2020-05-09 一种基于损失优化的实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010385529.5A CN111581387B (zh) 2020-05-09 2020-05-09 一种基于损失优化的实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN111581387A CN111581387A (zh) 2020-08-25
CN111581387B true CN111581387B (zh) 2022-10-11

Family

ID=72122994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010385529.5A Expired - Fee Related CN111581387B (zh) 2020-05-09 2020-05-09 一种基于损失优化的实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN111581387B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163092B (zh) * 2020-10-10 2022-07-12 成都数之联科技股份有限公司 实体及关系抽取方法及系统、装置、介质
CN112749283A (zh) * 2020-12-31 2021-05-04 江苏网进科技股份有限公司 一种面向法律领域的实体关系联合抽取方法
CN113378513B (zh) * 2021-06-11 2022-12-23 电子科技大学 一种面向领域关系抽取的标注语料生成方法
CN114611519A (zh) * 2022-03-31 2022-06-10 联想(北京)有限公司 一种文本的实体关系抽取方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108875000A (zh) * 2018-06-14 2018-11-23 广东工业大学 一种融合多句法结构的语义关系分类方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现系统
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN110867225A (zh) * 2019-11-04 2020-03-06 山东师范大学 字符级临床概念提取命名实体识别方法及系统
CN110941716A (zh) * 2019-11-05 2020-03-31 北京航空航天大学 一种基于深度学习的信息安全知识图谱的自动构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165385B (zh) * 2018-08-29 2022-08-09 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526799A (zh) * 2017-08-18 2017-12-29 武汉红茶数据技术有限公司 一种基于深度学习的知识图谱构建方法
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108416058A (zh) * 2018-03-22 2018-08-17 北京理工大学 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN108875000A (zh) * 2018-06-14 2018-11-23 广东工业大学 一种融合多句法结构的语义关系分类方法
CN109344244A (zh) * 2018-10-29 2019-02-15 山东大学 一种融合区分度信息的神经网络关系分类方法及其实现系统
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN110867225A (zh) * 2019-11-04 2020-03-06 山东师范大学 字符级临床概念提取命名实体识别方法及系统
CN110941716A (zh) * 2019-11-05 2020-03-31 北京航空航天大学 一种基于深度学习的信息安全知识图谱的自动构建方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Joint entity recognition and relation extraction as a multi-head selection problem;Bekoulis G 等;《Expert Systems with Applications》;20181230;第114卷;34-45 *
Subsequence-Level Entity Attention LSTM for Relation Extraction;T. GAN 等;《2019 16th International Computer Conference on Wavelet Active Media Technology and Information Processing》;20200416;262-265 *
命名实体识别与关系抽取研究及应用;李飞;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190215(第2期);I138-2411 *
面向文本数据的金融实体关系挖掘技术研究;甘云强;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200715(第7期);I138-472 *

Also Published As

Publication number Publication date
CN111581387A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581387B (zh) 一种基于损失优化的实体关系联合抽取方法
Luan et al. Scientific information extraction with semi-supervised neural tagging
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
Zayats et al. Disfluency detection using a bidirectional LSTM
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
US20240013000A1 (en) Method and apparatus of ner-oriented chinese clinical text data augmentation
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN111651983A (zh) 一种基于自训练与噪声模型的因果事件抽取方法
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111273911A (zh) 基于双向lstm和注意力机制的软件技术债务识别方法
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN116245107A (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN114444484A (zh) 一种基于双层图的文档级事件抽取方法及系统
CN116882413A (zh) 一种中文实体识别方法、装置及设备
CN113822018B (zh) 实体关系联合抽取方法
CN116090468A (zh) 一种基于层叠式指针网络的实体关系联合抽取方法及系统
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
Sehrawat Learning word embeddings from 10-K filings for financial NLP tasks
CN114692596A (zh) 基于深度学习算法的债券信息解析方法、装置及电子设备
Chabridon et al. Tools for global and target sensitivity analyses in the context of high-dimensional thermal-hydraulic numerical experiments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221011

CF01 Termination of patent right due to non-payment of annual fee