CN111428505A - 一种融合触发词识别特征的实体关系抽取方法 - Google Patents

一种融合触发词识别特征的实体关系抽取方法 Download PDF

Info

Publication number
CN111428505A
CN111428505A CN202010212651.2A CN202010212651A CN111428505A CN 111428505 A CN111428505 A CN 111428505A CN 202010212651 A CN202010212651 A CN 202010212651A CN 111428505 A CN111428505 A CN 111428505A
Authority
CN
China
Prior art keywords
sentence
entity
vector
word
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010212651.2A
Other languages
English (en)
Other versions
CN111428505B (zh
Inventor
辛欣
王艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN111428505A publication Critical patent/CN111428505A/zh
Application granted granted Critical
Publication of CN111428505B publication Critical patent/CN111428505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融合触发词识别特征的实体关系抽取方法,属于自然语言处理中的信息抽取技术领域。所述方法先对数据集中的句子标记触发词;再利用句子中触发词、两个实体和根据两个实体相对位置计算的句子类型计算标签向量,然后计算标签向量与模型中注意力机制捕捉的句子特征表示的相对熵;再设计一个实体关系抽取的目标函数;将相对熵与实体关系抽取的目标函数进行优化用于训练实体关系抽取的模型。不仅解决了现有实体关系抽取方法对句子中的所有词一视同仁的缺点,还能帮助实体关系抽取模型提取对实体关系分类更有用的特征;所述实体关系抽取方法在标准的中文关系抽取数据集ACE2005上比现有最好实体关系抽取方法的F1得分高出2.5%。

Description

一种融合触发词识别特征的实体关系抽取方法
技术领域
本发明涉及一种融合触发词识别特征的实体关系抽取方法,属于自然语言处理中的信息抽取技术领域。
背景技术
实体关系抽取任务是给定标注了两个实体的句子,返回两个实体之间的语义关系。例如“姚明在父亲姚志源的影响下,他也十分热爱篮球运动”,句子中两个实体分别是“姚明”和“姚志源”,两个实体之间的关系是“父子”。
实体关系抽取是信息检索和问答系统等信息系统的重要支撑技术。实体关系抽取使信息系统的输出结果由粗粒度的文档级转变为细粒度的实体级。比如在传统的信息检索技术中,输入“姚明的父亲是谁?”,会输出结果是带有“姚明”和“父亲”词条的所有文档;将实体关系抽取技术应用到信息检索后,会直接输出结果是“姚志源”。
现有的实体关系抽取方法,对输入的标注了两个实体的句子直接建模提取用于实体关系分类的特征并将提取的特征输入到实体关系分类器中;但是这些方法对句子中的所有词一视同仁,因此,句子中对实体关系分类贡献小的词会引入噪声,比如上面例句中“他也十分热爱篮球”对实体关系分类贡献就小,但是将其建模并提取其特征输入到实体关系分类器中,就会对实体关系分类产生负面影响;为了解决现有实体关系抽取方法对句子中所有词一视同仁带来的噪声问题,我们启发式的假设句子中对实体关系抽取贡献大的词为“触发词”,即触发词是句子中能够直接或间接表达两个实体间关系的词或词组,比如上面例句中“父亲”就是触发词。提出了一种识别句子中触发词的方法。
将识别句子中触发词的方法与实体关系抽取方法融合,即我们提出一种融合触发词识别特征的实体关系抽取方法。先对数据集中句子标注触发词,用于训练一个能识别句子中触发词的模型。然后将识别触发词的模型与实体关系抽取模型融合用于实体关系抽取;我们的方法显著的提高了实体关系抽取的性能。
发明内容
本发明的目的在于针对现有的实体关系抽取方法对句子中的所有词一视同仁而带来的噪声问题,提出了一种融合触发词识别特征的实体关系抽取方法。
所述融合触发词识别特征的实体关系抽取方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
1.一种融合触发词识别特征的实体关系抽取方法,包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
步骤1:提取句子中触发词的特征;
步骤1.1:对数据集中的句子标注触发词,输出标注触发词后的数据集;
其中,数据集包括训练集和测试集;
步骤1.1具体包括以下子步骤:
步骤1.1.1:对数据集中含有触发词的句子,使用大括号标注触发词,用于记录触发词在句子中的位置;
步骤1.1.2:对于数据集中不含有触发词的句子,打上<omit>标记;
步骤1.2:从步骤1.1输出的数据集的训练集中选取一个训练样本(Sh,lh),对句子Sh进行分类再计算该句子的标签向量v;
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签,h的取值范围是1到H,H是训练集中样本的总数;
步骤1.2具有包括以下子步骤:
步骤1.2.1:对句子Sh进行分类;根据句子Sh中两个实体之间的相对位置,通过公式(1)得到句子类型t:
Figure BDA0002423347410000031
其中,
Figure BDA0002423347410000032
表示实体1在句子Sh中的起始位置,
Figure BDA0002423347410000033
表示实体1在句子Sh中的结束位置;
Figure BDA0002423347410000034
表示实体2在句子Sh中的起始位置,
Figure BDA0002423347410000035
表示实体1在句子Sh中的结束位置;
步骤1.2.2:通过公式(2)得到句子Sh的标签向量v:
Figure BDA0002423347410000036
其中,用x是句子Sh去掉标注触发词的大括号和<omit>标签后的句子,形式上为文字的序列,即x=[x1,x2,...,xM],xi表示x中第i个文字,i的取值范围为1到M,M是句子x的长度;one_hot(·)是嵌入函数,实体xi对应的vi为1,其他字xj对应的vj为0,触发词在句子x中的位置i对应的vi为1;t是经步骤2.1计算输出的句子类型;符号
Figure BDA0002423347410000048
代表的是向量的拼接;
步骤1.3:计算带有实体位置信息的字向量,具体为:将句子x中的字转化为字向量,计算实体在句子x中的相对位置,将实体相对位置转换为位置向量,最后计算带有实体位置信息的字向量,具体包括以下子步骤:
步骤1.3.1:对句子x中的每个字通过公式(3)的嵌入函数转化为其字向量:
ei=embed(xi) (3)
其中,embed(·)是嵌入函数,对于输入的每一个字xi,查找得到对应的字向量ei
步骤1.3.2:通过公式(4)计算实体k相对于句子x中第i个字的相对位置
Figure BDA0002423347410000041
用来标记是实体k在句子x中的位置:
Figure BDA0002423347410000042
其中,
Figure BDA0002423347410000043
表示实体k在句子x中的开始位置,
Figure BDA0002423347410000044
表示实体k在句子x中的结束位置,k的取值范围为[1,2],分别代表句子x中的实体1和实体2;i的取值范围为1到M,M是句子x的长度;
步骤1.3.3:并通过公式(5)的嵌入函数将实体k相对于句子x中第i个字的相对位置
Figure BDA0002423347410000045
转化为其位置向量
Figure BDA0002423347410000046
Figure BDA0002423347410000047
其中,
Figure BDA0002423347410000051
是经步骤3.2计算得到的实体相对于句子x中第i个字的相对位置;i的取值范围为1到M,M是句子x的长度;
步骤1.3.4:通过公式(6)将经步骤1.3.1转化输出的句子x中第i个字的字向量ei与经步骤1.3.3转化输出的实体k相对于句子x第i个字的位置向量
Figure BDA0002423347410000052
拼接得到带有实体位置信息的字向量
Figure BDA0002423347410000053
Figure BDA0002423347410000054
步骤1.4:将经步骤1.3.4拼接得到的字向量
Figure BDA0002423347410000055
作为模型的输入,输入到机器学习模型中进行特征提取得到高阶特征向量
Figure BDA0002423347410000056
步骤1.5:计算实体的向量表示并根据该向量表示计算句子x的句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.1:通过公式(7)从经步骤1.4输出的高阶特征向量e*中计算实体k的向量表示entity_embk
Figure BDA0002423347410000057
其中,k取值为1和2,分别代表一个句子x中的实体1和实体2,
Figure BDA0002423347410000058
表示实体k在句子x中的开始位置,
Figure BDA0002423347410000059
表示实体k在句子x中的结束位置,
Figure BDA00024233474100000510
dh表示向量的维度,i表示向量e*第i个位置;
步骤1.5.2:通过公式(8)计算句子x的句子类型的向量表示te
te=Relu(WT(concat(entityemb k))+b) (8)
其中,
Figure BDA00024233474100000511
dh表示向量的维度,concat(·)函数表示两个向量表示的拼接;Relu(·)函数是线性整流函数;
Figure BDA0002423347410000061
是可被训练的参数,b是一个偏置向量;T表示向量转置;
步骤1.6:通过公式(9),拼接经步骤1.4输出的高阶特征向量e*和经步骤1.5.2输出的句子类型向量表示te得到特征向量
Figure BDA0002423347410000062
Figure BDA0002423347410000063
用于识别句子中的触发词和实体关系分类:
Figure BDA0002423347410000064
其中,concat(·)函数表示两个向量的拼接,
Figure BDA0002423347410000065
初始化取值全为0,dh表示向量的维度;
步骤1.7:使用注意力机制捕捉句子中触发词的特征;通过公式(10)对经步骤1.6输出的向量e#使用注意力机制计算得到其权重向量α:
α=softmax(wTtanh(e#)) (10)
其中,tanh(·)是双曲正切函数,
Figure BDA0002423347410000066
是可被训练的参数,softmax(·)函数将多个神经元的输出映射到(0,1)区间内,权重向量
Figure BDA0002423347410000067
是注意力机制计算得到句子中触发词的特征;
步骤2:提取句子中用于实体关系抽取的特征;
步骤2的具体子步骤如下:
步骤2.1:通过公式(11)将经步骤1.6输出的字级别向量e#与经步骤1.7输出的权重向量α的转置做运算,输出句子级别的向量e
e=e#αT (11)
其中,
Figure BDA0002423347410000071
dh是向量的维度,T是向量转置;
步骤2.2:对经步骤2.1输出的句子级别的向量e通过公式(12)映射到实体关系空间并得到用于实体关系分类的向量o;
o=We+b (12)
其中,
Figure BDA0002423347410000072
是一个转移矩阵将e映射到实体关系空间,Y表示实体关系类型的总数,dh是向量e的维度,b是一个偏置向量,向量o是句子中用于实体关系抽取的特征;
步骤3:融合识别句子中触发词的模型与实体关系抽取的模型;
步骤3.1:采用相对熵衡量经步骤1.2.2输出的句子标签向量v与经步骤1.7输出的权重向量α之间的分布差异性;具体为:计算句子标签向量的概率分布,计算该概率分布与经步骤1.7输出的权重向量之间的相对熵;
步骤3.1的具体子步骤如下:
步骤3.1.1:通过公式(13)计算句子标签向量v的概率分布αv
αv=softmax(v) (13)
其中,v经过softmax(·)函数将值映射到(0,1)区间;
步骤3.1.2:通过公式(14)计算经步骤3.1.1输出的概率分布αv与经步骤1.7输出的权重向量α之间的相对熵作为识别句子中触发词的模型的目标函数;
Figure BDA0002423347410000073
其中,H表示总的训练样本数,h表示第h个训练样本,其中θ是模型中可被训练的参数;
步骤3.2:采用交叉熵衡量真实概率与实体关系类型预测概率的之间分布的差异性;具体为:计算实体关系类型的预测概率,计算该概率与真实概率概率之间的相对熵;
其中,真实概率是指句子对应实体关系标签lh的概率为1;
步骤3.2.1:通过公式(15)对经步骤2.2输出的用于实体关系分类的向量o计算得到实体关系类型的预测概率p(lh|Sh):
p(lh|Sh)=softmax(o) (15)
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤3.2.2:通过公式(16)计算真实概率与经步骤3.2.1输出的每种实体关系类型的预测概率p(lh|Sh)之间的交叉熵作为实体关系抽取模型的目标函数:
Figure BDA0002423347410000081
其中,H表示训练样本的总数,h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.3:将经步骤3.1.2计算的交叉熵J(θ)与经步骤3.2.2计算的相对熵D(αv||α,θ)相加得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ),如下公式(17)所示:
J*(θ)=J(θ)+D(αv||α,θ) (17)
步骤3.4:使用随机梯度下降方法对步骤3.3的目标函数进行优化,对训练集中的所有训练样本进行N次迭代训练,输出被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4:使用步骤3.4输出的实体关系抽取模型识别句子中两个实体之间的关系;任意输入一句标注好两个实体的句子到被训练好的关系抽取模型,输出两个实体间的语义关系。
有益效果
本发明是一种融合触发词识别特征的实体关系抽取方法,与现有实体关系抽取方法相比,具有如下有益效果:
1.所述方法解决了现有实体关系抽取方法对句子中的所有词一视同仁的缺点,提出一种识别句子中触发词的方法,用于帮助实体关系抽取模型能提取对实体关系分类更有用的特征;
2.所述方法将识别句子中触发词的方法与实体关系抽取的方法相融合,因此,将句子中触发词的特征用于实体关系抽取,提高了实体关系抽取任务的性能;在标准的中文实体关系抽取数据集ACE2005上,所述方法的F1得分比之前模型最高的F1得分提升了2.5个百分点;
附图说明
图1是本发明一种融合触发词识别特征的实体关系抽取方法的流程图。
具体实施方式
下面结合具体实施例1以及附图1对本发明一种融合触发词识别特征的实体关系抽取方法进行细致阐述。
实施例1
本实施例阐述了本发明所述的一种融合触发词识别特征的实体关系抽取方法中的具体实施。
图1所示,是所述方法的流程图。
步骤1.设计识别句子中触发词的模型;
步骤1.1对数据集中的句子标记触发词,对有触发词的句子,例如“在中国科学院自动化研究所里,有一个中法自动化与应用数学联合实验室”;这个句子的两个实体是“中国科学院自动化研究所”和“中法自动化与应用数学联合实验室”,表达的实体关系是“ART/User-Owner-Inventor-Manufacturer”。句子中的词“有”能够直接的表达实体关系,使用大括号将这个词标记为触发词,用于记录触发词在句子中的位置;对于不含有触发词的句子,在句子的结尾标记<omit>标签;
步骤1.2计算经过步骤1.1的数据集中句子的标签向量v;
步骤1.2具体包括以下子步骤:
步骤1.2.1先计算句子的类型;根据句子中两个实体的相对位置计算句子的类型t,计算句子的类型是为了考虑不含触发词的句子在哪些位置相对两个实体省略触发词;例如“在中国科学院自动化研究所里,有一个中法自动化与应用数学联合实验室”的句子类型为t=2;
步骤1.2.2计算句子标签向量v;对于不含有触发词的句子,句子的标签向量v由句子的类型和两个实体决定,例如“中国基督教协会会长”中,两个实体是“中国基督教协会会长”和“中国基督教协会”,表达的实体关系是“ORG-AFF/Employment”,句子的类型为t=1,句子的长度为M=9,假设数据集中句子的类型总数为N=3,则其标签向量v=[1,1,1,1,1,1,1,1,1,1,0,0]并且长度为M+N;对含有触发词的句子,句子的标签向量v由触发词、句子类型和两个实体决定,例如“在中国科学院自动化研究所里,有一个中法自动化与应用数学联合实验室”中,触发词是“有”,句子类型为t=2,句子长度M=32,触发词在句子中的位置为15,其标签向量v=[0,1,1,1,1,1,1,1,1,1,1,1,0,0,1,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,0]并且长度为M+N;
步骤1.3使用嵌入技术,将初始输入的自然语言句子中的每个字转化为其嵌入向量;计算实体相对于句子中其他字的相对位置信息并使用嵌入技术将位置信息转化为其嵌入向量;将字嵌入向量与位置嵌入向量拼接得到模型的输入向量e;例如初始输入的自然语言句子句子“姚明出生于上海”,两个实体分别是“姚明”和“上海”,触发词是“出生于”,实体关系是“出生地”,实体“姚明”相对于句子中其他字的位置信息是[0,0,1,2,3,4,5],通过实体相对于句子中其他字的位置信息指明是抽取句子中两个实体的位置;
步骤1.4将经步骤1.3输出的向量e输入到机器学习模型中,比如BiLSTM深度神经网络,学习得到高阶特征向量e*
步骤1.5.计算句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.1从经步骤1.4输出的高阶特征向量e*中得到实体k的向量
Figure BDA0002423347410000111
然后对实体向量ek求和平均得到向量
Figure BDA0002423347410000121
其中k∈[1,2],分别表示实体1和实体2。L表示实体k的长度,dh表示向量的维度;
步骤1.5.2拼接步骤1.5.1输出的实体1的向量entity_emb1和实体2的向量entity_emb2得到向量
Figure BDA0002423347410000122
然后通过一个非线性变换得到句子类型的向量
Figure BDA0002423347410000123
其中向量表示
Figure BDA0002423347410000124
的初始化取值全为0,N表示句子类型的总数;
步骤1.6拼接经步骤1.4输出的高阶特征向量e*和经步骤1.5.2输出的向量te得到向量
Figure BDA0002423347410000125
步骤1.7采用注意力机制计算经步骤1.6输出的向量e#对应的权重向量α,用于捕捉句子中关于触发词的特征;
步骤1.8使用相对熵衡量经步骤1.2输出的向量标签与经步骤1.7输出的权重向量之间分布的差异性并作为识别触发词模型的目标函数;
步骤2.设计实体关系抽取模型;
步骤2.1使用注意力机制将将字级别的向量e#合并为句子级别的向量e
步骤2.2将经步骤2.1输出的句子级别的向量e经过非线性变换映射到实体关系空间得到向量o;
步骤2.3将经步骤2.2输出的向量o输入softmax(·)函数得关系的预测概率P;
步骤2.4使用交叉熵衡量句子的真实概率与经步骤2.3计算得到的预测概率P之间分布差异性并作为实体关系抽取模型的目标函数;
步骤3.融合识别触发词模型和实体关系抽取模型;
步骤3.1将步骤2.3交叉熵和步骤1.7.2相对熵一起定义为优化目标函数,交叉熵越小表示关系预测的越准确。相对熵越小表示注意力机制学习到的触发词特征越准确;
步骤3.2使用随机梯度下降算法优化步骤3.1的目标函数,对训练集中的所有训练样本进行N次迭代训练;最终得到一个被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4任意输入标注好两个实体的句子到经步骤3.2得到的被训练好的融合触发词识别特征的实体关系抽取模型中,将会输出这个句子中两个实体对应的实体关系;例如,输入句子“姚明在父亲姚志源的影响下,他也十分热爱篮球运动”,其中两个实体为“姚明”和“姚志源”,被训练好的实体关系抽取模型输出的实体关系是“父子”,将两个实体和实体关系构成三元组(“姚明”,“姚志源”,“父子”),在信息检索时,在搜索框内输入“姚明的爸爸是谁?”,查找对应的三元组直接输出“姚志源”的词条;与之前传统的信息检索的方法在所有文档中搜索“姚明”和“爸爸”词条相比,复杂性更低且速度更快;
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (8)

1.一种融合触发词识别特征的实体关系抽取方法,其特征在于:包括识别句子中触发词和实体关系抽取,具体包括以下步骤:
步骤1:提取句子中触发词的特征;
步骤1.1:对数据集中的句子标注触发词,输出标注触发词后的数据集;
其中,数据集包括训练集和测试集;
步骤1.2:从步骤1.1输出的数据集的训练集中选取一个训练样本(Sh,lh),对句子Sh进行分类再计算该句子的标签向量v;
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤1.2具有包括以下子步骤:
步骤1.2.1:对句子Sh进行分类;根据句子Sh中两个实体之间的相对位置,通过公式(1)得到句子类型t:
Figure FDA0002423347400000011
其中,
Figure FDA0002423347400000012
表示实体1在句子Sh中的起始位置,
Figure FDA0002423347400000013
表示实体1在句子Sh中的结束位置;
Figure FDA0002423347400000014
表示实体2在句子Sh中的起始位置,
Figure FDA0002423347400000015
表示实体1在句子Sh中的结束位置;
步骤1.2.2:通过公式(2)得到句子Sh的标签向量v:
Figure FDA0002423347400000016
其中,用x是句子Sh去掉标注触发词的大括号和<omit>标签后的句子,形式上为文字的序列,即x=[x1,x2,...,xM],xi表示x中第i个文字,i的取值范围为1到M,M是句子x的长度;one_hot(·)是嵌入函数,实体xi对应的vi为1,其他字xj对应的vj为0,触发词在句子x中的位置i对应的vi为1;t是经步骤2.1计算输出的句子类型;符号
Figure FDA0002423347400000021
代表的是向量的拼接;
步骤1.3:计算带有实体位置信息的字向量,具体为:将句子x中的字转化为字向量,计算实体在句子x中的相对位置,将实体相对位置转换为位置向量,最后计算带有实体位置信息的字向量,具体包括以下子步骤:
步骤1.3.1:对句子x中的每个字通过公式(3)的嵌入函数转化为其字向量:
ei=embed(xi) (3)
其中,embed(·)是嵌入函数,对于输入的每一个字xi,查找得到对应的字向量ei
步骤1.3.2:通过公式(4)计算实体k相对于句子x中第i个字的相对位置
Figure FDA0002423347400000022
用来标记是实体k在句子x中的位置:
Figure FDA0002423347400000023
其中,
Figure FDA0002423347400000024
表示实体k在句子x中的开始位置,
Figure FDA0002423347400000025
表示实体k在句子x中的结束位置,k的取值范围为[1,2],分别代表句子x中的实体1和实体2;i的取值范围为1到M,M是句子x的长度;
步骤1.3.3:并通过公式(5)的嵌入函数将实体k相对于句子x中第i个字的相对位置
Figure FDA0002423347400000031
转化为其位置向量
Figure FDA0002423347400000032
Figure FDA0002423347400000033
其中,
Figure FDA0002423347400000034
是经步骤3.2计算得到的实体相对于句子x中第i个字的相对位置;i的取值范围为1到M,M是句子x的长度;
步骤1.3.4:通过公式(6)将经步骤1.3.1转化输出的句子x中第i个字的字向量ei与经步骤1.3.3转化输出的实体k相对于句子x第i个字的位置向量
Figure FDA0002423347400000035
拼接得到带有实体位置信息的字向量
Figure FDA0002423347400000036
Figure FDA0002423347400000037
步骤1.4:将经步骤1.3.4拼接得到的字向量
Figure FDA0002423347400000038
作为模型的输入,输入到机器学习模型中进行特征提取得到高阶特征向量
Figure FDA0002423347400000039
步骤1.5:计算实体的向量表示并根据该向量表示计算句子x的句子类型的向量表示;
步骤1.5具体包括以下子步骤:
步骤1.5.1:通过公式(7)从经步骤1.4输出的高阶特征向量e*中计算实体k的向量表示entity_embk
Figure FDA00024233474000000310
其中,k取值为1和2,分别代表一个句子x中的实体1和实体2,
Figure FDA00024233474000000311
表示实体k在句子x中的开始位置,
Figure FDA00024233474000000312
表示实体k在句子x中的结束位置,
Figure FDA00024233474000000313
dh表示向量的维度,i表示向量e*第i个位置;
步骤1.5.2:通过公式(8)计算句子x的句子类型的向量表示te
te=Relu(WT(concat(entityemb k))+b) (8)
其中,
Figure FDA0002423347400000041
dh表示向量的维度,concat(·)函数表示两个向量表示的拼接;Relu(·)函数是线性整流函数;
Figure FDA0002423347400000042
是可被训练的参数,b是一个偏置向量;T表示向量转置;
步骤1.6:通过公式(9),拼接经步骤1.4输出的高阶特征向量e*和经步骤1.5.2输出的句子类型向量表示te得到特征向量
Figure FDA0002423347400000043
Figure FDA0002423347400000044
用于识别句子中的触发词和实体关系分类:
Figure FDA0002423347400000045
其中,concat(·)函数表示两个向量的拼接,
Figure FDA0002423347400000046
初始化取值全为0,dh表示向量的维度;
步骤1.7:使用注意力机制捕捉句子中触发词的特征;通过公式(10)对经步骤1.6输出的向量e#使用注意力机制计算得到其权重向量α:
α=softmax(wTtanh(e#)) (10)
其中,tanh(·)是双曲正切函数,
Figure FDA0002423347400000047
是可被训练的参数,softmax(·)函数将多个神经元的输出映射到(0,1)区间内,权重向量
Figure FDA0002423347400000048
是注意力机制计算得到句子中触发词的特征;
步骤2:提取句子中用于实体关系抽取的特征;
步骤2的具体子步骤如下:
步骤2.1:通过公式(11)将经步骤1.6输出的字级别向量e#与经步骤1.7输出的权重向量α的转置做运算,输出句子级别的向量
Figure FDA0002423347400000049
Figure FDA0002423347400000051
其中,
Figure FDA0002423347400000052
dh是向量的维度,T是向量转置;
步骤2.2:对经步骤2.1输出的句子级别的向量
Figure FDA0002423347400000053
通过公式(12)映射到实体关系空间并得到用于实体关系分类的向量o;
Figure FDA0002423347400000054
其中,
Figure FDA0002423347400000055
是一个转移矩阵将
Figure FDA0002423347400000056
映射到实体关系空间,Y表示实体关系类型的总数,dh是向量
Figure FDA0002423347400000057
的维度,b是一个偏置向量,向量o是句子中用于实体关系抽取的特征;
步骤3:融合识别句子中触发词的模型与实体关系抽取的模型;
步骤3.1:采用相对熵衡量经步骤1.2.2输出的句子标签向量v与经步骤1.7输出的权重向量α之间的分布差异性,具体子步骤如下:
步骤3.1.1:通过公式(13)计算句子标签向量v的概率分布αv
αv=softmax(v) (13)
步骤3.1.2:通过公式(14)计算经步骤3.1.1输出的概率分布αv与经步骤1.7输出的权重向量α之间的相对熵作为识别句子中触发词的模型的目标函数;
Figure FDA0002423347400000058
其中,H是训练集中样本的总数;h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.2:采用交叉熵衡量真实概率与实体关系类型预测概率的之间分布的差异性,具体为:
步骤3.2.1:通过公式(15)对经步骤2.2输出的用于实体关系分类的向量o计算得到实体关系类型的预测概率p(lh|Sh):
p(lh|Sh)=softmax(o) (15)
其中,Sh和lh分别表示训练集中第h个样本中的句子和句子对应的实体关系类型标签;
步骤3.2.2:通过公式(16)计算真实概率与经步骤3.2.1输出的每种实体关系类型的预测概率p(lh|Sh)之间的交叉熵作为实体关系抽取模型的目标函数:
Figure FDA0002423347400000061
其中,H表示训练样本的总数,h表示第h个训练样本,θ是模型中可被训练的参数;
步骤3.3:将经步骤3.1.2计算的交叉熵J(θ)与经步骤3.2.2计算的相对熵D(αv||α,θ)相加得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ);
步骤3.4:使用随机梯度下降方法对步骤3.3的目标函数进行优化,对训练集中的所有训练样本进行N次迭代训练,输出被训练好的融合触发词识别特征的实体关系抽取模型;
步骤4:使用步骤3.4输出的实体关系抽取模型识别句子中两个实体之间的关系;任意输入一句标注好两个实体的句子到被训练好的关系抽取模型,输出两个实体间的语义关系。
2.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤1.1具体包括以下子步骤:
步骤1.1.1:对数据集中含有触发词的句子,使用大括号标注触发词,用于记录触发词在句子中的位置;
步骤1.1.2:对于数据集中不含有触发词的句子,打上<omit>标记。
3.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤1.2中h的取值范围是1到H,H是训练集中样本的总数。
4.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.1具体为:计算句子标签向量的概率分布,计算该概率分布与经步骤1.7输出的权重向量之间的相对熵。
5.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.1.1中,v经过softmax(·)函数将值映射到(0,1)区间。
6.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.2具体为:计算实体关系类型的预测概率,计算该概率与真实概率之间的相对熵。
7.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.2中,真实概率是指句子对应实体关系标签lh的概率为1。
8.根据权利要求1所述的一种融合触发词识别特征的实体关系抽取方法,其特征在于:步骤3.3中通过公式(17)得到融合识别句子中触发词的模型与实体关系抽取的模型的目标函数J*(θ):
J*(θ)=J(θ)+D(αv||α,θ) (17)。
CN202010212651.2A 2020-01-17 2020-03-24 一种融合触发词识别特征的实体关系抽取方法 Active CN111428505B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020100530249 2020-01-17
CN202010053024 2020-01-17

Publications (2)

Publication Number Publication Date
CN111428505A true CN111428505A (zh) 2020-07-17
CN111428505B CN111428505B (zh) 2021-05-04

Family

ID=71549681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212651.2A Active CN111428505B (zh) 2020-01-17 2020-03-24 一种融合触发词识别特征的实体关系抽取方法

Country Status (1)

Country Link
CN (1) CN111428505B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468865A (zh) * 2021-06-28 2021-10-01 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN114048741A (zh) * 2021-11-10 2022-02-15 辽宁工程技术大学 一种基于触发词注意力的关系抽取方法
CN114722817A (zh) * 2020-12-22 2022-07-08 北京金山数字娱乐科技有限公司 事件处理方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562772A (zh) * 2017-07-03 2018-01-09 南京柯基数据科技有限公司 事件抽取方法、装置、系统和存储介质
US20180336192A1 (en) * 2017-05-18 2018-11-22 Wipro Limited Method and system for generating named entities
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN110377753A (zh) * 2019-07-01 2019-10-25 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336192A1 (en) * 2017-05-18 2018-11-22 Wipro Limited Method and system for generating named entities
CN107562772A (zh) * 2017-07-03 2018-01-09 南京柯基数据科技有限公司 事件抽取方法、装置、系统和存储介质
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110377753A (zh) * 2019-07-01 2019-10-25 吉林大学 基于关系触发词与gru模型的关系抽取方法及装置
CN110334354A (zh) * 2019-07-11 2019-10-15 清华大学深圳研究生院 一种中文关系抽取方法
CN110555083A (zh) * 2019-08-26 2019-12-10 北京工业大学 一种基于zero-shot无监督实体关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUBO CHEN 等: "Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
丁思远: "基于线索挖掘与特征分析的事件关系分类方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
胡新辰: "基于LSTM的语义关系分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722817A (zh) * 2020-12-22 2022-07-08 北京金山数字娱乐科技有限公司 事件处理方法及装置
CN113468865A (zh) * 2021-06-28 2021-10-01 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN113468865B (zh) * 2021-06-28 2024-04-09 西安理工大学 基于深度学习的地铁设计领域规范的实体间关系抽取方法
CN114048741A (zh) * 2021-11-10 2022-02-15 辽宁工程技术大学 一种基于触发词注意力的关系抽取方法
CN114048741B (zh) * 2021-11-10 2024-07-23 辽宁工程技术大学 一种基于触发词注意力的关系抽取方法

Also Published As

Publication number Publication date
CN111428505B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN113761936B (zh) 一种基于多头自注意力机制的多任务篇章级事件抽取方法
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN108763201B (zh) 一种基于半监督学习的开放域中文文本命名实体识别方法
CN111428505B (zh) 一种融合触发词识别特征的实体关系抽取方法
CN114139522B (zh) 一种基于层级注意力和标签引导学习的关键信息识别方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN114970530A (zh) 针对基于机器学习命名实体识别的弱监督训练的基于图的标记规则扩充
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Das et al. A deep sign language recognition system for Indian sign language
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN112580330A (zh) 基于中文触发词指导的越南语新闻事件检测方法
Lefever et al. Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings
Lin et al. Radical-based extract and recognition networks for Oracle character recognition
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN111507103A (zh) 一种利用部分标注集的自训练神经网络分词模型
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
Wei et al. Word image representation based on visual embeddings and spatial constraints for keyword spotting on historical documents
Aladhadh et al. Recurrent Convolutional Neural Network MSER-Based Approach for Payable Document Processing.
CN115186670A (zh) 一种基于主动学习的领域命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant