CN110580340A - 一种基于多注意力机制的神经网络关系抽取方法 - Google Patents

一种基于多注意力机制的神经网络关系抽取方法 Download PDF

Info

Publication number
CN110580340A
CN110580340A CN201910808441.7A CN201910808441A CN110580340A CN 110580340 A CN110580340 A CN 110580340A CN 201910808441 A CN201910808441 A CN 201910808441A CN 110580340 A CN110580340 A CN 110580340A
Authority
CN
China
Prior art keywords
sentence
vector
pair
word
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910808441.7A
Other languages
English (en)
Inventor
古天龙
梁聪
宾辰忠
陈源鹏
高慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201910808441.7A priority Critical patent/CN110580340A/zh
Publication of CN110580340A publication Critical patent/CN110580340A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于多注意力机制的神经网络关系抽取方法,包括,S1:对每个句子和其相关的一对实体,采用双向GRU神经网络构建一对实体的时间歩词向量表示;S2:采用设置的单词级别的自注意力机制选择句子中表述这对实体的关系的词向量表示,得到所述一个句子的句子向量表示;S3:采用设置的句子级别的注意力机制选择其中的表示了一对实体间关系的句子向量表示,得到所述一对实体的综合向量表示;S4:将一对实体的综合向量表示与所有关系进行内积运算生成实体对之间为任一关系的概率,取最大概率得到一对实体预测关系。本发明能够对实体对的句子进行处理,获取重要句子和句子中的丰富语义,提高关系抽取效果。

Description

一种基于多注意力机制的神经网络关系抽取方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于多注意力机制的神经网络关系抽取方法。
背景技术
随着社会飞速发展,目前已经进入信息爆炸时代,每天都有海量新的数据产生。互联网作为目前最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据提取有效信息成为一个难题。为了解决这个难题,提出了知识图谱概念,知识图谱将所有的名词表示为实体,将实体之间的内在联系表示为关系,以此将海量数据中实体之间的关系表示为三元组(头实体,关系,尾实体),例如(姚明,妻子,叶莉)。虽然现有的知识图谱中已经包含了大量的知识,但相比于无尽的数据,其仍然没有完善。为了完善知识图谱,采用了很多技术。其中就有关系抽取技术,该技术能够自动从无结构化的文本中提取结构化数据。
目前已发布的发明专利“一种神经网络关系抽取方法”,公开号为CN 106354710A,通过将同一实体对的多个句子向量进行融合以得到实体对的综合表示,该发明未考虑到句子内的单词的相互影响以及模型无法解决长距离依赖问题。本发明描述的“一种基于多注意力机制的神经网络关系抽取方法”利用自注意力机制充分考虑了句子中各个词之间的相互影响,利用注意力机制加大关键句子的权重并减小噪声数据的影响,并利用双向GRU(Gated Recurrent Unit)神经网络缓解了句子中的长距离依赖问题的影响。以此提高了关系抽取的准确性。
发明内容
有鉴于此,本发明的目的是提供一种基于多注意力的神经关系抽取方法,该方法能够对实体对的句子进行处理,获取重要句子和句子中的丰富语义,提高关系抽取效果。
本发明通过以下技术手段解决上述技术问题:
一种基于多注意力机制的神经网络关系抽取方法,包括:
S1:对每个句子和其相关的一对实体,采用双向GRU神经网络构建一对实体的时间歩词向量表示;
S2:采用设置的单词级别的自注意力机制选择句子中表述这对实体的关系的词向量表示,得到所述一个句子的句子向量表示;
S3:采用设置的句子级别的注意力机制选择其中的表示了一对实体间关系的句子向量表示,得到所述一对实体的综合向量表示;
S4:将一对实体的综合向量表示与所有关系进行内积运算生成实体对之间为任一关系的概率,取最大概率得到一对实体预测关系。
进一步,所述步骤S1具体包括:
S11:给定一个由n个单词组成的句子s={w1,w2,w3,...,wn},采用文本深度表示模型(word2vec)将每一个单词映射到一个低维实值向量空间中,得到wi对应的词向量vi
S12:确定句子中每个词距离两个实体的距离为p1i和p2i,将p1i和p2i作为词的位置向量;
S13:将词的位置向量p1i、p2i经过低维嵌入后与词向量vi拼接得到词向量ki,即句子s的向量表示为Vs=(k1,k2,k3,...,kn);
S14:将词向量kt当做双向GRU神经网络中每一时间步的输入,得到每一步的输出为向前编码向量,为向后编码向量,相加后得到此时间歩的向量ht,最后将所有时间歩的向量拼接得到句子向量H;其中,
进一步,所述步骤S2具体包括:
S21:将双向GRU的输出向量按序进行拼接得到H=(h1,h2,h3,...,hn);
S22:利用自注意力机制将句子向量H作为输入,并且输出一个权重向量a:
a=softmax(ws2tanh(Ws1HT))
其中,Ws1为权重矩阵,ws2为参数向量,tanh()为激活函数,softmax()函数确保了计算的权重和为1;
S23:将权重向量a与句子向量H即可得到句子在自注意力机制后的向量m=aH;
S24:将参数向量ws2扩展为参数矩阵Ws2,致使a变为A:
A=softmax(Ws2tanh(Ws1HT))
句子表示向量m变为矩阵M=AH;
S25:将句子表示矩阵经过全连接后得到最终句子表示向量xi
进一步,所述步骤S3具体包括:
S31:给定一对实体<e1,e2>的所有句子集合S={s1,s2,s3,...,sn},由图3可得到其对应的表示向量Vs={x1,x2,x3,...,xn};
S32:采用句子级别注意力机制,将句子的综合向量表示定义为所有句子向量便是的加权和:
其中αi定义为每一个句子向量xi的权重;定义一个句子向量xi与关系向量r的函数:
scores(i)=xiAr
该函数描述了句子与预测关系r之间的匹配程度,其中A为对角的对角矩阵,r为查询的目标关系r的向量表示;
通过选择注意力机制定义每一个句子向量表示的权重如下:
综上,得到句子集合S的综合向量表示:
进一步,所述步骤S4具体包括:
S41:定义一个线性函数计算句子综合表示向量与每一个可能的关系r的得分:
y=softmax(MSv+b)
其中M为关系矩阵,b为偏置,softmax()确保y的和为1;
S42:句子的最终预测关系为句子与关系得分中最高的一项,定义函数为:p=argmax(y)。
本发明的有益效果:
1、本发明采用双向GRU神经网络来提取文本特征,解决长距离依赖问题,同时获取了双向的更全面的信息。
2、本发明引入词级别的自注意力机制,关注句子中不同部分的词语,获取句子的丰富语句信息,缓解了注意力机制的单一性。
3、本发明引入句子级别的注意力机制,计算不同句子向量与关系间的相似度,得到不同句子向量的权重,从而减少噪音句子的权重,提升模型效果。
附图说明
图1是本发明实施例提供的关系抽取整体结构流程图;
图2是本发明实施例提供的双向GRU训练词向量示意图;
图3是本发明实施例提供的自注意力机制句子向量化示意图;
图4是本发明实施例提供的注意力机制实体对综合向量化示意图。
具体实施方式
以下将结合附图和具体实施例对本发明进行详细说明:
如图1所示,本发明的一种基于多注意力机制的神经网络关系抽取方法,包括:
S1:对每个句子和其相关的一对实体,采用双向GRU神经网络构建一对实体的时间歩词向量表示。
如图2所示,步骤S1具体包括:
S11:给定一个由n个单词组成的句子s={w1,w2,w3,...,wn},采用文本深度表示模型(word2vec)将每一个单词映射到一个低维实值向量空间中,得到wi对应的词向量vi
S12:确定句子中每个词距离两个实体的距离为p1i和p2i,将p1i和p2i作为词的位置向量,如:“Beijing is the capital of China”,其中“is”到实体1“Beijing”和实体2“China”的距离为-1和4;
S13:将词的位置向量p1i、p2i经过低维嵌入后与词向量vi拼接得到词向量ki,即句子s的向量表示为Vs=(k1,k2,k3,...,kn);
S14:将词向量kt当做双向GRU神经网络中每一时间步的输入,得到每一步的输出为向前编码向量,为向后编码向量,相加后得到此时间歩的向量ht,最后将所有时间歩的向量拼接得到句子向量H;其中,
S2:采用设置的单词级别的自注意力机制选择句子中表述这对实体的关系的词向量表示,得到所述一个句子的句子向量表示。
如图3所示,步骤S2具体包括:
S21:将双向GRU的输出向量按序进行拼接得到H=(h1,h2,h3,...,hn);
S22:利用自注意力机制将句子向量H作为输入,并且输出一个权重向量a:
a=softmax(ws2tanh(Ws1HT))
其中,Ws1为权重矩阵,ws2为参数向量,tanh()为激活函数,softmax()函数确保了计算的权重和为1;
S23:将权重向量a与句子向量H即可得到句子在自注意力机制后的向量m=aH;
S24:将参数向量ws2扩展为参数矩阵Ws2,致使a变为A:
A=softmax(Ws2tanh(Ws1HT))
句子表示向量m变为矩阵M=AH;
S25:将句子表示矩阵经过全连接后得到最终句子表示向量xi
S3:采用设置的句子级别的注意力机制选择其中的表示了一对实体间关系的句子向量表示,得到所述一对实体的综合向量表示。
如图4所示,步骤S3具体包括:
S31:给定一对实体<e1,e2>的所有句子集合S={s1,s2,s3,...,sn},由图3可得到其对应的表示向量Vs={x1,x2,x3,...,xn};
S32:采用句子级别注意力机制,将句子的综合向量表示定义为所有句子向量便是的加权和:
其中αi定义为每一个句子向量xi的权重;定义一个句子向量xi与关系向量r的函数:
scores(i)=xiAr
该函数描述了句子与预测关系r之间的匹配程度,其中A为对角的对角矩阵,r为查询的目标关系r的向量表示;
通过选择注意力机制定义每一个句子向量表示的权重如下:
综上,得到句子集合S的综合向量表示:
S4:将一对实体的综合向量表示与所有关系进行内积运算生成实体对之间为任一关系的概率,取最大概率得到一对实体预测关系。
S41:定义一个线性函数计算句子综合表示向量与每一个可能的关系r的得分:
y=softmax(MSv+b)
其中M为关系矩阵,b为偏置,softmax()确保y的和为1;
S42:句子的最终预测关系为句子与关系得分中最高的一项,定义函数为:p=argmax(y)。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims (5)

1.一种基于多注意力机制的神经网络关系抽取方法,其特征在于,包括:
S1:对每个句子和其相关的一对实体,采用双向GRU神经网络构建一对实体的时间歩词向量表示;
S2:采用设置的单词级别的自注意力机制选择句子中表述这对实体的关系的词向量表示,得到所述一个句子的句子向量表示;
S3:采用设置的句子级别的注意力机制选择其中的表示了一对实体间关系的句子向量表示,得到所述一对实体的综合向量表示;
S4:将一对实体的综合向量表示与所有关系进行内积运算生成实体对之间为任一关系的概率,取最大概率得到一对实体预测关系。
2.根据权利要求1所述的一种基于多注意力机制的神经网络关系抽取方法,其特征在于,所述步骤S1具体包括:
S11:给定一个由n个单词组成的句子s={w1,w2,w3,...,wn},采用文本深度表示模型(word2vec)将每一个单词映射到一个低维实值向量空间中,得到wi对应的词向量vi
S12:确定句子中每个词距离两个实体的距离为p1i和p2i,将p1i和p2i作为词的位置向量;
S13:将词的位置向量p1i、p2i经过低维嵌入后与词向量vi拼接得到词向量ki,即句子s的向量表示为Vs=(k1,k2,k3,...,kn);
S14:将词向量kt当做双向GRU神经网络中每一时间步的输入,得到每一步的输出 为向前编码向量,为向后编码向量,相加后得到此时间歩的向量ht,最后将所有时间歩的向量拼接得到句子向量H;其中,
3.根据权利要求2所述的一种基于多注意力机制的神经网络关系抽取方法,其特征在于,所述步骤S2具体包括:
S21:将双向GRU的输出向量按序进行拼接得到H=(h1,h2,h3,...,hn);
S22:利用自注意力机制将句子向量H作为输入,并且输出一个权重向量a:
a=softmax(ws2tanh(Ws1HT))
其中,Ws1为权重矩阵,ws2为参数向量,tanh()为激活函数,softmax()函数确保了计算的权重和为1;
S23:将权重向量a与句子向量H即可得到句子在自注意力机制后的向量m=aH;
S24:将参数向量ws2扩展为参数矩阵Ws2,致使a变为A:
A=softmax(Ws2tanh(Ws1HT))
句子表示向量m变为矩阵M=AH;
S25:将句子表示矩阵经过全连接后得到最终句子表示向量xi
4.根据权利要求3所述的一种基于多注意力机制的神经网络关系抽取方法,其特征在于:所述步骤S3具体包括:
S31:给定一对实体<e1,e2>的所有句子集合S={s1,s2,s3,...,sn},由图3可得到其对应的表示向量Vs={x1,x2,x3,...,xn};
S32:采用句子级别注意力机制,将句子的综合向量表示定义为所有句子向量便是的加权和:
其中αi定义为每一个句子向量xi的权重;定义一个句子向量xi与关系向量r的函数:
scores(i)=xiAr
该函数描述了句子与预测关系r之间的匹配程度,其中A为对角的对角矩阵,r为查询的目标关系r的向量表示;
通过选择注意力机制定义每一个句子向量表示的权重如下:
综上,得到句子集合S的综合向量表示:
5.根据权利要求4所述的一种基于多注意力机制的神经网络关系抽取方法,其特征在于:所述步骤S4具体包括:
S41:定义一个线性函数计算句子综合表示向量与每一个可能的关系r的得分:
y=softmax(MSv+b)
其中M为关系矩阵,b为偏置,softmax()确保y的和为1;
S42:句子的最终预测关系为句子与关系得分中最高的一项,定义函数为:p=argmax(y)。
CN201910808441.7A 2019-08-29 2019-08-29 一种基于多注意力机制的神经网络关系抽取方法 Pending CN110580340A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910808441.7A CN110580340A (zh) 2019-08-29 2019-08-29 一种基于多注意力机制的神经网络关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910808441.7A CN110580340A (zh) 2019-08-29 2019-08-29 一种基于多注意力机制的神经网络关系抽取方法

Publications (1)

Publication Number Publication Date
CN110580340A true CN110580340A (zh) 2019-12-17

Family

ID=68812345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910808441.7A Pending CN110580340A (zh) 2019-08-29 2019-08-29 一种基于多注意力机制的神经网络关系抽取方法

Country Status (1)

Country Link
CN (1) CN110580340A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078889A (zh) * 2019-12-20 2020-04-28 大连理工大学 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法
CN111428499A (zh) * 2020-04-27 2020-07-17 南京大学 一种融合近义词信息用于自动问答系统的成语压缩表示方法
CN111597341A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111696674A (zh) * 2020-06-12 2020-09-22 电子科技大学 一种电子病历的深度学习方法及系统
CN112257263A (zh) * 2020-10-22 2021-01-22 中国科学院自动化研究所 基于自注意力机制的设备剩余寿命预测系统
CN113095070A (zh) * 2021-04-06 2021-07-09 山东省人工智能研究院 基于改进词级别注意力机制的关系抽取方法
CN113220844A (zh) * 2021-05-25 2021-08-06 广西师范大学 基于实体特征的远程监督关系抽取方法
CN114218956A (zh) * 2022-01-24 2022-03-22 平安科技(深圳)有限公司 基于神经网络和远程监督的关系抽取方法及系统
CN115292504A (zh) * 2022-09-29 2022-11-04 北京如炬科技有限公司 实体关系分类方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109783641A (zh) * 2019-01-08 2019-05-21 中山大学 一种基于双向-gru和改进的注意力机制的实体关系分类方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
康重庆 等: "序列运算的扩展及其数字特征", 《电力系统自动化》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078889A (zh) * 2019-12-20 2020-04-28 大连理工大学 一种基于多种实体注意力和改进预训练语言模型的药物间关系抽取方法
CN111428499A (zh) * 2020-04-27 2020-07-17 南京大学 一种融合近义词信息用于自动问答系统的成语压缩表示方法
CN111428499B (zh) * 2020-04-27 2021-10-26 南京大学 一种融合近义词信息用于自动问答系统的成语压缩表示方法
CN111597341A (zh) * 2020-05-22 2020-08-28 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111597341B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种文档级关系抽取方法、装置、设备及存储介质
CN111696674B (zh) * 2020-06-12 2023-09-08 电子科技大学 一种电子病历的深度学习方法及系统
CN111696674A (zh) * 2020-06-12 2020-09-22 电子科技大学 一种电子病历的深度学习方法及系统
CN112257263A (zh) * 2020-10-22 2021-01-22 中国科学院自动化研究所 基于自注意力机制的设备剩余寿命预测系统
CN113095070A (zh) * 2021-04-06 2021-07-09 山东省人工智能研究院 基于改进词级别注意力机制的关系抽取方法
CN113220844A (zh) * 2021-05-25 2021-08-06 广西师范大学 基于实体特征的远程监督关系抽取方法
CN113220844B (zh) * 2021-05-25 2023-01-24 广东省环境权益交易所有限公司 基于实体特征的远程监督关系抽取方法
CN114218956A (zh) * 2022-01-24 2022-03-22 平安科技(深圳)有限公司 基于神经网络和远程监督的关系抽取方法及系统
CN115292504A (zh) * 2022-09-29 2022-11-04 北京如炬科技有限公司 实体关系分类方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110580340A (zh) 一种基于多注意力机制的神经网络关系抽取方法
WO2020062770A1 (zh) 一种领域词典的构建方法、装置、设备及存储介质
WO2021164199A1 (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111581973B (zh) 一种实体消歧方法及系统
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN108875074B (zh) 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
Zhang et al. Keywords extraction with deep neural network model
CN109241294A (zh) 一种实体链接方法及装置
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US20220253477A1 (en) Knowledge-derived search suggestion
CN111695349A (zh) 文本匹配方法和文本匹配系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN108536735A (zh) 基于多通道自编码器的多模态词汇表示方法与系统
US20220230061A1 (en) Modality adaptive information retrieval
Wang et al. DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution
CN112905768A (zh) 一种数据交互方法、装置及存储介质
CN115203421A (zh) 一种长文本的标签生成方法、装置、设备及存储介质
CN114997288A (zh) 一种设计资源关联方法
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN112800205A (zh) 基于语义变化流形分析获取问答相关段落的方法、装置
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191217

RJ01 Rejection of invention patent application after publication