CN110263332A - 一种基于神经网络的自然语言关系抽取方法 - Google Patents

一种基于神经网络的自然语言关系抽取方法 Download PDF

Info

Publication number
CN110263332A
CN110263332A CN201910449987.8A CN201910449987A CN110263332A CN 110263332 A CN110263332 A CN 110263332A CN 201910449987 A CN201910449987 A CN 201910449987A CN 110263332 A CN110263332 A CN 110263332A
Authority
CN
China
Prior art keywords
sentence
entity
vector
attention
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910449987.8A
Other languages
English (en)
Inventor
杨燕
战蕾
陈成才
贺樑
陈培华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Shanghai Xiaoi Robot Technology Co Ltd
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
East China Normal University
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University, Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical East China Normal University
Priority to CN201910449987.8A priority Critical patent/CN110263332A/zh
Publication of CN110263332A publication Critical patent/CN110263332A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络的自然语言关系抽取方法,该方法采用句子的不同方面的自注意力信息注入到卷积神经网络中进行空间级表示融合,利用这种融合了句子实体的多方向信息的表示,能够进行更准确的实体间的关系预测。本发明与现有技术相比具有多方面、多角度进行挖掘句子及句子中实体间关系的特点,将这种多方面、多角度的表示进行融合,从而进行更准确的关系抽取,能够更加全面有效地对句子中实体间关系进行预测,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为知识图谱系统、关系预测系统等应用提供有效的解决方案。

Description

一种基于神经网络的自然语言关系抽取方法
技术领域
本发明涉及自然语言处理中关系抽取领域,具体地说是利用神经网络挖掘出句子以及句子中实体的内在联系的表示信息,利用这些信息对两个实体的关系进行抽取。
背景技术
现如今,随着网络信息资源的日渐丰富、计算机速度的大幅度提高,主要以文字、图像等形式为依托的信息化时代强势到来。信息化时代的标志是信息爆发价值,如今信息化成为了时代发展的主流趋势,是前沿生产力的主要标志。随着信息时代的高速发展,信息数据呈现规模巨大、模态多样和高速增长等特征。在网络搜索过程中,当用户输入要查询的信息时,希望计算机能够从语义层面理解用户真实想要获取的信息,而不只是关键字的提取和搜索,这就迫切要求能快速、准确地获取用户真正所需信息的技术手段-信息抽取技术的进一步发展,以满足用户搜索的需求。比如说,当用户输入“英国伦敦”时,希望得到的是关于英国伦敦这座城市的多方面相关信息,如政治、经济、文化、地理位置、旅游景点、教育机制等,而不仅仅是简单的关于伦敦的关键字的句子提取。近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。
信息抽取的研究内容主要包括三个方面:实体抽取、实体关系抽取、事件抽取。实体关系抽取是核心任务,其问题定义为“输入一段文本,抽取出每句话中的实体及其之间的语义关系”。目前的研究主要是指从一句话中抽取出两个实体及语义关系,通常用三元组(实体1,关系,实体2)表示。
在商业需求的推动下,实体关系抽取方法从上世纪九十年代基于知识工程的方法发展到近十年基于统计的机器学习方法。随着在线文本数量的增加和硬件计算能力的提高,基于统计的机器学习方法应用广泛,主要分为有监督、半监督和无监督三大类方法。由于有监督的方法准确率和召回率较高,国内外学者大多采用有监督的方法有监督机器学习方法将实体关系抽取视为一个分类任务,将句子中出现的实体关系划分到预先定义好的类别中。近年来,深度学习框架的神经网络模型成为实体关系抽取的新方法,深度学习是一种特殊的有监督机器学习方法,是机器学习的一个分支,不同之处在于神经网络模型自动学习句子特征,无需复杂的特征工程同时能够取得更好的效果,所以受到广泛的应用。
现有技术的关系抽取通常依赖于逻辑规则和手工构建的特征,这些特征耗费劳动力且难以泛化。而基于神经网络的模型也只是端到端训练,输入只是文本及两个实体一方面的信息,而忽视了从不同角度对同一个文本及实体对进行表示,这种单一的表示很容易产生误差,从而影响到最后对两个实体关系的抽取。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于神经网络的自然语言关系抽取方法,采用句子的不同方面的自注意力信息注入到卷积神经网络中进行空间级表示融合,利用这种融合了句子实体的多方向信息的表示,能够进行更准确的实体间的关系抽取,具有广泛的实用意义,为现有的知识图谱系统、关系预测系统等应用提供有效的解决方案。
本发明的目的是这样实现的:
一种基于神经网络的自然语言关系抽取方法,该方法包括以下具体步骤:步骤1:句子及实体的向量表示
对每个句子及其包含的一对实体,采用神经网络构建所述一对实体的句子向量表示,定义长度为n的句子的向量表示为:
其中,是连接操作并且v代表句子的向量表示,d为向量的维度;
步骤2:句子不同方面的自注意力表示
采用句子注意力机制,将不同的自注意力信息注入到神经网络中,进行句子不同方面的自注意力表示;其中,自注意力信息计算输出的权重矩阵的公式为:
其中,Q,K,V为当前token的向量表示,d为当前向量的维度大小,上式中Q=K=V=v;
步骤3:卷积网络进行表示融合
使用卷积神经网络对句子不同方面的自注意力表示进行空间级的融合,得到基于多方面句子注意力表示融合后的信息并进行池化;其中,融合方式如下:
ci=f(w·h(i:i+n-1)+b),
式中,是一个偏置量,是一个非线性函数,h为滑动窗口,i为当前位置下标,w为参数矩阵;
池化表示如下:
式中,c为得到的融合特征,为最后所得特征值;
步骤4:实体关系预测
将池化结果输入到全连接神经网络(Fully connected network)中,对两个实体在句子中的关系进行预测,最终得到所述关系的概率分布;具体如下:
dropout:y=w·(zοr)+b
original:y=w·z+b
其中,ο是逐元素相乘的操作,F是符合伯努利分布遮蔽向量,并且
本发明采用句子的不同方面的自注意力信息注入到卷积神经网络中进行空间级的表示融合,得到基于多方面句子注意力表示后的信息进行关系抽取,其包括:句子及实体的向量表示、句子不同方面的自注意力表示和卷积神经网络对句子不同方面的表示融合,将这种基于句子不同方面表示的融合信息对自然语言中的句子信息以及句子中两个实体进行表示,并且对两个实体在句子中的关系进行预测。
本发明与现有技术相比具有多方面、多角度进行挖掘句子及句子中实体间关系的特点,将这种多方面、多角度的表示进行融合,从而进行更准确的关系抽取,能够更加全面有效地对句子中实体间关系进行预测,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为知识图谱系统、关系预测系统等应用提供有效的解决方案。
附图说明
图1为本发明流程示意图。
具体实施方式
以下结合附图及实施例,对本发明作进一步的详细说明。
实施例1
参阅图1,本发明按下述步骤进行多角度特征融合的关系抽取:
(一)、句子及实体的向量表示
设xi为句子中的第i个单词。每个单词将访问两个向量查找表以获得每个单词的向量表示WFi和每个实体的相对位置的向量表示PFi。然后连接两个向量并将每个单词表示为vi=[WFi;PFi]。
在本发明中,使用skip-gram模型来训练词向量。对应于xi的每个表示vi是实值向量。所有的词向量都被编码成一个词向量矩阵其中V是固定大小的词表。
在关系分类中,专注于寻找实体对的关系。向量PF表示的是当前单词与第一实体e和第二实体e的相对距离的组合。例如,在句子中“Steve Jobs is the founder ofApple.”,founder与e(Steve Job)和e(Apple)的相对距离分别为3和2。然后,通过查找一个随机初始化的位置向量矩阵将这种相对距离转换实值的向量表示,其中P是固定大小的相对距离集合。应该注意的是,如果一个单词离实体太远,它可能与关系无关,因此,为相对距离选择最大值emax和最小值emin
有两个位置向量:一个用于e,另一个用于e。最后,连接所有单词的词向量和所有单词的位置向量,并将其表示为长度为n的句子(必要时填充)的向量表示:
其中,是连接操作并且
(二)、句子不同方面的自注意力表示
注意力方法的提出来的目的是为了计算两个不同序列或者不同元素之前的一个对齐分布即一个序列对另一个序列的重要程度,这种重要程度使用了一种分数进行了量化,并可以可视化输出,具有很高的可解释性。在实际操作中,同时在一组输入序列或者元素上进行注意力函数的计算,进行如下定义:将输入Query打包在一起形成矩阵Q,同时Key和Value也被一起打包形成矩阵K和V。该注意力机制的输出是对之前的句子与实体向量区分重要程度的权重矩阵。
本发明中,计算输出的权重矩阵的公式为:
自注意(Self-atttention)是注意力机制的一个特例:(1)用来自源输入本身的token向量表示vj替换Q;(2)通过计算每对tokens,vi和vj之间的注意力,将单个序列中不同位置的元素联系起来;(3)在对于长距离依赖和本地依赖,它具有极强的表现力和灵活性。
在本发明中,使用这种注意机制与多头机制相结合(参数不共享)来实现对句子及实体的不同方面的表示,通过多个headi自动学习两个实体之间不同方面的重要特征。
其中同时Q=K=V=v。在本发明中,使用头数为8即i=8。
(三)、卷积网络进行表示融合
在本发明中,为了之前得到的多方面特征进行空间表示融合,在这里使用了一个多通道(multi-channel)的卷积网络来进行特征的融合。传统意义上,在自然语言处理领域中,卷积神经网络的使用是建立在单一通道上的。因为与图片不同,所有文本向量后的表示不存在多个不同的层面的区分,因此会将这个表示进行拼接来放入单一通道进行处理。而在本发明中,利用前文提到的方式得到了一个句子多个不同方面的表示,将其每一个方面的表示放入一个通道当中去,利用CNNs的卷积来融合生成新特征的特性,将不同的表示融合成一个聚合了多个方面表征的新特征矩阵。
具体对每一个通道(channel)来说,令h(i:i+j)来表示hi,h(i+1),...,h(i+j),一个卷积操作包括一个卷积核其通过滑动卷积窗口来计算长度为n的特征来生成新的特征。因此,这里给出每一个新的特征ci通过一个窗口的计算,由单词表示h(i:i+n-1)生成的公式:
ci=f(w·h(i∶i+n-1)+b),
其中是偏置量,f是一个非线性的函数,w为参数矩阵;这个卷积核从h1到hn每一个可能窗口生成新的融合特征c=[c1,c2,...,cn-l+1]。
(四)、特征池化及实体关系预测
在本发明中,在最后的输出预测层使用了一个最大池化(max-pooling)操作和一个平均池化(averagepooling)操作来获取最突出的特征值即:
在之前已经描述了一个卷积核如何获取一个特征的过程,接下来将所有的特征进行拼接,得到一个高层的特征集合l,即:
其中,m为卷积核的个数。
最后将这些特征作为输入传递给全连接神经网络(Fully connected network)中,并使用softmax函数计算所有可能关系的概率分布,取其最大的概率为最后预测关系的输出。其中,在前向传播的过程中,使用dropout来代替普通向前传播的计算方式,具体如下:
dropout:y=w·(zοr)+b
original:y=w·z+b
其中,ο是逐元素相乘的操作,F是符合伯努利分布(Bernoulli random)遮蔽向量,并且这种随机屏蔽掉部分神经单元的方式与正则化技术完全不同,与L1和L2范式正则化不同的是dropout并不会修改代价函数而是修改深度网络本身,从而使得整个模型的泛化能力有所提高。
以上只是对本发明作进一步的说明,并非用以限制本发明,凡为本发明等效实施,均应包含于本发明的权利要求范围之内。

Claims (1)

1.一种基于神经网络的自然语言关系抽取方法,其特征在于,该方法包括以下具体步骤:
步骤1:句子及实体的向量表示
对每个句子及其包含的一对实体,采用神经网络构建所述一对实体的句子向量表示,定义长度为n的句子的向量表示为:
其中,是连接操作并且v代表句子的向量表示,d为向量的维度;
步骤2:句子不同方面的自注意力表示
采用句子注意力机制,将不同的自注意力信息注入到神经网络中,进行句子不同方面的自注意力表示;其中,自注意力信息计算输出的权重矩阵的公式为:
其中,Q,K,V为当前token的向量表示,d为当前向量的维度大小,上式中Q=K=V=v;
步骤3:卷积网络进行表示融合
使用卷积神经网络对句子不同方面的自注意力表示进行空间级的融合,得到基于多方面句子注意力表示融合后的信息并进行池化;其中,融合方式如下:
ci=f(w·h(i:i+n-1+b),
式中,是一个偏置量,是一个非线性函数,h为滑动窗口,i为当前位置下标,w为参数矩阵;
池化表示如下:
式中,c为得到的融合特征,为最后所得特征值;
步骤4:实体关系预测
将池化结果输入到全连接神经网络(Fully connected network)中,对两个实体在句子中的关系进行预测,最终得到所述关系的概率分布;具体如下:
dropout:
original:y=w·z+b
其中,是逐元素相乘的操作,r是符合伯努利分布遮蔽向量,并且
CN201910449987.8A 2019-05-28 2019-05-28 一种基于神经网络的自然语言关系抽取方法 Pending CN110263332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910449987.8A CN110263332A (zh) 2019-05-28 2019-05-28 一种基于神经网络的自然语言关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910449987.8A CN110263332A (zh) 2019-05-28 2019-05-28 一种基于神经网络的自然语言关系抽取方法

Publications (1)

Publication Number Publication Date
CN110263332A true CN110263332A (zh) 2019-09-20

Family

ID=67915635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910449987.8A Pending CN110263332A (zh) 2019-05-28 2019-05-28 一种基于神经网络的自然语言关系抽取方法

Country Status (1)

Country Link
CN (1) CN110263332A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990587A (zh) * 2019-12-04 2020-04-10 电子科技大学 基于主题模型的企业关系发现方法及系统
CN111597812A (zh) * 2020-05-09 2020-08-28 北京合众鼎成科技有限公司 一种基于遮蔽语言模型的金融领域多重关系抽取方法
CN112562669A (zh) * 2020-12-01 2021-03-26 浙江方正印务有限公司 一种智能数字报自动摘要与语音交互聊新闻方法及系统
CN112800756A (zh) * 2020-11-25 2021-05-14 重庆邮电大学 一种基于prado的实体识别方法
CN113095063A (zh) * 2020-01-08 2021-07-09 中国科学院信息工程研究所 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
CN115860281A (zh) * 2023-02-27 2023-03-28 之江实验室 基于跨实体注意力的能源系统多实体负载预测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137350A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108962238A (zh) * 2018-04-25 2018-12-07 苏州思必驰信息科技有限公司 基于结构化神经网络的对话方法、系统、设备及存储介质
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137350A1 (en) * 2016-11-14 2018-05-17 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
US10108902B1 (en) * 2017-09-18 2018-10-23 CS Disco, Inc. Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN108962238A (zh) * 2018-04-25 2018-12-07 苏州思必驰信息科技有限公司 基于结构化神经网络的对话方法、系统、设备及存储介质
CN109284506A (zh) * 2018-11-29 2019-01-29 重庆邮电大学 一种基于注意力卷积神经网络的用户评论情感分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEI ZHAN: "Using Dilated Residual Network to Model Distantly Supervised Relation Extraction" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990587A (zh) * 2019-12-04 2020-04-10 电子科技大学 基于主题模型的企业关系发现方法及系统
CN110990587B (zh) * 2019-12-04 2023-04-18 电子科技大学 基于主题模型的企业关系发现方法及系统
CN113095063A (zh) * 2020-01-08 2021-07-09 中国科学院信息工程研究所 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
CN111597812A (zh) * 2020-05-09 2020-08-28 北京合众鼎成科技有限公司 一种基于遮蔽语言模型的金融领域多重关系抽取方法
CN112800756A (zh) * 2020-11-25 2021-05-14 重庆邮电大学 一种基于prado的实体识别方法
CN112800756B (zh) * 2020-11-25 2022-05-10 重庆邮电大学 一种基于prado的实体识别方法
CN112562669A (zh) * 2020-12-01 2021-03-26 浙江方正印务有限公司 一种智能数字报自动摘要与语音交互聊新闻方法及系统
CN112562669B (zh) * 2020-12-01 2024-01-12 浙江方正印务有限公司 一种智能数字报自动摘要与语音交互聊新闻方法及系统
CN115860281A (zh) * 2023-02-27 2023-03-28 之江实验室 基于跨实体注意力的能源系统多实体负载预测方法和装置

Similar Documents

Publication Publication Date Title
CN110263332A (zh) 一种基于神经网络的自然语言关系抽取方法
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN106599181B (zh) 一种基于主题模型的新闻热点检测方法
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
Fan et al. Research of Chinese intangible cultural heritage knowledge graph construction and attribute value extraction with graph attention network
CN106663117A (zh) 构造支持提供探索性建议的图
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN107193882A (zh) RDF数据上基于图匹配的why‑not查询回答方法
CN110427478A (zh) 一种基于知识图谱的问答搜索方法及系统
CN115860006B (zh) 一种基于语义句法的方面级情感预测方法及装置
CN113191357A (zh) 基于图注意力网络的多层次图像-文本匹配方法
CN110263165A (zh) 一种基于半监督学习的用户评论情感分析方法
Zhang et al. Hierarchical scene parsing by weakly supervised learning with image descriptions
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Jiang et al. Two-stage entity alignment: combining hybrid knowledge graph embedding with similarity-based relation alignment
CN114997288A (zh) 一种设计资源关联方法
CN110245292B (zh) 一种基于神经网络过滤噪声特征的自然语言关系抽取方法
Wei et al. Online education recommendation model based on user behavior data analysis
Peiris et al. Synthesis and evaluation of a domain-specific large data set for dungeons & dragons
CN107562761A (zh) 一种信息推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190920

WD01 Invention patent application deemed withdrawn after publication