CN110245292A - 一种基于神经网络过滤噪声特征的自然语言关系抽取方法 - Google Patents

一种基于神经网络过滤噪声特征的自然语言关系抽取方法 Download PDF

Info

Publication number
CN110245292A
CN110245292A CN201910449634.8A CN201910449634A CN110245292A CN 110245292 A CN110245292 A CN 110245292A CN 201910449634 A CN201910449634 A CN 201910449634A CN 110245292 A CN110245292 A CN 110245292A
Authority
CN
China
Prior art keywords
sentence
neural network
entity
screening
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910449634.8A
Other languages
English (en)
Other versions
CN110245292B (zh
Inventor
杨燕
战蕾
陈成才
贺樑
陈培华
李雨承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
East China Normal University
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University, Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical East China Normal University
Priority to CN201910449634.8A priority Critical patent/CN110245292B/zh
Publication of CN110245292A publication Critical patent/CN110245292A/zh
Application granted granted Critical
Publication of CN110245292B publication Critical patent/CN110245292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络过滤噪声特征的自然语言关系抽取方法,该方法采用句子的向量信息注入到卷积神经网络中进行特征值提取,对得到的特征进行过滤筛选,对筛选结束的优秀的特征矩阵进行关系抽取建模,能够进行更准确的实体间的关系预测。本发明与现有技术相比在于利用神经网络挖掘句子及句子中实体间关系的特征值的基础上,增加特征过滤结构,将卷积神经网络提取的特征值进行进一步筛选,从而进行更准确的关系抽取,能够更加全面有效地对句子中实体间关系进行预测,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为知识图谱系统、关系预测系统等应用提供有效的解决方案。

Description

一种基于神经网络过滤噪声特征的自然语言关系抽取方法
技术领域
本发明涉及自然语言处理中关系抽取领域,具体地说是利用神经网络挖掘出句子以及句子中实体的内在联系的表示信息,利用这些信息对两个实体的关系进行预测。
背景技术
现如今,随着网络信息资源的日渐丰富、计算机速度的大幅度提高,主要以文字、图像等形式为依托的信息化时代强势到来。信息化时代的标志是信息爆发价值,如今信息化成为了时代发展的主流趋势,是前沿生产力的主要标志。随着信息时代的高速发展,信息数据呈现规模巨大、模态多样和高速增长等特征。在网络搜索过程中,当用户输入要查询的信息时,希望计算机能够从语义层面理解用户真实想要获取的信息,而不只是关键字的提取和搜索,这就迫切要求能快速、准确地获取用户真正所需信息的技术手段——信息抽取技术的进一步发展,以满足用户搜索的需求。比如说,当用户输入“英国伦敦”时,希望得到的是关于英国伦敦这座城市的多方面相关信息,如政治、经济、文化、地理位置、旅游景点、教育机制等,而不仅仅是简单的关于伦敦的关键字的句子提取。近年来,自然语言处理领域的研究者们开始致力于知识图谱构建的研究。知识图谱究其根本是一种语义网络图,通俗来讲,就是把多种信息按照一定的规则融合在一起而得到的关系网络。知识图谱是从“关系”的角度来分析问题的,为搜索提供了新思路:直接返回问题的答案,而不是返回包含关键词的文档序列。信息抽取则是知识图谱构建的关键一步。
信息抽取的研究内容主要包括三个方面:实体抽取、实体关系抽取、事件抽取。实体关系抽取是核心任务,其问题定义为“输入一段文本,抽取出每句话中的实体及其之间的语义关系”。目前的研究主要是指从一句话中抽取出两个实体及语义关系,通常用三元组(实体1,关系,实体2)表示。例如,从句子“北京市中国的首都。”中抽取出实体1“北京市”与实体2”中国”并发现两者之间的语义关系,用三元组表示即为(中国,首都,北京)。
在商业需求的推动下,实体关系抽取方法从上世纪九十年代基于知识工程的方法发展到近十年基于统计的机器学习方法。随着在线文本数量的增加和硬件计算能力的提高,基于统计的机器学习方法应用广泛,主要分为有监督、半监督和无监督三大类方法。由于有监督的方法准确率和召回率较高,国内外学者大多采用有监督的方法有监督机器学习方法将实体关系抽取视为一个分类任务,将句子中出现的实体关系划分到预先定义好的类别中。近年来,深度学习框架的神经网络模型成为实体关系抽取的新方法,深度学习是一种特殊的有监督机器学习方法,是机器学习的一个分支,不同之处在于神经网络模型自动学习句子特征,无需复杂的特征工程同时能够取得更好的效果,所以受到广泛的应用。
现有技术的关系抽取通常依赖于逻辑规则和手工构建的特征,这些特征耗费劳动力且难以泛化。而基于神经网络的模型也只是端到端训练,利用神经网络对输入的句子及实体进行特征值提取后,并没有进行筛选,而是将这些包含着噪声的特征值矩阵进行模型训练,这就导致模型学习了部分错误数据产生的特征值,从而影响到最后对两个实体的关系进行预测的效果。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于神经网络过滤噪声特征的自然语言关系抽取方法,采用基于神经网络的方法,在模型训练过程中进行自学习,过滤噪声数据带来的噪声特征值,利用这种过滤了错误信息的句子及实体的特征表示,能够进行更准确的实体间的关系预测,具有广泛的实用意义,为现有的知识图谱系统、关系预测系统等应用提供有效的解决方案。
本发明的目的是这样实现的:
一种基于神经网络过滤噪声特征的自然语言关系抽取方法,该方法包括:
步骤1:句子及实体的向量表示
对每个句子及其包含的一对实体,采用神经网络构建所述一对实体的句子向量表示,定义长度为n的句子的向量表示为:
其中,是连接操作并且v代表句子的向量表示,d为向量的维度;
步骤2:句子及实体的特征提取
使用卷积神经网络对句子及实体特征值提取;
ci=f(w·xi∶i+h-1+b)
其中,是一个偏置量,f是一个非线性函数,w为参数矩阵,h为滑动窗口大小;
步骤3:对得到的特征进行过滤筛选
将这种基于句子与实体的特征进行过滤筛选,筛选相关公式如下:
s=softsign(g(z,W))=softsign(W2δ(W1z)),
其中,δ指的是Relu激活函数,W为对应的参数矩阵;
其中,Fscreening(0,s)指的是标量s和特征u之间的函数;
步骤4:实体关系预测。
将筛选出的特征输入到全连接神经网络(Fully connected network)中,并且使用softmax函数计算所述句子中所有存在可能关系的概率分布,取概率最大的关系作为最终预测结果;具体如下:
original:y=w.z+b
其中,是逐元素相乘的操作,r是符合伯努利分布(Bernoulli random)遮蔽向量,并且
本发明采用句子的向量信息注入到卷积神经网络中进行特征值提取,对得到的特征进行过滤筛选,对筛选后优秀的特征矩阵进行关系抽取,其包括:句子及实体的向量表示、卷积神经网络对句子及实体特征值提取,将这种基于句子与实体的特征值进行过滤筛选,并且利用筛选出的特征值对两个实体在句子中的关系进行预测。
本发明与现有技术相比在利用神经网络挖掘句子及句子中实体间关系的特征值的基础上,增加特征过滤结构,将卷积神经网络提取的特征值进行进一步筛选,从而进行更准确的关系抽取,能够更加全面有效地对句子中实体间关系进行预测,方法简便、高效,成本低廉,并且能够在不同数据领域之间进行迁移,具有广泛的实用意义,能够为知识图谱系统、关系预测系统等应用提供有效的解决方案。
附图说明
图1为本发明流程示意图;
图2为本发明特征过滤流程示意图。
具体实施方式
以下结合附图及实施例,对本发明作进一步的详细说明。
实施例1
参阅附图1,本发明按下述步骤进行多角度特征融合的关系抽取:
(一)、句子及实体的向量表示
设xi为句子中的第i个单词。每个单词将访问两个向量查找表以获得每个单词的向量表示WFi和每个实体的相对位置的向量表示PFi。然后连接两个向量并将每个单词表示为vi=[WFi;PFi]。
在本发明中,使用skip-gram模型来训练词向量。对应于xi的每个表示vi是实值向量。所有的词向量都被编码成一个词向量矩阵其中V是固定大小的词表。
在关系分类中,专注于寻找实体对的关系。向量PF表示的是当前单词与第一实体e1和第二实体e2的相对距离的组合。例如,在句子中“Steve Jobs is the founder ofApple.”,founder与e1(Steve Job)和e2(Apple)的相对距离分别为3和2。然后,通过查找一个随机初始化的位置向量矩阵将这种相对距离转换成实值的向量表示,其中P是固定大小的相对距离集合。应该注意的是,如果一个单词离实体太远,它可能与该关系无关,因此,为相对距离选择最大值emax和最小值emin
有两个位置向量:一个用于e1,另一个用于e2。最后,连接所有单词的词向量和所有单词的位置向量,并将其表示为长度为n的句子(必要时填充)的向量表示:
其中,是连接操作并且
(二)、句子及实体的特征提取
在得到了一个句子的向量表示之后,使用了一个简单的神经网络来对它的上下文表示进行提取。下面是具体的细节:
假设用v(i:i+1)来代表单词vi,vi+1,,…,v(i+j)的连接表示。在之后,使用一个卷积神经网络,每一次卷积操作过程就是维度为的卷积核被应用于长度为h的单词窗口进行计算,生成新特征的过程。每个特征ci计算如下:
ci=f(w·xi:i+h-1+b)
其中,是一个偏置量,f是一个非线性函数,w为参数矩阵,h为滑动窗口大小。
(三)、噪声特征值过滤
在本发明中,对于关系抽取中存在噪声影响的问题,提出了一种创新的结构。它使用“特征筛选”策略来处理筛选特征而不引入新的空间维度的参数。在本节中,将分三部分介绍这种结构:聚合操作,筛选操作和屏蔽操作。
聚合操作:首先,为了解决特征不同重要性的问题,尝试将全局特征信息进行聚合到一层描述当中。这里是通过使用全局平均池(Avgpooling)来实现的,生成聚合统计信息。正式定义,池化后的聚合信息计算公式如下:
其中H×W为转换后向量的维度。
筛选操作:接下来,在充分利用到第一步中得到了聚合信息,同时希望捕获到全局的特征依赖分布。为了实现这一目标,必须符合下面两个要求:第一,它必须是足够灵活,能够适合各种特征分布;第二,要求必须学习到一种非互斥的特征关系,因为希望确保允许强调足够多种的类型特征,而不是一种互斥特征的学习。为了满足这些标准,选用了一个新型的激活函数softsign作为一种门控机制,即:
s=softsign(g(z,W))=softsign(W2δ(W1z)),
其中δ指的是Relu激活函数。为了限制模型的复杂程度,又要引入非线性计算矩阵,使用了两个全连接层(FullyConnectionlayer)来对聚合的全局统计信息进行计算,来参数化门控机制。
屏蔽操作:筛选模块的最终输出是通过屏蔽转换(Maskoperation)输出获得的。对于数据中的噪声问题,利用softsign激活(将特征的权重范围映射到-1和1之间的能力)来滤除由噪声数据引起的负面特征。
其中,Fscreening(u,s)指的是标量s和特征u之间的函数。
(四)、特征池化及实体关系预测
在本发明中,在最后的输出预测层使用了一个最大池化(max-pooling)操作和一个平均池化(averagepooling)操作来获取最突出的特征值即:
在之前已经描述了一个卷积核如何获取一个特征的过程,接下来将所有的特征进行拼接,得到一个高层的特征集合l,即:
其中,m为卷积核的个数。
最后将这些特征传递给全连接神经网络(Fully connected network)之后跟softmax层,其输出便是所有可能关系的概率分布,取其最大的最为最后预测关系的输出。其中,在前向传播的过程中,使用dropout来代替普通向前传播的计算方式,具体如下:
original:y=w.z+b
其中,是逐元素相乘的操作,r是符合伯努利分布(Bernoulli random)遮蔽向量,并且这种随机屏蔽掉部分神经单元的方式与正则化技术完全不同,与L1和L2范式正则化不同的是dropout并不会修改代价函数而是修改深度网络本身,从而使得整个模型的泛化能力有所提高。
以上只是对本发明作进一步的说明,并非用以限制本发明,凡为本发明等效实施,均应包含于本发明的权利要求范围之内。

Claims (1)

1.一种基于神经网络过滤噪声特征的自然语言关系抽取方法,其特征在于,该方法包括:
步骤1:句子及实体的向量表示
对每个句子及其包含的一对实体,采用神经网络构建所述一对实体的句子向量表示,定义长度为n的句子的向量表示为:
其中,是连接操作并且v代表句子的向量表示,d为向量的维度;
步骤2:句子及实体的特征提取
使用卷积神经网络对句子及实体特征值提取;
ci=f(w·xi:i+h-1+b)
其中,是一个偏置量,f是一个非线性函数,w为参数矩阵,h为滑动窗口大小;
步骤3:对得到的特征进行过滤筛选
将这种基于句子与实体的特征进行过滤筛选,筛选公式如下:
s=softsign(g(z,W))=softsign(W2δ(W1z)),
其中,δ指的是Relu激活函数,W为对应的参数矩阵;
其中,Fscreening(u,s)指的是标量s和特征u之间的函数;
步骤4:实体关系预测。
将筛选出的特征输入到全连接神经网络(Fully connected network)中,并且使用softmax函数计算所述句子中所有存在可能关系的概率分布,取概率最大的关系作为最终预测结果;具体如下:
original:y=w·z+b
其中,是逐元素相乘的操作,r是符合伯努利分布(Bernoulli random)遮蔽向量,并且
CN201910449634.8A 2019-05-28 2019-05-28 一种基于神经网络过滤噪声特征的自然语言关系抽取方法 Active CN110245292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910449634.8A CN110245292B (zh) 2019-05-28 2019-05-28 一种基于神经网络过滤噪声特征的自然语言关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910449634.8A CN110245292B (zh) 2019-05-28 2019-05-28 一种基于神经网络过滤噪声特征的自然语言关系抽取方法

Publications (2)

Publication Number Publication Date
CN110245292A true CN110245292A (zh) 2019-09-17
CN110245292B CN110245292B (zh) 2023-04-18

Family

ID=67885114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910449634.8A Active CN110245292B (zh) 2019-05-28 2019-05-28 一种基于神经网络过滤噪声特征的自然语言关系抽取方法

Country Status (1)

Country Link
CN (1) CN110245292B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597812A (zh) * 2020-05-09 2020-08-28 北京合众鼎成科技有限公司 一种基于遮蔽语言模型的金融领域多重关系抽取方法
CN113761922A (zh) * 2020-06-05 2021-12-07 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
CN114419341A (zh) * 2022-01-20 2022-04-29 大连海事大学 一种基于迁移学习改进的卷积神经网络图像识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
US20180157643A1 (en) * 2016-12-06 2018-06-07 Siemens Aktiengesellschaft Device and method for natural language processing
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN109766546A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种基于神经网络的自然语言推理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
US20180157643A1 (en) * 2016-12-06 2018-06-07 Siemens Aktiengesellschaft Device and method for natural language processing
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN109766994A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种自然语言推理的神经网络架构
CN109766546A (zh) * 2018-12-25 2019-05-17 华东师范大学 一种基于神经网络的自然语言推理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597812A (zh) * 2020-05-09 2020-08-28 北京合众鼎成科技有限公司 一种基于遮蔽语言模型的金融领域多重关系抽取方法
CN113761922A (zh) * 2020-06-05 2021-12-07 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
CN113761922B (zh) * 2020-06-05 2024-09-27 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
CN114419341A (zh) * 2022-01-20 2022-04-29 大连海事大学 一种基于迁移学习改进的卷积神经网络图像识别方法
CN114419341B (zh) * 2022-01-20 2024-04-26 大连海事大学 一种基于迁移学习改进的卷积神经网络图像识别方法

Also Published As

Publication number Publication date
CN110245292B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Wang et al. An LSTM approach to short text sentiment classification with word embeddings
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN111552803B (zh) 一种基于图小波网络模型的文本分类方法
WO2023065859A1 (zh) 物品推荐方法、装置及存储介质
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110245292B (zh) 一种基于神经网络过滤噪声特征的自然语言关系抽取方法
Bu et al. Differentially private optimization on large model at small cost
CN110263332A (zh) 一种基于神经网络的自然语言关系抽取方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN112836051A (zh) 一种在线自学习的法院电子卷宗文本分类方法
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及系统
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN110046344A (zh) 添加分隔符的方法及终端设备
Wan et al. A novel sentence embedding based topic detection method for microblogs
CN111680163A (zh) 一种面向电力科技成果的知识图谱可视化方法
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和系统
CN116361438A (zh) 基于文本-知识扩展图协同推理网络的问答方法及系统
Martinez et al. Relaxed Earth Mover's Distances for Chain-and Tree-connected Spaces and their use as a Loss Function in Deep Learning
Yang et al. Multi-intent text classification using dual channel convolutional neural network
CN111708896B (zh) 一种应用于生物医学文献的实体关系抽取方法
Divya et al. An Empirical Study on Fake News Detection System using Deep and Machine Learning Ensemble Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant