CN110704890A - 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法 - Google Patents

一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法 Download PDF

Info

Publication number
CN110704890A
CN110704890A CN201910738220.7A CN201910738220A CN110704890A CN 110704890 A CN110704890 A CN 110704890A CN 201910738220 A CN201910738220 A CN 201910738220A CN 110704890 A CN110704890 A CN 110704890A
Authority
CN
China
Prior art keywords
information
neural network
causal relationship
text
fusing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910738220.7A
Other languages
English (en)
Inventor
骆祥峰
黄敬
靳献献
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
University of Shanghai for Science and Technology
Original Assignee
Alibaba Group Holding Ltd
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd, University of Shanghai for Science and Technology filed Critical Alibaba Group Holding Ltd
Priority to CN201910738220.7A priority Critical patent/CN110704890A/zh
Publication of CN110704890A publication Critical patent/CN110704890A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法。该方法的具体实施步骤如下:(1)获取互联网文本信息;(2)对获取的文本信息进行预处理;(3)训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型;(4)将预处理后的文本信息输入到因果关系自动抽取模型,输出句子因果关系抽取结果,其组成部分为{因部分,因果连接词,果部分}。该方法通过使用神经网络的方法,采用向量化数值计算来进行因果关系自动抽取,有效的解决人工制定模板操作繁杂和因果关系语义特征提取难的问题。

Description

一种融合卷积神经网络和循环神经网络的文本因果关系自动 抽取方法
技术领域
本发明涉及一种特定领域的因果关系自动抽取方法,更具体的说,涉及一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法。
背景技术
因果关系抽取是一种浅层的语义分析技术,可以自动的从句子中抽取事件发生原因和结果之间的语义关系,在人类认知和推理决策中起着非常重要的影响。因此,自动且高效的从句子中抽取因果关系信息来预测事件发生的趋势是非常具有实用价值的。
传统的事件因果关系抽取方法,都是基于规则和机器学习方法对显性因果关系进行抽取,而且大多数因果关系抽取都是基于规整的英文语料,中文语料具有价值稀疏性、碎片性和隐含性等特点,因果关系的抽取难。基于规则和机器学习方法依赖大量的语言模式,包括词汇句法模式和语义模式等,人工定制模板操作繁杂,极大地限制了灵活性,而机器学习的方法,需要依赖大量的标记数据,特征提取困难且不考虑深层的意义信息,结果的性能也受到NLP工具包的影响。
发明内容
针对现有技术存在的缺陷,本发明的目的是提供一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法。本方法基于充分利用文本句子的局部有效特征信息和全局上下文语义信息得到语义丰富的特征信息,通过使用神经网络的方法,采用向量化数值计算来进行因果关系自动抽取,有效的解决人工制定模板操作繁杂和因果关系语义特征提取难的问题,为因果关系抽取提供极大便利。
为了达到上述目的,本发明的构思如下:让机器充分理解文本信息特征,通过挖掘文本信息的局部特征和全局特征进行互补的方式,完成对文本中因果关系的自动抽取。
根据上述的发明思想,本发明采用下述技术方案:
一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,具体步骤如下:
(1)获取互联网文本信息;
(2)对获取的文本信息进行预处理;
(3)训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型;
(4)将预处理后的文本信息输入到因果关系自动抽取模型,输出句子因果关系抽取结果。
所述步骤(2)的具体过程如下:
(2-1)对获取的互联网文本信息进行预处理,去除停用词,使用分词工具HanLP对文本信息进行分词处理、去除停用词、低频词,最后保留除标点符号之外的词;
(2-2)将数据集分为训练集和测试集,并训练为句向量。
所述步骤(3)的具体过程如下:
(3-1)局部有效信息学习:利用卷积神经网络对训练集文本信息进行局部信息提取,学习不同部分的局部特征信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的局部特征信息z;
(3-2)全局信息有效学习:利用循环神经网络,即双向LSTM对训练集进行全局上下文特征信息提取,学习句子上下文全局信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的全局特征信息k;
(3-3)信息融合:融合(3-1)学习到的局部有效信息和(3-2)学习到的全局信息对因果关系各部分信息进行互补综合;具体步骤包括:
对输出为预设维度的局部特征信息进行有效信息的抽取,得到的最终的有效局部信息为h=z×f(z),其中f()是非线性激活函数;
对输出为预设维度的全局特征信息进行融合,采用将对应的部分特征相加得到特征总和的方式,得到融合结果g(z,k),其中g()是信息融合函数,最后一个维度连接;
(3-4)使用标签转移概率矩阵对(3-3)融合后的信息抽取结果进行约束,使用条件随机场学习输出上下文标签信息,得到最优标注序列。
所述步骤(4)中的具体过程如下:
(4-1)将预处理后的文本信息作为模型输入;
(4-2)模型输出为因果关系抽取结果,其组成部分为{因部分,因果连接词,果部分}。
本发明与现有方法比较,具有以下突出特点和优点:
本发明能够充分利用句子的各部分语义信息,通过使用神经网络的方法,采用向量化数值计算来自动抽取因果关系,有效解决人工制定模板困难和语义特征提取难的问题。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明的实施例做进一步的详细描述。
如图1所示,一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法由如下4个组成部分:获取互联网文本信息、对获取的文本信息进行预处理、训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型和将预处理后的文本信息输入到因果关系自动抽取模型,输出句子因果关系抽取结果;各部分的具体描述如下:
S1.互联网文本信息获取,文本信息指的是金融领域新闻文本。利用Java语言撰写爬虫程序,对财经网站的新闻进行爬取,并存储到本地文件中,其大小为2GB,采用四种常用的因果关系连接词,“因为”,“致使”,“导致”,“造成”,去重后共抽取出6000条具有因果关系句子,本发明涉及到的文本信息均为中文文本信息。
S2.数据预处理,通过爬虫获取的原始新闻数据中含有大量对因果关系抽取无关的杂乱信息,比如URL信息、标点信息等,将杂乱信息清除有利于提高因果关系抽取的准确率和召回率;去除停用词,使用分词工具HanLP对文本信息进行分词处理、去除停用词、低频词,最后保留除标点符号之外的词,人工的对抽取的6000条因果关系句子进行{因部分(Cause),因果连接词(Relation),果部分(Effect)}和其他无用信息(O)进行标注,标注时间为4个月。
使用word2vec的Skip-Gram模型,从大量金融领域中文数据集中训练具有语义信息的词向量e,将数据集按8:2的比例分为训练集和测试集,并将训练集和测试集的文本数据训练为句向量,另外每个单词的embedding的维度为n。
每个词向量表示为e,e的表示范围(-1,1),维度为n,这里n=100。
筛选出句子在候选词集合a的词,词的个数用m表示,得到m×n的向量即为句子向量x,由文本句子向量构成文本向量d的表示。
S3.训练因果关系抽取模型,用于对进行预处理后的文本信息抽取定量文本根据融合卷积神经网络和循环神经网络的文本因果关系抽取模型进行训练,得到因果关系抽取模型。
具体地,利用卷积神经网络对S1中的训练集文本信息建立局部特征信息高效抽取模型,学习不同部分的局部特征信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的局部特征信息z,得到的有效局部信息为g(z)=z×f(z),f()是非线性激活函数,这里使用卷积神经网络的超参数设置,批处理数目为128,卷积核大小为3×100,滑动步长为1,卷积核数目为100,学习率为0.001,丢弃率为0.2。
利用循环神经网络(双向LSTM)对S1中的训练集建立全局上下文特征信息高效抽取模型,学习句子上下文全局信息k,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的全局特征信息。这里使用循环神经网络(双向LSTM)的超参数设置批处理数目为128,学习率为0.001,隐藏层节点个数为100,丢弃率为0.2。
其中有效信息抽取公式如下:g(z)=z×sigmoid(z),sigmoid(x)=1/(1+e-x),e为自然数,大小取为2.718。
使用融合拼接的方式将学习到的全局信息k和深层有效局部信息z通过g()函数整合为一个整体语义信息t,并作为标签转移矩阵的输入。
通过条件随机场的特征函数,最后得到每个字标签的概率表示,从而得到每个字对应的标签表示,其中使用Adam方法加速梯度下降收敛速度,在总迭代次数为200次迭代训练中,迭代到32次时模型收敛。
建立目标函数,采用梯度下降方法训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型,其抽取准确率达到92%。
S4.因果关系自动抽取,根据所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型,自动抽取因果关系。
具体地,将数据集中的测试集文本句向量输入到融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型中。
输入为:x=(x1,x2,x3,...,xt)其中x为句子向量,d作为因果关系的输入。
输出为:最终得到文本句子不同成分的因果关系抽取,将一句话表示为S={原因部分,因果连接词,结果部分}。
本发明通过使用神经网络的方法,采用向量化数值计算来进行因果关系自动抽取,有效的解决人工制定模板操作繁杂和因果关系语义特征提取难的问题。

Claims (4)

1.一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,具体步骤如下:
(1)获取互联网文本信息;
(2)对获取的文本信息进行预处理;
(3)训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型;
(4)将预处理后的文本信息输入到因果关系自动抽取模型,输出句子因果关系抽取结果。
2.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,所述步骤(2)的具体过程如下:
(2-1)对获取的互联网文本信息进行预处理,去除停用词,使用分词工具HanLP对文本信息进行分词处理、去除停用词、低频词,最后保留除标点符号之外的词;
(2-2)将数据集分为训练集和测试集,并训练为句向量。
3.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,所述步骤(3)的具体过程如下:
(3-1)局部有效信息学习:利用卷积神经网络对训练集文本信息进行局部信息提取,学习不同部分的局部特征信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的局部特征信息z;
(3-2)全局信息有效学习:利用循环神经网络,即双向LSTM对训练集进行全局上下文特征信息提取,学习句子上下文全局信息,输入为训练集文本信息向量化表示x=(x1,x2,x3,...,xt),输出为预设维度的全局特征信息k;
(3-3)信息融合:融合(3-1)学习到的局部有效信息和(3-2)学习到的全局信息对因果关系各部分信息进行互补综合;具体步骤包括:
对输出为预设维度的局部特征信息进行有效信息的抽取,得到的最终的有效局部信息为h=z×f(z),其中f()是非线性激活函数;
对输出为预设维度的全局特征信息进行融合,采用将对应的部分特征相加得到特征总和的方式,得到融合结果g(z,k),其中g()是信息融合函数,最后一个维度连接;
(3-4)使用标签转移概率矩阵对(3-3)融合后的信息抽取结果进行约束,使用条件随机场学习输出上下文标签信息,得到最优标注序列。
4.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法,其特征在于,所述步骤(4)中的具体过程如下:
(4-1)将预处理后的文本信息作为模型输入;
(4-2)模型输出为因果关系抽取结果,其组成部分为{因部分,因果连接词,果部分}。
CN201910738220.7A 2019-08-12 2019-08-12 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法 Pending CN110704890A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910738220.7A CN110704890A (zh) 2019-08-12 2019-08-12 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910738220.7A CN110704890A (zh) 2019-08-12 2019-08-12 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法

Publications (1)

Publication Number Publication Date
CN110704890A true CN110704890A (zh) 2020-01-17

Family

ID=69193340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910738220.7A Pending CN110704890A (zh) 2019-08-12 2019-08-12 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法

Country Status (1)

Country Link
CN (1) CN110704890A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274789A (zh) * 2020-02-06 2020-06-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111325016A (zh) * 2020-02-04 2020-06-23 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111428481A (zh) * 2020-03-26 2020-07-17 南京搜文信息技术有限公司 一种基于深度学习的实体关系抽取方法
CN111476024A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分词方法、装置及模型训练方法
CN111488740A (zh) * 2020-03-27 2020-08-04 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
CN111709225A (zh) * 2020-05-09 2020-09-25 北京明略软件系统有限公司 一种事件因果关系判别方法、装置和计算机可读存储介质
CN111881688A (zh) * 2020-08-11 2020-11-03 中国科学院自动化研究所 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置
CN115348067A (zh) * 2022-08-09 2022-11-15 广东电力发展股份有限公司沙角A电厂 一种智能化网络安全检测系统及方法
US11922129B2 (en) 2021-06-22 2024-03-05 International Business Machines Corporation Causal knowledge identification and extraction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN109918671A (zh) * 2019-03-12 2019-06-21 西南交通大学 基于卷积循环神经网络的电子病历实体关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李培峰等: "使用全局优化方法识别中文事件因果关系", 《清华大学学报(自然科学版)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325016A (zh) * 2020-02-04 2020-06-23 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111325016B (zh) * 2020-02-04 2024-02-02 深圳证券信息有限公司 一种文本处理方法、系统、设备、介质
CN111274789A (zh) * 2020-02-06 2020-06-12 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111476024A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分词方法、装置及模型训练方法
CN111428481A (zh) * 2020-03-26 2020-07-17 南京搜文信息技术有限公司 一种基于深度学习的实体关系抽取方法
CN111488740A (zh) * 2020-03-27 2020-08-04 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
CN111488740B (zh) * 2020-03-27 2023-12-22 北京百度网讯科技有限公司 一种因果关系的判别方法、装置、电子设备及存储介质
CN111709225B (zh) * 2020-05-09 2023-05-09 北京明略软件系统有限公司 一种事件因果关系判别方法、装置和计算机可读存储介质
CN111709225A (zh) * 2020-05-09 2020-09-25 北京明略软件系统有限公司 一种事件因果关系判别方法、装置和计算机可读存储介质
CN111881688B (zh) * 2020-08-11 2021-09-14 中国科学院自动化研究所 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置
CN111881688A (zh) * 2020-08-11 2020-11-03 中国科学院自动化研究所 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置
US11922129B2 (en) 2021-06-22 2024-03-05 International Business Machines Corporation Causal knowledge identification and extraction
CN115348067A (zh) * 2022-08-09 2022-11-15 广东电力发展股份有限公司沙角A电厂 一种智能化网络安全检测系统及方法

Similar Documents

Publication Publication Date Title
CN110704890A (zh) 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN107066446B (zh) 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN109710770A (zh) 一种基于迁移学习的文本分类方法及装置
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN109492678B (zh) 一种集成浅层和深度学习的App分类方法
Zhao et al. ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN111177383A (zh) 一种融合文本语法结构和语义信息的文本实体关系自动分类方法
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
Sifa et al. Towards contradiction detection in german: a translation-driven approach
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
González-Corbelle et al. Dealing with hallucination and omission in neural Natural Language Generation: A use case on meteorology.
CN113724819A (zh) 医疗命名实体识别模型的训练方法、装置、设备及介质
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN111339777A (zh) 基于神经网络的医学相关意图识别方法及系统
CN112347247B (zh) 基于LDA和Bert的特定类别文本标题二分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication