CN110704890A

CN110704890A - 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法

Info

Publication number: CN110704890A
Application number: CN201910738220.7A
Authority: CN
Inventors: 骆祥峰; 黄敬; 靳献献
Original assignee: Alibaba Group Holding Ltd; University of Shanghai for Science and Technology
Current assignee: Alibaba Group Holding Ltd; University of Shanghai for Science and Technology
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2020-01-17

Abstract

本发明公开了一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法。该方法的具体实施步骤如下：（1）获取互联网文本信息；（2）对获取的文本信息进行预处理；（3）训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型；（4）将预处理后的文本信息输入到因果关系自动抽取模型，输出句子因果关系抽取结果，其组成部分为｛因部分，因果连接词，果部分｝。该方法通过使用神经网络的方法，采用向量化数值计算来进行因果关系自动抽取，有效的解决人工制定模板操作繁杂和因果关系语义特征提取难的问题。

Description

一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法

技术领域

本发明涉及一种特定领域的因果关系自动抽取方法，更具体的说，涉及一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法。

背景技术

因果关系抽取是一种浅层的语义分析技术，可以自动的从句子中抽取事件发生原因和结果之间的语义关系，在人类认知和推理决策中起着非常重要的影响。因此，自动且高效的从句子中抽取因果关系信息来预测事件发生的趋势是非常具有实用价值的。

传统的事件因果关系抽取方法，都是基于规则和机器学习方法对显性因果关系进行抽取，而且大多数因果关系抽取都是基于规整的英文语料，中文语料具有价值稀疏性、碎片性和隐含性等特点，因果关系的抽取难。基于规则和机器学习方法依赖大量的语言模式，包括词汇句法模式和语义模式等，人工定制模板操作繁杂，极大地限制了灵活性，而机器学习的方法，需要依赖大量的标记数据，特征提取困难且不考虑深层的意义信息，结果的性能也受到NLP工具包的影响。

发明内容

针对现有技术存在的缺陷，本发明的目的是提供一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法。本方法基于充分利用文本句子的局部有效特征信息和全局上下文语义信息得到语义丰富的特征信息，通过使用神经网络的方法，采用向量化数值计算来进行因果关系自动抽取，有效的解决人工制定模板操作繁杂和因果关系语义特征提取难的问题，为因果关系抽取提供极大便利。

为了达到上述目的，本发明的构思如下：让机器充分理解文本信息特征，通过挖掘文本信息的局部特征和全局特征进行互补的方式，完成对文本中因果关系的自动抽取。

根据上述的发明思想，本发明采用下述技术方案：

一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法，具体步骤如下：

(1)获取互联网文本信息；

(2)对获取的文本信息进行预处理；

(3)训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型；

(4)将预处理后的文本信息输入到因果关系自动抽取模型，输出句子因果关系抽取结果。

所述步骤(2)的具体过程如下：

(2-1)对获取的互联网文本信息进行预处理，去除停用词，使用分词工具HanLP对文本信息进行分词处理、去除停用词、低频词，最后保留除标点符号之外的词；

(2-2)将数据集分为训练集和测试集，并训练为句向量。

所述步骤(3)的具体过程如下：

(3-1)局部有效信息学习：利用卷积神经网络对训练集文本信息进行局部信息提取，学习不同部分的局部特征信息，输入为训练集文本信息向量化表示x＝(x1，x2，x3，...，xt)，输出为预设维度的局部特征信息z；

(3-2)全局信息有效学习：利用循环神经网络，即双向LSTM对训练集进行全局上下文特征信息提取，学习句子上下文全局信息，输入为训练集文本信息向量化表示x＝(x1，x2，x3，...，xt)，输出为预设维度的全局特征信息k；

(3-3)信息融合：融合(3-1)学习到的局部有效信息和(3-2)学习到的全局信息对因果关系各部分信息进行互补综合；具体步骤包括：

对输出为预设维度的局部特征信息进行有效信息的抽取，得到的最终的有效局部信息为h＝z×f(z)，其中f()是非线性激活函数；

对输出为预设维度的全局特征信息进行融合，采用将对应的部分特征相加得到特征总和的方式，得到融合结果g(z，k)，其中g()是信息融合函数，最后一个维度连接；

(3-4)使用标签转移概率矩阵对(3-3)融合后的信息抽取结果进行约束，使用条件随机场学习输出上下文标签信息，得到最优标注序列。

所述步骤(4)中的具体过程如下：

(4-1)将预处理后的文本信息作为模型输入；

(4-2)模型输出为因果关系抽取结果，其组成部分为{因部分，因果连接词，果部分}。

本发明与现有方法比较，具有以下突出特点和优点：

本发明能够充分利用句子的各部分语义信息，通过使用神经网络的方法，采用向量化数值计算来自动抽取因果关系，有效解决人工制定模板困难和语义特征提取难的问题。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明的实施例做进一步的详细描述。

如图1所示，一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法由如下4个组成部分：获取互联网文本信息、对获取的文本信息进行预处理、训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型和将预处理后的文本信息输入到因果关系自动抽取模型，输出句子因果关系抽取结果；各部分的具体描述如下：

S1.互联网文本信息获取，文本信息指的是金融领域新闻文本。利用Java语言撰写爬虫程序，对财经网站的新闻进行爬取，并存储到本地文件中，其大小为2GB，采用四种常用的因果关系连接词，“因为”，“致使”，“导致”，“造成”，去重后共抽取出6000条具有因果关系句子，本发明涉及到的文本信息均为中文文本信息。

S2.数据预处理，通过爬虫获取的原始新闻数据中含有大量对因果关系抽取无关的杂乱信息，比如URL信息、标点信息等，将杂乱信息清除有利于提高因果关系抽取的准确率和召回率；去除停用词，使用分词工具HanLP对文本信息进行分词处理、去除停用词、低频词，最后保留除标点符号之外的词，人工的对抽取的6000条因果关系句子进行{因部分(Cause)，因果连接词(Relation)，果部分(Effect)}和其他无用信息(O)进行标注，标注时间为4个月。

使用word2vec的Skip-Gram模型，从大量金融领域中文数据集中训练具有语义信息的词向量e，将数据集按8：2的比例分为训练集和测试集，并将训练集和测试集的文本数据训练为句向量，另外每个单词的embedding的维度为n。

每个词向量表示为e，e的表示范围(-1,1),维度为n，这里n＝100。

筛选出句子在候选词集合a的词，词的个数用m表示，得到m×n的向量即为句子向量x，由文本句子向量构成文本向量d的表示。

S3.训练因果关系抽取模型，用于对进行预处理后的文本信息抽取定量文本根据融合卷积神经网络和循环神经网络的文本因果关系抽取模型进行训练，得到因果关系抽取模型。

具体地，利用卷积神经网络对S1中的训练集文本信息建立局部特征信息高效抽取模型，学习不同部分的局部特征信息，输入为训练集文本信息向量化表示x＝(x1，x2，x3，...，xt)，输出为预设维度的局部特征信息z，得到的有效局部信息为g(z)＝z×f(z)，f()是非线性激活函数，这里使用卷积神经网络的超参数设置，批处理数目为128，卷积核大小为3×100，滑动步长为1，卷积核数目为100，学习率为0.001，丢弃率为0.2。

利用循环神经网络(双向LSTM)对S1中的训练集建立全局上下文特征信息高效抽取模型，学习句子上下文全局信息k，输入为训练集文本信息向量化表示x＝(x1，x2，x3，...，xt)，输出为预设维度的全局特征信息。这里使用循环神经网络(双向LSTM)的超参数设置批处理数目为128，学习率为0.001，隐藏层节点个数为100，丢弃率为0.2。

其中有效信息抽取公式如下：g(z)＝z×sigmoid(z)，sigmoid(x)＝1/(1+e^-x)，e为自然数，大小取为2.718。

使用融合拼接的方式将学习到的全局信息k和深层有效局部信息z通过g()函数整合为一个整体语义信息t，并作为标签转移矩阵的输入。

通过条件随机场的特征函数，最后得到每个字标签的概率表示，从而得到每个字对应的标签表示，其中使用Adam方法加速梯度下降收敛速度，在总迭代次数为200次迭代训练中，迭代到32次时模型收敛。

建立目标函数，采用梯度下降方法训练融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型，其抽取准确率达到92％。

S4.因果关系自动抽取，根据所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型，自动抽取因果关系。

具体地，将数据集中的测试集文本句向量输入到融合卷积神经网络和循环神经网络的文本因果关系自动抽取模型中。

输入为：x＝(x1，x2，x3，...，xt)其中x为句子向量，d作为因果关系的输入。

输出为：最终得到文本句子不同成分的因果关系抽取，将一句话表示为S＝{原因部分，因果连接词，结果部分}。

本发明通过使用神经网络的方法，采用向量化数值计算来进行因果关系自动抽取，有效的解决人工制定模板操作繁杂和因果关系语义特征提取难的问题。

Claims

1.一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法，其特征在于，具体步骤如下：

(1)获取互联网文本信息；

(2)对获取的文本信息进行预处理；

2.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法，其特征在于，所述步骤(2)的具体过程如下：

(2-2)将数据集分为训练集和测试集，并训练为句向量。

3.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法，其特征在于，所述步骤(3)的具体过程如下：

4.根据权利要求1所述的融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法，其特征在于，所述步骤(4)中的具体过程如下：

(4-1)将预处理后的文本信息作为模型输入；