CN111026852B

CN111026852B - 一种面向金融事件的混合型因果关系发现方法

Info

Publication number: CN111026852B
Application number: CN201911193643.1A
Authority: CN
Inventors: 林海涛; 蔡瑞初
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-06-30
Anticipated expiration: 2039-11-28
Also published as: CN111026852A

Abstract

本发明公开了一种面向金融事件的混合型因果关系发现方法，首先对文本事件因果关系进行抽取；然后结合文本事件所对应的关键词在百度指数上找出事件对应时间序列的关注指数的变化趋势，即搜索指数曲线，并运用传递熵进行时序事件因果关系的推断；最后用最大似然估计方法融合因果关系抽取结果和基于搜索指数曲线的时序数据进行因果关系推断所得的结果，生成一种因果关系发现。本发明方法可以对金融事件对所蕴含的因果关系进行快速的甄别与发现。

Description

一种面向金融事件的混合型因果关系发现方法

技术领域

本发明涉及金融事件的因果关系发现技术领域，尤其涉及一种面向金融事件的混合型因果关系发现方法。

背景技术

在经济全球化的时代背景下，研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。比如开放自贸区带来的进出口总额的变化对外贸型企业股价存在一定的影响，这种影响可以提炼为金融政策的发布对以出口为导向的企业的发展存在因果关系，即金融政策调整导致企业股价上升。同时随着自然语言处理技术的快速发展，文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础，而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。

发明内容

本发明为解决金融事件中因果关系的无法快速甄别和发现的问题，提供了一种面向金融事件的混合型因果关系发现方法。

为实现以上发明目的，而采用的技术手段是：

一种面向金融事件的混合型因果关系发现方法，其特征在于，包括以下步骤：

S1.获取金融事件文本数据集；

S2.从所述金融事件文本数据集中抽取文本事件因果关系；

S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线；

S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系；

S5.用最大似然估计方法融合步骤S2和S4分别得到的因果关系，从而生成金融事件因果关系发现。

优选的，步骤S2中所述从所述金融事件文本数据集中抽取文本事件因果关系通过以下的文本事件因果关系抽取架构实现：

输入层：利用Stanford Parser对所述金融事件文本数据集进行数据预处理，获取每个文本事件序列的句法标签和词性标签；

序列预测层：构建融合注意力机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练，获得每个文本事件序列的双向隐状态编码信息和文本事件的标签信息，作为关系预测层的联合输入；

关系预测层：构建融合多句法结构的Bi-Tree-LSTM网络，对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系；

端到端的训练：将所述关系预测层嵌套在序列预测层之上，利用共享参数进行端到端的训练，通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。

优选的，在所述融合注意力机制的Bi-LSTM-CRF网络中，通过其中的Bi-LSTM获取文本事件序列的双向隐状态编码信息；基于注意力机制进行二次学习来调整所述双向隐状态编码信息在原始文本事件序列上的权重分布；通过其中的CRF层基于BILOU标注模式进行解码，从而预测文本事件的标签信息。

优选的，步骤S4中所述的利用因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系具体为：

所述传递熵的规则定义如下：

两搜索指数曲线对应的文本事件对A,B的传递熵为TE_A→B，k次置换检验的传递熵向量为

若满足/>

则A→B的因果关系是显著的；其中α为选定的显著性水平

因果关系A→B是否显著的检验步骤：

首先定义H₀：因果关系A→B不存在；定义H₁：因果关系A→B存在；

a.计算统计量TE_A→B；

b.随机打乱序列A_t-1的顺序k次，计算统计量TE′；

c.计算p值：

d.若

成立，则拒绝H₀；否则接受H₀；

根据：

其中I(·；·|·)为条件互信息，δ,l分别是想要检验的A对B的因果延迟和滞后期数量；Con是条件变量集，包括A的自身影响和其他已知的原因变量；shuffle(·)是洗牌函数，负责将序列随机打乱；

若给定Con的条件下，A→B存在因果延迟为δ、滞后期数量为l的因果关系，则信息传递量等于

优选的，所述步骤S5中采用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量，从而实现两个因果关系的融合。

优选的，对所述最大似然估计方法的似然函数表达式取自然对数进行简化，再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。

与现有技术相比，本发明技术方案的有益效果是：

本发明面向金融事件的混合型因果关系发现方法，首先对文本事件因果关系进行抽取；然后结合文本事件所对应的关键词在百度指数上找出事件对应时间序列的关注指数的变化趋势，即搜索指数曲线，并运用传递熵进行时序事件因果关系的推断；最后用最大似然估计方法融合因果关系抽取结果和基于搜索指数曲线的时序数据进行因果关系推断所得的结果，生成一种因果关系发现，本发明方法可以对金融事件对所蕴含的因果关系进行快速的甄别与发现。

附图说明

图1为本发明的总流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种面向金融事件的混合型因果关系发现方法，包括以下步骤：

S1.获取金融事件文本数据集；

S2.从所述金融事件文本数据集中抽取文本事件因果关系；具体通过以下的文本事件因果关系抽取架构实现：

序列预测层：构建融合注意力机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练，通过网络中的Bi-LSTM获得每个文本事件序列的双向隐状态编码信息；基于注意力机制进行二次学习来调整双向隐状态编码信息在原始序列上的权重分布；最后，通过网络中的CRF层基于BILOU标注模式进行解码，从而预测文本事件的标签信息。通过文本事件预训练获得的双向隐状态编码信息和文本事件的标签信息，将作为关系预测层的联合输入。

关系预测层：构建融合多句法结构的Bi-Tree-LSTM网络，通过将全树、子树和最短路径结构进行加权融合在同一个网络下，分别在自顶向下和自底向上两个方向上充分学习结构信息，对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系；

S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线；由于文本事件所对应的关键字信息量有限，而百度指数能在一定程度上将人们对事件关注度随时间的动态变化以曲线的形式直观地表达出来，所以对长期存在关联的事件对，事件之间的关联可通过提取事件关键字在百度指数上转化为随时间动态变化的搜索指数曲线，从而以热度曲线变化趋势的方式间接反映事件对之间的关联程度，这一点可以作为时序数据运用在因果关系发现方向上。

传递熵和格兰杰因果关系在高斯的情况下是等价的，前者的思想是消除不确定性，后者从预测的角度出发，对候选原因事件进行回归。传递熵的作用是衡量一个事件对另一个事件的信息传递量，即给定原因事件之后，结果事件不确定性的减少程度，以此推断两个事件对的因果关系。信息传递具有不对称性，原因事件对结果事件的信息传递量较大，反之信息传递量接近于0。此外，传递熵具有模型无关、没有数据分布假设等优点。本实施例中将其运用到文本事件因果关系发现上。由于在实际应用中，无因果关系的结点之间传递熵较小，需要给定一个阈值来划分有无因果关系，而这个阈值往往是很难定义的。所以本实施例引入置换检验到传递熵方法中以判断因果关系的显著性；具体如下：

传递熵的规则定义如下：

若满足/>

则A→B的因果关系是显著的；

若A→B的因果关系存在，则原来的序列之间有较大的信息传递量，A的历史能够为预测B提供信息。打乱A的历史序列A_t-1之后，时序信息被破坏，新的A′_t-1与B_t之间的影响不复存在，得到的信息传递量将大大减小，所以有

TE′(i)＜TE_A→B。若A→B真实不存在，那么置换后的序列与置换前的序列对于B来说都是一列随机且无关的序列，所以置换前后的传递熵值应大致相同。α为选定的显著性水平。

因果关系A→B是否显著的检验步骤：

a.计算统计量TE_A→B；

b.随机打乱序列A_t-1的顺序k次，计算统计量TE′；

c.计算p值：

d.若

成立，则拒绝H₀；否则接受H₀；

根据：

S5.用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量，从而实现两个因果关系的融合，生成金融事件因果关系发现。由于自然对数是一个单调函数，可以确保概率的最大对数值出现在与原始概率函数相同的点上，因此对最大似然估计方法的似然函数表达式取自然对数进行简化，再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向金融事件的混合型因果关系发现方法，其特征在于，包括以下步骤：

S1.获取金融事件文本数据集；

S2.从所述金融事件文本数据集中抽取文本事件因果关系；

S5.用最大似然估计方法融合步骤S2和S4分别得到的因果关系，从而生成金融事件因果关系发现；

步骤S4中所述的利用因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系具体为：

所述传递熵的规则定义如下：

若满足/>

则A→B的因果关系是显著的；其中α为选定的显著性水平；

因果关系A→B是否显著的检验步骤：

a.计算统计量TE_A→B；

b.随机打乱序列A_t-1的顺序k次，计算统计量TE′；

c.计算p值：

d.若

成立，则拒绝H₀；否则接受H₀；

根据：

步骤S5中采用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量，从而实现两个因果关系的融合。

2.根据权利要求1所述的面向金融事件的混合型因果关系发现方法，其特征在于，步骤S2中所述从所述金融事件文本数据集中抽取文本事件因果关系通过以下的文本事件因果关系抽取架构实现：

3.根据权利要求2所述的面向金融事件的混合型因果关系发现方法，其特征在于，在所述融合注意力机制的Bi-LSTM-CRF网络中，通过其中的Bi-LSTM获取文本事件序列的双向隐状态编码信息；基于注意力机制进行二次学习来调整所述双向隐状态编码信息在原始文本事件序列上的权重分布；通过其中的CRF层基于BILOU标注模式进行解码，从而预测文本事件的标签信息。

4.根据权利要求1所述的面向金融事件的混合型因果关系发现方法，其特征在于，对所述最大似然估计方法的似然函数表达式取自然对数进行简化，再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。