CN111026852B - 一种面向金融事件的混合型因果关系发现方法 - Google Patents

一种面向金融事件的混合型因果关系发现方法 Download PDF

Info

Publication number
CN111026852B
CN111026852B CN201911193643.1A CN201911193643A CN111026852B CN 111026852 B CN111026852 B CN 111026852B CN 201911193643 A CN201911193643 A CN 201911193643A CN 111026852 B CN111026852 B CN 111026852B
Authority
CN
China
Prior art keywords
event
causal
text
causal relationship
financial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911193643.1A
Other languages
English (en)
Other versions
CN111026852A (zh
Inventor
林海涛
蔡瑞初
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201911193643.1A priority Critical patent/CN111026852B/zh
Publication of CN111026852A publication Critical patent/CN111026852A/zh
Application granted granted Critical
Publication of CN111026852B publication Critical patent/CN111026852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向金融事件的混合型因果关系发现方法,首先对文本事件因果关系进行抽取;然后结合文本事件所对应的关键词在百度指数上找出事件对应时间序列的关注指数的变化趋势,即搜索指数曲线,并运用传递熵进行时序事件因果关系的推断;最后用最大似然估计方法融合因果关系抽取结果和基于搜索指数曲线的时序数据进行因果关系推断所得的结果,生成一种因果关系发现。本发明方法可以对金融事件对所蕴含的因果关系进行快速的甄别与发现。

Description

一种面向金融事件的混合型因果关系发现方法
技术领域
本发明涉及金融事件的因果关系发现技术领域,尤其涉及一种面向金融事件的混合型因果关系发现方法。
背景技术
在经济全球化的时代背景下,研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。比如开放自贸区带来的进出口总额的变化对外贸型企业股价存在一定的影响,这种影响可以提炼为金融政策的发布对以出口为导向的企业的发展存在因果关系,即金融政策调整导致企业股价上升。同时随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。
发明内容
本发明为解决金融事件中因果关系的无法快速甄别和发现的问题,提供了一种面向金融事件的混合型因果关系发现方法。
为实现以上发明目的,而采用的技术手段是:
一种面向金融事件的混合型因果关系发现方法,其特征在于,包括以下步骤:
S1.获取金融事件文本数据集;
S2.从所述金融事件文本数据集中抽取文本事件因果关系;
S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线;
S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系;
S5.用最大似然估计方法融合步骤S2和S4分别得到的因果关系,从而生成金融事件因果关系发现。
优选的,步骤S2中所述从所述金融事件文本数据集中抽取文本事件因果关系通过以下的文本事件因果关系抽取架构实现:
输入层:利用Stanford Parser对所述金融事件文本数据集进行数据预处理,获取每个文本事件序列的句法标签和词性标签;
序列预测层:构建融合注意力机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练,获得每个文本事件序列的双向隐状态编码信息和文本事件的标签信息,作为关系预测层的联合输入;
关系预测层:构建融合多句法结构的Bi-Tree-LSTM网络,对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系;
端到端的训练:将所述关系预测层嵌套在序列预测层之上,利用共享参数进行端到端的训练,通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。
优选的,在所述融合注意力机制的Bi-LSTM-CRF网络中,通过其中的Bi-LSTM获取文本事件序列的双向隐状态编码信息;基于注意力机制进行二次学习来调整所述双向隐状态编码信息在原始文本事件序列上的权重分布;通过其中的CRF层基于BILOU标注模式进行解码,从而预测文本事件的标签信息。
优选的,步骤S4中所述的利用因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系具体为:
所述传递熵的规则定义如下:
两搜索指数曲线对应的文本事件对A,B的传递熵为TEA→B,k次置换检验的传递熵向量为
Figure BDA0002294183310000021
若满足/>
Figure BDA0002294183310000022
则A→B的因果关系是显著的;其中α为选定的显著性水平
因果关系A→B是否显著的检验步骤:
首先定义H0:因果关系A→B不存在;定义H1:因果关系A→B存在;
a.计算统计量TEA→B
b.随机打乱序列At-1的顺序k次,计算统计量TE′;
c.计算p值:
Figure BDA0002294183310000023
d.若
Figure BDA0002294183310000024
成立,则拒绝H0;否则接受H0
根据:
Figure BDA0002294183310000031
其中I(·;·|·)为条件互信息,δ,l分别是想要检验的A对B的因果延迟和滞后期数量;Con是条件变量集,包括A的自身影响和其他已知的原因变量;shuffle(·)是洗牌函数,负责将序列随机打乱;
若给定Con的条件下,A→B存在因果延迟为δ、滞后期数量为l的因果关系,则信息传递量等于
Figure BDA0002294183310000032
优选的,所述步骤S5中采用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量,从而实现两个因果关系的融合。
优选的,对所述最大似然估计方法的似然函数表达式取自然对数进行简化,再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。
与现有技术相比,本发明技术方案的有益效果是:
本发明面向金融事件的混合型因果关系发现方法,首先对文本事件因果关系进行抽取;然后结合文本事件所对应的关键词在百度指数上找出事件对应时间序列的关注指数的变化趋势,即搜索指数曲线,并运用传递熵进行时序事件因果关系的推断;最后用最大似然估计方法融合因果关系抽取结果和基于搜索指数曲线的时序数据进行因果关系推断所得的结果,生成一种因果关系发现,本发明方法可以对金融事件对所蕴含的因果关系进行快速的甄别与发现。
附图说明
图1为本发明的总流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种面向金融事件的混合型因果关系发现方法,包括以下步骤:
S1.获取金融事件文本数据集;
S2.从所述金融事件文本数据集中抽取文本事件因果关系;具体通过以下的文本事件因果关系抽取架构实现:
输入层:利用Stanford Parser对所述金融事件文本数据集进行数据预处理,获取每个文本事件序列的句法标签和词性标签;
序列预测层:构建融合注意力机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练,通过网络中的Bi-LSTM获得每个文本事件序列的双向隐状态编码信息;基于注意力机制进行二次学习来调整双向隐状态编码信息在原始序列上的权重分布;最后,通过网络中的CRF层基于BILOU标注模式进行解码,从而预测文本事件的标签信息。通过文本事件预训练获得的双向隐状态编码信息和文本事件的标签信息,将作为关系预测层的联合输入。
关系预测层:构建融合多句法结构的Bi-Tree-LSTM网络,通过将全树、子树和最短路径结构进行加权融合在同一个网络下,分别在自顶向下和自底向上两个方向上充分学习结构信息,对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系;
端到端的训练:将所述关系预测层嵌套在序列预测层之上,利用共享参数进行端到端的训练,通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。
S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线;由于文本事件所对应的关键字信息量有限,而百度指数能在一定程度上将人们对事件关注度随时间的动态变化以曲线的形式直观地表达出来,所以对长期存在关联的事件对,事件之间的关联可通过提取事件关键字在百度指数上转化为随时间动态变化的搜索指数曲线,从而以热度曲线变化趋势的方式间接反映事件对之间的关联程度,这一点可以作为时序数据运用在因果关系发现方向上。
S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系;
传递熵和格兰杰因果关系在高斯的情况下是等价的,前者的思想是消除不确定性,后者从预测的角度出发,对候选原因事件进行回归。传递熵的作用是衡量一个事件对另一个事件的信息传递量,即给定原因事件之后,结果事件不确定性的减少程度,以此推断两个事件对的因果关系。信息传递具有不对称性,原因事件对结果事件的信息传递量较大,反之信息传递量接近于0。此外,传递熵具有模型无关、没有数据分布假设等优点。本实施例中将其运用到文本事件因果关系发现上。由于在实际应用中,无因果关系的结点之间传递熵较小,需要给定一个阈值来划分有无因果关系,而这个阈值往往是很难定义的。所以本实施例引入置换检验到传递熵方法中以判断因果关系的显著性;具体如下:
传递熵的规则定义如下:
两搜索指数曲线对应的文本事件对A,B的传递熵为TEA→B,k次置换检验的传递熵向量为
Figure BDA0002294183310000051
若满足/>
Figure BDA0002294183310000052
则A→B的因果关系是显著的;
若A→B的因果关系存在,则原来的序列之间有较大的信息传递量,A的历史能够为预测B提供信息。打乱A的历史序列At-1之后,时序信息被破坏,新的A′t-1与Bt之间的影响不复存在,得到的信息传递量将大大减小,所以有
Figure BDA0002294183310000053
TE′(i)<TEA→B。若A→B真实不存在,那么置换后的序列与置换前的序列对于B来说都是一列随机且无关的序列,所以置换前后的传递熵值应大致相同。α为选定的显著性水平。
因果关系A→B是否显著的检验步骤:
首先定义H0:因果关系A→B不存在;定义H1:因果关系A→B存在;
a.计算统计量TEA→B
b.随机打乱序列At-1的顺序k次,计算统计量TE′;
c.计算p值:
Figure BDA0002294183310000054
d.若
Figure BDA0002294183310000055
成立,则拒绝H0;否则接受H0
根据:
Figure BDA0002294183310000061
其中I(·;·|·)为条件互信息,δ,l分别是想要检验的A对B的因果延迟和滞后期数量;Con是条件变量集,包括A的自身影响和其他已知的原因变量;shuffle(·)是洗牌函数,负责将序列随机打乱;
若给定Con的条件下,A→B存在因果延迟为δ、滞后期数量为l的因果关系,则信息传递量等于
Figure BDA0002294183310000062
S5.用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量,从而实现两个因果关系的融合,生成金融事件因果关系发现。由于自然对数是一个单调函数,可以确保概率的最大对数值出现在与原始概率函数相同的点上,因此对最大似然估计方法的似然函数表达式取自然对数进行简化,再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种面向金融事件的混合型因果关系发现方法,其特征在于,包括以下步骤:
S1.获取金融事件文本数据集;
S2.从所述金融事件文本数据集中抽取文本事件因果关系;
S3.从所述金融事件文本数据集中提取文本事件的关键词并利用百度指数上转化为随时间动态变化的搜索指数曲线;
S4.运用格兰杰因果性或因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系;
S5.用最大似然估计方法融合步骤S2和S4分别得到的因果关系,从而生成金融事件因果关系发现;
步骤S4中所述的利用因果传递熵算法确定两搜索指数曲线对应的文本事件对之间的因果关系具体为:
所述传递熵的规则定义如下:
两搜索指数曲线对应的文本事件对A,B的传递熵为TEA→B,k次置换检验的传递熵向量为
Figure FDA0004175841040000011
若满足/>
Figure FDA0004175841040000012
则A→B的因果关系是显著的;其中α为选定的显著性水平;
因果关系A→B是否显著的检验步骤:
首先定义H0:因果关系A→B不存在;定义H1:因果关系A→B存在;
a.计算统计量TEA→B
b.随机打乱序列At-1的顺序k次,计算统计量TE′;
c.计算p值:
Figure FDA0004175841040000013
d.若
Figure FDA0004175841040000014
成立,则拒绝H0;否则接受H0
根据:
Figure FDA0004175841040000021
其中I(·;·|·)为条件互信息,δ,l分别是想要检验的A对B的因果延迟和滞后期数量;Con是条件变量集,包括A的自身影响和其他已知的原因变量;shuffle(·)是洗牌函数,负责将序列随机打乱;
若给定Con的条件下,A→B存在因果延迟为δ、滞后期数量为l的因果关系,则信息传递量等于
Figure FDA0004175841040000022
步骤S5中采用最大似然估计方法建立步骤S2和S4分别得到的因果关系置信度的可靠性度量,从而实现两个因果关系的融合。
2.根据权利要求1所述的面向金融事件的混合型因果关系发现方法,其特征在于,步骤S2中所述从所述金融事件文本数据集中抽取文本事件因果关系通过以下的文本事件因果关系抽取架构实现:
输入层:利用Stanford Parser对所述金融事件文本数据集进行数据预处理,获取每个文本事件序列的句法标签和词性标签;
序列预测层:构建融合注意力机制的Bi-LSTM-CRF网络并输入所述文本事件序列的句法标签和词性标签进行预训练,获得每个文本事件序列的双向隐状态编码信息和文本事件的标签信息,作为关系预测层的联合输入;
关系预测层:构建融合多句法结构的Bi-Tree-LSTM网络,对所述序列预测层得到的联合输入进行学习从而获取三元组结构信息的候选关系;
端到端的训练:将所述关系预测层嵌套在序列预测层之上,利用共享参数进行端到端的训练,通过SoftMax分类器对所述候选关系进行抽取从而得到文本事件因果关系。
3.根据权利要求2所述的面向金融事件的混合型因果关系发现方法,其特征在于,在所述融合注意力机制的Bi-LSTM-CRF网络中,通过其中的Bi-LSTM获取文本事件序列的双向隐状态编码信息;基于注意力机制进行二次学习来调整所述双向隐状态编码信息在原始文本事件序列上的权重分布;通过其中的CRF层基于BILOU标注模式进行解码,从而预测文本事件的标签信息。
4.根据权利要求1所述的面向金融事件的混合型因果关系发现方法,其特征在于,对所述最大似然估计方法的似然函数表达式取自然对数进行简化,再运用对数运算法则进一步简化后以求导的方式求出其最大似然估计值。
CN201911193643.1A 2019-11-28 2019-11-28 一种面向金融事件的混合型因果关系发现方法 Active CN111026852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911193643.1A CN111026852B (zh) 2019-11-28 2019-11-28 一种面向金融事件的混合型因果关系发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911193643.1A CN111026852B (zh) 2019-11-28 2019-11-28 一种面向金融事件的混合型因果关系发现方法

Publications (2)

Publication Number Publication Date
CN111026852A CN111026852A (zh) 2020-04-17
CN111026852B true CN111026852B (zh) 2023-06-30

Family

ID=70207040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911193643.1A Active CN111026852B (zh) 2019-11-28 2019-11-28 一种面向金融事件的混合型因果关系发现方法

Country Status (1)

Country Link
CN (1) CN111026852B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881688B (zh) * 2020-08-11 2021-09-14 中国科学院自动化研究所 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置
CN112069227B (zh) * 2020-08-18 2024-02-27 之江实验室 一种面向事件序列的因果建模方法及装置
CN113642321B (zh) * 2021-06-28 2024-03-29 浙江工业大学 面向金融领域的因果关系提取方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271488A (zh) * 2018-10-08 2019-01-25 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN109726293A (zh) * 2018-11-14 2019-05-07 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN109886409A (zh) * 2019-02-15 2019-06-14 南京信息工程大学 一种多维时间序列的定量因果关系判定方法
CN109993281A (zh) * 2019-03-28 2019-07-09 北京工业大学 一种基于深度学习的因果关系挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271488A (zh) * 2018-10-08 2019-01-25 广东工业大学 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
CN109726293A (zh) * 2018-11-14 2019-05-07 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN109886409A (zh) * 2019-02-15 2019-06-14 南京信息工程大学 一种多维时间序列的定量因果关系判定方法
CN109993281A (zh) * 2019-03-28 2019-07-09 北京工业大学 一种基于深度学习的因果关系挖掘方法

Also Published As

Publication number Publication date
CN111026852A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN111026852B (zh) 一种面向金融事件的混合型因果关系发现方法
CN109460553A (zh) 一种基于门限卷积神经网络的机器阅读理解方法
Morio et al. Towards better non-tree argument mining: Proposition-level biaffine parsing with task-specific parameterization
CN111753024A (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN112215604A (zh) 交易双方关系信息识别方法及装置
CN116720004A (zh) 推荐理由生成方法、装置、设备及存储介质
CN110795944A (zh) 推荐内容处理方法及装置、情感属性确定方法及装置
CN114444516B (zh) 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN111104512A (zh) 游戏评论的处理方法及相关设备
Yang et al. Semantic-preserving linguistic steganography by pivot translation and semantic-aware bins coding
CN115510236A (zh) 基于信息融合和数据增强的篇章级事件检测方法
CN115269786B (zh) 可解释的虚假文本检测方法、装置、存储介质以及终端
CN112287117A (zh) 一种基于数据自动生成的资产管理知识库构建方法
CN110909529A (zh) 一种公司形象提升系统的用户情感分析和预判系统
Xiang et al. Generative linguistic steganography: A comprehensive review
CN115526322A (zh) 基于Decision Transformer的序列生成式知识推理方法及系统
CN114329051B (zh) 数据信息识别方法、装置、设备、存储介质及程序产品
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
Larsson et al. Disentangled representations for manipulation of sentiment in text
CN115147931A (zh) 基于detr的人物成对解码交互的人与物交互检测方法
CN115495671A (zh) 一种基于图结构迁移的跨领域谣言传播控制方法
CN116756676A (zh) 一种摘要生成方法及相关装置
Yang et al. A generation-based text steganography by maintaining consistency of probability distribution
CN113822047A (zh) 一种文本增强方法、装置、电子设备和存储介质
Im et al. Cross-active connection for image-text multimodal feature fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant