CN113642321A

CN113642321A - 面向金融领域的因果关系提取方法和系统

Info

Publication number: CN113642321A
Application number: CN202110719188.5A
Authority: CN
Inventors: 高楠; 董嘉豪; 冯伟强; 周越; 俞凯乐; 葛婧
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-11-12
Anticipated expiration: 2041-06-28
Also published as: CN113642321B

Abstract

面向金融领域的混合因果关系提取方法，包括：步骤1：扩充训练语句、训练模型；步骤2：提取中心词；步骤3：查中心词表；步骤4：以中心词为界划分句子为两边，再进行相应的句子预处理，删去多余的句子；步骤5：矫正中心词位置；步骤6：分类型进行因果识别；步骤7：模型调优。本发明还包括面向金融领域的混合因果关系提取系统。本发明以金融领域的因果语料作为训练集训练模型，同时建立中心词库，实现面向金融领域的文本的混合因果关系的提取，对指导事件溯因、问答、把握行业动态等方面提供一定支持。

Description

面向金融领域的因果关系提取方法和系统

技术领域

本发明涉及一种关系抽取以及因果判别方法和系统，特别是面向金融领域的混合因果关系提取方法和系统，实现了对金融语段中显式及隐式因果关系的提取。

背景技术

在经济全球化的时代背景下，研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。例如，在上市公司财报中蕴藏着大量的人工总结，其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉，获取事件的演化关系，有助于预测和决策。同时随着自然语言处理技术的快速发展，文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础，而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。本项目拟基于BERT的预训练语言模型，以金融领域的因果语料作为训练集训练模型，同时建立中心词库，实现面向金融领域的文本的混合因果关系的提取，对指导事件溯因、问答、把握行业动态等方面提供一定支持。

金融领域因果关系的提取存在以下几个问题：

(1)金融行业迅速发展，交易活动活跃，事件信息含量巨大，且发布的信息文本往往具有篇幅长、句法结构复杂等特点，因此在本文的处理上存在着较大的难点，难度较大。

(2)因果关系确认存在乱点。对于句法结构复杂的金融文本，往往会存在一个句子具有多个因果关系，一组因果中的原因和结果可能是一个或是多个，需抽取该中心词对应的全部原因和结果。

(3)中心词的提取存在难点。中心词是句子因果关系中链接因主体与果主体的构成部分，是能清晰表达事物发生的词语。若在文本中不能正确的找到中心词，则对于后续因果对的抽取，将存在不同程度上的偏差或是直接错误。

因果关系抽取(Causality Extraction)是一种自然语言处理中的关系抽取任务，用于挖掘文本中具有因果关系的事件对。近年来，神经网络与机器学习相结合的方法避免了传统的事件因果关系抽取方法中的高代价特征工程，可以捕获文本中的隐含的和模糊的因果关系。在金融领域，随着经济生活的不断发展，金融事件不断发生，产生大量事件信息。相对于其他领域而言，金融领域发生的事件常具有复杂性、关联性与专业性，若是直接对信息关系进行判断处理，将存在很大的难度且准确性、可信度都会有一定的影响。如何从这些海量的金融事件数据中找到蕴含的潜在规律，并对金融事件因果关系信息进行科学分析也成为一个亟待解决的问题。因此，金融事件因果关系的提取便赋予了重要性与必要性。从金融领域中的研报、公告中，将金融逻辑抽取出来，构建成事理图谱，对指导事件溯因、问答、把握行业动态等方面有着至关重要的作用。同时，随着自然语言处理技术的快速发展，文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础，而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。因此，本项目拟架构一个基于BERT预训练语言模型的金融因果关系识别模型，实现隐式和显式，一因一果、多因多果、一因多果、一因多果的因果关系抽取，为金融决策及其他实际应用需求提供领域的未来动态信息，从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。

发明内容

本发明要克服现有技术的上述缺点，，提出一种面向金融领域的因果关系提取方法和系统。

本发明拟架构一个基于BERT预训练语言模型的金融因果关系识别模型，实现隐式和显式，一因一果、多因多果、一因多果、一因多果的因果关系抽取，为金融决策及其他实际应用需求提供领域的未来动态信息，从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。

本发明的面向金融领域的因果关系提取方法，包含以下步骤：

步骤1：从金融领域的研报、文章中获取相关的语句扩充语料，并分别标注有因果关系的句子和没有因果关系的句子，将其作为训练集训练BERT模型以判断因果关系的存在。模型架构见图2。

步骤2：提取句子中的中心词，并扩充中心词表，标注其常见位置和常用方式。

步骤3：获得输入的语句，对有中心词的句子，查找中心词表，获得该中心词的常见位置以及其常用方式。若没有中心词，则将模型变成三分类(无因果，前因后果和后因前果)，然后按照排列组合的方式做到部分句子的划分。

步骤4：句子以中心词为界划为左右两边，并且依据标点符号进行分句，再进行相应的句子预处理，删去多余的句子。

步骤5：对可能存在错误的中心词位置进行矫正。

步骤6：对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理，通过找实体、判断俩俩因果关系的存在与否得到两个列表，实现一因多果、多因一果、一因一果和多因多果的识别，最后判断得到其中一个为原因列表，一个为结果列表。

步骤7：对得到的初步模型结果进行人为判别及参数调优，通过数据集针对性扩容和超参数调优，提升模型的因果判断效果。

优选地，步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”；所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中；所述的常见位置是在中间、在前面、在后面三种，所述的常用方式是表征前因后果和表征前果后因两种。

步骤5所述的矫正中心词位置具体包括：

a)中心词应该在中间，但是左边没有存在名词的句子，会把它的位置重新设为前面；反之设为后面；

b)中心词在前面，右边没有两个存在名词的句子时进行矫正，右边只有一个存在实体的句子，设为中间，右边没有存在实体的句子，设为后面；

c)中心词在后面，左边没有两个存在名词的句子时进行矫正，左边有一个存在实体的句子，设为中间，左边没有存在实体的句子，设为前面。

步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理，具体包括：

a)中心词在中间：找左右两边最近的实体，记为left和right，分别放到左列表和右列表中；左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断，如果存在因果关系则加到左列表中去，同理，右边其余句子与left依次组合并且放到模型进行因果关系的判断，如果存在因果关系则加到右列表中去；最后根据中心词的常用方式判断哪一个是原因列表，哪一个是结果列表；

b)中心词在前面：中心词后面最近的一个实体记为head，加到头列表中，剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断，如果存在因果关系就放入尾列表，反之放入临时列表，临时列表用于暂时储存可能是原因/结果所在句的句子，临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中，最后判断头列表和尾列表哪一个是原因列表，哪一个是结果列表；

c)中心词在后面：中心词前面最近的一个实体记为tail，加到尾列表中，剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断，如果存在因果关系就放入头列表，反之放入临时列表，临时列表用于暂时储存可能是原因/结果所在句的句子，临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中，最后判断哪一个是原因列表，哪一个是结果列表。

步骤7所述的数据集针对性扩容具体包括：在模型训练好后，随机拿若干条数据进行检测，然后对每个结果进行分析评价，如果错误的类型很普遍，针对这个类型找若干条数据对训练集集进行补充；将以“称”、“报道”、“据发现”为前缀的句子标记为无因果后加入到训练集中；如果错误的是个例，则将其改正后加入训练集；如此往复循环三次；

步骤7所述的超参数调优具体包括：根据BERT的相关论文，推荐的超参数调优为，learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4；根据推荐的超参数，得到多个模型，通过比较其在测试集上的precision，recall和f1值，选择最好的模型提升判别效果。

本发明还包括面向金融领域的混合因果关系提取系统，包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块。

本发明的优点在于实现了金融领域中对复杂语句的因果关系提取，且包含隐式因果关系和显式因果关系，同时，能对一因一果、多因多果、一因多果、一因多果四种因果关系类型做提取，为金融决策及其他实际应用需求提供领域的未来动态信息，为解决企业风险预测分析成本高、效率低、门槛高以及时效性低等问题提供了新方法。

附图说明

图1是本发明方法的总流程图。

图2是本发明调用的BERT模型的结构图。

图3是因果关系抽取的具体流程示例图。

具体实施方式

下面结合附图，进一步说明本发明的技术方案。

步骤1：将含有因果关系的句子标记为1，不含有因果关系的句子标记为0，得到大致等量的正负例句作为训练集用来训练BERT模型，得到训练好的BERT因果判断模型，可以对输入的句子进行因果关系存在与否的辨认。

步骤2：从现有的因果语句中提取“导致”、“由于”、“因为”等中心词，建立中心词表。再进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中，扩充中心词库。然后对所有的中心词的常见位置(在中间、在前面、在后面三种)和常用方式(表征前因后果和表征前果后因两种)进行人工判别并标注。

步骤3：获得输入的语句，根据中心词表查找句子中是否含有中心词，若有，则在中心词表中查询该中心词，获得它的常见位置，以及其常用方式(后面跟的一般是原因还是结果)。比如“导致”，它的位置在中间，“导致”后面跟的一般是结果，在“导致”前面的一般是原因。若没有查到词表中含有的中心词，而根据分词识别出句子中有中心词，则默认该中心词的位置在原因和结果的中间。若输入的语句中本身不含有中心词，则则将模型变成三分类(无因果，前因后果和后因前果)，然后可以按照排列组合的方式做到部分句子的划分。

步骤4：句子以中心词为界划为左右两边，并且依据标点符号进行分句。然后进行句子预处理，由于形如“举个例子”、“同时”等太短的句子一般无法表征原因或者结果，所以去除长度小于4的句子；另外，如“投资建议：减记型合格二级资本工具率先推出，提升了资本充足率，使得银行由于无减记或转股条款次级债被列为不合格的资本工具而被逐步扣除所带来的资本补充压力得到有效缓解，银行获得应对新业务发展导致的风险加权资产扩张所需的资本。”这一例句中，“投资建议”明显不能作为一个原因或者结果，即全部为名词的短句也无法表征原因或结果，也应当去除。

步骤5：中心词位置矫正：

a)中心词应该在中间，但是左边没有存在名词的句子，会把它的位置重新设为前面。反之设为后面。

b)中心词在前面，右边没有两个存在名词的句子时进行矫正，右边只有一个存在实体的句子，设为中间，右边没有存在实体的句子，设为后面。

步骤6：对以下三种中心词所处位置不同的情况进行分开处理：

a)中心词在中间：找左右两边最近的实体，记为left和right，分别放到左列表和右列表中。左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断，如果存在因果关系则加到左列表中去，同理，右边其余句子与left依次组合并且放到模型进行因果关系的判断，如果存在因果关系则加到右列表中去。最后根据中心词的常用方式判断哪一个是原因列表，哪一个是结果列表。

b)中心词在前面：中心词后面最近的一个实体记为head，加到头列表中，剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断，如果存在因果关系就放入尾列表，反之放入临时列表，临时列表用于暂时储存可能是原因/结果所在句的句子，临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中，最后判断头列表和尾列表哪一个是原因列表，哪一个是结果列表。

步骤7：对模型的因果判别结果通过下述两种方式进行调优：

a)数据集针对性扩容。在模型训练好后，随机拿30条数据进行检测，然后对每个结果进行分析评价，如果错误的类型很普遍，针对这个类型找50条数据对训练集集进行补充。实验发现，以“称”、“报道”、“据发现”等为前缀的句子容易被误认为是有因果关系的，比如，例句“记者观察发现，前三季度多家险企的净利润增加受益于权益市场的收益增加。”中，第一次结果模型的识别结果显示，原因所在句子为“权益市场的收益增加”，结果所在句子为“前三季度多家险企的净利润增加”和“记者观察发现”，会将“记者观察发现”误识别为有因果关系。因此，找了“称”，“报道”等为前缀的句子，标记为无因果后加入到训练集中。如果错误的是个例，则将其改正后加入训练集。如此往复循环三次。

b)超参数调优。根据BERT的相关论文，推荐的超参数调优为，learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4。根据推荐的超参数，得到多个模型，通过比较其在测试集上的precision，recall和f1值，选择最好的模型提升判别效果。

本发明还包括面向金融领域的混合因果关系提取系统，包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块，其中，

训练语句扩充和模型训练模块包括：从金融领域的研报、文章中获取相关的语句扩充语料，并分别标注有因果关系的句子和没有因果关系的句子，将其作为训练集训练BERT模型以判断因果关系的存在；

中心词提取模块包括：找出句子中的中心词，并扩充中心词表，标注其常见位置和常用方式；

查中心词表模块包括：获得输入的语句，对有中心词的句子，查找中心词表，获得该中心词的常见位置以及其常用方式；若没有中心词，则将模型变成三分类(无因果，前因后果和后因前果)，然后按照排列组合的方式做到部分句子的划分

句子划分模块包括：句子以中心词为界划为左右两边，并且依据标点符号进行分句，再进行相应的句子预处理，删去多余的句子；

中心词位置矫正模块包括：对可能存在错误的中心词位置进行矫正；

因果识别模块包括：对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理，通过找实体、判断俩俩因果关系的存在与否得到两个列表，实现一因多果、多因一果、一因一果和多因多果的识别，最后判断得到其中一个为原因列表，一个为结果列表；

模型调优模块包括：对得到的初步模型结果进行人为判别及参数调优，通过数据集针对性扩容和超参数调优，提升模型的因果判断效果。

因果提取结果示例：

例1：

输入语句：记者观察发现，前三季度多家险企的净利润增加受益于权益市场的收益增加。

得到的原因句：{“权益市场的收益增加”}

得到的结果句：{“前三季度多家险企的净利润增加”}

本发明针对金融领域文本处理难度较大、因果关系确认存在乱点以及中心词的提取存在难点等问题，基于BERT的预训练语言模型，以金融领域的因果语料作为训练集训练模型，同时建立中心词库，实现面向金融领域的文本的混合因果关系的提取，对指导事件溯因、问答、把握行业动态等方面提供一定支持。

本发明已经通过上述实例进行了说明，但应当注意的是实例只是解释说明的目的，而非将本发明局限于该实例范围内。尽管参照前述实例本发明进行了详尽的说明，本领域研究人员应当能够理解：其依然可以随前述各实例所记载的技术方案进行修改，或者对其部分技术特征进行同等替换；二、这些修改或替换，并不使相应的技术方案脱离本发明的保护范围。本发明的保护范围由附属的权利要求书机器等效范围所界定。

Claims

1.面向金融领域的混合因果关系提取方法，包括以下步骤：

步骤1：扩充训练语句、训练模型；从金融领域的研报、文章中获取相关的语句扩充语料，并分别标注有因果关系的句子和没有因果关系的句子，将其作为训练集训练BERT模型以判断因果关系的存在；

步骤2：提取中心词；找出句子中的中心词，并扩充中心词表，标注其常见位置和常用方式；

步骤3：查中心词表；获得输入的语句，对有中心词的句子，查找中心词表，获得该中心词的常见位置以及其常用方式；若没有中心词，则将模型变成三分类(无因果，前因后果和后因前果)，然后按照排列组合的方式做到部分句子的划分；

步骤4：以中心词为界划分句子为两边；句子以中心词为界划为左右两边，并且依据标点符号进行分句，再进行相应的句子预处理，删去多余的句子；

步骤5：矫正中心词位置；对可能存在错误的中心词位置进行矫正；

步骤6：分类型进行因果识别；对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理，通过找实体、判断俩俩因果关系的存在与否得到两个列表，实现一因多果、多因一果、一因一果和多因多果的识别，最后判断得到其中一个为原因列表，一个为结果列表；

步骤7：模型调优；对得到的初步模型结果进行人为判别及参数调优，通过数据集针对性扩容和超参数调优，提升模型的因果判断效果。

2.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”；所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中；所述的常见位置是在中间、在前面、在后面三种，所述的常用方式是表征前因后果和表征前果后因两种。

3.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤5所述的矫正中心词位置具体包括：

4.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理，具体包括：

c)中心词在中间：找左右两边最近的实体，记为left和right，分别放到左列表和右列表中；左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断，如果存在因果关系则加到左列表中去，同理，右边其余句子与left依次组合并且放到模型进行因果关系的判断，如果存在因果关系则加到右列表中去；最后根据中心词的常用方式判断哪一个是原因列表，哪一个是结果列表；

d)中心词在前面：中心词后面最近的一个实体记为head，加到头列表中，剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断，如果存在因果关系就放入尾列表，反之放入临时列表，临时列表用于暂时储存可能是原因/结果所在句的句子，临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中，最后判断头列表和尾列表哪一个是原因列表，哪一个是结果列表；

e)中心词在后面：中心词前面最近的一个实体记为tail，加到尾列表中，剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断，如果存在因果关系就放入头列表，反之放入临时列表，临时列表用于暂时储存可能是原因/结果所在句的句子，临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中，最后判断哪一个是原因列表，哪一个是结果列表。

5.如权利要求1所述的面向金融领域的混合因果关系提取方法，其特征在于：步骤7所述的数据集针对性扩容具体包括：在模型训练好后，随机拿若干条数据进行检测，然后对每个结果进行分析评价，如果错误的类型很普遍，针对这个类型找若干条数据对训练集集进行补充；将以“称”、“报道”、“据发现”为前缀的句子标记为无因果后加入到训练集中；如果错误的是个例，则将其改正后加入训练集；如此往复循环三次；

所述的超参数调优具体包括：根据BERT的相关论文，推荐的超参数调优为，learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4；根据推荐的超参数，得到多个模型，通过比较其在测试集上的precision，recall和f1值，选择最好的模型提升判别效果。

6.实施权利要求1所述的面向金融领域的混合因果关系提取方法的系统，其特征在于：包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块，其中，

查中心词表模块包括：获得输入的语句，对有中心词的句子，查找中心词表，获得该中心词的常见位置以及其常用方式；若没有中心词，则将模型变成三分类(无因果，前因后果和后因前果)，然后按照排列组合的方式做到部分句子的划分句子划分模块包括：句子以中心词为界划为左右两边，并且依据标点符号进行分句，再进行相应的句子预处理，删去多余的句子；