CN113642321B - 面向金融领域的因果关系提取方法和系统 - Google Patents

面向金融领域的因果关系提取方法和系统 Download PDF

Info

Publication number
CN113642321B
CN113642321B CN202110719188.5A CN202110719188A CN113642321B CN 113642321 B CN113642321 B CN 113642321B CN 202110719188 A CN202110719188 A CN 202110719188A CN 113642321 B CN113642321 B CN 113642321B
Authority
CN
China
Prior art keywords
list
sentences
word
sentence
causal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110719188.5A
Other languages
English (en)
Other versions
CN113642321A (zh
Inventor
高楠
董嘉豪
冯伟强
周越
俞凯乐
葛婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110719188.5A priority Critical patent/CN113642321B/zh
Publication of CN113642321A publication Critical patent/CN113642321A/zh
Application granted granted Critical
Publication of CN113642321B publication Critical patent/CN113642321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Educational Administration (AREA)
  • Machine Translation (AREA)

Abstract

面向金融领域的混合因果关系提取方法,包括:步骤1:扩充训练语句、训练模型;步骤2:提取中心词;步骤3:查中心词表;步骤4:以中心词为界划分句子为两边,再进行相应的句子预处理,删去多余的句子;步骤5:矫正中心词位置;步骤6:分类型进行因果识别;步骤7:模型调优。本发明还包括面向金融领域的混合因果关系提取系统。本发明以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。

Description

面向金融领域的因果关系提取方法和系统
技术领域
本发明涉及一种关系抽取以及因果判别方法和系统,特别是面向金融领域的混合因果关系提取方法和系统,实现了对金融语段中显式及隐式因果关系的提取。
背景技术
在经济全球化的时代背景下,研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。例如,在上市公司财报中蕴藏着大量的人工总结,其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉,获取事件的演化关系,有助于预测和决策。同时随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。本项目拟基于BERT的预训练语言模型,以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。
金融领域因果关系的提取存在以下几个问题:
(1)金融行业迅速发展,交易活动活跃,事件信息含量巨大,且发布的信息文本往往具有篇幅长、句法结构复杂等特点,因此在本文的处理上存在着较大的难点,难度较大。
(2)因果关系确认存在乱点。对于句法结构复杂的金融文本,往往会存在一个句子具有多个因果关系,一组因果中的原因和结果可能是一个或是多个,需抽取该中心词对应的全部原因和结果。
(3)中心词的提取存在难点。中心词是句子因果关系中链接因主体与果主体的构成部分,是能清晰表达事物发生的词语。若在文本中不能正确的找到中心词,则对于后续因果对的抽取,将存在不同程度上的偏差或是直接错误。
因果关系抽取(Causality Extraction)是一种自然语言处理中的关系抽取任务,用于挖掘文本中具有因果关系的事件对。近年来,神经网络与机器学习相结合的方法避免了传统的事件因果关系抽取方法中的高代价特征工程,可以捕获文本中的隐含的和模糊的因果关系。在金融领域,随着经济生活的不断发展,金融事件不断发生,产生大量事件信息。相对于其他领域而言,金融领域发生的事件常具有复杂性、关联性与专业性,若是直接对信息关系进行判断处理,将存在很大的难度且准确性、可信度都会有一定的影响。如何从这些海量的金融事件数据中找到蕴含的潜在规律,并对金融事件因果关系信息进行科学分析也成为一个亟待解决的问题。因此,金融事件因果关系的提取便赋予了重要性与必要性。从金融领域中的研报、公告中,将金融逻辑抽取出来,构建成事理图谱,对指导事件溯因、问答、把握行业动态等方面有着至关重要的作用。同时,随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。因此,本项目拟架构一个基于BERT预训练语言模型的金融因果关系识别模型,实现隐式和显式,一因一果、多因多果、一因多果、一因多果的因果关系抽取,为金融决策及其他实际应用需求提供领域的未来动态信息,从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。
发明内容
本发明要克服现有技术的上述缺点,,提出一种面向金融领域的因果关系提取方法和系统。
本发明拟架构一个基于BERT预训练语言模型的金融因果关系识别模型,实现隐式和显式,一因一果、多因多果、一因多果、一因多果的因果关系抽取,为金融决策及其他实际应用需求提供领域的未来动态信息,从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。
本发明的面向金融领域的因果关系提取方法,包含以下步骤:
步骤1:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在。模型架构见图2。
步骤2:提取句子中的中心词,并扩充中心词表,标注其常见位置和常用方式。
步骤3:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式。若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分。
步骤4:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子。
步骤5:对可能存在错误的中心词位置进行矫正。
步骤6:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表。
步骤7:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
优选地,步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种。
步骤5所述的矫正中心词位置具体包括:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。
步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理,具体包括:
a)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;
b)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表;
c)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表。
步骤7所述的数据集针对性扩容具体包括:在模型训练好后,随机拿若干条数据进行检测,然后对每个结果进行分析评价,如果错误的类型很普遍,针对这个类型找若干条数据对训练集集进行补充;将以“称”、“报道”、“据发现”为前缀的句子标记为无因果后加入到训练集中;如果错误的是个例,则将其改正后加入训练集;如此往复循环三次;
步骤7所述的超参数调优具体包括:根据BERT的相关论文,推荐的超参数调优为,learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4;根据推荐的超参数,得到多个模型,通过比较其在测试集上的precision,recall和f1值,选择最好的模型提升判别效果。
本发明还包括面向金融领域的混合因果关系提取系统,包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块。
本发明的优点在于实现了金融领域中对复杂语句的因果关系提取,且包含隐式因果关系和显式因果关系,同时,能对一因一果、多因多果、一因多果、一因多果四种因果关系类型做提取,为金融决策及其他实际应用需求提供领域的未来动态信息,为解决企业风险预测分析成本高、效率低、门槛高以及时效性低等问题提供了新方法。
附图说明
图1是本发明方法的总流程图。
图2是本发明调用的BERT模型的结构图。
图3是因果关系抽取的具体流程示例图。
具体实施方式
下面结合附图,进一步说明本发明的技术方案。
本发明的面向金融领域的因果关系提取方法,包含以下步骤:
步骤1:将含有因果关系的句子标记为1,不含有因果关系的句子标记为0,得到大致等量的正负例句作为训练集用来训练BERT模型,得到训练好的BERT因果判断模型,可以对输入的句子进行因果关系存在与否的辨认。
步骤2:从现有的因果语句中提取“导致”、“由于”、“因为”等中心词,建立中心词表。再进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中,扩充中心词库。然后对所有的中心词的常见位置(在中间、在前面、在后面三种)和常用方式(表征前因后果和表征前果后因两种)进行人工判别并标注。
步骤3:获得输入的语句,根据中心词表查找句子中是否含有中心词,若有,则在中心词表中查询该中心词,获得它的常见位置,以及其常用方式(后面跟的一般是原因还是结果)。比如“导致”,它的位置在中间,“导致”后面跟的一般是结果,在“导致”前面的一般是原因。若没有查到词表中含有的中心词,而根据分词识别出句子中有中心词,则默认该中心词的位置在原因和结果的中间。若输入的语句中本身不含有中心词,则则将模型变成三分类(无因果,前因后果和后因前果),然后可以按照排列组合的方式做到部分句子的划分。
步骤4:句子以中心词为界划为左右两边,并且依据标点符号进行分句。然后进行句子预处理,由于形如“举个例子”、“同时”等太短的句子一般无法表征原因或者结果,所以去除长度小于4的句子;另外,如“投资建议:减记型合格二级资本工具率先推出,提升了资本充足率,使得银行由于无减记或转股条款次级债被列为不合格的资本工具而被逐步扣除所带来的资本补充压力得到有效缓解,银行获得应对新业务发展导致的风险加权资产扩张所需的资本。”这一例句中,“投资建议”明显不能作为一个原因或者结果,即全部为名词的短句也无法表征原因或结果,也应当去除。
步骤5:中心词位置矫正:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面。反之设为后面。
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面。
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。
步骤6:对以下三种中心词所处位置不同的情况进行分开处理:
a)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中。左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去。最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表。
b)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表。
c)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表。
步骤7:对模型的因果判别结果通过下述两种方式进行调优:
a)数据集针对性扩容。在模型训练好后,随机拿30条数据进行检测,然后对每个结果进行分析评价,如果错误的类型很普遍,针对这个类型找50条数据对训练集集进行补充。实验发现,以“称”、“报道”、“据发现”等为前缀的句子容易被误认为是有因果关系的,比如,例句“记者观察发现,前三季度多家险企的净利润增加受益于权益市场的收益增加。”中,第一次结果模型的识别结果显示,原因所在句子为“权益市场的收益增加”,结果所在句子为“前三季度多家险企的净利润增加”和“记者观察发现”,会将“记者观察发现”误识别为有因果关系。因此,找了“称”,“报道”等为前缀的句子,标记为无因果后加入到训练集中。如果错误的是个例,则将其改正后加入训练集。如此往复循环三次。
b)超参数调优。根据BERT的相关论文,推荐的超参数调优为,learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4。根据推荐的超参数,得到多个模型,通过比较其在测试集上的precision,recall和f1值,选择最好的模型提升判别效果。
本发明还包括面向金融领域的混合因果关系提取系统,包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块,其中,
训练语句扩充和模型训练模块包括:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;
中心词提取模块包括:找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;
查中心词表模块包括:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分
句子划分模块包括:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;
中心词位置矫正模块包括:对可能存在错误的中心词位置进行矫正;
因果识别模块包括:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;
模型调优模块包括:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
因果提取结果示例:
例1:
输入语句:记者观察发现,前三季度多家险企的净利润增加受益于权益市场的收益增加。
得到的原因句:{“权益市场的收益增加”}
得到的结果句:{“前三季度多家险企的净利润增加”}
本发明针对金融领域文本处理难度较大、因果关系确认存在乱点以及中心词的提取存在难点等问题,基于BERT的预训练语言模型,以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。
本发明已经通过上述实例进行了说明,但应当注意的是实例只是解释说明的目的,而非将本发明局限于该实例范围内。尽管参照前述实例本发明进行了详尽的说明,本领域研究人员应当能够理解:其依然可以随前述各实例所记载的技术方案进行修改,或者对其部分技术特征进行同等替换;二、这些修改或替换,并不使相应的技术方案脱离本发明的保护范围。本发明的保护范围由附属的权利要求书机器等效范围所界定。

Claims (3)

1.面向金融领域的混合因果关系提取方法,包括以下步骤:
步骤1:扩充训练语句、训练模型;从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;
步骤2:提取中心词;找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;
步骤3:查中心词表;获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类:无因果,前因后果和后因前果,然后按照排列组合的方式做到部分句子的划分;
步骤4:以中心词为界划分句子为两边;句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;
步骤5:矫正中心词位置;对可能存在错误的中心词位置进行矫正;
步骤6:分类型进行因果识别;对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;
步骤7:模型调优;对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果;
步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种;
步骤5所述的矫正中心词位置具体包括:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面;
步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理,具体包括:
c)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;
d)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表;
e)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表。
2.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤7所述的数据集针对性扩容具体包括:在模型训练好后,随机拿若干条数据进行检测,然后对每个结果进行分析评价,如果错误的类型很普遍,针对这个类型找若干条数据对训练集集进行补充;将以“称”、“报道”、“据发现”为前缀的句子标记为无因果后加入到训练集中;如果错误的是个例,则将其改正后加入训练集;如此往复循环三次;
所述的超参数调优具体包括:根据BERT的相关论文,推荐的超参数调优为,learn-rate:Adam:5e-5,3e-5,2e-5Number of epochs:2,3,4;根据推荐的超参数,得到多个模型,通过比较其在测试集上的precision,recall和f1值,选择最好的模型提升判别效果。
3.实施权利要求1所述的面向金融领域的混合因果关系提取方法的系统,其特征在于:包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块,其中,
训练语句扩充和模型训练模块包括:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;
中心词提取模块包括:找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种;
查中心词表模块包括:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类:无因果,前因后果和后因前果,然后按照排列组合的方式做到部分句子的划分句子划分模块包括:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;
中心词位置矫正模块包括:对可能存在错误的中心词位置进行矫正;具体包括:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面;
因果识别模块包括:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;具体包括:
c)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;
d)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表;
e)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表;
模型调优模块包括:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
CN202110719188.5A 2021-06-28 2021-06-28 面向金融领域的因果关系提取方法和系统 Active CN113642321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110719188.5A CN113642321B (zh) 2021-06-28 2021-06-28 面向金融领域的因果关系提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110719188.5A CN113642321B (zh) 2021-06-28 2021-06-28 面向金融领域的因果关系提取方法和系统

Publications (2)

Publication Number Publication Date
CN113642321A CN113642321A (zh) 2021-11-12
CN113642321B true CN113642321B (zh) 2024-03-29

Family

ID=78416355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110719188.5A Active CN113642321B (zh) 2021-06-28 2021-06-28 面向金融领域的因果关系提取方法和系统

Country Status (1)

Country Link
CN (1) CN113642321B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308323A (zh) * 2018-12-07 2019-02-05 中国科学院长春光学精密机械与物理研究所 一种因果关系知识库的构建方法、装置及设备
CN109726293A (zh) * 2018-11-14 2019-05-07 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN111026852A (zh) * 2019-11-28 2020-04-17 广东工业大学 一种面向金融事件的混合型因果关系发现方法
CN111709244A (zh) * 2019-11-20 2020-09-25 中共南通市委政法委员会 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN112836502A (zh) * 2021-03-01 2021-05-25 中央财经大学 一种金融领域事件隐式因果关系抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726293A (zh) * 2018-11-14 2019-05-07 数据地平线(广州)科技有限公司 一种因果事件图谱构建方法、系统、装置及存储介质
CN109308323A (zh) * 2018-12-07 2019-02-05 中国科学院长春光学精密机械与物理研究所 一种因果关系知识库的构建方法、装置及设备
CN109871955A (zh) * 2019-01-22 2019-06-11 中国民航大学 一种航空安全事故因果关系抽取方法
CN111709244A (zh) * 2019-11-20 2020-09-25 中共南通市委政法委员会 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111026852A (zh) * 2019-11-28 2020-04-17 广东工业大学 一种面向金融事件的混合型因果关系发现方法
CN112836502A (zh) * 2021-03-01 2021-05-25 中央财经大学 一种金融领域事件隐式因果关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Knowledge-oriented Convolutional Neural Network for Causal Relation Extraction from Natural Language Texts;Pengfei Li等;Expert Systems With Applications;全文 *
中国计算机学会.CCF 2019-2020中国计算机科学技术发展报告.北京:机械工业出版社,2020,(第ISBN号 :978-7-111-66738-4版),137-138. *
因果关系及其在社会媒体上的应用研究综述;赵森栋等;软件学报;第25卷(第12期);全文 *

Also Published As

Publication number Publication date
CN113642321A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN111597356B (zh) 智能化教育知识图谱构建系统与方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN113626573A (zh) 一种销售会话异议及应对提取方法及系统
CN110968661A (zh) 事件抽取方法及系统、计算机可读存储介质及电子设备
CN109446522B (zh) 一种试题自动分类系统及方法
Müller et al. Comparison of preprocessing approaches for text data in digital shop floor management systems
CN113159969A (zh) 一种金融长文本复核系统
CN113642321B (zh) 面向金融领域的因果关系提取方法和系统
Nguyen et al. How to Detect AI-Generated Texts?
CN115983285A (zh) 问卷稽核方法、装置、电子设备和存储介质
Grijzenhout et al. Opinion mining in dutch hansards
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
CN111209375B (zh) 一种通用的条款与文档匹配方法
Grijzenhout et al. Sentiment analysis in parliamentary proceedings
CN115114417A (zh) 中文填空题自动评分方法及装置
Pant et al. Automatic Software Engineering Position Resume Screening using Natural Language Processing, Word Matching, Character Positioning, and Regex
CN114328903A (zh) 基于文本聚类的客服日志回流方法及装置
CN113722421A (zh) 一种合同审计方法和系统,及计算机可读存储介质
CN111341404A (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
Wafa'Q et al. Sarcasm detection in Arabic short text using deep learning
CN111883179B (zh) 一种基于大数据机器学习的情感语音识别方法
CN117291192B (zh) 一种政务文本语义理解分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant