CN113642321A - 面向金融领域的因果关系提取方法和系统 - Google Patents
面向金融领域的因果关系提取方法和系统 Download PDFInfo
- Publication number
- CN113642321A CN113642321A CN202110719188.5A CN202110719188A CN113642321A CN 113642321 A CN113642321 A CN 113642321A CN 202110719188 A CN202110719188 A CN 202110719188A CN 113642321 A CN113642321 A CN 113642321A
- Authority
- CN
- China
- Prior art keywords
- list
- cause
- sentences
- central word
- central
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 70
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 230000000694 effects Effects 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000011160 research Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 239000013589 supplement Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000001367 artery Anatomy 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Educational Administration (AREA)
- Machine Translation (AREA)
Abstract
面向金融领域的混合因果关系提取方法,包括:步骤1:扩充训练语句、训练模型;步骤2:提取中心词;步骤3:查中心词表;步骤4:以中心词为界划分句子为两边,再进行相应的句子预处理,删去多余的句子;步骤5:矫正中心词位置;步骤6:分类型进行因果识别;步骤7:模型调优。本发明还包括面向金融领域的混合因果关系提取系统。本发明以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。
Description
技术领域
本发明涉及一种关系抽取以及因果判别方法和系统,特别是面向金融领域的混合因果关系提取方法和系统,实现了对金融语段中显式及隐式因果关系的提取。
背景技术
在经济全球化的时代背景下,研究金融事件因果关系对于制定国家的宏观调控政策具有重要的参考意义。例如,在上市公司财报中蕴藏着大量的人工总结,其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉,获取事件的演化关系,有助于预测和决策。同时随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。本项目拟基于BERT的预训练语言模型,以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导事件溯因、问答、把握行业动态等方面提供一定支持。
金融领域因果关系的提取存在以下几个问题:
(1)金融行业迅速发展,交易活动活跃,事件信息含量巨大,且发布的信息文本往往具有篇幅长、句法结构复杂等特点,因此在本文的处理上存在着较大的难点,难度较大。
(2)因果关系确认存在乱点。对于句法结构复杂的金融文本,往往会存在一个句子具有多个因果关系,一组因果中的原因和结果可能是一个或是多个,需抽取该中心词对应的全部原因和结果。
(3)中心词的提取存在难点。中心词是句子因果关系中链接因主体与果主体的构成部分,是能清晰表达事物发生的词语。若在文本中不能正确的找到中心词,则对于后续因果对的抽取,将存在不同程度上的偏差或是直接错误。
因果关系抽取(Causality Extraction)是一种自然语言处理中的关系抽取任务,用于挖掘文本中具有因果关系的事件对。近年来,神经网络与机器学习相结合的方法避免了传统的事件因果关系抽取方法中的高代价特征工程,可以捕获文本中的隐含的和模糊的因果关系。在金融领域,随着经济生活的不断发展,金融事件不断发生,产生大量事件信息。相对于其他领域而言,金融领域发生的事件常具有复杂性、关联性与专业性,若是直接对信息关系进行判断处理,将存在很大的难度且准确性、可信度都会有一定的影响。如何从这些海量的金融事件数据中找到蕴含的潜在规律,并对金融事件因果关系信息进行科学分析也成为一个亟待解决的问题。因此,金融事件因果关系的提取便赋予了重要性与必要性。从金融领域中的研报、公告中,将金融逻辑抽取出来,构建成事理图谱,对指导事件溯因、问答、把握行业动态等方面有着至关重要的作用。同时,随着自然语言处理技术的快速发展,文本事件抽取和事件因果关系的抽取领域已经存在大量的研究基础,而现有研究中仍缺乏针对金融事件中因果关系的快速甄别和发现方法。因此,本项目拟架构一个基于BERT预训练语言模型的金融因果关系识别模型,实现隐式和显式,一因一果、多因多果、一因多果、一因多果的因果关系抽取,为金融决策及其他实际应用需求提供领域的未来动态信息,从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。
发明内容
本发明要克服现有技术的上述缺点,,提出一种面向金融领域的因果关系提取方法和系统。
本发明拟架构一个基于BERT预训练语言模型的金融因果关系识别模型,实现隐式和显式,一因一果、多因多果、一因多果、一因多果的因果关系抽取,为金融决策及其他实际应用需求提供领域的未来动态信息,从而解决企业风险预测分析成本高、效率低、门槛高以及时效性低的问题。
本发明的面向金融领域的因果关系提取方法,包含以下步骤:
步骤1:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在。模型架构见图2。
步骤2:提取句子中的中心词,并扩充中心词表,标注其常见位置和常用方式。
步骤3:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式。若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分。
步骤4:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子。
步骤5:对可能存在错误的中心词位置进行矫正。
步骤6:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表。
步骤7:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
优选地,步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种。
步骤5所述的矫正中心词位置具体包括:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。
步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理,具体包括:
a)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;
b)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表;
c)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表。
步骤7所述的数据集针对性扩容具体包括:在模型训练好后,随机拿若干条数据进行检测,然后对每个结果进行分析评价,如果错误的类型很普遍,针对这个类型找若干条数据对训练集集进行补充;将以“称”、“报道”、“据发现”为前缀的句子标记为无因果后加入到训练集中;如果错误的是个例,则将其改正后加入训练集;如此往复循环三次;
步骤7所述的超参数调优具体包括:根据BERT的相关论文,推荐的超参数调优为,learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4;根据推荐的超参数,得到多个模型,通过比较其在测试集上的precision,recall和f1值,选择最好的模型提升判别效果。
本发明还包括面向金融领域的混合因果关系提取系统,包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块。
本发明的优点在于实现了金融领域中对复杂语句的因果关系提取,且包含隐式因果关系和显式因果关系,同时,能对一因一果、多因多果、一因多果、一因多果四种因果关系类型做提取,为金融决策及其他实际应用需求提供领域的未来动态信息,为解决企业风险预测分析成本高、效率低、门槛高以及时效性低等问题提供了新方法。
附图说明
图1是本发明方法的总流程图。
图2是本发明调用的BERT模型的结构图。
图3是因果关系抽取的具体流程示例图。
具体实施方式
下面结合附图,进一步说明本发明的技术方案。
本发明的面向金融领域的因果关系提取方法,包含以下步骤:
步骤1:将含有因果关系的句子标记为1,不含有因果关系的句子标记为0,得到大致等量的正负例句作为训练集用来训练BERT模型,得到训练好的BERT因果判断模型,可以对输入的句子进行因果关系存在与否的辨认。
步骤2:从现有的因果语句中提取“导致”、“由于”、“因为”等中心词,建立中心词表。再进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中,扩充中心词库。然后对所有的中心词的常见位置(在中间、在前面、在后面三种)和常用方式(表征前因后果和表征前果后因两种)进行人工判别并标注。
步骤3:获得输入的语句,根据中心词表查找句子中是否含有中心词,若有,则在中心词表中查询该中心词,获得它的常见位置,以及其常用方式(后面跟的一般是原因还是结果)。比如“导致”,它的位置在中间,“导致”后面跟的一般是结果,在“导致”前面的一般是原因。若没有查到词表中含有的中心词,而根据分词识别出句子中有中心词,则默认该中心词的位置在原因和结果的中间。若输入的语句中本身不含有中心词,则则将模型变成三分类(无因果,前因后果和后因前果),然后可以按照排列组合的方式做到部分句子的划分。
步骤4:句子以中心词为界划为左右两边,并且依据标点符号进行分句。然后进行句子预处理,由于形如“举个例子”、“同时”等太短的句子一般无法表征原因或者结果,所以去除长度小于4的句子;另外,如“投资建议:减记型合格二级资本工具率先推出,提升了资本充足率,使得银行由于无减记或转股条款次级债被列为不合格的资本工具而被逐步扣除所带来的资本补充压力得到有效缓解,银行获得应对新业务发展导致的风险加权资产扩张所需的资本。”这一例句中,“投资建议”明显不能作为一个原因或者结果,即全部为名词的短句也无法表征原因或结果,也应当去除。
步骤5:中心词位置矫正:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面。反之设为后面。
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面。
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。
步骤6:对以下三种中心词所处位置不同的情况进行分开处理:
a)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中。左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去。最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表。
b)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表。
c)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表。
步骤7:对模型的因果判别结果通过下述两种方式进行调优:
a)数据集针对性扩容。在模型训练好后,随机拿30条数据进行检测,然后对每个结果进行分析评价,如果错误的类型很普遍,针对这个类型找50条数据对训练集集进行补充。实验发现,以“称”、“报道”、“据发现”等为前缀的句子容易被误认为是有因果关系的,比如,例句“记者观察发现,前三季度多家险企的净利润增加受益于权益市场的收益增加。”中,第一次结果模型的识别结果显示,原因所在句子为“权益市场的收益增加”,结果所在句子为“前三季度多家险企的净利润增加”和“记者观察发现”,会将“记者观察发现”误识别为有因果关系。因此,找了“称”,“报道”等为前缀的句子,标记为无因果后加入到训练集中。如果错误的是个例,则将其改正后加入训练集。如此往复循环三次。
b)超参数调优。根据BERT的相关论文,推荐的超参数调优为,learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4。根据推荐的超参数,得到多个模型,通过比较其在测试集上的precision,recall和f1值,选择最好的模型提升判别效果。
本发明还包括面向金融领域的混合因果关系提取系统,包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块,其中,
训练语句扩充和模型训练模块包括:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;
中心词提取模块包括:找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;
查中心词表模块包括:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分
句子划分模块包括:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;
中心词位置矫正模块包括:对可能存在错误的中心词位置进行矫正;
因果识别模块包括:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;
模型调优模块包括:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
因果提取结果示例:
例1:
输入语句:记者观察发现,前三季度多家险企的净利润增加受益于权益市场的收益 增加。
得到的原因句:{“权益市场的收益增加”}
得到的结果句:{“前三季度多家险企的净利润增加”}
本发明针对金融领域文本处理难度较大、因果关系确认存在乱点以及中心词的提取 存在难点等问题,基于BERT的预训练语言模型,以金融领域的因果语料作为训练集训练模型,同时建立中心词库,实现面向金融领域的文本的混合因果关系的提取,对指导 事件溯因、问答、把握行业动态等方面提供一定支持。
本发明已经通过上述实例进行了说明,但应当注意的是实例只是解释说明的目的, 而非将本发明局限于该实例范围内。尽管参照前述实例本发明进行了详尽的说明,本领 域研究人员应当能够理解:其依然可以随前述各实例所记载的技术方案进行修改,或者对其部分技术特征进行同等替换;二、这些修改或替换,并不使相应的技术方案脱离本 发明的保护范围。本发明的保护范围由附属的权利要求书机器等效范围所界定。
Claims (6)
1.面向金融领域的混合因果关系提取方法,包括以下步骤:
步骤1:扩充训练语句、训练模型;从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;
步骤2:提取中心词;找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;
步骤3:查中心词表;获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分;
步骤4:以中心词为界划分句子为两边;句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;
步骤5:矫正中心词位置;对可能存在错误的中心词位置进行矫正;
步骤6:分类型进行因果识别;对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;
步骤7:模型调优;对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
2.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤2所述的找出句子中的中心词包括“导致”、“由于”、“因为”;所述的并扩充中心词表是进行同义词搜索可以找到其他能指示因果关系的词语加入到中心词表中;所述的常见位置是在中间、在前面、在后面三种,所述的常用方式是表征前因后果和表征前果后因两种。
3.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤5所述的矫正中心词位置具体包括:
a)中心词应该在中间,但是左边没有存在名词的句子,会把它的位置重新设为前面;反之设为后面;
b)中心词在前面,右边没有两个存在名词的句子时进行矫正,右边只有一个存在实体的句子,设为中间,右边没有存在实体的句子,设为后面;
c)中心词在后面,左边没有两个存在名词的句子时进行矫正,左边有一个存在实体的句子,设为中间,左边没有存在实体的句子,设为前面。
4.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤6所述的对以下三种中心词所处位置不同的情况进行分开处理,具体包括:
c)中心词在中间:找左右两边最近的实体,记为left和right,分别放到左列表和右列表中;左边其余句子与right依次组合并且放到训练好的BERT模型中进行因果关系的判断,如果存在因果关系则加到左列表中去,同理,右边其余句子与left依次组合并且放到模型进行因果关系的判断,如果存在因果关系则加到右列表中去;最后根据中心词的常用方式判断哪一个是原因列表,哪一个是结果列表;
d)中心词在前面:中心词后面最近的一个实体记为head,加到头列表中,剩余句子依次与head组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入尾列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟尾列表半数的句子构成因果关系就放入头列表中,最后判断头列表和尾列表哪一个是原因列表,哪一个是结果列表;
e)中心词在后面:中心词前面最近的一个实体记为tail,加到尾列表中,剩余句子依次与tail组合放入训练好的BERT模型进行因果关系的判断,如果存在因果关系就放入头列表,反之放入临时列表,临时列表用于暂时储存可能是原因/结果所在句的句子,临时列表中能跟头列表半数的句子构成因果关系就放入尾列表中,最后判断哪一个是原因列表,哪一个是结果列表。
5.如权利要求1所述的面向金融领域的混合因果关系提取方法,其特征在于:步骤7所述的数据集针对性扩容具体包括:在模型训练好后,随机拿若干条数据进行检测,然后对每个结果进行分析评价,如果错误的类型很普遍,针对这个类型找若干条数据对训练集集进行补充;将以“称”、“报道”、“据发现”为前缀的句子标记为无因果后加入到训练集中;如果错误的是个例,则将其改正后加入训练集;如此往复循环三次;
所述的超参数调优具体包括:根据BERT的相关论文,推荐的超参数调优为,learn-rate:(Adam):5e-5,3e-5,2e-5Number of epochs:2,3,4;根据推荐的超参数,得到多个模型,通过比较其在测试集上的precision,recall和f1值,选择最好的模型提升判别效果。
6.实施权利要求1所述的面向金融领域的混合因果关系提取方法的系统,其特征在于:包括依次连接的训练语句扩充和模型训练模块、中心词提取模块、查中心词表模块、句子划分模块、中心词位置矫正模块、因果识别模块、模型调优模块,其中,
训练语句扩充和模型训练模块包括:从金融领域的研报、文章中获取相关的语句扩充语料,并分别标注有因果关系的句子和没有因果关系的句子,将其作为训练集训练BERT模型以判断因果关系的存在;
中心词提取模块包括:找出句子中的中心词,并扩充中心词表,标注其常见位置和常用方式;
查中心词表模块包括:获得输入的语句,对有中心词的句子,查找中心词表,获得该中心词的常见位置以及其常用方式;若没有中心词,则将模型变成三分类(无因果,前因后果和后因前果),然后按照排列组合的方式做到部分句子的划分句子划分模块包括:句子以中心词为界划为左右两边,并且依据标点符号进行分句,再进行相应的句子预处理,删去多余的句子;
中心词位置矫正模块包括:对可能存在错误的中心词位置进行矫正;
因果识别模块包括:对中心词在中间、中心词在前面和中心词在后面的三种中心词所处位置的不同情况进行分开处理,通过找实体、判断俩俩因果关系的存在与否得到两个列表,实现一因多果、多因一果、一因一果和多因多果的识别,最后判断得到其中一个为原因列表,一个为结果列表;
模型调优模块包括:对得到的初步模型结果进行人为判别及参数调优,通过数据集针对性扩容和超参数调优,提升模型的因果判断效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110719188.5A CN113642321B (zh) | 2021-06-28 | 2021-06-28 | 面向金融领域的因果关系提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110719188.5A CN113642321B (zh) | 2021-06-28 | 2021-06-28 | 面向金融领域的因果关系提取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642321A true CN113642321A (zh) | 2021-11-12 |
CN113642321B CN113642321B (zh) | 2024-03-29 |
Family
ID=78416355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110719188.5A Active CN113642321B (zh) | 2021-06-28 | 2021-06-28 | 面向金融领域的因果关系提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642321B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308323A (zh) * | 2018-12-07 | 2019-02-05 | 中国科学院长春光学精密机械与物理研究所 | 一种因果关系知识库的构建方法、装置及设备 |
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN109871955A (zh) * | 2019-01-22 | 2019-06-11 | 中国民航大学 | 一种航空安全事故因果关系抽取方法 |
CN111026852A (zh) * | 2019-11-28 | 2020-04-17 | 广东工业大学 | 一种面向金融事件的混合型因果关系发现方法 |
CN111709244A (zh) * | 2019-11-20 | 2020-09-25 | 中共南通市委政法委员会 | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
-
2021
- 2021-06-28 CN CN202110719188.5A patent/CN113642321B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726293A (zh) * | 2018-11-14 | 2019-05-07 | 数据地平线(广州)科技有限公司 | 一种因果事件图谱构建方法、系统、装置及存储介质 |
CN109308323A (zh) * | 2018-12-07 | 2019-02-05 | 中国科学院长春光学精密机械与物理研究所 | 一种因果关系知识库的构建方法、装置及设备 |
CN109871955A (zh) * | 2019-01-22 | 2019-06-11 | 中国民航大学 | 一种航空安全事故因果关系抽取方法 |
CN111709244A (zh) * | 2019-11-20 | 2020-09-25 | 中共南通市委政法委员会 | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 |
CN111026852A (zh) * | 2019-11-28 | 2020-04-17 | 广东工业大学 | 一种面向金融事件的混合型因果关系发现方法 |
CN112836502A (zh) * | 2021-03-01 | 2021-05-25 | 中央财经大学 | 一种金融领域事件隐式因果关系抽取方法 |
Non-Patent Citations (2)
Title |
---|
PENGFEI LI等: "Knowledge-oriented Convolutional Neural Network for Causal Relation Extraction from Natural Language Texts", EXPERT SYSTEMS WITH APPLICATIONS, vol. 978, pages 137 - 138 * |
赵森栋等: "因果关系及其在社会媒体上的应用研究综述", 软件学报, vol. 25, no. 12 * |
Also Published As
Publication number | Publication date |
---|---|
CN113642321B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
US20220147814A1 (en) | Task specific processing of regulatory content | |
CN110555206A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
Katsis et al. | AIT-QA: Question answering dataset over complex tables in the airline industry | |
CN112000802A (zh) | 基于相似度集成的软件缺陷定位方法 | |
CN111737477A (zh) | 一种基于知识产权大数据的情报调查方法、系统和存储介质 | |
CN112966708A (zh) | 一种基于语义相似度的中文众包测试报告聚类方法 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
Nicholson et al. | Issue link label recovery and prediction for open source software | |
Radygin et al. | Application of text mining technologies in Russian language for solving the problems of primary financial monitoring | |
CN114757178A (zh) | 核心产品词提取方法、装置、设备及介质 | |
Azad et al. | Picking pearl from seabed: Extracting artefacts from noisy issue triaging collaborative conversations for hybrid cloud services | |
CN110610007A (zh) | 基于nlp的维保车况智能识别方法及装置 | |
CN112380346B (zh) | 金融新闻情感分析方法、装置、计算机设备及存储介质 | |
Berkin et al. | Feasibility analysis of machine learning for performance-related attributional statements | |
Chen et al. | An effective crowdsourced test report clustering model based on sentence embedding | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
CN113642321A (zh) | 面向金融领域的因果关系提取方法和系统 | |
Gani et al. | Ustw vs. stw: A comparative analysis for exam question classification based on bloom’s taxonomy | |
US20210073247A1 (en) | System and method for machine learning architecture for interdependence detection | |
CN114328903A (zh) | 基于文本聚类的客服日志回流方法及装置 | |
CN112488593A (zh) | 一种用于招标的辅助评标系统及方法 | |
Kumar et al. | Extraction of causality and related events using text analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |