CN112967144A

CN112967144A - 一种金融信用风险事件抽取方法、可读存储介质及设备

Info

Publication number: CN112967144A
Application number: CN202110255619.7A
Authority: CN
Inventors: 陈志宝; 王玲; 孔亚洲; 朱德伟; 邱震宇; 戴中豪
Original assignee: Huatai Securities Co ltd
Current assignee: Huatai Securities Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-15
Anticipated expiration: 2041-03-09
Also published as: CN112967144B

Abstract

本发明公开了一种金融信用风险事件抽取方法、可读存储介质及设备，包括：获取新闻标题，对新闻标题进行正则表达式匹配，得到正文；对新闻标题和正文进行二次校验，确定事件类别以及新闻文本；将事件类别和新闻文本输入到抽取模型，得到相应事件类别的失信主体；抽取模型利用损失函数loss_1预测事件要素文本的上下文位置，利用损失函数loss_2预测事件要素文本结构信息，事件要素文本为根据事件类别在新闻文本中抽取的信息。优点：构造两种不同类型任务的损失函数，loss_1代表预测事件要素文本的起始位置，loss_2代表预测事件要素文本结构信息，两者结合，根本上提升模型整体准确率。

Description

一种金融信用风险事件抽取方法、可读存储介质及设备

技术领域

本发明涉及一种金融信用风险事件抽取方法、可读存储介质及设备，属于金融风险管理舆情分析技术领域。

背景技术

现在主流的事件抽取方法主要有基于规则模板的方法和基于机器学习的方法：

(1)基于规则模板的方法：

首先定义事件并生成事件抽取模板，首先定义好事件的模板或者关键词，然后对原始新闻舆情进行句法，词法分析，并与模板和事件关键词进行相似度计算和匹配，进行事件抽取。

(2)基于机器学习的方法：

作为一种有监督多元分类任务，事件抽取方法包括2个步骤:特征选择和分类模型。然后又分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说，句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下，句子级特征是所有事件抽取方法通用的特征，而篇章级特征则属于面向实际任务挖掘的特效特征。

现有技术存在的问题：

(1)通过人工编辑或者学习得到的模板对文本中的实体关系进行抽取和判别，受限于模板的质量和覆盖度，可扩展性不强。

(2)机器机器学习的事件抽取方法虽然比模板抽取更加精细，但是存在不具有通用性的缺点，而且检测识别模型的框架单一，不能满足一些个性化场景。

(3)对不良信用事件的识别和主体抽取，不同于其他舆情分析和结构化抽取任务，具有高度的定制化和个性化，现有抽取算法技术不能满足信息的定点捕获。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种金融信用风险事件抽取方法、可读存储介质及设备。

为解决上述技术问题，本发明提供一种金融信用风险事件抽取方法，包括：

获取新闻标题，对新闻标题进行正则表达式匹配，得到正文；

对新闻标题和正文进行二次校验，确定事件类别以及新闻文本；

将事件类别和新闻文本输入到抽取模型，得到相应事件类别的失信主体；所述抽取模型利用两种不同类型任务的损失函数loss_1和损失函数loss_2对事件类别、新闻标题和正文进行处理，其中，损失函数loss_1用于预测事件要素文本的上下文位置，损失函数loss_2用于预测事件要素文本结构信息，所述事件要素文本为根据事件类别在新闻文本中抽取的信息。

进一步的，所述将事件类别、新闻标题和正文输入到抽取模型，得到相应事件类别的失信主体的处理过程包括：

通过事件类别确定事件类别的token语句和context语句，经过bert或albert模型对金融事件进行标签，得到金融事件标签event_label和利用bert或albert模型中的注意力机制对context语句进行处理得到语句信息表征，根据语句信息表征分别提取事件类别的语义表征E＝[E₁,E₂,...E_n]和整个语句的语义表征C＝[T₁,T₂,...T_m]；

将事件类别的语义表征E和整个语句的语义表征C输入到抽取模型，通过抽取模型得到相应事件类别的失信主体，所述抽取模型包括全连接层和BiLSTM/CRF层。

进一步的，所述通过全连接层模型得到相应事件类别的失信主体的过程包括：

根据事件类别的语义表征E和整个语句的语义表征C利用全连接层计算事件主体的开始和结束位置，输出开始位置start_token和结束位置end_token；

根据事件类别的语义表征E和整个语句的语义表征C利用BiLSTM/CRF层计算实体识别的结果entity_token；

根据start_token和end_token利用损失函数loss_1计算loss_1结果；

根据entity_token用损失函数loss_2计算loss_2结果；

计算loss_1结果和loss_2结果之和，得到loss之和；

根据loss之和确定输出主体的概率；

根据预先确定的概率阈值p_threshold和参数predict_top_k，选择概率满足大于p_threshold且根据概率的值从高到底进行排列的predict_top_k个主体，作为最后输出的主体。

进一步的，将事件类别和新闻文本输入到抽取模型的过程包括：

根据预先设定的文本长度阈值判断新闻文本是否过长，若超过预先设定的文本长度阈值，则对新闻文本进行步长分割，分割为小于等于文本长度阈值的部分，分别输入到抽取模型中。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述方法。

一种计算设备，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的指令。

本发明所达到的有益效果：

(1)业务价值：该技术主要应用于融资融券、固收以及衍生品交易等业务中，为防范操作风险，必须不断扩充信用违约等事件主体，健全信用风险黑白名单库。从传统的新闻推送扩展到事件抽取：以往基于舆情的风控应用，面对大量公告和互联网资讯新闻，人工查阅和搜索的工作繁重，直接的新闻推送也不能完全减负，本发明攻关风险管理业务的定向事件标签抽取和公司、数据、时间、规模等具体信息抽取，提升风控舆情的自动化和精细化程度。该技术的应用可以解放大量基础的风险管理舆情信息收集工作，解决风控舆情搜集的耗时和不全面的问题，本技术应用已接入不良信用管理系统和ERMP风控系统，目前实现26类信用事件以及配对事件的预警，平均准确率大于85％，减少信用风险事件人工收集和录入时间60％以上；

(2)技术创新价值：首次基于多视角学习设计的事件抽取模型：面向信用事件智能抽取任务，针对具体事件类型，引入了多任务学习，构造两种不同类型任务的损失函数，loss_1代表预测事件要素文本的起始位置(上下文位置)，loss_2代表预测事件要素文本结构信息，两者结合，根本上提升模型整体准确率，准确率普遍高于较现在流行的深度学习事件分类模型。

(3)系统应用价值：本发明是结合事件属性和业务实际的技术攻关，也是面向机构客户的智能风控实践：方便金融机构客户将风险事件结构化数据与本地的风控系统、投资系统等相结合，直接映射风险预警和风险量化决策，为后续实现智能量化风控提供重要的AI数据服务。

附图说明

图1是本发明的抽取流程示意图；

图2是信用风险事件抽取主题算法流程图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

一种金融信用风险事件抽取方法，包括如下步骤：

Step1、事件分类

将新闻用正则表达式匹配，用AlBert分类模型做二次校验，最终给出事件类别。

Step2、正文摘要

为了减少后续事件抽取信息冗余的问题，对新闻正文进行摘要提取。

Step3、事件抽取

根据事件类别标签、正文以及标题，进入事件抽取模型，抽取相应事件类别的失信主体，主体算法流程细节包括：

Step3-1、输入新闻文本和事件类型

新闻文本有title和content组成，事件类型由事件分类服务提供；Title和content构成context，当context过长时，对context进行步长(stride＝128)分割为多个部分，分别进行模型预测。

Step3-2、Attention阶段

输入事件类别的token和语句context的语句，进过bert/albert对event_label和context做attention，得到attention后的语句信息表征，提取事件类别的语义表征E＝[E₁,E₂,...E_n],整个语句的语义表征C＝[T₁,T₂,...T_m]。

Step3-3、Fine-tuning阶段

建立全连接层，计算主体的开始和结束位置，输出start_token,end_token(可选)建立BiLSTM/CRF层：计算实体识别的结果entity_token

Step3-4、计算loss:

结合start_token和end_token，计算其两者loss之和：loss_1；

计算所有entity_token的loss:loss2,结合loss_1和loss_2，计算总的loss＝loss_1+loss_2

Step3-5、主体规范化处理

利用数据库中上市公司的信息，构建主体字典，对抽取的主体进行规范化处理：对输出的主体按照概率排序，依次进行规范化处理：如果模型输出的主体在构建的主体字典当中，我们就认为该主体符合我们的要求；如果在字典中没有找到，我们就丢弃这个主体；按照p_threshold概率阈值和predict_top_k参数，选择概率满足大于p_threshold且predict_top_k个主体，作为我们最后输出主体。

相应的本发明还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行所述方法。

相应的本发明还提供一种计算设备，包括，

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的得同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种金融信用风险事件抽取方法，其特征在于，包括：

2.根据权利要求1所述的金融信用风险事件抽取方法，其特征在于，所述

所述将事件类别、新闻标题和正文输入到抽取模型，得到相应事件类别的失信主体的处理过程包括：

3.根据权利要求1所述的金融信用风险事件抽取方法，其特征在于，所述通过全连接层模型得到相应事件类别的失信主体的过程包括：

根据start_token和end_token利用损失函数loss_1计算loss_1结果；

根据entity_token用损失函数loss_2计算loss_2结果；

计算loss_1结果和loss_2结果之和，得到loss之和；

根据loss之和确定输出主体的概率；

4.根据权利要求2所述的金融信用风险事件抽取方法，其特征在于，将事件类别和新闻文本输入到抽取模型的过程包括：

5.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至4所述的方法中的任一方法。

6.一种计算设备，其特征在于，包括，

一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1至4所述的方法中的任一方法的指令。