CN112750028A

CN112750028A - 基于实体抽取的事件文本的风险预警方法和装置

Info

Publication number: CN112750028A
Application number: CN202011643162.9A
Authority: CN
Inventors: 任亮; 傅雨梅; 李成
Original assignee: Beijing Zhiyin Intelligent Technology Co ltd
Current assignee: Beijing Zhiyin Intelligent Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-04

Abstract

本发明提供了一种基于实体抽取的事件文本的风险预警方法和装置，涉及风险预警的技术领域，包括：通过预处理操作获取事件文本；根据逆波兰表达式从事件文本中识别出风险事件类型对应的风险事件文本；基于实体抽取模型从风险事件文本中识别出目标事件文本，其中，目标事件文本为与预设主体结构对应的风险事件文本；将目标事件文本与事件参数值输入风险预警模型，得到风险概率值，事件参数值基于目标事件文本进行预设统计计算方式得到，根据爬取外部新闻事件进行风险预警，以保证信用突变情况下，也能够对企业实现风险管控。

Description

基于实体抽取的事件文本的风险预警方法和装置

技术领域

本发明涉及风险预警技术领域，尤其是涉及一种基于实体抽取的事件文本的风险预警方法和装置。

背景技术

大部分商业银行对客户或者企业的贷后风险预警越来越重视，一般来说贷后风险预警模式主要分为银行内部风控和外部信息跟踪。现有的商业银行主要一种方式通过信贷系统获取内部风控指标进行风险预警，例如财务指标，征信指标，再用多元逻辑回归模型进行预测，另一种方式通过外部人工提取或者过滤企业的重要信息，通过重要信息分析做风险预警。

现有商业银行信用风险预警方面的研究，国内主要侧重于直接预警思路，该预警机制通过直接构建预警模型来实现预警功能，并通过设定不同的阈值区间，来给出不同的预警等级，这些办法主要集中于信用平稳环境下的信用风险预警问题，且采用模糊评价方法的居多，在信用突变环境下容易引发警情等级的“过度跳跃”，如因宏观环境变化产生的资金链断裂等情况，难以为商业银行信用风险管控提供科学的决策依据。

发明内容

本发明的目的在于提供一种基于实体抽取的事件文本的风险预警方法和装置，根据爬取外部新闻事件进行风险预警，以保证信用突变情况下，也能够对企业实现风险管控。

第一方面，本发明实施例提供了一种基于实体抽取的事件文本的风险预警方法，包括：

通过预处理操作获取事件文本；

根据逆波兰表达式从所述事件文本中识别出风险事件类型对应的风险事件文本；

基于实体抽取模型从所述风险事件文本中识别出目标事件文本，其中，所述目标事件文本为与预设主体结构对应的风险事件文本；

将所述目标事件文本与事件参数值输入风险预警模型，得到风险概率值，所述事件参数值基于所述目标事件文本进行预设统计计算方式得到。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，通过预处理操作获取事件文本的步骤，包括：

获取新闻数据，并存入第一数据库中，所述新闻数据包括新闻标题，新闻内容，新闻时间，新闻内容，跑取时间和新闻作者；

从所述第一数据库中增量读取所述新闻数据，对所述新闻数据进行预处理操作，得到新闻文本并存入列表中；

通过文本相似度计算方法去除所述新闻文本中相似度达到相似度阈值的重复内容，得到事件文本。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述预设主体结构对应目标企业，所述方法还包括：

将所述风险概率值与多个预警阈值进行比对，确定所述目标企业的风险程度。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述方法还包括：

将所述目标事件文本存入第二数据库中。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述事件文本的事件类型包括风险事件类型、营销事件类型和宏观经济事件类型。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述事件参数值包括未发生违约前企业信用风险事件数量、未发生违约前企业市场风险事件数量、未发生违约前企业财务风险事件数量、未发生违约前企业担保风险事件数量、未发生违约前企业法律合规风险事件数量、未发生违约前企业经营风险事件数量、未发生违约前企业相关风险发事件数量和未发生违约前企业所有事件文本的词向量的平均值。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述风险预警模型基于隐马尔可夫模型结合逻辑回归模型训练而成。

第二方面，本发明实施例还提供一种基于实体抽取的事件文本的风险预警装置，包括：

获取模块，通过预处理操作获取事件文本；

第一识别模块，根据逆波兰表达式从所述事件文本中识别出风险事件类型对应的风险事件文本；

第二识别模块，基于实体抽取模型从所述风险事件文本中识别出目标事件文本，其中，所述目标事件文本为与预设主体结构对应的风险事件文本；

风险预警模块，将所述目标事件文本与事件参数值输入风险预警模型，得到风险概率值，所述事件参数值基于所述目标事件文本进行预设统计计算方式得到。

第三方面，实施例提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。

第四方面，实施例提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。

本发明实施例带来了一种基于实体抽取的事件文本的风险预警方法和装置，通过对爬取的新闻数据做了多次模型的处理，找到新闻数据中的重要风险信息，依据此外部获取的事件文本建立风险预警模型，并基于事件参数值和目标事件文本识别出该目标企业的风险概率值，以判断该目标企业的风险程度，能够应对突发信用变化情况，保证银行等金融机构对企业的风险管控可靠性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于实体抽取的事件文本的风险预警方法流程图；

图2为本发明实施例提供的另一种基于实体抽取的事件文本的风险预警方法流程图；

图3为本发明实施例提供的一种基于实体抽取的事件文本的风险预警装置的功能模块示意图；

图4为本发明实施例提供的电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有成果侧重于单信号(模块)的单一预警功能，而信用突变环境下，用侧重于多信号(模块)的综合预警功能，可见，现有成果无法解决信用突变环境下的商业银行信用风险预警难题。

此外，目前商业银行内部风控主要基于财务指标，司法指标，征信指标等，而这些数据都是往往都是按照月度，季度，年度出相关数据，这样的风控方式，对于突变环境下容易引发风险预警很难预测到，往往会错过一些突发事件。

基于此，本发明实施例提供的一种基于实体抽取的事件文本的风险预警方法和装置，根据爬取外部新闻事件进行风险预警，以保证信用突变情况下，也能够对企业实现风险管控。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于实体抽取的事件文本的风险预警方法进行详细介绍。

图1为本发明实施例提供的一种基于实体抽取的事件文本的风险预警方法流程图。

参照图1，该方法主要包括以下步骤：

步骤S102，通过预处理操作获取事件文本；

步骤S104，根据逆波兰表达式从所述事件文本中识别出风险事件类型对应的风险事件文本；

其中，所述事件文本的事件类型包括风险事件类型、营销事件类型和宏观经济事件类型。

示例性地，用逆波兰表达式触发事件文本中的事件类型,目前事件类型总共有230个，风险类有119个，营销类有78个，宏观经济类33个。例如，风险类-自然灾害、风险类-资金周转困难、营销类-风险偏好上升、宏观经济类-产能过剩等等。

步骤S106，基于实体抽取模型从所述风险事件文本中识别出目标事件文本，其中，所述目标事件文本为与预设主体结构对应的风险事件文本；

示例性地，可用实体抽取模型去抽取文本中主体结构，客体结构，其他实体，本发明实施例主要通过识别主体结构，即抽取出带有符合目标企业的名称全称或简称的风险事件文本。

步骤S108，将所述目标事件文本与事件参数值输入风险预警模型，得到风险概率值，所述事件参数值基于所述目标事件文本进行预设统计计算方式得到。

在实际应用的优选实施例中，通过对爬取的新闻数据做了多次模型的处理，找到新闻数据中的重要风险信息，依据此外部获取的事件文本建立风险预警模型，并基于事件参数值和目标事件文本识别出该目标企业的风险概率值，以判断该目标企业的风险程度，能够应对突发信用变化情况，保证银行等金融机构对企业的风险管控可靠性。

在一些实施例中，步骤S102还可以通过以下步骤实现，包括：

步骤1.1)，获取新闻数据，并存入第一数据库中，所述新闻数据包括新闻标题，新闻内容，新闻时间，新闻内容，跑取时间和新闻作者；

这里，新闻数据从各大网址财经网址得到，目前总共有144个新闻源，其中，第一数据库为数据仓库工具hive数据库。

步骤1.2)，从所述第一数据库中增量读取所述新闻数据，对所述新闻数据进行预处理操作，得到新闻文本并存入列表中；

示例性地，对新闻数据用正则表达式去掉新闻中的html标签和特殊字符，以及过滤异常新闻数据。可以理解的是，新闻有标题和正文，正文按照换行符分成段落，段落按照句号分成句子，存入列表中。

步骤1.3)，通过文本相似度计算方法(simhash算法)去除所述新闻文本中相似度达到相似度阈值的重复内容，得到事件文本。

示例性地，去掉相似度大于阈值为0.8的新闻文本(阈值根据实际情况进行调参)。

在一些实施例中，所述预设主体结构对应目标企业，所述方法还包括：将所述风险概率值与多个预警阈值进行比对，确定所述目标企业的风险程度。

这里，输出风险概率值是该目标企业对应一个概率值，在0到1之间，通过阈值判断他违约(风险超标)还是不违约(风险不超标)，具体如表1所示。

表1

输出结果概率值x	企业风险承担
		0≤x<0.1	正常
0.1≤x<0.3	轻度
		0.3≤x<0.6	中轻度
0.6≤x<0.7	中度
		0.7≤x≤1	重度

在一些实施例中，如图2所示，本发明实施例还包括：获取新闻数据，并存入数据库(第一数据库)，对新闻数据进行预处理操作，对新闻数据进行拆分操作，再匹配逆波兰表达式模型确定出风险类型事件、匹配实体抽取模型确定出目标企业相关的事件文本，并将给企业风险事件类型存入数据库(第二数据库)中(将目标事件文本存入第二数据库中，以便风险预警模型可根据此类文本进行训练优化)，将目标事件文本和基于目标事件文本得到的事件参数值输入风险识别模型，输出风险概率值，将风险概率值与各类风险程度阈值进行比对，确定目标企业的风险程度，预测企业是否违约，并将结果存储于数据库(第三数据库)。

在一些实施例中，所述事件参数值包括未发生违约前企业信用风险事件数量、未发生违约前企业市场风险事件数量、未发生违约前企业财务风险事件数量、未发生违约前企业担保风险事件数量、未发生违约前企业法律合规风险事件数量、未发生违约前企业经营风险事件数量、未发生违约前企业相关风险发事件数量和未发生违约前企业所有事件文本的词向量的平均值。

这里，用户可根据该企业预先要求的风险控制情况，设置对应的风险事件统计计算，将目标事件文本进行相应计算，其中目标事件文本包括至少一个。

在一些实施例中，所述风险预警模型基于隐马尔可夫模型结合逻辑回归模型训练而成。

示例性地，风险类事件类型119个建模，用事件类型结合商业银行坏样本建模，用隐马尔可夫模型HMM模型结合逻辑回归模型建模预测企业在未来是否违约，训练样本通过人工对金融数据进行标注。

如图3所示，本发明实施例提供一种基于实体抽取的事件文本的风险预警装置，包括：

获取模块，通过预处理操作获取事件文本；

本发明实施例提供的用于实现一种电子设备，本实施例中，所述电子设备可以是，但不限于，个人电脑(Personal Computer，PC)、笔记本电脑、监控设备、服务器等具备分析及处理能力的计算机设备。

作为一种示范性实施例，可参见图4，电子设备110，包括通信接口111、处理器112、存储器113以及总线114，处理器112、通信接口111和存储器113通过总线114连接；上述存储器113用于存储支持处理器112执行上述图像锐化方法的计算机程序，上述处理器112被配置为用于执行该存储器113中存储的程序。

本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的非易失性存储介质，或者它们的组合。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

本发明实施例所提供计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序代码被执行时可实现上述任一实施例所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于实体抽取的事件文本的风险预警方法，其特征在于，包括：

通过预处理操作获取事件文本；

2.根据权利要求1所述的基于实体抽取的事件文本的风险预警方法，其特征在于，通过预处理操作获取事件文本的步骤，包括：

3.根据权利要求1所述的基于实体抽取的事件文本的风险预警方法，其特征在于，所述预设主体结构对应目标企业，所述方法还包括：

4.根据权利要求1所述的基于实体抽取的事件文本的风险预警方法，其特征在于，所述方法还包括：

将所述目标事件文本存入第二数据库中。

5.根据权利要求1所述的基于实体抽取的事件文本的风险预警方法，其特征在于，所述事件文本的事件类型包括风险事件类型、营销事件类型和宏观经济事件类型。

6.根据权利要求1所述的基于实体抽取的事件文本的风险预警方法，其特征在于，所述事件参数值包括未发生违约前企业信用风险事件数量、未发生违约前企业市场风险事件数量、未发生违约前企业财务风险事件数量、未发生违约前企业担保风险事件数量、未发生违约前企业法律合规风险事件数量、未发生违约前企业经营风险事件数量、未发生违约前企业相关风险发事件数量和未发生违约前企业所有事件文本的词向量的平均值。

7.根据权利要求1所述的基于实体抽取的事件文本的风险预警方法，其特征在于，所述风险预警模型基于隐马尔可夫模型结合逻辑回归模型训练而成。

8.一种基于实体抽取的事件文本的风险预警装置，其特征在于，包括：

获取模块，通过预处理操作获取事件文本；

9.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并且能够在所述处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-7中任意一项所述的方法。