CN111899089A

CN111899089A - 基于知识图谱的企业风险预警方法及系统

Info

Publication number: CN111899089A
Application number: CN202010626160.2A
Authority: CN
Inventors: 沈春泽; 李加庆; 周张泉; 孙华蔚
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-11-06

Abstract

本发明公开一种基于知识图谱的企业风险预警方法及系统，涉及人工智能技术领域。该方法包括：获取企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池；获取企业信息的非结构化数据，处理后形成企业关系数据汇入语料库；基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据构建目标企业的知识图谱；利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息，实现风险预警。该系统应用有上述所提的方法。

Description

基于知识图谱的企业风险预警方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于知识图谱的企业风险预警方法及系统。

背景技术

金融大数据分析和金融领域文本的语义处理是金融行业知识提取的关键性基础技术，可以为知识发现和推理决策提供技术支撑。因此，越来越多的金融机构及企业加入构建金融领域的企业风险预警研究，为企业的应用决策提供精准可靠的依据。金融领域由于对数据强烈的依赖性，被认为是人工智能技术最适合落地的领域之一，海量的数据为人们更好地掌握与认知事物规律，提供了越来越丰富的来源。但是，由于数据量的急剧增长，对数据的分析与理解的要求已经远远超过人类的生理极限，这对分析的方式提出了新的要求与挑战。传统的数据处理和文本搜索的方式已经很难适应现实瞬息万变的市场行情，无法满足金融分析的实时性、穿透性和全局性的要求。

现有金融分析获取的数据源结构单一，仅能够从结构化数据中挖掘风险因子，无法对相关的非结构化数据加以利用，如公开的网页文本信息，而这些公开的网页文本信息往往蕴藏着有效的风险因子。综上，由于数据源的结构单一，降低了企业风险预警结果的准确性。

发明内容

本发明的目的在于提供一种基于知识图谱的企业风险预警方法及系统，能够从多种不同结构的数据中挖掘企业的风险因子，进而提升企业风险预警结果的准确性。

为了实现上述目的，本发明的第一方面提供一种基于知识图谱的企业风险预警方法，包括：

获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池；

获取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库；

基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据构建目标企业的知识图谱；

利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息，实现风险预警。

优选地，获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池的方法包括：

分别在第一处理器中配置结构化处理模板，在第二处理器中配置半结构化处理模板；

将获取的结构化数据输入第一处理器，经数据清洗后按照结构化处理模板提取字段后得到标准化结构数据；

将获取的半结构化数据输入第二处理器，经数据清洗后按照半结构化处理模板提取字段后得到标准化结构数据；

将得到标准化结构数据汇入数据池。

示例性地，所述结构化数据包括工商数据、税务数据、财务数据、行业指标数据中的一种或多种，所述半结构化数据包括法院公告数据和/或判决文书数据。

优选地，爬取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库的方法包括：

通过分布式爬虫技术从多个网站上抓取网页信息，采用文本处理器解析清洗后，从中抽取能够反映企业间关系的谓词三元组形成企业关系数据。

较佳地，从中抽取能够反映企业间关系的谓词三元组形成企业关系数据的方法包括：

将清洗后的网页文本分词后输入训练完成的BiLSTM编码模型中，抽取包括主语、关系、宾语结构的谓词三元组形成企业关系数据。

优选地，训练风险识别模型的方法包括：

使用XGBoost树算法对多份知识图谱样本进行有监督学习训练，得到风险识别模型。

较佳地，在步骤利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息之后还包括：

分别对数据池中的标准化结构数据和语料库中的企业关系数据定期更新，并定期更新目标企业的知识图谱；

利用所述风险识别模型从更新的目标企业知识图谱中同步获取风险信息，并将风险信息推送给用户。

与现有技术相比，本发明提供的基于知识图谱的企业风险预警方法具有以下有益效果：

本发明提供的基于知识图谱的企业风险预警方法，首先获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池，以及爬取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库，然后基于数据池中的标准化结构数据以及语料库中的企业关系数据构建目标企业的知识图谱，最终利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息，实现风险预警。

可见，本发明提高获取多种数据结构的数据源构建知识图谱，能够从多个维度充分挖掘出知识图谱中与目标企业相关的风险信息，提高了对目标企业风险预警的准确性。

本发明的第二方面提供一种基于知识图谱的企业风险预警系统，应用于上述技术方案所述的基于知识图谱的企业风险预警方法中，所述系统包括：

数据池单元，用于获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池；

语料库单元，用于获取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库；

知识图谱构建单元，基于所述数据池中的标准化结构数据以及所述语料库中的企业关系数据构建目标企业的知识图谱；

风险预警单元，利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息，实现风险预警。

优选地，所述数据池单元包括：

模板配置模块，用于分别在第一处理器中配置结构化处理模板，在第二处理器中配置半结构化处理模板；

字段提取模块，用于将获取的结构化数据输入第一处理器，经数据清洗后按照结构化处理模板提取字段后得到标准化结构数据，以及将获取的半结构化数据输入第二处理器，经数据清洗后按照半结构化处理模板提取字段后得到标准化结构数据；

汇总模块，用于将得到标准化结构数据汇入数据池。

与现有技术相比，本发明提供的基于知识图谱的企业风险预警系统的有益效果与上述技术方案提供的基于知识图谱的企业风险预警方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于知识图谱的企业风险预警方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于知识图谱的企业风险预警方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例中基于知识图谱的企业风险预警方法的流程示意图；

图2为本发明实施例中实体特征的内部因子和关系类型的识别策略示例图；

图3为本发明实施例中编码模型的示例图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种基于知识图谱的企业风险预警方法，包括：

获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池；获取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库；基于数据池中的标准化结构数据以及语料库中的企业关系数据构建目标企业的知识图谱；利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息，实现风险预警。

本实施例提供的基于知识图谱的企业风险预警方法，首先获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池，以及爬取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库，然后基于数据池中的标准化结构数据以及语料库中的企业关系数据构建目标企业的知识图谱，最终利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息，实现风险预警。

可见，本实施例提高获取多种数据结构的数据源构建知识图谱，能够从多个维度充分挖掘出知识图谱中与目标企业相关的风险信息，提高了对目标企业风险预警的准确性。

上述实施例中，获取关于企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池的方法包括：

分别在第一处理器中配置结构化处理模板，在第二处理器中配置半结构化处理模板；将获取的结构化数据输入第一处理器，经数据清洗后按照结构化处理模板提取字段后得到标准化结构数据；将获取的半结构化数据输入第二处理器，经数据清洗后按照半结构化处理模板提取字段后得到标准化结构数据；将得到标准化结构数据汇入数据池。其中，结构化数据包括工商数据、税务数据、财务数据、行业指标数据中等，半结构化数据包括法院公告数据、判决文书等。

具体实施时，接入了多个来源的结构化数据，比如企业的工商数据、税务数据等，但由于历史遗留、来源差异等原因，导致接入的数据不规范，故需要针对每个来源的结构化数据使用第一处理器以统一的规范进行处理生成标准化结构数据放入数据池。同样地，还接入了多个来源的半结构化数据，比如司法类信息，如：法院公告、判决文书等，这类文本信息既包含了如文书号、发文单位、原被告姓名等结构化信息，也包含了书写格式相对单一的文本信息，此类数据源在使用之前需使用第二处理器提取特定字段生成标准化结构数据放入数据池。其中，第一处理器处理处理得到的标准化结构数据与第二处理器处理得到的标准化结构数据，两者的结构数据即可以设置为相同，也可以设置为不同，本实施例对此不做限制。

数据池中的标准结构化数据包含了多个维度的信息，其中的部分信息可以用来揭示企业隐含的风险。例如：

1、企业的法人变更信息，如果法人在短时间内频繁变更，则可能预示了潜在的风险；

2、涉诉的司法信息大量增加，企业作为被告人在短时间内出现大量的司法信息往往揭示了风险；

3、企业经营范围发生较大变更，表示了企业转移了核心业务，进入陌生领域，隐含了一定的风险。

上述实施例中，爬取关于企业信息的非结构化数据，处理后形成企业关系数据汇入语料库的方法包括：

具体地，从中抽取能够反映企业间关系的谓词三元组形成企业关系数据的方法包括：

具体实施时，相对于结构化数据，本实施例还使用爬虫技术从网上收集了大量公开的非结构化数据，也就是网页文本数据。网上每时每刻都在产生大量与企业相关的公开信息，包括新闻、论坛等，此类信息形式多样，处理难度大，但往往时效性高，对风险预警而言是极为重要的来源。

首先，使用分布式爬虫从互联网上实时抓取网页信息，针对不同来源的网页信息使用相应的文本处理器进行自然语言处理以及解析、清洗等处理，其中自然语言处理包括网页去噪，网页去重，热点提取，主题分类，情绪识别等一系列的句法或语义处理，然后从中抽取能够反映企业间关系的谓词三元组形成企业关系数据，通过谓词三元组(主语-关系-宾语)能够反映出企业间的关系信息并构建语料库。其中，谓词三元组的获取方法为本领域技术人员的公知常识，以下仅做示例性说明：

通过对网页信息中的各个分词进行标注，将实体和关系的识别问题转变成一个序列标注问题，编码模型使用的是BiLSTM来进行编码，用于网页信息中谓词三元组的识别。假设爬取的网页信息为“美国总统特朗普将要访问乔布斯的苹果公司。”，其识别策略如图2所示，通过实体特征的内部因子和关系类型提取出网页信息中的谓词三元组，如“特朗普：总统：美国”、 “乔布斯：创立：苹果公司”。其识别策略的具体实现过程可通过如图3中的编码模型来实现：

通过将“乔布斯的苹果公司。”输入编码模型的输入层，再经Embedding 层、Encoding层、Decoding层依次处理后，求导计算后通过输出层输出网页信息中的实体关系，也即实体特征的内部因子和关系类型，进而从中提取出 “乔布斯：创立：苹果公司”的谓词三元组。

最终，将语料库中的企业关系数据经过去重、去歧后与数据池中的标准化结构数据关联融合构建目标企业的知识图谱，由于知识图谱中包括了与企业相关的高时效性的公开信息，因此丰富了知识图谱的数据维度和数据来源，为准确高效的风险预警提供有力的数据支撑。知识图谱可以分类型构建，如关联关系图谱、股权关系图谱、投资比例图谱、风险要素图谱、关联查询图谱等。

上述实施例中，训练风险识别模型的方法包括：

使用XGBoost树算法对多份知识图谱样本进行有监督学习训练，得到风险识别模型。可以理解的是，利用XGBoost树算法进行决策数构造的过程大致如下：

…

上式中，从根节点开始利用新的决策树预测样本值，并累加到原来的树上。通过n次迭代，构建好一个基于XGBoost决策数的风险识别模型，在这个风险识别模型的帮助下，可以从知识图谱中预测目标企业的风险。需要说明的是，基于XGBoost决策数构建风险识别模型为本领域现有技术，本实施例对此不做赘述。另外，风险识别模型的训练也为本领域常用的技术手段，本实施例对其具体实现方式不做赘述。

进一步地，上述实施例中在步骤利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息之后还包括：

分别对数据池中的标准化结构数据和语料库中的企业关系数据定期更新，并定期更新目标企业的知识图谱；利用风险识别模型从更新的目标企业知识图谱中同步获取风险信息，并将风险信息推送给用户。通过定时更新数据池和语料库，能够对目标企业的知识图谱进行同步更新，从而及时获取到目标企业的风险信息，而主动将风险信息通过邮件、短信等方式推送给用户，能够使用户第一时间掌握目标企业的风险情况。通常，互联网上的关于某个被监控目标企业突然出现大量的负面报道，大概率表明该企业存在风险。

综上，本实施例应用了数据处理、自然语言处理、知识图谱等一系列技术对海量数据进行自动化、智能化的处理分析，最终得到关于各目标企业的多维度的风险报告，为贷中、贷后的业务人员节省大量的人力工作，提高效率，辅助决策及时采取风险处置措施，避免或减少损失。

实施例二

本实施例提供一种基于知识图谱的企业风险预警系统，包括：

优选地，所述数据池单元包括：

汇总模块，用于将得到标准化结构数据汇入数据池。

与现有技术相比，本发明实施例提供的基于知识图谱的企业风险预警系统的有益效果与上述实施例一提供的基于知识图谱的企业风险预警方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述基于知识图谱的企业风险预警方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的企业关联风险预警方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于知识图谱的企业风险预警方法，其特征在于，包括：

获取企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池；

获取企业信息的非结构化数据，处理后形成企业关系数据汇入语料库；

2.根据权利要求1所述的方法，其特征在于，获取企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池的方法包括：

在第一处理器中配置结构化处理模板，以及在第二处理器中配置半结构化处理模板；

将得到标准化结构数据汇入数据池。

3.根据权利要求1或2所述的方法，其特征在于，所述结构化数据包括工商数据、税务数据、财务数据、行业指标数据中的一种或多种，所述半结构化数据包括法院公告数据和/或判决文书数据。

4.根据权利要求1所述的方法，其特征在于，爬取关于企业信息的非结构化数据，处理后形成企业关系数据的方法包括：

5.根据权利要求4所述的方法，其特征在于，从中抽取能够反映企业间关系的谓词三元组形成企业关系数据的方法包括：

6.根据权利要求1所述的方法，其特征在于，训练风险识别模型的方法包括：

7.根据权利要求6所述的方法，其特征在于，在步骤利用预先训练的风险识别模型从知识图谱中挖掘出目标企业的风险信息之后还包括：

8.一种基于知识图谱的企业风险预警系统，其特征在于，包括：

数据池单元，用于获取企业信息的结构化数据和半结构化数据，处理后形成标准化结构数据汇入数据池；

语料库单元，用于获取企业信息的非结构化数据，处理后形成企业关系数据汇入语料库；

9.根据权利要求8所述的系统，其特征在于，所述数据池单元包括：

模板配置模块，用于在第一处理器中配置结构化处理模板，以及在第二处理器中配置半结构化处理模板；

汇总模块，用于将得到标准化结构数据汇入数据池。

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。