CN114266455A

CN114266455A - 一种基于知识图谱的可视化企业风险评估方法

Info

Publication number: CN114266455A
Application number: CN202111517332.3A
Authority: CN
Inventors: 罗鹏; 陈嘉翊; 胡志广; 李建
Original assignee: State Grid Credit Co ltd; Guowang Xiongan Finance Technology Group Co ltd
Current assignee: State Grid Credit Co ltd; Guowang Xiongan Finance Technology Group Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-04-01

Abstract

本发明公开了一种基于知识图谱的可视化企业风险评估方法，对非结构化信息进行收集，对企业的发展和信誉风险评估有着重要作用，引入多维度考量将关联企业划分为集群，并从多维度来考量集群企业的风险评估，利用知识图谱可视化的展现各维度的信息指标，使用户得到更加清晰的多维度信息显示，包括：S1：对审计数据进行提取清洗，筛选出异常企业和正常企业；S2：对舆情信息进行挖掘检测，并从舆论维度评估风险系数；S3：建立企业集群，对单一企业进行信息评估时，利用当前企业信息并引入关联企业信息进行评估；S4：利用多层次权重设计模型对步骤S1、S2和S3获取的信息做权重设计，并利用知识图谱方式输出企业风险评估的可视化结果。

Description

一种基于知识图谱的可视化企业风险评估方法

技术领域

本发明涉及风险评估，具体涉及一种基于知识图谱的可视化企业风险评估方法。

背景技术

知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

企业风险与风险管理的概念，有负面影响的不确定事件，而风险管理是指企业通过一系列措施进行风险控制，以防止或减少此类不确定事件的发生的过程。

机器学习是一种能够赋予计算机等智能设备学习的能力以此让它完成直接编程无法完成的功能的方法。通过数据训练出模型，然后使用模型对非训练数据预测。目前，深度学习是机器学习中最主流的方法、是机器学习领域中一个新的研究方向，通过学习样本数据的内在规律和表示层次，在学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

现有的方法存在以下问题：从数据结构方面：现有的方法常用结构化数据对企业风险进行评估，忽略了诸如舆情，评论情绪，用户对前景乐观程度等非结构化信息；从数据维度方面：现有的方法从单一企业维度考量，并未将企业与企业之间的联系，关联企业的财产状况，信誉等级等信息作为评价指标；从数据展现方面：现有的方法仅给出评分或风险评估系数，导致用户并不清楚系数的具体组成且输出显示不清晰。

发明内容

为了解决现有技术中的问题，本发明提出一种基于知识图谱的可视化企业风险评估方法，对非结构化信息进行收集，对企业的发展和信誉风险评估有着重要作用，引入了多维度考量将关联企业划分为集群，并从多维度来考量集群企业的风险评估，利用知识图谱的方式，可视化的展现了各维度的信息指标，使用户能够得到更加清晰的多维度信息显示。

为了实现以上目的，本发明提供了一种基于知识图谱的可视化企业风险评估方法，包括：

S1：对审计数据进行提取清洗，筛选出异常企业和正常企业；

S2：对舆情信息进行挖掘检测，并从舆论维度评估风险系数；

S3：建立企业集群，对单一企业进行信息评估时，利用当前企业信息并引入关联企业信息进行评估；

S4：利用多层次权重设计模型对步骤S1、S2和S3获取的信息做权重设计，并利用知识图谱方式输出企业风险评估的可视化结果。

进一步地，所述步骤S1中采用KNN模型对审计数据进行提取清洗，选择包含异常企业和正常企业的审计数据作为样本数据库，通过计算欧氏距离找到样本数据库中最近的K个样本点，通过计算样本点中异常企业的比例计算审计风险系数，筛选出异常企业和正常企业。

进一步地，所述步骤S1中采用审计报告作为KNN模型的输入源。

进一步地，所述步骤S2包括金融文本中信息主体的挖掘和面向主体的负面新闻检测，并从舆论维度评估非法资金的风险系数。

进一步地，所述步骤S2使用舆情平台上收集的具有企业属性的金融投资文本信息，并将金融投资文本信息分析转化为基于企业财务舆情信息的情感二元分类问题。

进一步地，所述步骤S2使用自然语言处理模型分析企业财务舆情文本，并利用统计文本中包含的正面或负面信息对企业可能存在的非法融资风险进行情感频率分析。

进一步地，所述步骤S3通过公开信息，将企业与企业之间进行联系，建立企业集群。

进一步地，所述步骤S4中多层次权重设计模型包括层次分析单元，比较低层次指标对先前高层次指标的影响，从低层次指标元素中随机抽取两个元素，并比较两个元素对高层次指标贡献的大小。

进一步地，所述步骤S4中多层次权重设计模型还包括时间衰减单元，通过比较不同维信息得到的时间与矩的时差，设计不同的权值。

进一步地，所述步骤S4中多层次权重设计模型还包括权重自适应设计单元，利用投票机制，并在集合下进行测试，当某一特征缺失时，分别测试统计模型的错误识别率。

与现有技术相比，本发明基于神经网络的自然语言处理、k近邻算法、权重设计方案以及知识图谱的呈现方式，提供科学全面的企业风险查询手段，从宏观角度为企业的风险防范和合理评价提供了一个视角，结合知识图谱和机器学习(自然语言处理)等方法，将数据治理和语义链接思想结合来对企业风险做评估。方法主要包括基于知识图论的方法，采用自上向下的构建方法，从多个维度构建企业知识图，进而发现企业司法风险和舆论风险。本发明主要收集和处理半结构化和非结构化数据，如企业宣传系统数据和新闻报道，因此关注企业公正和舆论。发现潜在风险。在获取、组织、清理和合并企业基本信息的基础上，提取企业不同维度的多个实体，挖掘知识之间的潜在关联，对企业进行集群化处理分类，使得用户得以更加清晰发现，并使用知识图谱将企业的风险系数可视化，发现企业的潜在风险。从数据结构方面考虑了诸如舆情、评论情绪、用户对前景乐观程度等非结构化信息，这些非结构化信息可通过微博，通告评论等渠道收集，对企业的发展和信誉风险评估有着重要作用。从数据维度方面引入了多维度考量，通过k邻近以及欧式距离计算等方法将关联企业划分为集群，并从多维度来考量集群企业的风险评估。从数据展现方面利用知识图谱的方式，可视化的展现了各维度的信息指标，使用户能够得到更加清晰的多维度信息显示。

附图说明

图1为本发明的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。因此，以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于知识图谱的可视化企业风险评估方法，提供了科学全面的企业风险查询手段，从宏观角度为企业的风险防范和合理评价提供指导。具体参见图1，包括：

S1：风险特征的挖掘，即对审计数据进行提取清洗，筛选出异常企业和正常企业。

与企业的业务信息相比，通常由第三方生成的审计报告往往具有更可靠的真实性，且易于找到企业内部资金等问题的评价指标。因此，选择审计报告作为算法模型的输入源。考虑到样本数据中没有足够的标记审计数据，即标记异常企业和正常企业，本发明采用K近邻算法(KNN)模型，KNN算法也称为邻居算法，它是基于判断测试样品周围最近的数据类型用于确定待测试样品的类型。在KNN算法的具体实现中，选取部分包含异常企业和正常企业的审计数据作为样本数据库。对于待确定企业的审计数据，通过计算欧氏距离找到数据中最近的K个样本点，通过计算这些样本点中异常企业的比例计算审计风险系数。

S2：舆情信息挖掘，即对舆情信息进行挖掘检测，并从舆论维度评估风险系数。

关注金融文本中信息主体的挖掘和面向主体的负面新闻检测，并从舆论维度评估非法资金的风险系数。舆情数据诸如舆情、评论情绪、用户对前景乐观程度等非结构化信息，这些非结构化信息可通过微博、通告评论等渠道收集，舆情数据可以用来判断企业在社会上的舆情影响，收集企业舆情信息，通过判断文本是否为负面财务企业来判断哪些企业是负面财务企业，信息包含有关金融企业的负面信息。在舆情数据方面，可以使用舆情平台上收集的具有企业属性的金融投资文本信息，将这些文本分析转化为两级情感问题，因为负面舆论的上升趋势和负面舆论往往比负面舆论好。它真实地反映了一家企业的业绩趋势，因此简化为基于企业财务舆情信息的情感二元分类问题，即：使用自然语言处理(NLP)算法模型分析企业财务舆情文本，并利用统计文本中包含的正面或负面信息对企业可能存在的非法融资风险进行情感频率分析。

S3：通过法人信息等公开信息，将企业与企业之间进行联系，建立企业集群，在评估某一企业时不仅仅参考该企业的相关信息，而要将与其关联的企业信息也纳入风险指标体系的评估中。

S4：利用多层次权重设计模型对步骤S1、S2和S3获取的信息做权重设计，具体包括：1)层次分析单元，为了比较低层次指标对先前高层次指标的影响，从低层次指标元素中随机抽取两个元素，并比较两个元素对高层次指标贡献的大小(重要性)，这种比较使用专家评分或有经验的专业人员对这两个指标的重要性进行评分；2)时间衰减单元，由于信息的不同，能够有效反映企业情况的领域的及时性是有限的。因此，通过比较不同维信息得到的时间与矩的时差，设计了不同的权值。获得的数据越新，权重越大，获得的数据越久，权重越小；3)数据驱动的权重自适应设计单元，由于非法集资企业运营方面的专家知识较少，为了避免在设计权重时忽略很多重要信息，本发明还设计了一种数据驱动的权重自适应设计模型，利用投票机制，并在集合下进行测试，当某一特征缺失时，分别测试统计模型的错误识别率。错误识别率越高，字段信息越重要。

通过以上方式就得到了风险企业的风险系数以及其组成，将其用知识图谱的方式展示出来，就使得用户得到了清晰完整的企业风险评估图谱。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的可视化企业风险评估方法，其特征在于，包括：

2.根据权利要求1所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S1中采用KNN模型对审计数据进行提取清洗，选择包含异常企业和正常企业的审计数据作为样本数据库，通过计算欧氏距离找到样本数据库中最近的K个样本点，通过计算样本点中异常企业的比例计算审计风险系数，筛选出异常企业和正常企业。

3.根据权利要求2所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S1中采用审计报告作为KNN模型的输入源。

4.根据权利要求1所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S2包括金融文本中信息主体的挖掘和面向主体的负面新闻检测，并从舆论维度评估非法资金的风险系数。

5.根据权利要求4所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S2使用舆情平台上收集的具有企业属性的金融投资文本信息，并将金融投资文本信息分析转化为基于企业财务舆情信息的情感二元分类问题。

6.根据权利要求5所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S2使用自然语言处理模型分析企业财务舆情文本，并利用统计文本中包含的正面或负面信息对企业可能存在的非法融资风险进行情感频率分析。

7.根据权利要求1所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S3通过公开信息，将企业与企业之间进行联系，建立企业集群。

8.根据权利要求1所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S4中多层次权重设计模型包括层次分析单元，比较低层次指标对先前高层次指标的影响，从低层次指标元素中随机抽取两个元素，并比较两个元素对高层次指标贡献的大小。

9.根据权利要求8所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S4中多层次权重设计模型还包括时间衰减单元，通过比较不同维信息得到的时间与矩的时差，设计不同的权值。

10.根据权利要求9所述的一种基于知识图谱的可视化企业风险评估方法，其特征在于，所述步骤S4中多层次权重设计模型还包括权重自适应设计单元，利用投票机制，并在集合下进行测试，当某一特征缺失时，分别测试统计模型的错误识别率。