CN113537796A - 一种企业风险评估方法、装置及设备 - Google Patents

一种企业风险评估方法、装置及设备 Download PDF

Info

Publication number
CN113537796A
CN113537796A CN202110832522.8A CN202110832522A CN113537796A CN 113537796 A CN113537796 A CN 113537796A CN 202110832522 A CN202110832522 A CN 202110832522A CN 113537796 A CN113537796 A CN 113537796A
Authority
CN
China
Prior art keywords
enterprise
corpus
relation
data
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110832522.8A
Other languages
English (en)
Inventor
刘明
刘键伟
刘彦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalu Network Technology Co ltd
Original Assignee
Dalu Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalu Network Technology Co ltd filed Critical Dalu Network Technology Co ltd
Priority to CN202110832522.8A priority Critical patent/CN113537796A/zh
Publication of CN113537796A publication Critical patent/CN113537796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种企业风险评估方法、装置及设备,该方法包括:首先获取待评估的目标企业的企业信息,然后,根据目标企业的企业信息,利用预先构建的企业关系知识图谱,获取目标企业与其他企业的关联关系,进而可以利用预先构建的关联关系风险预测模型,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果。可见,本申请是利用预先构建的企业关系知识图谱提供了企业基本信息查询、关联路径查询等多项功能,梳理了企业的关联关系,通过建立企业关联模型加以在信用风险场景中进行应用,提高了对企业信用风险的识别能力,从而能够在对目标企业进行信用风险评估时,有效提高评估结果的准确性。

Description

一种企业风险评估方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种企业风险评估方法、装置及设备。
背景技术
在当前复杂的商业环境中,能否对企业的信用风险进行准确评估,对于企业的稳定发展有着重大的研究价值及意义。而企业的信用风险往往会受到企业的关联关系的严重影响,这是因为随着投资的多元化发展,企业面临的风险不仅仅是自身经营风险,还有从其他关联企业传导来的风险。信用主体(企业或个人)之间的关联关系,尤其是企业信用主体之间的关系,容易引发关联性信贷风险,这些关联关系包括担保贷款、互相投资、法人代表、高管、财务负责人、集团企业、家族企业等。例如,关联企业间通过股权关系、担保关系等产生横向风险传导,产业链上下游之间的利益关系也可能产生纵向风险传导,从而产生连锁反应造成大面积违约。
目前,对于信贷领域企业关联关系的研究,不仅要把大量己知的企业关系进行充分利用,更要把隐藏在非结构化文本中的企业关系挖掘出来,将新闻、判决书中的文本内容作为数据补充来源,突破数据不足的瓶颈。为了丰富客户信息的维度,企业新闻报道中的舆情数据、裁判文书网中的司法数据等实时性更强的信息,都是企业关联关系的重要补充来源。但问题在于这些信息以非结构化文本的形式存在,从这些非结构化文本中挖掘有用信息时,往往依赖于人工浏览和查询,调查深度和查询效率受限,难以满足日益增长的对于集团客户关联关系的动态查询的需求,进而无法根据企业的关联关系对企业的信用风险进行准确评估。所以,当根据现有的企业关联关系的研究方式来评估企业的信用风险状况时,其评估结果的准确性较低。
发明内容
有鉴于此,本申请实施例的主要目的在于提供一种企业风险评估方法、装置及设备,能够在对目标企业进行信用风险评估时,提高评估结果的准确性。
为解决上述问题,本申请实施例提供的技术方案如下:
第一方面,本申请实施例提供了一种企业风险评估方法,包括:
获取待评估的目标企业的企业信息;
根据所述目标企业的企业信息,利用预先构建的企业关系知识图谱,获取所述目标企业与其他企业的关联关系;
利用预先构建的关联关系风险预测模型,对所述目标企业与其他企业的关联关系进行预测,并根据预测结果,对所述目标企业进行风险评估,得到评估结果。
可选的,构建所述企业关系知识图谱,包括:
在服务器端部署图数据库;
利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将所述企业的属性关系和关联关系数据存入所述图数据库;
为所述图数据库配置数据查询功能,并将配置后的图数据库作为企业关系知识图谱。
可选的,构建所述关系抽取模型,包括:
获取训练语料,并对所述训练语料进行预处理,得到预处理后的训练语料;
利用词袋模型,从所述预处理后的训练语料中提取特征向量;
利用随机森林分类器,根据所述特征向量,抽取企业的关联关系;
根据所述企业的关联关系以及所述训练语料对应的分类标签对初始关系抽取模型进行训练,生成所述关系抽取模型。
可选的,所述训练语料是从预先构建的实体关系语料库中获得的。
可选的,实体关系语料库的构建方式如下:
获取企业相关的结构化数据,并将所述数据存入关系型数据库中;
获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集;
将所述关系型数据库和所述语料训练集中数据划分所述企业所属领域的实体关系种类,并构建所述企业所属领域的实体关系语料库。
第二方面,本申请提供一种企业风险评估装置,包括:
第一获取单元,用于获取待评估的目标企业的企业信息;
第二获取单元,用于根据所述目标企业的企业信息,利用预先构建的企业关系知识图谱,获取所述目标企业与其他企业的关联关系;
评估单元,用于利用预先构建的关联关系风险预测模型,对所述目标企业与其他企业的关联关系进行预测,并根据预测结果,对所述目标企业进行风险评估,得到评估结果。
可选的,所述装置还包括:
部署单元,用于在服务器端部署图数据库;
第一提取单元,用于利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将所述企业的属性关系和关联关系数据存入所述图数据库;
配置单元,用于为所述图数据库配置数据查询功能,并将配置后的图数据库作为企业关系知识图谱。
可选的,所述装置还包括:
第三获取单元,用于获取训练语料,并对所述训练语料进行预处理,得到预处理后的训练语料;
第二提取单元,用于利用词袋模型,从所述预处理后的训练语料中提取特征向量;
抽取单元,用于利用随机森林分类器,根据所述特征向量,抽取企业的关联关系;
训练单元,用于根据所述企业的关联关系以及所述训练语料对应的分类标签对初始关系抽取模型进行训练,生成所述关系抽取模型。
可选的,所述训练语料是从预先构建的实体关系语料库中获得的。
可选的,所述装置还包括:
第四获取单元,用于获取企业相关的结构化数据,并将所述数据存入关系型数据库中;
第五获取单元,用于获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集;
构建单元,用于将所述关系型数据库和所述语料训练集中数据划分所述企业所属领域的实体关系种类,并构建所述企业所属领域的实体关系语料库。
本申请实施例还提供了一种企业风险评估设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述企业风险评估方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述企业风险评估方法中的任意一种实现方式。
本申请实施例在进行企业风险评估时,首先获取待评估的目标企业的企业信息,然后,根据目标企业的企业信息,利用预先构建的企业关系知识图谱,获取目标企业与其他企业的关联关系,进而可以利用预先构建的关联关系风险预测模型,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果。可见,本申请实施例是利用预先构建的企业关系知识图谱提供了企业基本信息查询、关联路径查询等多项功能,梳理了企业的关联关系,通过建立企业关联模型加以在信用风险场景中进行应用,提高了对企业信用风险的识别能力,从而能够在对目标企业进行信用风险评估时,有效提高评估结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种企业风险评估方法的流程示意图;
图2为本申请实施例提供的一种企业风险评估装置的组成示意图。
具体实施方式
目前,对于信贷领域企业关联关系的研究,不仅要把大量己知的企业关系进行充分利用,更要把隐藏在非结构化文本中的企业关系挖掘出来,将新闻、判决书中的文本内容作为数据补充来源,突破数据不足的瓶颈。为了丰富客户信息的维度,企业新闻报道中的舆情数据、裁判文书网中的司法数据等实时性更强的信息,都是企业关联关系的重要补充来源。但问题在于这些信息以非结构化文本的形式存在,从这些非结构化文本中挖掘有用信息时,往往依赖于人工浏览和查询,调查深度和查询效率受限,难以满足日益增长的对于集团客户关联关系的动态查询的需求,进而无法根据企业的关联关系对企业的信用风险进行准确评估。所以,当根据现有的企业关联关系的研究方式来评估企业的信用风险状况时,其评估结果的准确性较低。
为解决上述缺陷,本申请实施例提供了一种企业风险评估方法,在进行企业风险评估时,首先获取待评估的目标企业的企业信息,然后,根据目标企业的企业信息,利用预先构建的企业关系知识图谱,获取目标企业与其他企业的关联关系,进而可以利用预先构建的关联关系风险预测模型,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果。可见,本申请实施例是利用预先构建的企业关系知识图谱提供了企业基本信息查询、关联路径查询等多项功能,梳理了企业的关联关系,通过建立企业关联模型加以在信用风险场景中进行应用,提高了对企业信用风险的识别能力,从而能够在对目标企业进行信用风险评估时,有效提高评估结果的准确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种企业风险评估方法的流程示意图,该方法包括以下步骤:
S101:获取待评估的目标企业的企业信息。
在本实施例中,将需要进行风险评估的企业定义为目标企业。为了对目标企业的风险进行有效评估,首先需要获取待评估的目标企业的企业信息,用以执行后续步骤S102-S103。
其中,目标企业的企业信息指的是目标企业的组成结构数据信息以及在进行买卖业务时产生的交易数据信息。例如,假设目标企业为一家小型外贸企业,则在对其进行风险评估时,首先需要获取该目标企业的企业信息包括该目标企业的基本信息、股权关系、股东信息以及该目标企业作为买家或卖家时产生的交易数据,如贸易金额、贸易品类、金额波动程度等交易数据信息。
S102:根据目标企业的企业信息,利用预先构建的企业关系知识图谱,获取目标企业与其他企业的关联关系。
在本实施例中,通过步骤S101获取到目标企业的企业信息后,进一步可以利用利用预先构建的企业关系知识图谱,根据目标企业的企业信息,查询出目标企业是否有与风险企业存在关联关系,若存在,则继续执行后续步骤S103,以实现对目标企业的风险评估。
需要说明的是,为实现本步骤S102,需要预先构建一个企业关系知识图谱,接下来,本实施例将对图网络数据库的具体构建过程进行介绍。
具体来讲,一种可选的实现方式是,企业关系知识图谱的构建过程可以包括下述步骤A-C:
步骤A:在服务器端部署图数据库。
在本实现方式中,为了对企业的信用风险进行准确评估,本申请实施例提出通过预先构建企业关系知识图谱,来从文本数据中抽取出结构化的企业间关系,以实现非结构化文本向结构化文本的转化,并且系统对结构化的数据进行处理,并部署在图数据库中,提供了企业基本信息查询、关联路径查询等多项功能,从而有助于梳理企业的关联关系,进而再通过建立企业关联模型加以在信用风险场景中进行应用,以进一步提高对企业信用风险的识别能力。
因此,为构建企业关系知识图谱,本申请首先需要在服务器端部署图数据库,即,在服务器上安装图数据库客户端,并对其进行配置。
其中,一种可选的实现方式是,本实施例采用的图数据库为Neo4j数据库。Neo4j是近期热门的图数据库之一,其优点是具备较为完善的查询语言Cypher,而且支持图挖掘算法。基于图结构的存储结构用节点来表示图谱中的实体,用边来表示实体之间的关系,实体和关系各自的特性可以定义为节点和边的属性。和关系型数据库以表的方式来组织数据的模式不同,图数据库可以按照本体或者知识体系来的组织数据模式,这也与知识图谱对数据的描述和定义方式一致。
步骤B:利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将企业的属性关系和关联关系数据存入图数据库。
在本实现方式中,通过步骤A在服务器端部署了图数据库后。进一步可以将结构化数据导入改图数据库。并在编程软件中,通过第三方功能插件实现对图数据的操作。然后,通过程序连通外部数据接口,将外部非结构化数据输入预先构建的关系抽取模型,以通过关系抽取模型提取出企业的属性关系和关联关系数据,并将企业的属性关系和关联关系数据存入图数据库。
其中,信息抽取算法模块及后端系统均可以使用python语言开发,以避免不同开发环境对系统稳定性的影响。
需要说明的是,为实现本步骤B,需要预先构建一个关系抽取模型,接下来,本实施例将对关系抽取模型的具体构建过程进行介绍。
具体来讲,一种可选的实现方式是,关系抽取模型的构建过程可以包括下述步骤(1)-(4):
步骤(1):获取训练语料,并对训练语料进行预处理,得到预处理后的训练语料。
在本实现方式中,为了构建关系抽取模型,首先需要获取训练语料,并对训练语料进行预处理,得到预处理后的训练语料,用以执行后续步骤(2)。比如,可以通过第三方接口获取3000篇新闻类文本信息,对这些文本信息数据进行清洗和筛选,将人工标注后的语料库作为实验的数据集,并随机抽取2/3作为训练数据集,剩余1/3作为测试数据集等。
其中,一种可选的实现方式是,训练语料是从预先构建的实体关系语料库中获得的。而实体关系语料库的构建过程可以包括下述步骤①-③:
步骤①:获取企业相关的结构化数据,并将数据存入关系型数据库中。
在本实现方式中,为了构建实体关系语料库,首先需要获取企业相关的结构化数据,并将数据存入关系型数据库中。比如,可以将玛尔斯大数据平台的企业基本信息等结构化数据提取并存入关系型数据库中。
其中,玛尔斯企业数据库中的结构化数据包含了大量的企业信息,如投资、股权、供应链等关联企业,减少了对关联关系抽取的工作。
步骤②:获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集。
在本实现方式中,通过步骤①获取企业相关的结构化数据,并将数据存入关系型数据库中后。进一步可以将获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集。比如,可以接入互联网企业非结构化数据、公开的企业诉讼等信息作为关系抽取的语料训练集。其中,互联网上的企业新闻报道等文本数据中反映出企业之间合作、借贷等关系,可以成为信贷调查时的信息来源。开源的财经数据,拥有丰富的数据内容,可以获取即时财经新闻包括证券、外汇、期货和股票等新闻信息,用以作为关系抽取的语料训练集。
步骤③:将关系型数据库和语料训练集中数据划分企业所属领域的实体关系种类,并构建企业所属领域的实体关系语料库。
在本实现方式中,通过步骤①获取企业相关的结构化数据,并将数据存入关系型数据库中,以及通过步骤②获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集后。进一步可以将关系型数据库和语料训练集中数据划分企业领域实体关系种类,并构建企业所属领域的实体关系语料库,从中选取常见关系作为最终的抽取任务。
其中,通过对语料分析以及对关系的归类,依据行业特点和经验,可以为企业关系领域划分出十余种常见的实体关系,如买卖、合作、合并、股票、从属、角色、成立等等。并将其关键词作为最终抽取任务,这些关键词的选取从风险角度是需要关注的,即从关系的抽取就以信用风险领域出发,更聚焦关系与风险之间的因果。
步骤(2):利用词袋模型,从预处理后的训练语料中提取特征向量。
在本实现方式中,通过步骤(1)得到预处理后的训练语料后,进一步可以利用词袋模型,从预处理后的训练语料中提取特征向量,用以执行后续步骤(3)。
具体来讲,可以采用词袋模型提取上下文特征。选取实体邻近窗口内部的实体词、词性、实体类别等词法信息作为特征,分别抽取实体1和实体2左侧和右侧的n=2个词语,并用基于词袋模型的特征提取方法提取特征,即,输入关系样本测试集合以及待提取的特征样本等,均运用基于词袋模型的特征提取方法提取出特征向量。
步骤(3):利用随机森林分类器,根据特征向量,抽取企业的关联关系。
在本实现方式中,通过步骤(2)利用词袋模型,从预处理后的训练语料中提取特征向量后,进一步可以利用随机森林分类器(Random Forest Classification,简称RFC),根据特征向量,抽取企业的关联关系,用以执行后续步骤(4)。
其中,随机森林分类的基本思想是:首先从样本中随机进行样本抽样,通过不同的样本集合训练k个决策树分类器,每个分类器是相互独立的。当出现待分类样本时,依次使用k个分类器分类,最终由k个分类器投票决定最终分类结果。
步骤(4):根据企业的关联关系以及训练语料对应的分类标签对初始关系抽取模型进行训练,生成关系抽取模型。
在本实现方式中,通过步骤(3)抽取出企业的关联关系后,进一步,可以利用企业的关联关系以及训练语料对应的分类标签对初始关系抽取模型进行训练,并利用评价指标F-measure,对关系抽取模型的抽取结果进行评价,得到评价结果,并根据该评价结果,重复执行上述步骤(2)和(3),对关系抽取模型的参数进行调整,比如,可以计算n=3时的F-measure的取值,并选取F-measure值最大的n作为关系抽取模型的参数,得到调整后的关系抽取模型。进一步的,还可以将测试数据集输入该关系抽取模型,以验证模型的抽取性能(即F-measure值)。
其中,评价指标F-measure是结合正类样本数据的查准率(Precision)和查全率(Recall)综合衡量分类器的性能。Precision表示被正确分类的正类样本数据占所有被分为正类的样本数据的比例,即,
Figure BDA0003175997160000091
Recall表示被正确分类的正类样本数据在真实正类样本数据中的比例,即,
Figure BDA0003175997160000101
可以理解的是,通常情况下,Precision和Recall的取值越高,表明预测结果越好。但实际上,二者可能是一对矛盾体,Precision的增大会带来Recall的降低,反之亦然。进一步的,可以将Precision和Recall的调和平均值定义为F-measure,用以综合评估模型的分类性能,F-measure的计算公式如下:
Figure BDA0003175997160000102
步骤C:为图数据库配置数据查询功能,并将配置后的图数据库作为企业关系知识图谱。
在本实现方式中,通过步骤B利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将企业的属性关系和关联关系数据存入图数据库后,进一步可以为图数据库配置数据查询功能,即在该图数据库基础上开发出企业基本信息查询功能、企业关联路径查询功能、企业所属集团查询等功能,并将配置后的图数据库作为企业关系知识图谱。
其中,企业基本信息查询功能实现了单家企业的穿透式信息查询,用户输入企业名称,企业关系知识图谱可以以信息框、图谱等多种形式展示对应企业的多项属性和关系。企业关联路径查询功能用于查询两家企业之间的关联路径,能深入挖掘数据中隐含的潜在关联关系信息。企业所属集团查询功能用于查询某公司实际控股企业,通过计算控股及控股比重来挖掘集团企业,可以基于复杂的交叉控股环境找到企业的最终控制人。只有挖掘到真正的实体间关系,才能充分发掘实体关系与企业风险的联系。
S103:利用预先构建的关联关系风险预测模型,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果。
在本实施例中,通过步骤S102获取到目标企业与其他企业的关联关系后,进一步可以利用预先构建的关联关系风险预测模型,基于历史沉淀的信用异常、金融违约的企业作为坏样本,是否有关联关系作为输入,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果,确定出目标企业是否属于信用风险较高的高风险企业,以便提前进行预警,避免不必要的经济损失。
其中,有监督学习的目的是通过以往经验预测未来关联关系对企业风险的影响程度。通过过往关系模式出现的概率预测产生风险的概率,也可以通过回归模型计算风险与各关联因素的影响权重。具体模型可根据实际情况进行需求,本实施例对此不进行限定。
这样,本申请在玛尔斯大数据平台已有的企业数据基础上,通过接入外部文本类数据接口,丰富了企业信息,进一步挖掘出大量己知企业隐藏在非结构化文本中的隐含关系,提高了信息的实时性和全面性。依据企业信用风险行业特点和经验,划分出企业领域的实体关系种类并在此基础上构建了企业信用风险领域实体关系语料库,填补了目前企业领域实体关系语料库的空缺。
同时,在训练关系抽取模型时,通过RFC抽取企业的关联关系,两个随机过程的引入使得模型抗噪能力增强,不容易陷入过拟合。同时该模型能够处理较高维的数据,并且不需要进行人工特征选择。训练过程中特征的随机选择,实际上是对不同特征的一种选择组合,因此在训练的过程中能够发现特征之间的相互影响,并且能对特征的重要性进行排序。通过训练有效的关系抽取模型,可以实现自动抽取大量的无序信息并将其进行归类、组织,存储于Neo4j图数据库中,结合已有的企业基本信息数据形成企业所属领域的企业关系知识图谱。
并且,在该企业关系知识图谱中,可以实现查询检索等相关功能为业务决策提供支持,也可以通过图模型的相关算法,衡量企业之间以及企业和自然人之间的联系密切度,评估企业间的信用风险传导,进而更准确的预测出目标企业是否会产生信用风险问题。
综上,本实施例提供的一种企业风险评估方法,在进行企业风险评估时,首先获取待评估的目标企业的企业信息,然后,根据目标企业的企业信息,利用预先构建的企业关系知识图谱,获取目标企业与其他企业的关联关系,进而可以利用预先构建的关联关系风险预测模型,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果。可见,本申请实施例是利用预先构建的企业关系知识图谱提供了企业基本信息查询、关联路径查询等多项功能,梳理了企业的关联关系,通过建立企业关联模型加以在信用风险场景中进行应用,提高了对企业信用风险的识别能力,从而能够在对目标企业进行信用风险评估时,有效提高评估结果的准确性。
第二实施例
本实施例将对一种企业风险评估装置进行介绍,相关内容请参见上述方法实施例。
参见图2,为本实施例提供的一种企业风险评估装置的组成示意图,该装置包括:
第一获取单元201,用于获取待评估的目标企业的企业信息;
第二获取单元202,用于根据所述目标企业的企业信息,利用预先构建的企业关系知识图谱,获取所述目标企业与其他企业的关联关系;
评估单元203,用于利用预先构建的关联关系风险预测模型,对所述目标企业与其他企业的关联关系进行预测,并根据预测结果,对所述目标企业进行风险评估,得到评估结果。
在本实施例的一种实现方式中,所述装置还包括:
部署单元,用于在服务器端部署图数据库;
第一提取单元,用于利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将所述企业的属性关系和关联关系数据存入所述图数据库;
配置单元,用于为所述图数据库配置数据查询功能,并将配置后的图数据库作为企业关系知识图谱。
在本实施例的一种实现方式中,所述装置还包括:
第三获取单元,用于获取训练语料,并对所述训练语料进行预处理,得到预处理后的训练语料;
第二提取单元,用于利用词袋模型,从所述预处理后的训练语料中提取特征向量;
抽取单元,用于利用随机森林分类器,根据所述特征向量,抽取企业的关联关系;
训练单元,用于根据所述企业的关联关系以及所述训练语料对应的分类标签对初始关系抽取模型进行训练,生成所述关系抽取模型。
在本实施例的一种实现方式中,所述训练语料是从预先构建的实体关系语料库中获得的。
在本实施例的一种实现方式中,所述装置还包括:
第四获取单元,用于获取企业相关的结构化数据,并将所述数据存入关系型数据库中;
第五获取单元,用于获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集;
构建单元,用于将所述关系型数据库和所述语料训练集中数据划分所述企业所属领域的实体关系种类,并构建所述企业所属领域的实体关系语料库。
综上,本实施例提供的一种企业风险评估装置,在进行企业风险评估时,首先获取待评估的目标企业的企业信息,然后,根据目标企业的企业信息,利用预先构建的企业关系知识图谱,获取目标企业与其他企业的关联关系,进而可以利用预先构建的关联关系风险预测模型,对目标企业与其他企业的关联关系进行预测,并根据预测结果,对目标企业进行风险评估,得到评估结果。可见,本申请实施例是利用预先构建的企业关系知识图谱提供了企业基本信息查询、关联路径查询等多项功能,梳理了企业的关联关系,通过建立企业关联模型加以在信用风险场景中进行应用,提高了对企业信用风险的识别能力,从而能够在对目标企业进行信用风险评估时,有效提高评估结果的准确性。
进一步地,本申请实施例还提供了一种企业风险评估设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述企业风险评估方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述企业风险评估方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种企业风险评估方法,其特征在于,包括:
获取待评估的目标企业的企业信息;
根据所述目标企业的企业信息,利用预先构建的企业关系知识图谱,获取所述目标企业与其他企业的关联关系;
利用预先构建的关联关系风险预测模型,对所述目标企业与其他企业的关联关系进行预测,并根据预测结果,对所述目标企业进行风险评估,得到评估结果。
2.根据权利要求1所述的方法,其特征在于,构建所述企业关系知识图谱,包括:
在服务器端部署图数据库;
利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将所述企业的属性关系和关联关系数据存入所述图数据库;
为所述图数据库配置数据查询功能,并将配置后的图数据库作为企业关系知识图谱。
3.根据权利要求2所述的方法,其特征在于,构建所述关系抽取模型,包括:
获取训练语料,并对所述训练语料进行预处理,得到预处理后的训练语料;
利用词袋模型,从所述预处理后的训练语料中提取特征向量;
利用随机森林分类器,根据所述特征向量,抽取企业的关联关系;
根据所述企业的关联关系以及所述训练语料对应的分类标签对初始关系抽取模型进行训练,生成所述关系抽取模型。
4.根据权利要求3所述的方法,其特征在于,所述训练语料是从预先构建的实体关系语料库中获得的。
5.根据权利要求4所述的方法,其特征在于,实体关系语料库的构建方式如下:
获取企业相关的结构化数据,并将所述数据存入关系型数据库中;
获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集;
将所述关系型数据库和所述语料训练集中数据划分所述企业所属领域的实体关系种类,并构建所述企业所属领域的实体关系语料库。
6.一种企业风险评估装置,其特征在于,包括:
第一获取单元,用于获取待评估的目标企业的企业信息;
第二获取单元,用于根据所述目标企业的企业信息,利用预先构建的企业关系知识图谱,获取所述目标企业与其他企业的关联关系;
评估单元,用于利用预先构建的关联关系风险预测模型,对所述目标企业与其他企业的关联关系进行预测,并根据预测结果,对所述目标企业进行风险评估,得到评估结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
部署单元,用于在服务器端部署图数据库;
第一提取单元,用于利用预先构建的关系抽取模型,提取企业的属性关系和关联关系数据,并将所述企业的属性关系和关联关系数据存入所述图数据库;
配置单元,用于为所述图数据库配置数据查询功能,并将配置后的图数据库作为企业关系知识图谱。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于获取训练语料,并对所述训练语料进行预处理,得到预处理后的训练语料;
第二提取单元,用于利用词袋模型,从所述预处理后的训练语料中提取特征向量;
抽取单元,用于利用随机森林分类器,根据所述特征向量,抽取企业的关联关系;
训练单元,用于根据所述企业的关联关系以及所述训练语料对应的分类标签对初始关系抽取模型进行训练,生成所述关系抽取模型。
9.根据权利要求8所述的装置,其特征在于,所述训练语料是从预先构建的实体关系语料库中获得的。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第四获取单元,用于获取企业相关的结构化数据,并将所述数据存入关系型数据库中;
第五获取单元,用于获取企业相关的非结构化数据和公开的新闻信息,并作为关系抽取的语料训练集;
构建单元,用于将所述关系型数据库和所述语料训练集中数据划分所述企业所属领域的实体关系种类,并构建所述企业所属领域的实体关系语料库。
11.一种企业风险评估设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-5任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-5任一项所述的方法。
CN202110832522.8A 2021-07-22 2021-07-22 一种企业风险评估方法、装置及设备 Pending CN113537796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110832522.8A CN113537796A (zh) 2021-07-22 2021-07-22 一种企业风险评估方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110832522.8A CN113537796A (zh) 2021-07-22 2021-07-22 一种企业风险评估方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113537796A true CN113537796A (zh) 2021-10-22

Family

ID=78120550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110832522.8A Pending CN113537796A (zh) 2021-07-22 2021-07-22 一种企业风险评估方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113537796A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118526A (zh) * 2021-10-29 2022-03-01 中国建设银行股份有限公司 一种企业风险预测方法、装置、设备及存储介质
CN114154752A (zh) * 2021-12-15 2022-03-08 中国建设银行股份有限公司 企业风险预测方法、装置、电子设备、介质和程序产品
CN114638504A (zh) * 2022-03-18 2022-06-17 中国建设银行股份有限公司 企业风险评估方法、装置、设备、介质及产品
CN114820162A (zh) * 2022-04-08 2022-07-29 中国银行股份有限公司 一种风险评估方法、系统、电子设备及存储介质
CN116149885A (zh) * 2023-04-20 2023-05-23 北京神州邦邦技术服务有限公司 一种泛it服务风险预测方法及系统
CN116362940A (zh) * 2023-04-01 2023-06-30 山东联信数字科技有限公司 一种基于大数据分析的企业信用评估方法、系统、装置和存储介质
CN116757709A (zh) * 2023-08-22 2023-09-15 南京海关工业产品检测中心 一种基于知识图谱的铜精矿进口风险分析方法及系统
WO2023178767A1 (zh) * 2022-03-24 2023-09-28 北京邮电大学 基于企业征信大数据知识图谱的企业风险检测方法和装置
CN117078054A (zh) * 2023-06-07 2023-11-17 科学技术部火炬高技术产业开发中心 一种科技型企业创新能力量化评估方法及系统
CN117094817A (zh) * 2023-10-20 2023-11-21 国任财产保险股份有限公司 一种信用风险控制智能预测方法及系统
CN117422314A (zh) * 2023-12-19 2024-01-19 鲁信科技股份有限公司 一种基于大数据分析的企业数据评估方法及设备
CN117495538A (zh) * 2023-10-30 2024-02-02 北京融和云链科技有限公司 订单融资的风险性评估方法和模型训练方法
CN117541057A (zh) * 2023-11-23 2024-02-09 徐州千鹤企业管理有限公司 一种基于数据分析的企业运营预警监控方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN110489560A (zh) * 2019-06-19 2019-11-22 民生科技有限责任公司 基于知识图谱技术的小微企业画像生成方法及装置
CN111899089A (zh) * 2020-07-01 2020-11-06 苏宁金融科技(南京)有限公司 基于知识图谱的企业风险预警方法及系统
CN112446778A (zh) * 2020-11-09 2021-03-05 广东华兴银行股份有限公司 基于知识图谱的企业信用风险识别方法、设备及介质
WO2021103492A1 (zh) * 2019-11-28 2021-06-03 福建亿榕信息技术有限公司 一种企业经营风险预测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN109657918A (zh) * 2018-11-19 2019-04-19 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
CN110489560A (zh) * 2019-06-19 2019-11-22 民生科技有限责任公司 基于知识图谱技术的小微企业画像生成方法及装置
WO2021103492A1 (zh) * 2019-11-28 2021-06-03 福建亿榕信息技术有限公司 一种企业经营风险预测方法和系统
CN111899089A (zh) * 2020-07-01 2020-11-06 苏宁金融科技(南京)有限公司 基于知识图谱的企业风险预警方法及系统
CN112446778A (zh) * 2020-11-09 2021-03-05 广东华兴银行股份有限公司 基于知识图谱的企业信用风险识别方法、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张肃 等: "基于知识图谱的企业知识服务模型构建研究", 《情报科学》, vol. 38, no. 8, pages 68 - 73 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118526A (zh) * 2021-10-29 2022-03-01 中国建设银行股份有限公司 一种企业风险预测方法、装置、设备及存储介质
CN114154752A (zh) * 2021-12-15 2022-03-08 中国建设银行股份有限公司 企业风险预测方法、装置、电子设备、介质和程序产品
CN114638504A (zh) * 2022-03-18 2022-06-17 中国建设银行股份有限公司 企业风险评估方法、装置、设备、介质及产品
WO2023178767A1 (zh) * 2022-03-24 2023-09-28 北京邮电大学 基于企业征信大数据知识图谱的企业风险检测方法和装置
CN114820162A (zh) * 2022-04-08 2022-07-29 中国银行股份有限公司 一种风险评估方法、系统、电子设备及存储介质
CN116362940A (zh) * 2023-04-01 2023-06-30 山东联信数字科技有限公司 一种基于大数据分析的企业信用评估方法、系统、装置和存储介质
CN116149885A (zh) * 2023-04-20 2023-05-23 北京神州邦邦技术服务有限公司 一种泛it服务风险预测方法及系统
CN116149885B (zh) * 2023-04-20 2023-06-20 北京神州邦邦技术服务有限公司 一种泛it服务风险预测方法及系统
CN117078054A (zh) * 2023-06-07 2023-11-17 科学技术部火炬高技术产业开发中心 一种科技型企业创新能力量化评估方法及系统
CN117078054B (zh) * 2023-06-07 2024-04-05 科学技术部火炬高技术产业开发中心 一种科技型企业创新能力量化评估方法及系统
CN116757709A (zh) * 2023-08-22 2023-09-15 南京海关工业产品检测中心 一种基于知识图谱的铜精矿进口风险分析方法及系统
CN116757709B (zh) * 2023-08-22 2023-11-14 南京海关工业产品检测中心 一种基于知识图谱的铜精矿进口风险分析方法及系统
CN117094817A (zh) * 2023-10-20 2023-11-21 国任财产保险股份有限公司 一种信用风险控制智能预测方法及系统
CN117094817B (zh) * 2023-10-20 2024-02-13 国任财产保险股份有限公司 一种信用风险控制智能预测方法及系统
CN117495538A (zh) * 2023-10-30 2024-02-02 北京融和云链科技有限公司 订单融资的风险性评估方法和模型训练方法
CN117541057A (zh) * 2023-11-23 2024-02-09 徐州千鹤企业管理有限公司 一种基于数据分析的企业运营预警监控方法及系统
CN117422314A (zh) * 2023-12-19 2024-01-19 鲁信科技股份有限公司 一种基于大数据分析的企业数据评估方法及设备
CN117422314B (zh) * 2023-12-19 2024-04-12 鲁信科技股份有限公司 一种基于大数据分析的企业数据评估方法及设备

Similar Documents

Publication Publication Date Title
CN113537796A (zh) 一种企业风险评估方法、装置及设备
Sharchilev et al. Web-based startup success prediction
Day et al. Deep learning for financial sentiment analysis on finance news providers
Moro et al. Business intelligence in banking: A literature analysis from 2002 to 2013 using text mining and latent Dirichlet allocation
Hájek et al. Forecasting corporate financial performance using sentiment in annual reports for stakeholders’ decision-making
AU2021205119A1 (en) Risk identification and risk register generation system and engine
US8781989B2 (en) Method and system to predict a data value
KR102121901B1 (ko) 정책자금 온라인 심사평가 시스템
Polyzos et al. Twitter and market efficiency in energy markets: Evidence using LDA clustered topic extraction
Zhang et al. An attention‐based Logistic‐CNN‐BiLSTM hybrid neural network for credit risk prediction of listed real estate enterprises
Song et al. Incorporating research reports and market sentiment for stock excess return prediction: A case of mainland China
Da et al. Non-financial indicators for credit risk analysis of Chinese technology-oriented micro and small enterprises
Fakharchian Designing a forecasting assistant of the Bitcoin price based on deep learning using market sentiment analysis and multiple feature extraction
Farooq et al. Revenue generation from recommendation system using sentimental analysis
Cheng et al. Double-weight LDA extracting keywords for financial fraud detection system
Elena News sentiment in bankruptcy prediction models: Evidence from Russian retail companies
Li et al. Users' Opinions in Online Financial Community and Its Impact on the Market
Jishtu et al. Prediction of the stock market based on machine learning and sentiment analysis
Jishag et al. Automated review analyzing system using sentiment analysis
Arshad et al. Increasing profitability and confidence by using interpretable model for investment decisions
KR101886418B1 (ko) Gpu를 활용한 주가 예측 시뮬레이션 제공 시스템
Tang et al. Stock Price Prediction Based on Natural Language Processing1
Shiqi et al. Analysis of JD Commodity Evaluation Word Cloud Based on Web Crawler
Tan et al. Context-aware Embeddings for Stock Prediction with Visual Clues
Shamisavi et al. Forecasting Tehran Stock Exchange Trend with Time Series Analysis, Fundamental Data, and Sentiment Analysis in News

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination