CN112446778A - 基于知识图谱的企业信用风险识别方法、设备及介质 - Google Patents
基于知识图谱的企业信用风险识别方法、设备及介质 Download PDFInfo
- Publication number
- CN112446778A CN112446778A CN202011238779.2A CN202011238779A CN112446778A CN 112446778 A CN112446778 A CN 112446778A CN 202011238779 A CN202011238779 A CN 202011238779A CN 112446778 A CN112446778 A CN 112446778A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- graph
- data
- risk
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供的基于知识图谱的企业信用风险识别方法,对企业特征字段进行处理,得到结构化企业特征向量;从企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业节点与企业关系链形成对应的图结构特征;使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到图风险特征;根据图结构特征、图风险特征、结构化企业特征向量生成企业总特征向量,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;将预测特征向量输入至预设风险模型中,得到预测风险概率。本发明提供的基于知识图谱的企业信用风险识别方法,提高了企业信用风险的识别精准度,使整个企业信用风险的识别过程更加便捷快速。
Description
技术领域
本发明涉及企业信用风险识别领域,尤其涉及基于知识图谱的企业信用风险识别方法、设备及介质。
背景技术
贷款是小微企业运营生存的可靠保障,在我国大部分企业都是小微企业,小微企业的经营情况直接关系到民生。但是对于小微企业的企业信用风险的判断存在一定困难,因此会给银行业评估企业信用带来困难,企业往往因为没有合理的信用评分而得不到融资,现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供基于知识图谱的企业信用风险识别方法,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
本发明的目的之二在于提供基于知识图谱的企业信用风险识别系统,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
本发明的目的之三在于提供一种电子设备,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
本发明的目的之四在于提供一种计算机存储介质,其能解决现有对于企业信用风险识别基本上只是靠人为的查阅企业信息来判断企业信用风险,存在一定的主观性,导致企业信用风险的判断不够精准的问题。
本发明的目的之一采用以下技术方案实现:
基于知识图谱的企业信用风险识别方法,包括以下步骤:
生成结构化企业特征向量,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;
建立图网络,从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;
生成图风险特征,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;
建立预测风险模型,根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;
企业信用风险识别,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
进一步地,所述生成结构化企业特征向量包括以下子步骤:
特征工程处理,对企业数据大宽表中的企业特征字段进行特征工程处理,得到企业特征向量;
计算衍生指标,根据预设业务条件计算大宽表中的企业特征字段的关键指标;
数据结合,将所述关键指标与所述企业特征向量结合生成结构化企业特征向量。
进一步地,在所述特征工程处理之前还包括根据预设业务逻辑对企业特征字段进行空值填充处理、检查并处理企业特征字段中的异常值。
进一步地,所述生成图风险特征具体为:通过企业之间的企业特征字段计算出企业之间的企业风险传播概率,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,根据企业风险传播概率计算出与企业间网络图中企业节点对应的图风险特征。
进一步地,所述图结构特征包括企业节点的度数量、企业节点对应的三角形数据、企业节点对应的四边形数量。
进一步地,所述根据训练数据对预设风险识别模型进行训练具体为:将训练数据分为训练集数据和测试集数据,将所述训练集数据输入预设风险识别模型进行训练,将所述测试集数据输入至预设风险识别模型中进行测试。
进一步地,还包括生成大宽表,获取含有内部数据和外部数据的企业数据,所述内部数据包括小微企业基础属性、交易流水、借贷行为,所述外部数据包括股东信息、持股比例、行业数据,根据预设表单对所述内部数据和所述外部数据进行表单关联,得到企业数据大宽表。
本发明的目的之二采用以下技术方案实现:
基于知识图谱的企业信用风险识别系统,包括数据存储层、图数据库层、机器学习层以及模型部署应用层,所述数据存储层用于获取含有内部数据和外部数据的企业数据,所述内部数据包括小微企业基础属性、交易流水、借贷行为,所述外部数据包括股东信息、持股比例、行业数据,根据预设表单对所述内部数据和所述外部数据进行表单关联,得到企业数据大宽表;所述数据存储层用于对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;所述图数据库层用于从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;所述图数据库层还用于使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;所述机器学习层用于根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;所述模型部署应用层用于部署所述预设风险模型,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
本发明的目的之三采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于本申请中的基于知识图谱的企业信用风险识别方法。
本发明的目的之四采用以下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请中的基于知识图谱的企业信用风险识别方法。
相比现有技术,本发明的有益效果在于:本申请中的基于知识图谱的企业信用风险识别方法,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率;提高了企业信用风险的识别精准度,使整个企业信用风险的识别过程更加便捷快速。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于知识图谱的企业信用风险识别方法流程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示的基于知识图谱的企业信用风险识别方法,包括以下步骤:
获取含有内部数据和外部数据的企业数据,内部数据包括小微企业基础属性、交易流水、借贷行为,外部数据包括股东信息、持股比例、行业数据,根据预设表单对内部数据和外部数据进行表单关联,得到企业数据大宽表。本实施例中,由数仓对对内部数据和外部数据进行表单关联,数仓每日批量定时同步更新数据。
生成结构化企业特征向量,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量。具体包括以下步骤:
特征工程处理,对企业数据大宽表中的企业特征字段进行特征工程处理,得到企业特征向量。在特征工程处理之前还包括根据预设业务逻辑对企业特征字段进行空值填充处理、检查并处理企业特征字段中的异常值,本实施例中企业特征字段包括数值型字段和字符型字段,对于数值型字段,处理空值和异常值,删除空值率超过50%的记录,填充策略为使用均值填充,使用箱线图检测字段是否存在异常值,删除存在异常值的记录,在预测时同样过滤掉存在异常值的数据;对于字符型字段,使用one-hot编码(One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效)转化为数值型数据,空值使用格外的值进行填充。
计算衍生指标,根据预设业务条件计算大宽表中的企业特征字段的关键指标。本实施例中预设业务条件为6个月销售收入同比下降、申请日前12个月全部销售额均值等,具体可根据实际情况进行设定。
数据结合,将关键指标与企业特征向量结合生成结构化企业特征向量。
建立图网络,从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征。本实施例中图结构特征包括企业节点的度数量、企业节点对应的三角形数据、企业节点对应的四边形数量。本实施例中,企业之间关系分为两种:第一种直接关系,就是存在转账记录的企业间,建立直接关系;第二种间接关系,以股东作为关联实体,通过股东建立企业之间的弱关系,可以建立一个包含两种实体的异构网络。为了简化网络关系,方便使用图算法进行计算,我们归并直接关系和间接关系,归并的方法是只要存在其中一种关系,就在两个企业之间建立关系,最终生成同构网络。异构网络和同构网络有不同的特点,异构网络包括多种类型的节点和关系,直观展现节点之间物理连接关系,我们根据业务逻辑建立不同的异构图谱进行可视化分析,同时通过直观的图谱给业务人员展现模型分析逻辑,让模型的结果具有可解释性,使业务更有方向性的应用模型结果。同构网络节点之间同质,是图算法如随机游走应用的基本条件,异构网络必须通过转化为同构网络之后才能进行图算法计算。
生成图风险特征,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征。具体为:通过企业之间的企业特征字段计算出企业之间的企业风险传播概率,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,根据企业风险传播概率计算出与企业间网络图中企业节点对应的图风险特征。先将每个企业对应的企业特征字段按照上述步骤中方法转化为企业特征向量,实际为结构化企业特征向量中的一个向量。上述企业风险传播概率计算过程中必须先计算出企业间的相似性,相似性的计算方法如公式(1)所示:
其中,α为尺度参数,xi为企业特征向量,wij为企业i和企业j之间的相似性,xi为企业i对应的企业特征向量,xj为企业j对应的企业特征向量。当wij=0时,则表示企业i和企业j之间不存在连接,不存在相似性。标签传播算法同时利用有类别标签数据和无类别标签数据学习有用信息,训练完成后模型可以预测无标签数据风险分值,标签传播算法基于相似节点之间有相同的标签,信用风险通过标签传播,得到每个节点风险分值。定义两个企业之间的企业风险传播概率为P,则P的计算如公式(2)所示:
其中,Pij表示从节点i转移到节点j的企业风险传播概率,wij为企业i和企业j之间的相似性,wik为企业i和企业K之间的相似性。令有类别标签数据为YL,无类别标签数据为YU,将YL和YU合并,软标签矩阵F=[YL;YU],软标签就是保留样本属于每个类别的概率,而不是互斥性的,最后通过计算软标签矩阵F,将概率最大的类作为样本的类别。标签传播算法的流程如下:
(1)以企业风险传播概率执行标签传播:F=PF;
(2)重置F中已标注的标签;
(3)重复步骤(1)和(2)直到软标签矩阵F收敛。
步骤(1)就是将企业风险传播概率对应的矩阵和软标签矩阵F相乘,此步骤中,每个企业节点都将自己的标签以企业风险传播概率传播给其他节点。如果两个企业节点越相似(在欧式空间中距离越近),那么对方的标签就越容易被自己的标签赋予,步骤(2)非常关键,因为标签数据的标签是事先确定的,不能被带跑,所以每次传播完,它都得回归它本来的标签。上述标签传播算法完成之后,每个企业节点对应生成一个图风险分值,将图风险分值作为第页节点对应的图风险特征。
建立预测风险模型,根据图结构特征、图风险特征生成企业图特征,将企业图特征与结构化企业特征向量合并生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,将训练数据分为训练集数据和测试集数据,将训练集数据输入预设风险识别模型进行训练,将测试集数据输入至预设风险识别模型中进行测试。
企业信用风险识别,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。本实施例中,还会从特征重要性、模型结构可视化、训练迭代趋势图等角度解释预设风险概率,对企业间图网络进行展示,可以从关联的紧密度、图的维度关系是否存在异常等方面直观得查看企业是否存在信用风险。同时会展示根据企业间图网络得到的用户画像,对异常指标进行预警。
本实施例中还提供基于知识图谱的企业信用风险识别系统,包括数据存储层、图数据库层、机器学习层以及模型部署应用层;
数据存储层用于获取含有内部数据和外部数据的企业数据,内部数据包括小微企业基础属性、交易流水、借贷行为,外部数据包括股东信息、持股比例、行业数据,根据预设表单对内部数据和外部数据进行表单关联,得到企业数据大宽表;数据存储层用于对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量。
图数据库层用于从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征。图数据库层还用于使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征。本实施例中,图数据库层中使用neo4j数据库(是一个高性能的,NOSQL图形数据库),将企业数据大宽表转化为图节点表单、关系及属性表单,导入图数据库层进行存储,neo4j数据库有cypher语句和neo4j-admin命令行等多种数据导入方式,数据量很大的情况下可以使用neo4j-admin命令行导入,本实施例中使用cypher语句将图节点表单、关系及属性表单导入图数据库中,完成数据导入后就形成一个由点和边构成的图结构,即本申请中的企业间图网络。图数据库层还支持对企业间图网络的交互查询,可以展示某个企业间图网络中某个企业节点,及这个企业节点直接的一度、二度、三度关系,通过条件组合查询两个企业直接的路径等。图数据库层同时支持企业画像,实质为对企业的标签进行展示,以方便用户了解企业。图数据库层支持通用图算法,如度的数量、三角形数量、四边形数量、联通分量、社群发现算法、标签传播算法等图算法。
机器学习层用于根据图结构特征、图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;模型部署应用层用于部署预设风险模型,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
本申请还提供一种电子设备,包括:处理器;
存储器;以及程序,其中程序被存储在存储器中,并且被配置成由处理器执行,程序包括用于本申请中的基于知识图谱的企业信用风险识别方法。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行本申请中的基于知识图谱的企业信用风险识别方法。
本申请中的基于知识图谱的企业信用风险识别方法,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;根据图结构特征、图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率;提高了企业信用风险的识别精准度,使整个企业信用风险的识别过程更加便捷快速。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。
Claims (10)
1.基于知识图谱的企业信用风险识别方法,其特征在于:包括以下步骤:
生成结构化企业特征向量,对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;
建立图网络,从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;
生成图风险特征,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;
建立预测风险模型,根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;
企业信用风险识别,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
2.如权利要求1所述的基于知识图谱的企业信用风险识别方法,其特征在于:所述生成结构化企业特征向量包括以下子步骤:
特征工程处理,对企业数据大宽表中的企业特征字段进行特征工程处理,得到企业特征向量;
计算衍生指标,根据预设业务条件计算大宽表中的企业特征字段的关键指标;
数据结合,将所述关键指标与所述企业特征向量结合生成结构化企业特征向量。
3.如权利要求2所述的基于知识图谱的企业信用风险识别方法,其特征在于:在所述特征工程处理之前还包括根据预设业务逻辑对企业特征字段进行空值填充处理、检查并处理企业特征字段中的异常值。
4.如权利要求1所述的基于知识图谱的企业信用风险识别方法,其特征在于:所述生成图风险特征具体为:通过企业之间的企业特征字段计算出企业之间的企业风险传播概率,使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,根据企业风险传播概率计算出与企业间网络图中企业节点对应的图风险特征。
5.如权利要求1所述的基于知识图谱的企业信用风险识别方法,其特征在于:所述图结构特征包括企业节点的度数量、企业节点对应的三角形数据、企业节点对应的四边形数量。
6.如权利要求1所述的基于知识图谱的企业信用风险识别方法,其特征在于:所述根据训练数据对预设风险识别模型进行训练具体为:将训练数据分为训练集数据和测试集数据,将所述训练集数据输入预设风险识别模型进行训练,将所述测试集数据输入至预设风险识别模型中进行测试。
7.如权利要求1所述的基于知识图谱的企业信用风险识别方法,其特征在于:还包括生成大宽表,获取含有内部数据和外部数据的企业数据,所述内部数据包括小微企业基础属性、交易流水、借贷行为,所述外部数据包括股东信息、持股比例、行业数据,根据预设表单对所述内部数据和所述外部数据进行表单关联,得到企业数据大宽表。
8.基于知识图谱的企业信用风险识别系统,其特征在于:包括数据存储层、图数据库层、机器学习层以及模型部署应用层,所述数据存储层用于获取含有内部数据和外部数据的企业数据,所述内部数据包括小微企业基础属性、交易流水、借贷行为,所述外部数据包括股东信息、持股比例、行业数据,根据预设表单对所述内部数据和所述外部数据进行表单关联,得到企业数据大宽表;所述数据存储层用于对获取到的企业数据大宽表中的企业特征字段进行处理,得到结构化企业特征向量;所述图数据库层用于从获取到的企业数据大宽表中抽取企业之间关系,根据企业之间关系建立企业间图网络,所述企业间图网络包括若干企业节点,企业节点之间由企业关系链进行连接,企业节点与企业关系链形成对应的图结构特征;所述图数据库层还用于使用标签传播算法将预设黑样本沿着企业间图网络中的企业关系链传播信用风险,得到与企业间网络图中企业节点对应的图风险特征;所述机器学习层用于根据所述图结构特征、所述图风险特征、结构化企业特征向量生成企业总特征向量,将企业总特征向量与预设标签数据结合生成训练数据,根据训练数据对预设风险识别模型进行训练,得到预设风险模型;所述模型部署应用层用于部署所述预设风险模型,将预测企业的预测数据和预测特征结合生成预测特征向量,将预测特征向量输入至预设风险模型中,得到预测风险概率。
9.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-7中任意一项所述的基于知识图谱的企业信用风险识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行权利要求1-7中任意一项所述的基于知识图谱的企业信用风险识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238779.2A CN112446778A (zh) | 2020-11-09 | 2020-11-09 | 基于知识图谱的企业信用风险识别方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238779.2A CN112446778A (zh) | 2020-11-09 | 2020-11-09 | 基于知识图谱的企业信用风险识别方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112446778A true CN112446778A (zh) | 2021-03-05 |
Family
ID=74736906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011238779.2A Pending CN112446778A (zh) | 2020-11-09 | 2020-11-09 | 基于知识图谱的企业信用风险识别方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446778A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094506A (zh) * | 2021-04-14 | 2021-07-09 | 每日互动股份有限公司 | 一种基于关系图谱的预警方法、计算机设备及存储介质 |
CN113469697A (zh) * | 2021-06-30 | 2021-10-01 | 重庆富民银行股份有限公司 | 基于知识图谱的无监督异常检测方法及装置 |
CN113537796A (zh) * | 2021-07-22 | 2021-10-22 | 大路网络科技有限公司 | 一种企业风险评估方法、装置及设备 |
CN113674081A (zh) * | 2021-07-30 | 2021-11-19 | 浙江创邻科技有限公司 | 一种基于图数据库的中小企业风控管理系统及方法 |
CN114202223A (zh) * | 2021-12-16 | 2022-03-18 | 深圳前海微众银行股份有限公司 | 企业信用风险评分方法、装置、设备及存储介质 |
CN117709732A (zh) * | 2024-02-06 | 2024-03-15 | 北京天译科技有限公司 | 结合气象监测数据的农业灾害报告生成方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222681A (zh) * | 2019-11-05 | 2020-06-02 | 量子数聚(北京)科技有限公司 | 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质 |
-
2020
- 2020-11-09 CN CN202011238779.2A patent/CN112446778A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222681A (zh) * | 2019-11-05 | 2020-06-02 | 量子数聚(北京)科技有限公司 | 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094506A (zh) * | 2021-04-14 | 2021-07-09 | 每日互动股份有限公司 | 一种基于关系图谱的预警方法、计算机设备及存储介质 |
CN113094506B (zh) * | 2021-04-14 | 2023-08-18 | 每日互动股份有限公司 | 一种基于关系图谱的预警方法、计算机设备及存储介质 |
CN113469697A (zh) * | 2021-06-30 | 2021-10-01 | 重庆富民银行股份有限公司 | 基于知识图谱的无监督异常检测方法及装置 |
CN113469697B (zh) * | 2021-06-30 | 2022-12-06 | 重庆富民银行股份有限公司 | 基于知识图谱的无监督异常检测方法及装置 |
CN113537796A (zh) * | 2021-07-22 | 2021-10-22 | 大路网络科技有限公司 | 一种企业风险评估方法、装置及设备 |
CN113674081A (zh) * | 2021-07-30 | 2021-11-19 | 浙江创邻科技有限公司 | 一种基于图数据库的中小企业风控管理系统及方法 |
CN113674081B (zh) * | 2021-07-30 | 2023-12-19 | 浙江创邻科技有限公司 | 一种基于图数据库的中小企业风控管理系统及方法 |
CN114202223A (zh) * | 2021-12-16 | 2022-03-18 | 深圳前海微众银行股份有限公司 | 企业信用风险评分方法、装置、设备及存储介质 |
CN117709732A (zh) * | 2024-02-06 | 2024-03-15 | 北京天译科技有限公司 | 结合气象监测数据的农业灾害报告生成方法及系统 |
CN117709732B (zh) * | 2024-02-06 | 2024-04-26 | 北京天译科技有限公司 | 结合气象监测数据的农业灾害报告生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446778A (zh) | 基于知识图谱的企业信用风险识别方法、设备及介质 | |
Soibelman et al. | Management and analysis of unstructured construction data types | |
JP4451624B2 (ja) | 情報体系対応付け装置および対応付け方法 | |
US6829608B2 (en) | Systems and methods for discovering mutual dependence patterns | |
CN112434024B (zh) | 面向关系型数据库的数据字典生成方法、装置、设备及介质 | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CA2783492C (en) | Associative memory visual evaluation tool | |
La Rosa et al. | Detecting approximate clones in business process model repositories | |
Pillai et al. | Spatio-temporal co-occurrence pattern mining in data sets with evolving regions | |
US20120297364A1 (en) | Augmented design structure matrix visualizations for software system analysis | |
CN112116331A (zh) | 一种人才推荐方法及装置 | |
Parameswaran et al. | Optimizing open-ended crowdsourcing: The next frontier in crowdsourced data management | |
Kanti Kumar et al. | Application of graph mining algorithms for the analysis of web data | |
Zou et al. | A fast incremental algorithm for deleting objects from a concept lattice | |
CN109670015A (zh) | 数据分析方法、计算机可读存储介质及终端设备 | |
CN113705201B (zh) | 基于文本的事件概率预测评估算法、电子设备及存储介质 | |
CN116795995A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
Klosterman | Data Science Projects with Python: A case study approach to gaining valuable insights from real data with machine learning | |
US20230259756A1 (en) | Graph explainable artificial intelligence correlation | |
Gupta | Data Science with Jupyter: Master Data Science skills with easy-to-follow Python examples | |
CN111259027B (zh) | 一种数据一致性检测方法 | |
Graf et al. | Frost: a platform for benchmarking and exploring data matching results | |
Sulo et al. | DaVis: a tool for visualizing data quality | |
US20230394021A1 (en) | Computing similarity of tree data structures using metric functions defined on sets | |
US11126795B2 (en) | Systems and methods for analyzing human thought |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |