CN114202223A - 企业信用风险评分方法、装置、设备及存储介质 - Google Patents

企业信用风险评分方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114202223A
CN114202223A CN202111543805.7A CN202111543805A CN114202223A CN 114202223 A CN114202223 A CN 114202223A CN 202111543805 A CN202111543805 A CN 202111543805A CN 114202223 A CN114202223 A CN 114202223A
Authority
CN
China
Prior art keywords
enterprise
knowledge graph
trained
credit risk
credit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111543805.7A
Other languages
English (en)
Inventor
左媛
陈婷
吴三平
庄伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202111543805.7A priority Critical patent/CN114202223A/zh
Publication of CN114202223A publication Critical patent/CN114202223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种企业信用风险评分方法、装置、设备及存储介质,所述企业信用风险评分方法包括:获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据,基于所述企业基础数据,构建所述目标企业的企业知识图谱,基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合,基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得。本申请解决预测企业信用风险的准确性较低的技术问题。

Description

企业信用风险评分方法、装置、设备及存储介质
技术领域
本申请涉及金融科技(Fintech)的机器学习技术领域,尤其涉及一种企业信用风险评分方法、装置、设备及存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求。
当前,企业信用风险大多表现为信贷风险,主要指企业向银行借贷的款项,到了约定期限企业不能按期偿还而形成的逾期或呆账从而让银行遭受损失,而现有对企业风险的评估主要通过构建以企业财务数据为核心的指标体系评价企业信用风险,或者以企业财务数据为核心来训练模型以进行预测信贷风险,也即,通过与企业直接相关的结构化指标来衡量企业信用风险,例如还款类指标、获利类指标、履约情况类情况等,较少考虑企业与企业间的风险间接关联关系,以及企业法定代表、高管与企业间的间接风险关联关系,进而导致预测企业信用风险的准确性较低。
发明内容
本申请的主要目的在于提供一种企业信用风险评分方法、装置、设备及存储介质,旨在解决现有技术中的预测企业信用风险的准确性较低的技术问题。
为实现上述目的,本申请提供一种企业信用风险评分方法,所述企业信用风险评分方法包括:
获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据;
基于所述企业基础数据,构建所述目标企业的企业知识图谱;
基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合;
基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得。
本申请还提供一种企业信用风险评分装置,所述企业信用风险评分装置为虚拟装置,所述企业信用风险评分装置包括:
获取模块,获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据;
构建模块,用于基于所述企业基础数据,构建所述目标企业的企业知识图谱;
特征提取模块,用于基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合;
风险预测模块,用于基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得。
本申请还提供一种企业信用风险评分设备,所述企业信用风险评分设备为实体设备,所述企业信用风险评分设备包括:存储器、处理器以及存储在所述存储器上的企业信用风险评分程序,所述企业信用风险评分程序被所述处理器执行实现如上述的企业信用风险评分方法的步骤。
本申请还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储企业信用风险评分程序,所述企业信用风险评分程序被处理器执行实现如上述的企业信用风险评分方法的步骤。
本申请提供了一种企业信用风险评分方法、装置、设备及存储介质,相比于现有技术采用的以企业财务数据为核心来训练模型以进行预测信贷风险的技术手段,本申请首先获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据,进而基于所述企业基础数据,构建所述目标企业的企业知识图谱,也即获得目标企业以及与所述目标企业相关联的主体对象的企业知识图谱,从而基于企业知识图谱更好地深入挖掘企业与法人显性、隐性关联关系,以及企业与企业之间隐藏的关联关系等有价值的信息,进一步地,基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合,进而基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得,从而实现了结合不同维度的特征集合,提供了一种融合企业以及与企业有关联性的主体对象的企业信用风险评分方法,根据不同维度的特征集合进行搭建目标信用风控模型,从多关系角度分析问题,深层次挖掘主体对象与主体对象之间的潜力关系以及数据背后的价值,提升信息价值密度,从而使得通过目标信用风控模型能够更精准、更及时地发现企业信用风险,进而使得金融机构做出有效的风险评级和决策,从而提高了对企业信用风险预测的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域默认技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请企业信用风险评分方法第一实施例的流程示意图;
图2为本申请企业信用风险评分方法第二实施例的流程示意图;
图3为本申请企业信用风险评分方法第三实施例的流程示意图;
图4为本申请企业知识图谱有向图结构示意图;
图5为本申请实施例方案涉及的硬件运行环境的企业信用风险评分设备结构示意图;
图6为本申请企业信用风险评分装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种企业信用风险评分方法,在本申请企业信用风险评分方法的第一实施例中,参照图1,所述企业信用风险评分方法包括:
步骤S10,获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据;
在本实施例中,需要说明的是,所述企业基础数据包括企业的风险信息,实体属性信息、企业在企业知识图谱中与其他实体之间结构信息,所述主体对象包括组织机构主体、人物主体等。本申请中全面考虑到与目标企业直接关联关系的数据与间接关联关系的数据,深入挖掘个人与企业显性、隐性关联关系,以及企业与企业之间隐藏的关联关系等有价值的信息,从而使得信用风险预测的可信度更高。
步骤S20,基于所述企业基础数据,构建所述目标企业的企业知识图谱;
在本实施例中,需要说明的是,企业知识图谱用于表征主体对象自身的实体、属性以及各实体之间的关系。企业知识图谱是对客观物理世界的一种结构化的符号表达,也是一个网状知识库,它由具有属性的实体通过关系链接而成,关系也包括自身的属性。从图论的角度理解,企业知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系,在本申请中,企业知识图谱构建的关键点在于企业与企业之间、企业与人物之间关系的挖掘,通过这些关系,可以构建企业关系网络,即企业知识图谱。构建企业知识图谱,能够帮助我们从大量杂乱的数据中挖掘出企业潜在的关联。
具体地,根据所述企业基础数据,提取企业基础数据对应的实体、实体之间的关联关系、实体属性信息也即,提取实体属性信息、企业风险信息、企业外部关系三个维度的数据,从而构建企业与企业、企业与法定代表人、企业与企业风险信息、个人与企业风险信息之间的企业知识图谱。
步骤S30,基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合;
在本实施例中,需要说明的是,所述不同维度的企业特征集合包括目标企业的企业结构特征、企业风险特征和企业属性特征。
基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合,具体地,基于所述企业知识图谱中的企业风险信息和实体属性信息,通过预设特征提取算法提取所述目标企业对应的企业风险特征和企业属性特征,进而将所述企业知识图谱的异构知识图转化为同构知识图,获得转换后的企业知识图谱,进一步地,需要说明的是,由于企业结构特征会根据企业知识图谱中点和边的新增发生较大波动,因此,在提取企业结构特征的过程中,先判断所述待训练企业对应的企业知识图谱在当前时间点是否存在新增主体对象节点或新增边,若不存在,则通过图节点嵌入算法提取所述企业知识图谱中各主体对象节点的结构特征向量,若存在,则以新增主体对象节点或新增边为中心进行预设深度的深度优先遍历,形成目标子知识图谱,进而将上一时间点提取的结构特征向量融合进当前时间点对应目标子知识图谱的各主体对象节点进行局部训练,从而实现了动态增量更新企业结构特征。
步骤S40,基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业的企业知识图谱中不同维度的特征集合进行迭代训练获得。
在本实施例中,需要说明的是,所述不同维度的特征集合包括企业实体属性信息、企业风险信息、企业外部关系对应的特征。
基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业的企业知识图谱中不同维度的特征集合进行迭代训练获得,具体地,首先,预先获得待训练企业以及与所述待训练企业具有关联关系的主体对象对应的历史数据,进而基于所述历史数据提取各主体对象之间的关联关系、实体属性信息等信息,以构建所述待训练企业对应的企业知识图谱,进而基于所述企业知识图谱,提取企业结构特征、企业风险特征和企业属性特征不同维度的特征数据,进一步地,基于所述企业风险特征和所述企业属性特征,对待训练子模型进行迭代训练,获得中间训练模型,进一步地,需要说明的是,由于企业结构特征会根据企业知识图谱中点和边的新增发生较大波动,因此,在提取企业结构特征的过程中,是通过图节点嵌入算法提取所述企业知识图谱中各主体对象节点的结构特征向量,获得所述企业知识图谱的结构特征向量,若检测到所述待训练企业对应的企业知识图谱在当前时间点是存在新增主体对象节点或新增边,则以新增主体对象节点或新增边为中心进行预设深度的深度优先遍历,形成目标子知识图谱,进而将上一时间点提取的结构特征向量进行特征融合,对当前时间点对应目标子知识图谱的各主体对象节点进行局部训练,获得当前时间点的企业结构特征,从而实现了动态增量更新企业结构特征,进而基于所述动态增量更新企业结构特征,对所述基于企业风险特征和企业属性特征训练得到的中间训练模型进行迭代训练,从而获得以企业为核心的信用风险模型,进一步地,通过企业实体属性信息、企业风险信息、企业外部关系三个维度对应的特征数据作为信用风险模型的输入,以对所述风险预测,获得所述企业信用评分结果,从而提供从多关系角度分析问题的能力,深层次挖掘个体与个体之间的潜力关系以及数据背后的价值,提升风险信息价值密度,从而帮助银行评估风险优化决策。
本申请实施例提供了一种企业信用风险评分方法,相比于现有技术采用的以企业财务数据为核心来训练模型以进行预测信贷风险的技术手段,本申请实施例首先获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据,进而基于所述企业基础数据,构建所述目标企业的企业知识图谱,也即获得目标企业以及与所述目标企业相关联的主体对象的企业知识图谱,从而基于企业知识图谱更好地深入挖掘企业与法人显性、隐性关联关系,以及企业与企业之间隐藏的关联关系等有价值的信息,进一步地,基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合,进而基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得,从而实现了结合不同维度的特征集合,提供了一种融合企业以及与企业有关联性的主体对象的企业信用风险评分方法,根据不同维度的特征集合进行搭建目标信用风控模型,从多关系角度分析问题,深层次挖掘主体对象与主体对象之间的潜力关系以及数据背后的价值,提升信息价值密度,从而使得通过目标信用风控模型能够更精准、更及时地发现企业信用风险,进而使得金融机构做出有效的风险评级和决策,从而提高了对企业信用风险预测的准确性。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,在所述基于所述不同维度的企业特征集合,通过目标信用风控模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得的步骤之前,所述企业信用风险评分方法还包括:
步骤A10,获取主体对象的待训练历史数据,其中,所述主体对象包括待训练企业以及与所述待训练企业关联的多个主体对象;
在本实施例中,获取主体对象的待训练历史数据,其中,所述主体对象包括待训练企业以及与所述待训练企业关联的多个主体对象,具体地,获取待训练企业以及待训练企业关联的多个主体对象分别对应的待训练历史数据,收集待训练企业关联的多个主体对象待训练历史数据的目的是扩大考虑企业与企业间的风险间接关联关系,以及企业法定代表、企业高管与企业间的间接风险关联关系,从而提高模型的鲁棒性。
步骤A20,基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱;
在本实施例中,基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱,具体地,基于所述待训练历史数据,具体地,基于所述待训练历史数据,对所述待训练历史数据进行提取实体信息以及属性信息,其中,所述实体信息包括实体以及各实体之间的关系信息,进而对所述实体信息以及所述属性信息进行知识抓取和实体链接,即对知识进行整合,形成各实体之间有关系的企业知识图谱。
其中,所述基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱的步骤包括:
步骤A21,确定所述待训练历史数据对应的实体信息和属性信息;
在本实施例中,确定所述待训练历史数据对应的实体信息和属性信息,具体地,基于所述待训练历史数据,提取所述待训练历史数据对应的各实体,且提取各实体之间的关联关系,也即,提取待训练企业以及与所述待训练企业关联的多个主体对象之间的关联关系,并将所述实体以及各实体之间的关联关系作为所述实体信息,其中,所述各实体之间的关联关系包括人物实体和企业实体之间存在的任职关系、企业实体和企业实体之间的投资关系,或者企业实体和企业实体之间与股权交易有关的关联交易关系,进一步地,还提取各实体分别对应的属性信息。
步骤A22,基于所述实体信息和所述属性信息,对所述待训练历史数据进行知识抽取,获得所述待训练企业的企业知识图谱。
在本实施例中,基于所述实体信息和所述属性信息,对所述待训练历史数据进行知识抽取,获得所述待训练企业的企业知识图谱,具体地,对所述实体信息以及所述属性信息进行知识抓取和实体链接,从而形成各实体之间有关系的知识图谱信息,进而对整合后得到的知识图谱信息加入到结构化知识库中,利用结构化知识库的知识推理进行知识图谱演示,从而获得所述企业知识图谱,例如,假设A企业投资B公司,B公司的法定代表人为C,企业知识图谱可以表示为A->B<-C。
步骤A30,对所述企业知识图谱进行特征提取,获得待训练企业特征集合,其中,所述待训练企业特征集合包括企业结构特征、企业风险特征和企业属性特征;
在本实施例中,需要说明的是,所述企业风险特征为企业知识图谱中企业风险信息的相关特征,所述企业属性特征指企业知识图谱中实体属性信息的特征,所述企业结构特征指企业在知识图谱中与其他实体具有同质性和结构性的向量表示,其中,所述同质性指的是距离相近节点的embedding特征向量应该尽量近似,结构性指的是结构上相似的节点的embedding应该尽量接近。
对所述企业知识图谱进行特征提取,获得待训练企业特征集合,其中,所述待训练企业特征集合包括企业结构特征、企业风险特征和企业属性特征,具体地,对所述企业知识图谱中的实体属性信息以及企业风险信息进行特征提取,从而获得所述企业属性特征以及所述企业风险特征,在一种可实施方式中,特征提取方法包括梯度提升决策树、神经网络等进行特征提取,例如GBDT、XBGoost和LightGBM等梯度提升决策树,进一步地,在提取企业结构特征时,可先把将所述企业知识图谱中的异构知识图转化为同构知识图,当所述企业知识图谱中的主体对象节点,通过图节点嵌入算法动态提取方法来学习转化后企业知识图谱中各主体对象节点的embedding结构特征向量,进而获得所述企业结构特征,其中,所述图节点嵌入算法包括node2vec、word2vec、doc2vec等算法,在本申请中,优选地,选取node2vec算法进行特征提取,进一步地,由于所述企业结构特征会随企业知识图谱点和边的新增发生较大波动,因此,若所述转换后知识图谱在当前时间点存在新增主体对象节点或新增边,则获取以新增主体对象节点或新增边为中心的目标子知识图谱,进而基于上一时间点的结构特征向量,对当前时间的目标子知识图谱的各主体对象节点进行融合训练,从而获得当前时间点的企业结构特征,其中,所述形成目标子知识图谱的方法可以为以当前新增主体对象节点或者新增边为中心向外进行预设深度的深度优先遍历,或者,以当前新增主体对象节点或者新增边为中心向外进行广度优先遍历,直至遍历完成与新增主体对象节点或者新增边相邻的所有节点。
其中,所述对所述企业知识图谱进行特征提取,获得待训练企业特征集合的步骤包括:
步骤A31,基于预设特征提取算法,对所述企业知识图谱中的实体属性信息以及企业风险信息进行特征提取,获得所述企业属性特征以及所述企业风险特征;
步骤A40,基于所述企业风险特征和企业属性特征,对待训练子模型进行迭代训练,获得中间训练模型;
在本实施例中,需要说明的是,在待训练企业特征集合中,企业风险特征和企业属性特征属于相对稳定的特征变量集合,不易受企业知识图谱结构的变化而变化。
基于所述企业风险特征和企业属性特征,对待训练子模型进行迭代训练,获得中间训练模型,具体地,在进行迭代训练之前,先获取待训练子模型,进而对所述待训练子模型进行迭代训练优化,并判断优化后的待训练子模型是否满足预设训练结束条件,其中,所述预设训练结束条件包括损失函数收敛和达到最大迭代次数阈值等条件,若满足,则获得所述中间训练模型,若不满足,则返回执行步骤:基于所述企业风险特征和企业属性特征,对待训练子模型进行迭代训练。
步骤A50,基于所述企业结构特征,对所述中间训练模型进行模型训练,获得所述信用风险模型。
其中,所述基于所述企业结构特征,对所述中间训练模型进行模型训练,获得所述信用风险模型的步骤包括:
步骤A51,将所述企业结构特征输入所述中间训练模型,获得所述待训练企业对应的预测结果;
步骤A52,基于所述预测结果以及所述待训练企业对应的信用风险标签,计算模型损失;
在本实施例中,需要说明的是,待训练企业在模型训练之前会标记待训练企业对应的信用风险标签。
基于所述预测结果以及所述待训练企业对应的信用风险标签,计算模型损失,具体地,基于所述预测结果与所述待训练企业对应的信用风险标签之间的差异度,通过预设损失函数计算模型损失,例如,通过L2损失函数计算模型损失。
步骤A53,基于所述模型损失的计算的梯度,对所述中间训练模型进行迭代训练优化,获得所述信用风险模型。
在本实施例中,基于所述模型损失的计算的梯度,对所述中间训练模型进行迭代训练优化,获得所述信用风险模型,具体地,基于所述模型损失计算的梯度,对所述对中间训练模型进行迭代训练,以优化所述中间训练模型,并判断优化后的中间训练模型是否满足预设训练结束条件,若满足,则获得所述信用风险模型,若不满足,则返回执行步骤:获取主体对象的待训练历史数据。
本申请实施例提供了一种企业信用风险评分方法,也即,获取主体对象的待训练历史数据,其中,所述主体对象包括待训练企业以及与所述待训练企业关联的多个主体对象,基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱,对所述企业知识图谱进行特征提取,获得待训练企业特征集合,其中,所述待训练企业特征集合包括企业结构特征、企业风险特征和企业属性特征,基于所述企业风险特征和企业属性特征,对待训练子模型进行迭代训练,获得中间训练模型,基于所述企业结构特征,对所述中间训练模型进行模型训练,获得所述信用风险模型,知识图谱的构建以不同主体对象数据结构的数据为基础,可以较为全面客观地反映实体之间的关联关系,拓展构建模型的数据维度,从而提高基于不同维度的数据训练出来的模型对企业的信用风险预测的准确率。
进一步地,参照图3,基于本申请中第二实施例,在本申请的另一实施例中,所述对所述企业知识图谱进行特征提取,获得待训练企业特征集合的步骤包括:
步骤B10,将所述企业知识图谱中的异构知识图转化为同构知识图,获得转换后知识图谱;
步骤B20,动态提取所述转换后知识图谱中各主体对象节点的结构特征向量,获得所述企业结构特征。
在本实施例中,需要说明的是,特征向量提取的算法包括图节点嵌入算法、神经网络等,优选地,选取图节点嵌入算法。
具体地,基于所述转换后知识图谱,在每一时间点均需要判断所述转换后知识图谱是否存在新增主体对象节点或者新增边,若不存在,则直接通过所述图节点嵌入算法,提取所述转换后知识图谱中各主体对象节点的结构特征向量,获得所述企业结构特征,若存在,则说明所述转换后知识图谱的结构发生变化,进而需要说明的是,由于在本申请中的企业知识图谱是有向图,有向图中包括出度和入度两个方向,在一种可实施方式中,以所述新增主体对象节点或者新增边为中心,根据出度方向向外进行预设深度的深度优先遍历,从而获得目标子知识图谱,通过所述图节点嵌入算法提取所述目标子知识图谱的特征信息,进而将上一时间点所提取到的企业结构特征和所述目标子知识图谱的特征信息进行特征融合,获得当前时间点的企业结构特征,从而实现动态增量更新企业结构特征,无需重新计算转换后知识图谱全网络结构特征,提高企业结构特征提取的效率。
其中,所述动态提取所述转换后知识图谱中各主体对象节点的结构特征向量,获得所述企业结构特征的步骤包括:
步骤B21,基于转换后知识图谱的网络结构性质,通过图节点嵌入算法提取所述转换后知识图谱中各主体对象节点的结构特征向量;
在本实施例中,需要说明的是,转换后知识图谱的网络结构性质包括主体对象节点之间的同性质和结构性,参照图4,图4为本申请企业知识图谱有向图结构示意图,其中,节点E1和节点E2是各自网络的中心节点且结构相似,其embedding结构特征向量的表达也应该近似,即为结构性的体现,进一步地,节点E1与其相连的节点E3、E3的embedding结构特征向量表达应该接近,即为同质性的体现。
具体地,通过图节点嵌入算法提取所述转换后知识图谱进行结构特征提取,对其知识进行向量化表示,将转换后知识图谱中的实体和实体间的关系嵌入到稠密的低维向量中,获得所述转换后知识图谱的结构特征向量,在一种可实施方式中,利用node2vec算法将转换后知识图谱对应网络中的特征映射到高维空间向量化表示,并累加相关特征向量得到所述转换后知识图谱中各主体对象节点的结构特征向量。
步骤B22,若所述转换后知识图谱在当前时间点存在新增主体对象节点或新增边,则以新增主体对象节点或新增边为中心进行预设深度的深度优先遍历,形成目标子知识图谱;
在本实施例中,需要说明的是,新增主体对象节点包括新的法定代表人,新增的参股投资企业等,所述企业结构特征会随企业知识图谱点和边的新增发生较大波动,且每次企业知识图谱发生变动需要重新计算所有节点结构特征向量,会导致了计算资源消耗大、结构向量可追溯性差的问题,进一步地,由于本申请的企业知识图谱属于事实类关系,可以理解地,每次新增的主体对象节点和边也只是在小部分改变图谱结构。
具体地,当在当前时间点内检测到转换后知识图谱存在新增主体对象节点或新增边,则证明所述转换后知识图谱的结构会发生变化,进而以所述新增主体对象节点或所述新增边为中心向外出发,按照事先设置的遍历深度步长进行深度优先遍历,从而获得以所述新增主体对象节点或所述新增边为中心的目标子知识图谱,例如,转换后知识图谱新增一个投资企业对应的主体对象节点S。
步骤B23,将所述目标子知识图谱的特征信息与当前新增节点对应上一时间点的企业结构特征进行特征融合,获得所述企业结构特征。
在本实施例中,具体地,将上一个时间点的结构特征向量来融合进当前时间对应目标子知识图谱的各主体对象节点,以对目标子知识图谱的各主体对象节点局部训练融合,不断迭代训练得到更新后的企业结构特征,从而实现流量动态增量更新企业结构特征,进而使得存在每次新增的节点和边,只需要对这小部分改变的结构进行重新计算,从而避免对全网络重新计算。
参照图5,图5是本申请实施例方案涉及的硬件运行环境的企业信用风险评分设备结构示意图。
如图5所示,该企业信用风险评分设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该企业信用风险评分设备还可以包括矩形用户接口、网络接口、相机、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可包括标准的有线接口、无线接口(如WIFI接口)。
本领域技术人员可以理解,图5中示出的企业信用风险评分设备结构并不构成对企业信用风险评分设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图5所示,作为一种计算机存储介质的存储器1005中可以包括操作装置、网络通信模块以及企业信用风险评分程序。操作装置是管理和控制企业信用风险评分设备硬件和软件资源的程序,支持企业信用风险评分程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与企业信用风险评分装置中其它硬件和软件之间通信。
在图5所示的企业信用风险评分设备中,处理器1001用于执行存储器1005中存储的企业信用风险评分程序,实现上述任一项所述的企业信用风险评分方法的步骤。
本申请企业信用风险评分设备具体实施方式与上述企业信用风险评分方法各实施例基本相同,在此不再赘述。
此外,请参照图5,图5是本申请企业信用风险评分装置的功能模块示意图,本申请还提供一种企业信用风险评分装置,所述企业信用风险评分装置包括:
获取模块,获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据;
构建模块,用于基于所述企业基础数据,构建所述目标企业的企业知识图谱;
特征提取模块,用于基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合;
风险预测模块,用于基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得。
可选地,所述企业信用风险评分装置还用于:
获取主体对象的待训练历史数据,其中,所述主体对象包括待训练企业以及与所述待训练企业关联的多个主体对象;
基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱;
对所述企业知识图谱进行特征提取,获得待训练企业特征集合,其中,所述待训练企业特征集合包括企业结构特征、企业风险特征和企业属性特征;
基于所述企业风险特征和企业属性特征,对待训练子模型进行迭代训练,获得中间训练模型;
基于所述企业结构特征,对所述中间训练模型进行模型训练,获得所述信用风险模型。
可选地,所述企业信用风险评分装置还用于:
基于预设特征提取算法,对所述企业知识图谱中的实体属性信息以及企业风险信息进行特征提取,获得所述企业属性特征以及所述企业风险特征;
可选地,所述企业信用风险评分装置还用于:
将所述企业知识图谱中的异构知识图转化为同构知识图,获得转换后知识图谱;
动态提取所述转换后知识图谱中各主体对象节点的结构特征向量,获得所述企业结构特征。
可选地,所述企业信用风险评分装置还用于:
基于转换后知识图谱的网络结构性质,通过图节点嵌入算法提取所述转换后知识图谱中各主体对象节点的结构特征向量;
若所述转换后知识图谱在当前时间点存在新增主体对象节点或新增边,则以新增主体对象节点或新增边为中心进行预设深度的深度优先遍历,形成目标子知识图谱;
基于在形成所述目标子知识图谱之前上一时间点的结构特征向量,对当前时间点对应目标子知识图谱的各主体对象节点进行局部训练,获得更新后的企业结构特征。
可选地,所述企业信用风险评分装置还用于:
确定所述待训练历史数据对应的实体信息和属性信息;
基于所述实体信息和所述属性信息,对所述待训练历史数据进行知识抽取,获得所述待训练企业的企业知识图谱。
可选地,所述企业信用风险评分装置还用于:
将所述企业结构特征输入所述中间训练模型,获得所述待训练企业对应的预测结果;
基于所述预测结果以及所述待训练企业对应的信用风险标签,计算模型损失;
基于所述模型损失的计算的梯度,对所述中间训练模型进行迭代训练优化,获得所述信用风险模型。
本申请企业信用风险评分装置的具体实施方式与上述企业信用风险评分方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种存储介质,所述存储介质为计算机可读存储介质,且所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的企业信用风险评分方法的步骤。
本申请计算机可读存储介质具体实施方式与上述企业信用风险评分方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种企业信用风险评分方法,其特征在于,所述企业信用风险评分方法包括:
获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据;
基于所述企业基础数据,构建所述目标企业的企业知识图谱;
基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合;
基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得。
2.如权利要求1所述的企业信用风险评分方法,其特征在于,在所述基于所述不同维度的企业特征集合,通过目标信用风控模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得的步骤之前,所述企业信用风险评分方法还包括:
获取主体对象的待训练历史数据,其中,所述主体对象包括待训练企业以及与所述待训练企业关联的多个主体对象;
基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱;
对所述企业知识图谱进行特征提取,获得待训练企业特征集合,其中,所述待训练企业特征集合包括企业结构特征、企业风险特征和企业属性特征;
基于所述企业风险特征和企业属性特征,对待训练子模型进行迭代训练,获得中间训练模型;
基于所述企业结构特征,对所述中间训练模型进行模型训练,获得所述信用风险模型。
3.如权利要求2所述的企业信用风险评分方法,其特征在于,所述对所述企业知识图谱进行特征提取,获得待训练企业特征集合的步骤包括:
将所述企业知识图谱中的异构知识图转化为同构知识图,获得转换后知识图谱;
动态提取所述转换后知识图谱中各主体对象节点的结构特征向量,获得所述企业结构特征。
4.如权利要求3所述的企业信用风险评分方法,其特征在于,所述动态提取所述转换后知识图谱中各主体对象节点的结构特征向量,获得所述企业结构特征的步骤包括:
基于转换后知识图谱的网络结构性质,通过图节点嵌入算法提取所述转换后知识图谱中各主体对象节点的结构特征向量;
若所述转换后知识图谱在当前时间点存在新增主体对象节点或新增边,则以新增主体对象节点或新增边为中心进行预设深度的深度优先遍历,形成目标子知识图谱;
基于在形成所述目标子知识图谱之前上一时间点的结构特征向量,对当前时间点对应目标子知识图谱的各主体对象节点进行局部训练,获得更新后的企业结构特征。
5.如权利要求2所述的企业信用风险评分方法,其特征在于,所述对所述企业知识图谱进行特征提取,获得待训练企业特征集合的步骤包括:
基于预设特征提取算法,对所述企业知识图谱中的实体属性信息以及企业风险信息进行特征提取,获得所述企业属性特征以及所述企业风险特征。
6.如权利要求2所述的企业信用风险评分方法,其特征在于,所述基于所述待训练历史数据,构建所述待训练企业对应的企业知识图谱的步骤包括:
确定所述待训练历史数据对应的实体信息和属性信息;
基于所述实体信息和所述属性信息,对所述待训练历史数据进行知识抽取,获得所述待训练企业的企业知识图谱。
7.如权利要求2所述的企业信用风险评分方法,其特征在于,所述基于所述企业结构特征,对所述中间训练模型进行模型训练,获得所述信用风险模型的步骤包括:
将所述企业结构特征输入所述中间训练模型,获得所述待训练企业对应的预测结果;
基于所述预测结果以及所述待训练企业对应的信用风险标签,计算模型损失;
基于所述模型损失的计算的梯度,对所述中间训练模型进行迭代训练优化,获得所述信用风险模型。
8.一种企业信用风险评分装置,其特征在于,所述企业信用风险评分装置包括:
获取模块,获取企业基础数据,其中,所述企业基础数据包括目标企业的企业数据以及与所述目标企业相关联主体对象对应的企业数据;
构建模块,用于基于所述企业基础数据,构建所述目标企业的企业知识图谱;
特征提取模块,用于基于所述企业知识图谱,提取所述目标企业不同维度的企业特征集合;
风险预测模块,用于基于所述不同维度的企业特征集合,通过信用风险模型对所述风险预测,获得企业信用评分结果,其中,所述目标信用风控模型为提取待训练企业对应企业知识图谱的不同维度的特征集合进行迭代训练获得。
9.一种企业信用风险评分设备,其特征在于,所述企业信用风险评分设备包括:存储器、处理器以及存储在存储器上的企业信用风险评分程序,
所述企业信用风险评分程序被所述处理器执行实现如权利要求1至7中任一项所述企业信用风险评分方法的步骤。
10.一种存储介质,所述存储介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有企业信用风险评分程序,所述企业信用风险评分程序被处理器执行实现如权利要求1至7中任一项所述企业信用风险评分方法的步骤。
CN202111543805.7A 2021-12-16 2021-12-16 企业信用风险评分方法、装置、设备及存储介质 Pending CN114202223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111543805.7A CN114202223A (zh) 2021-12-16 2021-12-16 企业信用风险评分方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111543805.7A CN114202223A (zh) 2021-12-16 2021-12-16 企业信用风险评分方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114202223A true CN114202223A (zh) 2022-03-18

Family

ID=80654583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111543805.7A Pending CN114202223A (zh) 2021-12-16 2021-12-16 企业信用风险评分方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114202223A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115641202A (zh) * 2022-10-28 2023-01-24 中山大学 基于知识图谱和图计算的小贷行业团体借贷风险测度方法
CN115689066A (zh) * 2022-12-30 2023-02-03 湖南三湘银行股份有限公司 基于图数据算法的目标供应商风险预测方法及装置
CN116777634A (zh) * 2023-06-25 2023-09-19 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
WO2023178767A1 (zh) * 2022-03-24 2023-09-28 北京邮电大学 基于企业征信大数据知识图谱的企业风险检测方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163741A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 基于信贷风控模型的信贷决策方法、装置、设备及介质
CN112364178A (zh) * 2020-11-08 2021-02-12 杭州有数金融信息服务有限公司 一种基于企业关联知识图谱的企业隐形实控人识别的方法
CN112446778A (zh) * 2020-11-09 2021-03-05 广东华兴银行股份有限公司 基于知识图谱的企业信用风险识别方法、设备及介质
CN113361963A (zh) * 2021-06-30 2021-09-07 支付宝(杭州)信息技术有限公司 识别企业风险性的方法及装置
CN113449046A (zh) * 2021-06-29 2021-09-28 平安资产管理有限责任公司 基于企业知识图谱的模型训练方法、系统及相关装置
CN113553446A (zh) * 2021-07-28 2021-10-26 厦门国际银行股份有限公司 一种基于异构图解构的金融反欺诈方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163741A (zh) * 2019-04-16 2019-08-23 深圳壹账通智能科技有限公司 基于信贷风控模型的信贷决策方法、装置、设备及介质
CN112364178A (zh) * 2020-11-08 2021-02-12 杭州有数金融信息服务有限公司 一种基于企业关联知识图谱的企业隐形实控人识别的方法
CN112446778A (zh) * 2020-11-09 2021-03-05 广东华兴银行股份有限公司 基于知识图谱的企业信用风险识别方法、设备及介质
CN113449046A (zh) * 2021-06-29 2021-09-28 平安资产管理有限责任公司 基于企业知识图谱的模型训练方法、系统及相关装置
CN113361963A (zh) * 2021-06-30 2021-09-07 支付宝(杭州)信息技术有限公司 识别企业风险性的方法及装置
CN113553446A (zh) * 2021-07-28 2021-10-26 厦门国际银行股份有限公司 一种基于异构图解构的金融反欺诈方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023178767A1 (zh) * 2022-03-24 2023-09-28 北京邮电大学 基于企业征信大数据知识图谱的企业风险检测方法和装置
CN115641202A (zh) * 2022-10-28 2023-01-24 中山大学 基于知识图谱和图计算的小贷行业团体借贷风险测度方法
CN115689066A (zh) * 2022-12-30 2023-02-03 湖南三湘银行股份有限公司 基于图数据算法的目标供应商风险预测方法及装置
CN116777634A (zh) * 2023-06-25 2023-09-19 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法
CN116777634B (zh) * 2023-06-25 2024-06-11 深圳征信服务有限公司 一种基于人工智能的金融数据分析系统及方法

Similar Documents

Publication Publication Date Title
CN112101562B (zh) 机器学习建模过程的实现方法和系统
CN114202223A (zh) 企业信用风险评分方法、装置、设备及存储介质
TWI726341B (zh) 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體
Xu et al. Composite quantile regression neural network with applications
Liu et al. Simulating land-use dynamics under planning policies by integrating artificial immune systems with cellular automata
CN111222681A (zh) 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质
Wu et al. Visualizing flow of uncertainty through analytical processes
CN110968701A (zh) 用于图神经网络的关系图谱建立方法以及装置、设备
CN104798043B (zh) 一种数据处理方法和计算机系统
TW201947510A (zh) 保險業務風險預測的處理方法、裝置及處理設備
Kang et al. Neural and attentional factorization machine-based Web API recommendation for mashup development
CN109785144A (zh) 一种资产分类方法、装置、设备及介质
US11416760B2 (en) Machine learning based user interface controller
CN112070402A (zh) 基于图谱的数据处理方法、装置、设备及存储介质
CN106997488A (zh) 一种结合马尔科夫决策过程的动作知识提取方法
Li et al. Chart GCN: Learning chart information with a graph convolutional network for stock movement prediction
CN113344700A (zh) 一种基于多目标优化的风控模型构建方法、装置和电子设备
Chen et al. Evaluation model of green supply chain cooperation credit based on BP neural network
Gao et al. Causal data science for financial stress testing
Dong Application of Big Data Mining Technology in Blockchain Computing
Zhang et al. RSVRs based on feature extraction: a novel method for prediction of construction projects’ costs
JP4994199B2 (ja) 機械学習装置及び機械学習方法
CN115860064A (zh) 一种基于演化图卷积的动态网络嵌入方法
Kazemi et al. Machine learning techniques for diagrid building design: Architectural–Structural correlations with feature selection and data augmentation
Zhang et al. Construction method of concept lattice based on improved variable precision rough set

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination