CN113409139A - 信贷风险识别方法、装置、设备及程序 - Google Patents

信贷风险识别方法、装置、设备及程序 Download PDF

Info

Publication number
CN113409139A
CN113409139A CN202110864778.7A CN202110864778A CN113409139A CN 113409139 A CN113409139 A CN 113409139A CN 202110864778 A CN202110864778 A CN 202110864778A CN 113409139 A CN113409139 A CN 113409139A
Authority
CN
China
Prior art keywords
identified
community
self
sample
risk identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110864778.7A
Other languages
English (en)
Other versions
CN113409139B (zh
Inventor
壮青
陈婷
吴三平
庄伟亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110864778.7A priority Critical patent/CN113409139B/zh
Publication of CN113409139A publication Critical patent/CN113409139A/zh
Application granted granted Critical
Publication of CN113409139B publication Critical patent/CN113409139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信贷风险识别方法、装置、设备及程序,该方法包括以下步骤:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;基于所述社区特征,执行变量衍生操作,生成新的样本特征;将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率;本发明提高信贷风险识别的准确率。

Description

信贷风险识别方法、装置、设备及程序
技术领域
本发明涉及信贷风险识别领域,尤其涉及一种信贷风险识别方法、装置、设备及程序。
背景技术
现有的信用风险识别中,一般只考虑到了借款人本身的相关信息,从自身的基本信息、历史信贷记录、交易信息等对借款人的还款能力和还款意愿进行综合评定,最终输出信用评分。最常用的方式是选定建模样本,构建衍生变量,通过逻辑回归、树模型、集成学习等方式构建信用风险模型,得到客户违约概率的排序。
但信用风险存在潜在性的特征,借款人可能受自身收入、消费和市场环境等多方面的影响,还款存在不确定性。另外,由于信息的不对称性,银行能够收集到的借款人历史信贷信息存在不完全和滞后性。因此,通过借款人申请借款时仅凭提供的自身相关信息及历史的信贷记录很难准确的判定借款人在未来长期的还款情况。
发明内容
有鉴于此,本申请实施例提供一种信贷风险识别方法、装置、设备及程序,旨在提高信贷风险识别的准确率。
本申请实施例提供了一种信贷风险识别方法,应用于包含重叠社区的社区网络,所述重叠社区至少包括参考样本点以及待识别样本点;所述方法包括:
获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;
结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;
基于所述社区特征,执行变量衍生操作,生成新的样本特征;
将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
在一实施例中,所述将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率的步骤之前,还包括:
构建所述风险识别模型;具体包括:
获取重叠训练社区的历史样本数据,解析所述历史样本数据并获取训练样本点;其中,所述训练样本点为具有违约标签的样本点,所述违约标签为已知是否违约;
获取所述重叠训练社区中所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征;
结合所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征,生成所述重叠社区所在社区的社区训练特征;
基于所述社区训练特征,执行变量衍生操作,生成新的样本训练特征;
将所述新的样本训练特征以及所述训练样本点的所述违约标签,输入分类模型进行训练,生成所述风险识别模型。
在一实施例中,所述获取待识别样本点的自身特征,包括:
获取所述待识别样本点的自身数据;
将所述自身数据经过预设操作,生成所述待识别样本点的自身特征。
在一实施例中,所述将所述自身数据经过预设操作,生成所述待识别样本点的自身特征,包括:
对所述自身数据执行预处理操作,生成预处理后的自身数据;
对所述预处理后的自身数据执行特征提取操作,生成初始特征;
对所述初始特征执行变量衍生,生成所述待识别样本点的自身特征。
在一实施例中,所述自身数据包括以下至少之一:待识别样本点的基本信息、待识别样本点的历史信贷信息以及待识别样本点的交易信息。
在一实施例中,所述获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征的步骤之前,还包括:
基于重叠社区发现算法,获取所述待识别样本点所处的重叠社区。
在一实施例中,所述方法,还包括:
对所述待识别样本点的违约概率进行排序。
为实现上述目的,还提供一种信贷风险识别装置,所述信贷风险识别装置,包括
获取特征模块:用于获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;
结合特征模块:用于结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;
优化特征生成模块,用于基于所述社区特征,执行变量衍生操作,生成新的样本特征;
风险识别模块,用于将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
为实现上述目的,还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的信贷风险识别方法的步骤。
为实现上述目的,还提供一种信贷风险识别设备,包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险识别方法程序,所述处理器执行所述信贷风险识别方法程序时实现上述任一所述的信贷风险识别方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;通过获取并结合重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征,汇总后生成待识别样本点所在社区的社区特征,其中,该社区特征即包含了重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征,使生成的待识别样本点所在社区的社区特征更加的全面以及准确。
基于所述社区特征,执行变量衍生操作,生成新的样本特征;将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率;通过变量衍生操作,将社区特征转换为新的样本特征,并输入风险识别模型中,经过风险识别模型的计算,准确获得待识别样本点的违约概率。本发明提高信贷风险识别的准确率。
附图说明
图1为本申请信贷风险识别方法的第一实施例;
图2为本申请信贷风险识别方法的第二实施例;
图3为本申请信贷风险识别方法第二实施例中步骤S240的具体实施步骤;
图4为本申请信贷风险识别方法第一实施例中步骤S110的具体实施步骤;
图5为本申请信贷风险识别方法步骤S112的具体实施步骤;
图6为本申请信贷风险识别方法第三实施例;
图7为本申请信贷风险识别方法第四实施例;
图8为本申请信贷风险识别装置的示意图;
图9为本申请信贷风险识别设备的示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;基于所述社区特征,执行变量衍生操作,生成新的样本特征;将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。本发明提高信贷风险识别的准确率。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
复杂网络社区:复杂网络是复杂系统的抽象,网络中的节点是复杂系统中的个体,节点之间的边则是系统中个体之间按照某种规则而自然形成或人为构造的一种关系。
重叠社区:重叠社区是网络中节点的集合,社区内节点同时隶属于多个不同的社区,社区内部节点间的联系较为紧密,而属于不同社区的节点之间的联系较为稀疏,此类社区称为重叠社区。
信贷风险:信贷风险是指交易对方不履行到期债务的风险。信贷风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。
除非另外定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
参照图1,图1为本申请信贷风险识别方法的第一实施例,应用于包含重叠社区的社区网络,所述重叠社区至少包括参考样本点以及待识别样本点;所述方法包括:
步骤S110:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征。
具体地,重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构,可以是重叠社区中所述参考样本点与所述待识别样本点之间的关系以及结构特征;参考样本点的自身特征可以是参考样本点自身包含的数据特征;待识别样本点的自身特征可以是待识别样本点自身包含的数据特征。其中,所述参考样本点可以为重叠社区中除待识别样本点之外的所有样本点;也可以是重叠社区中除待识别样本点之外的部分样本点,在此并不作限定。另外,所述重叠社区结构、参考样本点的自身特征以及待识别样本点的自身特征是从待测试的重叠社区当前状态中获得的。
步骤S120:结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征。
具体地,结合所述重叠社区结构、参考样本点的自身特征以及待识别样本点的自身特征,可以是将重叠社区结构、参考样本点的自身特征以及待识别样本点的自身特征进行汇总,生成对待识别样本点所属社区的社区特征的描述;其中,一个待识别样本点可以隶属于多个社区,即待识别样本点可以包含在A社区,也可以包含在B社区,而A∩B为重叠社区;另外,重叠社区中包含的待识别样本点也可以是多个。
步骤S130:基于所述社区特征,执行变量衍生操作,生成新的样本特征。
具体地,变量衍生是最大限度地从原始数据中提取特征,发现可能对决策目标有显著作用的特征,以供算法和模型使用。变量衍生混合专业领域知识、客观直觉和算法逻辑,基于原始数据衍生出更多的变量,可更精细的描述目标的特点或行为。在本实施例中,执行变量衍生操作是最大限度地从社区特征中提取特征,以生成新的样本特征。
其中,在对社区特征执行变量衍生操作时,首先将社区特征解析成标准表,按照记录的特性分为静态信息标准表和动态信息标准表;其次,在标准表的基础上,针对标准表的数据项进行加工,即考虑业务逻辑,同时考虑算法逻辑,尽可能多的覆盖各种衍生变量。在衍生的过程中,可以通过对类别变量缩减,比如原始变量为:小学、初中、高中、大学本科、研究生、博士研究生;对应缩减为高中及以下、大学本科、研究生以上;则就从原始信息中衍生出高中及以下、大学本科以及研究生以上三类类别;也可以是数值变量分箱,比如原始变量为18~60的连续变量;则对应分为18~25,26~35,36~45以及46以上;则就从原始信息中衍生出18~25,26~35,36~45以及46以上的数值变量信息;在本实施例中还可以对数值变量和类别变量进行交叉衍生,以生成更多的衍生变量。
步骤S140:将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
具体地,风险识别模型可以是分类模型,具体可以是基于神经网络的分类模型;通过将新的样本特征,输入风险识别模型,则可以获取准确的待识别样本点的违约概率;其中,待识别样本点的违约概率越高,则待识别样本点对应的用户的违约风险越高,在实际的信贷借款过程中需要随时进行监控,以降低金融风险。
在上述实施例中,存在的有益效果为:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;通过获取并结合重叠社区中每个样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征,汇总后生成待识别样本点所在社区的社区特征,其中,该社区特征即包含了重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征,使生成的待识别样本点所在社区的社区特征更加的全面以及准确。
基于所述社区特征,执行变量衍生操作,生成新的样本特征;将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率;通过变量衍生操作,将社区特征转换为新的样本特征,并输入风险识别模型中,经过风险识别模型的计算,准确获得待识别样本点的违约概率。本发明提高信贷风险识别的准确率。
参照图2,图2为本申请信贷风险识别方法的第二实施例,所述将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率的步骤之前,包括:
步骤S210:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征。
步骤S220:结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征。
步骤S230:基于所述社区特征,执行变量衍生操作,生成新的样本特征。
步骤S240:构建所述风险识别模型。
具体地,风险识别模型可以是分类模型,其中,分类模型使用的分类算法具体可以是NBC(Naive Bayesian Classifier,朴素贝叶斯分类)算法、LR(Logistic Regress,逻辑回归)算法、ID3(Iterative Dichotomiser 3迭代二叉树3代)决策树算法、C4.5决策树算法、C5.0决策树算法、SVM(Support Vector Machine,支持向量机)算法、KNN(K-NearestNeighbor,K最近邻近)算法、ANN(Artificial Neural Network,人工神经网络)算法等。
步骤S250:将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
第二实施例与第一实施例相比,具体包括步骤S240,其他步骤在第一实施例中已经进行了阐述,在此不再赘述。
在上述实施例中,存在的有益效果为:通过构建精确的风险识别模型,可以进一步提高待识别样本点的违约概率,对违约概率高的用户提前进行准确的风险管控。
参照图3,图3为本申请信贷风险识别方法第二实施例中步骤S240的具体实施步骤,所述构建风险识别模型,具体包括:
步骤S241:获取重叠训练社区的历史样本数据,解析所述历史样本数据并获取训练样本点;其中,所述训练样本点为具有违约标签的样本点,所述违约标签为已知是否违约;
具体地,重叠训练社区中的历史样本数据可以是重叠训练社区中的历史数据;其中,将具有违约标签的样本点从重叠社区的历史样本数据中筛选出来,作为训练样本点。需要另外说明的是,重叠训练社区并不限定于本发明中预测使用的重叠社区,也可以是其他的重叠社区。
具体地,训练样本点为具有违约标签的样本点且违约标签为已知是否违约,具体可以是:若训练样本点违约,则违约标签的值为1;若训练样本不违约,则违约标签的值为0。
步骤S242:获取所述重叠训练社区中所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征;
具体地,所述训练样本点的重叠社区结构可以是重叠训练社区中训练样本点相互之间的特征关系以及结构关系。
具体地,将训练数据输入分类模型中进行训练,经过误差的反向传播以及参数的调优等操作,生成训练好的风险识别模型,也即风险识别模型。
需要另外说明的是,在一实施例中,获取的重叠社区中所述参考样本点与训练样本点的重叠社区结构以及训练样本点的自身训练特征与所述训练样本点的违约标签,三者输入分类模型进行训练,也可以生成风险识别模型。
步骤S243:结合所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征,生成所述重叠社区所在社区的社区训练特征。
具体地,结合所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征,汇合后生成重叠社区所在社区的社区训练特征,其中,重叠社区所属的社区可以包括多个。
步骤S244:基于所述社区训练特征,执行变量衍生操作,生成新的样本训练特征。
具体地,对社区训练特征再次执行变量衍生操作,即可以在社区训练特征中再次挖掘有用的特征作为新的样本特征,增加新的样本训练特征的数据量,使生成的风险识别模型更加的精确。
步骤S245:将所述新的样本训练特征以及所述训练样本点的所述违约标签,输入分类模型进行训练,生成所述风险识别模型。
具体地,将新的样本训练特征以及训练样本点的违约标签作为训练特征输入分类模型,其中训练样本点的违约标签作为监督数据输入分类模型,生成风险识别模型;则当将测试的样本特征输入生成的风险识别模型,则可以对应输出待识别样本点的违约概率。
在上述实施例中,存在的有益效果:具体给出构建风险识别模型的具体步骤,在训练样本点的违约标签作为监督数据的基础上,加入新的样本训练特征,以保证风险识别模型的预测效果,提高待识别样本点违约概率计算的准确性。
参照图4,图4为本申请信贷风险识别方法第一实施例中步骤S110的具体实施步骤,所述获取待识别样本点的自身特征,包括:
步骤S111:获取所述待识别样本点的自身数据。
具体地,在其中一个实施例中,所述自身数据包括以下至少之一:待识别样本点的基本信息、待识别样本点的历史信贷信息以及待识别样本点的交易信息。可获得的自身数据包含但并不限于用户基本信息,本机构自身借款和还款行为,第三方机构数据等。需要另外说明的是,自身数据包含的信息越多,则训练生成的风险识别模型的准确度越高。
步骤S112:将所述自身数据经过预设操作,生成所述待识别样本点的自身特征。
具体地,预设操作可以是预处理、特征提取、变量衍生;其中预处理可以包括数据清洗以及标准化操作。
在上述实施例中,存在的有益效果为:保证待识别样本点的自身数据转化为自身特征的正确性以及全面性,从而保证风险识别模型的有效性。
参照图5,图5为本申请信贷风险识别方法步骤S112的具体实施步骤,所述将所述自身数据经过预设操作,生成所述待识别样本点的自身特征,包括:
步骤S1121:对所述自身数据执行预处理操作,生成预处理后的自身数据。
具体地,预处理可以包括数据清洗以及标准化;其中,数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。标准化可以是将数据格式化,按照风险识别模型输入格式进行标准化,使生成的特征能够输入到风险模型中进行预测或者训练。
步骤S1122:对所述预处理后的自身数据执行特征提取操作,生成初始特征。
具体地,对预处理后的自身数据执行特征提取操作可以是对预处理后的自身数据进行关键数据进行提取,生成初始特征。
步骤S1123:对所述初始特征执行变量衍生,生成所述待识别样本点的自身特征。
具体地,对初始特征执行变量衍生,使初始特征在数量上以及范围上进行扩展,使生成的待识别样本点的自身特征更加的全面以及具体。
在上述实施例中,存在的有益效果为:通过变量衍生操作生成的待识别样本点自身特征更加的全面以及具体,保证风险识别模型的训练效果,提高待识别样本点违约概率的准确性。
参照图6,图6为本申请信贷风险识别方法第三实施例,所述获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征的步骤之前,包括:
步骤S310:基于重叠社区发现算法,获取所述待识别样本点所处的重叠社区。
具体地,重叠社区发现算法可以是基于派系过滤的方法、基于边划分的方法、基于种子节点的扩展方法、基于标签传播的方法以及基于模糊聚类的方法;其中,在本实施例中使用的是基于标签传播的方法(COPRA算法),该算法主要在标签传播基础上,使每个节点携带两个标签集,一个是节点可能所属的社区编号,另一个是对应的社区从属系数,然后每次迭代时删除从属系数小于预设阈值的社区,并进行归一化处理确保节点对各社区从属系数之和为1.从属系系数计算公式如下:
Figure BDA0003182627270000111
bt(c,x)表示一个节点x在t次迭代时对社区c的从属系数,N(x)是节点x的邻居节点集合。最后迭代终止时,统计各节点的社区标签就发现各节点所属的社区以及重叠节点。
步骤S320:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征。
步骤S330:结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征。
步骤S340:基于所述社区特征,执行变量衍生操作,生成新的样本特征。
步骤S350:将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
第三实施例与第一实施例相比,包括步骤S310,其他步骤在第一实施例中已经进行了阐述,在此不再赘述。
在上述实施例中,存在的有益效果:通过重叠社区发现算法,准确的获取待识别样本所处的重叠社区,保证了重叠社区结构获取的正确性,从而保证待识别样本点违约概率计算的正确性。
参照图7,图7为本申请信贷风险识别方法第四实施例,所述方法,还包括:
步骤S410:获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征。
步骤S420:结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征。
步骤S430:基于所述社区特征,执行变量衍生操作,生成新的样本特征。
步骤S440:将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
步骤S450:对所述待识别样本点的违约概率进行排序。
具体地,通过将待识别样本点的违约概率进行从大到小顺序排序,将排序的前预设数量个待识别样本点进行跟踪监控,起到预警的作用,更好的降低了信贷风险。
第四实施例与第一实施例相比,具体包括步骤S450,其他步骤在第一实施例中已经进行了阐述,在此不再赘述。
在上述实施例中,存在的有益效果为:通过对待识别样本点的违约概率进行排序,针对性的对高风险待识别样本点进行实时动态监控,降低信贷风险,保证金融安全。
本申请还提供一种信贷风险识别装置,所述信贷风险识别装置,包括
获取特征模块:用于获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;
结合特征模块:用于结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;
优化特征生成模块,用于基于所述社区特征,执行变量衍生操作,生成新的样本特征;
风险识别模块,用于将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
图8所示装置20包括获取特征模块21、结合特征模块22、优化特征生成模块23、风险识别模块24,该装置可以执行图1至图7所示实施例的方法,本实施例未详细描述的部分,可参考对图1至图7所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1至图7所示实施例中的描述,在此不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述的信贷风险识别方法的步骤。
本申请还提供一种计算机存储介质,所述计算机存储介质上存储有信贷风险识别方法程序,所述信贷风险识别方法程序被处理器执行时实现上述任一所述的信贷风险识别方法的步骤。
本申请还提供一种信贷风险识别设备,包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险识别方法程序,所述处理器执行所述信贷风险识别方法程序时实现上述任一所述的信贷风险识别方法的步骤。
本申请涉及一种信贷风险识别设备010包括如图9所示:至少一个处理器012、存储器011。
处理器012可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器012中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器012可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器011,处理器012读取存储器011中的信息,结合其硬件完成上述方法的步骤。
可以理解,本发明实施例中的存储器011可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ReadOnly Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的系统和方法的存储器011旨在包括但不限于这些和任意其它适合类型的存储器。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种信贷风险识别方法,其特征在于,应用于包含重叠社区的社区网络,所述重叠社区至少包括参考样本点以及待识别样本点;所述方法包括:
获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;
结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;
基于所述社区特征,执行变量衍生操作,生成新的样本特征;
将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
2.如权利要求1所述的信贷风险识别方法,其特征在于,所述将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率的步骤之前,还包括:
构建所述风险识别模型;具体包括:
获取重叠训练社区的历史样本数据,解析所述历史样本数据并获取训练样本点;其中,所述训练样本点为具有违约标签的样本点,所述违约标签为已知是否违约;
获取所述重叠训练社区中所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征;
结合所述训练样本点的重叠社区结构以及所述训练样本点的自身训练特征,生成所述重叠社区所在社区的社区训练特征;
基于所述社区训练特征,执行变量衍生操作,生成新的样本训练特征;
将所述新的样本训练特征以及所述训练样本点的所述违约标签,输入分类模型进行训练,生成所述风险识别模型。
3.如权利要求1所述的信贷风险识别方法,其特征在于,所述获取待识别样本点的自身特征,包括:
获取所述待识别样本点的自身数据;
将所述自身数据经过预设操作,生成所述待识别样本点的自身特征。
4.如权利要求3所述的信贷风险识别方法,其特征在于,所述将所述自身数据经过预设操作,生成所述待识别样本点的自身特征,包括:
对所述自身数据执行预处理操作,生成预处理后的自身数据;
对所述预处理后的自身数据执行特征提取操作,生成初始特征;
对所述初始特征执行变量衍生,生成所述待识别样本点的自身特征。
5.如权利要求3所述的信贷风险识别方法,其特征在于,所述自身数据包括以下至少之一:待识别样本点的基本信息、待识别样本点的历史信贷信息以及待识别样本点的交易信息。
6.如权利要求1所述的信贷风险识别方法,其特征在于,所述获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征的步骤之前,还包括:
基于重叠社区发现算法,获取所述待识别样本点所处的重叠社区。
7.如权利要求1所述的信贷风险识别方法,其特征在于,所述方法,还包括:
对所述待识别样本点的违约概率进行排序。
8.一种信贷风险识别装置,其特征在于,所述信贷风险识别装置,包括获取特征模块:用于获取重叠社区中所述参考样本点与所述待识别样本点的重叠社区结构、所述参考样本点的自身特征以及待识别样本点的自身特征;
结合特征模块:用于结合所述重叠社区结构、所述参考样本点的自身特征以及所述待识别样本点的自身特征,生成所述待识别样本点所在社区的社区特征;
优化特征生成模块,用于基于所述社区特征,执行变量衍生操作,生成新的样本特征;
风险识别模块,用于将所述新的样本特征,输入风险识别模型,获得所述待识别样本点的违约概率。
9.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的信贷风险识别方法的步骤。
10.一种信贷风险识别设备,其特征在于,包括存储器,处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险识别方法程序,所述处理器执行所述信贷风险识别方法程序时实现权利要求1至7任一所述的信贷风险识别方法的步骤。
CN202110864778.7A 2021-07-27 2021-07-27 信贷风险识别方法、装置、设备及程序 Active CN113409139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110864778.7A CN113409139B (zh) 2021-07-27 2021-07-27 信贷风险识别方法、装置、设备及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110864778.7A CN113409139B (zh) 2021-07-27 2021-07-27 信贷风险识别方法、装置、设备及程序

Publications (2)

Publication Number Publication Date
CN113409139A true CN113409139A (zh) 2021-09-17
CN113409139B CN113409139B (zh) 2024-05-28

Family

ID=77687991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110864778.7A Active CN113409139B (zh) 2021-07-27 2021-07-27 信贷风险识别方法、装置、设备及程序

Country Status (1)

Country Link
CN (1) CN113409139B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100808059B1 (ko) * 2007-06-29 2008-02-28 신현욱 커뮤니티를 활용한 대출 중개 시스템
CN107578331A (zh) * 2017-09-19 2018-01-12 马上消费金融股份有限公司 一种贷后风险监控的方法和系统
CN109344326A (zh) * 2018-09-11 2019-02-15 阿里巴巴集团控股有限公司 一种社交圈的挖掘方法和装置
CN109685643A (zh) * 2018-12-13 2019-04-26 平安科技(深圳)有限公司 贷款审核中风险等级确定方法、装置、设备及存储介质
CN111309822A (zh) * 2020-02-11 2020-06-19 深圳众赢维融科技有限公司 用户身份识别方法及装置
CN111340611A (zh) * 2020-02-20 2020-06-26 中国建设银行股份有限公司 一种风险预警方法和装置
CN111652712A (zh) * 2020-06-09 2020-09-11 深圳前海微众银行股份有限公司 基于地理信息的贷前分析方法、装置、设备与存储介质
CN111738819A (zh) * 2020-06-15 2020-10-02 中国建设银行股份有限公司 表征数据筛选方法、装置和设备
CN111784502A (zh) * 2020-06-30 2020-10-16 中国工商银行股份有限公司 异常交易账户群体识别方法及装置
CN112037009A (zh) * 2020-08-06 2020-12-04 百维金科(上海)信息科技有限公司 一种基于随机森林算法的消费信贷场景的风险评估方法
CN112613986A (zh) * 2020-12-29 2021-04-06 中国农业银行股份有限公司 一种资金回流的识别方法、装置及设备
CN112669143A (zh) * 2021-01-08 2021-04-16 上海优扬新媒信息技术有限公司 基于关联网络的风险评估方法、装置、设备以及存储介质
CN112669053A (zh) * 2020-12-03 2021-04-16 杭州未名信科科技有限公司 基于销售数据的欺诈群体识别方法、装置、设备及介质
CN112686749A (zh) * 2020-12-31 2021-04-20 上海竞动科技有限公司 一种基于逻辑回归技术的信用风险评估方法及装置
CN112926990A (zh) * 2021-03-25 2021-06-08 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100808059B1 (ko) * 2007-06-29 2008-02-28 신현욱 커뮤니티를 활용한 대출 중개 시스템
CN107578331A (zh) * 2017-09-19 2018-01-12 马上消费金融股份有限公司 一种贷后风险监控的方法和系统
CN109344326A (zh) * 2018-09-11 2019-02-15 阿里巴巴集团控股有限公司 一种社交圈的挖掘方法和装置
CN109685643A (zh) * 2018-12-13 2019-04-26 平安科技(深圳)有限公司 贷款审核中风险等级确定方法、装置、设备及存储介质
CN111309822A (zh) * 2020-02-11 2020-06-19 深圳众赢维融科技有限公司 用户身份识别方法及装置
CN111340611A (zh) * 2020-02-20 2020-06-26 中国建设银行股份有限公司 一种风险预警方法和装置
CN111652712A (zh) * 2020-06-09 2020-09-11 深圳前海微众银行股份有限公司 基于地理信息的贷前分析方法、装置、设备与存储介质
CN111738819A (zh) * 2020-06-15 2020-10-02 中国建设银行股份有限公司 表征数据筛选方法、装置和设备
CN111784502A (zh) * 2020-06-30 2020-10-16 中国工商银行股份有限公司 异常交易账户群体识别方法及装置
CN112037009A (zh) * 2020-08-06 2020-12-04 百维金科(上海)信息科技有限公司 一种基于随机森林算法的消费信贷场景的风险评估方法
CN112669053A (zh) * 2020-12-03 2021-04-16 杭州未名信科科技有限公司 基于销售数据的欺诈群体识别方法、装置、设备及介质
CN112613986A (zh) * 2020-12-29 2021-04-06 中国农业银行股份有限公司 一种资金回流的识别方法、装置及设备
CN112686749A (zh) * 2020-12-31 2021-04-20 上海竞动科技有限公司 一种基于逻辑回归技术的信用风险评估方法及装置
CN112669143A (zh) * 2021-01-08 2021-04-16 上海优扬新媒信息技术有限公司 基于关联网络的风险评估方法、装置、设备以及存储介质
CN112926990A (zh) * 2021-03-25 2021-06-08 支付宝(杭州)信息技术有限公司 欺诈识别的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
符淼;谭小波;: "中国银行信贷项目环境风险评估模型的构建和应用", 广东金融学院学报, no. 04, 20 July 2011 (2011-07-20), pages 16 - 25 *

Also Published As

Publication number Publication date
CN113409139B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
Liu et al. Credit scoring based on tree-enhanced gradient boosting decision trees
Shu et al. Incremental feature selection based on rough set in dynamic incomplete data
US20180253657A1 (en) Real-time credit risk management system
Ye et al. Multi-graph convolutional network for relationship-driven stock movement prediction
Xia et al. A rejection inference technique based on contrastive pessimistic likelihood estimation for P2P lending
Ko et al. Prediction of corporate financial distress: An application of the composite rule induction system
Fang et al. Self-supervised cross-iterative clustering for unlabeled plant disease images
Alfaro et al. Ensemble classification methods with applications in R
US20050203838A1 (en) Method for automatic community model generation based on uni-parity data
CN112801784A (zh) 一种数字货币交易所的比特币地址挖掘方法及装置
Pandey et al. Machine learning–based classifiers ensemble for credit risk assessment
CN113409139B (zh) 信贷风险识别方法、装置、设备及程序
CN115994331A (zh) 基于决策树的报文分拣方法及装置
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
Cheng et al. A quarterly time-series classifier based on a reduced-dimension generated rules method for identifying financial distress
Cho Knowledge discovery from distributed and textual data
Bisson et al. A Bayesian approach to developing a strategic early warning system for the French milk market
Grönberg Extracting salient named entities from financial news articles
Sembina Building a Scoring Model Using the Adaboost Ensemble Model
Kampfer Performance and Interpretability of Machine Learning Algorithms for Credit Risk Modelling
Sivanantham et al. Rainfall Prediction using Machine Learning Techniques–A Comparative Approach
Mattanelli Binning numerical variables in credit risk models
Luo et al. Data-Driven Exploration of Factors Affecting Federal Student Loan Repayment
Hardin et al. BNPL Probability of Default Modeling Including Macroeconomic Factors: A Supervised Learning Approach
Mohamed Explaining neural networks used for modeling credit risk

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant