CN110378786B

CN110378786B - 模型训练方法、违约传导风险识别方法、装置及存储介质

Info

Publication number: CN110378786B
Application number: CN201910687083.9A
Authority: CN
Inventors: 张志磊; 李瑾瑜; 陈明旺; 王天娇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2022-09-02
Anticipated expiration: 2039-07-29
Also published as: CN110378786A

Abstract

本说明书实施例提供一种模型训练方法、违约传导风险识别方法、装置及存储介质。所述方法包括：根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户；对每个联通体网络建立标签；以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。通过上述方法构建风险传导预测的机器学习模型，可以预测违约风险在客户之间传导的可能性。

Description

模型训练方法、违约传导风险识别方法、装置及存储介质

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种模型训练方法、违约传导风险识别方法、装置及存储介质。

背景技术

随着经济的高速发展，我国的企业及居民的杠杆率也在极速攀升，其中，企业及居民的杠杆率中大部分均来自银行的长期、短期贷款，高杠杆率带来的违约隐患迫使各大银行提高自身的风险控制能力，以及风险转移能力。

现有的违约传导风险识别中，在对企业客户进行信用分析时，确认客户本身的违约风险、发现客户的企业关系圈、以及这些关联关系的风险传导程度，都是银行信贷客户经理需要考虑的维度。比如：客户经理需要看到某企业的企业关系圈，然后想了解哪些企业和该企业有关联关系，且该企业关联关系中哪些企业有违约行为。但是，更多的情况下是经验判断，缺乏数据基础支持。

发明内容

本说明书实施例的目的是提供一种模型训练方法、违约传导风险识别方法、装置及存储介质，以预测违约风险在客户之间传导的可能性。

为解决上述问题，本说明书实施例提供一种模型训练方法、违约传导风险识别方法、装置及存储介质是这样实现的。

一种模型训练方法，所述方法包括：根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户；对每个联通体网络建立标签；以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

一种违约传导风险识别方法，所述方法包括：根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少两个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用上述模型训练方法方法训练得到。

一种模型训练装置，所述装置包括：构建模块，根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；其中，每个联通体网络中至少包括一个违约客户；标记模块，用于对每个联通体网络建立标签；训练模块，用于以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；评价模块，用于对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

一种违约传导风险识别装置，所述装置包括：构建模块，用于根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少两个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；识别模块，用于将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用上述模型训练方法训练得到。

一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户；对每个联通体网络建立标签；以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少两个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用上述模型训练方法训练得到。

由以上本说明书实施例提供的技术方案可见，本说明书实施例提供的模型训练方法可以通过根据客户之间的关联关系，分析在预设时间内发生违约传导时客户之间的关联关系，并根据关联关系基于不同的算法建立违约传导风险识别模型，再对所述模型进行评价，最后根据评价结果选择相应的违约传导风险识别模型。本说明书实施例提供的模型训练方法针对已违约关联体内客户、风险分析发现的高违约概率风险客户以及任意指定法人客户，构建风险传导预测的机器学习模型，为总结共性传导模式和规律提供数据支持，可以预测违约风险在客户之间传导的可能性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种模型训练方法的流程图；

图2为本说明书实施例一种ROC曲线示意图；

图3为本说明书实施例一种CAP曲线示意图；

图4为本说明书实施例一种违约传导风险识别方法的流程图；

图5为本说明书实施例一种违约传导风险识别结果示意图；

图6为本说明书实施例一种模型训练装置的功能模块图；

图7为本说明书实施例一种违约传导风险识别装置的功能模块图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

在本实施方式中，执行所述违约传导风险识别方法的主体可以是具有逻辑运算功能的电子设备，所述电子设备可以是服务器或客户端，所述客户端可以为台式电脑、平板电脑、笔记本电脑、工作站等。当然，客户端并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。还可以是一种通过程序开发形成的程序软件，该程序软件可以运行于上述电子设备中。

图1为本说明书实施例一种模型训练方法的流程图，如图1所示，所述方法可以包括以下步骤。

S110：根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户。

上述客户可以是个体工商户，也可以是企业，其中，企业还可以包括独资企业、合伙企业和公司。不论所述客户是个体工商户还是企业，客户之间通常存在一些关联关系，这些关联关系通常可以表明客户之间存在合作、交易等，这些关联关系可以包括股权信息、人员信息、交易信息、担保关系、从属关系、债务关系等能够表明这些客户之间存在一定联系的关系。

在一些实施例中，可以根据客户之间的关联关系，构建多个联通体网络，其中，所述联通体网络中至少包括两个节点，每个节点代表一个客户信息，其中，每个联通体网络中至少包括一个违约客户。所述违约客户包括在约定时间点未履行约定的客户，例如客户在约定的还款日内未还款、在约定的还款日之后还款但未缴纳滞纳金以及其他信誉不良的行为。

具体的，可以以违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络。例如，如果多个违约客户之间具有关联关系，则以该多个违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络；如果与一个违约客户具有关联关系的其他客户均未发生违约，则以该一个违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络。

S120：对每个联通体网络建立标签。

在一些实施例中，对每个联通体网络建立标签可以包括：将在预设时间内违约客户增加的联通体网络标记为有风险传导的联通体网络；将在预设时间内违约客户未增加的联通体网络标记为无风险传导的联通体网络。

在一些实施例中，在一段观察时间点内，例如在观察时间点的起始时间点T₀时，构建多个联通体网络，在该观察时间点的终止时间T₁时，如果联通体网络中有违约客户增加，则表明该联通体网络发生了违约传导，如果联通体网络中没有违约客户增加，则表明该联通体网络没有发生违约传导。因此，可以设置一个预设时间，对于在预设时间内违约客户增加的联通体网络，标记为有风险传导的联通体网络，在预设时间内违约客户未增加的联通体网络，标记为无风险传导的联通体网络。其中，所述预设时间可以是5天、10天、一个月、三个月、半年、一年、两年等。

S130：以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练。

在一些实施例中，所述预先构建的多个二分类模型是基于不同算法建立的。

当我们要解决任意一种机器学习问题时，都需要选择合适的算法，没有一款机器学习模型可以解决所有问题，不同的机器学习算法表现取决于数据的大小、数据的质量、数据结构以及待解决问题的具体特征，每种机器学习算法都有各自的优缺点，因此需要通过算法比较与业务问题分析，同时结合实践经验，来选取合适的算法。

在一些实施例中，可以选取以下算法，分别建立二分类模型。

支持向量机算法，是一种有坚实理论基础的新颖的小样本学习方法，它基本上不涉及概率测度及大数定律等，因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程，实现了高效的从训练样本到预报样本的“转导推理”，大大简化了通常的分类和回归等问题。支持向量机算法的理论基础是非线性映射，利用内积核函数代替高维空间的非线性映射，其思想是最大化分类边际，以对特征空间划分的最优超平面为目标，在支持向量算法分类决策中其决定作用的是支持向量，计算的复杂程度取决于支持向量的数目，而不是样本空间的维度，因此，少数支持向量决定了最终结果，这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本，而且方法简单。但支持向量算法对大规模训练样本难以实施，并且在解决多分类问题上存在困难。

梯度提升决策树算法，是一种迭代的决策树算法，由多棵决策树组成，所有树的结论累加起来作为最终答案。梯度提升决策树算法具有天然优势可以发现多种有区分性的特征以及特征组合，对复杂、高度非线性的关系非常实用，通常能够达到非常高的表现性能。梯度提升决策树算法几乎可用于所有回归问题(线性/非线性)，其适用面比较广，亦可以用于二分类问题(例如，设定阈值，大于阈值为正例，小于阈值为负例)。但由于训练决策树的本章，它们易于过度拟合，一个完整的决策树模型会非常复杂，并包含很多不必要的结构，对着树的数量的增加，会拖慢运算速度，需要更多的计算机内存。

人工神经网络算法，其优点是由于神经网络有多隐藏层，即有较多参数，同时是非线性的，它们能高效地对复杂的非线性关系进行建模；人工神经网络算法在学习任何特征向量关系方面都很灵活，并且单单增加神经网络的训练数据，不论是新数据还是原始数据进行增强，都会提高网络的性能。但使用人工神经网络算法训练模型时可能会有难度，同时需要大量的计算能力、仔细地调参并设置好学习速率，人工神经网络还需要大量的数据才能达到较高的性能，与其他算法相比，在小数据集上通常表现不佳。

在一些实施例中，所述算法还可以选择集成算法、回归算法、贝叶斯算法等。

通常，由于客户之间的关联关系，当一个客户发生违约后，跟该客户具有某些关联关系的客户也可能会发生违约，通常这种现象称为违约传导。例如，客户A是客户B的供货商，假设客户A和客户B均在银行进行了贷款，两者约定客户A将产品发给客户B后，客户B再将货款打给客户A，但在客户A将产品发给客户B后，由于客户B资金链断裂，不能及时将货款打给客户A，也不能及时还清银行的贷款，客户B发生违约，此时客户A未收到货款，也不能及时还清银行的贷款，导致客户A也发生违约。又例如，客户A是客户B的子公司，客户B的资金断裂，不能及时还清银行的贷款，客户B发生违约，客户B为维持经营，从客户A中调取资金，可能会导致客户A也不能及时还清银行的贷款发生违约。

在一些实施例中，可以通过二分类模型来对附带标签的联通体网络进行学习分析，确定导致发生违约传导的联通体中客户的特征关系，并根据特征关系来对待识别的联通体是否有违约传导风险进行识别。具体的，可以将附带标签的联通体网络作为训练样本，对所述多个二分类模型进行训练，进一步地，还可以将有风险传导的联通体网络和无风险传导的联通体网络作为训练样本，对所述多个二分类模型进行训练。其中，对所述多个二分类模型进行训练可以包括以下步骤。

步骤1：提取所述训练样本中客户的特征关系；

步骤2：根据所述特征关系导致发生违约传导的可能性计算所述特征关系的权重值；

步骤3：根据权重值大小对联通体网络是否会发生违约传导风险进行分类。

在一些实施例中，所述客户的特征关系可以是客户之间的关联关系，也可以是客户之间的关联关系和客户的自身信息；其中，客户自身的关系可以包括财务信息、行业类别信息、地域信息、经营信息、客户规模等。

通常，客户的自身信息也会影响违约风险的传导，例如，客户A是客户B的供货商，客户A自身的规模大，即使客户B发生违约，不能及时补交货款，但与客户B之间的交易仅是客户A业务的一小部分，因此客户B是否发生违约，对于客户A来说影响并不大。

在一些实施例中，可以计算上述客户的特征关系的权重值，来对联通体网络是否会发生违约传导风险进行分类。具体的，可以根据训练样本中发生违约传导与未发生违约传导的联通体中客户的特征关系来计算，对于导致发生违约传导可能性大的关系，则该关系的权重值较大。例如，在未发生违约传导的联通体中，客户之间的大多数为人员信息、交易信息，在发生违约传导的联通体中，违约客户之间的多为股权信息、人员信息。则可以确定导致发生违约传导的可能性较大的信息为股权信息，股权信息的权重值较大，人员信息次之。上述仅仅只是举了一个简单的例子，在计算所述特征关系的权重值时，要经过大量训练样本进行统计分析。进一步地，还需考虑客户的自身信息，例如对于规模较大的客户A，与其有交易联系的客户B发生违约，则导致客户A发生违约的可能性就比较小。

在一些实施例中，可以计算得到客户的特征关系中，每一种关系的权重值，根据客户之间每种关系的权重值进行累加，超过预设值的表明联通体网络会发生违约传导，低于预设值的表明联通体网络不会会发生违约传导。

在一些实施例中，根据上述训练结果，可以得到多个训练后的二分类模型。

S140：对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

在一些实施例中，可以使用预设的测试样本对训练后的二分类模型进行测试；根据测试结果得到各个模型的评价指标，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。具体的，可以将附带标签的联通体网络作为预设的测试样本，还可以将有风险传导的联通体和无风险传导的联通体作为预设的测试样本，对训练后的二分类模型进行测试，将模型的预测结果与实际结果相比较。其中，所述预设的测试样本可以与训练样本完全不同，也可以与训练样本部分相同。

在一些实施例中，根据可以测试结果，从准确性评价标准、区分能力评价标准、稳定性评价标准等几个标准中的一种或多种对模型进行评价，得到各个模型的评价指标。

在一些实施例中，以准确性为评价标准时，可以通过以下方式实现。

在本说明书实施例中，可以采用混淆矩阵来计算分类模型的准确性、区分能力等指标。分类预测模型通常以关注的类为正类，其他类为负类，因此本说明书实施例中的二分类风险预测模型，以坏客户为“正样本”，好客户为“负样本”，即以无风险传导的联通体为“正样本”，有风险传导的联通体为“负样本”，将模型预测的结果与实际的结果进行统计和比较，得到混淆矩阵如表1所示。

表1

其中：TP(True Positive)为将正类预测为正类数；FN(False Negative)为将正类预测为负类数；FP(False Positive)为将负类预测为正类数；TN(True Negative)为将负类预测为负类数。

对于二分类问题，尤其是类别分布不平衡的样本，常用评价指标为：召回率、精确率、F1值以及误报率。各指标具体解释如下：召回率(Recall，R)又称查全率、实查率，即被分类模型捕捉到的正类在所有正类中的占比，公式为：

R＝TP/(TP+FN) (1)

精确率(Precision，P)又称查准率，即被分类模型判断为正类的记录中真正类的比例，公式为：

P＝TP/(TP+FP) (2)

F1值(F1Score)，由于召回率Recall和精确率Precision二者是此消彼长的关系，实际应用中常使用f1值进行综合评价。F1值综合考虑了召回率Recall和精确率Precision的影响，公式为：

F1Score＝2/(1/R+1/P) (3)

如果模型在查全率和查准率方面都要较高的要求，即要求F1值较高。

误报率(FPR)预测为正但实际为负的样本占所有负例样本的比例，计算公式：

FPR＝FP/(FP+TN) (4)

在一些实施例中，可以根据实际需要将不同的指标作为评价模型的重点，如预测出的高风险客户(在阈值之上，模型判断为坏客户)中实际发生违约的比例要高；预测出的高风险客户占实际所有违约客户的比例也要尽量高等。如果对查全率和查准率这两个指标都提出了较高的要求，适合使用F1值结合误报率进行评价。

在一些实施例中，以区分能力为评价标准时，可以通过以下方式实现。

AUC值和AR值常被用来评估一个分类模型的区分能力，即好客户和坏客户的排序能力。

其中，AUC值是通过ROC曲线获得，ROC(Receiver Operating Characteristic)曲线描述了在一定累计好客户比例下的累计坏客户的比例。如图2所示，ROC曲线下面的面积则为AUC值，最大为1，最小等于0.5，AUC系数越高，模型的区分能力越强。ROC曲线的横坐标：(False positive rate，FPR)，预测为正但实际为负的样本占所有负例样本的比例，即误报率。ROC曲线的纵坐标：(True positive rate，TPR)，预测为正且实际为正的样本占所有正例样本的比例，即查全率。ROC曲线的绘制过程是：分类模型认为某个样本具有多大的概率属于正样本(或负样本)，将一个实数范围通过某个变换映射到(0，1)区间。从高到低，依次将F1值作为阈值threshold，当测试样本属于正样本的概率大于或等于这个threshold时，模型认为它为正样本，否则为负样本，每次选取一个不同的threshold，就可以得到一组误报率FPR和查全率TPR，即ROC曲线上的一点。

随着查全率的提升，误报率也必然增加。完美模型体系的ROC曲线和正方形的左上边重合，即以0误报率实现对坏客户的100％识别。而毫无预测能力的模型，其ROC曲线将与45度线重合，表明其预测力并不比随机抛硬币的方法要好，合理模型的ROC曲线应在45度线与折现之间，越接近折线的模型，其预测能力越佳。

AR(Accuracy Rate，准确度比率)是内评体系建模时常用的模型区分度评价指标，通过实际模型结果与最佳模型结果的比较来检验模型对客户进行正确排序的能力，进而判断模型对好坏客户的区分能力。

为了计算准确性比率AR值，需要先画出CAP曲线(Cumulative Accuracy Profile，累积准确曲线)。如图3所示，CAP曲线描述了各个评分或评级结果下，累积违约客户比率和累积正常客户比率之间的关系。具体的方法是：首先自高风险至低风险排列模型的评分，然后对于横坐标客户总数中特定的比例，CAP曲线的纵坐标描述风险评级分数小于或等于横坐标x的客户群中的违约个数百分比。

例如，曲线上的点(0.2，0.7)表示：在模型评分较高的20％的客户群中，坏客户个数占所有坏客户总数的70％。在完美的模型下，CAP曲线开始阶段呈线性增长(斜率为1/违约率)，然后稳定在1的水平上。反之，在完全没有区分能力的情况下，随即模型的CAP曲线会是一条45度的直线。进一步，准确性比率AR值的定义为：模型的CAP曲线和45度线间的区域面积/45度线和完美模型CAP曲线间的区域面积，如下所示：

其中，a_R为评级模型的CAP曲线与随机模型CAP直线围成的面积，a_P为最佳模型的CAP曲线与随机模型CAP直线围成的面积。因此，AR值越接近于1，表示模型对好坏客户的区分能力越好。

可以通过数学公式证明：

AR＝2AUC-1 (6)

因此，机器学习实践中多通过ROC曲线同时计算出AUC和AR值。

在一些实施例中，以稳定性为评价标准时，可以通过以下方式实现。

稳定性评价标准PSI，即群体稳定性指标(Population Stability Index)是最常用的模型稳定性评价指标。该指标通过对建模样本和试点样本中目标客户分布情况进行比较来判断模型性能稳定性，通常用作模型效果监测。PSI值具体计算步骤如下。

步骤1：将校准后的模型得分划分为若干个分数段。

步骤2：计算对应分数段i下的当前时点客户数，以及前一期该分数段i下的客户数。

步骤3：计算当前时点客户总数和前一期客户总数。

步骤4：计算对应分数段i下的PSI值。

步骤5：计算总体PSI值。

其计算公式如下：

其中，val表示测试样本，ref表示训练+验证样本，val_i表示第i段的测试样本占总测试样本的比例；ref_i表示第i段的基期样本占总基期样本的比例。

一般而言，PSI<0.1表示两个时间点的样本无明显变化，代表模型稳定性很高；0.1<PSI<0.25表示两个时间点的样本有部分变化，需密切关注变化，代表模型稳定性中等；PSI>0.25表示两个时间点的样本有显著变化，需注意调整模型，模型稳定性差建议修复。

根据上述模型结果评价效果，将基于不同评价标准的评价结果综合考虑，计算模型最终的综合得分，根据所述综合得分选取模型。例如，如果对模型的准确要求最高，则重点考虑基于准确性评价标准的结果，如果对模型的区分要求最高，则重点考虑基于区分能力评价标准的结果。

本说明书实施例提供的模型方法，针对已违约关联体内客户、风险分析发现的高违约概率风险客户以及任意指定法人客户，构建风险传导预测的机器学习模型，为总结共性传导模式和规律提供数据支持，可以预测违约风险在客户之间传导的可能性。

如图4所示，本说明书实施例还提供一种违约传导风险识别方法，所述方法可以包括以下步骤。

S410：根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少两个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户。

S420：将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用上述模型训练方法训练得到。

下面结合图5来说明本说明书实施例的有益效果：

图5为本说明书实施例违约传导风险识别结果的示意图，模型将在观察时间点T+0时选取以违约客户为中心的的联通体，预测在T+1时会发生违约传导风险的客户。其中，图5左部分为在T+0时点，假设有两间公司违约(图中深颜色的节点)，图5右部分为T+1时点，违约传导风险预测结果展示。

本说明书实施例提供的违约传导风险识别方法，可以使用针对已违约关联体内客户、风险分析发现的高违约概率风险客户以及任意指定法人客户，构建的风险传导预测的机器学习模型，预测违约风险在客户之间传导的可能性。

本说明书实施例还提供了一种模型训练方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户；对每个联通体网络建立标签；以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块，所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据用户终端的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器。在本实施方式中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图6，在软件层面上，本说明书实施例还提供了一种模型训练装置，该装置具体可以包括以下的结构模块。

构建模块610，用于根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少两个节点，每个节点代表一个客户信息；其中，每个联通体网络中至少包括一个违约客户；

标记模块620，用于对每个联通体网络建立标签；

训练模块630，用于以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；

评价模块640，用于对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

在一些实施例中，所述训练模块630还包括：提取模块，用于提取所述训练样本中客户的特征关系；计算模块，用于根据所述特征关系导致发生违约传导的可能性计算所述特征关系的权重值；分类模块，用于根据权重值大小对联通体网络是否会发生违约传导风险进行分类。

在一些实施例中，所述评价模块640还包括：测试模块，用于使用预设的测试样本对训练后的二分类模型进行测试；选取模块，根据测试结果得到各个模型的评价指标，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

本说明书实施例还提供了一种违约传导风险识别方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少两个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用上述模型训练方法训练得到。

参阅图7，在软件层面上，本说明书实施例还提供了一种违约传导风险识别装置，该装置具体可以包括以下的结构模块。

构建模块710，用于根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少两个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；

识别模块720，用于将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用上述模型训练方法方法训练得到。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片2。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少三个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户；

对每个联通体网络建立标签；所述对每个联通体网络建立标签包括：将在预设时间内违约客户增加的联通体网络标记为有风险传导的联通体网络；将在预设时间内违约客户未增加的联通体网络标记为无风险传导的联通体网络；

以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；

对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型；

根据客户之间的关联关系，构建多个联通体网络，包括：如果多个违约客户之间具有关联关系，则以所述多个违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络；如果与一个违约客户具有关联关系的其他客户均未发生违约，则以该一个违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络。

2.根据权利要求1所述的方法，其特征在于，所述预先构建的多个二分类模型是基于不同算法建立的。

3.根据权利要求1所述的方法，其特征在于，所述客户之间的关联关系包括股权信息、人员信息、交易信息中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练包括：

提取所述训练样本中客户的特征关系；

根据所述特征关系导致发生违约传导的可能性计算所述特征关系的权重值；

根据权重值大小对联通体网络是否会发生违约传导风险进行分类。

5.根据权利要求4所述的方法，其特征在于，所述特征关系包括客户之间的关联关系或，客户之间的关联关系和客户的自身信息。

6.根据权利要求3所述的方法，其特征在于，所述客户的自身信息包括：财务信息、行业类别信息、地域信息、经营信息中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型包括：

使用预设的测试样本对训练后的二分类模型进行测试；

根据测试结果得到各个模型的评价指标，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

8.一种违约传导风险识别方法，其特征在于，所述方法包括：

根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少三个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；

将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用如权利要求1-7中任一项所述的方法训练得到。

9.一种模型训练装置，其特征在于，所述装置包括：

构建模块，根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少三个节点，每个节点代表一个客户信息；其中，每个联通体网络中至少包括一个违约客户；

标记模块，用于对每个联通体网络建立标签；所述对每个联通体网络建立标签包括：将在预设时间内违约客户增加的联通体网络标记为有风险传导的联通体网络；将在预设时间内违约客户未增加的联通体网络标记为无风险传导的联通体网络；

训练模块，用于以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；

评价模块，用于对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型；

10.根据权利要求9所述的装置，其特征在于，所述训练模块还包括：

提取模块，用于提取所述训练样本中客户的特征关系；

计算模块，用于根据所述特征关系导致发生违约传导的可能性计算所述特征关系的权重值；

分类模块，用于根据权重值大小对联通体网络是否会发生违约传导风险进行分类。

11.根据权利要求10所述的装置，其特征在于，所述评价模块还包括：

测试模块，用于使用预设的测试样本对训练后的二分类模型进行测试；

选取模块，根据测试结果得到各个模型的评价指标，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型。

12.一种违约传导风险识别装置，其特征在于，所述装置包括：

构建模块，用于根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少三个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；

识别模块，用于将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用如权利要求1-7中任一项所述的方法训练得到。

13.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：根据客户之间的关联关系，构建多个联通体网络，其中，每个联通体网络包含至少三个节点，每个节点代表一个客户信息；每个联通体网络中至少包括一个违约客户；对每个联通体网络建立标签；所述对每个联通体网络建立标签包括：将在预设时间内违约客户增加的联通体网络标记为有风险传导的联通体网络；将在预设时间内违约客户未增加的联通体网络标记为无风险传导的联通体网络；以附带标签的联通体网络作为训练样本，对预先构建的多个二分类模型进行训练；对所述训练后的二分类模型进行评价，选取评价指标最高的训练后的二分类模型作为违约传导风险识别模型；根据客户之间的关联关系，构建多个联通体网络，包括：如果多个违约客户之间具有关联关系，则以所述多个违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络；如果与一个违约客户具有关联关系的其他客户均未发生违约，则以该一个违约客户为中心，根据客户之间的关联关系，向外延伸构建联通体网络。

14.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被执行时实现：根据客户之间的关联关系，构建联通体网络，其中，所述联通体网络包含至少三个节点，每个节点代表一个客户信息；所述联通体网络中至少包括一个违约客户；将所述联通体网络输入至预设的违约传导风险识别模型，得到识别结果，所述预设的违约传导风险识别模型采用如权利要求1-7中任一项所述的方法训练得到。