CN111353689A

CN111353689A - 一种风险评估方法及装置

Info

Publication number: CN111353689A
Application number: CN202010093501.4A
Authority: CN
Inventors: 梅止观; 贺欧文; 李诗诗
Original assignee: Beijing Shell Time Network Technology Co ltd
Current assignee: Beijing Shell Time Network Technology Co ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-30
Anticipated expiration: 2040-02-14
Also published as: CN111353689B

Abstract

本发明实施例提供一种风险评估方法及装置，其中方法包括：获取待预测用户所对应的特征数据；将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的风险预测结果；其中，所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本，以样本特征数据所对应的标签数据为目标值训练得到，且所述标签数据已预先通过预设切分点进行二分类切分。本发明实施例实现了通过评分卡模型对多种应用场景的预测。

Description

一种风险评估方法及装置

技术领域

本发明涉及风险评估技术领域，尤其涉及一种风险评估方法及装置。

背景技术

评分卡是一种常见的机器学习模型，典型应用场景包括银行放贷和企业征信等，旨在根据个人的基本信息拟合信用状况进行分数计算。评分卡已经成为具有严密理论和方法体系的信用评价手段。但是，经典评分卡仅适用于小数据量，高覆盖率和高准确性的数据场景中，且只能适用二分类业务场景，而对于互联网海量，低覆盖和低质量的数据场景没有系统性的解决方案，例如在关键数据缺失率极高的数据场景中则不适用，且并不能适用多种业务场景。

发明内容

本发明实施例提供一种风险评估方法及装置，以解决现有技术中只能采用评分模型对二分类业务场景进行风险评估的问题。

本发明实施例提供一种风险评估方法，包括：

获取待预测用户所对应的特征数据；

将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的风险预测结果；

其中，所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本，以样本特征数据所对应的标签数据为目标值训练得到，且所述标签数据已预先通过预设切分点进行二分类切分。

可选地，所述将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的预测结果之前，还包括：获取样本用户所对应的样本特征数据和真实风险值；当所述样本特征数据的缺失率大于预设缺失阈值时，通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据；通过所述填充后数据对预设二分类模型进行训练，得到训练后模型；通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试，并当所述训练后模型的准确度大于预设准确度阈值时，将所述训练后模型确定为所述评分卡模型。

可选地，所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，包括：当所述样本特征数据的数据类型为连续型时，通过线性模型对所述样本特征数据进行填充，得到填充后数据；当所述样本特征数据的数据类型为二分类型时，通过逻辑回归模型对所述样本特征数据进行填充，得到填充后数据；当所述样本特征数据的数据类型为无序多分类型时，通过Softmax模型对所述样本特征数据进行填充，得到填充后数据；当所述样本特征数据的数据类型为有序多分类型时，通过有序多分类模型对所述样本特征数据进行填充，得到填充后数据。

可选地，所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，包括：获取所述样本特征数据中缺失率由低到高的数据位置排列顺序；按照所述缺失率由低到高的数据位置排列顺序，依次对缺失数据进行填充，得到填充后数据。

可选地，所述通过所述填充后数据对预设二分类模型进行训练，得到训练后模型，包括：通过预设切分点对所述标签数据进行切分，并对分属于预设切分点两侧的标签数据分别进行二分类标记；通过所述填充后特征数据和进行二分类标记后的标签数据对所述预设二分类模型进行训练，得到训练后数据。

可选地，当所述标签数据的数据类型为连续型时，所述通过预设切分点对所述标签数据进行切分之前，还包括：通过反向映射，将所述标签数据转换为sigmoid曲线；根据所述sigmoid曲线，确定所述标签数据所对应的切分点，并将所确定的切分点确定为预设切分点。

本发明实施例还提供一种风险评估装置，包括：

第一获取模块，用于获取待预测用户所对应的特征数据；

第二获取模块，用于将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的风险预测结果；

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述的风险评估方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的风险评估方法的步骤。

本发明实施例提供的风险评估方法及装置，通过在获取到待预测用户所对应的特征数据后，然后将特征数据输入至评分卡模型中，得到评分卡模型输出的风险预测结果，其中评分卡模型预先以样本用户所对应的样本特征数据为训练样本，以样本特征数据所对应的标签数据为目标值训练得到，且标签数据已预先通过预设切分点进行二分类切分，这使得训练到的评分卡模型不仅能够适用于二分类数据，还能够适用于其他类型数据，从而实现了该评分卡模型能够适应于连续型数据、无序多分类型数据和有序多分类数据等多类型数据，从而扩展了评分卡模型的应用场景，使得评分卡模型能够适应多种业务的数据类型，避免了现有评分卡模型只能对二分类业务场景进行评分预测的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中风险评估方法的步骤流程图；

图2为本发明实施例中得到评分卡模型的步骤流程图；

图3为本发明实施例中样本特征数据的示意图；

图4为本发明实施例中对样本特征数据进行填充后的示意图；

图5为本发明实施例中采用填充后数据对预设二分类模型进行训练时的示意图；

图6为本发明实施例中采用样本特征数据对训练后数据进行准确度测试时的示意图；

图7为本发明实施例中风险评估装置的模块框图；

图8为本发明实施例中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例中风险评估方法的步骤流程图，该方法包括如下步骤：

步骤101：获取待预测用户所对应的特征数据。

在本步骤中，具体的，在对用户进行风险评估时可以先获取待预测用户所对应的特征数据。

此外，具体的，待预测用户可以对应与风险预测相关的多类特征数据，在此并不对此进行具体限定。例如可以包括用户的年龄、学历、地域、资产分布情况以及收入等多类特征数据。

步骤102：将特征数据输入至评分卡模型中，得到评分卡模型输出的风险预测结果。

在本步骤中，可以直接将获取到的特征数据输入至评分卡模型中，得到评分卡模型输出的风险预测结果。

其中，该评分卡模型预先以样本用户所对应的样本特征数据为训练样本，以样本特征数据所对应的标签数据为目标值训练得到，且标签数据已预先通过预设切分点进行二分类切分。

具体的，预设切分点为根据业务实际需求所设置的合适切分点，即可以根据业务需要对每类标签数据选取合适的切分点，并在切分点以上和以下分别进行二分类标记，得到二分类切分后的标签数据，从而实现了能够通过除二分类类型之外的类型标签数据训练得到评分卡模型，进而实现了在评分卡模型的应用过程中，能够不限制评分卡模型的应用场景，即能够适用于包括二分类业务场景在内的连续型、无序多分类型和有序多分类型等业务场景，实现了评分卡模型能够适应多种业务的数据类型，避免了现有评分卡模型只能对二分类业务场景进行评分预测的问题。

例如，假设标签数据为连续型的工资收入，则可以直接设置预设切分点，并通过该预设切分点对连续型数据进行切分，此时可以假设预设切分点以上的数值对应1，预设切分点以下的数值对应0；同理，假设标签数据为包括连续多档分类的资产等级，假设包括1至4档，则可以将预设切分点设置为3档，此时3档以上可以对应1，3档以下可以对应0。

这样，本实施例在获取到待预测用户所对应的特征数据后，将特征数据输入至评分卡模型中，得到评分卡模型输出的风险预测结果，基于评分卡模型预先以样本用户所对应的样本特征数据为训练样本，以样本特征数据所对应的标签数据为目标值训练得到，且标签数据已预先通过预设切分点进行二分类切分，从而实现了能够通过除二分类类型之外的类型标签数据训练得到评分卡模型，进而实现了在评分卡模型的应用过程中，能够不限制评分卡模型的应用场景，即能够适用于包括二分类业务场景在内的连续型、无序多分类型和有序多分类型等业务场景，实现了评分卡模型能够适应多种业务的数据类型，避免了现有评分卡模型只能对二分类业务场景进行评分预测的问题。

进一步地，本实施例在将特征数据输入至评分卡模型中，得到评分卡模型输出的风险预测结果之前，还需要得到评分卡模型，此时如图2所示，可以包括如下步骤：

步骤201：获取样本用户所对应的样本特征数据和真实风险值。

具体的，样本特征数据的数据类型为下述类型中的任意一种或多种：连续型、二分类型、无序多分类型和有序多分类型；即在此并不具体限定样本用户所对应的多类样本特征数据中每类样本特征数据的数据类型。

例如，样本特征数据可以包括用户的年龄、学历、地域、资产分布情况以及收入等多类，在此并不对此进行限定。

步骤202：当样本特征数据的缺失率大于预设缺失阈值时，通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充，得到填充后数据。

在本步骤中，具体的，当样本特征数据的缺失率大于预设缺失阈值时，例如对于关键但缺失率极高的数据，即假设预设缺失阈值为99％时，此时不采用简单的丢弃方法，而是通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充，得到填充后数据。

其中，填充后数据包括填充后特征数据和样本特征数据所对应的标签数据，从而保证了填充后数据的完整性，从而使得能够通过填充后数据对预设二分类模型进行训练。

此时，在通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充，得到填充后数据时，可以当样本特征数据的数据类型为连续型时，通过线性模型对样本特征数据进行填充，得到填充后数据；当特征数据的数据类型为二分类型时，通过逻辑回归模型对样本特征数据进行填充，得到填充后数据；当样本特征数据的数据类型为无序多分类型时，通过Softmax模型对样本特征数据进行填充，得到填充后数据；当样本特征数据的数据类型为有序多分类型时，通过有序多分类模型对样本特征数据进行填充，得到填充后数据。

例如，如图3所示，在图3中的连续型数据、二分类型数据、无序多分类型数据和有序多分类型数据等均缺失率较高，此时可以采用机器学习模型对样本特征数据进行填充，得到填充后数据，填充后数据可以参见图4所示。

这样，通过与样本特征数据的数据类型相对应的机器学习模型对缺失严重的样本特征数据进行大规模预测填充，实现了数据的粗粒度化，降低了模型对精度的敏感度，实现了用样本特征数据的数量弥补精度，避免了现有技术中的评分卡模型不适用互联网海量，低覆盖和低质量的数据场景的问题。

此外，具体的，在通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充，得到填充后数据时，还可以获取样本特征数据中缺失率由低到高的数据位置排列顺序，然后按照缺失率由低到高的数据位置排列顺序，依次对缺失数据进行填充，得到填充后数据。这样，通过从缺失率低到高的顺序进行循环填充，实现了用低缺失率数据削减高缺失率数据填充的影响。

步骤203：通过填充后数据对预设二分类模型进行训练，得到训练后模型。

在本步骤中，具体的，在得到填充后数据之后，可以通过填充后数据对预设二分类模型进行训练，得到训练后模型。

当然，具体的，该预设二分类模型可以为现有的评分卡模型，例如可以为二分类回归评分卡模型。

此外，具体的，在通过填充后数据对预设二分类模型进行训练，得到训练后模型时，可以通过预设切分点对标签数据进行切分，并对分属于预设切分点两侧的标签数据分别进行二分类标记，然后通过填充后特征数据和进行二分类标记后的标签数据对预设二分类模型进行训练，得到训练后数据。

当然，当标签数据的数据类型为连续型时，在通过预设切分点对标签数据进行切分之前，还可以通过反向映射，将标签数据转换为sigmoid曲线；然后根据sigmoid曲线，确定标签数据所对应的切分点，并将所确定的切分点确定为预设切分点，以保证所确定的预设切分点的准确性。

这样通过预设切分点对标签数据进行切分，然后再通过填充后特征数据和进行二分类标记的标签数据对预设二分类模型进行训练，使得能够达到较好的拟合效果。

例如，如图5所示，在图5中，通过预设切分点对标签数据进行切分，然后通过填充后特征数据和进行二分类标记的标签数据对预设二分类模型进行训练，从而得到训练后模型。

步骤204：通过样本特征数据和真实风险值对训练后模型进行准确度测试，并当训练后模型的准确度大于预设准确度阈值时，将训练后模型确定为评分卡模型。

在本步骤中，具体的，直接采用未填充的样本特征数据以及样本用户的风险真实值对训练后模型进行准确度测试，并当训练后模型的准确度大于预设准确度阈值时，将训练后模型确定为评分卡模型。

当然，在此需要说明的是，在通过样本特征数据对训练后模型进行准确度测试时，同样需要对样本特征数据所对应的真实风险值进行同上的切分操作，在此不再进行赘述。

这样，在模型训练阶段采用填充后数据对模型进行训练，然后模型验证阶段采用未填充前的真实的样本特征数据进行准确度测试，从而保证所得到的评分卡模型的评分准确性。当然，实践证明，该种方式得到的评分卡模型所得得到的结果可靠且符合预期。

例如，参见图6所示，在图6中，采用未经过填充的样本特征数据输入至训练后模型中，得到真实评分，从而验证评分卡模型的准确度。

这样，本实施例通过对缺失率极高的样本特征数据，通过采用与数据类型相对应的机器学习模型对样本特征数据进行预测填充，并依据填充后数据进行模型训练得到训练后数据，最后根据真实的未填充前的样本特征数据对训练后数据进行准确度测试，得到评分卡模型，实现了在极限缺失数据条件下的评分卡模型的建立，并实现了通过填充后数据和填充前的样本特征数据综合应用得到评分卡模型，避免了模型训练数据与样本特征数据所产生的结果失真，且实现了通过数据切分的方式使得评分卡模型能够适用多种数据类型的应用场景。

此外，如图7所示，为本发明实施例中风险评估装置的模块框图，该风险评估装置包括：

第一获取模块701，用于获取待预测用户所对应的特征数据；

第二获取模块702，用于将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的风险预测结果；

可选地，还包括：

第三获取模块，用于获取样本用户所对应的样本特征数据和真实风险值；

第四获取模块，用于当所述样本特征数据的缺失率大于预设缺失阈值时，通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据；

第五获取模块，用于通过所述填充后数据对预设二分类模型进行训练，得到训练后模型；

确定模块，用于通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试，并当所述训练后模型的准确度大于预设准确度阈值时，将所述训练后模型确定为所述评分卡模型。

可选地，所述第四获取模块用于，当所述样本特征数据的数据类型为连续型时，通过线性模型对所述样本特征数据进行填充，得到填充后数据；当所述样本特征数据的数据类型为二分类型时，通过逻辑回归模型对所述样本特征数据进行填充，得到填充后数据；当所述样本特征数据的数据类型为无序多分类型时，通过Softmax模型对所述样本特征数据进行填充，得到填充后数据；当所述样本特征数据的数据类型为有序多分类型时，通过有序多分类模型对所述样本特征数据进行填充，得到填充后数据。

可选地，所述第四获取模块用于，获取所述样本特征数据中缺失率由低到高的数据位置排列顺序；按照所述缺失率由低到高的数据位置排列顺序，依次对缺失数据进行填充，得到填充后数据。

可选地，第五获取模块用于，通过预设切分点对所述标签数据进行切分，并对分属于预设切分点两侧的标签数据分别进行二分类标记；通过所述填充后特征数据和进行二分类标记后的标签数据对所述预设二分类模型进行训练，得到训练后数据。

可选地，当所述标签数据的数据类型为连续型时，第五获取模块用于，通过反向映射，将所述标签数据转换为sigmoid曲线；根据所述sigmoid曲线，确定所述标签数据所对应的切分点，并将所确定的切分点确定为预设切分点。

在此需要说明的是，上述装置能够实现方法侧的所有方法步骤和有益效果，在此不再对相同方法步骤和有益效果进行具体赘述。

另外，如图8所示，为本发明实施例提供的电子设备的实体结构示意图，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储在存储器830上并可在处理器810上运行的计算机程序，以执行下述步骤：获取待预测用户所对应的特征数据；将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的风险预测结果；其中，所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本，以样本特征数据所对应的标签数据为目标值训练得到，且所述标签数据已预先通过预设切分点进行二分类切分。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例提供的方法步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种风险评估方法，其特征在于，包括：

获取待预测用户所对应的特征数据；

2.根据权利要求1所述的风险评估方法，其特征在于，所述将所述特征数据输入至评分卡模型中，得到所述评分卡模型输出的风险预测结果之前，还包括：

获取样本用户所对应的样本特征数据和真实风险值；

当所述样本特征数据的缺失率大于预设缺失阈值时，通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据；

通过所述填充后数据对预设二分类模型进行训练，得到训练后模型；

通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试，并当所述训练后模型的准确度大于预设准确度阈值时，将所述训练后模型确定为所述评分卡模型。

3.根据权利要求2所述的风险评估方法，其特征在于，所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，包括：

当所述样本特征数据的数据类型为连续型时，通过线性模型对所述样本特征数据进行填充，得到填充后数据；

当所述样本特征数据的数据类型为二分类型时，通过逻辑回归模型对所述样本特征数据进行填充，得到填充后数据；

当所述样本特征数据的数据类型为无序多分类型时，通过Softmax模型对所述样本特征数据进行填充，得到填充后数据；

当所述样本特征数据的数据类型为有序多分类型时，通过有序多分类模型对所述样本特征数据进行填充，得到填充后数据。

4.根据权利要求2所述的风险评估方法，其特征在于，所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充，得到填充后数据，包括：

获取所述样本特征数据中缺失率由低到高的数据位置排列顺序；

按照所述缺失率由低到高的数据位置排列顺序，依次对缺失数据进行填充，得到填充后数据。

5.根据权利要求2所述的风险评估方法，其特征在于，所述通过所述填充后数据对预设二分类模型进行训练，得到训练后模型，包括：

通过预设切分点对所述标签数据进行切分，并对分属于预设切分点两侧的标签数据分别进行二分类标记；

通过所述填充后特征数据和进行二分类标记后的标签数据对所述预设二分类模型进行训练，得到训练后数据。

6.根据权利要求5所述的风险评估方法，其特征在于，当所述标签数据的数据类型为连续型时，所述通过预设切分点对所述标签数据进行切分之前，还包括：

通过反向映射，将所述标签数据转换为sigmoid曲线；

根据所述sigmoid曲线，确定所述标签数据所对应的切分点，并将所确定的切分点确定为预设切分点。

7.一种风险评估装置，其特征在于，包括：

第一获取模块，用于获取待预测用户所对应的特征数据；

8.根据权利要求7所述的风险评估装置，其特征在于，还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的风险评估方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述的风险评估方法的步骤。