CN115293336A

CN115293336A - 风险评估模型训练方法、装置和服务器

Info

Publication number: CN115293336A
Application number: CN202211027872.8A
Authority: CN
Inventors: 吕美洁; 郭继泱; 高小明; 张天
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-04

Abstract

本申请提供一种风险评估模型训练方法、装置和服务器，涉及人工智能领域。该方法包括：服务器采集用户的历史贷款信息和用户信息。服务器根据用户信息和历史贷款信息生成真实样本集合。其中，样本数据根据用户信息整理得到，样本标签根据历史贷款信息生成。服务器建立对抗生成网络模型。服务器利用真实样本集合训练该对抗生成网络模型的生成器和判别器。服务器利用训练好的生成器生成大量的仿真样本，得到仿真样本集合。服务器使用真实样本集合和仿真样本集合生成训练样本集合。服务器将该训练样本集合输入到风险评估模型中进行训练，得到最终的风险评估模型。本申请的方法，提高了模型训练的稳定性和模型分别的准确性。

Description

风险评估模型训练方法、装置和服务器

技术领域

本申请涉及人工智能领域，尤其涉及一种风险评估模型训练方法、装置和服务器。

背景技术

在金融等领域，金融服务公司通常存在个人信贷、企业信贷等多种信贷业务。在金融服务公司进行信贷前，通常需要对用户进行风险评估。

目前，信贷公司通常在参考客户的收入情况、贷款用途、历史借贷还款情况等信息后，人工对客户在本次信贷过程进行风险评估。信贷公司通常会依据该风险评估结果，确定是否发放贷款。

然而，人工评估的方法主观性较强，存在误判概率高的问题。

发明内容

本申请提供一种风险评估模型训练方法、装置和服务器，用以解决现有技术中误判概率高的问题。

第一方面，本申请提供一种风险评估模型训练方法，包括：

采集用户的用户信息和历史贷款信息，并根据所述用户的所述用户信息生成真实样本集合，根据所述用户的所述历史贷款信息生成样本标签，所述样本标签包括按期还款和还款违约两类；

利用对抗生成网络模型，根据所述真实样本集合生成仿真样本集合，每一所述仿真样本中包括一模拟用户的历史贷款信息和标签信息；

使用所述真实样本集合和所述仿真样本集合构建的训练样本集合对风险评估模型中进行训练，训练后的所述风险评估模型用于根据待评估用户的历史贷款信息进行风险预测。

可选地，所述利用对抗生成网络模型，根据所述真实样本集合生成仿真样本集合，具体包括：

构建对抗生成网络模型，所述对抗生成网络模型中包括生成器和判别器；

将随机噪声输入到所述生成器生成仿真样本；将所述仿真样本和所述判别器进行判别；

根据所述真实样本和所述仿真样本的判别结果更新所述生成器中的模型参数，以使所述抗生成网络模型目标函数最小化；

根据所述真实样本和所述仿真样本的判别结果更新所述判别器中的模型参数，以使所述抗生成网络模型的目标函数最大化；

迭代上述步骤，并对所述生成器和所述判别器进行交替训练，直至所述对抗生成网络模型的所述目标函数达到纳什均衡；

使用完成迭代后的所述抗生成网络模型中的所述生成器，生成仿真样本集合。

可选地，所述使用所述真实样本集合和所述仿真样本集合构建的训练样本集合对风险评估模型中进行训练，具体包括：

对所述真实样本和所述仿真样本中的所述历史贷款信息进行预处理，得到特征向量；

使用预设的混合特征选择模型，从所述真实样本集合和所述仿真样本集合组成的特征向量集合中，选择部分特征向量组成训练样本集合和测试样本集合；

使用所述训练样本集合和所述测试样本集合，对所述风险评估模型进行训练，所述风险评估模型为分类模型。

可选地，所述根据所述用户的所述用户信息生成真实样本集合，根据所述用户的所述历史贷款信息生成样本标签，具体包括：

根据每一所述用户的所述用户信息生成真实样本集合中的一个真实样本；

根据每一所述用户的所述历史贷款信息，确定每一所述用户是否存在还款违约情况；

当所述用户存在还款违约情况时，确定所述真实样本的样本标签为还款违约；否则，确定所述真实样本的样本标签为按期还款。

可选地，所述方法，还包括：

从真实样本集合中获取预数量的真实样本，组成模型测试集合；

将所述模型测试集合中的所述真实样本输入训练后的所述风险评估模型，得到每一所述真实样本的预测结果；

根据每一所述真实样本的所述预测结果和样本标签，确定所述风险评估模型的F1评价指标和AUC评价指标；

根据所述F1评价指标和所述AUC评价指标，确定所述风险评估模型的评价结果。

可选地，所述方法，还包括：

获取待评估用户的用户信息；

将所述待评估用户的所述用户信息输入到训练后的所述风险评估模型，得到所述待评估用户的风险类别；

根据所述风险类别，确定所述待评估用户的贷款结果。

第二方面，本申请提供一种风险评估模型训练装置，包括：

采集模块，用于采集用户的用户信息和历史贷款信息，并根据所述用户的所述用户信息生成真实样本集合，根据所述用户的所述历史贷款信息生成样本标签，所述样本标签包括按期还款和还款违约两类；

训练模块，用于利用对抗生成网络模型，根据所述真实样本集合生成仿真样本集合，每一所述仿真样本中包括一模拟用户的历史贷款信息和标签信息；使用所述真实样本集合和所述仿真样本集合构建的训练样本集合对风险评估模型中进行训练，训练后的所述风险评估模型用于根据待评估用户的历史贷款信息进行风险预测。

可选地，所述训练模块，具体用于：

可选地，所述采集模块，具体用于：

可选地，所述装置，还包括：

模型评估模块，用于从真实样本集合中获取预数量的真实样本，组成模型测试集合；将所述模型测试集合中的所述真实样本输入训练后的所述风险评估模型，得到每一所述真实样本的预测结果；根据每一所述真实样本的所述预测结果和样本标签，确定所述风险评估模型的F1评价指标和AUC评价指标；根据所述F1评价指标和所述AUC评价指标，确定所述风险评估模型的评价结果。

可选地，所述装置，还包括：

风险评估模块，用于获取待评估用户的用户信息；将所述待评估用户的所述用户信息输入到训练后的所述风险评估模型，得到所述待评估用户的风险类别；根据所述风险类别，确定所述待评估用户的贷款结果。

第三方面，本申请提供一种服务器，包括：存储器和处理器；

所述存储器用于存储计算机程序；所述处理器用于根据所述存储器存储的计算机程序执行第一方面及第一方面任一种可能的设计中的风险评估模型训练方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当服务器的至少一个处理器执行该计算机程序时，服务器执行第一方面及第一方面任一种可能的设计中的风险评估模型训练方法。

第五方面，本申请提供一种计算机程序产品，所述计算机程序产品包括计算机程序，当服务器的至少一个处理器执行该计算机程序时，服务器执行第一方面及第一方面任一种可能的设计中的风险评估模型训练方法。

本申请提供的风险评估模型训练方法、装置和服务器，通过采集用户的历史贷款信息和用户信息；根据用户信息和历史贷款信息生成真实样本集合，其中，样本数据可以根据用户信息整理得到，样本标签根据历史贷款信息生成；建立对抗生成网络模型；利用真实样本集合训练该对抗生成网络模型的生成器和判别器；利用训练好的生成器生成大量的仿真样本，得到仿真样本集合；使用真实样本集合和仿真样本集合生成训练样本集合；将该训练样本集合输入到风险评估模型中进行训练，得到最终的风险评估模型的手段，实现提高了模型训练的稳定性和模型分别的准确性的效果。此外，本申请所使用的对抗生成网络模型为Wasserstein GAN网络模型，提升了生成样本的多样性，使训练过程更加稳定。并且，本申请在风险评估模型训练过程中增加了数据预处理和混合特征选择的过程，提高了训练样本的有效性，提高了模型训练速度，和分类准确率。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的一种风险评估的场景示意图；

图2为本申请一实施例提供的一种风险评估模型训练方法的流程图；

图3为本申请一实施例提供的一种对抗神经网络的结构示意图；

图4为本申请一实施例提供的一种风险评估模型训练方法的流程图；

图5为本申请一实施例提供的一种风险评估模型训练方法的流程图；

图6为本申请一实施例提供的一种风险评估模型训练装置的结构示意图；

图7为本申请一实施例提供的一种服务器的硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。

应当进一步理解，术语“包含”、“包括”表明存在的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。

此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

在金融等领域，金融服务公司通常存在个人信贷、企业信贷等多种信贷业务。在金融服务公司进行信贷前，通常需要对用户进行风险评估。目前，信贷公司通常在参考客户的收入情况、贷款用途、历史借贷还款情况等信息后，人工对客户在本次信贷过程进行风险评估。信贷公司通常会依据该风险评估结果，确定是否发放贷款。然而，人工评估的方法需要人工对大量客户信息进行筛选、处理、判别，存在效率低下的问题。且在人工评估过程中，工作人员的个人主观判断会对个人客户信贷风险的评估结果产生影响，存在准确计量和评价的误判率高的问题。这些问题的存在，容易引发金融服务公司的贷款违约率高，资金周转率低的问题。

鉴于现有人工风险评估模型训练方法存在上述缺陷，本发明提供了一种基于生成对抗网络的风险评估模型训练方法，使用该风险评估模型训练方法训练得到风险评估模型可以对用户的个人信贷风险提供更加高效、准确的评估。本申请提出的风险评估模型训练方法，主要可以分为采集模块和训练模块两个部分。其中，采集模块主要用于用户的历史贷款信息。为了提高采集效率，该用户可以为有历史贷款记录的用户。服务器可以对采集得到的历史贷款信息进行整理和标注，得到真实样本集合。该标注具体为根据历史贷款信息确定并输入该历史贷款信息对应的样本标签。该样本标签包括按期还款和还款违约两类。其中，训练模块中又可以包括样本扩充和模型训练两个部分。服务器可以根据真实样本集合的分布情况利用Wasserstein GAN模拟生成仿真样本集合。服务器可以利用真实样本集合和仿真样本集合组成训练样本集合。服务器可以在对训练样本集合中样本数据进行预处理和特征选择后，输入到支持向量机分类器中进行训练，构建风险评估模型。

在完成该风险评估模型的训练到该风险评估模型的使用之前，服务器还可以对该风险评估模型进行评估。服务器可以使用多个用户的历史贷款信息生成测试样本集合。服务器可以根据得到的风险评估模型对测试样本集合中的样本进行风险评估。服务器可以根据评估结果和真实结果，计算F1评价指标和曲线下面积(Area Under Curve，AUC)评价指标，对风险评估模型进行评价。

本申请利用Wasserstein GAN生成仿真样本集合，增加了训练样本集合的数据量，不仅提升了训练样本的多样性，而且提高了防线评估模型的训练效果，使训练过程更加稳定。本申请利用支持向量机分类模型构建风险进行评估，提高了个人信贷风险评估的准确性，减少对银行员工的依赖，降低人工成本，提升信贷风险评估的效率。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1示出了本申请一实施例提供的一种风险评估的场景示意图。如图1所示，服务器获取待评估用户的历史贷款信息。该历史贷款信息可以服务器在确定待评估用户的用户ID后，从数据库中检索得到的目标字段的字段信息。该目标字段可以为管理员预设的信息字段。服务器可以在获取该历史贷款信息后，将该历史贷款信息输入到风险评估模型。该风险评估模型可以对这些字段信息进行数据化处理，并将数据化处理后的字段信息输入到分类模型中。该分类模型可以用于计算该待评估用户的风险指标或者风险类别。当该计算结果为风险指标时，服务器可以根据该风险指标和预设指标范围，确定该待评估用户的风险类别。该风险类别即为该风险评估模型的评估结果。服务器可以输出该评估结果。服务器还可以根据该评估结果确定用户的贷款结果。该贷款结果可以包括发送贷款和不发放贷款两种。服务器还可以记录该用户在后期的还款情况。服务器可以周期性整理数据库中的真实样本。服务器可以使用这些真实样本，对风险评估模型进行加训，以提高该风险评估模型的准确性。服务器可以在完成风险评估模型的训练之后，将该风险评估模型直接部署到服务器中。或者，服务器还可以在完成风险评估模型的训练之后，将该风险评估模型的使用接口布局到服务器或者其他前端设备中。

本申请中，以服务器为执行主体，执行如下实施例的风险评估模型训练方法。具体地，该执行主体可以为服务器的硬件装置，或者为服务器中实现下述实施例的软件应用，或者为安装有实现下述实施例的软件应用的计算机可读存储介质，或者为实现下述实施例的软件应用的代码。

图2示出了本申请一实施例提供的一种风险评估模型训练方法的流程图。在图1所示实施例的基础上，如图2所示，以服务器为执行主体，本实施例的方法可以包括如下步骤：

S101、采集用户的用户信息和历史贷款信息，并根据用户的用户信息生成真实样本集合，根据用户的历史贷款信息生成样本标签，样本标签包括按期还款和还款违约两类。

本实施例中，服务器可以从金融服务器机构的数据库中采集用户的历史贷款信息和用户信息。其中，用户信息可以包括用户自身个人属性信息和财产信息两个部分。其中，用户自身个人属性信息包括年龄、教育背景、婚育、户口所在地、职业、工龄、年收入等信息。其中，财产信息包括住房情况、车辆、投资金额、债务收入比、贷款总额、每月的分期付款额、信用卡的数量、总银行卡的信用限额、信用卡拖欠状况等。其中，历史贷款信息中至少包括用户的贷款时间、贷款金额、还款金额等信息。或者，该历史贷款信息中还可以包括用户的还款方式、每期应还金额、每期还款金额等信息。

服务器可以根据该历史贷款信息中的贷款金额和还款金额、每期应还金额和每期还款金额确定用户是否按期还款。服务器可以根据用户是否按期还款，生成样本标签。当用户按期还款时，该样本标签可以为按期还款。当用户存在没有按期还款的情况时，该样本标签可以为还款违约。服务器可以根据用户信息整理得到样本数据。该样本数据和该样本标签组成真实样本集合中的样本。

一种示例中，该真实样本集合生成具体可以包括如下三个步骤：

步骤1、根据每一用户的用户信息生成真实样本集合中的一个真实样本。

本步骤中，服务器可以在获取用户信息后，对用户信息进行整理，将该用户信息进行数据化。数据化后的用户信息为一个向量。该向量即为样本数据。该样本数据为真实样本的样本数据。服务器可以根据多个用户的用户信息，生成多个真实样本，并组成真实样本集合。需要注意到是，由于该真实样本用于实现模型的训练，因此，在本步骤中采集为已经有过贷款记录的用户。并且，在该数据采集过程中，优先采集已经完成还款的用户。

步骤2、根据每一用户的历史贷款信息，确定每一用户是否存在还款违约情况。

本步骤中，服务器可以获取每一用户的历史贷款信息。该历史贷款信息可以为该用户在之前的贷款过程的记录信息。例如，该历史贷款信息可以包括贷款时间、总贷款金额、总还款金额、还款方式、每期应还金额、每期还款金额等信息。当一个用户存在多个贷款记录时，服务器可以保留其中已经完成还款的一条或者多条贷款记录。服务器可以判断这些贷款记录中是否存在还款违约情况。由于，一个用户可能存在多次贷款记录或者一次贷款记录的中可能包括多次还款。因此，当该用户存在一次还款违约时，可以确定该用户还款违约。

步骤3、当用户存在还款违约情况时，确定真实样本的样本标签为还款违约。否则，确定真实样本的样本标签为按期还款。

本步骤中，服务器可以根据步骤2的判断结果，生成样本标签。当该用户存在还款违约情况时，确定该用户的样本标签为还款违约。由于一个用户仅对应于一个真实样本。因此，该样本标签即为该真实样本的样本标签。当该用户不存在还款违约情况时，确定该用户的样本标签为按期还款。该用户样本标签即为该用户的真实样本的样本标签。

S102、利用对抗生成网络模型，根据真实样本集合生成仿真样本集合，每一仿真样本中包括一模拟用户的历史贷款信息和标签信息。

对抗生成网络可以如图3所示，其中包括一个生成器G和一个判别器D。生成器G可以在获取随机噪声z后，根据该随机噪声z生成仿真样本。判别器D可以在获取真实样本和仿真样本后，判断仿真样本的真实性。当判别器D判别仿真样本为真时，说明该生成器G生成的仿真样本与真实样本接近。该判别器D可以根据真实样本的判别准确率进行更新，提高判别器D的判别准确率。生成器G可以根据仿真样本的判别准确率进行更新，提高生成器G生成的仿真样本与真实样本的相似度。

本实施例中，服务器可以建立对抗生成网络模型。服务器可以利用真实样本集合训练该对抗生成网络模型的生成器和判别器。该对抗生成网络可以为Wasserstein GAN网络模型。该基于Wasserstein GAN的使用提升了生成样本的多样性，使训练过程更加稳定。服务器可以利用训练好的生成器生成大量的仿真样本，得到仿真样本集合。该仿真样本集合中的每一仿真样本中除了包括样本数据外还可以包括标签信息。其中，样本数据即为仿真的用户信息。

一种示例中，仿真样本集合的生成步骤具体可以如下所示：

步骤1、服务器构建对抗生成网络模型，对抗生成网络模型中包括生成器和判别器。

本步骤中，服务器可以建立对抗生成网络模型。该对抗生成网络模型包括生成器和判别器两个部分。该两个部分在架构上可以认为是两个网络。在第一次构建该对抗生成网络模型时，服务器可以随机初始化生成器和判别器两个网络的模型参数。该两个网络的模型参数可以在后续的模型训练中不断优化。其中，生成器可以不断学习真实样本的数据分布，然后使用随机噪声生成一个接近于真实训练数据的样本。判别器用于区分样本属于生成样本还是真实样本。

步骤2、服务器将随机噪声输入到生成器生成仿真样本。将仿真样本和判别器进行判别。

步骤3、服务器根据真实样本和仿真样本的判别结果更新生成器中的模型参数，以使抗生成网络模型目标函数最小化。

本步骤中，服务器可以根据真实样本和仿真样本的判别结果，确定生成器生成的仿真数据的生成误差。服务器可以根据该生成误差调整生成器中的模型参数。该模型参数即为生成器对应的网络的网络权值。在最优情况下，该调整后的生成器的模型参数可以使该对抗生成网络模型的目标函数最小化。

步骤4、服务器根据真实样本和仿真样本的判别结果更新判别器中的模型参数，以使抗生成网络模型的目标函数最大化。

本步骤中，服务器可以根据真实样本和仿真样本的判别结果，确定判别器的判别误差。服务器可以根据该判别误差调整判别器中的模型参数。该模型参数即为判别器对应的网络的网络权值。在最优情况下，该调整后的判别器的模型参数可以使该对抗生成网络模型的目标函数最大化。

步骤5、服务器迭代上述步骤，并对生成器和判别器进行交替训练，直至对抗生成网络模型的目标函数达到纳什均衡。

本步骤中，服务器的目标是在多次迭代过程中，对生成器和判别器进行的交替训练，在相互博弈的过程中使模型达到最优。该最优的情况记为生成误差和判别误差达到纳什均衡的时候。其中，对抗生成网络模型的目标函数如下式所示：

其中，x为真实样本，P_data(x)为真实样本的分布。z为随机噪声，P_G(z)为随机噪声的分布。该真实样本的分布和随机噪声的分布通常为高斯分布。

现有技术中，对抗生成网络模型的训练难度主要是因为在其最优判别器下，生成器的损失函数存在着梯度消失、梯度不稳定、对多样性与准确性惩罚不平衡导致模型崩溃等问题。而这些问题出现的原因主要是等价优化的距离度量方式(JS散度)不合理。为了解决这个问题，本申请引入了Wasserstein GAN网络模型构建对抗生成网络。该WassersteinGAN网络模型中采用Wasserstein距离代替JS散度。由于Wasserstein距离是平滑的。因此，该Wasserstein距离的使用可以有效避免使用JS散度带来的梯度消失和训练不稳定等问题，从而提高训练的稳定性。其中，Wasserstein距离定义如下：

其中，Π(P_data，P_G)为P_data和P_G组成的联合分布集合。服务器可以从(x，z)～γ中采样得到一个真实样本x和一个生成样本z，并计算出这对样本的距离‖x-z‖。因此，服务器可以计算联合分布γ下，样本距离的期望值E_(x，z)～γ[‖x-z‖]。在所有可能的联合分布中，这个期望值取到下界即为Wasserstein距离。

该基于Wasserstein GAN的目标函数可以表示为：

步骤6、服务器使用完成迭代后的抗生成网络模型中的生成器，生成仿真样本集合。

S103、使用真实样本集合和仿真样本集合构建的训练样本集合对风险评估模型中进行训练，训练后的风险评估模型用于根据待评估用户的历史贷款信息进行风险预测。

本实施例中，服务器可以使用真实样本集合和仿真样本集合生成训练样本集合。服务器可以将该训练样本集合输入到风险评估模型中进行训练。该风险评估模型具体可以为一个支持向量机分类器。该风险评估模型用于将用户分类到多个风险等级。服务器可以训练得到最终的风险评估模型。

一种示例中，该风险评估模型的训练过程具体可以包括如下步骤：

步骤1、服务器对真实样本和仿真样本中的历史贷款信息进行预处理，得到特征向量。

本步骤中，服务器可以根据属性类别，对训练样本的参数进行分类。该属性类别包括连续型属性、类别型属性、离散型属性等。其中，连续属性中可以包括贷款金额、年收入、债务收入比等参数。类别型属性中可以包括贷款期限、贷款目的等参数。离散型属性中可以包括发生拖欠的账户数、工龄等参数。服务器可以针对不同类型的参数采取不同的处理方法。例如，对于连续型属性的参数，服务器可以直接进行归一化处理。又如，对于类别型属性的参数，服务器可以在对各个类别进行编码后，使用编码值取代原有值，并进行归一化处理。又如，对于离散型属性的参数，服务器可以在将离散值进行分段处理后，把各段的索引值作为该属性的特征值，并使用该特征值取代原有的离散值，其后进行归一化处理。

步骤2、服务器使用预设的混合特征选择模型，从真实样本集合和仿真样本集合组成的特征向量集合中，选择部分特征向量组成训练样本集合和测试样本集合。

本步骤中，为了提高模型的训练效果，服务器可以使用预设的混合特征选择模型对训练样本进行筛选，从而选择更具代表性的训练样本对模型进行训练，以提高模型训练效率。服务器采用的预设的混合特征选择模型可以为Hancer等提出一种Filter-Wrapper混合特征选择模型。该混合特征选择模型可以采用Filter特征选择的信息增益算法对预处理后的数据进行选择。服务器可以通过评估各个训练样本对分类的贡献值和增益值。服务器可以根据该贡献值和增益值，对各个训练样本进行排序。服务器可以删除权重小于设定阈值的训练样本，从而得到候选样本子集。服务器还可以结合支持向量机学习算法对候选样本集合进行Wrapper二次特征选择。在该选择过程中，服务器可以选择出分类准确率高的训练样本组成最优样本子集。最后，服务器可以将通过Filter-Wrapper模型选出的最优样本子集分成训练集与测试集两部分。服务器可以将该训练集和测试机输入到风险模型中，完成步骤3中模型的训练。该Filter-Wrapper混合特征选择模型克服了Wrapper特征选择分类和Filter特征选择中运算复杂度高和分类效果差的缺点，在缩短训练时间、提高SVM分类性能、降低样本空间的维度等方面优势显著。

步骤3、服务器使用训练样本集合和测试样本集合，对风险评估模型进行训练，风险评估模型为分类模型。

本步骤中，该风险评估模型具体可以为一个支持向量机(Support VectorMachine,SVM)分类器。该风险评估模型的训练即为SVM分类器的训练。SVM分类器是一种基于结构风险最小化准则的学习方法。该SVM分类器推广能力明显优于一些传统的学习方法。服务器可以将步骤2中生成的训练集和测试集输入到SVM分类器中进行训练，构建信贷风险评估模型。

本申请提供的风险评估模型训练方法，服务器可以从金融服务器机构的数据库中采集用户的历史贷款信息和用户信息。服务器可以根据用户信息和历史贷款信息生成真实样本集合。其中，样本数据可以根据用户信息整理得到，样本标签根据历史贷款信息生成。服务器可以建立对抗生成网络模型。服务器可以利用真实样本集合训练该对抗生成网络模型的生成器和判别器。

服务器可以利用训练好的生成器生成大量的仿真样本，得到仿真样本集合。服务器可以使用真实样本集合和仿真样本集合生成训练样本集合。服务器可以将该训练样本集合输入到风险评估模型中进行训练，得到最终的风险评估模型。本申请中，通过使用对抗生成网络实现可仿真数据的生成，增加训练样本集合中的数据量，提高了模型训练的稳定性和模型分别的准确性。此外，本申请所使用的对抗生成网络模型为Wasserstein GAN网络模型，提升了生成样本的多样性，使训练过程更加稳定。并且，本申请在风险评估模型训练过程中增加了数据预处理和混合特征选择的过程，提高了训练样本的有效性，提高了模型训练速度，和分类准确率。

图4示出了本申请一实施例提供的一种风险评估模型训练方法的流程图。在图1和图3所示实施例的基础上，如图4所示，还可以对如2所示实施例中村联得到的风险评估样本进行评价，以服务器为执行主体，本实施例的方法可以包括如下步骤：

S201、从真实样本集合中获取预数量的真实样本，组成模型测试集合。

本实施例中，服务器可以从真是样本集合中获取预设数量的真实样本。该真实样本的获取应在步骤S103之前执行。本步骤中使用的真实样本为未被用于模型训练的真实样本。这些未被训练的真实样本可以组成模型测试集合。

S202、将模型测试集合中的真实样本输入训练后的风险评估模型，得到每一真实样本的预测结果。

本实施例中，服务器可以将模型测试集合中的真实样本输入到图2所示实施例中训练后的风险评估模型中。该风险评估模型可以根据每一真实样本预测得到一个预测结果。该预测结果即为该真实样本对应的用户的风险评估结果。该评估结果可以包括按期还款和还款违约两类。当该评估结果为按期还款时，说明该用户的风险较低。当该评估结果为还款违约时，说明该用户存在还款违约的风险。服务器可以进一步输出其风险指标。管理人员可以根据该风险指标进行更加具体的判断。

S203、根据每一真实样本的预测结果和样本标签，确定风险评估模型的F1评价指标和AUC评价指标。

本实施例中，服务器可以比较真实样本的样本标签和预测结果，并计算得到F1评价指标和AUC评价指标。该F1评价指标和AUC评价指标用于评价该风险评估模型。

其中，F1评价指标可以根据上述预测结果的准确率(Precision)和召回率(Recall)确定。该F1评价指标的取值在0至1之间。该F1评价指标计算公式可以为：

其中，Pre为准确率，Rec为召回率。

该准确率和召回率的计算公式分别可以为：

其中，TP为正确地预测为正例的样本数。即，该TP为在该模型测试集合中标签为按期还款的真实样本，且预测准确的样本数。TN为正确地预测为反例的样本数。即，该TN为在该模型测试集合中标签为还款违约的真实样本，且预测准确的样本数。FP为错误地预测为正例的样本数。即，该FP为在该模型测试集合中标签为按期还款的真实样本，且预测错误的样本数。FN为错误地预测为反例的样本数。即，该FN为在该模型测试集合中标签为还款违约的真实样本，且预测错误的样本数。

其中，AUC评价指标为ROC曲线下与坐标轴围成的面积。该AUC的取值范围在0.5和1之间。通常AUC的值越接近1.0，则检测方法真实性越高。

S204、根据F1评价指标和AUC评价指标，确定风险评估模型的评价结果。

本实施例中，服务器可以根据该F1评价指标和AUC评价指标，对风险评估模型进行评估。由于AUC的值越接近1.0，真实性越高。因此，服务器可以根据该AUC评价指标确定该风险评估模型的真实性。例如，当ACU评价指标低于第一阈值时，服务器可以确定该风险评估指标真实性差，无法被直接使用。该第一阈值可以为0.8、0.9等。又如，当F1评价指标低于第二阈值时，服务器可以确定该风险评估指标准确性差，无法被直接使用。该第二阈值可以为0.8、0.9等。需要注意的是，由于在计算中F1评价指标为一个均衡平均数，F1评价指标越大说明模型准确率越高，同时模型泛华能力越差。因此，该F1评价指标可以被设定在一个范围内。当该F1评价指标在该范围内时，该风险评估模型达到最优状态。当该F1指标大于该范围则说明该风险评估模型可能出现过拟合。当该F1指标小于该范围则说明该风险评估模型可能出现准确率低的问题。

本申请提供的风险评估模型训练方法，服务器可以从真是样本集合中获取预设数量的真实样本，组成模型测试集合。服务器可以将模型测试集合中的真实样本输入训练后的风险评估模型，得到每一真实样本的预测结果。服务器可以比较真实样本的样本标签和预测结果，并计算得到F1评价指标和AUC评价指标。该F1评价指标和AUC评价指标用于评价该风险评估模型。本申请中，通过使用F1评价指标和AUC评价指标，实现对风险评估模型的评估，以提高实际使用的风险评估模型的准确率和使用效果。

图5示出了本申请一实施例提供的一种风险评估模型训练方法的流程图。在图1至图4所示实施例的基础上，如图5所示，服务器可以使用该风险评估模型对待评估用户进行风险评估，以确定是否为该待评估用户发放贷款，以服务器为执行主体，本实施例的方法可以包括如下步骤：

S301、获取待评估用户的用户信息。

本实施例中，服务器可以将图2训练得到的风险评估模型部署到前端设备中。前端设备可以在获取到该待评估用户的用户信息后，使用该用户信息评估该待评估用户的贷款风险。或者，服务器还可以将该风险评估模型部署在服务器上，并为前端设备提供调用接口。前端设备可以将待评估用户的用户信息上传到服务器。服务器可以使用该用户信息，评估该待评估用户的贷款风险。服务器可以将评估结果反馈到前端设备。服务器可以通过该前端设备获取待评估用户的用户信息。该用户信息可以为工作人员或者待评估用户在前端设备中输入的信息。或者，服务器可以通过该前端设备获取待评估用户的用户ID。服务器可以根据该用户ID在数据库中查找该待评估用户的用户信息。

S302、将待评估用户的用户信息输入到训练后的风险评估模型，得到待评估用户的风险类别。

本实施例中，服务器在获取用户信息后，可以对该用户信息进行预处理。该预处理步骤与S103中的步骤1相同，此处不再赘述。服务器可以预处理后的用户信息输入到风险评估模型。该风险评估模型可以输出该待评估用户的风险类别。

一种示例中，该风险类别可以以风险指标的形式进行输出。服务器可以在获取该风险指标后根据预设的风险阈值，对该待评估用户的风险类别进行分类。例如，当该风险指标小于该风险阈值时，该用户的风险类别可以为按时还款。又如，当该风险指标大于等于该风险阈值时，该用户的风险类别可以为存在还款违约的风险。

再一种示例中，服务器还可以根据该风险指标，对存在还款违约风险的待评估用户进行更加细致的划分。例如，可以设置有一级阈值、二级阈值等参数。当该风险指标小于一级阈值时，可以为一级风险。当该风险指标大于等于一级阈值且小于二级阈值时，可以为二级风险。当该风险指标大于等于二级风险时，可以为三级风险。

S303、根据风险类别，确定待评估用户的贷款结果。

本实施例中，服务器可以预测得到的待评估用户的风险类别，确定该评估用户的贷款结果。例如，当用户的风险类别为按时还款时，服务器可以发放贷款。又如，当用户的风险等级为一级风险时，服务器可以要求该待评估用户增加担保人。又如，当用户的风险等级为三级风险时，服务器可以拒绝发放贷款。服务器可以将该贷款结果反馈到前端设备，以告知待评估用户。或者，服务器可以将该贷款结果通过短信、邮件等形式发送到用户的终端设备中，以告知待评估用户。

本申请提供的风险评估模型训练方法，服务器可以获取待评估用户的用户信息。服务器在获取用户信息后，可以对该用户信息进行预处理。服务器可以预处理后的用户信息输入到风险评估模型。该风险评估模型可以输出该待评估用户的风险类别。服务器可以预测得到的待评估用户的风险类别，确定该评估用户的贷款结果。本申请中，通过使用该风险评估模型，实现待评估用户的风险类别的预测以及贷款结果的生成，提高待评估用户的评估效率和评估准确率。

图6示出了本申请一实施例提供的一种风险评估模型训练装置的结构示意图，如图6所示，本实施例的风险评估装置10用于实现上述任一方法实施例中对应于服务器的操作，本实施例的风险评估装置10包括：

采集模块11，用于采集用户的用户信息和历史贷款信息，并根据用户的用户信息生成真实样本集合，根据用户的历史贷款信息生成样本标签，样本标签包括按期还款和还款违约两类。

训练模块12，用于利用对抗生成网络模型，根据真实样本集合生成仿真样本集合，每一仿真样本中包括一模拟用户的历史贷款信息和标签信息。使用真实样本集合和仿真样本集合构建的训练样本集合对风险评估模型中进行训练，训练后的风险评估模型用于根据待评估用户的历史贷款信息进行风险预测。

一种示例中，训练模块12，具体用于：

构建对抗生成网络模型，对抗生成网络模型中包括生成器和判别器。

将随机噪声输入到生成器生成仿真样本。将仿真样本和判别器进行判别。

根据真实样本和仿真样本的判别结果更新生成器中的模型参数，以使抗生成网络模型目标函数最小化。

根据真实样本和仿真样本的判别结果更新判别器中的模型参数，以使抗生成网络模型的目标函数最大化。

迭代上述步骤，并对生成器和判别器进行交替训练，直至对抗生成网络模型的目标函数达到纳什均衡。

使用完成迭代后的抗生成网络模型中的生成器，生成仿真样本集合。

一种示例中，训练模块12，具体用于：

对真实样本和仿真样本中的历史贷款信息进行预处理，得到特征向量。

使用预设的混合特征选择模型，从真实样本集合和仿真样本集合组成的特征向量集合中，选择部分特征向量组成训练样本集合和测试样本集合。

使用训练样本集合和测试样本集合，对风险评估模型进行训练，风险评估模型为分类模型。

一种示例中，采集模块11，具体用于：

根据每一用户的用户信息生成真实样本集合中的一个真实样本。

根据每一用户的历史贷款信息，确定每一用户是否存在还款违约情况。

当用户存在还款违约情况时，确定真实样本的样本标签为还款违约。否则，确定真实样本的样本标签为按期还款。

一种示例中，装置，还包括：

模型评估模块13，用于从真实样本集合中获取预数量的真实样本，组成模型测试集合。将模型测试集合中的真实样本输入训练后的风险评估模型，得到每一真实样本的预测结果。根据每一真实样本的预测结果和样本标签，确定风险评估模型的F1评价指标和AUC评价指标。根据F1评价指标和AUC评价指标，确定风险评估模型的评价结果。

一种示例中，装置，还包括：

风险评估模块14，用于获取待评估用户的用户信息。将待评估用户的用户信息输入到训练后的风险评估模型，得到待评估用户的风险类别。根据风险类别，确定待评估用户的贷款结果。

本申请实施例提供的风险评估装置10，可执行上述方法实施例，其具体实现原理和技术效果，可参见上述方法实施例，本实施例此处不再赘述。

图7示出了本申请实施例提供的一种服务器的硬件结构示意图。如图7所示，该服务器20，用于实现上述任一方法实施例中对应于服务器的操作，本实施例的服务器20可以包括：存储器21，处理器22和通信接口24。

存储器21，用于存储计算机程序。该存储器21可能包含高速随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

处理器22，用于执行存储器存储的计算机程序，以实现上述实施例中的风险评估模型训练方法。具体可以参见前述方法实施例中的相关描述。该处理器22可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

可选地，存储器21既可以是独立的，也可以跟处理器22集成在一起。

当存储器21是独立于处理器22之外的器件时，服务器20还可以包括总线23。该总线23用于连接存储器21和处理器22。该总线23可以是工业标准体系结构(IndustryStandard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

通信接口24用于获取待评估用户的历史贷款信息，并在风险评估模块完成风险评估后，反馈待评估用户的贷款结果。

本实施例提供的服务器可用于执行上述的风险评估模型训练方法，其实现方式和技术效果类似，本实施例此处不再赘述。

本申请还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，计算机可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，计算机可读存储介质耦合至处理器，从而使处理器能够从该计算机可读存储介质读取信息，且可向该计算机可读存储介质写入信息。当然，计算机可读存储介质也可以是处理器的组成部分。处理器和计算机可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits，ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和计算机可读存储介质也可以作为分立组件存在于通信设备中。

具体地，该计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random-Access Memory，SRAM)，电可擦除可编程只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)，可编程只读存储器(Programmable read-only memory，PROM)，只读存储器(Read-OnlyMemory，ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本申请还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。设备的至少一个处理器可以从计算机可读存储介质中读取该计算机程序，至少一个处理器执行该计算机程序使得设备实施上述的各种实施方式提供的方法。

本申请实施例还提供一种芯片，该芯片包括存储器和处理器，存储器用于存储计算机程序，处理器用于从存储器中调用并运行计算机程序，使得安装有芯片的设备执行如上各种可能的实施方式中的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

其中，各个模块可以是物理上分开的，例如安装于一个的设备的不同位置，或者安装于不同的设备上，或者分布到多个网络单元上，或者分布到多个处理器上。各个模块也可以是集成在一起的，例如，安装于同一个设备中，或者，集成在一套代码中。各个模块可以以硬件的形式存在，或者也可以以软件的形式存在，或者也可以采用软件加硬件的形式实现。本申请可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

当各个模块以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例方法的部分步骤。

应该理解的是，虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制。尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种风险评估模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用对抗生成网络模型，根据所述真实样本集合生成仿真样本集合，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述使用所述真实样本集合和所述仿真样本集合构建的训练样本集合对风险评估模型中进行训练，具体包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述用户的所述用户信息生成真实样本集合，根据所述用户的所述历史贷款信息生成样本标签，具体包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法，还包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法，还包括：

获取待评估用户的用户信息；

根据所述风险类别，确定所述待评估用户的贷款结果。

7.一种风险评估模型训练装置，其特征在于，所述装置，包括：

采集模块，用于采集用户的历史贷款信息，并根据所述用户的所述历史贷款信息生成真实样本集合，每一所述真实样本中包括一用户的所述历史贷款信息和样本标签，所述样本标签包括按期还款和还款违约两类；

8.一种服务器，其特征在于，所述服务器，包括：存储器，处理器；

所述存储器用于存储计算机程序；所述处理器用于根据所述存储器存储的计算机程序，实现如权利要求1-6中任意一项所述的风险评估模型训练方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1-6中任意一项所述的风险评估模型训练方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任意一项所述的风险评估模型训练方法。