CN108665159A

CN108665159A - 一种风险评估方法、装置、终端设备及存储介质

Info

Publication number: CN108665159A
Application number: CN201810435813.1A
Authority: CN
Inventors: 刘顺
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2018-10-16
Also published as: WO2019214248A1

Abstract

本发明公开了一种风险评估方法、装置、终端设备及存储介质，所述方法包括：获取样本用户的历史金融信息构建训练集，针对训练集，使用随机森林算法构建决策树，根据生成的多棵决策树构造出随机森林，得到金融风险评估模型，使用金融风险评估模型对待评测用户的金融信息进行预测，统计金融风险评估模型中每棵决策树的预测结果，并充分利用每一棵决策树的投票结果，进一步计算出待评测用户的金融风险厌恶系数。本发明的技术方案通过构建金融风险评估模型对用户的金融信息进行预测，并统计模型的预测结果作进一步的计算，从而得到用户的金融风险承受水平，提高对用户的金融风险评估的精确度。

Description

一种风险评估方法、装置、终端设备及存储介质

技术领域

本发明涉及金融服务技术领域，尤其涉及一种风险评估方法、装置、终端设备及存储介质。

背景技术

在许多金融业务的推广方面，需要明确的了解用户的金融风险承受水平，风险承受水平是指一个人有多大能力承担风险，与个人资产状况、家庭情况、工作情况等方面都有关系，需要综合考虑衡量，从而评估得到用户能承受多大的投资损失但不至于影响他的正常生活的风险承受能力。

目前评估用户的风险承受水平一般采用问卷调查的方法，如用户在购买理财产品、基金或者股票之前，对用户做一个风险评估的问卷调查，根据用户填写的金融风险评估的问卷的答题情况，并结合用户的个人信息，得到该用户的风险承受水平。但是，在这种金融风险评估问卷调查的方式中，用户给出的答案往往具有强烈的主观性，或者由问卷中得到的用户信息并不全面，无法客观的反映用户真实的金融情况，因此得到的用户的金融风险承受水平往往并不准确，导致金融风险评估的准确性较低。

发明内容

本发明实施例提供一种风险评估方法，以解决现有技术中对用户的金融风险承受水平进行金融风险评估的准确性低的问题。

第一方面，本发明实施例提供一种风险评估方法，包括：

获取样本用户的历史金融信息；

根据所述历史金融信息构建训练集；

针对所述训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型，其中，所述金融风险评估模型包括K棵决策树，K为正整数；

使用所述金融风险评估模型对待评测用户的金融信息进行模型预测，得到所述待评测用户在所述金融风险评估模型中每棵所述决策树的预测结果；

根据所述预测结果，对预设的金融风险类别进行投票，并统计每个所述金融风险类别的得票率，其中，所述金融风险类别包括预设的多个风险等级和每个所述风险等级对应的初始厌恶系数；

将每个所述金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并计算低于所述基准类别的金融风险类别的得票率的左平均值，以及高于所述基准类别的金融风险类别的得票率的右平均值；

若所述左平均值大于或者等于所述右平均值，则将所述基准类别的初始厌恶系数与所述左平均值的差确定为所述待评测用户的金融风险厌恶系数，否则，将所述基准类别的初始厌恶系数与所述右平均值的和确定为所述金融风险厌恶系数；

根据所述金融风险厌恶系数确定所述待评测用户的金融风险承受水平。

第二方面，本发明实施例提供一种风险评估装置，包括：

用户历史金融信息获取模块，用于获取样本用户的历史金融信息；

训练集构建模块，用于根据所述历史金融信息构建训练集；

金融风险评估模型构建模块，用于针对所述训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型，其中，所述金融风险评估模型包括K棵决策树，K为正整数；

金融风险评估模型预测模块，用于使用所述金融风险评估模型对待评测用户的金融信息进行模型预测，得到所述待评测用户在所述金融风险评估模型中每棵所述决策树的预测结果；

得票率统计模块，用于根据所述预测结果，对预设的金融风险类别进行投票，并统计每个所述金融风险类别的得票率，其中，所述金融风险类别包括预设的多个风险等级和每个所述风险等级对应的初始厌恶系数；

基准类别确定模块，用于将每个所述金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并计算低于所述基准类别的金融风险类别的得票率的左平均值，以及高于所述基准类别的金融风险类别的得票率的右平均值；

金融风险厌恶系数计算模块，用于若所述左平均值大于或者等于所述右平均值，则将所述基准类别的初始厌恶系数与所述左平均值的差确定为所述待评测用户的金融风险厌恶系数，否则，将所述基准类别的初始厌恶系数与所述右平均值的和确定为所述金融风险厌恶系数；

金融风险承受水平确定模块，用于根据所述金融风险厌恶系数确定所述待评测用户的金融风险承受水平。

第三方面，本发明实施例提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述风险评估方法的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述风险评估方法的步骤。

本发明实施例提供的一种风险评估方法、装置、终端设备及存储介质中，一方面，通过获取样本用户的历史金融信息，并构建训练集进行机器模型训练，针对训练集使用随机森林算法进行决策树构建，根据生成的多棵决策树构造出随机森林，得到金融风险评估模型，用于评估用户的金融风险承受水平，提高了对用户的金融风险评估的效率，另一方面，在使用金融风险评估模型对待评测用户的金融信息进行模型预测之后，根据金融风险评估模型中每棵决策树的预测结果，统计每个预设的金融风险类别的得票率，并充分利用每一棵决策树的投票结果，进一步精确地计算出待评测用户的金融风险厌恶系数，确定待评测用户的金融风险承受水平，避免根据用户填写金融风险评估表格进行预测所存在的主观因素，提高对用户的金融风险评估的准确率与精确度，从而有利于向用户提供合适风险的金融产品。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1中提供的风险评估方法的流程图；

图2是本发明实施例1中提供的风险评估方法中步骤S20的实现流程图；

图3是本发明实施例1中提供的风险评估方法中对金融风险特征向量进行归一化处理的实现流程图；

图4是本发明实施例1中提供的风险评估方法中步骤S30的实现流程图；

图5是本发明实施例1中提供的风险评估方法中当基准类别为金融风险类别的最高级别时对用户金融风险厌恶系数进行优化计算的实现流程图；

图6是本发明实施例2中提供的风险评估装置的示意图；

图7是本发明实施例4中提供的终端设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

请参阅图1，图1示出了本发明实施例提供的风险评估方法的实现流程。该风险评估方法可从用户数据库中采集用户的历史金融信息，以便基于采集到的历史金融信息进行金融风险评估模型训练。该风险评估方法可具体应用在金融服务行业的用户金融风险评估系统中，用于对用户的金融风险承受水平进行评估，能够有效提高用户的金融风险评估的精确度。如图1所示，该风险评估方法包括步骤S10至步骤S80，详述如下：

S10：获取样本用户的历史金融信息。

在本发明实施例中，样本用户的历史金融信息可以从用户数据库中采集，用户数据库存储的数据包括但不限于用户的注册信息、用户的调查问卷、用户的历史金融消费信息或者银行卡信息等信息数据。

具体地，历史金融信息包括用户的基础属性信息和用户的金融属性信息，用户的基础属性信息包括用户的身份证、年龄、性别、文化程度、受教育程度和家庭成员等信息，用户的金融属性信息包括月消费水平、收入水平、投资经验、理财产品投资期限和资产分布等信息。

S20：根据历史金融信息构建训练集。

在本发明实施例中，根据获取的样本用户的历史金融信息构造金融风险特征向量，该金融风险特征向量包括用户的基础属性信息和用户的金融属性信息。

具体地，金融风险特征向量的定义为Y＝(X₁,X₂,X₃,...,X_n)，其中，Y为金融风险特征向量，X₁,X₂,X₃,...,X_n为n个用户金融特征。

进一步地，使用金融风险特征向量构建训练集，将该训练集作为训练数据进行机器模型训练，其中，训练集包括M个金融风险特征向量，M为正整数。

S30：针对训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型，其中，该金融风险评估模型包括K棵决策树，K为正整数。

在本发明实施例中，从训练集中随机抽取多个金融风险特征向量，具体可以采取随机采样的方式，该随机抽样为有放回的随机抽样，重复在训练集中进行K轮抽取，每一轮抽取的结果作为一个子训练集，得到K个子训练集，其中，K个子训练集之间相互独立，子训练集中可以存在重复的金融风险特征向量。

需要说明的是，抽取金融风险特征向量的数量具体可以根据历史经验进行获取，或者根据具体的业务需要进行抽取合适的金融风险特征向量，作为子训练集进行机器模型训练，虽然训练的样本数据越多越准确，但是训练成本也越高而且实现方式越难，其具体数量可以根据实际应用的需要进行抽取，此处不作限制。

进一步地，使用随机森林算法进行决策树构建，针对每一个子训练集构建一棵决策树，得到K棵决策树，再根据生成的K棵决策树构造随机森林，得到金融风险评估模型。

S40：使用金融风险评估模型对待评测用户的金融信息进行模型预测，得到待评测用户在金融风险评估模型中每棵决策树的预测结果。

在本发明实施例中，获取待评测用户的金融信息，使用步骤S30得到的金融风险评估模型对待评测用户的金融信息进行模型预测，具体地，金融风险评估模型中通过每棵决策树对待评测用户的金融信息进行判断，评估待评测用户的金融风险承受水平，并输出对应的预测结果。

S50：根据预测结果，对预设的金融风险类别进行投票，并统计每个金融风险类别的得票率，其中，该金融风险类别包括预设的多个风险等级和每个风险等级对应的初始厌恶系数。

在本发明实施例中，预先设置金融风险评估模型的金融风险类别，并为每个金融风险类别设置对应的初始厌恶系数。

需要说明的是，金融风险类别和其对应的初始厌恶系数可以根据历史经验进行设置，也可以根据金融风险模型的特性进行设置，其具体可以根据实际应用的需要进行设置，此处不作限制。

例如，金融风险类别具体可以划分低风险等级、较低风险等级、中等风险等级、较高风险等级和高风险等级等五类金融风险类别，该五类金融风险类别对应的初始厌恶系数分别为1、3、5、7和9，其中，厌恶系数越小越厌恶风险，表示用户的金融风险承受水平能力弱，厌恶系数越大越能够承受风险，表示用户的金融风险承受水平能力强。

进一步地，根据步骤S40得到的预测结果以及预设的金融风险类别，金融风险评估模型中每棵决策树都会对待评测用户的金融信息进行判断投票，并根据公式(1)计算每个金融风险类别的得票率：

其中，Rate为得票率，T为决策树对金融风险类别进行投票的得票数量，K为决策树的总数量。

S60：将每个金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并计算低于该基准类别的金融风险类别的得票率的左平均值，以及高于该基准类别的金融风险类别的得票率的右平均值。

在本发明实施例中，将每个金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并将低于该基准类别的金融风险类别作为左侧金融风险类别，将高于该基准类别的金融风险类别作为右侧金融风险类别。

例如，金融风险类别包括低风险等级、较低风险等级、中等风险等级、较高风险等级和高风险等级这五类，若基准类别为较低风险等级，则左侧金融风险类别包括低风险等级，右侧金融风险类别包括中等风险等级、较高风险等级和高风险等级。

具体地，根据统计得到的每个金融风险类别的得票率，按照公式(2)计算左侧金融风险类别的得票率的左平均值：

其中，LeftMean为左平均值，∑LeftRate为左侧金融风险类别的得票率之和，LeftNum 为左侧金融风险类别的个数。

按照公式(3)计算右侧金融风险类别的得票率的右平均值；

其中，RightMean为右平均值，∑RightRate为右侧金融风险类别的得票率之和，RightNum为右侧金融风险类别的个数。

S70：若左平均值大于或者等于右平均值，则将基准类别的初始厌恶系数与左平均值的差确定为待评测用户的金融风险厌恶系数，否则，将基准类别的初始厌恶系数与右平均值的和确定为金融风险厌恶系数。

具体地，通过分析每个金融风险类别的得票率，计算待评测用户的金融风险厌恶系数。

若步骤S60计算得到的左平均值大于或者等于右平均值，则按照公式(4)计算待评测用户的金融风险厌恶系数：

FinalScore＝InitScore-LeftMean 公式(4)

其中，FinalScore为待评测用户的金融风险厌恶系数，InitScore为基准类别的初始厌恶系数，LeftMean为左平均值。

若步骤S60计算得到的左平均值小于右平均值，则按照公式(5)计算待评测用户的金融风险厌恶系数：

FinalScore＝InitScore+RightMean 公式(5)

其中，RightMean为右平均值。

S80：根据金融风险厌恶系数确定待评测用户的金融风险承受水平。

具体地，根据步骤S70计算得到的金融风险厌恶系数，分析确定待评测用户的金融风险承受水平。

为了更好的理解本发明实施例，举例说明如下：

假设金融风险类别划分为低风险等级、较低风险等级、中等风险等级、较高风险等级和高风险等级，该五类金融风险类别对应的初始厌恶系数分别为1、3、5、7和9。

使用金融风险评估模型对一位待评测用户的金融信息进行模型预测，根据公式(1)计算得到每个金融风险类别的得票率分别为Rate(1)＝0.15735、Rate(2)＝0.19358、Rate(3)＝0.27222、Rate(4)＝0.17111和Rate(5)＝0.20572。

根据每个金融风险类别的得票率可知，得票率最高的为Rate(3)，即可以确定基准类别为中等风险等级，基准类别的初始厌恶系数为5，根据公式(2)和公式(3)计算出左平均值和右平均值为：

leftMean＝(Rate(1)+Rate(2))/2＝(0.15735+0.19358)/2＝0.175465

RightMean＝(Rate(4)+Rate(5))/2＝(0.17111+0.20572)/2＝0.188415

由于左平均值小于右平均值，则采用公式(5)计算待评测用户的金融风险厌恶系数，可以得到金融风险厌恶系数为：

FinalScore＝5+0.188415＝5.188415

根据该金融风险厌恶系数可以进一步确定待评测用户的金融风险承受水平。

需要说明的是，若直接选择最大的得票率对应的金融风险类别，作为待评测用户的金融风险承受水平，则会忽略金融风险评估模型中其它决策树的预测结果，对用户的金融风险评估存在一定的误差。而通过对金融风险类别进行微调，设置对应的初始厌恶系数，充分利用每一棵决策树的投票结果，能够进一步精确地计算出待评测用户的金融风险厌恶系数，确定待评测用户的金融风险承受水平，从而综合考量金融风险评估模型的预测结果，提高对用户的金融风险评估的精确度。

在图1对应的实施例中，通过获取样本用户的历史金融信息，并构建训练集进行机器模型训练，针对训练集使用随机森林算法进行决策树构建，根据生成的多棵决策树构造出随机森林，得到金融风险评估模型，用于评估用户的金融风险承受水平，提高了对用户的金融风险评估的效率，在使用金融风险评估模型对待评测用户的金融信息进行模型预测之后，根据金融风险评估模型中每棵决策树的预测结果，统计每个预设的金融风险类别的得票率，并充分利用每一棵决策树的投票结果，进一步精确地计算出待评测用户的金融风险厌恶系数，确定待评测用户的金融风险承受水平，避免根据用户填写金融风险评估表格进行预测所存在的主观因素，提高对用户的金融风险评估的准确率与精确度，从而有利于向用户提供合适风险的金融产品。

接下来，在图1对应的实施例的基础之上，下面通过一个具体的实施例对步骤S20中提及的根据历史金融信息构建训练集的具体实现方法进行详细说明。

请参阅图2，图2示出了本发明实施例提供的步骤S20的具体实现流程，详述如下：

S201：根据历史金融信息确定n个用户金融特征，并基于用户金融特征构造金融风险特征向量，将金融风险特征向量作为训练样本，其中，n为正整数。

在本发明实施例中，根据步骤S10获取的历史金融信息确定n个用户金融特征，使用该n个用户金融特征对应的信息数据进行模型训练，避免用于训练的特征过多而导致模型过于复杂或者造成模型针对性不强。

其中，n为正整数，该n个用户金融特征具体可以根据历史经验确定，也可以根据机器模型的特性进行确定，其具体可以根据实际应用的需要进行确定，此处不作限制。

进一步地，基于已经确定的用户金融特征X构造金融风险特征向量Y，并将金融风险特征向量Y作为训练样本。

例如，金融风险特征向量Y的定义为Y＝(X₁,X₂,X₃,X₄,X₅,X₆,X₇,X₈)，其中，X₁为用户的年龄，X₂为用户的文化程度，X₃为用户的性别，X₄为用户的收入水平，X₅为用户的资产分布，X₆为用户的月消费水平，X₇为用户的投资经验，X₈为用户的产品投资期限。

S202：对金融风险特征向量进行筛选，若检测到存在金融风险特征向量相同的多个训练样本，则保留其中任意一个训练样本，删除其余的训练样本。

在本发明实施例中，对构造的金融风险特征向量进行筛选，剔除训练样本中金融风险特征向量完全一致的训练样本。

具体地，若检测到存在金融风险特征向量相同的多个训练样本，则保留其中任意一个训练样本，删除其余的训练样本，从而提高训练样本的数据质量。

例如，获取到2个用户的金融风险特征向量Y，其中，

Y₁＝(X₁₁,X₁₂,X₁₃,X₁₄,X₁₅,X₁₆,X₁₇,X₁₈)

Y₂＝(X₂₁,X₂₂,X₂₃,X₂₄,X₂₅,X₂₆,X₂₇,X₂₈)

若Y₁和Y₂的数据信息完全相同，则只需要保留其中任意一个金融风险特征向量，删除掉另一个金融风险特征向量。

S203：根据筛选后的金融风险特征向量构建训练集。

在本发明实施例中，根据筛选后的金融风险特征向量建立用户历史金融信息记录表，以用户历史金融信息记录表作为训练集。

例如，构建的用户历史金融信息记录表，其具体形式如表一所示。

表一

在图2对应的实施例中，通过历史金融信息确定用户金融特征，排除掉冗余特征，在基于用户金融特征构造金融风险特征向量时，将金融风险特征向量作为训练样本，避免用于训练的特征过多而导致模型过于复杂或者造成模型针对性不强，并对金融风险特征向量进行筛选，根据筛选后的金融风险特征向量建立用户历史金融信息记录表，得到训练集，用于进行机器模型训练，提高用于训练机器学习模型的数据的质量。

在图2对应的实施例的基础之上，在通过步骤S20根据历史金融信息构建训练集之后，以及通过步骤S30针对训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型之前，还可以对训练集中金融风险特征向量进行归一化处理，如图3所示，该风险评估方法还包括：

S21：根据预设的分类条件对训练集中的金融风险特征向量标记其标识信息。

在本发明实施例中，预设的分类条件是对每个用户金融特征分别预先设置的特征值区间，以及每个特征值区间对应的标识信息，根据预设的分类条件对金融风险特征向量进行标记，进而确定每个金融风险特征向量中的用户金融特征对应的标识信息。

需要说明的是，该预设的分类条件具体可以根据历史经验进行设置，也可以根据具体的用户金融特征的数据分布情况设置，其具体可以根据实际应用的需要进行设置，此处不作限制。

为了更好地理解本步骤，下面以一个具体的用户金融特征的特征值区间和对应的标识信息为例加以说明。如表二所示，表二示出了各个用户金融特征的特征值区间和对应的标识信息的标准。

表二

例如，用户金融特征为性别的特征值区间设置为男和女，若用户的金融风险特征向量中性别为男，则对应的标识信息为1，若用户的金融风险特征向量性别为女，则对应的标识信息为0。

具体地，资产分布包括用户购买的债券、股权、黄金和持有现金的金额，预先设置资产分布的特征值区间和对应的标识信息的基准表，并将资产分布的特征值区间分为五类，对应的标识信息为1、2、3、4和5，其中，标识信息的取值越大表示用户的资产分布越广，其承受风险水平能力越强，资产分布的基准表如表三所示。

表三

债券	现金	股权	黄金	标识信息
					0.309611	0.575552	0.06194	0.052896	1
0.688191	0.086436	0.122431	0.102942	2
					0.644879	0	0.194244	0.160877	3
0.515787	0	0.265836	0.218377	4
					0.310197	0	0.379852	0.309951	5

根据用户的资产分布情况构造资产分布向量,其中，资产分布向量＝(债券，现金，期权，黄金)，则对应的用户的资产分布向量为A＝(A₁,A₂,A₃,A₄)，基准表的资产分布向量为B＝(B₁,B₂,B₃,B₄)。

针对基准表中每个资产分布向量，分别按照公式(6)计算用户的资产分布向量与基准表的资产分布向量的余弦值：

获取余弦值最大的资产分布向量，将其在基准表中的资产分布向量所对应的标识信息作为金融风险特征向量中资产分布的标识信息，其中，余弦越大表示用户的资产分布向量与基准表中该组资产分布向量相似度越高。

S22：根据标识信息标记的结果对训练集中的金融风险特征向量进行归一化处理。

在本发明实施例中，归一化处理具体可以是将每个用户金融特征标识信息的值除以训练集中对应的用户金融特征中标识信息的最大值，或者将每个用户金融特征标识信息的值除以对应训练集中对应的用户金融特征的标识信息的均值，其具体可以根据实际应用的需要进行处理，此处不作限制。

例如，若用户的金融风险特征向量为(23岁,本科,男,8000,0,2000,0,0)，则根据表二对金融风险特征向量标记其标识信息，得到(23,5,1,1,0,2,1,1)，再根据标识信息标记的结果，进行归一化处理，得到归一化后的金融风险特征向量为：

在图3对应的实施例中，通过预设的分类条件对训练集中的金融风险特征向量标记其标识信息，使得用户的历史金融信息能够量化成为具体的数值，用于机器模型训练，并根据标识信息标记的结果对训练集中的金融风险特征向量进行归一化处理，将数据收敛到特定区间，方便进行数据处理，提高了金融评估模型的构建效率。

在图3对应的实施例的基础之上，下面通过一个具体的实施例对步骤S30中提及的针对训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型的具体实现方法进行详细说明。

请参阅图4，图4示出了本发明实施例提供的步骤S30的具体实现流程，详述如下：

S301：使用随机抽样的方式从训练集中抽取训练样本，构建K个子训练集。

在本发明实施例中，使用随机抽样的方式从训练集中抽取训练样本，随机采样的方式可以使用重采样技术从训练集中抽取训练样本，重采样技术是在训练集中进行有放回的抽样，训练集中每个样本数据每次被抽到的概率相等，重复在训练集中进行K轮抽取，每一轮抽取的结果作为一个子训练集，得到K个子训练集，其中，子训练集中的训练样本数量小于或等于训练集中的训练样本数量。

S302：针对每个子训练集，按照公式(7)计算每个用户金融特征的信息熵：

H(X)＝-∑p(x_i)log(2,p(x_i)) 公式(7)

其中，X为用户金融特征，H(X)为用户金融特征的信息熵，i＝1,2,...,n，x_i为第i个用户金融特征，p(x_i)为第i个用户金融特征的特征值概率。

S303：根据公式(7)计算得到的信息熵，按照公式(8)计算每个用户金融特征的信息增益：

gain＝H(c)-H(c|X) 公式(8)

其中，gain为用户金融特征的信息增益，H(c)为按照用户金融特征X进行分裂之前的信息熵，H(c|X)为按照用户金融特征X分裂之后的信息熵。

S304：根据公式(8)计算得到的信息增益，按照公式(9)与公式(10)计算每个用户金融特征的信息增益比：

其中，IntI为用户金融特征的惩罚因子，D为子训练集中训练样本的总量，W_X为用户金融特征的每个标识信息的训练样本数量，gr为用户金融特征的信息增益比。

例如，若用户金融特征X为月消费水平，月消费水平的特征值区间设置为(0，000]、(1000，3000]、(3000，5000]、(5000，10000]和10000+，每个特征值区间对应的的标识信息为1，2，3，4和5，并且每个标识信息对应的训练样本数量为40，30，10，10和10，则采用公式(10)计算用户的消费水平的惩罚因子：

进一步地，可以采用公式(9)计算月消费水平的信息增益比，月消费水平的信息增益比＝月消费水平的信息增益/月消费水平的惩罚因子。

S305：选取最大的信息增益比对应的用户金融特征作为分裂节点进行分裂。

在本发明实施例中，使用C4.5算法进行构建决策树，根据公式(10)计算得到用户金融特征的惩罚因子，使用公式(9)计算每个用户金融特征的信息增益比，并按照最大的信息增益比对应的用户金融特征作为分裂节点进行分裂。

需要说明的是，若按照信息增益作为分裂点进行分裂，决策树的构建倾向于选择信息增益较大的用户金融特征作为分裂节点，如用户的身份证、信用卡号或者时间戳等用户金融特征的信息增益会比较大，但是对于训练集中存在多个用户金融特征并且有多种取值的情况下，训练得到的决策树的预测准确率较低，而根据用户金融特征的惩罚因子计算信息增益比，按照最大的信息增益比对应的用户金融特征作为分裂节点进行分裂，能够有效的规避分布均匀的属性对决策树分裂产生的不利影响，提高决策树构建的质量。

S306：对剩下的用户金融特征，返回步骤S302继续执行，直到n个用户金融特征均作为分裂点完成分裂为止，得到决策树。

在本发明实施例中，对剩下的用户金融特征，返回步骤S302提及的针对每个子训练集，计算用户金融特征的信息熵处继续执行，直到n个用户金融特征均作为分裂点完成分裂为止，分裂成决策树的多个分支，以递归方式建立决策树。

S307：根据生成的K棵决策树构造随机森林，得到金融风险评估模型。

具体地，根据步骤S302至步骤S306生成的K棵决策树，将该K棵决策树组合成为随机森林，得到金融风险评估模型，用于评估用户的金融风险承受水平。

在图4对应的实施例中，通过使用有放回的随机抽样的方式从训练集中抽取训练样本，构建多个子训练集，用于进行机器模型训练，增强用于模型训练的数据的不确定性，提高金融风险评估质量；针对每个子训练集，计算每个用户金融特征的信息增益比，每次选取最大的信息增益比对应的用户金融特征作为分裂节点进行分裂，直到所有用户金融特征均作为分裂点完成分裂为止，得到对应的决策树，根据生成的多棵决策树构造随机森林，得到金融风险评估模型，使用最大的信息增益比作为分裂点能够有效的规避分布均匀的用户金融特征对决策树分裂产生的不利影响，提高决策树构建的质量，并且由多棵决策树构造随机森林，使得机器模型的分类预测能力增强，提高金融风险评估模型的准确率。

在以上实施例的基础之上，在步骤S60将每个金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并计算低于该基准类别的金融风险类别的得票率的左平均值，以及高于该基准类别的金融风险类别的得票率的右平均值之后，若基准类别为金融风险类别的最高级别，还可以进一步对用户金融风险厌恶系数进行优化计算。

请参阅图5，图5示出了当基准类别为金融风险类别的最高级别时对用户金融风险厌恶系数进行优化计算的实现流程，详述如下：

S61：当基准类别为金融风险类别的最高级别时，若基准类别对应的得票率小于预设的第一概率值，则将基准类别的初始厌恶系数与左平均值的差确定为金融风险厌恶系数。

在本发明实施例中，当统计得到最大的得票率为金融风险类别的最高风险级别时，则不存在右平均值。

具体地，通过预设的第一概率值与基准类别对应的得票率作比较，该预设的第一概率值具体可以根据实际应用进行设置，如第一概率值具体可以为0.5，此处不作限制。

若基准类别对应的得票率小于预设的第一概率值，则按照公式(4)计算基准类别的初始厌恶系数与左平均值的差，将计算得到的结果确定为待评测用户的金融风险厌恶系数。

S62：若基准类别对应的得票率大于第一概率值且小于预设的第二概率值，则将基准类别的初始厌恶系数与该得票率的和减去预设的第一调节参数，得到的值确定为金融风险厌恶系数。

在本发明实施例中，预设的第二概率值具体可以根据实际应用进行设置，如第二概率值具体可以为0.8，预设的第一调节参数具体可以根据实际应用进行设置，如第一调节参数具体可以为0.1，此处不作限制。

根据步骤S61确定的基准类别，若基准类别对应的得票率大于第一概率值且小于第二概率值，则按照公式(11)计算待评测用户的金融风险厌恶系数：

FinalScore＝InitScore+rate-θ₁ 公式(11)

其中，FinalScore为待评测用户的金融风险厌恶系数，InitScore为基准类别的初始厌恶系数，rate为基准类别的得票率，θ₁为预设的第一调节参数。

S63：若基准类别对应的得票率大于第二概率值，则将基准类别的初始厌恶系数与预设的第二调节参数的和确定为金融风险厌恶系数。

在本发明实施例中，预设的第二调节参数具体可以根据实际应用进行设置，如第二调节参数具体可以为1，此处不作限制。

根据步骤S61确定的基准类别，若基准类别对应的得票率大于第二概率值，则按照公式(12)进行计算待评测用户的金融风险厌恶系数：

FinalScore＝InitScore+θ₂ 公式(12)

其中，θ₂为预设的第二调节参数。

为了更好的理解本发明实施例，举例说明如下：

假设金融风险类别划分为低风险等级、较低风险等级、中等风险等级、较高风险等级和高风险等级，该五类金融风险类别对应的初始厌恶系数分别为1、3、5、7和9，预设的第一概率值为0.5，第二概率值为0.8，第一调节参数为0.1，第二调节参数为1。

使用金融风险评估模型对一位待评测用户的金融信息进行模型预测，根据公式(1)计算得到每个金融风险类别的得票率分别为Rate(1)＝0.01826、 Rate(2)＝0.06849、Rate(3)＝0.10273、Rate(4)＝0.23972和Rate(5)＝0.57077。

根据每个金融风险类别的得票率可知，得票率最高的为Rate(5)，即可以确定基准类别为高等风险等级，基准类别的初始厌恶系数为9。

由于Rate(5)大于第一概率值且小于第二概率值，则采用公式(11)计算待评测用户的金融风险厌恶系数，可以得到金融风险厌恶系数为：

FinalScore＝9+0.57077-0.1＝9.47077

需要说明的是，若统计得到最大的得票率为金融风险类别的最低风险级别时，则不存在左平均值，可以采用公式(5)计算待评测用户的金融风险厌恶系数。

在图5对应的实施例中，通过获取基准类别为金融风险类别的最高级别时对应的得票率，与预设的概率值作比较，根据比较的结果作适当的衰减或取整等微调处理，将金融风险评估模型中每棵决策树的分类结果和每个金融风险类别的得票率充分利用上，映射出具体的金融风险厌恶系数，根据得到的金融风险厌恶系数能够精确得到用户的金融风险承受水平，提高评估用户的金融风险承受水平的精确度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例2

对应于实施例1中的风险评估方法，图6示出了与实施例1提供的风险评估方法一一对应的风险评估装置。为了便于说明，仅示出了与本发明实施例相关的部分。

如图6所示，该风险评估装置包括用户历史金融信息获取模块10、训练集构建模块20、金融风险评估模型构建模块30、金融风险评估模型预测模块40、得票率统计模块50、基准类别确定模块60、金融风险厌恶系数计算模块70和金融风险承受水平确定模块80。各功能模块详细说明如下：

用户历史金融信息获取模块10，用于获取样本用户的历史金融信息；

训练集构建模块20，用于根据历史金融信息构建训练集；

金融风险评估模型构建模块30，用于针对训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型，其中，该金融风险评估模型包括K棵决策树，K为正整数；

金融风险评估模型预测模块40，用于使用金融风险评估模型对待评测用户的金融信息进行模型预测，得到待评测用户在金融风险评估模型中每棵决策树的预测结果；

得票率统计模块50，用于根据预测结果，对预设的金融风险类别进行投票，并统计每个金融风险类别的得票率，其中，该金融风险类别包括预设的多个风险等级和每个风险等级对应的初始厌恶系数；

基准类别确定模块60，用于将每个金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并计算低于该基准类别的金融风险类别的得票率的左平均值，以及该高于基准类别的金融风险类别的得票率的右平均值；

金融风险厌恶系数计算模块70，用于若左平均值大于或者等于右平均值，则将基准类别的初始厌恶系数与左平均值的差确定为待评测用户的金融风险厌恶系数，否则，将基准类别的初始厌恶系数与右平均值的和确定为金融风险厌恶系数；

金融风险承受水平确定模块80，用于根据金融风险厌恶系数确定待评测用户的金融风险承受水平。

进一步地，训练集构建模块20包括：

金融风险特征向量构造单元201，用于根据历史金融信息确定n个用户金融特征，并基于用户金融特征构造金融风险特征向量，将金融风险特征向量作为训练样本，其中，n为正整数；

金融风险特征向量筛选单元202，用于对金融风险特征向量进行筛选，若检测到存在金融风险特征向量相同的多个训练样本，则保留其中任意一个训练样本，删除其余的训练样本；

训练集构建单元203，用于根据筛选后的金融风险特征向量构建训练集。

进一步地，该风险评估装置还包括：

标识信息标记模块21，用于根据预设的分类条件对训练集中的金融风险特征向量标记其标识信息；

归一化处理模块22，用于根据标识信息标记的结果对训练集中的金融风险特征向量进行归一化处理。

进一步地，金融风险评估模型预测模块30包括：

子训练集构建单元301，用于使用随机抽样的方式从训练集中抽取训练样本，构建K 个子训练集；

信息熵计算单元302，用于针对每个子训练集，按照如下公式计算每个用户金融特征的信息熵：

H(X)＝-∑p(x_i)log(2,p(x_i))

其中，X为用户金融特征，H(X)为用户金融特征的信息熵，i＝1,2,...,n，x_i为第i个用户金融特征，p(x_i)为第i个用户金融特征的特征值概率；

信息增益计算单元303，用于根据信息熵，按照如下公式计算每个用户金融特征的信息增益：

gain＝H(c)-H(c|X)

其中，gain为用户金融特征的信息增益，H(c)为按照用户金融特征X进行分裂之前的信息熵，H(c|X)为按照用户金融特征X分裂之后的信息熵；

信息增益比计算单元304，用于根据信息增益，按照如下公式计算每个用户金融特征的信息增益比：

其中，IntI为用户金融特征的惩罚因子，D为子训练集中训练样本的总量，W_X为用户金融特征的每个标识信息的训练样本数量，gr为用户金融特征的信息增益比；

分裂节点选取单元305，用于选取最大的信息增益比对应的用户金融特征作为分裂节点进行分裂；

决策树生成单元306，用于对剩下的用户金融特征，返回针对每个子训练集，按照如下公式计算每个用户金融特征的信息熵的步骤继续执行，直到n个用户金融特征均作为分裂点完成分裂为止，得到决策树；

金融风险评估模型构建单元307，用于根据生成的K棵决策树构造随机森林，得到金融风险评估模型。

进一步地，该风险评估装置还包括：

第一计算模块61，用于当基准类别为金融风险类别的最高级别时，若基准类别对应的得票率小于预设的第一概率值，则将基准类别的初始厌恶系数与左平均值的差确定为金融风险厌恶系数；

第二计算模块62，用于若基准类别对应的得票率大于第一概率值且小于预设的第二概率值，则将基准类别的初始厌恶系数与该得票率的和减去预设的第一调节参数，得到的值确定为金融风险厌恶系数；

第三计算模块63，用于若基准类别对应的得票率大于第二概率值，则将基准类别的初始厌恶系数与预设的第二调节参数的和确定为金融风险厌恶系数。

本实施例提供的一种风险评估装置中各模块实现各自功能的过程，具体可参考前述实施例1的描述，此处不再赘述。

实施例3

本实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现实施例1中风险评估方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现实施例2中金融风险评估中各模块/单元的功能，为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号和电信信号等。

实施例4

图7是本发明一实施例提供的终端设备的示意图。如图7所示，该实施例的终端设备7包括：处理器71、存储器72以及存储在存储器72中并可在处理器71上运行的计算机程序73。处理器71执行计算机程序73时实现上述实施例1中风险评估方法的步骤，例如图 1所示的步骤S10至S80。或者，处理器71执行计算机程序73时实现上述实施例2中风险评估装置的各模块/单元的功能，例如图6所示模块10至模块80的功能。

示例性的，计算机程序73可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器72中，并由处理器71执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序73在终端设备7中的执行过程。例如，计算机程序73可以被分割成用户历史金融信息获取模块、训练集构建模块、金融风险评估模型构建模块、金融风险评估模型预测模块、得票率统计模块、基准类别确定模块、金融风险厌恶系数计算模块和金融风险承受水平确定模块。各模块的具体功能如实施例2所示，为避免重复，此处不一一赘述。

终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备7可包括，但不仅限于，处理器71、存储器72及计算机程序73。本领域技术人员可以理解，图7仅仅是终端设备7的示例，并不构成对终端设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备7还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器72可以是终端设备7的内部存储单元，例如终端设备7的硬盘或内存。存储器 72也可以是终端设备7的外部存储设备，例如终端设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card) 等。进一步地，存储器72还可以既包括终端设备7的内部存储单元也包括外部存储设备。存储器72用于存储计算机程序以及终端设备7所需的其他程序和数据。存储器72还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种风险评估方法，其特征在于，所述风险评估方法包括：

获取样本用户的历史金融信息；

根据所述历史金融信息构建训练集；

2.如权利要求1所述的风险评估方法，其特征在于，所述根据所述历史金融信息构建训练集包括：

根据所述历史金融信息确定n个用户金融特征，并基于所述用户金融特征构造金融风险特征向量，将所述金融风险特征向量作为训练样本，其中，n为正整数；

对所述金融风险特征向量进行筛选，若检测到存在所述金融风险特征向量相同的多个所述训练样本，则保留其中任意一个所述训练样本，删除其余的所述训练样本；

根据筛选后的所述金融风险特征向量构建所述训练集。

3.如权利要求2所述的风险评估方法，其特征在于，在所述根据所述历史金融信息构建训练集之后，以及所述针对所述训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型之前，所述风险评估方法还包括：

根据预设的分类条件对所述训练集中的所述金融风险特征向量标记其标识信息；

根据所述标识信息标记的结果对所述训练集中的所述金融风险特征向量进行归一化处理。

4.如权利要求3所述的风险评估方法，其特征在于，所述针对所述训练集，使用随机森林算法进行决策树构建，得到金融风险评估模型包括：

使用随机抽样的方式从所述训练集中抽取所述训练样本，构建K个子训练集；

针对每个所述子训练集，按照如下公式计算每个所述用户金融特征的信息熵：

H(X)＝-∑p(x_i)log(2,p(x_i))

其中，X为所述用户金融特征，H(X)为所述用户金融特征的信息熵，i＝1,2,...,n，x_i为第i个所述用户金融特征，p(x_i)为第i个所述用户金融特征的特征值概率；

根据所述信息熵，按照如下公式计算每个所述用户金融特征的信息增益：

gain＝H(c)-H(c|X)

其中，gain为所述用户金融特征的信息增益，H(c)为按照用户金融特征X进行分裂之前的信息熵，H(c|X)为按照所述用户金融特征X分裂之后的信息熵；

根据所述信息增益，按照如下公式计算每个所述用户金融特征的信息增益比：

其中，IntI为用户金融特征的惩罚因子，D为所述子训练集中训练样本的总量，W_X为用户金融特征的每个标识信息的训练样本数量，gr为所述用户金融特征的信息增益比；

选取最大的信息增益比对应的用户金融特征作为分裂节点进行分裂；

对剩下的所述用户金融特征，返回所述针对每个所述子训练集，按照如下公式计算每个所述用户金融特征的信息熵的步骤继续执行，直到n个所述用户金融特征均作为所述分裂点完成分裂为止，得到所述决策树；

根据生成的K棵所述决策树构造随机森林，得到金融风险评估模型。

5.如权利要求1至4任一项所述的风险评估方法，其特征在于，所述将每个所述金融风险类别的得票率中最高得票率的金融风险类别确定为基准类别，并计算低于所述基准类别的金融风险类别的得票率的左平均值，以及高于所述基准类别的金融风险类别的得票率的右平均值之后，所述风险评估方法还包括：

当所述基准类别为所述金融风险类别的最高级别时，若所述基准类别对应的得票率小于预设的第一概率值，则将所述基准类别的初始厌恶系数与所述左平均值的差确定为所述金融风险厌恶系数；

若所述基准类别对应的得票率大于所述第一概率值且小于预设的第二概率值，则将所述基准类别的初始厌恶系数与该得票率的和减去预设的第一调节参数，得到的值确定为所述金融风险厌恶系数；

若所述基准类别对应的得票率大于所述第二概率值，则将所述基准类别的初始厌恶系数与预设的第二调节参数的和确定为所述金融风险厌恶系数。

6.一种风险评估装置，其特征在于，所述风险评估装置包括：

训练集构建模块，用于根据所述历史金融信息构建训练集；

7.如权利要求6所述的风险评估装置，其特征在于，所述训练集构建模块包括：

金融风险特征向量构造单元，用于根据所述历史金融信息确定n个用户金融特征，并基于所述用户金融特征构造金融风险特征向量，将所述金融风险特征向量作为训练样本，其中，n为正整数；

金融风险特征向量筛选单元，用于对所述金融风险特征向量进行筛选，若检测到存在所述金融风险特征向量相同的多个所述训练样本，则保留其中任意一个所述训练样本，删除其余的所述训练样本；

训练集构建单元，用于根据筛选后的所述金融风险特征向量构建所述训练集。

8.如权利要求7所述的风险评估装置，其特征在于，所述风险评估装置还包括：

标识信息标记模块，用于根据预设的分类条件对所述训练集中的所述金融风险特征向量标记其标识信息；

归一化处理模块，用于根据所述标识信息标记的结果对所述训练集中的所述金融风险特征向量进行归一化处理。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述风险评估方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述风险评估方法的步骤。