CN116307742B

CN116307742B - 一种细分客群的风险识别方法、装置、设备及存储介质

Info

Publication number: CN116307742B
Application number: CN202310565489.6A
Authority: CN
Inventors: 张霖; 陈志坚; 张颖; 朱旭音; 朱艳乔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-22
Anticipated expiration: 2043-05-19
Also published as: CN116307742A

Abstract

本申请公开一种细分客群的风险识别方法、装置、设备及存储介质，属于人工智能技术领域。本申请通过构建全量人群的风险预测模型，获取全量预测模型输出的全量预测结果，对全量预测结果进行因子分析，得到因子贡献度，根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群，构建细分客群的风险预测模型，获取细分预测模型输出的细分预测结果，对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。此外，本申请还涉及区块链技术，全量数据和细分客群数据可存储于区块链中。本申请通过建立细分客群风险识别模型，可以更好地针对不同细分客群的风险特征进行识别和评估，从而更加准确地评估客户的风险水平。

Description

一种细分客群的风险识别方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种细分客群的风险识别方法、装置、设备及存储介质。

背景技术

汽车保险精算建模，是通过数学方法对驾驶员出险风险进行建模，从而对车险客户风险预期进行分级，传统风险模型一般是使用全量人群针对少数几个维度，如家用、商用、新车和续保车辆等维度分开来建立模型来预测出险风险。但是由于存在辛普森效应，在细分人群上的出险特征的分布会和整体人群在出险特征的分布存在不同。此外，传统风险模型因为要针对整体人群，所以选取的因子一般需要在整体人群都比较显著，而特定客群上可能存在额外比较显著的因子，因为在整体人群上量比较少无法被整体模型选取。

发明内容

本申请实施例的目的在于提出一种细分客群的风险识别方法、装置、计算机设备及存储介质，以解决现有传统风险模型存储的没有办法识别出部分特定人群的风险特征的技术问题。

为了解决上述技术问题，本申请实施例提供一种细分客群的风险识别方法，采用了如下所述的技术方案：

一种细分客群的风险识别方法，包括：

构建全量人群的风险预测模型，得到全量预测模型，并获取所述全量预测模型输出的全量预测结果；

对所述全量预测结果进行因子分析，得到因子贡献度，其中，所述因子贡献度为所述全量预测模型中的全量因子对所述全量预测结果的影响程度；

根据所述因子贡献度筛选聚类因子，并基于所述聚类因子对所述全量人群进行聚类，得到细分客群；

构建所述细分客群的风险预测模型，得到细分预测模型，获取所述细分预测模型输出的细分预测结果；

对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果。

进一步地，所述构建全量人群的风险预测模型，得到全量预测模型，并获取所述全量预测模型输出的全量预测结果，具体包括：

获取所述全量人群对应的全量数据；

对所述全量数据进行数据划分，得到第一训练集和第一验证集；

基于预设的梯度提升树算法对所述第一训练集进行模型训练，得到所述全量预测模型；

将所述第一验证集导入所述全量预测模型，输出所述全量预测结果。

进一步地，所述基于预设的梯度提升树算法对所述第一训练集进行模型训练，得到所述全量预测模型，具体包括：

将所述第一训练集划分为若干个第一数据子集；

基于每一个所述第一数据子集分别构建决策树，得到若干个第一初始决策树；

组合所有所述第一初始决策树，构建所述全量预测模型。

进一步地，所述对所述全量预测结果进行因子分析，得到因子贡献度，具体包括：

基于预设的SHAP算法和所述全量预测结果计算每一个所述全量因子的平均Shapley值；

基于每一个所述全量因子的平均Shapley值确定每一个所述全量因子的因子贡献度。

进一步地，根据所述因子贡献度筛选聚类因子，并基于所述聚类因子对所述全量人群进行聚类，得到细分客群，具体包括：

对每一个所述全量因子的因子贡献度进行排序，得到因子贡献度序列；

根据因子贡献度序列筛选因子贡献度大于预设贡献度阈值的聚类因子；

基于所述聚类因子和预设的聚类算法对全量人群进行聚类，得到所述细分客群。

进一步地，构建所述细分客群的风险预测模型，得到细分预测模型，获取所述细分预测模型输出的细分预测结果，具体包括：

获取与所述细分客群关联的细分客群因子；

获取细分客群数据，基于所述细分客群因子对所述细分客群数据进行数据筛选，得到筛选数据；

对所述筛选数据进行数据划分第二训练集和第二验证集；

基于预设的梯度提升树算法对所述第二训练集进行模型训练，得到所述细分预测模型；

将所述第二验证集导入所述细分预测模型，输出所述细分预测结果；

所述基于预设的梯度提升树算法对所述第二训练集进行模型训练，得到所述细分预测模型，具体包括：

将所述第二训练集划分为若干个第二数据子集；

从随机选择任意一个所述第二数据子集作为目标数据子集，并基于所述目标数据子集构建第二初始决策树；

基于所述第二初始决策树分别计算其他第二数据子集对应的风险预测值；

基于每一个所述第二数据子集对应的风险预测值计算对应数据子集的样本残差；

基于每一个所述第二数据子集的样本残差分别构建一棵梯度决策树；

基于所述第二初始决策树和所有所述梯度决策树构建所述细分预测模型。

进一步地，所述对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果，具体包括：

分别计算所述全量预测模型的加权平均值和所述细分预测模型的加权平均值；

基于所述全量预测模型的加权平均值和所述细分预测模型的加权平均值对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果；或

将所述细分预测结果添加到所述第一训练集，得到新的第一训练集；

基于所述梯度提升树算法对所述新的第一训练集重新进行模型训练，得到所述新的全量预测模型；

获取所述细分客群数据，将所述细分客群数据导入所述新的全量预测模型，输出所述细分客群的风险预测结果。

为了解决上述技术问题，本申请实施例还提供一种细分客群的风险识别装置，采用了如下所述的技术方案：

一种细分客群的风险识别装置，包括：

全量预测模块，用于构建全量人群的风险预测模型，得到全量预测模型，并获取所述全量预测模型输出的全量预测结果；

因子分析模块，用于对所述全量预测结果进行因子分析，得到因子贡献度，其中，所述因子贡献度为所述全量预测模型中的全量因子对所述全量预测结果的影响程度；

因子筛选模块，用于根据所述因子贡献度筛选聚类因子，并基于所述聚类因子对所述全量人群进行聚类，得到细分客群；

细分预测模块，用于构建所述细分客群的风险预测模型，得到细分预测模型，获取所述细分预测模型输出的细分预测结果；

结果整合模块，用于对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上述任一项所述的细分客群的风险识别方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上述中任一项所述的细分客群的风险识别方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开一种细分客群的风险识别方法、装置、设备及存储介质，属于人工智能技术领域。本申请通过构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果；对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度；根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群；构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果；对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。本申请通过全量预测数据的因子分析来筛选细分客群的聚类因子，然后通过聚类因子对全量人群进行聚类，得到细分客群，通过建立细分客群风险识别模型，并通过拟合全量预测结果和细分预测结果，获得细分客群的风险预测结果，可以更好地针对不同细分客群的风险特征进行识别和评估，从而更加准确地评估客户的风险水平。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2 示出了根据本申请的细分客群的风险识别方法的一个实施例的流程图；

图3示出了根据本申请的细分客群的风险识别装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3 )、MP4( Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的细分客群的风险识别方法一般由服务器执行，相应地，细分客群的风险识别装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的细分客群的风险识别方法的一个实施例的流程图。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。所述的细分客群的风险识别方法，包括以下步骤：

S201，构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果。

在本实施例中，服务器接收到风险预测指令后，获取全量人群对应的全量数据，基于梯度提升树GBDT(Gradient Boosting Decision Tree)算法构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果。

GBDT是一种基于决策树的集成学习算法，全称是Gradient Boost DecisionTree，中文名为梯度提升决策树。它的主要思想是通过迭代地训练决策树来提高模型的准确率，每一次迭代都会训练一个新的决策树来拟合前一次预测误差，从而逐步减小误差，最终得到一个准确率较高的模型。

在本实施例中，细分客群的风险识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收风险预测指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB( ultra wideband )连接、以及其他现在已知或将来开发的无线连接方式。

进一步地，构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果，具体包括：

获取全量人群对应的全量数据；

对全量数据进行数据划分，得到第一训练集和第一验证集；

基于预设的梯度提升树算法对第一训练集进行模型训练，得到全量预测模型；

将第一验证集导入全量预测模型，输出全量预测结果。

在本实施例中，服务器通过获取全量人群对应的全量数据，对全量数据进行预处理，预处理包括数据去重、数据筛选、缺失值填充、归一化、标准化等等，对预处理后的全量数据进行数据划分，得到第一训练集和第一验证集，基于预设的GBDT算法对第一训练集进行模型训练，得到全量预测模型，将第一验证集导入全量预测模型，输出全量预测结果。

进一步地，基于预设的梯度提升树算法对第一训练集进行模型训练，得到全量预测模型，具体包括：

将第一训练集划分为若干个第一数据子集；

基于每一个第一数据子集分别构建决策树，得到若干个第一初始决策树；

组合所有第一初始决策树，构建全量预测模型。

在本实施例中，将第一训练集划分为若干个第一数据子集，基于每一个第一数据子集分别构建决策树，得到若干个第一初始决策树，组合所有第一初始决策树，构建一个强学习器，即全量预测模型。需要说明的是，每次训练一棵新的决策树时，都需要拟合前一棵决策树的预测误差。

在建立每一棵树的过程中，需要采用贪心策略来确定最佳的分裂点。具体来说，可以先对每个特征的取值进行排序，然后枚举每个特征的每个取值作为分裂点进行评估，选择最优的分裂点作为该节点的分裂点。

在本申请一种具体的实施例中，在训练全量预测模型时，模型输入的X因子为一般车险风险模型使用的因子，如车型、排量、年龄、历史出险等常规风险因子，模型输出结果Y为出险风险。

S202，对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度。

在本实施例中，基于预设的SHAP算法对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度。

SHAP（SHapley Additive exPlanations）算法是一种用于解释机器学习模型的算法，其基本思想是通过将模型预测的每个输出分解为每个输入特征的贡献，从而提供了一种可解释的方式。该算法基于博弈论中的Shapley值理论，通过对每个特征的不同组合进行评估，计算每个特征的重要性，从而帮助解释模型的预测结果。SHAP算法可以应用于各种机器学习模型，包括线性模型、决策树、深度神经网络等。

进一步地，对全量预测结果进行因子分析，得到因子贡献度，具体包括：

基于预设的SHAP算法和全量预测结果计算每一个全量因子的平均Shapley值；

基于每一个全量因子的平均Shapley值确定每一个全量因子的因子贡献度。

使用Shapley值来分析每个因子的重要性，可以使用SHAP（SHapley AdditiveexPlanations）方法来计算。该方法基于Shapley值，能够为每个因子提供一个影响模型输出的重要度分数。首先使用SHAP方法计算每个全量因子对预测结果的贡献，然后计算每个全量因子在整个数据集中的平均贡献，根据平均贡献的大小，排名每个全量因子的重要性。

具体来说，通过SHAP方法计算出每个全量因子对预测结果的影响，这个影响可以被解释为该因子与模型预测之间的偏离度，对于一个给定的因子，SHAP值越大，表示该因子对于模型预测的贡献越大。SHAP值可以被用来解释模型的预测，帮助理解模型在做出预测时，每个因子的影响力。

在得到每个因子的SHAP值之后，可以计算出每个因子在整个数据集中的平均贡献。这个平均贡献可以被解释为，如果将该因子从所有因子中去除，模型的预测将会有多大的偏移。因此，一个因子的平均贡献越大，表示该因子对于模型的预测贡献越大，重要性也就越高。

在本实施例中，全量预测模型训练完成后，使用Shapley值来分析每一个因子的重要度，利用Shapley值可以将每个因子对最终模型结果的影响度计算出，通过Shapley值并对这些因子的重要度进行计算后，按照对风险的影响程度排序。

S203，根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群。

在本实施例中，对因子贡献度进行排序，并根据排序结果筛选聚类因子，并基于聚类因子对全量人群进行无监督聚类，得到细分客群。

具体来说，挑选影响程度高的因子，使用这些因子对全量人群进行无监督聚类。首先对重要因子进行归一化处理，然后使用无监督聚类算法对人群聚类，完成聚类后就可以将整体按出险风险特征分成多个不同尺度的客群，可以多次运行不同的聚类算法来获取多个不同尺度的客群。然后进行细分多尺度客户的挑选和合并，通过运行不同聚类算法生成多个客群聚类后，针对出险时间、出险类型、出险频次、出险金额等风险特征对客群进行风险类型识别，识别出与整体人群有明显差异的风险类型客群，然后对相似风险类型的客群进行合并，得到细分客群。

进一步地，根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群，具体包括：

对每一个全量因子的因子贡献度进行排序，得到因子贡献度序列；

基于聚类因子和预设的聚类算法对全量人群进行聚类，得到细分客群。

在本实施例中，对每一个全量因子的因子贡献度进行排序，得到因子贡献度序列，根据因子贡献度序列筛选因子贡献度大于预设贡献度阈值的聚类因子，基于聚类因子和预设的多种不同的无监督聚类算法对全量人群进行聚类，得到细分客群。

在上述实施例中，本申请通过因子贡献度获得聚类因子，通过聚类因子对全量人群进行聚类，识别出与整体人群有明显差异的风险类型客群，以便后续针对风险类型客群单独建立风险识别模型。

S204，构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果。

在本实施例中，服务器识别出细分客群后，构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果。需要说明的是，细分客群的风险预测模型也是基于GBDT算法进行训练，其中，细分客群的风险预测模型的输入为包含细分客群因子的细分客群数据，细分客群的风险预测模型的输出为细分客群真实风险预测值和全量预测模型输出的风险预测值之间残差。

在本申请一种具体的实施例中，首先使用细分客群真实的赔付率和整体模型预测赔付率之间残差作为细分客群模型的Y，然后获取关联细分客群的X因子，将用来聚类使用的聚类因子X排除在细分预测模型的输入因子X之外，以差异化细分预测模型和全量预测模型的风险特征识别，此外，筛选细分客群特有因子X，将全量预测模型中因为数量或其他因素无法使用的细分客群特有因子X也加入到细分预测模型中，使用这些因子和GBDT模型建立细分客群风险识别模型。

对于细分客群而言，细分预测模型中相比较全量预测模型可以使用更多的细分客群特有因子X，细分预测模型可以挑选那些在整体人群中因为区分度或饱和度等影响因素而被被筛选掉的因子，通过补充这些细分客群特有因子X，使得细分预测模型对于预测细分客群的风险值时准确度更高。并且细分预测模型因为是残差建模，细分预测模型只针对全量预测模型做风险优化，既使用了全量人群的数据量的优势，以识别大的风险方向，又可以针对小客群建模优化风险。

进一步地，构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果，具体包括：

获取与细分客群关联的细分客群因子；

获取细分客群数据，基于细分客群因子对细分客群数据进行数据筛选，得到筛选数据；

对筛选数据进行数据划分第二训练集和第二验证集；

基于预设的梯度提升树算法对第二训练集进行模型训练，得到细分预测模型；

将第二验证集导入细分预测模型，输出细分预测结果。

在本实施例中，获取与细分客群关联的细分客群因子，获取细分客群数据，基于细分客群因子对细分客群数据进行数据筛选，得到筛选数据，对筛选数据进行数据划分第二训练集和第二验证集，基于预设的梯度提升树算法对第二训练集进行模型训练，得到细分预测模型，将第二验证集导入细分预测模型，输出细分预测结果。

细分预测模型的输入因子包括全量因子中除聚类因子以外的其他共性因子，以及细分客群特有的因子。通过排除聚类因子可以差异化细分预测模型和全量预测模型，获得以下技术效果：

减少细分预测模型的复杂度：用于聚类因子可能与全量因子存在重复，如果不排除聚类因子，这样会增加细分预测模型的复杂度，使得模型更难解释，更难以让人信服。

减少细分预测模型的不确定性：如果用于聚类因子和全量因子存在重复，那么细分预测模型和全量预测模型的预测结果可能会高度相关，这样会增加模型的不确定性，降低模型的可靠性。

提高细分预测模型的解释性：细分预测模型和全量预测模型使用的输入因子不同，这样可以更容易地解释细分预测模型和全量预测模型的差异，更容易地理解细分预测模型和全量预测模型的预测结果。

基于预设的梯度提升树算法对第二训练集进行模型训练，得到细分预测模型，具体包括：

将第二训练集划分为若干个第二数据子集；

从随机选择任意一个第二数据子集作为目标数据子集，并基于目标数据子集构建第二初始决策树；

基于第二初始决策树分别计算其他第二数据子集对应的风险预测值；

基于每一个第二数据子集对应的风险预测值计算对应数据子集的样本残差；

基于每一个第二数据子集的样本残差分别构建一棵梯度决策树；

基于第二初始决策树和所有梯度决策树构建细分预测模型。

在本实施例中，将第二训练集划分为若干个第二数据子集，从随机选择任意一个第二数据子集作为目标数据子集，并基于目标数据子集构建第二初始决策树，基于第二初始决策树分别计算其他第二数据子集对应的风险预测值，基于每一个第二数据子集对应的风险预测值计算对应数据子集的样本残差，基于每一个第二数据子集的样本残差分别构建一棵梯度决策树，基于第二初始决策树和所有梯度决策树构建细分预测模型。

细分预测模型预测的是细分客群真实风险预测值和全量预测模型输出的风险预测值之间残差，通过样本风险残差建模，细分预测模型只针对全量预测模型做风险优化，既使用了全量人群的数据量的优势，以识别大的风险方向，又可以针对小客群建模优化风险。

S205，对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。

在本实施例中，对全量预测结果和细分预测结果进行整合，以获得更全面、准确的细分客群的风险预测结果。

进一步地，对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果，具体包括：

分别计算全量预测模型的加权平均值和细分预测模型的加权平均值；

基于全量预测模型的加权平均值和细分预测模型的加权平均值对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果；或

将细分预测结果添加到第一训练集，得到新的第一训练集；

基于梯度提升树算法对新的第一训练集重新进行模型训练，得到新的全量预测模型；

获取细分客群数据，将细分客群数据导入新的全量预测模型，输出细分客群的风险预测结果。

在本实施例中，对全量预测结果和细分预测结果进行整合的方式有两种，包括对风险预测结果的加权求平均值和将细分预测结果作为全量预测模型的一个额外的输入特征，并重新训练全量预测模型，来对细分客群的风险进行预测。

对于第一种方式，基于全量预测模型和细分预测模型的预测结果，分别计算每个模型的加权平均值，以获得综合预测结果，权重的分配可以根据不同的实际情况进行调整，例如可以基于细分模型的训练样本数量、模型准确度等指标来分配权重。

计算每个模型的加权平均值需要先确定每个模型的权重，可以通过交叉验证等方式确定。一般而言，可以将两个模型的权重设置为它们的表现的平均值，然后对于每个个体样本，可以分别用两个模型进行预测，得到两个预测值，最后将两个预测值乘以对应的权重，然后将它们相加，得到加权平均预测值。

对于第二种方式，将细分预测模型的预测结果作为全量预测模型的一个额外的输入特征，并重新训练全量预测模型，以获得更准确的预测结果。在重新训练全量预测模型时，需要注意对细分预测模型的预测结果进行标准化和归一化，以确保与其他特征具有相同的尺度和权重。此外，在训练全量预测模型时，还需要根据细分预测模型的预测结果对其他特征进行调整，以更好地适应不同客群的预测需求。

需要注意的是，选择哪种方法进行预测结果的整合取决于具体的业务场景和数据特征。例如，如果细分预测模型的训练样本数量较少，可能更适合采用基于加权平均的方法进行整合；而如果细分预测模型的预测结果对全量预测模型的预测结果影响较大，可能更适合重新训练全量预测模型。

在上述实施例中，本申请公开一种细分客群的风险识别方法，属于人工智能技术领域。本申请通过构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果；对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度；根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群；构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果；对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。本申请通过全量预测数据的因子分析来筛选细分客群的聚类因子，然后通过聚类因子对全量人群进行聚类，得到细分客群，通过建立细分客群风险识别模型，并通过拟合全量预测结果和细分预测结果，获得细分客群的风险预测结果，可以更好地针对不同细分客群的风险特征进行识别和评估，从而更加准确地评估客户的风险水平。

需要强调的是，为进一步保证上述全量数据和细分客群数据的私密和安全性，上述全量数据和细分客群数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）等非易失性存储介质，或随机存储记忆体（Random Access Memory，RAM）等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种细分客群的风险识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的细分客群的风险识别装置300包括：

全量预测模块301，用于构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果；

因子分析模块302，用于对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度；

因子筛选模块303，用于根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群；

细分预测模块304，用于构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果；

结果整合模块305，用于对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。

进一步地，全量预测模块301具体包括：

全量数据获取单元，用于获取全量人群对应的全量数据；

第一数据划分单元，用于对全量数据进行数据划分，得到第一训练集和第一验证集；

第一模型训练单元，用于基于预设的梯度提升树算法对第一训练集进行模型训练，得到全量预测模型；

第一预测单元，用于将第一验证集导入全量预测模型，输出全量预测结果。

进一步地，第一模型训练单元具体包括：

第一数据集划分子单元，用于将第一训练集划分为若干个第一数据子集；

第一决策树构建子单元，用于基于每一个第一数据子集分别构建决策树，得到若干个第一初始决策树；

全量预测模型构建子单元，用于组合所有第一初始决策树，构建全量预测模型。

进一步地，因子分析模块302具体包括：

Shapley值计算单元，用于基于预设的SHAP算法和全量预测结果计算每一个全量因子的平均Shapley值；

因子贡献度计算单元，用于基于每一个全量因子的平均Shapley值确定每一个全量因子的因子贡献度。

进一步地，因子筛选模块303具体包括：

贡献度排序单元，用于对每一个全量因子的因子贡献度进行排序，得到因子贡献度序列；

因子筛选单元，用于根据因子贡献度序列筛选因子贡献度大于预设贡献度阈值的聚类因子；

客群聚类单元，用于基于聚类因子和预设的聚类算法对全量人群进行聚类，得到细分客群。

进一步地，细分预测模块304具体包括：

细分客群因子获取单元，用于获取与细分客群关联的细分客群因子；

细分客群数据筛选单元，用于获取细分客群数据，基于细分客群因子对细分客群数据进行数据筛选，得到筛选数据；

第二数据划分单元，用于对筛选数据进行数据划分第二训练集和第二验证集；

第二模型训练单元，用于基于预设的梯度提升树算法对第二训练集进行模型训练，得到细分预测模型；

第二预测单元，用于将第二验证集导入细分预测模型，输出细分预测结果；

第二模型训练单元具体包括：

第二数据集划分子单元，用于将第二训练集划分为若干个第二数据子集；

第二决策树构建子单元，用于从随机选择任意一个第二数据子集作为目标数据子集，并基于目标数据子集构建第二初始决策树；

风险预测子单元，用于基于第二初始决策树分别计算其他第二数据子集对应的风险预测值；

样本残差计算子单元，用于基于每一个第二数据子集对应的风险预测值计算对应数据子集的样本残差；

梯度决策树构建子单元，用于基于每一个第二数据子集的样本残差分别构建一棵梯度决策树；

细分预测模型构建子单元，用于基于第二初始决策树和所有梯度决策树构建细分预测模型。

进一步地，结果整合模块305具体包括：

加权平均单元，用于分别计算全量预测模型的加权平均值和细分预测模型的加权平均值；

加权整合单元，用于基于全量预测模型的加权平均值和细分预测模型的加权平均值对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果；或

预测结果添加单元，用于将细分预测结果添加到第一训练集，得到新的第一训练集；

模型再训练单元，用于基于梯度提升树算法对新的第一训练集重新进行模型训练，得到新的全量预测模型；

细分风险预测单元，用于获取细分客群数据，将细分客群数据导入新的全量预测模型，输出细分客群的风险预测结果。

在上述实施例中，本申请公开一种细分客群的风险识别装置，属于人工智能技术领域。本申请通过构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果；对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度；根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群；构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果；对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。本申请通过全量预测数据的因子分析来筛选细分客群的聚类因子，然后通过聚类因子对全量人群进行聚类，得到细分客群，通过建立细分客群风险识别模型，并通过拟合全量预测结果和细分预测结果，获得细分客群的风险预测结果，可以更好地针对不同细分客群的风险特征进行识别和评估，从而更加准确地评估客户的风险水平。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器 (Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（FlashCard）等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如细分客群的风险识别方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述细分客群的风险识别法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

在上述实施例中，本申请公开一种计算机设备，属于人工智能技术领域。本申请通过构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果；对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度；根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群；构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果；对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。本申请通过全量预测数据的因子分析来筛选细分客群的聚类因子，然后通过聚类因子对全量人群进行聚类，得到细分客群，通过建立细分客群风险识别模型，并通过拟合全量预测结果和细分预测结果，获得细分客群的风险预测结果，可以更好地针对不同细分客群的风险特征进行识别和评估，从而更加准确地评估客户的风险水平。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的细分客群的风险识别方法的步骤。

在上述实施例中，本申请公开一种存储介质，属于人工智能技术领域。本申请通过构建全量人群的风险预测模型，得到全量预测模型，并获取全量预测模型输出的全量预测结果；对全量预测结果进行因子分析，得到因子贡献度，其中，因子贡献度为全量预测模型中的全量因子对全量预测结果的影响程度；根据因子贡献度筛选聚类因子，并基于聚类因子对全量人群进行聚类，得到细分客群；构建细分客群的风险预测模型，得到细分预测模型，获取细分预测模型输出的细分预测结果；对全量预测结果和细分预测结果进行整合，得到细分客群的风险预测结果。本申请通过全量预测数据的因子分析来筛选细分客群的聚类因子，然后通过聚类因子对全量人群进行聚类，得到细分客群，通过建立细分客群风险识别模型，并通过拟合全量预测结果和细分预测结果，获得细分客群的风险预测结果，可以更好地针对不同细分客群的风险特征进行识别和评估，从而更加准确地评估客户的风险水平。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例所述的方法。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种细分客群的风险识别方法，其特征在于，包括：

对所述全量预测结果进行因子分析，得到因子贡献度，其中，所述因子贡献度为所述全量预测模型中的全量因子对所述全量预测结果的影响程度，基于预设的SHAP算法对全量预测结果进行因子分析；

对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果；

所述构建全量人群的风险预测模型，得到全量预测模型，并获取所述全量预测模型输出的全量预测结果，具体包括：

获取所述全量人群对应的全量数据；

将所述第一验证集导入所述全量预测模型，输出所述全量预测结果；

所述对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果，具体包括：

基于所述梯度提升树算法对所述新的第一训练集重新进行模型训练，得到新的全量预测模型；

获取细分客群数据，将所述细分客群数据导入新的全量预测模型，输出所述细分客群的风险预测结果。

2.根据权利要求1所述的细分客群的风险识别方法，其特征在于，所述基于预设的梯度提升树算法对所述第一训练集进行模型训练，得到所述全量预测模型，具体包括：

将所述第一训练集划分为若干个第一数据子集；

组合所有所述第一初始决策树，构建所述全量预测模型。

3.根据权利要求1所述的细分客群的风险识别方法，其特征在于，所述对所述全量预测结果进行因子分析，得到因子贡献度，具体包括：

4.根据权利要求3所述的细分客群的风险识别方法，其特征在于，根据所述因子贡献度筛选聚类因子，并基于所述聚类因子对所述全量人群进行聚类，得到细分客群，具体包括：

5.根据权利要求1所述的细分客群的风险识别方法，其特征在于，构建所述细分客群的风险预测模型，得到细分预测模型，获取所述细分预测模型输出的细分预测结果，具体包括：

获取与所述细分客群关联的细分客群因子；

对所述筛选数据进行数据划分第二训练集和第二验证集；

将所述第二训练集划分为若干个第二数据子集；

6.一种细分客群的风险识别装置，其特征在于，包括：

因子分析模块，用于对所述全量预测结果进行因子分析，得到因子贡献度，其中，所述因子贡献度为所述全量预测模型中的全量因子对所述全量预测结果的影响程度，基于预设的SHAP算法对全量预测结果进行因子分析；

结果整合模块，用于对所述全量预测结果和所述细分预测结果进行整合，得到所述细分客群的风险预测结果；

所述全量预测模块具体包括：

全量数据获取单元，用于获取全量人群对应的全量数据；

第一预测单元，用于将第一验证集导入全量预测模型，输出全量预测结果；

所述结果整合模块具体包括：

7.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的细分客群的风险识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的细分客群的风险识别方法的步骤。