CN115587856A

CN115587856A - 客户分类模型确定方法、装置、计算机设备和存储介质

Info

Publication number: CN115587856A
Application number: CN202211389276.4A
Authority: CN
Inventors: 程鹏; 任政; 毛越男; 王鹏培
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-01-10

Abstract

本申请涉及一种客户分类模型确定方法、装置、计算机设备和存储介质。所述方法包括：根据第一风控数据样本，确定初始特征集合，第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型，进而对初始特征集合进行筛选，得到目标特征集合，从而根据目标特征集合和初始分类模型，确定客户分类模型。采用本方法能够识别客户的风险类型。

Description

客户分类模型确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种客户分类模型确定方法、装置、计算机设备和存储介质。

背景技术

随着互联网金融技术和业务的发展，识别风险客户一项很有必要的工作。然而，通过人工进行审核以识别风险客户无法满足互联网金融时代大规模的用户需求。

因此，利用人工智能的方法，提供一种识别风险客户和非风险客户的分类模型是本领域技术人员重点研究的内容。

发明内容

基于此，有必要针对上述技术问题，提供一种能够识别客户的风险类型的客户分类模型确定方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种客户分类模型确定方法。所述方法包括：

根据第一风控数据样本，确定初始特征集合，该第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；该初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型；

对该初始特征集合进行筛选，得到目标特征集合；

根据该目标特征集合和初始分类模型，确定该客户分类模型。

在其中一个实施例中，该对该初始特征集合进行筛选，得到目标特征集合，包括：

根据该初始特征集合中目标客户的目标特征值，确定第一风险类型客户的该目标特征对应的第一特征值和第二风险类型客户的该目标特征对应的第二特征值；该第一风险类型与该目标客户的风险类型相同，该第二风险类型与该目标客户的风险类型不同；

根据该目标特征值、该第一特征值、该第二特征值以及该第一特征值和该第二特征值的总个数，确定该目标客户对应的目标特征的筛选指标值；

根据各该目标客户对应的目标特征的筛选指标值，对该初始特征集合进行筛选得到该目标特征集合。

在其中一个实施例中，该根据该目标特征值、该第一特征值、该第二特征值以及该第一特征值和该第二特征值的总个数，确定该目标客户对应的目标特征的筛选指标值，包括：

确定该目标特征值与各该第一特征值的第一差值以及该目标特征值与各该第二特征值的第二差值；

根据各该第一差值、各该第二差值以及该总个数，确定该目标客户对应的目标特征的筛选指标值。

在其中一个实施例中，该根据各该第一差值、各该第二差值以及该总个数，确定该目标客户对应的目标特征的筛选指标值，包括：

对各该第一差值的平方进行求和得到第一求和结果，并对各该第二差值的平方进行求和得到第二求和结果；

根据该第一求和结果、该第二求和结果以及该总个数，确定该目标客户对应的目标特征的筛选指标值。

在其中一个实施例中，该根据该第一求和结果、该第二求和结果以及该总个数，确定该目标客户对应的目标特征的筛选指标值，包括：

确定该第二求和结果与该第一求和结果的第三差值；

将该第三差值除以该总个数得到的商值作为该目标客户对应的目标特征的筛选指标值。

在其中一个实施例中，该根据第一风控数据样本，确定初始特征集合，包括：

对该第一风控数据样本进行预处理，得到预处理后的第二风控数据样本；

根据该第二风控数据样本的至少一个预设子周期内的各个属性的属性值，确定该初始特征集合，该预设子周期根据该预设周期确定。

第二方面，本申请还提供了一种客户分类模型确定装置。该装置包括：

第一确定模块，用于根据第一风控数据样本，确定初始特征集合，该第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；该初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型；

筛选模块，用于对该初始特征集合进行筛选，得到目标特征集合；

第二确定模块，用于根据该目标特征集合和初始分类模型，确定该客户分类模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方法的步骤。

上述客户分类模型确定方法、装置、计算机设备和存储介质，根据第一风控数据样本，确定初始特征集合，进而对该初始特征集合进行筛选，得到目标特征集合，从而根据该目标特征集合和初始分类模型，确定该客户分类模型。由于该第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型，并且，该初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型，因此，在初始特征集合的基础上进行筛选，得到的目标特征集合就能更准确地保留到第一风控数据样本的重要特征。进而计算机设备就可以基于目标特征集合和初始分类模型，确定客户分类模型，由于客户分类模型是根据筛选后的目标特征集合确定的，因此该客户分类模型能够对客户的风险类型进行识别。进一步地，本实施例利用计算机设备确定客户分类模型，无需人工进行审核以识别风险客户，提高了识别客户的风险类型的效率，并且，由于是基于筛选后的目标特征集合确定的客户分类模型，还提高了客户分类模型的精度，从而提高了利用人工智能方法识别客户风险类型的准确性。

附图说明

图1为本申请实施例中客户分类模型确定方法的应用环境图；

图2为本申请实施例中客户分类模型确定方法的流程示意图；

图3为本申请实施例中一种得到目标特征集合的流程示意图；

图4为本申请实施例中一种确定筛选指标值的流程示意图；

图5为本申请实施例中另一种确定筛选指标值的流程示意图；

图6为本申请实施例中另一种确定筛选指标值的流程示意图；

图7为本申请实施例中一种确定初始特征集合的流程示意图；

图8为本申请实施例中客户分类模型确定装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为本申请实施例中客户分类模型确定方法的应用环境图，本申请实施例提供的客户分类模型确定方法可以应用于如图1所示的计算机设备中。该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种客户分类模型确定方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2为本申请实施例中客户分类模型确定方法的流程示意图，该方法可以应用于图1所示的计算机设备中，在一个实施例中，如图2所示，包括以下步骤：

S201，根据第一风控数据样本，确定初始特征集合，第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型。

在本实施例中，计算机设备首先根据第一风控数据样本，确定初始特征集合。第一风控数据样本包括了不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型，其中，预设周期可以30天、1年、2年等时间周期，可以根据需求设置。各个属性可以包括客户身份信息、客户财产信息、客户交易信息、客户放款信息以及客户还款信息中的至少一项。

示例地，客户身份信息包括客户的房产信息、车辆信息、是否结婚、学历信息、保险信息等；客户财产信息包括客户投资理财信息、客户存款信息、客户贷款信息、客户收入信息等；客户交易信息包括客户每笔银行交易流水信息；客户放款信息包括客户账户放款额度、客户账户历史额度调整信息等；客户还款信息包括客户还款额度、客户还款逾期概率、客户还款逾期天数等。可以理解的是，各个属性值就是各个属性的具体数值，例如客户1的客户存款信息的属性值为1万，是否结婚的属性值为1，1表示已婚；客户2的客户存款信息的属性值为2万，是否结婚的属性值为0，0表示未婚。需要说明的是，计算机设备获取到的是脱敏后的第一风控数据样本。

进一步地，计算机设备可以利用预设的风险类型为各个客户打标签，从而确定了不同客户的风险类型，客户的风险类型包括风险客户和非风险客户，计算机设备可以使用0和1来区别风险客户和非风险客户，例如风险客户为1，非风险客户为0。

以第一风控数据样本包括N个客户(N是大于1的整数)在1年内的M个属性(M是大于1的整数)为例，根据第一风控数据样本，计算机设备可以确定客户N的属性M在1年中任一天的属性值，以及客户N的风险类型。例如，属性1表示客户存款信息，属性2表示客户还款逾期天数，客户1的属性1在1年内的第180天的属性值是1000元，客户1的属性2在1年内的第300天的属性值是130天，客户1的风险类型是1，表示客户1为风险客户。

计算机设备可以获取终端发送的第一风控数据样本，也可以从自身存储中获取第一风控数据样本，在计算机设备获取到第一风控数据样本后，计算机设备就可以根据第一风控数据样本，确定初始特征集合。其中，计算机设备可以对第一风控数据样本进行预处理，从而利用预处理后的第二风控数据样本确定初始特征集合；计算机设备也可以直接利用第一风控数据样本确定初始特征集合。

具体地，初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型。其中，计算机设备可以利用主成分分析(Principal Component Analysis，PCA)确定不同客户的各个属性的多个特征值，计算机设备也可以利用统计学确定不同客户的各个属性的多个特征值，本实施例不做限制。例如，第一风控数据样本包括N个客户在1年内的M个属性，则计算机设备将N个客户分别在1年内的每个季度的各属性的方差值作为各个属性的多个特征值，换句话说，客户1的属性1的特征值1表示客户1的属性1的属性值在1年内第一个季度的方差值。进一步地，计算机设备利用第一风控数据样本确定了初始特征集合。

以初始特征集合包括N个客户的M个属性的I个特征值为例，根据初始特征集合，计算机设备就可以确定客户N的属性M的特征值I，以及客户N的风险类型。例如，客户1的属性1的特征值1是0.5，客户1的属性1的特征值2是0.8，则客户1的属性1的属性值在1年内第一个季度的方差值是0.2，客户1的属性1的属性值在1年内第二个季度的方差值是0.8，客户1的风险类型是0，表示客户1是非风险客户。

S202，对初始特征集合进行筛选，得到目标特征集合。

在本实施例中，计算机设备需要对初始特征集合进行筛选，得到目标特征集合。可以理解的是，对初始特征集合进行筛选的过程，实质上是对初始特征集合中的特征值进行筛选的过程，计算机设备可以剔除初始特征集合中的部分特征值，例如，计算机设备确定客户1的属性1的特征值1与客户1的属性1的特征值2之间的跳变较为异常，则计算机设备可以从初始特征集合中剔除客户1的属性1的特征值1以及客户1的属性1的特征值2，以得到目标特征集合。

具体地，计算机设备可以根据相关特征算法(Relevant Features，Relief算法)对初始特征集合进行筛选得到目标特征集合；计算机设备也可以根据互信息法对初始特征集合进行筛选得到目标特征集合，本实施例不做限制。

S203，根据目标特征集合和初始分类模型，确定客户分类模型。

在本实施例中，计算机设备在确定目标特征集合之后，就会根据目标特征集合和初始分类模型，确定客户分类模型。初始分类模型可以是卷积神经网络(ConvolutionalNeural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)，也可以为其他的深度学习网络、机器学习网络等，本实施例不做限制。

示例地，本实施例的初始分类模型包括一个循环神经网络(Recurrent NeuralNetwork，RNN)和一个基于决策树的分类算法(Catboost)模型。其中，RNN是目前深度学习领域研究的一个重点方向，其对解决序列化的数据的分类预测具有较好的效果，传统的人工神经网络不能结合上下文之间的联系进行建模，而RNN保存了各层之间的联系，同时增加了同层间各个神经元之间的联系以及神经元当前时刻和下一时刻之间的联系，具有记忆功能，可以将上下文信息联系起来，以不能结合上下文之间的联系进行建模的问题。而catboost模型可以高效合理地处理各类特征，同时解决了梯度偏差、预测偏移问题。

具体地，RNN用3层网络架构，包括输入层、隐藏层和输出层；CATBoost模型采用第三方框架直接引入即可。例如，RNN模型和CATBoost模型都使用python编码，采用第三方库直接调用算法单元。

计算机设备确定了目标特征集合和初始分类模型后，利用目标特征结合对初始分类模型进行训练，以得到客户分类模型。一种得到客户分类模型的方式是：计算机设备将目标特征集合划分为训练集和验证集，将训练集分别输入初始分类模型的RNN和CATBoost模型，并利用粒子群算法对初始分类模型中的RNN和CATBoost模型进行训练以得到较优的模型参数，并利用验证集确定训练后的RNN和CATBoost模型的预测准确率，当RNN和CATBoost模型的预测准确率分别达到预设的预测准率阈值时，计算机设备可以停止训练，将RNN的准确率A作为RNN的权重，将CATBoost模型的准确率B作为CATBoost模型的权重，最终计算机设备将A*RNN+B*CATBoost模型作为客户分类模型。示例地，本实施例采用的RNN模型的准确率为76.6％，CATBoost模型的准确率为78.2％，则客户分类模型等于0.766*RNN+0.782*CATBoost模型，实验数据表明，客户分类模型的准确率，即客户分类模型精度能够达到81.3％。

其中，计算机设备在利用粒子群算法对初始分类模型中的RNN和CATBoost模型进行训练时，首先初始化为一群随机粒子作为初始网络参数，然后通过迭代找到最优网络参数。

然而，目前的粒子群算法的局部搜索能力差，容易陷入局部极值，搜索精度低等，针对这些问题，本实施例中基于全局master节点，改进了master粒子单独搜寻的步骤，将其他master节点也放到master粒子的路径上，从而使得参数更加逼近全局最优解。

具体地，计算机设备在利用粒子群算法对初始分类模型中的RNN和CATBoost模型进行训练以得到较优的模型参数时，将粒子的速度和位置更新中使用到的惯性因子ω的算法进行了优化，优化后惯性因子的算法满足如下式(1)。

式(1)中，ω_max表示惯性权重最大值，ω_min表示惯性权重最小值，f_min表示粒子最小目标值，f_max表示粒子最大目标值，f表示粒子目前函数值。

综上所述，由于利用RNN和CATBoost模型得到客户分类模型，因此提高了最终得到的客户分类模型的精度，由于根据优化后的惯性因子，利用优化后的粒子群算法确定客户分类模型，也提高了客户分类模型的确定效率。

本实施例提供的客户分类模型确定方法，根据第一风控数据样本，确定初始特征集合，进而对初始特征集合进行筛选，得到目标特征集合，从而根据目标特征集合和初始分类模型，确定客户分类模型。由于第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型，并且，初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型，因此，在初始特征集合的基础上进行筛选，得到的目标特征集合就能更准确地保留到第一风控数据样本的重要特征。进而计算机设备就可以基于目标特征集合和初始分类模型，确定客户分类模型，由于客户分类模型是根据筛选后的目标特征集合确定的，因此该客户分类模型能够对客户的风险类型进行识别。进一步地，本实施例利用计算机设备确定客户分类模型，无需人工进行审核以识别风险客户，提高了识别客户的风险类型的效率，并且，由于是基于筛选后的目标特征集合确定的客户分类模型，还提高了客户分类模型的精度，从而提高了利用人工智能方法识别客户风险类型的准确性。

图3为本申请实施例中一种得到目标特征集合的流程示意图，参照图3，本实施例涉及的是如何得到目标特征集合的一种可选的实现方式。在上述实施例的基础上，上述的S202，对初始特征集合进行筛选，得到目标特征集合，包括如下步骤：

S301，根据初始特征集合中目标客户的目标特征值，确定第一风险类型客户的目标特征对应的第一特征值和第二风险类型客户的目标特征对应的第二特征值；第一风险类型与目标客户的风险类型相同，第二风险类型与目标客户的风险类型不同。

在本实施例中，计算机设备将初始特征集合中的任意一个客户作为目标客户，将该客户的任意一个属性下的任意一个特征值作为目标特征值。例如，计算机设备确定初始特征集合中的目标客户为客户1，目标特征值为客户1的属性1的特征值1。

进一步地，由于初始特征集合包括了各客户的风险类型，因此，计算机设备能够确定客户1的风险类型，例如客户1为非风险客户。

更进一步地，计算机设备能够确定第一风险类型客户的目标特征对应的第一特征值和第二风险类型客户的目标特征对应的第二特征值。其中，第一风险类型与目标客户的风险类型相同，第二风险类型与目标客户的风险类型不同。换句话说，计算机设备会从初始特征集合中选择与客户1的风险类型相同的客户的属性1的特征值1，以及与客户1的风险类型不同的客户的属性1的特征值1。举例说明，计算机设备可以随机从初始特征集合中，抽取同为非风险客户的客户3的属性1的特征值1作为第一特征值，并且抽取为风险客户的客户18的属性1的特征值1作为第二特征值。

S302，根据目标特征值、第一特征值、第二特征值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值。

在本实施例中，继续上述S301的示例，计算机设备可以确定多个第一特征值和多个第二特征值，计算机设备可以确定预设数量的第一特征值和第二特征值，例如计算机设备只随机确定出10个第一特征值和10个第二特征值；计算机设备也可以是随机从初始特征集合中确定所有第一风险类型客户的目标特征对应的第一特征值和所有第二风险类型客户的目标特征对应的第二特征值，例如初始特征集合包括100个客户多个特征值，100个客户中60个为风险客户，40个为非风险客户，假设目标客户为风险客户类型的客户1，则计算机设备可以确定59个第一特征值和40和第二特征值。为了保证后续的分类效果，第一风控数据样本中不同的风险类型的客户比例应当控制在1:1左右，第一特征值和第二特征值的数量尽量相同。

进一步地，以计算机设备随机确定出10个第一特征值和10个第二特征值示例，计算机设备将10个第一特征值分别减去目标特征值得到10个第一绝对值，再将10个第二特征值分别减去目标特征值得到10个第二绝对值，计算机设备可以将第一绝对值与第二绝对值的和除以总个数10的商值作为目标客户对应的目标特征的筛选指标值，也即客户1的属性1下的特征值1的筛选指标值。当然，计算机设备也可以通过其他方式，根据目标特征值、第一特征值、第二特征值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值，本实施例不做限制。

S303，根据各目标客户对应的目标特征的筛选指标值，对初始特征集合进行筛选得到目标特征集合。

在本实施例中，计算机设备根据各目标客户对应的目标特征的筛选指标值，对初始特征集合进行筛选得到目标特征集合。假设初始特征集合包括100个客户在10个属性下的4个特征值，例如客户1的属性1下的特征值1为0.8、客户100的属性10下的特征2为0.5等等。则计算机设备确定出客户1～客户100的10个属性下的各个特征值的筛选指标值，例如客户1的属性1下的特征值1的筛选指标值、客户50的属性8下的特征值4的筛选指标值等等，计算机设备共计可以确定出1000×10×4＝4000个筛选指标值。

进一步地，计算机设备对上述4000个筛选指标值按照数值大小进行排序，根据各筛选指标值的数值大小对初始特征集合进行筛选得到目标特征集合。例如，计算机设备剔除初始特征集合中筛选指标值排名在后20％的筛选指标值所对应的特征值，以对初始特征集合进行筛选得到目标特征集合。

本实施例根据初始特征集合中目标客户的目标特征值，确定第一风险类型客户的目标特征对应的第一特征值和第二风险类型客户的目标特征对应的第二特征值，进而根据目标特征值、第一特征值、第二特征值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值，从而根据各目标客户对应的目标特征的筛选指标值，对初始特征集合进行筛选得到目标特征集合。由于第一风险类型与目标客户的风险类型相同，第二风险类型与目标客户的风险类型不同，因此，第一特征值和第二特征值考虑了与目标客户同类的特征值和与目标客户不同类的特征值，确定的筛选指标值综合考虑了各个风险类型的特征值，是一个较为全面的评级指标，进而根据筛选指标值确定的目标特征集合就能更准确地保留到第一风控数据样本的重要特征。

图4为本申请实施例中一种确定筛选指标值的流程示意图，参照图4，本实施例涉及的是如何确定目标客户对应的目标特征的筛选指标值的一种可选的实现方式。在上述实施例的基础上，上述的S302，根据目标特征值、第一特征值、第二特征值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值，包括如下步骤：

S401，确定目标特征值与各第一特征值的第一差值以及目标特征值与各第二特征值的第二差值。

在本实施例中，假设计算机设备确定出了50个第一特征值和50个第二特征值，计算机设备确定目标特征值与该50第一特征值的各第一差值，以及目标特征值与该50第二特征值的各第二差值。例如目标特征值为0.2，第一特征值1为0.5，第二特征值1为0.1，则第一差值1为-0.3，第二差值1为0.1。

S402，根据各第一差值、各第二差值以及总个数，确定目标客户对应的目标特征的筛选指标值。

在本实施例中，继续上述S401的示例，计算机设备确定出了各第一差值与各第二差值后，可以将各第一差值的绝对值与第二差值的绝对值的累和除以第一特征值和第二特征值的总个数100，作为目标客户对应的目标特征的筛选指标值。当然，计算机设备也可以通过其他方式根据各第一差值、各第二差值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值，本实施例不做限制。

本实施例中确定目标特征值与各第一特征值的第一差值以及目标特征值与各第二特征值的第二差值，并根据各第一差值以及各第二差值确定目标客户对应的目标特征的筛选指标值，由于根据目标特征值和各第一特征值的第一差值与目标特征值和各第二特征值的第二差值确定的筛选指标值，因此确定的筛选指标值能够体现目标特征值与各第一特征值、各第二特征值之间的差异，从而在初始特征集合的基础上进行筛选，得到的目标特征集合就能更准确地保留到第一风控数据样本的重要特征，以提高客户分类模型的精度。

图5为本申请实施例中另一种确定筛选指标值的流程示意图，参照图5，本实施例涉及的是如何确定目标客户对应的目标特征的筛选指标值的一种可选的实现方式。在上述实施例的基础上，上述的S402，根据各第一差值、各第二差值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值，包括如下步骤：

S501，对各第一差值的平方进行求和得到第一求和结果，并对各第二差值的平方进行求和得到第二求和结果。

在本实施例中，继续上述S401的举例，假设计算机设备确定出了50个第一特征值和50个第二特征值，则计算机设备也会确定出50个第一差值和50和第二差值，则计算机设备对各第一差值的平方进行求和得到第一求和结果，对各第二差值的平方进行求和得到第二求和结果，也即第一求和结果＝(第一差值1)²+(第一差值2)²+……+(第一差值50)²；也即第二求和结果＝(第二差值1)²+(第二差值2)²+……+(第二差值50)²。

S502，根据第一求和结果、第二求和结果以及总个数，确定目标客户对应的目标特征的筛选指标值。

在本实施例中，计算机设备能够根据第一求和结果、第二求和结果以及总个数，确定目标客户对应的目标特征的筛选指标值。例如，计算机设备将第一求和结果乘以第一预设系数的积，减去将第二求和结果乘以第二预设系数的积，并将得到的差值除以总个数，以确定目标客户对应的目标特征的筛选指标值。第一预设系数和第二预设系统是大于0的数，本实施例不做限制。

本实施例对各第一差值的平方进行求和得到第一求和结果，并对各第二差值的平方进行求和得到第二求和结果，进而根据第一求和结果和第二求和结果，确定目标客户对应的目标特征的筛选指标值，进而计算机设备确定的筛选指标值能够体现目标特征值与各第一特征值、各第二特征值之间的差异，从而在初始特征集合的基础上进行筛选，得到的目标特征集合就能更准确地保留到第一风控数据样本的重要特征，以提高客户分类模型的精度。

图6为本申请实施例中另一种确定筛选指标值的流程示意图，参照图6，本实施例涉及的是如何确定筛选指标值的一种可选的实现方式。在上述实施例的基础上，上述的S502，根据第一求和结果、第二求和结果以及总个数，确定目标客户对应的目标特征的筛选指标值，包括如下步骤：

S601，确定第二求和结果与第一求和结果的第三差值。

在本实施例中，计算机设备确定第二求和结果与第一求和结果的第三差值。可以理解的是，第三差值＝第二求和结果-第一求和结果＝[(第二差值1)²+(第二差值2)²+……+(第二差值50)²]-[(第一差值1)²+(第一差值2)²+……+(第一差值50)²]＝-(第一差值1)²+(第二差值1)²-(第一差值2)²+(第二差值1)²-……-(第一差值50)²+(第二差值50)²。

也就是说，计算机设备确定第三差值的过程，实质上是确定目标特征值和第一特征值之间的距离A，与目标特征值和第二特征值之间的距离B的大小关系。若目标特征值和第一特征值之间的距离A小于目标特征值和第二特征值之间的距离B，则说明该目标特征值对于识别相同的风险类型的客户具有较好的效果。

S602，将第三差值除以总个数得到的商值作为目标客户对应的目标特征的筛选指标值。

在本实施例中，计算机设备在确定出第三差值之后，将第三差值除以总个数得到的商值作为目标客户对应的目标特征的筛选指标值，例如确定出客户1的属性1下的特征值1的筛选指标值。采用本实施例的方法确定的筛选指标值，能够有效地筛选初始特征集合，剔除初始特征集合中冗余的指标，从而避免客户分类模型出现过拟合的情况。

本实施例确定第二求和结果与第一求和结果的第三差值，并将第三差值除以总个数得到的商值作为目标客户对应的目标特征的筛选指标值，由于根据第二求和结果与第一求和结果得到的第三差值确定筛选指标值，因此根据筛选指标值体现出对于分类较为重要的特征值，从而在初始特征集合的基础上进行筛选，得到的目标特征集合就能更准确地保留到第一风控数据样本的重要特征，以提高客户分类模型的精度。

图7为本申请实施例中一种确定初始特征集合的流程示意图，参照图7，本实施例涉及的是如何确定初始特征集合的一种可选的实现方式。在上述实施例的基础上，上述的S201，根据第一风控数据样本，确定初始特征集合，包括如下步骤：

S701，对第一风控数据样本进行预处理，得到预处理后的第二风控数据样本。

在本实施例中，计算机设备在获取到第一风控数据样本之后，首先需要对第一风控数据样本进行预处理，以得到预处理后的第二风控数据样本。预处理包括筛选处理、缺失值处理、归一化处理中的至少一项。

具体地，本实施例中计算机设备先对第一风控数据样本进行筛选处理，例如剔除第一风控数据样本中影响风险类型较小的属性，或者剔除第一风控数据样本中的非数值属性，或者将第一风控数据样本中的非数值属性转化为数值属性，本实施例不做限制。

进一步地，在对第一风控数据样本进行筛选处理后，计算机设备再对第一风控数据样本进行缺失值处理，例如，计算机设备对于第一风控数据样本中缺失的属性值，利用该属性在确实时的前后两天的属性值的平均值作为该缺失的属性值；若某个属性存在大于10％的属性值，则计算机设备从第一风控数据样本中剔除该属性。

更进一步地，在对第一风控数据样本进行缺失值处理之后，计算机设备还需要对第一风控数据样本进行归一化处理，将各属性值映射在[0,1]之间，以得到第二风控数据样本，以缩小后续的数据处理量。

S702，根据第二风控数据样本的至少一个预设子周期内的各个属性的属性值，确定初始特征集合，预设子周期根据预设周期确定。

在本实施例中，计算机设备在确定第二风控数据样本之后，就能够根据第二风控数据样本的至少一个预设子周期内的各个属性的属性值，确定初始特征集合。以第一风控数据样本包括N个客户在1年内的M个属性为例，计算机设备确定预设子周期包括7天、30天、60天、90天和180天，对于各客户的各属性下在1年内的属性值，计算机设备分别计算7天均值、30天均值、60天均值、90天均值、180天均值、360天均值作为各特征值。例如，客户1的属性1的特征值1表示客户1的属性1的属性值在1年内前7天的均值，客户1的属性1的特征值2表示客户1的属性1的属性值在1年内前30天的均值。

进一步地，计算机设备就确定了初始特征合集，初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型。

本实施例中对第一风控数据样本进行预处理，得到预处理后的第二风控数据样本，进而根据第二风控数据样本的至少一个预设子周期内的各个属性的属性值，确定初始特征集合，而预设子周期是根据预设周期确定的，由于对第一风控数据样本进行预处理得到了第二风控数据样本，规范了第二风控数据样本，从而提高了确定初始特征集合的效率和准确性。

在上述实施例的基础上，计算机设备还可以获取待分类客户的风控数据，并根据待分类客户的风控数据和客户分类模型，确定所述待分类客户的风险类型。客户分类模型的输出结果为大于等于0小于等于1的数，当客户分类模型的输出结果大于等于0.5，则表示待分类客户为风险客户；若客户分类模型的输出结果小于0.5，则表示待分类客户为非风险客户。例如，计算机设备获取到客户A的风控数据，该风控数据包括客户A在7天内10个属性的属性值，计算机设备将该风控数据输入给客户分类模型，客户分类模型根据该风控数据得到输出结果0.8，即客户A为风险客户。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的客户分类模型确定方法的客户分类模型确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个客户分类模型确定装置实施例中的具体限定可以参见上文中对于客户分类模型确定方法的限定，在此不再赘述。

图8为本申请实施例中客户分类模型确定装置的结构框图，如图8所示，在本申请实施例中提供了一种客户分类模型确定装置800，包括：第一确定模块801、筛选模块802和第二确定模块803，其中：

第一确定模块801，用于根据第一风控数据样本，确定初始特征集合，第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型。

筛选模块802，用于对初始特征集合进行筛选，得到目标特征集合。

第二确定模块803，用于根据目标特征集合和初始分类模型，确定客户分类模型。

本实施例提供的客户分类模型确定装置，根据第一风控数据样本，确定初始特征集合，进而对初始特征集合进行筛选，得到目标特征集合，从而根据目标特征集合和初始分类模型，确定客户分类模型。由于第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型，并且，初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型，因此，在初始特征集合的基础上进行筛选，得到的目标特征集合就能更准确地保留到第一风控数据样本的重要特征。进而计算机设备就可以基于目标特征集合和初始分类模型，确定客户分类模型，由于客户分类模型是根据筛选后的目标特征集合确定的，因此该客户分类模型能够对客户的风险类型进行识别。进一步地，本实施例利用计算机设备确定客户分类模型，无需人工进行审核以识别风险客户，提高了识别客户的风险类型的效率，并且，由于是基于筛选后的目标特征集合确定的客户分类模型，还提高了客户分类模型的精度，从而提高了利用人工智能装置识别客户风险类型的准确性。

可选的，筛选模块802包括：

第一确定单元，用于根据初始特征集合中目标客户的目标特征值，确定第一风险类型客户的目标特征对应的第一特征值和第二风险类型客户的目标特征对应的第二特征值；第一风险类型与目标客户的风险类型相同，第二风险类型与目标客户的风险类型不同。

第二确定单元，用于根据目标特征值、第一特征值、第二特征值以及第一特征值和第二特征值的总个数，确定目标客户对应的目标特征的筛选指标值。

筛选单元，用于根据各目标客户对应的目标特征的筛选指标值，对初始特征集合进行筛选得到目标特征集合。

可选的，第二确定单元包括：

第一确定子单元，用于确定目标特征值与各第一特征值的第一差值以及目标特征值与各第二特征值的第二差值。

第二确定子单元，用于根据各第一差值、各第二差值以及总个数，确定目标客户对应的目标特征的筛选指标值。

可选的，第二确定子单元，还用于对各第一差值的平方进行求和得到第一求和结果，并对各第二差值的平方进行求和得到第二求和结果；根据第一求和结果、第二求和结果以及总个数，确定目标客户对应的目标特征的筛选指标值。

可选的，第二确定子单元，具体用于确定第二求和结果与第一求和结果的第三差值；将第三差值除以总个数得到的商值作为目标客户对应的目标特征的筛选指标值。

可选的，第一确定模块801包括：

预处理单元，用于对第一风控数据样本进行预处理，得到预处理后的第二风控数据样本。

第三确定单元，用于根据第二风控数据样本的至少一个预设子周期内的各个属性的属性值，确定初始特征集合，预设子周期根据预设周期确定。

上述客户分类模型确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

根据第一风控数据样本，确定初始特征集合，所述第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；所述初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型；

对所述初始特征集合进行筛选，得到目标特征集合；

根据所述目标特征集合和初始分类模型，确定所述客户分类模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据所述初始特征集合中目标客户的目标特征值，确定第一风险类型客户的所述目标特征对应的第一特征值和第二风险类型客户的所述目标特征对应的第二特征值；所述第一风险类型与所述目标客户的风险类型相同，所述第二风险类型与所述目标客户的风险类型不同；

根据所述目标特征值、所述第一特征值、所述第二特征值以及所述第一特征值和所述第二特征值的总个数，确定所述目标客户对应的目标特征的筛选指标值；

根据各所述目标客户对应的目标特征的筛选指标值，对所述初始特征集合进行筛选得到所述目标特征集合。

确定所述目标特征值与各所述第一特征值的第一差值以及所述目标特征值与各所述第二特征值的第二差值；

根据各所述第一差值、各所述第二差值以及所述总个数，确定所述目标客户对应的目标特征的筛选指标值。

对各所述第一差值的平方进行求和得到第一求和结果，并对各所述第二差值的平方进行求和得到第二求和结果；

根据所述第一求和结果、所述第二求和结果以及所述总个数，确定所述目标客户对应的目标特征的筛选指标值。

确定所述第二求和结果与所述第一求和结果的第三差值；

将所述第三差值除以所述总个数得到的商值作为所述目标客户对应的目标特征的筛选指标值。

对所述第一风控数据样本进行预处理，得到预处理后的第二风控数据样本；

根据所述第二风控数据样本的至少一个预设子周期内的各个属性的属性值，确定所述初始特征集合，所述预设子周期根据所述预设周期确定。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对所述初始特征集合进行筛选，得到目标特征集合；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

确定所述第二求和结果与所述第一求和结果的第三差值；

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

对所述初始特征集合进行筛选，得到目标特征集合；

确定所述第二求和结果与所述第一求和结果的第三差值；

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种客户分类模型确定方法，其特征在于，所述方法包括：

对所述初始特征集合进行筛选，得到目标特征集合；

2.根据权利要求1所述的方法，其特征在于，所述对所述初始特征集合进行筛选，得到目标特征集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标特征值、所述第一特征值、所述第二特征值以及所述第一特征值和所述第二特征值的总个数，确定所述目标客户对应的目标特征的筛选指标值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据各所述第一差值、各所述第二差值以及所述总个数，确定所述目标客户对应的目标特征的筛选指标值，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一求和结果、所述第二求和结果以及所述总个数，确定所述目标客户对应的目标特征的筛选指标值，包括：

确定所述第二求和结果与所述第一求和结果的第三差值；

6.根据权利要求1所述的方法，其特征在于，所述根据第一风控数据样本，确定初始特征集合，包括：

7.一种客户分类模型确定装置，其特征在于，所述装置包括：

第一确定模块，用于根据第一风控数据样本，确定初始特征集合，所述第一风控数据样本包括不同客户在预设周期内的各个属性的属性值以及不同客户的风险类型；所述初始特征集合包括不同客户的各个属性的多个特征值以及不同客户的风险类型；

筛选模块，用于对所述初始特征集合进行筛选，得到目标特征集合；

第二确定模块，用于根据所述目标特征集合和初始分类模型，确定所述客户分类模型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。