CN112950225A

CN112950225A - 一种客户类别确定方法、装置及存储介质

Info

Publication number: CN112950225A
Application number: CN202110215272.3A
Authority: CN
Inventors: 陈李龙; 王娜; 强锋; 王雅欣
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-11

Abstract

本说明书实施例提供一种客户类别确定方法、装置及存储介质，可以应用于人工智能技术领域。包括：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别，以提高客户类别确定的准确性。

Description

一种客户类别确定方法、装置及存储介质

技术领域

本说明书实施例涉及人工智能技术领域，特别涉及一种客户类别确定方法、装置及存储介质。

背景技术

随着金融行业的发展，国际收支业务在金融机构所占的比重越来越大。由于该国际收支业务场景的复杂性，不良客户很难在事前发现，如果不良客户愈发严重，将会对金融机构造成不利影响，导致金融机构口碑下降，盈利减少等。随着人工智能技术的发展，应用机器学习技术进行国际收支客户分类预测是一种值得尝试的方案。

通过机器学习技术可以从大量已有样本中进行建模学习，并对未知样本进行预测，从而能够对进行国际收支客户分类预测。

但是，目前主流的机器学习方法在国际收支客户分类上仍有不足，主要有两点。第一，国际收支场景下样本的特征包含非常多的信息，比如国际贸易信息、企业信息信息和企业主信息等，现有的主流方法将这些不同类别的信息直接一起拼接成样本的特征，从而一方面导致样本的特征维度特别大，容易造成“维度灾难问题”；另一方面不同类别的特征，其特征尺度和含义往往相差较大，直接拼接在一起容易使其失去原有的物理含义，从而导致模型达不到预期效果。第二，现有的主流方法将国际收支客户分类问题视为一般的类别平衡的分类问题，实际上，在国际收支客户分类场景中，不良客户所占的比例往往很低，正负类样本数目极不平衡。如果当成类别平衡问题进行处理效果不佳，而且在该场景中，应该更加关注少数类样本，即模型应该再保证准确率的情况下，尽可能准确预测出不良样本，现有方法不能满足此要求。

发明内容

本说明书实施例的目的是提供一种客户类别确定方法、装置及存储介质，以提高客户类别确定的准确性。

为解决上述问题，本说明书实施例提供一种客户类别确定方法，所述方法包括：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。

为解决上述问题，本说明书实施例还提供一种客户类别确定装置，所述装置包括：获取模块，用于获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；划分模块，用于将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；提取模块，用于针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；拟合模块，用于基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；确定模块，用于根据各个维度下客户类别的归类条件确定目标客户的类别。

为解决上述问题，本说明书实施例还提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序以实现：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。

为解决上述问题，本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，可以获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。本说明书实施例提供的方法，将负样本进行划分，分别与正样本组合成样本子集，有利于缓解分类问题不平衡，并将不同类别的特征划分到不同的维度，充分利用不同维度的互补信息，从而提高客户类别确定的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个场景示例中分类模型的训练过程示意图；

图2为本说明书一个场景示例中分类模型的测试过程示意图；

图3为本说明书实施例一种客户类别确定方法的流程图；

图4为本说明书实施例一种电子设备的功能结构示意图；

图5为本说明书实施例一种客户类别确定装置的功能结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书提供了一个场景示例，在本场景示例中，以客户为国际收支客户为例，可以通过训练分类模型，使用分类模型对国际收支客户类别进行确定，具体的，可以确定该客户为不良客户，即产生信用问题的客户，或者确定该客户为普通客户，即为产生信用问题的客户。

在本场景示例中，分类模型的训练过程如图1所示，具体可以包括以下步骤：首先从数据仓库获取国际收支客户相关的特征信息，特征按照类别分为三个维度，分别是国际贸易维度、企业信息维度和企业主信息维度，其中，国际贸易维度包括交易总量、涉外收入、境外汇款金额及其增量、境外汇款笔数及其增量等信息，企业信息维度包括企业基本信息、日均资产及其同比、企业账户流入流出金额、笔数及其同比等，企业主信息维度包括年龄、教育程度、是否重要客户，企业主账户流入流出金额、笔数及其同比等；经过数据预处理和特征工程处理得到训练样本后，将负样本分为3分，分别与正样本组合成样本子集；其中，所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户。三个样本子集分别取国际贸易维度、企业信息维度和企业主信息维度的特征信息。在训练过程中，利用训练样本三个维度的不同特征信息，三个维度中的正样本利用本场景示例设计的维度等价约束相互优化，通过最小化模型的经验损失与维度等价约束，得到三个子分类器，并根据其对训练集中正样本的准确率计算分类器权重。最后将三个子分类器按权重投票得到最终的分类模型。

在本场景示例中，模型训练过程可以分为三个部分：数据预处理、特征工程、模型构建与训练。以下对各部分进行说明。

在本场景示例中，数据预处理部分可以包括数据选择步骤和数据预处理步骤。

所述数据选择步骤可以包括：将涉及国际收支客户分类的相关特征分为三大类：国际贸易信息、企业信息和企业主信息。按类别可确定数据范围，从而确定涉及的数据表。

所述数据预处理步骤可以包括：观察数据表中涉及国际贸易信息、企业信息和企业主信息的数据列。将不同表中涉及国际收支客户分类的相关的数据列按照客户id拼接，组成原始特征。对于数据类型不正确的列，先将其转化成正确的数据类型。对于有缺失值列，按一定方式补全，如数值特征的缺失值，用列均值补全，非数值特征的缺失值，用“unknown”补全。

在本场景示例中，特征工程部分可以包括构建国际贸易维度、构建企业信息维度、构建企业主信息维度和构造训练样本。

所述构建国际贸易维度步骤包括：国际贸易维度的基础特征可以包括交易总量、涉外收入、境外汇款金额及其增量、境外汇款笔数及其增量等信息。根据这些信息构建衍生特征，包括时间序列聚合特征和时间序列历史特征。所述时间序列聚合特征表示客户在历史时间段内的交易数据，所述时间序列历史特征表示客户在历史时间点的交易数据。

其中，时间序列聚合特征F_agg的构造方法如下：

F_agg＝[f(feature)_time,time＝1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]

特征数据f(feature)_time分别取交易数据的Mean()平均值、Max()最大值、Min()最小值、Std()标准差，时间段分别取前一个月、前两个月、前三个月、前四个月、前五个月、前六个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。

时间序列历史特征F_his的构造方式如下，

F_his＝[feature_time,time＝1,2,3,4,5,6]

时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。

所述构建企业信息维度包括：企业信息维度包括企业基本信息、日均资产及其同比、企业账户流入流出金额、笔数及其同比等信息。根据这些信息构建衍生特征，包括时间序列聚合特征和时间序列历史特征。具体的，时间序列聚合特征和时间序列历史特征构造方式与所述构建国际贸易维度步骤中时间序列聚合特征和时间序列历史特征的构造方式类似，在此不再赘述。

所述构建企业主信息维度包括：企业主信息维度包括年龄、教育程度、是否重要客户，企业主账户流入流出金额、笔数及其同比等根据这些信息构建衍生特征，包括时间序列聚合特征和时间序列历史特征。具体的，时间序列聚合特征和时间序列历史特征构造方式与所述构建国际贸易维度步骤中时间序列聚合特征和时间序列历史特征的构造方式类似，在此不再赘述。

所述构造训练样本包括：样本的标签为1(正样本)和0(负样本)分别代表不良客户和普通客户，其特征包括三个维度，分别是国际贸易维度、企业信息维度和企业主信息维度。正样本标签规则为经营快贷逾期、个人征信违约、个人贷款信用卡违约、企业贷款违约，满足一项即可。负样本为无上述情况的客户。

在本场景示例中，模型构建与训练部分可以包括以下步骤。

步骤1：将负样本划分3个部分，每个部分与正样本组合得到3个样本子集，每个样本子集区不同维度的特征。例如第一个样本子集取国际贸易维度的特征，舍弃其他维度的特征；第二个样本子集取企业信息维度的特征，舍弃其他维度的特征；第三个样本子集取企业主信息维度的特征，舍弃其他维度的特征。其中，优选的，正样本的数量为负样本数量的3倍，可以将负样本等分为3个部分，每个部分的负样本与全部的正样本进行组合，得到3个样本子集，从而使每个样本子集中负样本与正样本比例为1：1。样得到的子集刚好是正负类平衡，降低模型学习难度，有利于提高模型对正类样本的准确率和召回率。

步骤2：维度等价约束项设计。

其中R_mv表示维度等价约束项；X⁺表示正样本，

表示正样本的第i个维度，f_i表示第i个维度下的子分类器。维度等价约束项可以用于使不同维度下的子分类器对正样本的归类结果尽可能保持一致，使分类器能够充分利用不同维度间的互补信息。

步骤3：目标函数设计。

L＝R_emp+αR_mv+λR_reg

其中，L表示目标函数；R_emp表示经验损失；R_mv表示维度等价约束项；R_reg表示L2正则化损失；α和λ表示超参数，用于调整各项的权重。将公式各项展开如下：

其中，X_i表示训练样本的第i个维度，y表示训练样本的标签，W_i表示分类器f_i对应的系数。

步骤4：模型优化。具体的，可以利用梯度下降法求解目标函数的优化问题，得到不同维度下的子分类器。

步骤5：子分类器权重计算。具体的，可以根据子分类器对训练集中正样本的拟合程度计算子分类器权重。设训练集中正样本个数为N₊，子分类器f_i能正确预测的个数为N_i，子分类器f_i的权重计算方式如下，

其中，w_i表示子分类器f_i的权重。

最终得到的分类模型F(X)如下：

步骤6：模型测试。对于测试样本x，将测试样本x划分为三个维度，输入判别函数，得到模型的输出结果，结果为大于或等于0.5代表该客户为不良客户，结果小于0.5代表该客户为普通客户。

具体的，模型测试过程如图2所示。首先从数据仓库获取国际收支客户相关的特征信息，特征按照类别分为三个维度，分别是国际贸易维度、企业信息维度和企业主信息维度。然后对测试样本进行数据预处理和特征工程处理。利用待预测客户的三个维度的特征构造造测试样本。将测试样本输入分类模型，得到预测结果。

由以上本说明书场景示例提供的技术方案可见，本场景示例中，模型根据特征的类别将特征划分为国际贸易维度、企业信息维度和企业主信息维度，将不同类别的特征划分到不同的维度，在训练过程中，三个维度中的正样本利用维度等价约束相互优化，通过最小化模型的经验损失与维度等价约束，得到三个子分类器，并根据其对训练集中正样本的准确率计算分类器权重。最后将三个子分类器按权重投票得到最终的分类模型。由于训练样本中正负样本的数量极度不平衡，将负类样本分为3分，分别与正类样本组合成样本子集有利于缓解分类问题的不平衡性，在模型的训练过程中模型对正类样本的学习可以相互优化，使模型在学习的过程中更加关注正类样本，提高模型对正类样本预测的召回率，最终的模型集成三个子模型的结果能够提高模型在测试样本上的预测精度。

请参阅图3。本说明实施例提供一种客户类别确定方法。在本说明书实施例中，执行所述客户类别确定方法的主体可以是具有逻辑运算功能的电子设备，所述电子设备可以是服务器。所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然，所述服务器并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。所述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。所述方法可以包括以下步骤。

S310：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户。

在一些实施例中，所述客户可以为涉及国际收支业务的企业，例如可以为国际收支客户。

在一些实施例中，服务器可以从预设的数据仓库中获取国际收支客户的特征数据。所述特征数据可以为客户的交易数据，根据这些交易数据可以为客户建立标签，得到客户样本。其中，可以将不良客户作为正样本，将普通客户作为负样本；客户样本的标签例如可以为1(正样本)和0(负样本)分别代表不良客户和普通客户。

在一些实施例中，所述不良客户满足以下情况至少一种：经营快贷逾期、个人征信违约、个人贷款信用卡违约、企业贷款违约；所述普通客户为无上述情况的客户。通过区分不良客户和普通客户建立正负样本，可以为客户类别的确定建立前提条件，从而能够准确识别不良客户和普通客户。

S320：将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集。

在一些实施例中，可以将负样本划分为多组，每组负样本与所述正样本组合形成样本子集，得到多个样本子集。举例来说，客户样本包括负样本{x1,x2,x3,x4,x5,x6}和正样本{y1,y2,y3,y4}。可以将负样本划分为划3组，得到{x1,x2}、{x3,x4}和{x5,x6}，再将{x1,x2}、{x3,x4}和{x5,x6}分别与正样本组合，形成样本子集{x1,x2,y1,y2,y3,y4}、{x3,x4,y1,y2,y3,y4}和{x5,x6,y1,y2,y3,y4}。

在一些实施例中，所述正样本的数量与所述负样本的数量比例为3：1；相应的，将所述负样本等分为多组，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；每个样本子集中负样本与正样本比例为1：1。由于场景的特殊性，正样本(不良客户)往往较少，负样本(普通客户)往往较多。所获得的数据集往往是不平衡的，因此，优选为负样本为正样本的3倍，这样在下一步构造的样本子集正负样本比例刚好1：1。将负样本划分3个部分、分别与正样本组合得到3个样本子集，这样得到的子集刚好是正负平衡，可以降低后续拟合过程的学习难度，有利于提高拟合精度。

S330：针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量。

在一些实施例中，所述样本子集数量为三个；相应的针对不同样本子集，分别从国际贸易维度、企业信息维度和企业主信息维度提取各个样本子集中客户样本的特征向量。其中，国际贸易维度包括交易总量、涉外收入、境外汇款金额及其增量、境外汇款笔数及其增量等信息，企业信息维度包括企业基本信息、日均资产及其同比、企业账户流入流出金额、笔数及其同比等，企业主信息维度包括年龄、教育程度、是否重要客户，企业主账户流入流出金额、笔数及其同比等。

现有的方法将这些不同类别的信息直接一起拼接成样本的特征，从而一方面导致样本的特征维度特别大，容易造成“维度灾难问题”，另一方面不同类别的特征，其特征尺度和含义往往相差较大，直接拼接在一起容易使其失去原有的物理含义，从而导致客户类别的确定达不到预期效果，针对不同样本子集，分别从国际贸易维度、企业信息维度和企业主信息维度提取各个样本子集中客户样本的特征向量，使不同类别的特征划分到不同的维度，充分利用不同维度的互补信息，能够提高客户类别的确定准确性。

在一些实施例中，所述特征向量包括时间序列聚合特征和时间序列历史特征；所述时间序列聚合特征表示客户在历史时间段内的交易数据，所述时间序列历史特征表示客户在历史时间点的交易数据。具体的，因为部分和时间相关的特征(比如‘月末余额’)，对于一个客户，每个月都会有一个‘月末余额’。构建时间序列聚合特征的目的是获取该特征在过去一段时间的状态。构建时间序列历史特征的目的是获取该特征在过去某个时间点的状态。例如：‘月末余额’这个特征，构建该特征在过去1-3个月内的均值，构建该特征在过去第3个月的值。通过构建时间序列聚合特征和时间序列历史特征，能够分析客户类别为不良客户和普通客户与这些特征之间的联系，从而提高后续拟合过程的精度。

在一些实施例中，所述时间序列聚合特征提取方式包括：

F_agg＝[f(feature)_time,time＝1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]

其中，F_agg表示时间序列聚合特征，特征数据f(feature)_time分别取交易数据的平均值、最大值、最小值、标准差，时间段分别取前一个月、前两个月、前三个月、前四个月、前五个月、前六个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月；

所述时间序列历史特征提取方式包括：

F_his＝[feature_time,time＝1,2,3,4,5,6]

其中，F_his表示时间序列历史特征，特征数据f(feature)_time分别取交易数据的平均值、最大值、最小值、标准差，时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。

通过上述时间序列聚合特征和时间序列历史特征的提取方法，能够最大限度地从原始数据中提取特征以供拟合过程使用，通过取交易数据的平均值、最大值、最小值、标准差，实现了从多个不同的维度的特征提取，进一步提高后续的拟合精度。

S340：基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件。

在一些实施例中，所述目标函数至少包括维度等价约束项：

其中R_mv(X⁺)表示维度等价约束项；X⁺表示正样本，

表示正样本的第i个维度，

表示第i个维度下的归类条件。通过维度等价约束项，可以使不同维度下的归类条件对正样本的归类结果尽可能保持一致，使归类条件能够充分利用不同维度间的互补信息，从而提高归类的准确性。其中，所述归类条件即对应与上述场景示例中的子分类器。

在一些实施例中，所述目标函数包括：

L＝R_emp+αR_mv+λR_reg

其中，L表示目标函数，R_emp表示经验损失，R_mv表示维度等价约束项，R_reg表示L2正则化损失，α和λ表示超参数，用于调整各项的权重。将公式各项展开如下：

其中，X_i表示训练样本的第i个维度，y表示训练样本的标签，W_i表示归类条件f_i对应的系数。通过L2正则化损失、经验损失与维度等价约束，充分挖掘不同维度间的互补信息，且使模型更加关注正样本，使归类条件对客户的分类更加准确。

在一些实施例中，可以利用梯度下降法求解目标函数的优化问题，得到不同维度下的归类条件。

S350：根据各个维度下客户类别的归类条件确定目标客户的类别。

在一些实施例中，为进一步提高客户类别确定的准确性，还可以计算各个维度下的归类条件的权重，最终得到综合归类条件，使用综合归类条件确定目标客户的类别。具体的，所述根据各个维度下客户类别的归类条件确定目标客户的类别可以包括以下步骤。

S351：根据各个维度下正样本的拟合程度计算各个维度下客户类别的归类条件的权重。

具体的，设样本子集中正样本个数为N₊，归类条件f_i能正确预测的个数为N_i，第i个维度下的归类条件f_i的权重计算方式如下，

其中，w_i表示第i个维度下的归类条件f_i的权重。

S352：根据各个维度下客户类别的归类条件的权重生成客户类别的综合归类条件。

具体的，所述综合归类条件F(X)如下：

S353：提取目标客户各个维度下的特征向量。

具体的，可以分别从国际贸易维度、企业信息维度和企业主信息维度提取目标客户的特征向量。具体的提取方式可以参照S330，在此不再赘述。

S354：将所述目标客户各个维度下的特征向量代入所述综合归类条件，得到所述目标客户的类别。

具体的，可以根据以下方式得到所述目标客户的类别：

其中，x表示目标客户的特征向量，x_i表示第i个维度下的特征向量，结果为大于或等于0.5代表该客户为不良客户，结果小于0.5代表该客户为普通客户。当然，对于输出结果数值与客户类别的对应关系还可以根据实际情况进行设置，本说明书实施例对此不作限定。例如，结果大于或等于0.3代表该客户为不良客户，结果小于0.3代表该客户为普通客户；例如，结果大于或等于0.6代表该客户为不良客户，结果小于0.6代表该客户为普通客户。

根据各个维度下正样本的拟合程度计算各个维度下客户类别的归类条件的权重，能够准确确定各个维度在对客户类别确定中的影响程度，从而实现不同维度下归类条件的互补，进一步提高客户类别确定的准确性。

图4为本说明书实施例一种电子设备的功能结构示意图，所述电子设备可以包括存储器和处理器。

在一些实施例中，所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现客户类别确定方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据用户终端的使用所创建的数据。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(APPlication Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述处理器可以执行所述计算机指令实现以下步骤：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。

在本说明书实施例中，该电子设备具体实现的功能和效果，可以与其它实施例对照解释，在此不再赘述。

图5为本说明书实施例一种客户类别确定装置的功能结构示意图，该装置具体可以包括以下的结构模块。

获取模块510，用于获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；

划分模块520，用于将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；

提取模块530，用于针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；

拟合模块540，用于基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；

确定模块550，用于根据各个维度下客户类别的归类条件确定目标客户的类别。

本说明书实施例还提供了一种客户类别确定方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。

在本说明书实施例中，上述存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块，所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据用户终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器。在本说明书实施例中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

需要说明的是，本说明书实施例提供的客户类别确定方法、装置及存储介质，可以应用于人工智能技术领域。当然，也可以应用于金融领域，或者除金融领域之外的任意领域，本说明书实施例对所述客户类别确定方法、装置及存储介质的应用领域不做限定。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在阅读本说明书文件之后，可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合，这些组合也在本说明书公开和保护的范围内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽取数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种客户类别确定方法，其特征在于，所述方法包括：

获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；

将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；

针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；

基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；

根据各个维度下客户类别的归类条件确定目标客户的类别。

2.根据权利要求1所述的方法，其特征在于，所述不良客户满足以下情况至少一种：经营快贷逾期、个人征信违约、个人贷款信用卡违约、企业贷款违约；

所述普通客户为无上述情况的客户。

3.根据权利要求1所述的方法，其特征在于，所述正样本的数量与所述负样本的数量比例为3：1；

相应的，将所述负样本等分为多组，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；每个样本子集中负样本与正样本比例为1：1。

4.根据权利要求1所述的方法，其特征在于，所述样本子集数量为三个；

相应的针对不同样本子集，分别从国际贸易维度、企业信息维度和企业主信息维度提取各个样本子集中客户样本的特征向量。

5.根据权利要求1所述的方法，其特征在于，所述特征向量包括时间序列聚合特征和时间序列历史特征；所述时间序列聚合特征表示客户在历史时间段内的交易数据，所述时间序列历史特征表示客户在历史时间点的交易数据。

6.根据权利要求5所述的方法，其特征在于，所述时间序列聚合特征提取方式包括：

F_agg＝[f(feature)_time,time＝1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]

所述时间序列历史特征提取方式包括：

F_his＝[feature_time,time＝1,2,3,4,5,6]

7.根据权利要求1所述的方法，其特征在于，所述目标函数至少包括维度等价约束项：

其中R_mv(X⁺)表示维度等价约束项，用于使不同维度下客户类别的归类条件对正样本的归类结果保持一致；X⁺表示正样本，

表示正样本的第i个维度，

表示第i个维度下的归类条件。

8.根据权利要求1所述的方法，其特征在于，所述目标函数包括：

L＝R_emp+αR_mv+λR_reg

其中，L表示目标函数，R_emp表示经验损失，R_mv表示维度等价约束项，R_reg表示L2正则化损失，α和λ表示超参数。

9.根据权利要求1所述的方法，其特征在于，所述根据各个维度下客户类别的归类条件确定目标客户的类别包括：

根据各个维度下正样本的拟合程度计算各个维度下客户类别的归类条件的权重；

根据各个维度下客户类别的归类条件的权重生成客户类别的综合归类条件；

提取目标客户各个维度下的特征向量；

将所述目标客户各个维度下的特征向量代入所述综合归类条件，得到所述目标客户的类别。

10.一种客户类别确定装置，其特征在于，所述装置包括：

获取模块，用于获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；

划分模块，用于将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；

提取模块，用于针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；

拟合模块，用于基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；

确定模块，用于根据各个维度下客户类别的归类条件确定目标客户的类别。

11.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现：获取预设数量的客户样本；所述客户样本包括正样本和负样本；所述正样本表示客户类别为不良客户，所述负样本表示客户类别为普通客户；将所述负样本划分为多组负样本，每组负样本与所述正样本组合形成样本子集，得到多个样本子集；针对不同样本子集，从不同的维度提取各个样本子集中客户样本的特征向量；基于预设的目标函数，对各个样本子集中客户样本的特征向量和客户样本表示的客户类别进行拟合，得到各个维度下客户类别的归类条件；根据各个维度下客户类别的归类条件确定目标客户的类别。