CN114692752A

CN114692752A - 客户画像构建方法及装置、存储介质及电子设备

Info

Publication number: CN114692752A
Application number: CN202210323165.7A
Authority: CN
Inventors: 杨帆
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-01

Abstract

本发明提供了一种客户画像构建方法及装置、存储介质及电子设备，该方法包括：对每个预处理后的客户数据进行因子分析，获得因子载荷表以及每个客户的样本数据；基于各个待处理客户的样本数生成各个初始聚类中心；并基于每个待处理客户的样本数据，在各个初始聚类中心中选取出最优聚类中心；基于每个待处理客户的样本数据以及各个最优聚类中心，对各个待处理客户进行聚类，获得每个待处理客户的聚类结果，每个待处理客户的聚类结果表征待处理客户的客户类型；根据每个待处理客户的聚类结果以及因子载荷表，构建每个待处理客户的画像。应用本发明实施例提供的客户画像构建方法，能够准确构建客户画像。

Description

客户画像构建方法及装置、存储介质及电子设备

技术领域

本发明涉及数据处理技术领域，特别涉及一种客户画像构建方法及装置、存储介质及电子设备。

背景技术

近年来互联网的发展速度越来越快，这给人们的生活提供了很大的方便，让人们可以通过互联网在生活和学习中得到日常所需的知识、数据以及多样化的服务。客户画像是客户信息标签化的体现，通过客户画像分类，能够快速区分不同价值的客户，企业针对不同价值的客户制定优化的个性化服务方案，提高用户的服务满意度。

在构建客户画像时，往往需要考虑客户自身各项指标和其他一些外部影响因素，然而，由于这些客户数据通常具有高维复杂性，现有技术中，在采用这些数据进行画像构建时，会使得客户划分结果准确率较低，进而导致无法准确描述客户，并且实际上所得数据反映的信息在一定程度上存在重复和冗余。

发明内容

本发明所要解决的技术问题是提供一种客户画像构建方法，能够准确地构建客户画像。

本发明还提供了一种客户画像构建装置，用以保证上述方法在实际中的实现及应用。

一种客户画像构建方法，包括：

获取各个待处理客户的客户数据；

对每个所述待处理客户的客户数据进行预处理，并对每个预处理后的所述客户数据进行因子分析，获得因子载荷表以及每个待处理客户的样本数据；所述因子载荷表包括预处理后的客户数据中的各个变量与各个预设的因子之间的对应关系；所述样本数据包括其所属的待处理客户的预处理后的客户数据中的各个变量的变量值中的目标变量值；

基于各个所述待处理客户的样本数据生成各个初始聚类中心；并基于每个所述待处理客户的样本数据，在各个所述初始聚类中心中选取出最优聚类中心；

基于每个所述待处理客户的样本数据以及各个所述最优聚类中心，对各个所述待处理客户进行聚类，获得每个所述待处理客户的聚类结果，每个所述待处理客户的聚类结果表征所述待处理客户的客户类型；

根据每个所述待处理客户的聚类结果以及所述因子载荷表，构建每个所述待处理客户的画像。

上述的方法，可选的，所述对每个所述待处理客户的客户数据进行预处理，包括：

检测所述客户数据中是否存在异常数据；

在所述客户数据中存在异常数据的情况下，根据所述异常数据的异常类型对应的异常处理方式，对所述客户数据中的异常数据进行处理；

对处理后的客户数据中的满足预设的聚合条件的各个初始变量进行聚合，以完成对所述待处理客户的客户数据的预处理。

上述的方法，可选的，所述基于每个所述待处理客户的样本数据，在各个所述初始聚类中心中选取出最优聚类中心，包括：

根据各个所述初始聚类中心以及各个所述待处理客户的样本数据，确定搜索空间，并在所述搜索空间中初始化樽海鞘种群；

对所述初始化樽海鞘种群进行优化处理，获得目标种群；

将所述目标种群中适应度值最大的目标个体所处的位置作为当前的目标食物位置；

执行第一操作；所述第一操作，包括：确定所述目标种群中的各个目标个体中的领导者和追随者；更新所述目标种群中领到者和追随者的位置，并将更新后的目标种群中适应度值最大的目标个体所处的位置确定为备选食物位置；利用混沌优化方法对当前的所述目标食物位置和所述备选食物位置中适应度值最高的食物位置进行优化，得到第一食物位置；利用反向学习方法对所述第一食物位置进行计算，获得第二食物位置；将所述第一食物位置和所述第二食物位置中适应度值最高的食物位置，确定为新的目标食物位置；

在执行所述第一操作的次数未达到预设的次数阈值的情况下，重新执行所述第一操作，直至执行所述第一操作的次数到达所述次数阈值；

在执行所述第一操作的次数达到预设的次数阈值的情况下，将最后一次执行所述第一操作得到的新的目标食物位置所对应的各个初始聚类中心作为最优聚类中心。

上述的方法，可选的，所述对所述初始化樽海鞘种群进行优化处理，获得目标种群，包括：

利用混沌优化方法对所述初始化樽海鞘种群进行优化，获得第一种群；

根据所述初始化樽海鞘种群中每一个体的适应度值以及所述第一种群中每一个体的适应度值，在所述初始化樽海鞘种群以及所述第一种群选取出各个备选个体，以组成第二种群；

利用反向学习方法对所述第二种群进行计算，获得反向种群；

根据所述第二种群中每一个体的适应度值以及所述反向种群的适应度值，在所述第一种群和所述第二种群中选取出各个目标个体；

由各个所述目标个体组成目标种群。

上述的方法，可选的，所述构建每个所述待处理客户的画像之后，还包括：

当接收到客户画像输出指令时，对所述客户画像输出指令对应的待处理客户的画像进行输出。

一种客户画像构建装置，包括：

获取单元，用于获取各个待处理客户的客户数据；

预处理单元，用于对每个所述待处理客户的客户数据进行预处理，并对每个预处理后的所述客户数据进行因子分析，获得因子载荷表以及每个待处理客户的样本数据；所述因子载荷表包括预处理后的客户数据中的各个变量与各个预设的因子之间的对应关系；所述样本数据包括其所属的待处理客户的预处理后的客户数据中的各个变量的变量值中的目标变量值；

生成单元，用于基于各个所述待处理客户的样本数据生成各个初始聚类中心；并基于每个所述待处理客户的样本数据，在各个所述初始聚类中心中选取出最优聚类中心；

聚类单元，用于基于每个所述待处理客户的样本数据以及各个所述最优聚类中心，对各个所述待处理客户进行聚类，获得每个所述待处理客户的聚类结果，每个所述待处理客户的聚类结果表征所述待处理客户的客户类型；

构建单元，用于根据每个所述待处理客户的聚类结果以及所述因子载荷表，构建每个所述待处理客户的画像。

上述的装置，可选的，所述预处理单元，包括：

检测子单元，用于检测所述客户数据中是否存在异常数据；

处理子单元，用于在所述客户数据中存在异常数据的情况下，根据所述异常数据的异常类型对应的异常处理方式，对所述客户数据中的异常数据进行处理；

聚合子单元，用于对处理后的客户数据中的满足预设的聚合条件的各个初始变量进行聚合，以完成对所述待处理客户的客户数据的预处理。

上述的装置，可选的，所述生成单元，包括：

确定子单元，用于根据各个所述初始聚类中心以及各个所述待处理客户的样本数据，确定搜索空间，并在所述搜索空间中初始化樽海鞘种群；

优化子单元，用于对所述初始化樽海鞘种群进行优化处理，获得目标种群；

第一执行子单元，用于将所述目标种群中适应度值最大的目标个体所处的位置作为当前的目标食物位置；

第二执行子单元，用于执行第一操作；所述第一操作，包括：确定所述目标种群中的各个目标个体中的领导者和追随者；更新所述目标种群中领到者和追随者的位置，并将更新后的目标种群中适应度值最大的目标个体所处的位置确定为备选食物位置；利用混沌优化方法对当前的所述目标食物位置和所述备选食物位置中适应度值最高的食物位置进行优化，得到第一食物位置；利用反向学习方法对所述第一食物位置进行计算，获得第二食物位置；将所述第一食物位置和所述第二食物位置中适应度值最高的食物位置，确定为新的目标食物位置；

第三执行子单元，用于在执行所述第一操作的次数未达到预设的次数阈值的情况下，重新执行所述第一操作，直至执行所述第一操作的次数到达所述次数阈值；

第四执行子单元，用于在执行所述第一操作的次数达到预设的次数阈值的情况下，将最后一次执行所述第一操作得到的新的目标食物位置所对应的各个初始聚类中心作为最优聚类中心。

一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的客户画像构建方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的客户画像构建方法。

基于上述本发明实施提供的一种客户画像构建方法及装置、存储介质及电子设备，该方法包括：获取各个待处理客户的客户数据；对每个所述待处理客户的客户数据进行预处理，并对每个预处理后的所述客户数据进行因子分析，获得每个待处理客户的因子载荷表以及样本数据；所述因子载荷表包括其所属的待处理客户的预处理后的客户数据中的各个变量值在各个预设的因子上的载荷；所述样本数据包括其所属的待处理客户的预处理后的客户数据中的各个变量值中的目标变量值；基于各个所述待处理客户的样本数据以及预设的各个客户类型，生成每一所述客户类型对应的各个初始聚类中心；并基于每个所述待处理客户的样本数据，在每个所述客户类型对应的各个所述初始聚类中心中选取出每个所述客户类型对应的最优聚类中心；基于每个所述待处理客户的样本数据以及各个所述最优聚类中心，对各个所述待处理客户进行聚类，获得每个所述待处理客户的聚类结果，每个所述待处理客户的聚类结果表征所述待处理客户的客户类型；根据每个所述待处理客户的聚类结果以及因子载荷表，构建每个所述待处理客户的画像。应用本发明实施例提供的方法，能够先对聚类算法的初始聚类中心进行优化，然后根据优化后的初始聚类中心进行分类，能够提高客户类型划分的准确性，进而能够准确的构建客户画像，而且，能够通过因子分析，对客户数据进行降维，能够减少信息冗余。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种客户画像构建方法的方法流程图；

图2为本发明提供的一种对每个待处理客户的客户数据进行预处理过程的流程图；

图3为本发明提供的一种选取出每个客户类型对应的最优聚类中心过程的流程图；

图4为本发明提供的一种客户评价过程的流程图；

图5为本发明提供的一种基于改进樽海鞘群算法优化的模糊C均值聚类算法的执行流程图；

图6为本发明提供的一种聚类过程的流程图；

图7为本发明提供的一种客户画像构建装置的结构示意图；

图8为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种客户画像构建方法，该方法可以应用于电子设备，所述方法的方法流程图如图1所示，具体包括：

S101：获取各个待处理客户的客户数据。

在本实施例中，客户数据可以包括多个初始变量的变量值，初始变量可以包括客户交易笔数、交易金额、资产信息、客户号、性别等以上一种或多种。

S102：对每个所述待处理客户的客户数据进行预处理，并对每个预处理后的所述客户数据进行因子分析，获得每个待处理客户的因子载荷表以及样本数据；所述因子载荷表包括预处理后的客户数据中的各个变量与各个预设的因子的对应关系；所述样本数据包括其所属的待处理客户的预处理后的客户数据中的各个变量的变量值中的目标变量值。

在本实施例中，通过对客户数据进行预处理，具体可以执行剔除客户数据中的错误数据、补齐客户数据中的缺失数据、删除不满足分析条件的初始变量、合并相同的初始变量等其中一种或多种操作，获得预处理后的客户数据，预处理后的客户数据包含多个变量的变量值，目标变量值为目标变量的变量值，目标变量的数量可以为一个或多个。

可选的，因子可以是对预处理后的客户数据中进行因子分析所得到的，通过因子分析可以确定出每个变量值在每个因子上的载荷，每个变量值在每个因子上的载荷可以表示该变量值与该因子的关联程度，通过每个变量值与因子的关联程序确定所属的变量与因子的对应关系，一个因子可以对应多个变量，每一个变量可以与一个因子存在对应关系。

其中，可以在预处理后的客户数据中的各个变量值中选取出至少一个变量值，作为样本数据；在一些实施例中，可以根据各个变量值在各个因子上的载荷，在各个变量值中选取出目标变量值，目标变量值可以为连续型数据。

S103：基于各个所述待处理客户的样本数据生成各个初始聚类中心；并基于每个所述待处理客户的样本数据在各个所述初始聚类中心中选取出最优聚类中心。

在本实施例中，可以应用聚类算法基于各个待处理客户的样本数据生成各个初始聚类中心；该聚类算法可以是模糊C均值聚类算法，根据各个初始聚类中心迭代产生最优聚类中心。

可选的，可以应用樽海鞘算法在各个初始聚类中心中选取出预设数量的最优聚类中心，该樽海鞘算法可以是改进后的樽海鞘算法。

S104：基于每个所述待处理客户的样本数据以及各个所述最优聚类中心，对各个所述待处理客户进行聚类，获得每个所述待处理客户的聚类结果，每个所述待处理客户的聚类结果表征所述待处理客户的客户类型。

在本实施例中，可以采用模糊C均值聚类算法基于各个最优聚类中心以及每个待处理客户的样本数据，对各个待处理客户进行聚类，得到每个待处理客户的聚类结果。

可选的，根据FCM算法的目标函数来确定样本数据所属类型，具体如下：

其中，x_i是样本数据，u_ij是x_i对第j个聚类中心的隶属度；模糊因子是q；x_i到第j个聚类中心的距离为d。

S105：根据每个所述待处理客户的聚类结果以及因子载荷表，构建每个所述待处理客户的画像。

在本实施例中，待处理客户的画像可以包括待处理客户的客户类型以及每个待处理客户在每个因子所代表的属性的属性值，属性值可以基于该待处理客户的预处理后的客户数据中的变量值在该因子上的载荷确定。

应用本发明实施例提供的方法，能够先对聚类算法的初始聚类中心进行优化，然后根据优化后的初始聚类中心进行分类，能够提高客户类型划分的准确性，进而能够准确的构建客户画像，而且，能够通过因子分析，对客户数据进行降维，能够减少信息冗余。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述对每个所述待处理客户的客户数据进行预处理的过程，如图2所示，具体包括：

S201：检测所述客户数据中是否存在异常数据。

在本实施例中，该异常数据可以是存在错误、缺失和不满足分析条件的数据等其中一种或多种。

S202：在所述客户数据中存在异常数据的情况下，根据所述异常数据的异常类型对应的异常处理方式，对所述客户数据中的异常数据进行处理。

在本实施例中，对于存在错误的数据或者不满足分析条件的数据，可以对这些数据进行删除，对于存在缺失的数据，可以对该存在缺失的数据进行补齐，具体可以采用预设的字符进行补齐。

S203：对处理后的客户数据中的满足预设的聚合条件的各个初始变量进行聚合，以完成对所述待处理客户的客户数据的预处理。

在本实施例中，可以将相同或相近属性的特征变量组合放在一个变量集中，并从每个变量集中得到的最具代表性的变量，预处理后的客户数据包括各个变量的变量值。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述基于每个所述待处理客户的样本数据在各个所述初始聚类中心中选取出最优聚类中心，如图3所示，包括：

S301：根据各个所述各个初始聚类中心以及各个所述待处理客户的样本数据，确定搜索空间，并在所述搜索空间中初始化樽海鞘种群。

在本实施例中，该初始化樽海鞘种群可以是在搜索空间中随机初始化得到的樽海鞘种群，待处理客户分为N个客户类型，样本数据中的目标变量的个数为D，可以选N组向量坐标为一个解，食物由N个聚类中心代表，且维数为D，由N*D维的矩阵表示。N个D维的樽海鞘组成的种群使用随机方法生成方式为：x_ij＝l_ij+k·(u_ij-l_ij)。

其中，x_i＝(x_i1,...,x_ij,...x_iD)表示种群的个体，i＝1,2,...,N，j＝1,2,…,D，l_i＝(l_i1,…,l_ij,…l_iD)和u_i＝(u_i1,...,u_ij,...u_iD)分别代表每一个樽海鞘个体x_i的下限和上限，每个樽海鞘个体x_i的下限和上限即为搜索空间的边界，k为0到1之间的随机数。

S302：对所述初始化樽海鞘种群进行优化处理，获得目标种群。

在本实施例中，可以先利用混沌优化方法生成种群，具体方式为：x_ij＝l_ij+ch_ij·(u_ij-l_ij)，其中，ch_ij是使用表1中列出的公式构造得出的混沌映射值。

可选的，在得到利用混沌优化初始化的种群X_inic以及随机初始化的种群X_inir之后，选取两个种群中适应度值更好的个体作为优化后的种群个体形成新的种群X_i，并利用该种群进行后续反向学习的操作，对种群X_i求解反向种群X_oi，选取两个种群中更好的个体作为最终初始化完成后形成的目标种群X_i，并利用该目标种群开始算法的迭代寻优。

在一些实施例中，对初始化樽海鞘种群进行优化处理，获得目标种群的一种可行的方式为：

由各个所述目标个体组成目标种群。

S303：将所述目标种群中适应度值最大的目标个体所处的位置作为当前的目标食物位置。

在本实施例中，可以计算每个樽海鞘个体的适应度值，将适应度值中最大的樽海鞘个体的位置作为目标食物的位置X^*。

S304：执行第一操作；所述第一操作，包括：确定所述目标种群中的各个目标个体中的领导者和追随者；更新所述目标种群中领到者和追随者的位置，并将更新后的目标种群中适应度值最大的目标个体所处的位置确定为备选食物位置；利用混沌优化方法对当前的所述目标食物位置和所述备选食物位置中适应度值最高的食物位置进行优化，得到第一食物位置；利用反向学习方法对所述第一食物位置进行计算，获得第二食物位置；将所述第一食物位置和所述第二食物位置中适应度值最高的食物位置，确定为新的目标食物位置。

在本实施例中，计算目标种群个体适应度值，根据适应度值大小选出领导者和追随者，并更新他们的位置，计算更新位置后的适应度值并与当前目标食物位置适应度值做比较，选出更优的位置作为食物的新位置；利用混沌优化和反向学习生成食物的反向解

计算X^*和

的适应度值，选取更好的一个作为新的目标食物位置X^*。

S305：判断执行第一操作的次数是否达到预设的阈值；若是，执行S306，若否，则执行S304。

S306：将最后一次执行所述第一操作得到的新的目标食物位置所对应的各个初始聚类中心作为最优聚类中心。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述构建每个所述待处理客户的画像之后，还包括：

在本发明提供的一实施例中，需要构建客户的画像，可以先对客户进行分级评价，如图4所示，为本发明实施例提供的一种客户评价过程的流程图，具体如下：

可以先是对从数据源采集到的银行客户数据进行数据的预处理，剔除数据中的含缺失值与异常值的数据，另外由于客户数据的特征维数较高，利用数据的相关性特点对数据进行特征属性的降维操作。

其次，运用因子分析的方法继续对上一步骤处理后的数据进行降维，并确定因子分析后各因子所代表的评价含义。

接着针对模糊C均值聚类算法存在的初始聚类中心敏感的问题，提出一种基于改进樽海鞘群算法优化的模糊C均值聚类算法，随后利用模糊C均值聚类算法对因子分析后的数据进行聚类。

最后根据因子载荷表与聚类结果对客户进行评价和分类。

在本发明提供的一实施例中，银行客户的数据中包含了大量的客户信息，例如客户号，性别，客户资产等信息。虽然这些数据特征属性都是结构化，但仍有存在缺失和冗余等问题，将会影响最终的构建准确度，因此需要对客户数据进行预处理。具体可以先处理存在缺失值的数据。当缺失占比高于50％时，删除此特征变量，而缺失占比较低的，补全缺失值。本方法中采用均值填补法，即利用该特征变量的非空值均值进行填充。接着对样本值超过90％的变量进行删除，这些变量对客户画像的构建起到的作用微乎其微，对字符串类型数据根据具体业务含义转换成1,0等数值型数据。最后，利用变量聚类对数据进行进一步的降维，将具有相同或相近属性的特征变量组合放在一个变量集中，并从每个变量集中得到最具代表性的变量实现降维目的。

在一些实施例中，在对客户数据进行预处理后，可以对预处理后的客户数据进行因子分析，因子分析的主要目的是将相关性强的变量通过线性变换的方法缩减成为一个因子，从而达到降维的目的。银行客户数据中存在着大量的金额、交易笔数等变量，且这些特征变量的相关性往往较高，因此引入因子分析消除这些变量线性相关带来的影响，降维的同时保留具备解释性的因子。

假设X＝(X₁，X₂，...，X_n)是一个n维随机变量，X的均值向量为μ＝(μ₁，...，μ_n)^T，X的协方差矩阵为Σ，其对角线上的值

给出了X_k(k＝1,2,...,n)的方差，另F₁,...,F_m(m≤n)表示m个公共因子。ε₁，...，ε_n表示特殊因子，具体如下：

X₁-μ₁＝α₁₁F₁+α₁₂F₂+…+α_1mF_m+ε₁

X₂-μ_n＝α₂₁F₁+α₂₂F₂+…+α_2mF_m+ε₂

...

X_n-μ_n＝α_n1F₁+α_n2F₂+…+α_nmF_m+ε_n

在本实施例中，矩阵形式为：X-μ＝AF+ε，其中F＝(F₁,...,F_m)^T是m维随机向量；ε＝(ε₁,...,ε_n)^T是n维随机向量；A是因子载荷矩阵，其中k行第i列的值α_ki表示Xk在因子Fi上的载荷。通过因子分析可以得到因子载荷表与变量的对应表，从而可以确定出因子所代表的属性。

在一些实施例中，由于原始的樽海鞘群算法存在易陷入局部最优解等问题，采用反向学习与混沌优化的方法优化种群位置与食物位置，提出一种基于反向学习的混沌樽海鞘群算法(Opposition-based Chaotic Salp Swarm Algorithm,OCSSA)，使算法跳出局部最优，达到全局最优并加快算法收敛速度。混沌优化具有不重复遍历搜索区域的特点，避免算法陷入局部最优；反向学习的加入可以使算法的解有更大几率接近全局最优解，综上两点，OCSSA的算法性能相比原始的SSA算法在不同程度上都会有提高。基于此，参见图5，为本发明实施例提供的一种基于改进樽海鞘群算法优化的模糊C均值聚类算法的执行流程图，具体包括：

步骤一：初始化种群。根据定义的搜索空间的上下限，随机生成一个规模是N×D的樽海鞘种群X_ini(ini＝1,2,...,N)。

步骤二：对初始化种群进行混沌优化形成新的种群X_i(i＝1,2,...,N)。

步骤三：计算种群反向位置X_oi(i＝1,2,...,N)，对两个种群X_i和X_oi计算适应度值，选择二者中适应度值更好的作为樽海鞘个体位置，并最终形成种群X_i作为接下来迭代寻优的种群。

步骤四：计算每个樽海鞘个体的适应度值并对其按适应度值大小排序，适应度值排在首位的即为食物的位置X^*。

步骤五：计算种群个体适应度值，根据适应度值大小选出领导者和追随者，并更新他们的位置，计算更新位置后的适应度值并与当前食物位置适应度值做比较，选出更优的位置作为食物的新位置。

步骤六：利用混沌优化和反向学习生成食物的反向解

计算X^*和

的适应度值，选取更好的一个作为食物位置X^*。

步骤七：判定终止条件(最大迭代次数)是否已经满足，若已满足则执行步骤八；否则跳转至步骤五，继续进行算法的迭代寻优过程。

步骤八：输出食物位置。

在本实施例中，可以根据因子分析所得的因子进行聚类从而获得客户聚类后的结果，参见图6，为本发明实施例提供的一种聚类过程的流程图，本实施例中采用的方法是樽海鞘群算法与模糊C均值聚类算法相结合。针对FCM算法对初始聚类中心敏感的缺陷进行了优化改进。利用樽海鞘群算法中食物位置即为适应度值最优的个体位置的原理，通过算法的迭代得到模糊聚类的最优聚类中心。具体如下：

假设银行客户要分为k类，且样本数据的变量数为d，则算法编码是选取k组向量坐标作为一个解。食物的位置由k个聚类中心代表，且维数为d，由k*d维的矩阵P表示，具体如下：

其中，p₁₁,...,p_1d表示第1个类的聚类中心向量；以此类推p_k1,...,p_kd表示第k个类的聚类中心向量。

在本实施例中，可以根据FCM算法的目标函数来确定样本数据的所属类别，目标函数如下：

与图1所述的方法相对应，本发明实施例还提供了一种客户画像构建装置，用于对图1中方法的具体实现，本发明实施例提供的客户画像构建装置可以应用于电子设备中，其结构示意图如图7所示，具体包括：

获取单元701，用于获取各个待处理客户的客户数据；

预处理单元702，用于对每个所述待处理客户的客户数据进行预处理，并对每个预处理后的所述客户数据进行因子分析，获得因子载荷表以及每个待处理客户的样本数据；所述因子载荷表包括预处理后的客户数据中的各个变量与各个预设的因子之间的对应关系；所述样本数据包括其所属的待处理客户的预处理后的客户数据中的各个变量的变量值中的目标变量值；

生成单元703，用于基于各个所述待处理客户的样本数据生成各个初始聚类中心；并基于每个所述待处理客户的样本数据，在各个所述初始聚类中心中选取出最优聚类中心；

聚类单元704，用于基于每个所述待处理客户的样本数据以及各个所述最优聚类中心，对各个所述待处理客户进行聚类，获得每个所述待处理客户的聚类结果，每个所述待处理客户的聚类结果表征所述待处理客户的客户类型；

构建单元705，用于根据每个所述待处理客户的聚类结果以及所述因子载荷表，构建每个所述待处理客户的画像。

在本发明提供的一实施例中，基于上述的实施过程，可选的，所述预处理单元702，包括：

检测子单元，用于检测所述客户数据中是否存在异常数据；

在本发明提供的一实施例中，基于上述的实施过程，所述生成单元703，包括：

上述本发明实施例公开的客户画像构建装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的客户画像构建方法相同，可参见上述本发明实施例提供的客户画像构建方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述客户画像构建方法。

本发明实施例还提供了一种电子设备，其结构示意图如图8所示，具体包括存储器801，以及一个或者一个以上的指令802，其中一个或者一个以上指令802存储于存储器801中，且经配置以由一个或者一个以上处理器803执行所述一个或者一个以上指令802进行以下操作：

获取各个待处理客户的客户数据；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种客户画像构建方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种客户画像构建方法，其特征在于，包括：

获取各个待处理客户的客户数据；

2.根据权利要求1所述的方法，其特征在于，所述对每个所述待处理客户的客户数据进行预处理，包括：

检测所述客户数据中是否存在异常数据；

3.根据权利要求1所述的方法，其特征在于，所述基于每个所述待处理客户的样本数据，在各个所述初始聚类中心中选取出最优聚类中心，包括：

对所述初始化樽海鞘种群进行优化处理，获得目标种群；

4.根据权利要求3所述的方法，其特征在于，所述对所述初始化樽海鞘种群进行优化处理，获得目标种群，包括：

由各个所述目标个体组成目标种群。

5.根据权利要求1所述的方法，其特征在于，所述构建每个所述待处理客户的画像之后，还包括：

6.一种客户画像构建装置，其特征在于，包括：

获取单元，用于获取各个待处理客户的客户数据；

7.根据权利要求6所述的装置，其特征在于，所述预处理单元，包括：

检测子单元，用于检测所述客户数据中是否存在异常数据；

8.根据权利要求6所述的装置，其特征在于，所述生成单元，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～5任意一项所述的客户画像构建方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～5任意一项所述的客户画像构建方法。