CN109829018A

CN109829018A - 一种基于深度学习的移动客户超细分方法

Info

Publication number: CN109829018A
Application number: CN201910078950.9A
Authority: CN
Inventors: 胡金龙; 曹丽洁; 杨疆; 黄敏杰; 雷蕾; 王睿; 苏良良; 刘南海; 冯静芳; 董守斌
Original assignee: South China University of Technology SCUT; China Mobile Group Guangxi Co Ltd
Current assignee: South China University of Technology SCUT; China Mobile Group Guangxi Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-31

Abstract

本发明公开了一种基于深度学习的移动客户超细分方法，包括步骤：S1、对移动用户的基础数据和消费行为数据进行预处理；S2、针对消费行为特征，统计第一用户集(这类移动用户拥有大于或等于t个月的消费行为数据)中每个用户的该特征的t个月数据的平均值等作为该特征的统计特征；S3、将处理后的两类特征拼接，作为特征向量；S4、构建自动编码器，获得特征向量的低维向量表示；S5、构建层次聚类模型，进行层次聚类；S6、对于第二用户集(这类移动用户拥有小于t个月的消费行为数据)，通过计算与聚类后各簇心的距离获得相应的细分类别。本发明可以对大规模移动客户数据实现快速细分，根据客户细分结果，可以针对性地进行套餐推荐等个性化服务。

Description

一种基于深度学习的移动客户超细分方法

技术领域

本发明涉及数据处理的技术领域，尤其是指一种基于深度学习的移动客户超细分方法。

背景技术

随着人民生活水平提高，移动互联网普及，移动客户的规模也在不断增大。随着移动客户群的多样化，不同客户群所需要的服务需求也不尽相同。为了能更加个性化地为用户提供服务，推送套餐等优惠信息，需要对庞大的客户群进行客户细分，分析不同客户群的消费行为特征。

移动客户发送短信、通话、使用移动流量等消费行为产生了大量消费行为数据。用户的消费行为，一定程度上体现了用户的消费习惯、消费类型偏好等，通过细分出不同的消费类型群体，可以对用户的消费行为进行挖掘。然而，传统的机器学习方法难以适应海量的高维数据。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种基于深度学习的移动客户超细分方法，可以对大规模移动客户数据实现快速细分，并且根据客户细分结果，可以针对性地进行套餐推荐等个性化服务。

为实现上述目的，本发明所提供的技术方案为：一种基于深度学习的移动客户超细分方法，包括以下步骤：

S1、收集移动用户的基础数据和消费行为数据，对数据进行预处理，其中基础数据包括性别和年龄区间；

S2、针对消费行为特征，包括“短信条数”、“通话时长”，统计第一用户集中每个用户的该特征的t个月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征；所述第一用户集为拥有大于或等于t个月的消费行为数据的移动用户；

S3、将处理后的基础特征和消费行为的统计特征拼接，作为特征向量；

S4、构建自动编码器，将特征向量输入自动编码器，获得数据的低维向量表示；

S5、构建层次聚类模型，输入低维向量表示，进行层次聚类，以实现对客户细分；当聚类效果不好时，重新训练自动编码器，获得新的向量表示，再输入层次聚类模型进行聚类；

S6、计算聚类后每个簇的簇心，获得簇心的基础特征向量和消费行为特征向量，拼接后得到拼接特征向量，输入第二用户集的基础特征向量和消费行为特征向量拼接后得到的拼接特征向量，计算该拼接特征向量与每个簇心的拼接特征向量的欧式距离，距离最近的簇心所在簇的类别即为该用户的细分类别；所述第二用户集为拥有小于t个月的消费行为数据的移动用户。

在步骤S1中，对数据进行预处理包括去除异常字段、填补缺失值和特征离散化。

所述异常字段包括取值全为0、逻辑有误的字段；用特征数据的平均值填补缺失值；将连续性特征划分区间，离散化为0，1，2。

在步骤S4中，所述自动编码器由编码器和解码器构成；所述编码器将输入数据压缩成低维特征向量，所述解码器负责将压缩的输入特征重构得到原始输入数据；所述编码器与解码器的神经网络层呈对称关系；所述自动编码器的构建过程如下：

S41、构建编码器和解码器

编码器由4层神经网络层组成，第一层输入层，神经元数量为输入向量的维度，第二层全连接层，神经元数量为512，激活函数为‘tanh’，第三层全连接层，神经元数量设为512，激活函数为‘tanh’，第四层全连接层，神经元数量设为256，激活函数为‘tanh’，中间层为表示层，神经元数量为16，激活函数为‘tanh’；解码器由4层神经网络层，每层全连接层的神经元数量分别为256、512、512，输入向量的维度，激活函数为‘tanh’；

S42、自动编码器参数初始化

神经网络层的权重采用均匀分布初始化方法，参数从[-limit,limit]的均匀分布产生，其中fan_in为权重张量的输入单元数，fan_out为权重张量的输出单元数；

S43、编译自动编码器模型

优化器采用随机梯度下降法，学习率设为0.01，支持动量参数设为0.9，损失函数采用交叉熵损失函数；

S44、训练自动编码器模型

训练模型1000轮或当损失值小于0.1时停止训练，保存模型的权重值，获得输入数据的低维向量表示。

在步骤S5中，所述层次聚类模型的构建过程如下：

S51、获取自动编码器输出的移动客户数据的低维向量表示；

S52、将每个移动客户样本作为一个单独的簇；

S53、基于两个簇所有样本数据点间的平均距离，合并两个距离最小的簇；

S54、更新客户样本的距离矩阵；

S55、重复步骤S52到S54，直到所有样本都属于同一个簇为止，最终生成一张树形图；

S56、根据生成的树形图，选择所需划分簇的个数k。

在步骤S5中，所述聚类效果的定义如下：

计算每次聚类的Calinski-Harabasz分数值，分数值越大，则聚类效果越好；Calinski-Harabasz分数值的数学计算公式如下：

式中，N为训练样本数，k为簇的个数，B_k为类别之间的协方差矩阵，W_k为类别内部数据的协方差矩阵，T_r为矩阵的迹。

在步骤S6中，所述簇心的基础特征向量通过计算该簇所有用户的各基础特征数据的平均值得到；所述簇心的消费行为特征向量通过计算该簇所有用户的各消费行为特征数据的平均值得到。

本发明与现有技术相比，具有如下优点与有益效果：

本发明针对移动客户多个月的消费行为数据构建消费行为特征，使用深度模型自动编码器对客户行为数据进行编码获得低维的向量表示，再应用层次聚类模型实现对移动客户的超细分，细分效果不好时可重新训练模型更新细分结果，从而可以快速高效地对移动客户进行超细分，获得不同客户群的消费模式等特征，对其进行个性化的移动服务。

附图说明

图1为本发明方法逻辑流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的基于深度学习的移动客户超细分方法，包括以下步骤：

第一步：收集移动用户的性别、年龄区间等基础数据和消费行为数据，对数据进行预处理；预处理包括去除异常字段、填补缺失值和特征离散化；所述异常字段包括取值全为0、逻辑有误的字段；用特征数据的平均值填补缺失值；将连续性特征划分区间，离散化为0，1，2。

第二步：针对“短信条数”、“通话时长”等消费行为特征，统计第一用户集中每个用户的该特征的t个月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征，如统计每个用户的4个月“通话时长”数据的平均值、标准差、最大值、最小值、极差作为“通话时长”的特征数据；所述第一用户集为拥有大于或等于t个月的消费行为数据的移动用户。

第三步：将处理后的基础特征和消费行为的统计特征拼接，作为特征向量。

第四步：构建自动编码器，将特征向量输入自动编码器，获得数据的低维向量表示；所述自动编码器由两部分构成：编码器和解码器；编码器将输入数据压缩成低维特征向量，解码器负责将压缩的输入特征重构得到原始输入数据。编码器与解码器的神经网络层呈对称关系。

自动编码器构建过程如下：

S41、构建编码器和解码器

编码器由4层神经网络层组成，第一层输入层，神经元数量为输入向量的维度，第二层全连接层，神经元数量为512，激活函数为‘tanh’，第三层全连接层，神经元数量设为512，激活函数为‘tanh’，第四层全连接层，神经元数量设为256，激活函数为‘tanh’，中间层为表示层，神经元数量为16，激活函数为‘tanh’；解码器由4层神经网络层，每层全连接层的神经元数量分别为256,512,512，输入向量的维度，激活函数为‘tanh’；

S42、自动编码器参数初始化

S43、编译自动编码器模型

S44、训练自动编码器模型

第五步：构建层次聚类模型，输入低维向量表示，进行层次聚类，实现对客户超细分；当聚类效果不好时，重新训练自动编码器，获得新的向量表示，再输入层次聚类模型进行聚类。

层次聚类模型构建过程如下：

S51、获取自动编码器输出的移动客户数据的低维向量表示；

S52、将每个移动客户样本作为一个单独的簇；

S54、更新客户样本的距离矩阵；

S56、根据生成的树形图，选择所需划分簇的个数k。

聚类效果的定义如下：

计算每次聚类的Calinski-Harabasz分数值，分数值越大，则聚类效果越好。Calinski-Harabasz分数值的数学计算公式如下：

式中，N为训练样本数，k为簇的个数；B_k为类别之间的协方差矩阵，W_k为类别内部数据的协方差矩阵，T_r为矩阵的迹。

第六步：计算聚类后每个簇的簇心，获得簇心的基础特征向量和消费行为特征向量，拼接后得到拼接特征向量，输入第二用户集的基础特征向量和消费行为特征向量拼接后得到的拼接特征向量，计算该拼接特征向量与每个簇心的拼接特征向量的欧式距离，距离最近的簇心所在簇的类别即为该用户的细分类别；所述第二用户集为拥有小于t个月的消费行为数据的移动用户。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的移动客户超细分方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的移动客户超细分方法，其特征在于：在步骤S1中，对数据进行预处理包括去除异常字段、填补缺失值和特征离散化。

3.根据权利要求2所述的一种基于深度学习的移动客户超细分方法，其特征在于：所述异常字段包括取值全为0、逻辑有误的字段；用特征数据的平均值填补缺失值；将连续性特征划分区间，离散化为0，1，2。

4.根据权利要求1所述的一种基于深度学习的移动客户超细分方法，其特征在于：在步骤S4中，所述自动编码器由编码器和解码器构成；所述编码器将输入数据压缩成低维特征向量，所述解码器负责将压缩的输入特征重构得到原始输入数据；所述编码器与解码器的神经网络层呈对称关系；所述自动编码器的构建过程如下：

S41、构建编码器和解码器

S42、自动编码器参数初始化

S43、编译自动编码器模型

S44、训练自动编码器模型

5.根据权利要求1所述的一种基于深度学习的移动客户超细分方法，其特征在于，在步骤S5中，所述层次聚类模型的构建过程如下：

S51、获取自动编码器输出的移动客户数据的低维向量表示；

S52、将每个移动客户样本作为一个单独的簇；

S54、更新客户样本的距离矩阵；

S56、根据生成的树形图，选择所需划分簇的个数k。

6.根据权利要求1所述的一种基于深度学习的移动客户超细分方法，其特征在于，在步骤S5中，所述聚类效果的定义如下：

7.根据权利要求1所述的一种基于深度学习的移动客户超细分方法，其特征在于：在步骤S6中，所述簇心的基础特征向量通过计算该簇所有用户的各基础特征数据的平均值得到；所述簇心的消费行为特征向量通过计算该簇所有用户的各消费行为特征数据的平均值得到。