CN109829018A - 一种基于深度学习的移动客户超细分方法 - Google Patents

一种基于深度学习的移动客户超细分方法 Download PDF

Info

Publication number
CN109829018A
CN109829018A CN201910078950.9A CN201910078950A CN109829018A CN 109829018 A CN109829018 A CN 109829018A CN 201910078950 A CN201910078950 A CN 201910078950A CN 109829018 A CN109829018 A CN 109829018A
Authority
CN
China
Prior art keywords
cluster
data
vector
consumer behavior
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910078950.9A
Other languages
English (en)
Inventor
胡金龙
曹丽洁
杨疆
黄敏杰
雷蕾
王睿
苏良良
刘南海
冯静芳
董守斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
China Mobile Group Guangxi Co Ltd
Original Assignee
South China University of Technology SCUT
China Mobile Group Guangxi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, China Mobile Group Guangxi Co Ltd filed Critical South China University of Technology SCUT
Priority to CN201910078950.9A priority Critical patent/CN109829018A/zh
Publication of CN109829018A publication Critical patent/CN109829018A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的移动客户超细分方法,包括步骤:S1、对移动用户的基础数据和消费行为数据进行预处理;S2、针对消费行为特征,统计第一用户集(这类移动用户拥有大于或等于t个月的消费行为数据)中每个用户的该特征的t个月数据的平均值等作为该特征的统计特征;S3、将处理后的两类特征拼接,作为特征向量;S4、构建自动编码器,获得特征向量的低维向量表示;S5、构建层次聚类模型,进行层次聚类;S6、对于第二用户集(这类移动用户拥有小于t个月的消费行为数据),通过计算与聚类后各簇心的距离获得相应的细分类别。本发明可以对大规模移动客户数据实现快速细分,根据客户细分结果,可以针对性地进行套餐推荐等个性化服务。

Description

一种基于深度学习的移动客户超细分方法
技术领域
本发明涉及数据处理的技术领域,尤其是指一种基于深度学习的移动客户超细分方法。
背景技术
随着人民生活水平提高,移动互联网普及,移动客户的规模也在不断增大。随着移动客户群的多样化,不同客户群所需要的服务需求也不尽相同。为了能更加个性化地为用户提供服务,推送套餐等优惠信息,需要对庞大的客户群进行客户细分,分析不同客户群的消费行为特征。
移动客户发送短信、通话、使用移动流量等消费行为产生了大量消费行为数据。用户的消费行为,一定程度上体现了用户的消费习惯、消费类型偏好等,通过细分出不同的消费类型群体,可以对用户的消费行为进行挖掘。然而,传统的机器学习方法难以适应海量的高维数据。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种基于深度学习的移动客户超细分方法,可以对大规模移动客户数据实现快速细分,并且根据客户细分结果,可以针对性地进行套餐推荐等个性化服务。
为实现上述目的,本发明所提供的技术方案为:一种基于深度学习的移动客户超细分方法,包括以下步骤:
S1、收集移动用户的基础数据和消费行为数据,对数据进行预处理,其中基础数据包括性别和年龄区间;
S2、针对消费行为特征,包括“短信条数”、“通话时长”,统计第一用户集中每个用户的该特征的t个月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征;所述第一用户集为拥有大于或等于t个月的消费行为数据的移动用户;
S3、将处理后的基础特征和消费行为的统计特征拼接,作为特征向量;
S4、构建自动编码器,将特征向量输入自动编码器,获得数据的低维向量表示;
S5、构建层次聚类模型,输入低维向量表示,进行层次聚类,以实现对客户细分;当聚类效果不好时,重新训练自动编码器,获得新的向量表示,再输入层次聚类模型进行聚类;
S6、计算聚类后每个簇的簇心,获得簇心的基础特征向量和消费行为特征向量,拼接后得到拼接特征向量,输入第二用户集的基础特征向量和消费行为特征向量拼接后得到的拼接特征向量,计算该拼接特征向量与每个簇心的拼接特征向量的欧式距离,距离最近的簇心所在簇的类别即为该用户的细分类别;所述第二用户集为拥有小于t个月的消费行为数据的移动用户。
在步骤S1中,对数据进行预处理包括去除异常字段、填补缺失值和特征离散化。
所述异常字段包括取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失值;将连续性特征划分区间,离散化为0,1,2。
在步骤S4中,所述自动编码器由编码器和解码器构成;所述编码器将输入数据压缩成低维特征向量,所述解码器负责将压缩的输入特征重构得到原始输入数据;所述编码器与解码器的神经网络层呈对称关系;所述自动编码器的构建过程如下:
S41、构建编码器和解码器
编码器由4层神经网络层组成,第一层输入层,神经元数量为输入向量的维度,第二层全连接层,神经元数量为512,激活函数为‘tanh’,第三层全连接层,神经元数量设为512,激活函数为‘tanh’,第四层全连接层,神经元数量设为256,激活函数为‘tanh’,中间层为表示层,神经元数量为16,激活函数为‘tanh’;解码器由4层神经网络层,每层全连接层的神经元数量分别为256、512、512,输入向量的维度,激活函数为‘tanh’;
S42、自动编码器参数初始化
神经网络层的权重采用均匀分布初始化方法,参数从[-limit,limit]的均匀分布产生,其中fan_in为权重张量的输入单元数,fan_out为权重张量的输出单元数;
S43、编译自动编码器模型
优化器采用随机梯度下降法,学习率设为0.01,支持动量参数设为0.9,损失函数采用交叉熵损失函数;
S44、训练自动编码器模型
训练模型1000轮或当损失值小于0.1时停止训练,保存模型的权重值,获得输入数据的低维向量表示。
在步骤S5中,所述层次聚类模型的构建过程如下:
S51、获取自动编码器输出的移动客户数据的低维向量表示;
S52、将每个移动客户样本作为一个单独的簇;
S53、基于两个簇所有样本数据点间的平均距离,合并两个距离最小的簇;
S54、更新客户样本的距离矩阵;
S55、重复步骤S52到S54,直到所有样本都属于同一个簇为止,最终生成一张树形图;
S56、根据生成的树形图,选择所需划分簇的个数k。
在步骤S5中,所述聚类效果的定义如下:
计算每次聚类的Calinski-Harabasz分数值,分数值越大,则聚类效果越好;Calinski-Harabasz分数值的数学计算公式如下:
式中,N为训练样本数,k为簇的个数,Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,Tr为矩阵的迹。
在步骤S6中,所述簇心的基础特征向量通过计算该簇所有用户的各基础特征数据的平均值得到;所述簇心的消费行为特征向量通过计算该簇所有用户的各消费行为特征数据的平均值得到。
本发明与现有技术相比,具有如下优点与有益效果:
本发明针对移动客户多个月的消费行为数据构建消费行为特征,使用深度模型自动编码器对客户行为数据进行编码获得低维的向量表示,再应用层次聚类模型实现对移动客户的超细分,细分效果不好时可重新训练模型更新细分结果,从而可以快速高效地对移动客户进行超细分,获得不同客户群的消费模式等特征,对其进行个性化的移动服务。
附图说明
图1为本发明方法逻辑流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的基于深度学习的移动客户超细分方法,包括以下步骤:
第一步:收集移动用户的性别、年龄区间等基础数据和消费行为数据,对数据进行预处理;预处理包括去除异常字段、填补缺失值和特征离散化;所述异常字段包括取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失值;将连续性特征划分区间,离散化为0,1,2。
第二步:针对“短信条数”、“通话时长”等消费行为特征,统计第一用户集中每个用户的该特征的t个月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征,如统计每个用户的4个月“通话时长”数据的平均值、标准差、最大值、最小值、极差作为“通话时长”的特征数据;所述第一用户集为拥有大于或等于t个月的消费行为数据的移动用户。
第三步:将处理后的基础特征和消费行为的统计特征拼接,作为特征向量。
第四步:构建自动编码器,将特征向量输入自动编码器,获得数据的低维向量表示;所述自动编码器由两部分构成:编码器和解码器;编码器将输入数据压缩成低维特征向量,解码器负责将压缩的输入特征重构得到原始输入数据。编码器与解码器的神经网络层呈对称关系。
自动编码器构建过程如下:
S41、构建编码器和解码器
编码器由4层神经网络层组成,第一层输入层,神经元数量为输入向量的维度,第二层全连接层,神经元数量为512,激活函数为‘tanh’,第三层全连接层,神经元数量设为512,激活函数为‘tanh’,第四层全连接层,神经元数量设为256,激活函数为‘tanh’,中间层为表示层,神经元数量为16,激活函数为‘tanh’;解码器由4层神经网络层,每层全连接层的神经元数量分别为256,512,512,输入向量的维度,激活函数为‘tanh’;
S42、自动编码器参数初始化
神经网络层的权重采用均匀分布初始化方法,参数从[-limit,limit]的均匀分布产生,其中fan_in为权重张量的输入单元数,fan_out为权重张量的输出单元数;
S43、编译自动编码器模型
优化器采用随机梯度下降法,学习率设为0.01,支持动量参数设为0.9,损失函数采用交叉熵损失函数;
S44、训练自动编码器模型
训练模型1000轮或当损失值小于0.1时停止训练,保存模型的权重值,获得输入数据的低维向量表示。
第五步:构建层次聚类模型,输入低维向量表示,进行层次聚类,实现对客户超细分;当聚类效果不好时,重新训练自动编码器,获得新的向量表示,再输入层次聚类模型进行聚类。
层次聚类模型构建过程如下:
S51、获取自动编码器输出的移动客户数据的低维向量表示;
S52、将每个移动客户样本作为一个单独的簇;
S53、基于两个簇所有样本数据点间的平均距离,合并两个距离最小的簇;
S54、更新客户样本的距离矩阵;
S55、重复步骤S52到S54,直到所有样本都属于同一个簇为止,最终生成一张树形图;
S56、根据生成的树形图,选择所需划分簇的个数k。
聚类效果的定义如下:
计算每次聚类的Calinski-Harabasz分数值,分数值越大,则聚类效果越好。Calinski-Harabasz分数值的数学计算公式如下:
式中,N为训练样本数,k为簇的个数;Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,Tr为矩阵的迹。
第六步:计算聚类后每个簇的簇心,获得簇心的基础特征向量和消费行为特征向量,拼接后得到拼接特征向量,输入第二用户集的基础特征向量和消费行为特征向量拼接后得到的拼接特征向量,计算该拼接特征向量与每个簇心的拼接特征向量的欧式距离,距离最近的簇心所在簇的类别即为该用户的细分类别;所述第二用户集为拥有小于t个月的消费行为数据的移动用户。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的移动客户超细分方法,其特征在于,包括以下步骤:
S1、收集移动用户的基础数据和消费行为数据,对数据进行预处理,其中基础数据包括性别和年龄区间;
S2、针对消费行为特征,包括“短信条数”、“通话时长”,统计第一用户集中每个用户的该特征的t个月数据的平均值、标准差、最大值、最小值和极差作为该特征的统计特征;所述第一用户集为拥有大于或等于t个月的消费行为数据的移动用户;
S3、将处理后的基础特征和消费行为的统计特征拼接,作为特征向量;
S4、构建自动编码器,将特征向量输入自动编码器,获得数据的低维向量表示;
S5、构建层次聚类模型,输入低维向量表示,进行层次聚类,以实现对客户细分;当聚类效果不好时,重新训练自动编码器,获得新的向量表示,再输入层次聚类模型进行聚类;
S6、计算聚类后每个簇的簇心,获得簇心的基础特征向量和消费行为特征向量,拼接后得到拼接特征向量,输入第二用户集的基础特征向量和消费行为特征向量拼接后得到的拼接特征向量,计算该拼接特征向量与每个簇心的拼接特征向量的欧式距离,距离最近的簇心所在簇的类别即为该用户的细分类别;所述第二用户集为拥有小于t个月的消费行为数据的移动用户。
2.根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于:在步骤S1中,对数据进行预处理包括去除异常字段、填补缺失值和特征离散化。
3.根据权利要求2所述的一种基于深度学习的移动客户超细分方法,其特征在于:所述异常字段包括取值全为0、逻辑有误的字段;用特征数据的平均值填补缺失值;将连续性特征划分区间,离散化为0,1,2。
4.根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于:在步骤S4中,所述自动编码器由编码器和解码器构成;所述编码器将输入数据压缩成低维特征向量,所述解码器负责将压缩的输入特征重构得到原始输入数据;所述编码器与解码器的神经网络层呈对称关系;所述自动编码器的构建过程如下:
S41、构建编码器和解码器
编码器由4层神经网络层组成,第一层输入层,神经元数量为输入向量的维度,第二层全连接层,神经元数量为512,激活函数为‘tanh’,第三层全连接层,神经元数量设为512,激活函数为‘tanh’,第四层全连接层,神经元数量设为256,激活函数为‘tanh’,中间层为表示层,神经元数量为16,激活函数为‘tanh’;解码器由4层神经网络层,每层全连接层的神经元数量分别为256、512、512,输入向量的维度,激活函数为‘tanh’;
S42、自动编码器参数初始化
神经网络层的权重采用均匀分布初始化方法,参数从[-limit,limit]的均匀分布产生,其中fan_in为权重张量的输入单元数,fan_out为权重张量的输出单元数;
S43、编译自动编码器模型
优化器采用随机梯度下降法,学习率设为0.01,支持动量参数设为0.9,损失函数采用交叉熵损失函数;
S44、训练自动编码器模型
训练模型1000轮或当损失值小于0.1时停止训练,保存模型的权重值,获得输入数据的低维向量表示。
5.根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于,在步骤S5中,所述层次聚类模型的构建过程如下:
S51、获取自动编码器输出的移动客户数据的低维向量表示;
S52、将每个移动客户样本作为一个单独的簇;
S53、基于两个簇所有样本数据点间的平均距离,合并两个距离最小的簇;
S54、更新客户样本的距离矩阵;
S55、重复步骤S52到S54,直到所有样本都属于同一个簇为止,最终生成一张树形图;
S56、根据生成的树形图,选择所需划分簇的个数k。
6.根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于,在步骤S5中,所述聚类效果的定义如下:
计算每次聚类的Calinski-Harabasz分数值,分数值越大,则聚类效果越好;Calinski-Harabasz分数值的数学计算公式如下:
式中,N为训练样本数,k为簇的个数,Bk为类别之间的协方差矩阵,Wk为类别内部数据的协方差矩阵,Tr为矩阵的迹。
7.根据权利要求1所述的一种基于深度学习的移动客户超细分方法,其特征在于:在步骤S6中,所述簇心的基础特征向量通过计算该簇所有用户的各基础特征数据的平均值得到;所述簇心的消费行为特征向量通过计算该簇所有用户的各消费行为特征数据的平均值得到。
CN201910078950.9A 2019-01-28 2019-01-28 一种基于深度学习的移动客户超细分方法 Pending CN109829018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910078950.9A CN109829018A (zh) 2019-01-28 2019-01-28 一种基于深度学习的移动客户超细分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910078950.9A CN109829018A (zh) 2019-01-28 2019-01-28 一种基于深度学习的移动客户超细分方法

Publications (1)

Publication Number Publication Date
CN109829018A true CN109829018A (zh) 2019-05-31

Family

ID=66862599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910078950.9A Pending CN109829018A (zh) 2019-01-28 2019-01-28 一种基于深度学习的移动客户超细分方法

Country Status (1)

Country Link
CN (1) CN109829018A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458190A (zh) * 2019-07-04 2019-11-15 平安科技(深圳)有限公司 人群特征分类方法、装置、计算机设备和可读存储介质
CN110751513A (zh) * 2019-10-10 2020-02-04 深圳市云积分科技有限公司 一种智能运营平台的数据处理方法和装置
CN111640483A (zh) * 2020-06-09 2020-09-08 南京邮电大学 基于akc模型的健身方案推荐方法
CN111915418A (zh) * 2020-05-25 2020-11-10 百维金科(上海)信息科技有限公司 一种互联网金融欺诈行为在线检测方法及其装置
CN113128572A (zh) * 2021-03-30 2021-07-16 西安理工大学 基于概率分布的运动处方有效性范围计算方法
CN114118180A (zh) * 2021-04-02 2022-03-01 京东科技控股股份有限公司 聚类方法、装置、电子设备及存储介质
CN114202350A (zh) * 2020-08-31 2022-03-18 中移动信息技术有限公司 用户消费行为分类方法、装置、设备及计算机存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734217A (zh) * 2018-05-22 2018-11-02 齐鲁工业大学 一种基于聚类分析的客户细分方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734217A (zh) * 2018-05-22 2018-11-02 齐鲁工业大学 一种基于聚类分析的客户细分方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CURLY_D: "《AutoEncoder自动编码器》", 《HTTPS://BLOG.CSDN.NET/CURLY_D/ARTICLE/DETAILS/78169472》 *
科技老丁哥: "《机器学习023-使用层次聚类算法构建模型_【科技老丁哥】的博客-CSDN博客_层次聚类模型保存》", 《HTTPS://BLOG.CSDN.NET/DINGUSTB/CATEGORY_9278823.HTML》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458190A (zh) * 2019-07-04 2019-11-15 平安科技(深圳)有限公司 人群特征分类方法、装置、计算机设备和可读存储介质
CN110751513A (zh) * 2019-10-10 2020-02-04 深圳市云积分科技有限公司 一种智能运营平台的数据处理方法和装置
CN111915418A (zh) * 2020-05-25 2020-11-10 百维金科(上海)信息科技有限公司 一种互联网金融欺诈行为在线检测方法及其装置
CN111640483A (zh) * 2020-06-09 2020-09-08 南京邮电大学 基于akc模型的健身方案推荐方法
CN111640483B (zh) * 2020-06-09 2022-10-28 南京邮电大学 基于akc模型的健身方案推荐方法
CN114202350A (zh) * 2020-08-31 2022-03-18 中移动信息技术有限公司 用户消费行为分类方法、装置、设备及计算机存储介质
CN113128572A (zh) * 2021-03-30 2021-07-16 西安理工大学 基于概率分布的运动处方有效性范围计算方法
CN113128572B (zh) * 2021-03-30 2024-03-19 西安理工大学 基于概率分布的运动处方有效性范围计算方法
CN114118180A (zh) * 2021-04-02 2022-03-01 京东科技控股股份有限公司 聚类方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109829018A (zh) 一种基于深度学习的移动客户超细分方法
Gao et al. The deep features and attention mechanism-based method to dish healthcare under social IoT systems: An empirical study with a hand-deep local–global net
CN109657156A (zh) 一种基于循环生成对抗网络的个性化推荐方法
CN107423442A (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN101853295B (zh) 一种图像检索方法
CN109960759A (zh) 基于深度神经网络的推荐系统点击率预测方法
CN108961245A (zh) 基于双通道深度并行卷积网络的图像质量分类方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN109615582A (zh) 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
CN112765480B (zh) 一种信息推送方法、装置及计算机可读存储介质
CN108681970A (zh) 基于大数据的理财产品推送方法、系统及计算机存储介质
CN107609147A (zh) 一种从日志流中自动提取特征的方法和系统
CN103942571A (zh) 一种基于遗传规划算法的图形图像分类方法
Meng et al. Feature adaptive co-segmentation by complexity awareness
CN109063719A (zh) 一种联合结构相似性和类信息的图像分类方法
CN115131698B (zh) 视频属性确定方法、装置、设备及存储介质
CN107480688A (zh) 基于零样本学习的细粒度图像识别方法
CN107729377A (zh) 基于数据挖掘的顾客分类方法与系统
CN110096587A (zh) 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
CN109254909A (zh) 一种测试用大图生成方法和系统
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN110991317A (zh) 一种基于多尺度透视感知型网络的人群计数方法
CN109360191A (zh) 一种基于变分自编码器的图像显著性检测方法
CN117436679A (zh) 一种元宇宙资源匹配方法及其系统
CN110400307A (zh) 一种基于区域差异的屏幕图像质量评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190531

RJ01 Rejection of invention patent application after publication