CN107704868A

CN107704868A - 基于移动应用使用行为的用户分群聚类方法

Info

Publication number: CN107704868A
Application number: CN201710756048.9A
Authority: CN
Inventors: 马创; 张令浩; 徐光侠; 刘俊; 胡梦潇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2018-02-16
Anticipated expiration: 2037-08-29
Also published as: CN107704868B

Abstract

本发明提出一种基于移动应用使用行为的用户分群聚类方法，将SOM和Kmeans聚类算法相结合用于移动手机用户分群。该方法首先构建移动用户移动应用适用行为分析体系，将SOM和Kmeans方法相结合，对用户的移动应用上网行为进行分析，从而达到移动手机用户分群的目的。使用SOM‑Kmeans两段式聚类分析，综合了SOM算法计算简单且包容性好和Kmeans算法对数据集数量要求不高的优点，同时弥补SOM算法训练时间长，解决Kmeans算法初始值K难以确定的缺点。在以移动手机用户使用偏好矩阵为分析数据的移动手机用户聚类中，能在较短的时间内得到比较好的细分结果。

Description

基于移动应用使用行为的用户分群聚类方法

技术领域

本发明涉及移动手机用户上网行为挖掘领域，特别是涉及一种基于移动应用使用行为的用户分群聚类方法。

背景技术

随着互联网的广泛应用，特别是移动互联网、智能终端等的快速发展，人们的生活也被越来越快的数字化。各类移动应用手机的出现，手机应用越来越被移动用户所依赖，带给人们沟通便利的同时，人们使用通信网络传输的数据量也出现爆炸式增。面对着当前手机用户的不断增长和手机产生的大量数据，整个通信运营产业压力突出，移动运营商面临着数据流的附加值被互联网公司赚走的挑战。客户由于不同的兴趣爱好而表现出不同的互联网访问行为，该访问行为里面蕴含着丰富的客户信息，通过这些信息进行客户内容偏好分析，从而更好地把握客户需求，支撑和促进移动互联网业务发展。因此基于内容偏好的移动互联网上网行为已经成为一个研究的热点问题。如何利用好手中的大数据，有效地分析出移动用户的上网行为，有效地实施精确营销，成为需要面对的问题。

当前，对移动用户上网行为的分析大概有三大类：一类是基于用户上网日志和搜索关键字的挖掘，首先对用户浏览过的页面进行分词，提取页面关键字，进一步分析用户的上网偏好，形成用户的上网偏好标签，得到用户的画像，进一步对用户进行Top-N的标签进行相关内容推荐。另一类是基于形成的上网偏好标签，使用神经网络或者马克洛夫链等方法对用户未来的上网行为进行预测。还有一类是通过对用户的上网套餐，流量等信息进行挖掘，进行用户的业务套餐规划。

而针对移动用户分群的研究，大多基于用户的语音和短信信息分析，WAP 流量或浏览网页的分析，没有一种针对用户移动应用流量的分析方法。使用的方法有两种，一种使用Kmeans对用户进行聚类，另一种则使用关联分析的先关分析，通过用户之间的图方法，得到相似的用户。显然面对数据量巨大的移动应用流量这些方法并不适用。

发明内容

为克服上述问题中存在的缺陷，本发明的目的是提供一种基于移动应用使用行为的用户分群聚类方法。该方法首先构建移动用户移动应用适用行为分析体系，将SOM和Kmeans方法相结合，对用户的移动应用上网行为进行分析，从而达到移动手机用户分群的目的。

为实现本发明的上述目的，本发明提出一种基于移动应用使用行为的用户分群聚类方法，包括以下步骤：

S1：针对某一通信运行商，提取用户特征信息、用户应用使用行为信息和移动应用信息，构建移动手机用户应用使用行为分析体系。

S2：基于步骤S1所述移动手机用户应用使用行为分析体系，定义移动手机用户应用使用偏好。

S3：根据步骤S2所述移动手机用户应用使用偏好的定义，构建移动手机用户使用偏好矩阵P。

S4：将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集E输入至 SOM-Keams聚类算法中。

S5：使用SOM算法进行粗聚类，得到初步划分的群数目n，并计算每个群的群数据的平均值m；

S6：将所述群数目n赋给Kmeans算法的初始值k，挑选与每个群的群数据平均值m接近的数据点作为中心点，使用Kmeans算法进行再次聚类，最终得到用户群的划分结果，并输出。

具体地，上述用户特征信息包括脱敏后的用户编号，用户年龄(按照年龄段划分为0-17岁，18-30岁，31-45岁，46到60岁，60岁以上)，用户性别；所述用户应用使用行为信息包括应用使用次数，使用时间，使用流量(每次打开至关闭应用所产生的流量)；所述移动应用信息包括：应用名称和所属一级分类标签(如工具应用、商务应用、生活服务、通信交流、新闻资讯、娱乐休闲等)。

步骤S2中定义移动手机用户应用使用偏好的步骤如下：

令L为提取所有一级分类标签集合，L＝{l₁,l₂,l₃,...,l_t}，其中l_i∈L；A为分类标签下所有应用的集合，则该标签i下的所有应用表示为l_i＝{a_i1,a_i2,a_i3,...,a_il}；

S21：确定用户对于应用a_ij的使用次数偏好为：

其中F_ij为用户使用标签i下的第j个应用的次数，F_jk为第j个应用所属标签下第k个应用的使用次数，t标签总数，l该标签下的所有应用数；

S22：确定用户对于应用a_ij的使用时间偏好为：

其中T_ij为用户使用标签i下的第j个应用的使用时间，T_jk表示第j个应用所属标签下第k个应用的使用时间；

S23：确定用户对于应用a_ij的操作偏好为：

Taff_ij/Traff_l i＝1,2,...,t；j＝1,2,...,l

其中Taff_ij为用户使用标签i下的第j个应用的流量，Traff_l为用户使用第i个标签下所有应用的总流量；

S24：根据步骤S21，S22，S23，则用户使用应用a_ij的使用偏好为p_ij，则

以上步骤S3中移动手机用户使用偏好矩阵P为：

P＝(p_ij)_t×l(i＝1,2,...,t；j＝1,2,...,l)

其中p_ij为用户对标签i中的应用j的偏好。

步骤S5中SOM算法进行粗聚类的过程为：

S51：初始化每个节点的权值，令权值W_αβ为初始输入节点α和输出节点β之间的权值，并随机选择一个初始值赋给它，并且将循环次数设置t＝1；

S52：设定网格的新的输入模式为X_k(k＝1,2,...,p)，X_k表示第k个输入节点的输入模式，p为输入节点的个数；

S53：求所有输出节点Y_s(s＝1,2,...,q)中与X_k之间的距离，将距离最小的节点，记为e，并将其设置为获胜的节点，即||X_k-W_e||＝min(dist_sk)；W_e最小节点的权值， dist_sk分别表示第k个输入节点和第s个输出节点之间的距离；

S54：更新节点e及其邻域节点之间的权值，即W_ij(t+1)＝W_ij(t)+η(t)(X_i-W_ij(t))，其中η(t)∈(0,1)为第t次的获得的学习率，随着迭代次数的增加而减少，W_ij(t+1)为第(t+1)次学习时W_ij节点的权值，W_ij(t)为第t次学习时W_ij节点的权值、X_i表示第i个输入节点的输入模式；

S55：跳转至步骤S52重复执行，直到该网络权值稳定，网络收敛，得到粗划分簇结果UE＝{ue₁,ue₂,...,ue_n}。

进一步，Kmeans算法进行再次聚类的步骤为：

S61：计算UE中非中心点ue_x的元素和中心点ue_c的距离dist_xc，令 ue_x.cluster＝ue_c.cluster，将非中心点ue_x的元素归到最近的那个中心点的簇里，cluster 表示群组编号；

S62：非中心点初步划分簇后，划分出k个簇；

S63：计算S62中每一个簇的所有点的平均距离值av_i，将av_i的值设置成新的中心点，令该元素的中心点标示值设置为1，其余所有元素的中心点标示值全部设置为0；

S64：重复上述步骤，从而可以获得新的k个中心点集合；每个簇的平均值 av_i与中心点ue_c相等时结束。

有益效果：

目前针对移动手机用户的上网行为分析大多利用移动手机用户的URL日志和搜索关键字等指标进行分析，通过聚类算法得到用户的兴趣标签。没有进一步对用户进行分群，通过分析用户的上网行为偏好，对用户进行分群。本发明对移动手机用户应用使用行为进行分析，使用SOMKmeans两段式聚类分析，综合了SOM(Self-Organization Map自组织映射)算法计算简单且包容性好和 Kmeans算法对数据集数量要求不高的优点，同时弥补SOM算法训练时间长，解决Kmeans算法初始值K难以确定的缺点。在以移动手机用户使用偏好矩阵为分析数据的移动手机用户聚类中，能在较短的时间内得到比较好的细分结果。

附图说明

图1是本发明中基于应用使用行为挖掘的手机用户分群聚类方法示意图。

图2是本发明中构建的移动用户移动应用使用行为分析体系。

图3是本发明中对用户进行分群的SOMKmeans两段聚类分析算法流程图。

具体实施方式

下面是详细描述本发明的实施例，所属实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

图1是本发明的方法示意图。如图所示，本发明提供一种基于应用使用行为挖掘的手机用户分群聚类方法示意图。首先，对某一通信运行商，提取用户特征信息和用户应用使用行为信息，构建移动手机用户应用使用行为分析体系；然后利用体系中的属性定义移动手机用户应用使用偏好，进而得到移动手机用户使用偏好矩阵；将构建的移动手机用户使用偏好矩阵P的行向量数据集输入至SOMKeams聚类算法中；先使用SOM对输入数据粗聚类，得到初步划分的群数目n，再将初步划分的群数目n赋给Kmeans算法的初始值k，挑选与平均值m接近的数据点作为中心点，使用Kmeans算法将整个数据集进行再次划分，并通过迭代法，得到最优聚类结果，从而实现对移动用户的分类。具体步骤如下：

S2：基于S1移动手机用户应用使用行为分析体系，定义移动手机用户应用使用偏好。

S3：根据S2的移动手机用户应用使用偏好的定义，构建移动手机用户使用偏好矩阵P。

S4：将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集 E＝{e₁,e₂,...,e_n}输入SOM-Keams聚类算法。

S5：将数据集E进行第一步的粗略的分簇，使用SOM算法，得到k个粗划分簇UE＝{ue₁,ue₂,...,ue_k}，其中ue_i＝<value,cluster,center>，其中value＝e_i，e_i为偏好矩阵第i行的行向量，cluster为该value的群组编号，center表示该数据是否为数据中心，center＝1表示该数据是中心点，center＝0表示该数据不是中心点。

S6：在S5中得到的ue_i中随机选取一个center为中心点的元素作为中心，将 UE中的所有中心点都选中，得到k个中心点。

S7：计算S5中非中心点ue_x的元素和中心点ue_c的距离dist_xc，令 ue_x.cluster＝ue_c.cluster，将元素归到最近的那个中心点的簇里。

S8：非中心点初步划分簇后，划分出k个簇。

S9：计算S8中每一个簇的所有点的平均距离值av_i，将av_i的值设置成新的中心点。令该元素的center值设置为1，其余所有元素的值全部设置为0。

S10：重复S7到S9，从而可以获得新的k中心点集合。每个簇的平均值av_i与中心点ue_c相等时结束。

S11：输出用户群划分结果。

移动手机用户应用使用偏好定义如下：

设L为提取所有一级分类标签集合，L＝{l₁,l₂,l₃,...,l_t}，其中l_i∈L。设A为分类标签下所有应用的集合，则该标签i下的所有应用表示为l_i＝{a_i1,a_i2,a_i3,...,a_il}。

S21:确定用户对于应用a_ij的使用次数偏好

其中F_ij为用户使用标签i下的第j个应用的次数。

S22：确定用户对于应用a_ij的使用时间偏好

其中T_ij为用户使用标签i下的第j个应用的使用时间。

S23：确定用户对于应用a_ij的操作偏好

Taff_ij/Traff_l i＝1,2,...,t；j＝1,2,...,l

其中Taff_ij为用户使用标签i下的第j个应用的流量，Traff_l为第i个标签下所有应用的总流量。

S24：根据S21，S22，S23的定义，定义用户使用应用a_ij的使用偏好为p_ij

定义所述S3中移动手机用户使用偏好矩阵P。设矩阵P为移动手机用户使用偏好矩阵，则P＝(p_ij)_t×l(i＝1,2,...,t；j＝1,2,...,l)，其中p_ij为用户对标签i中的应用 j的偏好。

图2是本发明构建的移动用户移动应用使用行为分析体系。如图示，提取移动手机用户特征信息、移动手机用户应用使用行为偏好信息、移动应用信息构建权利要求1所述S1中的移动手机用户应用使用行为分析体系。移动手机用户特征信息包括脱敏后的用户编号，用户年龄(按照年龄段划分为0-17岁，18-30 岁，31-45岁，46到60岁，60岁以上)，用户性别。移动手机用户应用使用行为信息包括应用使用次数，使用时间，使用流量(每次打开至关闭应用所产生的流量)。移动应用信息包括：应用名称，所属一级分类标签(如工具应用、商务应用、生活服务、通信交流、新闻资讯、娱乐休闲等)。

根据我们建立的移动手机用户应用使用行为分析体系，进一步定义移动手机用户应用使用偏好，定义移动手机用户应用使用偏好，进一步得到用户使用偏好矩阵。

图3是本发明中根据用户使用偏好矩阵对用户进行分群的SOMKmean两段聚类分析算法流程图。如图所示，输入偏好矩阵P的行向量数据集，先使用SOM 对输入数据粗聚类，得到初步划分的群数目n，将初步划分的群数目n赋给 Kmeans算法的初始值k，挑选与平均值m接近的数据点作为中心点，使用 Kmeans算法将整个数据集进行再次划分，并通过迭代法，得到最优聚类结果，从而实现对移动用户的分类。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.基于移动应用使用行为的用户分群聚类方法，其特征在于，包括以下步骤：

S1：针对某一通信运行商，提取用户特征信息、用户应用使用行为信息和移动应用信息，构建移动手机用户应用使用行为分析体系；

S2：基于步骤S1所述移动手机用户应用使用行为分析体系，定义移动手机用户应用使用偏好；

S3：根据步骤S2所述移动手机用户应用使用偏好的定义，构建移动手机用户使用偏好矩阵P；

S4：将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集E输入至SOM-Keams聚类算法中；

2.根据权利要求1中所述一种基于移动应用使用行为的用户分群聚类方法，其特征在于：所述用户特征信息包括脱敏后的用户编号，用户年龄，用户性别；所述用户应用使用行为信息包括应用使用次数，使用时间，使用流量；所述移动应用信息包括：应用名称和所属一级分类标签。

3.根据权利要求1中所述一种基于移动应用使用行为的用户分群聚类方法，其特征在于：所述步骤S2中定义移动手机用户应用使用偏好的步骤如下：

S21：确定用户对于应用a_ij的使用次数偏好为：

<mrow> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>F</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>t</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>l</mi> </mrow>

S22：确定用户对于应用a_ij的使用时间偏好为：

<mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>t</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>l</mi> </mrow>

S23：确定用户对于应用a_ij的操作偏好为：

Taff_ij/Traff_l i＝1,2,...,t；j＝1,2,...,l

<mrow> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>F</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>Taff</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msub> <mi>Traff</mi> <mi>l</mi> </msub> <mo>.</mo> </mrow>

4.根据权利要求3中所述一种基于移动应用使用行为的用户分群聚类方法，其特征在于：所述步骤S3中移动手机用户使用偏好矩阵P为：

P＝(p_ij)_t×l(i＝1,2,...,t；j＝1,2,...,l)

其中p_ij为用户对标签i中的应用j的偏好。

5.根据权利要求1所述一种基于移动应用使用行为的用户分群聚类方法，其特征在于：所述步骤S5中SOM算法进行粗聚类的过程为：

S53：求所有输出节点Y_s(s＝1,2,...,q)中与X_k之间的距离，将距离最小的节点，记为e，并将其设置为获胜的节点，即||X_k-W_e||＝min(dist_sk)；W_e最小节点的权值，dist_sk表示第k个输入节点和第s个输出节点之间的距离；

6.根据权利要求5所述一种基于移动应用使用行为的用户分群聚类方法，其特征在于：所述Kmeans算法进行再次聚类的步骤为：

S61：计算UE中非中心点ue_x的元素和中心点ue_c的距离dist_xc，令ue_x.cluster＝ue_c.cluster，将非中心点ue_x的元素归到最近的那个中心点的簇里，cluster表示群组编号；

S62：非中心点初步划分簇后，划分出k个簇；

S64：重复上述步骤，从而可以获得新的k个中心点集合；每个簇的平均值av_i与中心点ue_c相等时结束。