CN107704868A - 基于移动应用使用行为的用户分群聚类方法 - Google Patents

基于移动应用使用行为的用户分群聚类方法 Download PDF

Info

Publication number
CN107704868A
CN107704868A CN201710756048.9A CN201710756048A CN107704868A CN 107704868 A CN107704868 A CN 107704868A CN 201710756048 A CN201710756048 A CN 201710756048A CN 107704868 A CN107704868 A CN 107704868A
Authority
CN
China
Prior art keywords
user
application
mobile phone
clustering
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710756048.9A
Other languages
English (en)
Other versions
CN107704868B (zh
Inventor
马创
张令浩
徐光侠
刘俊
胡梦潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710756048.9A priority Critical patent/CN107704868B/zh
Publication of CN107704868A publication Critical patent/CN107704868A/zh
Application granted granted Critical
Publication of CN107704868B publication Critical patent/CN107704868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q50/40

Abstract

本发明提出一种基于移动应用使用行为的用户分群聚类方法,将SOM和Kmeans聚类算法相结合用于移动手机用户分群。该方法首先构建移动用户移动应用适用行为分析体系,将SOM和Kmeans方法相结合,对用户的移动应用上网行为进行分析,从而达到移动手机用户分群的目的。使用SOM‑Kmeans两段式聚类分析,综合了SOM算法计算简单且包容性好和Kmeans算法对数据集数量要求不高的优点,同时弥补SOM算法训练时间长,解决Kmeans算法初始值K难以确定的缺点。在以移动手机用户使用偏好矩阵为分析数据的移动手机用户聚类中,能在较短的时间内得到比较好的细分结果。

Description

基于移动应用使用行为的用户分群聚类方法
技术领域
本发明涉及移动手机用户上网行为挖掘领域,特别是涉及一种基于移动应 用使用行为的用户分群聚类方法。
背景技术
随着互联网的广泛应用,特别是移动互联网、智能终端等的快速发展,人 们的生活也被越来越快的数字化。各类移动应用手机的出现,手机应用越来越 被移动用户所依赖,带给人们沟通便利的同时,人们使用通信网络传输的数据 量也出现爆炸式增。面对着当前手机用户的不断增长和手机产生的大量数据, 整个通信运营产业压力突出,移动运营商面临着数据流的附加值被互联网公司 赚走的挑战。客户由于不同的兴趣爱好而表现出不同的互联网访问行为,该访 问行为里面蕴含着丰富的客户信息,通过这些信息进行客户内容偏好分析,从 而更好地把握客户需求,支撑和促进移动互联网业务发展。因此基于内容偏好 的移动互联网上网行为已经成为一个研究的热点问题。如何利用好手中的大数据,有效地分析出移动用户的上网行为,有效地实施精确营销,成为需要面对 的问题。
当前,对移动用户上网行为的分析大概有三大类:一类是基于用户上网日 志和搜索关键字的挖掘,首先对用户浏览过的页面进行分词,提取页面关键字, 进一步分析用户的上网偏好,形成用户的上网偏好标签,得到用户的画像,进 一步对用户进行Top-N的标签进行相关内容推荐。另一类是基于形成的上网偏 好标签,使用神经网络或者马克洛夫链等方法对用户未来的上网行为进行预测。 还有一类是通过对用户的上网套餐,流量等信息进行挖掘,进行用户的业务套 餐规划。
而针对移动用户分群的研究,大多基于用户的语音和短信信息分析,WAP 流量或浏览网页的分析,没有一种针对用户移动应用流量的分析方法。使用的 方法有两种,一种使用Kmeans对用户进行聚类,另一种则使用关联分析的先关 分析,通过用户之间的图方法,得到相似的用户。显然面对数据量巨大的移动 应用流量这些方法并不适用。
发明内容
为克服上述问题中存在的缺陷,本发明的目的是提供一种基于移动应用使 用行为的用户分群聚类方法。该方法首先构建移动用户移动应用适用行为分析 体系,将SOM和Kmeans方法相结合,对用户的移动应用上网行为进行分析, 从而达到移动手机用户分群的目的。
为实现本发明的上述目的,本发明提出一种基于移动应用使用行为的用户 分群聚类方法,包括以下步骤:
S1:针对某一通信运行商,提取用户特征信息、用户应用使用行为信息和 移动应用信息,构建移动手机用户应用使用行为分析体系。
S2:基于步骤S1所述移动手机用户应用使用行为分析体系,定义移动手机 用户应用使用偏好。
S3:根据步骤S2所述移动手机用户应用使用偏好的定义,构建移动手机用 户使用偏好矩阵P。
S4:将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集E输入至 SOM-Keams聚类算法中。
S5:使用SOM算法进行粗聚类,得到初步划分的群数目n,并计算每个群 的群数据的平均值m;
S6:将所述群数目n赋给Kmeans算法的初始值k,挑选与每个群的群数据 平均值m接近的数据点作为中心点,使用Kmeans算法进行再次聚类,最终得 到用户群的划分结果,并输出。
具体地,上述用户特征信息包括脱敏后的用户编号,用户年龄(按照年龄 段划分为0-17岁,18-30岁,31-45岁,46到60岁,60岁以上),用户性别; 所述用户应用使用行为信息包括应用使用次数,使用时间,使用流量(每次打 开至关闭应用所产生的流量);所述移动应用信息包括:应用名称和所属一级分 类标签(如工具应用、商务应用、生活服务、通信交流、新闻资讯、娱乐休闲 等)。
步骤S2中定义移动手机用户应用使用偏好的步骤如下:
令L为提取所有一级分类标签集合,L={l1,l2,l3,...,lt},其中li∈L;A为分类 标签下所有应用的集合,则该标签i下的所有应用表示为li={ai1,ai2,ai3,...,ail};
S21:确定用户对于应用aij的使用次数偏好为:
其中Fij为用户使用标签i下的第j个应用的次数,Fjk为第j个应用所属标签 下第k个应用的使用次数,t标签总数,l该标签下的所有应用数;
S22:确定用户对于应用aij的使用时间偏好为:
其中Tij为用户使用标签i下的第j个应用的使用时间,Tjk表示第j个应用所 属标签下第k个应用的使用时间;
S23:确定用户对于应用aij的操作偏好为:
Taffij/Traffl i=1,2,...,t;j=1,2,...,l
其中Taffij为用户使用标签i下的第j个应用的流量,Traffl为用户使用第i个 标签下所有应用的总流量;
S24:根据步骤S21,S22,S23,则用户使用应用aij的使用偏好为pij,则
以上步骤S3中移动手机用户使用偏好矩阵P为:
P=(pij)t×l(i=1,2,...,t;j=1,2,...,l)
其中pij为用户对标签i中的应用j的偏好。
步骤S5中SOM算法进行粗聚类的过程为:
S51:初始化每个节点的权值,令权值Wαβ为初始输入节点α和输出节点β之 间的权值,并随机选择一个初始值赋给它,并且将循环次数设置t=1;
S52:设定网格的新的输入模式为Xk(k=1,2,...,p),Xk表示第k个输入节点 的输入模式,p为输入节点的个数;
S53:求所有输出节点Ys(s=1,2,...,q)中与Xk之间的距离,将距离最小的节点,记为e,并将其设置为获胜的节点,即||Xk-We||=min(distsk);We最小节点的权值, distsk分别表示第k个输入节点和第s个输出节点之间的距离;
S54:更新节点e及其邻域节点之间的权值,即Wij(t+1)=Wij(t)+η(t)(Xi-Wij(t)),其中η(t)∈(0,1)为第t次的获得的学习率,随着迭代次数的增加而减少,Wij(t+1)为 第(t+1)次学习时Wij节点的权值,Wij(t)为第t次学习时Wij节点的权值、Xi表示 第i个输入节点的输入模式;
S55:跳转至步骤S52重复执行,直到该网络权值稳定,网络收敛,得到粗 划分簇结果UE={ue1,ue2,...,uen}。
进一步,Kmeans算法进行再次聚类的步骤为:
S61:计算UE中非中心点uex的元素和中心点uec的距离distxc,令 uex.cluster=uec.cluster,将非中心点uex的元素归到最近的那个中心点的簇里,cluster 表示群组编号;
S62:非中心点初步划分簇后,划分出k个簇;
S63:计算S62中每一个簇的所有点的平均距离值avi,将avi的值设置成新 的中心点,令该元素的中心点标示值设置为1,其余所有元素的中心点标示值全 部设置为0;
S64:重复上述步骤,从而可以获得新的k个中心点集合;每个簇的平均值 avi与中心点uec相等时结束。
有益效果:
目前针对移动手机用户的上网行为分析大多利用移动手机用户的URL日志 和搜索关键字等指标进行分析,通过聚类算法得到用户的兴趣标签。没有进一 步对用户进行分群,通过分析用户的上网行为偏好,对用户进行分群。本发明 对移动手机用户应用使用行为进行分析,使用SOMKmeans两段式聚类分析, 综合了SOM(Self-Organization Map自组织映射)算法计算简单且包容性好和 Kmeans算法对数据集数量要求不高的优点,同时弥补SOM算法训练时间长, 解决Kmeans算法初始值K难以确定的缺点。在以移动手机用户使用偏好矩阵 为分析数据的移动手机用户聚类中,能在较短的时间内得到比较好的细分结果。
附图说明
图1是本发明中基于应用使用行为挖掘的手机用户分群聚类方法示意图。
图2是本发明中构建的移动用户移动应用使用行为分析体系。
图3是本发明中对用户进行分群的SOMKmeans两段聚类分析算法流程图。
具体实施方式
下面是详细描述本发明的实施例,所属实施例的示例在附图中示出,其中 自始至终相同或类似的标号表示相同或类似的含义。下面通过参考附图描述的 实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
图1是本发明的方法示意图。如图所示,本发明提供一种基于应用使用行 为挖掘的手机用户分群聚类方法示意图。首先,对某一通信运行商,提取用户 特征信息和用户应用使用行为信息,构建移动手机用户应用使用行为分析体系; 然后利用体系中的属性定义移动手机用户应用使用偏好,进而得到移动手机用 户使用偏好矩阵;将构建的移动手机用户使用偏好矩阵P的行向量数据集输入 至SOMKeams聚类算法中;先使用SOM对输入数据粗聚类,得到初步划分的 群数目n,再将初步划分的群数目n赋给Kmeans算法的初始值k,挑选与平均 值m接近的数据点作为中心点,使用Kmeans算法将整个数据集进行再次划分, 并通过迭代法,得到最优聚类结果,从而实现对移动用户的分类。具体步骤如 下:
S1:针对某一通信运行商,提取用户特征信息、用户应用使用行为信息和 移动应用信息,构建移动手机用户应用使用行为分析体系。
S2:基于S1移动手机用户应用使用行为分析体系,定义移动手机用户应用 使用偏好。
S3:根据S2的移动手机用户应用使用偏好的定义,构建移动手机用户使用 偏好矩阵P。
S4:将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集 E={e1,e2,...,en}输入SOM-Keams聚类算法。
S5:将数据集E进行第一步的粗略的分簇,使用SOM算法,得到k个粗划 分簇UE={ue1,ue2,...,uek},其中uei=<value,cluster,center>,其中value=ei,ei为偏好 矩阵第i行的行向量,cluster为该value的群组编号,center表示该数据是否为 数据中心,center=1表示该数据是中心点,center=0表示该数据不是中心点。
S6:在S5中得到的uei中随机选取一个center为中心点的元素作为中心,将 UE中的所有中心点都选中,得到k个中心点。
S7:计算S5中非中心点uex的元素和中心点uec的距离distxc,令 uex.cluster=uec.cluster,将元素归到最近的那个中心点的簇里。
S8:非中心点初步划分簇后,划分出k个簇。
S9:计算S8中每一个簇的所有点的平均距离值avi,将avi的值设置成新的 中心点。令该元素的center值设置为1,其余所有元素的值全部设置为0。
S10:重复S7到S9,从而可以获得新的k中心点集合。每个簇的平均值avi与中心点uec相等时结束。
S11:输出用户群划分结果。
移动手机用户应用使用偏好定义如下:
设L为提取所有一级分类标签集合,L={l1,l2,l3,...,lt},其中li∈L。设A为分 类标签下所有应用的集合,则该标签i下的所有应用表示为li={ai1,ai2,ai3,...,ail}。
S21:确定用户对于应用aij的使用次数偏好
其中Fij为用户使用标签i下的第j个应用的次数。
S22:确定用户对于应用aij的使用时间偏好
其中Tij为用户使用标签i下的第j个应用的使用时间。
S23:确定用户对于应用aij的操作偏好
Taffij/Traffl i=1,2,...,t;j=1,2,...,l
其中Taffij为用户使用标签i下的第j个应用的流量,Traffl为第i个标签下所 有应用的总流量。
S24:根据S21,S22,S23的定义,定义用户使用应用aij的使用偏好为pij
定义所述S3中移动手机用户使用偏好矩阵P。设矩阵P为移动手机用户使 用偏好矩阵,则P=(pij)t×l(i=1,2,...,t;j=1,2,...,l),其中pij为用户对标签i中的应用 j的偏好。
图2是本发明构建的移动用户移动应用使用行为分析体系。如图示,提取 移动手机用户特征信息、移动手机用户应用使用行为偏好信息、移动应用信息 构建权利要求1所述S1中的移动手机用户应用使用行为分析体系。移动手机用 户特征信息包括脱敏后的用户编号,用户年龄(按照年龄段划分为0-17岁,18-30 岁,31-45岁,46到60岁,60岁以上),用户性别。移动手机用户应用使用行 为信息包括应用使用次数,使用时间,使用流量(每次打开至关闭应用所产生 的流量)。移动应用信息包括:应用名称,所属一级分类标签(如工具应用、商 务应用、生活服务、通信交流、新闻资讯、娱乐休闲等)。
根据我们建立的移动手机用户应用使用行为分析体系,进一步定义移动手 机用户应用使用偏好,定义移动手机用户应用使用偏好,进一步得到用户使用 偏好矩阵。
图3是本发明中根据用户使用偏好矩阵对用户进行分群的SOMKmean两段 聚类分析算法流程图。如图所示,输入偏好矩阵P的行向量数据集,先使用SOM 对输入数据粗聚类,得到初步划分的群数目n,将初步划分的群数目n赋给 Kmeans算法的初始值k,挑选与平均值m接近的数据点作为中心点,使用 Kmeans算法将整个数据集进行再次划分,并通过迭代法,得到最优聚类结果, 从而实现对移动用户的分类。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.基于移动应用使用行为的用户分群聚类方法,其特征在于,包括以下步骤:
S1:针对某一通信运行商,提取用户特征信息、用户应用使用行为信息和移动应用信息,构建移动手机用户应用使用行为分析体系;
S2:基于步骤S1所述移动手机用户应用使用行为分析体系,定义移动手机用户应用使用偏好;
S3:根据步骤S2所述移动手机用户应用使用偏好的定义,构建移动手机用户使用偏好矩阵P;
S4:将S3中构建的移动手机用户使用偏好矩阵P的行向量数据集E输入至SOM-Keams聚类算法中;
S5:使用SOM算法进行粗聚类,得到初步划分的群数目n,并计算每个群的群数据的平均值m;
S6:将所述群数目n赋给Kmeans算法的初始值k,挑选与每个群的群数据平均值m接近的数据点作为中心点,使用Kmeans算法进行再次聚类,最终得到用户群的划分结果,并输出。
2.根据权利要求1中所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述用户特征信息包括脱敏后的用户编号,用户年龄,用户性别;所述用户应用使用行为信息包括应用使用次数,使用时间,使用流量;所述移动应用信息包括:应用名称和所属一级分类标签。
3.根据权利要求1中所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述步骤S2中定义移动手机用户应用使用偏好的步骤如下:
令L为提取所有一级分类标签集合,L={l1,l2,l3,...,lt},其中li∈L;A为分类标签下所有应用的集合,则该标签i下的所有应用表示为li={ai1,ai2,ai3,...,ail};
S21:确定用户对于应用aij的使用次数偏好为:
<mrow> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>F</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>t</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>l</mi> </mrow>
其中Fij为用户使用标签i下的第j个应用的次数,Fjk为第j个应用所属标签下第k个应用的使用次数,t标签总数,l该标签下的所有应用数;
S22:确定用户对于应用aij的使用时间偏好为:
<mrow> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>t</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>l</mi> </mrow>
其中Tij为用户使用标签i下的第j个应用的使用时间,Tjk表示第j个应用所属标签下第k个应用的使用时间;
S23:确定用户对于应用aij的操作偏好为:
Taffij/Traffl i=1,2,...,t;j=1,2,...,l
其中Taffij为用户使用标签i下的第j个应用的流量,Traffl为用户使用第i个标签下所有应用的总流量;
S24:根据步骤S21,S22,S23,则用户使用应用aij的使用偏好为pij,则
<mrow> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>F</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>F</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>T</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mrow> <mo>(</mo> <mo>(</mo> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>l</mi> </munderover> <msub> <mi>T</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>/</mo> <mi>l</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>Taff</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <msub> <mi>Traff</mi> <mi>l</mi> </msub> <mo>.</mo> </mrow>
4.根据权利要求3中所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述步骤S3中移动手机用户使用偏好矩阵P为:
P=(pij)t×l(i=1,2,...,t;j=1,2,...,l)
其中pij为用户对标签i中的应用j的偏好。
5.根据权利要求1所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述步骤S5中SOM算法进行粗聚类的过程为:
S51:初始化每个节点的权值,令权值Wαβ为初始输入节点α和输出节点β之间的权值,并随机选择一个初始值赋给它,并且将循环次数设置t=1;
S52:设定网格的新的输入模式为Xk(k=1,2,...,p),Xk表示第k个输入节点的输入模式,p为输入节点的个数;
S53:求所有输出节点Ys(s=1,2,...,q)中与Xk之间的距离,将距离最小的节点,记为e,并将其设置为获胜的节点,即||Xk-We||=min(distsk);We最小节点的权值,distsk表示第k个输入节点和第s个输出节点之间的距离;
S54:更新节点e及其邻域节点之间的权值,即Wij(t+1)=Wij(t)+η(t)(Xi-Wij(t)),其中η(t)∈(0,1)为第t次的获得的学习率,随着迭代次数的增加而减少,Wij(t+1)为第(t+1)次学习时Wij节点的权值,Wij(t)为第t次学习时Wij节点的权值、Xi表示第i个输入节点的输入模式;
S55:跳转至步骤S52重复执行,直到该网络权值稳定,网络收敛,得到粗划分簇结果UE={ue1,ue2,...,uen}。
6.根据权利要求5所述一种基于移动应用使用行为的用户分群聚类方法,其特征在于:所述Kmeans算法进行再次聚类的步骤为:
S61:计算UE中非中心点uex的元素和中心点uec的距离distxc,令uex.cluster=uec.cluster,将非中心点uex的元素归到最近的那个中心点的簇里,cluster表示群组编号;
S62:非中心点初步划分簇后,划分出k个簇;
S63:计算S62中每一个簇的所有点的平均距离值avi,将avi的值设置成新的中心点,令该元素的中心点标示值设置为1,其余所有元素的中心点标示值全部设置为0;
S64:重复上述步骤,从而可以获得新的k个中心点集合;每个簇的平均值avi与中心点uec相等时结束。
CN201710756048.9A 2017-08-29 2017-08-29 基于移动应用使用行为的用户分群聚类方法 Active CN107704868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710756048.9A CN107704868B (zh) 2017-08-29 2017-08-29 基于移动应用使用行为的用户分群聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710756048.9A CN107704868B (zh) 2017-08-29 2017-08-29 基于移动应用使用行为的用户分群聚类方法

Publications (2)

Publication Number Publication Date
CN107704868A true CN107704868A (zh) 2018-02-16
CN107704868B CN107704868B (zh) 2020-06-16

Family

ID=61171235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710756048.9A Active CN107704868B (zh) 2017-08-29 2017-08-29 基于移动应用使用行为的用户分群聚类方法

Country Status (1)

Country Link
CN (1) CN107704868B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830298A (zh) * 2018-05-21 2018-11-16 麒麟合盛网络技术股份有限公司 一种确定用户特征标签的方法及装置
CN109840550A (zh) * 2019-01-14 2019-06-04 华南理工大学 一种基于深度神经网络的移动用户应用偏好识别方法
CN110162993A (zh) * 2018-07-17 2019-08-23 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN110717101A (zh) * 2019-09-30 2020-01-21 上海淇玥信息技术有限公司 基于应用行为的用户分类方法、装置和电子设备
CN111881939A (zh) * 2020-06-24 2020-11-03 东南大学 一种基于聚类算法的共享单车停车区布设方法
CN113378892A (zh) * 2021-05-20 2021-09-10 南京光普信息技术有限公司 基于移动手机app使用行为数据的多序列对比分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003401A1 (en) * 2002-06-27 2004-01-01 Koninklijke Philips Electronics N.V. Method and apparatus for using cluster compactness as a measure for generation of additional clusters for stereotyping programs
CN103338223A (zh) * 2013-05-27 2013-10-02 清华大学 一种移动应用的推荐方法、客户端及服务器
CN104504149A (zh) * 2015-01-08 2015-04-08 中国联合网络通信集团有限公司 一种实现应用推荐的方法及装置
CN105335369A (zh) * 2014-06-11 2016-02-17 数伦计算机技术(上海)有限公司 计算机用户兴趣点反馈系统及反馈方法
CN105488206A (zh) * 2015-12-09 2016-04-13 扬州大学 一种基于众包的安卓应用演化推荐方法
CN106126537A (zh) * 2016-06-14 2016-11-16 中国联合网络通信集团有限公司 一种应用推荐方法及装置
CN106469181A (zh) * 2015-08-21 2017-03-01 方正国际软件(北京)有限公司 一种用户行为模式分析方法及装置
CN106776859A (zh) * 2016-11-28 2017-05-31 南京华苏科技有限公司 基于用户偏好的移动应用App推荐系统
CN107066512A (zh) * 2017-01-23 2017-08-18 重庆邮电大学 一种基于Hadoop的用户偏好评估方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003401A1 (en) * 2002-06-27 2004-01-01 Koninklijke Philips Electronics N.V. Method and apparatus for using cluster compactness as a measure for generation of additional clusters for stereotyping programs
CN103338223A (zh) * 2013-05-27 2013-10-02 清华大学 一种移动应用的推荐方法、客户端及服务器
CN105335369A (zh) * 2014-06-11 2016-02-17 数伦计算机技术(上海)有限公司 计算机用户兴趣点反馈系统及反馈方法
CN104504149A (zh) * 2015-01-08 2015-04-08 中国联合网络通信集团有限公司 一种实现应用推荐的方法及装置
CN106469181A (zh) * 2015-08-21 2017-03-01 方正国际软件(北京)有限公司 一种用户行为模式分析方法及装置
CN105488206A (zh) * 2015-12-09 2016-04-13 扬州大学 一种基于众包的安卓应用演化推荐方法
CN106126537A (zh) * 2016-06-14 2016-11-16 中国联合网络通信集团有限公司 一种应用推荐方法及装置
CN106776859A (zh) * 2016-11-28 2017-05-31 南京华苏科技有限公司 基于用户偏好的移动应用App推荐系统
CN107066512A (zh) * 2017-01-23 2017-08-18 重庆邮电大学 一种基于Hadoop的用户偏好评估方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SUELI A. MINGOTI ET AL: "Comparing SOM neural network with Fuzzy c-means,K-means and traditional hierarchical clustering algorithms", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》 *
WANG HUAI-BIN ET AL: "A clustering algorithm use SOM and K-Means in Intrusion Detection", 《2010 INTERNATIONAL CONFERENCE ON E-BUSINESS AND E-GOVERNMENT》 *
党博等: "基于评分差异度和用户偏好的协同过滤算法", 《计算机应用》 *
周欢等: "SOM+K-means两阶段聚类算法及其应用", 《现代电子技术》 *
杨占华等: "一种基于SOM和K-means的文档聚类算法", 《计算机应用研究》 *
王伟等: "协同过滤推荐算法研究:考虑在线评论情感倾向", 《系统工程理论与实践》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830298A (zh) * 2018-05-21 2018-11-16 麒麟合盛网络技术股份有限公司 一种确定用户特征标签的方法及装置
CN108830298B (zh) * 2018-05-21 2021-07-23 麒麟合盛网络技术股份有限公司 一种确定用户特征标签的方法及装置
CN110162993A (zh) * 2018-07-17 2019-08-23 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN110162993B (zh) * 2018-07-17 2024-01-05 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN109840550A (zh) * 2019-01-14 2019-06-04 华南理工大学 一种基于深度神经网络的移动用户应用偏好识别方法
CN110717101A (zh) * 2019-09-30 2020-01-21 上海淇玥信息技术有限公司 基于应用行为的用户分类方法、装置和电子设备
CN111881939A (zh) * 2020-06-24 2020-11-03 东南大学 一种基于聚类算法的共享单车停车区布设方法
CN113378892A (zh) * 2021-05-20 2021-09-10 南京光普信息技术有限公司 基于移动手机app使用行为数据的多序列对比分类方法

Also Published As

Publication number Publication date
CN107704868B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN107704868B (zh) 基于移动应用使用行为的用户分群聚类方法
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN112950231A (zh) 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
Xie et al. A survey on machine learning-based mobile big data analysis: Challenges and applications
CN109831386B (zh) 一种sdn下基于机器学习的最优路径选择算法
CN103117903B (zh) 上网流量异常检测方法及装置
WO2022257436A1 (zh) 基于无线通信网络数据仓库构建方法、系统、设备及介质
CN113379176B (zh) 电信网络异常数据检测方法、装置、设备和可读存储介质
US20170109431A1 (en) Method and apparatus for grouping network service users
CN113326377A (zh) 一种基于企业关联关系的人名消歧方法及系统
Gao et al. A deep learning framework with spatial-temporal attention mechanism for cellular traffic prediction
CN113641821B (zh) 一种社交网络中意见领袖的价值取向识别方法及系统
He et al. Network traffic prediction method based on multi-channel spatial-temporal graph convolutional networks
binti Oseman et al. Data mining in churn analysis model for telecommunication industry
KR102457359B1 (ko) 뉴럴 네트워크를 이용하는 마케팅 비용 효율 산정 방법 및 상기 마케팅 비용 효율 산정 방법을 수행하는 전자 시스템
CN115757935A (zh) 应用计算机智能的大数据推送方法及系统
CN110163249B (zh) 基于用户参数特征的基站分类识别方法及系统
Ma et al. Big data enabled anomaly user detection in mobile wireless networks
CN113918577A (zh) 数据表识别方法、装置、电子设备及存储介质
Wu et al. Link prediction based on random forest in signed social networks
CN113612777A (zh) 训练方法、流量分级方法、装置、电子设备以及存储介质
Zhang et al. Imbalanced networked multi-label classification with active learning
CN105491157A (zh) 一种基于用户协同正则化的个性化Web服务组合方法
Shen et al. Developing Machine Learning and Deep Learning Models for Customer Churn Prediction in Telecommunication Industry
CN111667028A (zh) 一种可靠负样本确定方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant