CN105873119A

CN105873119A - 一种移动网络用户群体流量使用行为的分类方法

Info

Publication number: CN105873119A
Application number: CN201610355547.2A
Authority: CN
Inventors: 贾云健; 贾科松; 万贝利; 梁靓; 吴玉成; 马慧
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2016-05-26
Filing date: 2016-05-26
Publication date: 2016-08-17

Abstract

本发明涉及一种移动网络用户群体流量使用行为的分类方法，属于移动通信技术领域。该方法重点考虑多个因素对用户流量使用行为的影响，并从多维度的角度出发，对用户流量使用行为进行考察；针对不同维度对用户流量使用行为的影响，本方法首先针对考虑因素对用户流量使用行为产生的影响程度对所考虑因素的等级进行划分；当完成各维度所考虑因素的程度划分后，对用户行为类别进行预分类；然后基于所有维度的考虑，对用户群体进行聚类，并计算每个聚类集合分别包含用户类别的占比，从而得到移动网络用户流量使用行为的分类。该方法能够有效完成移动网络用户流量使用行为的分类，并为流量营销价值的提升以及移动用户网络资源的配置提供理论依据。

Description

一种移动网络用户群体流量使用行为的分类方法

技术领域

本发明属于移动通信技术领域，涉及一种移动网络用户群体流量使用行为的分类方法。

背景技术

随着移动互联网、社交网络、电子商务等应用的日益发展，一个数据爆炸性增长的“大数据”时代正在影响着我们。随着海量数据时代的到来，很多行业几乎到了“数据就是业务本身”的境地，数据的重要性、可用性越来越被重视。“大数据”甚至被视为“未来的新石油”。但是大数据这不是仅掌握海量数据信息，而是要将掌握的数据信息进行专业分析和处理，通过“深加工”使原始数据增值、可利用。同样，大数据时代对电信运营商的数据驾驭能力提出了新的挑战与机遇。

随着移动通信网络的发展，运营商语音、短信这些常规业务收入不断下降，流量业务已经逐步成为电信运营商收入的主要来源。但是，电信运营商的流量业务的经营却越来越困难：首先，多样化业务消耗的网络资源与流量增长之间矛盾日益突出；其次，随着行业的竞争更为深刻，用户的感知能够更多的影响一个企业的发展前景，因此用户体验在行业竞争中越来越重要。为了保证网络的有效管理以及用户体验的提升，迫切需要有效的方法对移动网络用户流量使用行为模型进行深入的分析，为运营商进行数据流量经营提供更多的辅助信息。

随着网络用户流量使用行为呈现多样性和复杂性，用户对于高速无线数据传输的需求越来越大，因而所需的频谱资源也越来越多。但是可利用的频谱资源毕竟有限，于是如何提高频谱资源的频带利用率以提高无线数据传输速率成为行内人士研究的热门问题。除了加快5G的研究步伐外，整合现有网络，组成异构网络，实现多种网络优势互补，提升网络服务能力和用户服务体验，成了如今的研究重心之一。

因此，对于移动网络用户流量使用行为进行分析，对流量营销价值的提升以及移动用户网络资源的配置具有重要意义。

发明内容

有鉴于此，本发明的目的在于提供一种移动网络用户群体流量使用行为的分类方法，该方法重点考虑多个因素对用户流量使用行为的影响，并从多维度的角度出发，对用户流量使用行为模型进行考察。

为达到上述目的，本发明提供如下技术方案：

一种移动网络用户群体流量使用行为的分类方法，在该方法中，将用户数据流量、用户使用业务类型、用户移动性因素相结合，从多个维度对用户群体上网行为特征进行分析，进而得出用户流量使用行为模型；具体包括以下步骤：

S1：首先根据考虑因素对用户流量使用行为产生的影响程度，对所考虑因素的等级进行划分，所述考虑因素包括数据流量、用户使用业务类型、用户移动性；

S2：当完成各维度所考虑因素的程度划分后，对用户行为类别进行预分类；

S3：然后基于所有维度的考虑，对用户群体进行聚类，并计算每个聚类集合分别包含用户类别的占比，从而得到移动网络用户流量使用行为的分类。

进一步，在步骤S2中，将用户类别预分为九类,：A、即时通信低流量用户(包括沉默用户)；B、即时通信中流量用户；C、即时通信高流量用户；D、网页搜索低流量用户(包括沉默用户)；E、网页搜索中流量用户；F、网页搜索高流量用户；G、视频类低流量用户(包括沉默用户)；H、视频类中流量用户；I:视频类高流量用户。

进一步，在步骤S3中，将聚类分为粗聚类和细聚类两个层面进行：先使用减法聚类算法快速寻找聚类中心的个数；然后使用模糊C-均值聚类算法完成聚类参与点的划分；具体包括以下步骤：

1)计算每个数据点的密度，得到密度指标：

其中

其中τ₁表示该点以距离的形式影响的范围，越大则管的范围越大，越小则越集中，分的类越多；

2)找到密度指标最大的数据作为第一个聚类中心，之后除去这个点的密度，再计算所有点的密度指标：其中τ₂表示表示该点以距离的形式影响的范围，与τ₁的区别在于τ₂考虑的是权重影响的范围，若很小，则容易重合聚类，即在原聚类中心又找了一个类中心，因此τ₂一般要大于τ₁；

3)再找到最大的密度指标，并把此点作为聚类中心，依次循环，直到：

\frac{M_{k - 1}^{*}}{M_{1}^{*}} < δ

4)当某次的密度指标的最大值与第一次的比值小于某一个数δ，则迭代停止；

5)确定聚类数C(已求得)，初始化隶属度矩阵P⁽⁰⁾，p_ij∈{0,1}，置迭代次数t＝0；

6)计算聚类中心如下：

q_{i}^{(t)} = \frac{Σ_{j = 1}^{n} p_{i j}^{(t)} w_{j}}{Σ_{j = 1}^{n} p_{i j}^{(t)}}

7)对于第t步，修改隶属度矩阵P^(t)如下：

p_{i j}^{(t + 1)} = \{\begin{matrix} 1 & d_{i j}^{(t)} = m i n {d_{i j}^{(t)}}, &ForAll; i &Element; c \\ 0 & o t h e r \end{matrix}

8)若||P^(h+1)-P^(h)||≥σ，则进入下一步，否则置t＝t+1并转步骤6)；

9)选择常数σ>0，置迭代次数h＝0，以步骤8)的结果作为FCM算法的初始聚类中心Q⁽⁰⁾；

10)根据Q^(h)按下式计算隶属度矩阵P^(h)：

p_{i j}^{(t + 1)} = {[Σ_{k = 1}^{C} {(\frac{d_{i j}^{(t)}}{d_{k j}^{(t)}})}^{2 / (m - 1)}]}^{- 1}

11)按下式进一步调整类别中心Q^(h+1)：

q_{i}^{(t)} = \frac{Σ_{j = 1}^{n} {(p_{i j}^{(t)})}^{m} w_{j}}{Σ_{j = 1}^{n} {(p_{i j}^{(t)})}^{m}}

12)若||P^(h+1)-P^(h)||≤σ，则算法结束，输出聚类的中心和隶属度矩阵P；否则，置h＝h+1，返回10)；由计算得到的隶属度矩阵P就可以确定每一个数据点分别对各个聚类的隶属度，其中隶属度最大的聚类即为该数据点所属的聚类。

本发明的有益效果在于：本发明重点考虑多个因素对用户流量使用行为的影响，并从多维度的角度出发，对用户流量使用行为进行考察。针对不同维度对用户流量使用行为的影响，本发明首先针对考虑因素对用户流量使用行为产生的影响程度对所考虑因素的等级进行划分；当完成各维度所考虑因素的程度划分后，对用户行为类别进行预分类；然后基于所有维度的考虑，对用户群体进行聚类，并计算每个聚类集合分别包含用户类别的占比，从而得到移动网络用户流量使用行为的分类。该方法能够有效完成移动网络用户流量使用行为的分类，并为流量营销价值的提升以及移动用户网络资源的配置提供理论依据。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明的系统结构框架图；

图2为各维度因素程度划分图；

图3为传统模糊C-均值聚类算法流程图；

图4为减法聚类算法流程图；

图5为改进后的聚类算法流程图；

图6为基于特定业务类型和数据流量大小的用户群体分类表格；

图7为实施例一：用户流量使用行为分类结果图；

图8为基于特定小区位置和数据流量大小的用户群体分类表格；

图9为实施例二：用户流量使用行为分类结果图；

图10为基于用户的移动性、日均流量、流量均速用户群体分类表格；

图11为实施例三：用户流量使用行为分类结果图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明实施例所分析的数据来自中国移动重庆分公司所部署的数据采集系统，该城市的地理面积大约为8万平方公里，总人口数超过两千九百万。该城市的人口从一个侧面反映了其经济的发展情况，也说明了其作为研究移动网络用户流量使用行为模型的典型城市是比较有代表性和说服力的。如图1所示，数据集取自DPI分析系统，数据集涵盖了从接入网到骨干汇聚层的所有数据，从而保证数据的完整性和可靠性。目前我们采集到的数据区域为：重庆市，涵盖主城区、北碚、大足、丰都、涪陵等地区流量数据。观测流量类型包括所有业务类型或选定业务类型(如P2P、IM、VOIP等)。观测数据分组包括小区宽带分组、GPRS分组、WLAN分组等。观测数据颗粒度包括每五分钟、每一小时、每一天、每一周、每一月、每一年。这些丰富的数据源能为我们的后期研究提供基础数据。本发明主要提取用户流量、业务类型、用户移动性等多个因素作为聚类分析的维度，针对不同维度对用户流量使用行为模式的影响，本发明首先针对考虑因素对用户流量使用行为产生的影响程度对所考虑因素的等级进行划分，具体如图2所示。当完成各维度所考虑因素的程度划分后，对用户行为类别进行预分类；然后基于所有维度的考虑，对用户群体进行聚类，并计算每个聚类集合分别包含用户类别的占比，从而得到移动网络用户流量使用行为的分类，以此分析移动网络用户流量使用行为的典型特征。该方法能够有效完成移动网络用户流量使用行为的分类，并为流量营销价值的提升以及移动用户网络资源的配置提供理论依据。

模糊聚类分析作为无监督机器学习的主要技术之一，是用模糊理论对重要数据分析和建模的方法，建立了样本类属的不确定性描述，能比较客观地反映现实世界，它已经有效地应用在大规模数据分析、数据挖掘、矢量量化、图像分割、模式识别等领域，具有重要的理论与实际应用价值，随着应用的深入发展，模糊聚类算法的研究不断丰富。在众多模糊聚类算法中，模糊C-均值(FCM)算法应用最广泛且较成功，如图3所示，它通过优化目标函数得到每个样本点对所有类中心的隶属度，从而决定样本点的类属以达到自动对数据样本进行分类的目的。但是模糊C-均值(FCM)算法的迭代运算工作量却很大，数据的聚类分析效率很低，不适用于一些多维的大数据量的聚类分析，特别是对于移动网络用户群体上网兴趣偏好多样化这样的大数据处理，无法满足移动网络运营监测和资源管理的快速度和高效率的要求。为实现上述目的，采取如下技术方案，本发明在传统模糊C-均值聚类算法(FCM)基础之上，考虑减小计算聚类中心个数的复杂度以及提高聚类中心计算的精准度。减法聚类算法可以通过对聚类中心进行初始化，为每个样本点赋予一个定量的权值，用来区分不同的样本点对最终结果的不同作用。如图4所示，减法聚类将每一个数据点作为一个潜在的聚类中心，之后减去已完成的聚类中心的作用，再次寻找聚类中心。采用减法聚类算法计算得到的隶属度矩阵对传统的FCM算法进行修正，可以一定程度上减少迭代次数、加快收敛速度，取得较好的聚类结果。因此本发明将聚类分为粗聚类和细聚类两个层面进行：先使用减法聚类算法快速寻找聚类中心的个数；然后使用模糊C-均值聚类算法完成聚类参与点的划分。本发明采用聚类算法整个流程图如图5所示：具体包括以下步骤：

1)计算每个数据点的密度，得到密度指标：

其中

\frac{M_{k - 1}^{*}}{M_{1}^{*}} < δ

6)计算聚类中心如下：

q_{i}^{(t)} = \frac{Σ_{j = 1}^{n} p_{i j}^{(t)} w_{j}}{Σ_{j = 1}^{n} p_{i j}^{(t)}}

7)对于第t步，修改隶属度矩阵P^(t)如下：

p_{i j}^{(t + 1)} = \{\begin{matrix} 1 & d_{i j}^{(t)} = m i n {d_{i j}^{(t)}}, &ForAll; i &Element; c \\ 0 & o t h e r \end{matrix}

10)根据Q^(h)按下式计算隶属度矩阵P^(h)：

p_{i j}^{(t + 1)} = {[Σ_{k = 1}^{C} {(\frac{d_{i j}^{(t)}}{d_{k j}^{(t)}})}^{2 / (m - 1)}]}^{- 1}

11)按下式进一步调整类别中心Q^(h+1)：

q_{i}^{(t)} = \frac{Σ_{j = 1}^{n} {(p_{i j}^{(t)})}^{m} w_{j}}{Σ_{j = 1}^{n} {(p_{i j}^{(t)})}^{m}}

实施例一：

在本实施例中，首先基于中国移动重庆分公司所部署的数据采集系统得到业务类型信息和用户的流量信息，如图6所示，针对不同业务类型、不同兴趣偏好用户群对流量的需求不同：可以考虑将业务类型和数据流量大小两个因素相结合，将用户类别预分为九类：A、即时通信低流量用户(包括沉默用户)；B、即时通信中流量用户；C、即时通信高流量用户；D、网页搜索低流量用户(包括沉默用户)；E、网页搜索中流量用户；F、网页搜索高流量用户；G、视频类低流量用户(包括沉默用户)；H、视频类中流量用户；I:视频类高流量用户。

根据之前介绍的聚类模型，先对用户位置信息和用户流量信息组成的二维数组进行聚类运算，得到用户群体聚类结果。如图7所示，通过业务类型信息和用户流量信息对用户进行聚类算法计算后，可以将用户兴趣偏好群体分为九类，分别用G1、G2、G3、G4、G5、G6、G7、G8、G9表示。其中G1占总用户群体12.15％，G2占总用户群体16.1％，G3占总用户群体11.8％，G4占总用户群体19.9％，G5占总用户群体10.32％，G6占总用户群体9.1％,G7占总用户群体8.78％,G8占总用户群体6.25％,G9占总用户群体5.6％。

实施例二：

本实施例中，首先基于中国移动重庆分公司现网流量数据分析得到用户的位置信息和用户的流量信息。如图8所示，针对不同地区、不同偏好用户群对流量的需求不同：可以考虑将小区位置和数据流量大小两个因素相结合，将用户类别预分为六类：A:商业区低流量用户(包括沉默用户)，该类别用户经常处于商业区活动范围内，但数据流量使用量不高。B:商业区中流量用户，该群体绝大多数用户主要在商业区活动，并且有一定的数据流量需求。C:商业区高流量用户，该类别用户经常处于商业区，并且对数据流量的需求较大。D:居民区低流量用户(包括沉默用户)，用户经常处于居民区活动范围内，并且数据流量使用量不高。E:居民区中流量用户，这类群体经常处于居民区活动范围内，并且有一定数据流量需求。F:居民区高流量用户，该类别用户经常处于居民区活动范围内，并且数据流量使用量较高。

根据之前介绍的聚类模型，先对用户位置信息和用户流量信息组成的二维数组进行聚类运算，得到用户群体聚类结果。如图9所示，通过用户位置信息和用户流量信息对用户进行聚类算法计算后，可以将用户群体分为六类，分别用G1、G2、G3、G4、G5、G6表示。其中G1占总用户群体22.9％，G2占总用户群体22.1％，G3占总用户群体17.8％，G4占总用户群体16.1％，G5占总用户群体8.25％，G6占总用户群体12.85％。

实施例三：

针对三个维度的因素考虑，本实施例三在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程：

首先基于重庆移动公司现网数据得到用户所接入的基站信息从而推断出用户的移动性；得到用户的入网时间和使用的总流量从而分析得到用户的日均流量；最后根据用户的入网时间和流量使用情况计算出用户的流量均速。针对不同移动性和不同流量需求的用户群体，考虑用上述三个因素将用户预分为十四类，如图10所示。包括：A:静态低流量用户(包括沉默用户)。B:静态中流量慢流速用户。C:静态中流量中流速用户。D:静态中流量高流速用户。E:静态高流量慢流速用户。F:静态高流量中流速用户。G:静态高流量高流速用户。H:动态低流量用户(包括沉默用户)。I:动态中流量慢流速用户。J:动态中流量中流速用户。K:动态中流量高流速用户。L:动态高流量慢流速用户。M:动态高流量中流速用户。N:动态高流量高流速用户。

根据之前介绍聚类模型，运用Python语言和Hadoop平台对用户移动性、用户日均流量、用户流量均速三个特征值下的用户数据进行聚类运算，得到用户群体聚类结果。然后根据用户群体分类法则计算每一个聚类群体A～N十四类用户所占的比重，结果如图11所示。

如图11所示，通过用户位置信息和用户流量信息对用户进行聚类算法计算后，可以将用户群体分为八组，其中G1占18.02％，G2占15.23％，G3占12.06％，G4占14.59％，G5占16.15％，G6占11.62％，G7占8.37％，G8占3.96％。由此可见，本发明提出的移动网络用户群体上网兴趣偏好发现方法能够有效分析移动网络用户群体上网兴趣偏好的特征，并实现提升流量价值的营销目标。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种移动网络用户群体流量使用行为的分类方法，其特征在于：在该方法中，将用户数据流量、用户使用业务类型、用户移动性因素相结合，从多个维度对用户群体上网行为特征进行分析，进而得出用户流量使用行为模型；具体包括以下步骤：

2.根据权利要求1所述的一种移动网络用户群体流量使用行为的分类方法，其特征在于：在步骤S2中，将用户类别预分为九类,：A、即时通信低流量用户(包括沉默用户)；B、即时通信中流量用户；C、即时通信高流量用户；D、网页搜索低流量用户(包括沉默用户)；E、网页搜索中流量用户；F、网页搜索高流量用户；G、视频类低流量用户(包括沉默用户)；H、视频类中流量用户；I:视频类高流量用户。

3.根据权利要求2所述的一种移动网络用户群体流量使用行为的分类方法，其特征在于：在步骤S3中，将聚类分为粗聚类和细聚类两个层面进行：先使用减法聚类算法快速寻找聚类中心的个数；然后使用模糊C-均值聚类算法完成聚类参与点的划分；具体包括以下步骤：

1)计算每个数据点的密度，得到密度指标：

其中

其中τ₁表示该点以距离的形式影响的范围，越大则管的范围越大，越小则越集中，分的类越多；x_k表示第k个数据点，k的取值范围为1到n；v_i表示第i个聚类中心；d(x_k,v_i)表示数据点x_k与第i个聚类中心v_i的欧式距离；

2)假定为第k-1次选出的聚类中心，相应的密度指标为之后除去这个点的密度，再计算所有点的密度指标：其中τ₂表示表示该点以距离的形式影响的范围，与τ₁的区别在于τ₂考虑的是权重影响的范围，若很小，则容易重合聚类，即在原聚类中心又找了一个类中心，因此τ₂一般要大于τ₁；M_k(v_i)表示去除聚类中心后，每个数据点的密度指标；M_k-1(v_i)表示去除聚类中心之前，每个数据点的密度指标；表示第k-1次选出的聚类中心与第i个聚类中心v_i的欧式距离；

\frac{M_{k - 1}^{*}}{M_{1}^{*}} < δ

其中，表示聚类中心的密度指标；为第一个聚类中心的密度指标，δ为预先给定的参数；

5)确定聚类数C，初始化隶属度矩阵P⁽⁰⁾，置迭代次数t＝0；

6)计算聚类中心如下：

q_{i}^{(t)} = \frac{Σ_{j = 1}^{n} p_{i j}^{(t)} w_{j}}{Σ_{j = 1}^{n} p_{i j}^{(t)}}

对于第t步，表示第i个聚类对应的聚类中心，i的取值范围为1到C，Q^(t)表示C个聚类中心的集合，表示跟第j个数据点之间的隶属度，j的取值范围为1到n，w_j为第j的数据点的权值；

7)对于第t步，修改隶属度矩阵P^(t)如下：

p_{i j}^{(t + 1)} = \{\begin{matrix} 1 & p_{i j}^{(t)} = m i n {p_{i j}^{(t)}}, &ForAll; i &Element; c \\ 0 & o t h e r \end{matrix}

其中表示第t+1步，与第j个数据点之间的隶属度，当取最小值时，值为1；

8)若||P^(h+1)-P^(h)||≥σ，则进入下一步，否则置t＝t+1并转步骤6)，其中，P^(h)、P^(h+1)分别表示迭代次数为h和h+1时，求得的隶属度矩阵，σ为预先给定的参数；

10)根据Q^(h)按下式计算隶属度矩阵P^(h)：

p_{i j}^{(t + 1)} = {[Σ_{k = 1}^{C} {(\frac{p_{i j}^{(t)}}{p_{k j}^{(t)}})}^{2 / (m - 1)}]}^{- 1}

其中表示与第j个数据点之间的隶属度，表示跟第j个数据点之间的隶属度，表示跟第k个聚类中心之间的隶属度，m为预先给定的参数；

11)按下式进一步调整类别中心Q^(h+1)：

q_{i}^{(t)} = \frac{Σ_{j = 1}^{n} {(p_{i j}^{(t)})}^{m} w_{j}}{Σ_{j = 1}^{n} {(p_{i j}^{(t)})}^{m}}

其中，表示第i个聚类对应的聚类中心，表示跟第j个数据点之间的隶属度，表示跟第k个聚类中心之间的隶属度，m为预先给定的参数，w_j为第j的数据点的权值；

12)若||P^(h+1)-P^(h)||≥σ，则算法结束，输出聚类的中心和隶属度矩阵P；否则，置h＝h+1，返回10)；由计算得到的隶属度矩阵P就可以确定每一个数据点分别对各个聚类的隶属度，其中隶属度最大的聚类即为该数据点所属的聚类。