CN109978575B

CN109978575B - 一种挖掘用户流量经营场景的方法及装置

Info

Publication number: CN109978575B
Application number: CN201711447871.8A
Authority: CN
Inventors: 张英霞; 杜君君; 周敏虎; 彭文新; 徐睿; 徐继业
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-06-04
Anticipated expiration: 2037-12-27
Also published as: CN109978575A

Abstract

本发明实施例提供一种挖掘用户流量经营场景的方法及装置。该方法包括：获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；根据动态时间规整算法，确定用户之间的第一离群高峰时段的相似度，根据相似度，确定同一类别的用户；获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；根据每个用户的第一离群高峰时段和第一上网行为标签确定每个用户的第一流量经营场景。本发明实施例保证了筛选出来的用户具有流量易激发的特点，提高了挖掘用户流量的效率和流量挖掘的目的性。

Description

一种挖掘用户流量经营场景的方法及装置

技术领域

本发明实施例涉及数据挖掘技术领域，具体涉及一种挖掘用户流量经营场景的方法及装置。

背景技术

随着移动互联网的快速发展，用户对数据流量的需求激增，流量经营成为三大电信运营商转型的一个重要方向。

目前流量场景化营销主要通过用户多维度的数据，借助数据分析和挖掘技术，对用户群体上网行为特征进行深入分析，建立用户画像和模型，了解用户行为偏好和流量需求。同时，也可以对流量推送的渠道、时间和方式进行分析，实现为用户的个性化服务和全程营销。

在移动互联网时代，消费者的时间呈现出碎片化的趋势，现有技术对于用户行为分析的研究，只是依据业务经验考虑了用户大部分常规的上网时间、内容和渠道偏好。然而，现有技术是对用户正常上网行为进行统计分析或是预测分析，没有从流量异常变动角度进一步挖掘用户流量需求，导致错失流量营销的关键时机。

发明内容

针对现有技术中的缺陷，本发明实施例提供了一种挖掘用户流量经营场景的方法及装置。

第一方面，本发明实施例提供一种挖掘用户流量经营场景的方法，包括：

获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；

根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；

获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；

根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

第二方面，本发明实施例提供一种挖掘用户流量经营场景的装置，包括：

离群时段确定模块，用于获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；

划分用户类别模块，用于根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别用户；

确定用户标签模块，用于获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；

确定流量经营场景模块，用于根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

第三方面，本发明实施例提供一种电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下方法：获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

本发明实施例提供的挖掘用户流量经营场景的方法，根据密度聚类算法挖掘客户流量离群点数据，再通过动态时间归整算法更加精准的定位了具有流量异动规律的用户，保证了筛选出来的用户具有流量易激发的特点，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，从而保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的挖掘用户流量经营场景的方法流程示意图；

图2为本发明实施例提供的流量经营场景示意图；

图3为本发明实施例提供的挖掘用户流量经营场景的装置的结构示意图；

图4为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的挖掘用户流量经营场景的方法流程示意图，如图1所示，该方法包括：

步骤S11、获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；

具体地，为了获取用户流量异动点，首先获取用户在预设时长内每个第一时段的流量数据，记为第一流量数据，例如，获取某地区所有用户在一个月内每一天所使用的总流量值，或者用户在一天内每小时所使用的总流量值等。之后，根据密度聚类算法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)确定每个用户的流量离群点，这些流量离群点即用户的流量异动点，流量异动用户具有流量易激发特性，在流量异动时刻进行流量营销，更容易达到营销目的。DBSCAN算法与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类，非常适合处理离群点较多的聚类，因此可以用来确定用户的流量离群点。然后判断流量离群点的总流量值是否为高峰流量值，若是，则将该流量离群点对应的第一时段作为用户的第一离群高峰时段。例如，用户在一个月内的某天为流量离群点并且当天的流量值为高峰流量值，则将当天作为该用户的第一离群高峰时段。

例如，获取深圳地区所有用户在3月份的流量数据，确定每个用户在3月份每一天的总流量值，这样每个用户就有31个总流量值，然后根据DBSCAN算法找出用户的流量离群点，若该流量离群点对应的流量值大于预设流量阈值，则确定该流量离群点为高峰流量离群点，该流量离群点对应的某一天为用户的离群高峰时段，例如，通过DBSCAN算法确定用户A在3月份的离群高峰时段为3日、6日和27日等。

步骤S12、根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；

具体地，确定每个用户的第一离群高峰时段之后，确定每个用户的第一离群高峰序列，横坐标为第一离群高峰时段，纵坐标为第一离群高峰时段对应的第一流量数据，找出第一离群高峰时段序列相似的用户，这些用户在流量异动方面有相似的规律，记为同一类别用户。根据动态时间规整算法(Dynamic Time Warping，DTW)将每个用户与其他用户的第一离群高峰时段序列进行对齐，这样两条整体上波形形状相似，但在时间轴上却不对齐的离群高峰时段序列可以通过DTW算法把时段序列进行延伸和缩短，这样就可以计算两个时段序列之间的相似度，若该相似度大于预设阈值，则表明这两条离群高峰时段序列对应的用户具有相似流量使用规律，为同一类别用户。

例如，用户A的离群高峰时段为当月的1日、5日和8日，对应的流量值为700M，800M和900M，用户B的离群高峰时段为当月的2日、6日和9日，对应的流量值为900M，1000M和1100M，用户A和用户B的离群高峰时段序列的波形相似，通过DTW算法计算出两个第一离群高峰序列相似度较高，用户A和用户B为同一类别用户。

步骤S13、获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；

具体地，获取同一类别用户在其对应的第一离群高峰时段的上网行为数据，记为第一上网行为数据，例如APP类别、流量值或上网时段等数据。例如，用户A的离群高峰时段为当月的1日、5日和8日，则获取用户A在当月1日、5日和8日的流量值、上网时段或APP类别等数据。之后根据自适应神经网络聚类算法(Self-organizing Maps，SOM)对同一类别用户的第一上网行为数据进行聚类，确定每个用户的上网行为标签，记为第一上网行为标签。SOM算法的神经网络一般是由输入层和输出层构成的两层网络，两层之间各神经元实现双向连接，而且网络没有隐含层。网络的输出层各神经元竞争对输入模式响应的机会，最后仅有一个神经元成为竞争的获胜者，这一获胜神经元则表示对输入模式的分类。在获取同一类别的每个用户的上网行为数据之后，可以从这些上网行为数据提取出输入特征，输入到SOM神经网络中，用SOM对输入数据进行聚类分析，确定输出结果，即每个用户的上网行为标签，记为第一上网行为标签。

步骤S14、根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

具体地，确定每个用户的第一上网行为标签和第一离群高峰时段之后，确定每个用户的流量经营场景，记为第一流量经营场景。例如用户A的离群高峰时段为上下班时段，上网行为标签为视频类APP等，则用户A的流量经营场景为上下班时段，推荐视频类流量套餐等。这样，通过流量离群点确定的流量经营场景具有流量激发特性，能够保证流量营销的效果。

在上述实施例的基础上，进一步地，所述根据密度聚类算法确定每个用户的第一离群高峰时段，包括：

根据所述第一流量数据，确定每个用户的样本数据集；

根据每个用户的样本数据集，确定密度聚类算法的半径和最小样本点数；

根据所述半径和所述最小样本点数，确定所述第一流量数据中的核心对象，将所述核心对象添加至核心对象集合中；

对所述核心对象集合中的核心对象进行聚类，确定所述核心对象集合的至少一个聚类簇；

若判断获知所述聚类簇中的核心对象的个数小于预设核心数阈值，则确定所述聚类簇中的核心对象为离群点；

若判断获知所述离群点对应的第一流量数据大于预设流量阈值，则确定所述离群点对应的用户为流量异动用户，所述离群点对应的第一时段为所述流量异动用户的第一离群高峰时段。

具体地，根据获取到的用户在预设时长内每个第一时段的第一流量数据之后，确定每个用户的样本数据集，记为D_m，D_m＝{x₁,x₂,…x_i,…x_n}，其中，D_m为第m个用户的样本数据集，n为预设时长内包含的第一时段的个数，x_i为用户在第i个第一时段的第一流量数据。例如，获取用户在一个月内的每天的总流量值，则用户的样本集中n为当月天数，x_i为用户当天的总流量值。密度聚类算法包含两个参数，半径ε和最小样本点数MinPts，半径ε定义为设样本x∈样本集X，则称N_ε(x)＝{y∈X:d(y,x)≤ε}为x的ε半径，N_ε也可称为x的ε邻域，其中d(y，x)为样本x与样本y的距离，显然x∈N_ε(x)。最小样本数MinPts的定义为：给定样本点成为核心点的ε邻域内最小样本点数。

为了确定半径ε和最小样本点数MinPts，首先计算k距离，具体地，对每个用户的样本数据集D_m，计算其中的样本点x_i到所有用户样本数据集D_m中其他样本点x_j的距离，这样每个样本点x_i就可得到m*n-1个距离值，将这些距离值按照从小到大的顺序排列后为{d(1),{d2},…，d(k),…d(m*n-1)}，则称d(k)为x_i的k距离，k值可以根据经验确定，例如k值为400，则得到的k距离值就是每个样本点与其他样本点的距离中第400个距离值，这样可以得到所有样本数据集中每个样本点的k距离，将这些k距离值按照从小到大顺序排列后，得到所有样本点的k距离集合E＝{d(1),d(2),…d(m*n)}，拟合集合E，以k距离值作为纵坐标，得到一条拟合曲线。之后计算拟合曲线的斜率，将斜率极值中的最大极值对应的纵坐标的k距离作为半径ε，将k值作为最小样本点数MinPts。例如，选取1000个用户在一个月30天的流量数据作为样本数据集，这样就得到3万个样本点，计算这3万个样本点中每个样本点的k距离，然后拟合k距离曲线，得到半径ε为11，最小样本点数MinPts为400。

之后，基于密度聚类算法，根据半径ε和最小样本点数MinPts确定所有用户样本数据集中的核心对象，并将核心对象加入到核心对象集合O中，O＝{p₁,p₂,…p_i,…p_l}，l为核心对象个数。然后从核心对象集合O中随机选出一个核心对象p_i，找出其所有密度可达的核心对象，形成第一个聚类簇。其中密度可达的定义为：首先若p_j位于p_i的ε邻域中，且p_i是核心对象，则称p_j由p_i密度直达；然后，对p_i与p_j，若存在样本序列p(1),p(2),..,p(n),其中p(1)＝p_i,p(n)＝p_j且p(i+1)由p(i)密度直达，则称p_j由p_i密度可达。

之后把核心对象集合中存在于第一个聚类簇的核心对象剔除后，继续按照上述方法再次形成第二个聚类簇，直至核心对象集合为空。这样，就可以得到核心对象集合的多个聚类簇，然后判断每个聚类簇中的核心对象个数，若核心对象个数小于预设核心数阈值，则该聚类簇中的所有核心对象为离群点，这样，通过密度聚类算法就可以得到每个用户的流量离群点。

之后判断离群点对应的流量是否为高峰流量，通过对比预设流量阈值，例如阈值为700M，则离群点的流量值大于700M则确定离群点对应的用户为流量异动用户，是流量营销的推荐客户，离群点对应的时段为流量异动用户的离群高峰时段，记为第一离群高峰时段。

例如获取1000个用户一个月的流量数据，得到每个用户每天的总流量值，通过密度聚类算法，确定流量异动用户，以及用户的离群高峰日期，在实际应用中，为了使流量营销场景更加精确，还可以按照同样的方法获取用户连续两个月的流量数据，确定这两个月里用户的离群高峰日期。

本发明实施例提供的挖掘用户流量经营场景的方法，通过用户的流量数据确定密度聚类算法中的参数，根据密度聚类算法挖掘客户流量离群点数据，保证了筛选出来的用户具有流量易激发的特点，再通过动态时间归整算法更加精准的定位了具有流量异动规律的用户，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，从而保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

在上述各实施例的基础上，进一步地，所述根据所述半径和最小样本点数，确定所述第一流量数据中的核心对象，将所述核心对象添加至核心对象集合中，包括：

计算每个用户的样本数据集中的样本点x_i到所述第一流量数据对应的其他样本点x_j的样本距离；

若判断获知所述样本距离小于或等于所述半径，则确定所述样本点x_j为所述样本点x_i邻域内的样本点；

若判断获知所述样本点x_i邻域内的样本点数大于或等于所述最小样本点数，则确定所述样本点x_i为核心对象，将所述样本点x_i加入到核心对象集合中。

具体地，若样本x_i的ε邻域的样本点数不小于最小样本点数MinPts，则样本x_i为核心对象，为了获得第一流量数据中核心对象，首先获取所有用户的预设时长内每个第一时段的流量数据之后，将这些流量数据作为训练样本，计算每个用户的样本数据集中的样本点x_i到训练样本中的其他样本点x_j的样本距离，然后判断该距离与半径ε的大小，若距离小于或等于半径ε，则样本点x_j为样本点x_i邻域内的样本点，之后判断样本点x_i邻域内的样本点数是否大于或等于最小样本点数MinPts，若大于，则样本点x_i为核心对象，将样本点x_i加入到核心对象集合中。

本发明实施例提供的挖掘用户流量经营场景的方法，通过用户流量数据确定核心对象，根据密度聚类算法对核心对象聚类挖掘客户流量离群点数据，保证了筛选出来的用户具有流量易激发的特点，再通过动态时间归整算法更加精准的定位了具有流量异动规律的用户，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，从而保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

在上述各实施例的基础上，进一步地，所述根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别用户，包括：

根据每个用户的第一离群高峰时段，确定每个用户的高峰流量时间序列；

根据动态时间规整算法，确定所述用户之间的高峰流量时间序列的时间距离；

若判断获知所述时间距离小于预设时间距离阈值，则确定所述高峰流量时间序列对应的用户为同一类别用户。

具体地，确定用户的离群高峰时段之后，根据每个流量异动用户的第一离群高峰时段，确定每个流量异动用户的高峰流量时间序列，然后计算每两个高峰流量时间序列的时间距离，具体地，设用户A的高峰流量时间序列为Q，Q＝{q₁,q₂,…,q_n}，用户B的高峰流量时间序列为C，C＝{c₁,c₂,…,c_n}，其中q_n和c_n表示用户的离群高峰时段的流量值，若某时段不存在高峰流量，则该时段对应的q_n或c_n记为0，例如，用户A某月的离群高峰时段为1日，5日和21日，对应的流量数据为700M，900M和1000M，则Q＝{700,0,0,0,900,…,1000,0,…,0}。用户B某月的离群高峰时段为5日，19日和21日，对应的流量数据为700M，900M和1000M，则C＝{0,0,0,0,700,…,900,0,1000,…,0}。

之后对于流量时间序列Q和C，构建n*n的矩阵G(i,j)，矩阵元素(i,j)表示q_i和c_j两个点的距离d(q_i,c_j)，即流量时间序列Q中的每一个点和C中的每一个点之间的相似度。其中，d(q_i,c_j)＝(q_i-c_j)²。每一个矩阵元素(i,j)表示点q_i和c_j的对齐。动态规整算法可以归结为寻找一条通过此矩阵网格中若干格点的路径，路径通过的格点即为两个时间序列进行计算的对齐的点。具体地，计算累计距离矩阵γ(i,j)，γ(i,j)＝d(q_i,c_j)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)},i＝1,2,...n,j＝1,2,...n

这样通过动态规整算法，最后得到的γ(n,n)为两条流量时间序列的距离D(Q,C)。

之后基于时间序列相似性对离群客户进行分类，若两条流量序列的时间距离值小于预设时间距离阈值，则确定两条流量时间序列对应的用户为同一类别用户。例如，在对大数据进行分析后得知，当时间距离D<＝20的时候，能够完全区分出不同日期，不同时段的离群客户，并将有相同特征用户分群。因此，可以设置预设时间距离阈值为20，将距离小于20的用户作为同一类别用户，这样对离群用户分类，最后得到流量异常在时间上分布相近的用户，即这些用户在流量异动时间上具有相似规律。

本发明实施例提供的挖掘用户流量经营场景的方法，根据密度聚类算法挖掘客户流量离群点数据，保证了筛选出来的用户具有流量易激发的特点，再通过动态时间归整算法确定在流量异动时间上具有相似规律的用户，更加精准的定位了流量异动用户，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，从而保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

在上述各实施例的基础上，进一步地，所述获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签，包括：

获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，将所述第一上网行为数据划分为N个输入类别，根据所述N个输入类别确定每个用户的输入数据，其中N为大于1的正整数；

初始化所述输入数据的权重，根据所述权重和所述输入数据搜索自适应神经网络的优胜节点；

根据所述优胜节点调整所述权重，根据调整后的权重更新所述自适应神经网络的优胜节点；

若判断获知达到预设迭代终止条件，则获取所述自适应神经网络的输出结果，所述输出结果包括每个用户的M个聚类结果，其中所述M为大于1的正整数且小于所述N；

根据每个用户的第一上网行为数据，确定M个聚类结果标签，根据每个聚类结果标签，确定所述用户的第一上网行为标签。

具体地，确定具有相似规律的流量异动用户之后，获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，例如获取流量异动用户在这些离群高峰时段下使用手机应用的数据，以此挖掘用户的内容偏好。之后，将用户上网行为数据划分为N个输入类别，根据N个输入类别确定每个用户用于SOM算法的输入数据。

例如，为了使得挖掘的结果更加准确，可以采用以下数据作为特征：应用类型、用户在高峰时段内使用的所有手机应用的总流量、消费额和使用频率。通过上面这些属性来确定用户上网行为标签，为了将以上这些属性对用户上网行为标签的影响的可能性加入到聚类的过程中，使用自适应神经网络算法对应用进行聚类分析，目的是选出用户群体，根据群体中的应用类型，结合流量和时间等属性来为群体制定偏好标签。

具体地，首先将应用类别分为6类，包括游戏、即时通讯、视频、软件工具、新闻资讯和其他；将流量使用分为5层：高(大于2G)、次高(2G到1G之间)、中(1G到500M之间)、次中(500M到50M之间)和低(小于50M)；将消费额分为3层：高(大于150)、中(50至150)和低(小于50)；将频率分为3层：频繁(大于70％)、中等(70％-30％)和不频繁(小于30％)；将日期分为30层：1日、2日、3日…30日；将时段分为4层：早上高峰(6-10时出现流量高峰)、中午高峰(11-14时出现流量高峰)和下班高峰(17-19时出现流量高峰)和凌晨高峰(23-次日4时出现流量高峰)。这样就可以得到51个输入类别，将同一类别的用户的上网行为数据转换为长度为51的输入向量，R_n＝{r₁,r₂,r₃…r₅₁}，向量中的每一位都对应于一个类别，若用户在这个分类中r＝1，反之r＝0，n为用户的标识，例如以用户手机号码区分用户等。由于用户上网行为的复杂性，允许同一个用户有不同的输入向量R_n，因此聚类结果也能够反映出用户不同的内容偏好，令结果更加灵活。

确定自适应神经网络SOM的输入数据之后，还需要设置SOM网络的输出个数M，输出个数表示经过SOM聚类后的类别数，例如，设置输出个数为20，这样对于通过SOM聚类，就可以将输入的51个类别划分为20个类别，这样就可以得到除了以应用类型聚类以外还可以聚类出的类群。

之后，确定SOM网络中各节点的初始权重，随机初始化得到每个节点的初始权重w_ij,i＝1,2,...,51,j＝1,2,...,20。SOM学习的具体过程为：

步骤a、接收同一类别用户的输入数据R_n，输入神经元的数目为51；

步骤b、计算R_n的每个r_i与初始权重w_i,j的点积，确定点积最大的元素对应的节点j*，将该节点j*作为优胜节点；

步骤c、根据公式N_j*(t)＝C(1-t/T)计算优胜领域半径N_j*，其中C为与输出层节点数相关的正常数，例如设置C为10，t为当前迭代次数，T为最大迭代次数，例如设置T为100000，N_j*(0)＝T_i，T_i一般设置为SOM网络节点数的80％左右，例如设置T_i为50。

步骤d、计算学习率α(t)＝0.5(1-t/T)，根据公式调整每个节点的权重：w_ij(t+1)＝w_ij+α(t)e^-N[r_i-w_ij(t)]，其中，N为第j个神经元与获胜神经元j*之间的距离。

步骤e、确定SOM输出结果res(t)，res(t)存储了输入用户的20个输出数据结果。

步骤f、判断学习率α(t)是否收敛，或者是否达到最大迭代次数，若否，则清空res(t)，令t＝t+1，执行步骤b；若是则输出结果res(t)，res(t)便是流量异动用户的聚类集合。

之后根据用户上网行为数据对输出类别赋予标签值，例如以应用类别为主，其他属性为辅给聚类集合贴上标签，这样，就得到了每个流量异动用户的上网行为标签，记为第一上网行为标签。

本发明实施例提供的挖掘用户流量经营场景的方法，根据密度聚类算法挖掘客户流量离群点数据，保证了筛选出来的用户具有流量易激发的特点，再通过动态时间归整算法确定具有相似规律的用户，更加精准的定位了流量异动用户，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

在上述各实施例的基础上，进一步地，所述方法还包括：

获取用户在所述第一离群高峰时段内每个第二时段的第二流量数据，根据密度聚类算法确定每个用户的第二离群高峰时段，其中所述第二时段小于所述第一时段；

获取同一类别的用户在其对应的第二离群高峰时段的第二上网行为数据，根据自适应神经网络聚类算法，对所述第二上网行为数据聚类，确定同一类别中每个用户的第二上网行为标签；

根据每个用户的第二离群高峰时段和所述第二上网行为标签确定每个用户的第二流量经营场景。

具体地，为了确定更加精确的流量经营场景，还可以在获取用户的第一离群高峰时段之后，获取高峰时段内每个第二时段的第二流量数据，例如确定用户离群高峰日期之后，获取该日期内每小时的流量值，根据密度聚类算法确定每个用户的第二离群高峰时段，例如用户离群高峰时间段。之后可以获取同一类别用户在离群高峰时间段的上网行为数据，根据自适应神经网络聚类算法，得到用户的第二上网行为标签，根据每个用户的第二离群高峰时段和第二上网行为标签确定每个用户的第二流量经营场景，例如某个时段为用户推荐视频流量套餐等。

本发明实施例提供的挖掘用户流量经营场景的方法，根据密度聚类算法挖掘客户流量离群点数据，对离群点数据进一步挖掘，保证了筛选出来的用户具有流量易激发的特点，再通过动态时间归整算法确定具有相似规律的用户，更加精准的定位了流量异动用户，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

在上述各实施例的基础上，进一步地，所述方法还包括：

获取用户的位置信息和流量订阅信息；

根据每个用户的第一离群高峰时段、所述第一上网行为标签、所述第二离群高峰时段、所述第二上网行为标签、所述位置信息和所述订阅信息确定每个用户的第三流量经营场景。

具体地，还可以获取用户的位置信息和流量订阅信息，结合用户的离群高峰时段、上网行为标签、位置信息和订阅信息确定每个用户更加精确的流量经营场景，在实际应用中，还可以获取用户其他信息，例如年龄、使用终端类别等，图2为本发明实施例提供的流量经营场景示意图，如图2所示，流量经营场景综合考虑时间、位置、内容、使用行为和产品订购等多个维度，服务于流量异动客户捕获，用以挖掘相似的潜在用户，提高流量经营的效率。

本发明实施例提供的挖掘用户流量经营场景的方法，根据密度聚类算法挖掘客户流量离群点数据，保证了筛选出来的用户具有流量易激发的特点，再通过动态时间归整算法确定具有相似规律的用户，更加精准的定位了流量异动用户，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，结合用户微信信息和订阅信息确定流量经营场景，保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

图3为本发明实施例提供的挖掘用户流量经营场景的装置的结构示意图，如图3所示，该装置包括：离群时段确定模块31、划分用户类别模块32、确定用户标签模块33和确定流量经营场景模块34，其中：

离群时段确定模块31用于获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；划分用户类别模块32用于根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别用户；确定用户标签模块33用于获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；确定流量经营场景模块34用于根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

具体地，离群时段确定模块31获取用户在预设时长内每个第一时段的流量数据，记为第一流量数据，例如，获取某地区所有用户在一个月内每一天所使用的总流量值，或者用户在一天内每小时所使用的总流量值等。之后，根据密度聚类算法确定每个用户的流量离群点，这些流量离群点即用户的流量异动点，流量异动用户具有流量易激发特性，在流量异动时刻进行流量营销，更容易达到营销目的。根据流量离群点确定用户的离群高峰时段，划分用户类别模块32确定每个用户的第一离群高峰序列，横坐标为第一离群高峰时段，纵坐标为第一离群高峰时段对应的第一流量数据，找出第一离群高峰时段序列相似的用户，这些用户在流量异动方面有相似的规律，记为同一类别用户。根据动态时间规整算法计算两个时段序列之间的相似度，若该相似度大于预设阈值，则表明这两条离群高峰时段序列对应的用户具有相似流量使用规律，为同一类别用户。

划分用户类别模块32获取同一类别用户在其对应的第一离群高峰时段的上网行为数据，记为第一上网行为数据，例如APP类别、流量值或上网时段等数据。例如，用户A的离群高峰时段为当月的1日、5日和8日，则获取用户A在当月1日、5日和8日的流量值、上网时段或APP类别等数据。之后根据自适应神经网络聚类算法对同一类别用户的第一上网行为数据进行聚类，确定每个用户的上网行为标签，记为第一上网行为标签。确定流量经营场景模块34根据每个用户的第一离群高峰时段和第一上网行为标签确定每个用户的第一流量经营场景。例如用户A的离群高峰时段为上下班时段，上网行为标签为视频类APP等，则用户A的流量经营场景为上下班时段，推荐视频类流量套餐等。这样，通过流量离群点确定的流量经营场景具有流量激发特性，能够保证流量营销的效果。本发明实施例提供的装置，用于实现上述方法，其功能具体参照上述方法实施例，此处不再赘述。

本发明实施例提供的挖掘用户流量经营场景的装置，根据密度聚类算法挖掘客户流量离群点数据，再通过动态时间归整算法更加精准的定位了具有流量异动规律的用户，保证了筛选出来的用户具有流量易激发的特点，并使用自适应神经网络聚类方法来挖掘用户上网行为标签，从而保证了流量营销时机的准确性，提高了挖掘用户流量的效率和流量挖掘的目的性。

图4为本发明实施例提供的电子设备的结构示意图，如图4所示，所述设备包括：处理器(processor)41、存储器(memory)42和总线43；

其中，处理器41和存储器42通过所述总线43完成相互间的通信；

处理器41用于调用存储器42中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取用户在预设时长内每个第一时段的第一流量数据，根据密度聚类算法确定每个用户的第一离群高峰时段；根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别的用户；获取所述同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签；根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种挖掘用户流量经营场景的方法，其特征在于，包括：

根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景；

其中，所述根据密度聚类算法确定每个用户的第一离群高峰时段，包括：

根据所述第一流量数据，确定每个用户的样本数据集；

2.根据权利要求1所述的方法，其特征在于，所述根据所述半径和最小样本点数，确定所述第一流量数据中的核心对象，将所述核心对象添加至核心对象集合中，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据动态时间规整算法，确定所述用户之间的第一离群高峰时段的相似度，根据所述相似度，确定同一类别用户，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取同一类别的用户在其对应的第一离群高峰时段的第一上网行为数据，根据自适应神经网络聚类算法，对所述第一上网行为数据聚类，确定同一类别中每个用户的第一上网行为标签，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取用户的位置信息和流量订阅信息；

根据每个用户的所述第一离群高峰时段、所述第一上网行为标签、所述第二离群高峰时段、所述第二上网行为标签、所述位置信息和所述订阅信息确定每个用户的第三流量经营场景。

7.一种挖掘用户流量经营场景的装置，其特征在于，包括：

确定流量经营场景模块，用于根据每个用户的第一离群高峰时段和所述第一上网行为标签确定每个用户的第一流量经营场景；

其中，所述离群时段确定模块具体用于：

根据所述第一流量数据，确定每个用户的样本数据集；

8.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一所述的方法。