CN105677888A

CN105677888A - 一种基于用户时间碎片的业务偏好识别方法

Info

Publication number: CN105677888A
Application number: CN201610050689.8A
Authority: CN
Inventors: 杨志兵; 李百成
Original assignee: ZTEsoft Technology Co Ltd
Current assignee: ZTEsoft Technology Co Ltd
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-06-15

Abstract

本发明提供一种基于用户时间碎片的业务偏好识别方法，包括：步骤1、客户手机上网WAP日志采集;步骤2、数据预处理，对采集的数据进行清洗转换、会话识别分析以及内容分类处理；步骤3、基于用户每月WAP日志，描述和分析用户流量波动；步骤4、综合每个用户的月WAP日志数据，进行曲线分段拟合；步骤5、基于曲线分段拟合结果，提取个人用户时间碎片；步骤6、基于个人用户时间碎片提取结果，对用户时间序列进行相似性聚类，以区分具有相似形态的用户群体，再统计同一类用户群体中的碎片时间集中的时间序列片段以及碎片时间的需求偏好，得到群体特征描述。利用本发明的方法，可分析用户各碎片时间段的不同需求，提高客户感知水平。

Description

一种基于用户时间碎片的业务偏好识别方法

技术领域

本发明涉及移动互联网技术领域，尤其是用户的业务偏好识别，具体而言涉及一种基于用户时间碎片的业务偏好识别方法。

背景技术

移动互联网产业发展较为迅速，已经出现了很多受人们喜爱的应用和服务，尤其是碎片化时代的来临更加促进了移动互联网产业的发展，所以碎片时间也逐渐引起了人们的关注和重视。由于移动互联网用户的上网频率和时长所形成的黏性，成为移动互联网产业快速发展的必要条件，故发展移动互联网，必须研究移动互联网用户的行为习惯，以及如何更加巧妙的利用用户的碎片化时间进行产品的创新成为了移动互联网产业链中的内容制造商及服务运营商们需要研究的重点。运营商需要更加精细地研究用户的行为，分析碎片化特点，设计更好的应用和服务，在未来的市场竞争中占据主动。

尼尔森在线研究的调查结果显示(见图1)，56％的用户一天多次移动上网，72％用户每天至少一次移动上网；21％的用户每次移动上网时长超过1小时，42％的用户每次移动上网超过30分钟；78％的用户移动上网来消磨时间，72％的用户在独自一个人时会使用移动上网，70％的用户会在交通工具上移动上网。这些都显示了用户上网的需求及上网时间的碎片化。

目前对于客户的研究主要还集中在客户的偏好情况，但是用户的需求越来越个性化，具体化，这就需要去把握客户在不同时间上的需求，并找出不同群体时间上的共同点，以方便网络的优化和产品的营销。对于用户在不同时间上的需求偏好目前还没有具体的研究及应用案例。目前产品的营销过程，主要根据客户的整体偏好标签来提取目标号码支撑营销(见图2)，具体如下：

1、首先根据用户整体偏好形成一个总体标签库；

2、根据新的需求，匹配产品与用户整体偏好标签；

3、针对这个需求做事件营销。

由于目前客户的需求更加具体化、个性化，单纯的以客户整体偏好来提取目标号码，丢掉了客户在不同时间的需求不同，在产品推广及营销的过程中会造成客户感知下降，响应低等问题。比如说，白领早上7点到9点偏好QQ和UC浏览器，而外来工偏好飞信(见图3)。

互联网及移动互联网的信息都是瞬间变化的，传统的用户需求偏好的识别方法考虑的是用户的整体偏好，时间观念不强，而且时间周期长，已经不能满足信息变化的脚步。

发明内容

本发明目的在于提供一种基于用户时间碎片的业务偏好识别方法，旨在抓住移动互联网瞬间变换的有利信息，基于用户时间碎片识别出对应客户的业务偏好，从而提高运营商的业务发展效率。

本发明的上述目的通过独立权利要求的技术特征实现，从属权利要求以另选或有利的方式发展独立权利要求的技术特征。

为达成上述目的，本发明提出一种基于用户时间碎片的业务偏好识别方法，包括：

步骤1、客户手机上网WAP日志采集,并将采集的数据传入数据库服务器；

步骤2、数据预处理，对采集的数据进行清洗转换、会话识别分析以及内容分类处理；

步骤3、基于用户每月WAP日志，描述和分析用户流量波动；

步骤4、综合每个用户的月WAP日志数据，进行曲线分段拟合；

步骤5、基于曲线分段拟合结果，提取个人用户时间碎片；

步骤6、基于个人用户时间碎片提取结果，对用户时间序列进行相似性聚类，以区分具有相似形态的用户群体，再统计同一类用户群体中的碎片时间集中的时间序列片段以及碎片时间的需求偏好，得到群体特征描述。

进一步的实施例中，在前述步骤4的曲线分段拟合过程中，采用检索边界点的分割方法，对给定时间间距阈值与幅值比阈值拟合相应的分段函数，确定函数中关键变化的点，然后以检索出的点为边界划分成各个子序列，提取个人用户时间碎片。

具体地，检索边界点的分割方法，包括以下步骤：

假设时间序列为S＝(s₁s₂……s_i……s_n),其中s_i＝y_i,i为时间刻度值,y_i为i时刻的流量幅度值,i取值为[1，1440]，假设边界点集A＝(a₁a₂……a_i……a_k)，则我们能根据分割点得出k条线性回归方程，其集合为F＝(f_i(w₁，x₁)f₂(w₂，x₂)……f_i(w_i，x_i)……f_k(w_k，x_k)，即:

其中：

ε_i(x_i)是第i段的误差项

ε_i(x_i)均值为零的高斯白色噪声函数

f_i(w_i，x_i)＝w_i*x_i+b_i

具体流程如下：

首先,检索分段时间的边界点的方法如下:

a.给定流量幅值比例阈值δ，0≤δ≤1，流量参考点G，G取大于零的常量

b.扫描数据库服务器,以时间先后为序,依次求出t_i时刻的流量幅值与G的比值为B_i，1≤i≤1440；

c.满足比例值|B_i+1-B_i|≥δ时,则记录此时刻t_i、幅值比B_i，并设t_i为其中一个分割点a_j，最终形成分割点集合A。

d.以分割点集合A为边界将连续时间序列分成k子序列Sub＝(sub₁sub₂……sub_i……sub_k)，其中sub_i＝y_t|t∈[a_i-1，a_i)。

以ti，Ai集合中每一点为分界点,分时间序列为各子序列,对F使用最小二乘法进行拟合，每个子回归函数的拟合样本为其对应的sub_i，经过最小二乘法拟合后，得到每个模型的w_i和b_i。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外，所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是移动互联网应用调查结果示意图。

图2是产品营销过程示意图。

图3是不同用户群体的不同上网时间示意图。

图4是本发明的基于用户时间碎片识别的原理示意图。

图5是本发明的基于用户时间碎片识别的互联网触点方法的示意图。

图6是用户日流量波动图。

图7是时间段划分后的示意图。

图8是基于用户时间碎片识别的用户标签输出作为其他营销系统、网络优化系统及客服系统等来调用的示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

结合图4-5所示，根据本发明的实施例，一种基于用户时间碎片的业务偏好识别方法，其实现包括：

步骤3、基于用户每月WAP日志，描述和分析用户流量波动；

步骤4、综合每个用户的月WAP日志数据，进行曲线分段拟合；

步骤5、基于曲线分段拟合结果，提取个人用户时间碎片；

下面结合附图所示，进一步描述前述各个步骤的示例性实现。

在一些实施例中，前述步骤1中，客户手机上网WAP日志采集的实现包括：

根据GB网络现状，在IP承载网中的汇聚CE至AR间的链路中进行GB口的采集，在汇聚CE设备进行端口镜像复制方式采集，然后将采集到的数据通过信令解码平台对数据进行实时解码，并将解码后的数据共享到数据共享设备，然后通过FTP接口传入到数据库服务器，如此以便后续使用。

在一些实施例中，前述步骤2中，对采集数据的清洗转换，是指对于采集数据的填补遗漏数据处理、平滑有噪声数据以及解决数据不一致。

具体地，数据清洗包括了下述处理：

遗漏数据处理：如果多个记录中的属性值为空，则对于为空的属性值，采用以下方法之一进行遗漏数据处理：忽略该条记录、利用缺省值填补遗漏值、利用均值填补遗漏值、利用同类别均值填补遗漏值、利用最可能的值填补遗漏值；

噪声数据处理：采用下述之一方法进行处理：Bin方法、聚类方法、回归方法；

不一致数据的剔除/修改处理：对于一条或者多条不一致数据，利用它们与外部的关联关系进行剔除和修改处理，这些修改过程可采用：例程、知识工程工具中的至少一种来实现。

在一些实施例中，前述步骤2中，会话识别分析是指基于时间阈值或者基于用户访问页面时的参引页面来识别用户从进入站点到离开站点期间所访问的一系列页面序列集合。

在一些实施例中，前述步骤2中，基于时间阈值的会话识别方法包括：

1)设定会话的持续时间阈值，即一个会话总的持续时间不超过θ；

2)设定页面的访问时间阈值η，如果(Pid_i,t_i)，(Pid_i+1,t_i+1)为一个用户访问序列中两条相邻访问记录，只有t_i+1–t_i≤η时，才认为这两条记录属于同一个会话。当t_i+1–t_i＞η时，(Pid_i,t_i)是上一会话的最后一条访问记录，而(Pid_i+1,t_i+1)是新会话的第一条访问记录。

在一些实施例中，前述步骤2中，基于用户访问页面时的参引页面，即引用页。假设(Pid_i,t_i)、(Pid_i+1,t_i+1)为一个用户访问序列中两条相邻访问记录。其中(Pid_i,t_i)属于会话S，如果请求页面Pid_i+1的引用页面曾经在会话S中出现过，则Pid_i+1属于会话S；若Pid_i+1的引用页面为空且t_i+1–t_i≤Δ，Δ为设定的阈值，取10s，则Pid_i+1属于会话S。

在一些实施例中，前述步骤2中，内容分类处理包括：对WAP日志数据得到的URL进行解析，抽取关键信息，根据这些信息进行分类，建立实例库。例如，首先，通过样例URL建立一个实例库，然后当新的URL输入的时候，就进行实例库匹配，若没有此URL的实例，则更新实例库。

具体地，在一些具体的实现方式上，这样的内容分类包括：

1)网页解析

包括:网页爬取、信息抽取、网页分类，根据分类信息进行字段增强、规则分类、实例分类、关键字输出。

2)实例库匹配

将用户访问URL与已经积累过的URL库进行匹配,如果库中已经存在,则直接输出网页分类结果。如果库中没有该URL，则爬取网页内容并进行语义解析和分类。

3)实例库更新

实例库更新用于将网页解析模块获取的URL分类信息更新到实例库以供内容识别使用。实例库更新模块自动扫描爬虫程序输出的爬取结果清单，确定清单中所有条目的Json字段非空后，批量更新至URL实例库。

进一步的实施例中，在前述步骤3中，在描述和分析用户流量波动时，将一天的时间转换成1440分钟，并以数字1-1440代替，其中，0:00-0:01用1来代替，0:01-0:02用2来代替，以此类推。

本例中，我们根据用户每月(日数据客户行为特征不具有常态化)的WAP日志数据，描绘用户流量波动图(流量可以分解为各个应用的叠加)，为方便计算我们把一天的时间化成1440分钟，并以数字1-1440代替，例如，0:00-0:01用1来代替，0:01-0:02用2来代替，以此类推(见图6)。

具体地，检索边界点的分割方法，包括以下步骤：

其中：

ε_i(x_i)是第i段的误差项

ε_i(x_i)均值为零的高斯白色噪声函数

f_i(w_i，x_i)＝w_i*x_i+b_i

具体流程如下：

首先,检索分段时间的边界点的方法如下:

e.给定流量幅值比例阈值δ，0≤δ≤1，流量参考点G，G取大于零的常量

f.扫描数据库服务器,以时间先后为序,依次求出t_i时刻的流量幅值与G的比值为B_i，1≤i≤1440；

g.满足比例值|B_i+1-B_i|≥δ时,则记录此时刻t_i、幅值比B_i，并设t_i为其中一个分割点a_j，最终形成分割点集合A。

h.以分割点集合A为边界将连续时间序列分成k子序列Sub＝(sub₁sub₂……sub_i……sub_k)，其中sub_i＝y_t|t∈[a_i-1，a_i)。

以ti，Ai集合中每一点为分界点,分时间序列为各子序列,对F使用最小二乘法进行拟合，每个子回归函数的拟合样本为其对应的sub_i，经过最小二乘法拟合后，得到每个模型的w_i和b_i，拟合结果见图7所示。

在一些实施例中，在前述步骤5进行个人用户时间碎片提取时，基于检索边界点的方法找出时间段的各个分割点，寻找碎片时间片段，取出Ai>＝D(幅值比例阈值)的时间点集合。合并相邻的时间点，得到碎片时间片段。例如有时间集合[1,2,3,7,8,100,101]则合并成1-3，7-8，100-101三段时间碎片曲线。但是由于部分分割点距离较近，造成分割片段过于破碎，使用不方便，因此需要把临近的时间段合并。

首先把分割的时间段按照时间顺序排列，假设第i个时间段为[ai,bi]，则距离d＝a_i+1-b_i，如果距离d小于给定阈值，则合并此两段时间。

经过上面的处理可以得出个人用户不同的碎片时间段(为了方便使用，本例中时间片段为5-30分钟)。然后根据在不同碎片时间里面的偏好分类，取其流量最大的那个偏好作为该时间段的业务偏好。例如13500159056，在8:30-8:50时间段内活跃的业务有QQ、UC浏览器，通过分析UC浏览器占了80％的流量，而该用户通过UC浏览器主要用于体育新闻的浏览，那该用户在该碎片时间片段内的偏好定义为体育新闻。

在一些实施例中，在步骤6进行用户时间序列相似性聚类时，由检索时间边界算法划分用户时间序列算法得到时间序列关键分割点的集合,每两个关键点之间构成一组形态各异的有限长分段，对不同用户的碎片时间片段做聚类，但是由于分段序列最基本的计算单元是分段而不是一维数据点,采用基于点距离方法显然不能完全描述分段之间的形态相似性，为此本方案提出利用各自分段点比例值(ti,Ai)及该线段比例值Ai之和作为各线段是否形态相似的测度S。

S = Σ \frac{A_{i}}{B_{i}} + \frac{{ΣA}_{i}}{{ΣB}_{i}}

上式中，i的取值范围取决于线段的长度，也就是包含的分钟数，A和B分别为两个手机用户，Ai为A用户在ti时段的曲线函数取值。S定义为此两个用户在相同时间段上线段的相似度。

利用现有的K-means聚类，以形态相似性度量值S作为K-means聚类算法的距离计算值。算法过程如下：

(1)从n个用户对象任意选择k个对象作为初始聚类中心；

(2)根据每个聚类对象的均值，计算每个对象与这些中心对象的距离(即形态相似性度量S的值)；并根据最小距离重新对相应对象进行划分；

(3)重新计算每个(有变化)聚类的均值(中心对象)；

(4)循环(2)到(3)直到每个聚类不再发生变化为止。

通过聚类把具有相似形态的用户群体区分出来，同一类群体说明他们具有类似的时间碎片及上网轨迹，可能会具有相同的需求。统计同一类群体中的碎片时间比较集中的时间序列片段，及碎片时间的需求偏好，得出如下所示的群体特征描述。

在一些例子中，前述例子中提出的方法还包括下述步骤：

固化用户标签，即在得到的每个用户的碎片时间片段及用户所在群体的特征描述，我们以此固化为标签，作为规则供使用。例如，下表中描述的标签。

用户	时间碎片(1-n)	偏好(1-n)	归属群体	时间碎片(1-n)	群体偏好(1-n)
						13556890123	8:30-8:50	体育	上班一族	8:20-8:50	新闻
13923870620	18:40-19:05	游戏	学生	18:40-19:10	聊天
						13438009210	21:05-21:30	游戏	外来工	21:00-21:30	游戏

每个用户都有不同的时间碎片片段及其时间片段内的需求偏好，群体的时间碎片及偏好以群体中用户占比最高的时间序列和业务偏好为主。

在另一些实施例中，我们还可以根据这些用户标签作为本系统的输出，可以作为其他营销系统、网络优化系统及客服系统等来调用，以满足不同业务场景的需求，例如图8所示的应用示意图。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于用户时间碎片的业务偏好识别方法，其特征在于，包括：

步骤3、基于用户每月WAP日志，描述和分析用户流量波动；

步骤4、综合每个用户的月WAP日志数据，进行曲线分段拟合；

步骤5、基于曲线分段拟合结果，提取个人用户时间碎片；

2.根据权利要求1所述的基于用户时间碎片的业务偏好识别方法，其特征在于，所述步骤1中，客户手机WAP日志的采集，具体包括：在IP承载网中的汇聚CE至AR间的链路中进行GB口的采集，在汇聚CE设备进行端口镜像复制方式采集，然后将采集到的数据通过信令解码平台对数据进行实时解码，并将解码后的数据共享到数据共享设备，然后通过FTP接口传入到数据库服务器。

3.根据权利要求1所述的基于用户时间碎片的业务偏好识别方法，其特征在于，所述步骤2中，对采集数据的清洗转换，包括对采集数据的填补遗漏数据处理、平滑有噪声数据以及解决数据不一致处理。

4.根据权利要求1所述的基于用户时间碎片的业务偏好识别方法，其特征在于，所述步骤2中，会话识别分析是指基于时间阈值或者基于用户访问页面时的参引页面来识别用户从进入站点到离开站点期间所访问的一系列页面序列集合。

5.根据权利要求1所述的基于用户时间碎片的业务偏好识别方法，其特征在于，前述步骤2中，内容分类处理包括：对WAP日志数据得到的URL进行解析，抽取关键信息，根据这些信息进行分类，建立实例库，当新的URL输入的时候，就进行实例库匹配，若没有此URL的实例，则更新实例库。

6.根据权利要求1所述的基于用户时间碎片的业务偏好识别方法，其特征在于，在前述步骤4的曲线分段拟合过程中，采用检索边界点的分割方法，对给定时间间距阈值与幅值比阈值拟合相应的分段函数，确定函数中关键变化的点，然后以检索出的点为边界划分成各个子序列，提取个人用户时间碎片。

7.根据权利要求6所述的基于用户时间碎片的业务偏好识别方法，其特征在于，检索边界点的分割方法，具体包括:

其中：

ε_i(x_i)是第i段的误差项

ε_i(x_i)均值为零的高斯白色噪声函数

f_i(w_i，x_i)＝w_i*x_i+b_i

具体流程如下：

首先,检索分段时间的边界点的方法如下:

d.以分割点集合A为边界将连续时间序列分成k子序列Sub＝(sub₁sub₂……sub_i……sub_k)，其中sub_i＝y_t|t∈[α_i-1，α_i)。

8.根据权利要求7所述的基于用户时间碎片的业务偏好识别方法，其特征在于，在前述步骤5进行个人用户时间碎片提取时，基于检索边界点的分割方法找出时间段的各个分割点，寻找碎片时间片段，取出Ai>＝D的时间点集合，D为设定的幅值比例阈值，合并相邻的时间点，得到碎片时间片段。

9.根据权利要求1所述的基于用户时间碎片的业务偏好识别方法，其特征在于，该方法更加包含以下步骤：

固化用户标签，即在得到的每个用户的碎片时间片段及用户所在群体的特征描述，以此固化为标签。

10.根据权利要求9所述的基于用户时间碎片的业务偏好识别方法，其特征在于，该方法更加包含以下步骤：

以所述用户标签为输出，根据这些用户标签来供其他营销系统、网络优化系统及客服系统调用。