CN104616077A

CN104616077A - 基于Markov链和关联规则的用户业务行为预测方法

Info

Publication number: CN104616077A
Application number: CN201510051487.0A
Authority: CN
Inventors: 张晖; 王超
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-05-13

Abstract

本发明公开了一种基于Markov链和关联规则的用户业务行为预测方法，该方法针对预测算法的问题，首先用二阶Markov链生成预测候选集，再利用二项关联规则修正预测结果，能够有效地提高预测算法的准确性。该方法的用户业务行为预测算法具有很好的理论性能保证，预测准确度高。本发明只需要扫描一轮数据库即可，相比与传统的挖掘二项关联规则算法，该方法节省了大量的时间和空间，改进了Markov链的二阶转移矩阵的计算方法，用二阶Markov链生成预测候选集，在此基础之上利用二项关联规则修正预测结果。

Description

基于Markov链和关联规则的用户业务行为预测方法

技术领域

本发明涉及一种在无线泛在环境下基于Markov链和关联规则的用户业务行为预测方法，属于通讯技术领域。

背景技术

进入21世纪以来，随着微电子、芯片及信息通信技术的不断发展，人类将逐步进入泛在网络时代，其中无线泛在网络，即：无线泛在环境使人置身于无所不在的网络之中，实现人在任何时间、地点，使用任何网络与任何人与物的信息交换，基于个人和社会的需求，利用现有网络技术和新的网络技术，为个人和社会提供泛在的，无所不含的信息服务和应用。伴随着互联网技术的快速发展，业务资源也随之呈现爆炸式增长的态势，如何从海量的业务资源中，快速高效地获取用户所需的业务，使得用户获得较高的用户体验，成为了关注的重点领域。无线泛在环境下，将以用户为中心，业务的产生直接来源于用户的需求，多模终端可以接入不同无线网络，如何实现不同无线接入网间的网络资源与终端能力的有效利用，改善信息传输服务质量，从不同角度、不同层次满足用户需求，提高用户体验质量以及为用户提供智能服务，因此，有必要对用户行为预测进行研究。

在未来无线泛在环境下，2G/3G/4G蜂窝移动通信网、IEEE 802.11无线局域网(WLAN)和IEEE 802.16无线城域网(WiMAX)将作为主流的无线接入方式并存，接入网络之间将通过有线骨干网或无线Mesh网等互联互通，用户终端之间亦将借助IEEE 802.11或IEEE802.15等系列技术实现Ad Hoc连接，从而为泛在的业务需求提供泛在的无线接入；另一方面,最近5年随着移动智能终端和移动操作系统快速发展，进一步增强了移动终端的用户体验。现有的有线互联网业务类型几乎都可以移植到移动互联网上来,为实现业务无线化提供了设备条件。

无线业务个性化已经成为当今业务发展的新热点，随着用户个性化特征的日趋明显，个性化推送甚至发展成为运营商、业务商新的营销理念和趋势。因此个性化推送技术应运而生，它能从大量用户行为历史信息中，通过各种的挖掘算法和预测模型，适时适度地向用户自动推送出符合其需求的业务，为用户提供个性化的业务定制服务及业务推荐，同时为业务商推出新业务提供决策依据。

目前国内外对用户行为的研究主要侧重于挖掘和分析用户行为特征和规律以及用户行为预测方面。相关研究采用的工具包括数据挖掘算法和Markov预测模型等。其中Markov模型是一种简单且有效的模型。由于Markov链的无后效性，目前大多采用Markov模型理论对用户行为进行预测。Markov模型以其大的信息保留量，从而保证了其预测准确的特点而成为这方面研究的一个典型模型。

然而K阶Markov链模型忽略了较早的历史知识，只是假设下一业务只与最新的K个业务有关系，简化了预测模型，减少了计算时间，但是预测准确度也会随之下降。针对这个问题。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于提出了一种基于Markov链和关联规则的用户业务行为预测方法，该方法针对预测算法的问题，首先用二阶Markov链生成预测候选集，再利用二项关联规则修正预测结果，能够有效地提高预测算法的准确性。该方法的用户业务行为预测方法具有很好的理论性能保证，预测准确度高。

本发明解决其技术问题所采取的技术方案是：一种基于Markov链和关联规则的用户业务行为预测方法，该方法首先改进了Markov链的二阶转移矩阵的计算方法，用二阶Markov链生成预测候选集，在此基础之上利用二项关联规则修正预测结果，该方法在保证预测准确率的同时，能在线性时间内完成在线预测。

方法流程：

步骤1：用Markov链预测模型返回下一步有可能会使用的业务集和这些业务对应的Markov预测概率；

步骤2：利用二项关联规则从两个角度来修正预测结果；

步骤3：分别计算v中所有业务与r_i的可信度，如果所有的可信度都小于阀值min_rule，则无论mp(r_i)的值多大，都从m中删除业务r_i；如果存在业务p_j∈v，且p_j与r_i的可信度conf(p_j→r_i)大于阀值max_rule，则r_i的预测概率为：

predit Prob (r_{i}) = λ_{1} \cdot mp (r_{i}) + λ_{2} \cdot \underset{j}{Σ} w_{j} \cdot conf (p_{j} &RightArrow; r_{i}) .

本发明是用n维向量v(t)＝(v₁,v₂,...,v_n)表示用户t时刻状态，如果某用户t时刻的使用业务为x_j，则让v(t)的第j维为1，其余维都为0。用n维向量x(t)＝(x₁,x₂,...,x_n)表示t时刻用户使用各个业务的概率，即x(t)＝(p(X₁＝x₁),p(X₂＝x₂),...,p(X_n＝x_n))。假设某用户的t时刻的业务序列为(......,x_i,x_j)，则当前状态v(t)＝(v₁＝0,v₂＝0,...,v_j＝1,v_j+1＝0,...,v_n＝0)，前一状态v(t-1)＝(v₁＝0,v₂＝0,...,v_i＝1,v_i+1＝0,...,v_n＝0)。则下一时刻用户访问各个业务的概率x(t+1)为：x(t+1)＝α₁v(t)×p(1)+α₂v(t-1)×p(2)。其中α₁为一阶转移矩阵的权值，α₂为二阶转移矩阵的权值，令α₁+α₂＝1。从x(t+1)中选出概率最大的业务作为预测结果。

有益效果：

1、本发明能够将Markov链模型和关联规则相结合，有效地提高了预测算法的准确性。

2、本发明只需要扫描一轮数据库即可，相比与传统的挖掘二项关联规则算法，该方法节省了大量的时间和空间，改进了Markov链的二阶转移矩阵的计算方法，用二阶Markov链生成预测候选集，在此基础之上利用二项关联规则修正预测结果。

3、本发明在保证预测准确率的同时，能在线性时间内完成在线预测。

4、本发明操作非常简单，而且易于实现，具有很好的应用前景。

附图说明

图1为本发明的方法流程图

具体实施方式

下面结合说明书附图对发明创造作进一步的详细说明。

实施例1

本发明具体的实现实施过程包括如下：

a、假设用户业务的选择过程是一个特殊的随机过程──齐次离散Markov链。即设离散随机变量S的值域为用户使用的所有业务集合，则一个用户在无线泛在环境中的业务选择使用过程就构成一个随机变量S的取值序列，并且该序列满足Markov性。二阶Markov链预测模型可以表示为一个四元组{(x_i,x_j),p(1),p(2),x}，其中(x_i,x_j)表示用户最近使用的两种业务，p(1)表示一阶概率转移矩阵，p(2)表示二阶转移矩阵，x表示预测页面。其中，根据以往定理，p(2)＝p²(1)。p_ij(2)代表的是用户使用过业务x_i之后，访问(*,x_j)的概率，其中“*”代表任意业务。在以往的Markov预测模型中，K阶转移矩阵都是通过公式p(k)＝p^k(1)计算。但本方案认为，由于每个用户的业务选择情况差异很大，故K阶转移矩阵应该通过学习获得，而不应该完全遵循理论计算。

一阶概率转移模型p(1)的学习算法如下：

二阶概率转移模型p(2)的学习算法如下：

b、用n维向量v(t)＝(v₁,v₂,...,v_n)表示用户t时刻状态，如果某用户t时刻的使用业务为x_j，则让v(t)的第j维为1，其余维都为0。用n维向量x(t)＝(x₁,x₂,...,x_n)表示t时刻用户使用各个业务的概率，即x(t)＝(p(X₁＝x₁),p(X₂＝x₂),...,p(X_n＝x_n))。

假设某用户的t时刻的业务序列为(......,x_i,x_j)，则当前状态v(t)＝(v₁＝0,v₂＝0,...,v_j＝1,v_j+1＝0,...,v_n＝0)，前一状态v(t-1)＝(v₁＝0,v₂＝0,...,v_i＝1,v_i+1＝0,...,v_n＝0)。则下一时刻用户访问各个业务的概率x(t+1)为：x(t+1)＝α₁v(t)×p(1)+α₂v(t-1)×p(2)。其中α₁为一阶转移矩阵的权值，α₂为二阶转移矩阵的权值，令α₁+α₂＝1。从x(t+1)中选出概率最大的业务作为预测结果。

c、一般来说，本发明可以认为用户下一时刻的业务主要取决于历史业务序列中的某个业务，而不是整个序列，可以通过挖掘用户的历史业务序列从而找到业务的二项关联规则，关联度较大的业务可以认为它们之间存在关联的可能较大。本发明提出了基于矩阵的二项关联规则挖掘方法，该方法只要扫描一轮数据库即可。

基于矩阵的二项关联规则挖掘算法如下：

d、K阶Markov链预测模型忽略了较早的历史访问知识，假设下一个业务只与最近的K个业务有关系，简化了预测模型，减少了计算时间，但是预测准确度也随之下降。针对这个问题，本文提出了基于Markov链和关联规则的预测算法。首先用Markov链预测模型返回下一步有可能会访问的业务集m和这些业务对应的Markov预测概率；再利用二项关联规则来修正预测结果。假设当前用户的业务序列为v＝{p₁,p₂,...,p_s}，Markov预测的结果集m＝{r₁,r₂,...,r_t}，且对应的Markov预测模型概率mp＝{mp(r₁),mp(r₂),...,mp(r_t)}。

对于任意的r_i∈m，分别计算v中所有业务与r_i的可信度，如果所有的可信度都小于阀值min_rule，则无论mp(r_i)的值多大，都从m中删除业务r_i；如果存在业务p_j∈v，且p_j与r_i的可信度conf(p_j→r_i)大于阀值max_rule，则r_i的预测概率为：

predit Prob (r_{i}) = λ_{1} \cdot mp (r_{i}) + λ_{2} \cdot \underset{j}{Σ} w_{j} \cdot conf (p_{j} &RightArrow; r_{i}) .

其中

w_{j} = \frac{j}{| v |},

λ₁+λ₂＝1，λ₁代表Markov的预测权值，λ₂代表关联规则的预测权值，w_j代表规则conf(p_j→r_i)的权值。

实施例2

本发明主要包括三个内容：一是二阶Markov链预测算法；二是二项关联规则挖掘算法；三是基于Markov链和关联规则的预测算法。

1.二阶Markov链预测算法

假设用户业务的选择过程是一个特殊的随机过程──齐次离散Markov链。即设离散随机变量S的值域为用户使用的所有业务集合，则一个用户在无线泛在环境中的业务选择使用过程就构成一个随机变量S的取值序列，并且该序列满足Markov性。二阶Markov链预测模型可以表示为一个四元组{(x_i,x_j),p(1),p(2),x}，其中(x_i,x_j)表示用户最近使用的两种业务，p(1)表示一阶概率转移矩阵，p(2)表示二阶转移矩阵，x表示预测页面。其中，根据定理，p(2)＝p²(1)。p_ij(2)代表的是用户使用过业务x_i之后，访问(*,x_j)的概率，其中“*”代表任意业务。在以往的Markov预测模型中，K阶转移矩阵都是通过公式p(k)＝p^k(1)计算。但本方案认为，由于每个用户的业务选择情况差异很大，故K阶转移矩阵应该通过学习获得，而不应该完全遵循理论计算。

一阶概率转移模型p(1)的学习算法如下：

二阶概率转移模型p(2)的学习算法如下：

用n维向量v(t)＝(v₁,v₂,...,v_n)表示用户t时刻状态，如果某用户t时刻的使用业务为x_j，则让v(t)的第j维为1，其余维都为0。用n维向量x(t)＝(x₁,x₂,...,x_n)表示t时刻用户使用各个业务的概率，即x(t)＝(p(X₁＝x₁),p(X₂＝x₂),...,p(X_n＝x_n))。

二阶Markov链预测算法如下：

输入：用户的当前业务序列(......,x_i,x_j)

输出：预测业务或预测业务集

1、根据当前业务序列构造v(t)和v(t-1)

2、计算x(t+1)＝α₁v(t)×p(1)+α₂v(t-1)×p(2)

3、返回向量x(t+1)中值最大的维对应的业务(或x(t+1)中值大于某阀值的维对应的业务集)

2.二项关联规则挖掘算法

基于矩阵的二项关联规则挖掘算法如下：

3.基于Markov链和关联规则的预测算法

K阶Markov链预测模型忽略了较早的历史访问知识，假设下一个业务只与最近的K个业务有关系，简化了预测模型，减少了计算时间，但是预测准确度也随之下降。针对这个问题，本文提出了基于Markov链和关联规则的预测算法。首先用Markov链预测模型返回下一步有可能会访问的业务集m和这些业务对应的Markov预测概率；再利用二项关联规则来修正预测结果。假设当前用户的业务序列为v＝{p₁,p₂,...,p_s}，Markov预测的结果集m＝{r₁,r₂,...,r_t}，且对应的Markov预测模型概率mp＝{mp(r₁),mp(r₂),...,mp(r_t)}。

predit Prob (r_{i}) = λ_{1} \cdot mp (r_{i}) + λ_{2} \cdot \underset{j}{Σ} w_{j} \cdot conf (p_{j} &RightArrow; r_{i}) .

其中

w_{j} = \frac{j}{| v |},

基于Markov链和关联规则的预测算法如下：

返回predictProb中值最大的业务

综上所述，本发明基于Markov链和关联规则的用户业务行为预测方法，具体流程图如图1所示，实现过程包括如下：

第一步：用Markov链预测模型返回下一步有可能会使用的业务集和这些业务对应的Markov预测概率；

第二步：利用二项关联规则从两个角度来修正预测结果；

第三步：在步骤1中用Markov链预测模型返回下一步有可能会访问的业务集m和这些业务对应的Markov预测概率；再在步骤2中利用二项关联规则来修正预测结果。在此基础上分别计算用户的业务序列v中所有业务与预测结果r_i的可信度，如果所有的可信度都小于阀值min_rule，则无论mp(r_i)的值多大，都从m中删除业务r_i；如果存在业务p_j∈v，且p_j与r_i的可信度conf(p_j→r_i)大于阀值max_rule，则r_i的预测概率为：

predit Prob (r_{i}) = λ_{1} \cdot mp (r_{i}) + λ_{2} \cdot \underset{j}{Σ} w_{j} \cdot conf (p_{j} &RightArrow; r_{i}) .

Claims

1.一种基于Markov链和关联规则的用户业务行为预测方法，其特征在于：所述方法包括如下步骤：

步骤2：利用二项关联规则从两个角度来修正预测结果；

步骤3：在步骤1中用Markov链预测模型返回下一步有可能会访问的业务集m和这些业务对应的Markov预测概率；再在步骤2中利用二项关联规则来修正预测结果，在此基础上分别计算用户的业务序列v中所有业务与预测结果r_i的可信度；如果所有的可信度都小于阀值min_rule，则无论mp(r_i)的值多大，都从m中删除业务r_i；如果存在业务p_j∈v，且p_j与r_i的可信度conf(p_j→r_i)大于阀值max_rule，则r_i的预测概率为：

predit Prob (r_{i}) = λ_{1} \cdot mp (r_{i}) + λ_{2} \cdot \underset{j}{Σ} w_{j} \cdot conf (p_{j} &RightArrow; r_{i}) .

2.根据权利要求1所述的一种基于Markov链和关联规则的用户业务行为预测方法，其特征在于：所述方法是用n维向量v(t)＝(v₁,v₂,…，v_n)表示用户t时刻状态，如果某用户t时刻的使用业务为x_j，则让v(t)的第j维为1，其余维都为0，用n维向量x(t)＝(x₁,x₂,…，x_n)表示t时刻用户使用各个业务的概率，即x(t)＝(p(X₁＝x₁),p(X₂＝x₂),…，p(X_n＝x_n))；假设某用户的t时刻的业务序列为(……，x_i，x_j)，则当前状态前一状态则下一时刻用户访问各个业务的概率x(t+1)为：x(t+1)＝α₁v(t)×p(1)+α₂v(t-1)×p(2)，其中α₁为一阶转移矩阵的权值，α₂为二阶转移矩阵的权值，令α₁+α₂＝1；从x(t+1)中选出概率最大的业务作为预测结果。

3.根据权利要求1所述的一种基于Markov链和关联规则的用户业务行为预测方法，其特征在于：所述方法只需扫描一轮数据库即可。