CN104077412A

CN104077412A - 一种基于多Markov链的微博用户兴趣预测方法

Info

Publication number: CN104077412A
Application number: CN201410334853.9A
Authority: CN
Inventors: 郑相涵; 陈国龙; 安东云; 郭文忠; 於志勇
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-07-14
Filing date: 2014-07-14
Publication date: 2014-10-01
Anticipated expiration: 2034-07-14
Also published as: CN104077412B

Abstract

本发明涉及一种基于多Markov链的微博用户兴趣预测方法，包括以下步骤：1、分别获取q个、p个用户发表的微博作为训练数据、测试数据；2、以用户为单位，对训练数据、测试数据进行预处理，提取每个用户的兴趣特征值；3、将训练数据转化为Markov链，再基于Markov链两两之间的聚类相似度，对Markov链进行合并，然后利用合并后的Markov链建立多Markov链模型；4、对测试数据进行用户分类；5、基于对测试数据分类得到的用户类别，利用多Markov链模型预测用户的兴趣特征。该方法可以有效预测微博用户的兴趣。

Description

一种基于多Markov链的微博用户兴趣预测方法

技术领域

本发明涉及社交网络信息分析技术领域，特别是涉及一种基于多Markov链的微博用户兴趣预测方法。

背景技术

随着Web2.0技术和无线网络技术的发展，社交网络对人类社会和生活的影响越来越大。微博作为当今流行的一种社交网络平台，它为用户提供了一个实时交流平台。微博用户可以通过电脑或者移动终端关注自己感兴趣的信息，实时地获取各种网络资源，并发表个人观点等。

相关数据显示，我国微博用户数量由2010年底的6311万猛增至2012年6月的2.74亿，使用率增长近300%，中国网民使用微博的比例已经过半。如此庞大的用户数量群，其知识层次差别很大，所产生的网络信息良莠不齐、形式各异。同时，不同用户的信息需求也不尽相同。

发明内容

本发明的目的在于提供一种基于多Markov链的微博用户兴趣预测方法，该方法可以有效预测微博用户的兴趣。

为实现上述目的，本发明的技术方案是：一种基于多Markov链的微博用户兴趣预测方法，包括以下步骤：

步骤S1：获取q个微博用户发表或转发的微博信息作为训练数据，获取p个微博用户发表或转发的微博信息作为测试数据；

步骤S2：以微博用户为单位，对所述训练数据、测试数据进行预处理，从微博用户发表或转发的微博信息中提取每个微博用户对应的n个兴趣特征值，分别转换为文本向量；

步骤S3：将所述训练数据对应的q个微博用户作为独立的用户类别，每个微博用户利用其对应的n个兴趣特征值生成一条对应的Markov链，共得到q条Markov链，然后计算所述q条Markov链两两之间的聚类相似度，根据聚类相似度对Markov链进行合并，得到若干条合并后的Markov链，每一条合并后的Markov链对应一类微博用户，利用所有合并后的Markov链建立多Markov链模型；

步骤S4：利用最小错误率的贝叶斯判定规则，对所述测试数据对应的p个微博用户进行用户分类；

步骤S5：基于步骤S4确定的微博用户的用户类别，利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。

进一步的，步骤S1中，对训练数据、测试数据进行预处理包括中文分词和停用词处理，中文分词的方法为：采用中文分词系统，结合自定义的用户词典对微博信息进行分词，停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤，从而降低微博信息的噪音。

进一步的，步骤S3中，多Markov链模型的建立方法如下：

将多Markov链模型表示为一个四元组：(X, K, p(C), MC)；

其中，X 是一个离散随机变量，值域为{x₁, x₂, …,x_i,…, x_n}，每个x_i对应一个微博用户的兴趣特征值，称为模型的一个状态；K 表示多Markov链模型包含的用户类别的数目；C={c₁,c₂,…,c_k}表示用户类别，其分布函数p(C)表示不同类别用户的概率分布；MC={mc₁, mc₂, …, mc_k}为Markov链的集合，每一个元素mc_k是描述类别为c_k的一类微博用户的兴趣特征值的Markov链；

类别为c_k的一类微博用户的兴趣特征值的Markov链的转移矩阵A_k和初始状态分布λ_k分别为：

（1）

（2）

其中，p_kij表示类别为c_k的一类微博用户的兴趣特征值中兴趣x_i和兴趣x_j同时出现的概率，p_ki表示类别为c_k的一类微博用户的兴趣特征值出现的初始状态分布；采用贝叶斯估计法计算转移矩阵A_k和初始状态分布λ_k中的p_kij和p_ki：

（3）

（4）

其中，α_kij为超级参数，采用贝叶斯假设确定其值；S_kij表示类别为c_k的所有用户的兴趣特征值序列中，状态对(x_i, x_j)出现的次数；

聚类相似度定义如下：

对于任意两个转移矩阵A_k、A_l，设A_k、A_l的第i行分别为p_kij、p_lij，p_ki、p_li都表示在给定X[t-1]=xi条件下变量X[t]的分布，即p(X_t|X_t-1= xi)，则p_ki、p_li的近似程度用它们的交叉熵CE(p_ki, p_li)为：

（5）

则转移矩阵A_k、A_l的聚类相似度δ_kl为：

（6）

（7）

评价聚类结果的准则函数定义如下：

多Markov链模型中，一个用户的兴趣特征由其所属的Markov链描述，这些内部概率依赖关系表示为一个含有隐变量，即类别变量C的Bayes网络；

将p(M|D)作为评价聚类结果的准则函数：

（8）

其中，M表示一个Bayes网络模型，D表示训练数据，p(M|D)为后验概率，其越大此模型越优；

p(D|M)表示模型M的似然函数，采用如下公式计算：

（9）

其中L(D, C)表示对于节点C的似然函数，L(D, X_t-1, X_t)表示对节点(X_t-1, X_t)的似然函数，分别利用下式计算：

（10）

（11）

对Markov链进行合并：当c_k和c_l属于同一类的话，合并后的Markov链mc_(k+l)为：

（12）

（13）

多Markov链模型的建立流程如下：

步骤S301：设训练数据D={d₁, d₂, …, d_q}，利用式(1)~(4)，将训练数据D转化为q条Markov链；然后利用式(5)~(7)，计算q条Markov链两两之间的聚类相似度，并将计算得到的聚类相似度按从大到小排列成相似度队列Q；利用式(8) ~(11)，计算每条Markov链的准则函数值p_old，设初值p_new=p_old；

步骤S302：当p_old小于等于p_new时，令p_new等于p_old；

步骤S303：遍历相似度队列Q，利用式(12)、(13)，尝试合并Q[I]所对应的两个Markov链，并计算准则函数值p_new，其中Q[I]表示相似度队列Q中第I个元素，I=1, 2, …, length[Q]，length[Q]表示相似度队列Q中元素的个数；如果p_new大于p_old，正式合并Q[I]对应的两个Markov链，并重新计算并排序相似度队列Q；

步骤S304：重复步骤S302、S303，直至每条Markov链的p_old大于p_new，最终获得k条合并后的markov链；

步骤S305：计算结束，步骤S304获得的k条合并后的markov链即组成所述多Markov链模型。

进一步的，步骤S4中，对微博用户进行分类的方法如下：

根据贝叶斯公式，一用户属于类别c_k的概率为：

（14）

p ( x₁ , x₂ , … , x_n)为序列( x₁，x₂，…，x_n)的边际概率，对于不同的分类，该值都不会改变，为常数；

利用最小错误率的贝叶斯判定规则得到：

（15）。

进一步的，步骤S5中，采用如下公式预测微博用户的兴趣特征：

（16）

其中，A_k ^h表示第k类微博用户的兴趣特征值对应的Markov链的h 阶转移矩阵；w_i是权值，满足等式w₁+w₂+…+w_h=1；H(t)=[0, 0, …, 1]表示微博用户在时刻t的状态，如果此时微博用户处于状态xi，则该向量的第i维等于1，其余各维都为0；

在向量V(t)中，概率值最大的那一向量分量所对应的状态，就是微博用户在时刻t最可能的状态，从而得到该微博用户所属的兴趣特征。

本发明的有益效果是提供了一种基于多Markov链的微博用户兴趣预测方法，该方法运用多马尔科夫链模型，实现了对微博用户的兴趣的预测，从而可以根据不同时刻用户发表的不同微博进行分析，预测出用户最感兴趣的微博，对其进行推荐。

附图说明

图1是本发明实施例的实现流程图。

图2是本发明实施例中Bayes网络的示意图。

具体实施方式

本发明基于多Markov链的微博用户兴趣预测方法，如图1所示，包括以下步骤：

步骤S1：获取q个微博用户发表或转发的微博信息作为训练数据，获取p个微博用户发表或转发的微博信息作为测试数据（q、p均为大于2的整数）。

在步骤S1中，对训练数据、测试数据进行预处理包括中文分词和停用词处理，中文分词的方法为：采用中文分词系统（本发明采用中科院计算所中文分词系统（ICTCLAS），它是一种基于层叠隐形马尔科夫模型的中文分词系统），结合自定义的用户词典对微博信息进行分词，停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤，从而降低微博信息的噪音。

步骤S2：以微博用户为单位，对所述训练数据、测试数据进行预处理，从微博用户发表或转发的微博信息中提取每个微博用户对应的n个兴趣特征值，分别转换为文本向量。

步骤S3：将所述训练数据对应的q个微博用户作为独立的用户类别，每个微博用户利用其对应的n个兴趣特征值生成一条对应的Markov链，共得到q条Markov链，然后计算所述q条Markov链两两之间的聚类相似度，根据聚类相似度对Markov链进行合并，得到若干条合并后的Markov链，每一条合并后的Markov链对应一类微博用户，利用所有合并后的Markov链建立多Markov链模型。

在步骤S3中，多Markov链模型的建立方法如下：

将多Markov链模型表示为一个四元组：(X, K, p(C), MC)；

（1）

（2）

（3）

（4）

聚类相似度定义如下：

（5）

则转移矩阵A_k、A_l的聚类相似度δ_kl为：

（6）

（7）

当两个Markov链具有完全相同的动态特征时，相似度的值δ_kl为无穷大；两个Markov链的动态特征差异越大，相似度的值δ_kl就越小；

评价聚类结果的准则函数定义如下：

多Markov链模型中，一个用户的兴趣特征由其所属的Markov链描述，这些内部概率依赖关系表示为一个含有隐变量，即类别变量C的Bayes网络，如图2所示：

将p(M|D)作为评价聚类结果的准则函数：

（8）

p(D|M)表示模型M的似然函数，采用如下公式计算：

如图2所示，该Bayes 网络有两个节点，所以

（9）

（10）

（11）

（12）

（13）

多Markov链模型的建立流程如下：

步骤S302：当p_old小于等于p_new时，令p_new等于p_old；

步骤S4：利用最小错误率的贝叶斯判定规则，对所述测试数据对应的p个微博用户进行用户分类。

在步骤S4中，对微博用户进行分类的方法如下：

根据贝叶斯公式，一用户属于类别c_k的概率为：

（14）

利用最小错误率的贝叶斯判定规则得到：

（15）。

步骤S5：基于步骤S4确定的微博用户的用户类别，根据每类微博用户的兴趣特征值，利用步骤S3建立的多Markov链模型预测微博用户的兴趣特征。

在步骤S5中，采用如下公式预测微博用户的兴趣特征：

（16）

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于多Markov链的微博用户兴趣预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法，其特征在于，步骤S1中，对训练数据、测试数据进行预处理包括中文分词和停用词处理，中文分词的方法为：采用中文分词系统，结合自定义的用户词典对微博信息进行分词，停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤，从而降低微博信息的噪音。

3.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法，其特征在于，步骤S3中，多Markov链模型的建立方法如下：

将多Markov链模型表示为一个四元组：(X, K, p(C), MC)；

（1）

（2）

（3）

（4）

聚类相似度定义如下：

（5）

则转移矩阵A_k、A_l的聚类相似度δ_kl为：

（6）

（7）

评价聚类结果的准则函数定义如下：

将p(M|D)作为评价聚类结果的准则函数：

（8）

p(D|M)表示模型M的似然函数，采用如下公式计算：

（9）

（10）

（11）

（12）

（13）

多Markov链模型的建立流程如下：

步骤S302：当p_old小于等于p_new时，令p_new等于p_old；

4.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法，其特征在于，步骤S4中，对微博用户进行分类的方法如下：

根据贝叶斯公式，一用户属于类别c_k的概率为：

（14）

利用最小错误率的贝叶斯判定规则得到：

（15）。

5.根据权利要求1所述的一种基于多Markov链的微博用户兴趣预测方法，其特征在于，步骤S5中，采用如下公式预测微博用户的兴趣特征：

（16）