CN101354714B

CN101354714B - 一种基于概率潜在语义分析的问题推荐方法

Info

Publication number: CN101354714B
Application number: CN2008101209714A
Authority: CN
Inventors: 卜佳俊; 陈纯; 曲明成; 仇光; 吴昊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-09-09
Filing date: 2008-09-09
Publication date: 2010-09-08
Anticipated expiration: 2028-09-09
Also published as: CN101354714A

Abstract

本发明公开了一种基于概率潜在语义分析的问题推荐方法。本发明的方法是通过概率潜在语义分析中的状态模型，描述用户兴趣，进而对用户交互式问答系统提供相适应的问题推荐。本方法采用了三元状态模型，具有基于内容和协同过滤两种推荐方式的优点，根据用户的个性化信息进行问题推荐，在用户交互式问答系统中具有较高的准确率和良好的适用性。

Description

一种基于概率潜在语义分析的问题推荐方法

技术领域

本发明涉及社交网络，问答系统，推荐系统技术，特别是涉及一种基于概率潜在语义分析的问题推荐方法。

背景技术

近年来，旨在增进用户间互相回答问题的用户交互式问答系统成了一个新的研究热点。在过去几年间出现了诸如新浪爱问、百度知道、Yahoo！Answers等用户交互式问答系统。用户可以自由地提出问题、浏览问题、回答问题。然而对于用户来说，寻找自己感兴趣的问题是一件耗费时间的事情。因此，将问题推荐给感兴趣的或者能够回答的用户，是对用户交互式问答系统的一个重要补充。

推荐系统是一种旨在将物品(如电影、音乐、书籍等)呈现给用户的信息过滤技术，通过用户显式的和隐式的偏好将物品推荐给感兴趣的用户。推荐系统可以划分为两大类别。协同过滤式推荐方式利用其他用户的评价信息来向用户进行推荐，而基于内容的推荐方式则是通过了用户信息和物品信息之间的匹配。

现有用户交互式问答系统的问题推荐方法是根据用户提出的和回答的问题，对用户进行兴趣建模，系统将与用户兴趣模型匹配的问题推荐给该用户。然而，这种基于内容的推荐并未充分利用用户之间的联系。为了得到更好的效果，有必要将协同过滤的推荐方式引入问题推荐。

概率潜在语义分析是一种用来分析共线数据的统计方法。该技术在信息检索、信息过滤、自然语言处理、机器学习等相关领域用着广泛的应用。与基于线性代数的传统潜在语义分析技术相比，概率潜在语义分析技术有着坚实的统计学基础。基于概率潜在语义分析的问题推荐方法结合了基于内容的推荐和协同过滤推荐两者的优点，应用在用户交互式问答系统中，具有较高的准确率和良好的适用性。

发明内容

本发明的目的在于提供一种基于概率潜在语义分析的问题推荐方法。

本发明解决其技术问题所采用的技术方案如下：

1)在用户交互式问答系统中提取用户所提出和回答的问题，并对每一个问题抽取其中包含的词语；

2)以用户，问题以及词语作为模型的变量，利用概率潜在语义分析的状态模型计算问题中潜在的主题；其中主题是通过期望最大化方法来找到训练数据对数似然度的局部最大值；

3)利用潜在的主题信息，对每一个新提出的问题，基于先选定主题，再选择具体词语的问题构造方法，计算新提出的问题与每个用户的联合概率，并根据联合概率值的排序结果向用户进行问题推荐。

所述步骤2)中概率潜在语义分析的状态模型，采用三元状态模型(u，q，w)表示用户选定问题，其中包含了词语的事件，其中u表示用户、q表示问题，w表示问题中的词语；给定主题z，假设用户、问题、词语间相互独立，其三者的联合概率为：

\Pr (u, q, w) = \underset{z}{Σ} \Pr (z) \Pr (u | z) \Pr (q | z) \Pr (w | z);

其中，Pr(z)为用户选择某主题的概率，Pr(u|z)为给定主题的情况下用户的概率，Pr(q|z)为给定主题的情况下问题的概率，Pr(w|z)为给定主题的情况下词语的概率。

所述步骤2)中训练数据对数似然度，其计算公式如下：

L = \underset{u, q, w}{Σ} n (u, q, w) \log \Pr (u, q, w);

其中，n(u，q，w)为用户u看见词语w出现在问题q中的次数，其计算公式如下：

n(u，q，w)＝n(u，q)×n(q，w)；

其中，n(u，q)为用户u进入问题q的次数，n(q，w)为词语w在问题q中出现的次数。

所述步骤2)中以期望最大化获取局部最大值的方法，其算法如下：

期望步骤：

\Pr (z | u, q, w) = \frac{\Pr (z) \Pr (u | z) \Pr (q | z) \Pr (w | z)}{\underset{z^{'}}{Σ} \Pr (z^{'}) \Pr (u | z^{'}) \Pr (q | z^{'}) \Pr (w | z^{'})};

其中，Pr(z|u，q，w)为给定用户、问题、词语的情形下，主题的概率，Pr(z)为主题的概率，Pr(u|z)为给定主题的情况下用户的概率，Pr(q|z)为给定主题的情况下问题的概率，Pr(w|z)为给定主题的情况下词语的概率；分子部分为主题、用户、问题、词语的联合概率，而分母部分为用户、问题、词语的联合概率；

最大化步骤：

\Pr (u | z) &Proportional; \underset{q, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (q | z) &Proportional; \underset{u, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (w | z) &Proportional; \underset{u, q}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (z) &Proportional; \underset{u, q, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

期望步骤和最大化步骤循环进行，直到收敛在一个局部最大值上。

所述步骤3)中针对用户进行问题推荐的方法；给定一个用户，问题的概率计算如下：

\Pr (q | u) &Proportional; \underset{w}{Σ} \Pr (u, q, w);

其中，Pr(q|u)为给定用户的情形下问题的概率，在用户确定的情况下，其与问题和用户的联合概率成正比；

根据联合概率的计算，可获得问题排序结果，并将该结果推荐给相应的用户。

本发明与背景技术相比，具有的有益的效果是：

本发明是一种结合了基于内容推荐方式和协同过滤推荐方式的混合推荐方式，通过概率潜在语义分析的三元状态模型，使用期望最大化的方法找到训练数据对数似然度的局部最大值，建立潜在的用户兴趣特征，在此基础上进而将问题推荐给相关用户。本发明因采用了三元状态模型，具有基于内容和协同过滤两种推荐方式的优点，作为用户交互式问答系统的重要组成部分，具有更高的准确率和更广的适用性。

具体实施方式

本发明实施流程首先需要经过训练，然后再进行应用。

训练步骤中，先从用户交互式问答系统中提取出所有用户提出和回答的问题信息，其中每个问题以一个文本向量来表示，包含问题本身及其答案。接下来，使用期望最大化方法来训练三路状态模型，其中状态模型的潜在变量是表示兴趣的向量，其初始值为一组随机值。经过期望最大化的反复迭代过程，兴趣向量将收敛到局部最优的结果。至此，训练步骤完毕。

在应用过程中，根据训练得的兴趣向量，计算问题和用户的联合概率并排序，将最后的问题排序列表推荐给用户。

本发明实施的关键有三点：状态模型的建立和维护，期望最大化方法的实现，问题排序方法的实现。

1.状态模型的建立和维护：

本发明采用的是概率潜在语义分析的三路状态模型，分别代表用户、用户提出和回答的问题、问题的词语信息；给定主题，假设用户、问题、词语之间互相独立；用户、问题、词语的联合概率为：

\Pr (u, q, w) = \underset{z}{Σ} \Pr (z) \Pr (u | z) \Pr (q | z) \Pr (w | z);

状态模型的建立是问题推荐的训练阶段，需要耗费较多的时间；而问题排序则是问题推荐的预测阶段，耗费的时间小，可以根据最新的状态模型进行实时计算。因此对于状态模型的维护，无法采取实时更新，而需要根据合适的间隔进行静态更新。如果状态模型更新的周期过长，则其无法准确反映用户的兴趣状态；如果更新的周期过短，则会对服务器造成额外的负担。状态模型更新维护的周期将根据具体的问答系统和服务器条件做决定。

2.期望最大化方法的实现：

本发明采用期望最大化方法计算训练数据的局部最大值，以此作为全局最大值的近似。其期望步骤计算潜在变量的后验概率：

\Pr (z | u, q, w) = \frac{\Pr (z) \Pr (u | z) \Pr (q | z) \Pr (w | z)}{\underset{z^{'}}{Σ} \Pr (z^{'}) \Pr (u | z^{'}) \Pr (q | z^{'}) \Pr (w | z^{'})};

最大化步骤更新参数值：

\Pr (u | z) &Proportional; \underset{q, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (q | z) &Proportional; \underset{u, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (w | z) &Proportional; \underset{u, q}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (z) &Proportional; \underset{u, q, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

主题z的初始概率分布为随机分布，随后期望步骤和最大化步骤循环进行，直到潜在变量的参数值收敛在固定数值上时，训练数据达到局部最大值。

3.问题排序方法的实现：

本发明通过状态模型计算每个用户的问题排序列表。

给定用户的情形下，问题的概率为Pr(q|u)，因为其与问题和用户的联合概率成正比，只需对每个用户求出每个问题的联合概率，并进行排序。所获得的问题排序列表即为用户最感兴趣的问题列表。最后，将问题列表中用户已回答、已访问过的问题删除，即得到问题推荐列表。

Claims

1.一种基于概率潜在语义分析的问题推荐方法，该方法的步骤如下：

3)利用潜在的主题信息，对每一个新提出的问题，基于先选定主题，再选择具体词语的问题构造方法，计算新提出的问题与每个用户的联合概率，并根据联合概率值的排序结果向用户进行问题推荐；其特征在于：

\Pr (u, q, w) = \underset{z}{Σ} \Pr (z) \Pr (u | z) \Pr (q | z) \Pr (w | z);

2.根据权利要求1所述的一种基于概率潜在语义分析的问题推荐方法，其特征在于：所述步骤2)中训练数据对数似然度，其计算公式如下：

L = \underset{u, q, w}{Σ} n (u, q, w) \log \Pr (u, q, w);

n(u，q，w)＝n(u，q)×n(q，w)；

3.根据权利要求1所述的一种基于概率潜在语义分析的问题推荐方法，其特征在于：所述步骤2)中以期望最大化获取局部最大值的方法，其算法如下：

期望步骤：

\Pr (z | u, q, w) = \frac{\Pr (z) \Pr (u | z) \Pr (q | z) \Pr (w | z)}{\underset{z^{'}}{Σ} \Pr (z^{'}) \Pr (u | z^{'}) \Pr (q | z^{'}) \Pr (w | z^{'})};

最大化步骤：

\Pr (u | z) &Proportional; \underset{q, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (q | z) &Proportional; \underset{u, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (w | z) &Proportional; \underset{u, q}{Σ} n (u, q, w) \Pr (z | u, q, w)

\Pr (z) &Proportional; \underset{u, q, w}{Σ} n (u, q, w) \Pr (z | u, q, w)

n(u，q，w)＝n(u，q)×n(q，w)；

其中，n(u，q)为用户u进入问题q的次数，n(q，w)为词语w在问题q中出现的次数；

4.根据权利要求1所述的一种基于概率潜在语义分析的问题推荐方法，其特征在于：所述步骤3)中针对用户进行问题推荐的方法；给定一个用户，问题的概率计算如下：

\Pr (q | u) &Proportional; \underset{w}{Σ} \Pr (u, q, w);