CN101354714B - 一种基于概率潜在语义分析的问题推荐方法 - Google Patents

一种基于概率潜在语义分析的问题推荐方法 Download PDF

Info

Publication number
CN101354714B
CN101354714B CN2008101209714A CN200810120971A CN101354714B CN 101354714 B CN101354714 B CN 101354714B CN 2008101209714 A CN2008101209714 A CN 2008101209714A CN 200810120971 A CN200810120971 A CN 200810120971A CN 101354714 B CN101354714 B CN 101354714B
Authority
CN
China
Prior art keywords
user
probability
word
theme
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008101209714A
Other languages
English (en)
Other versions
CN101354714A (zh
Inventor
卜佳俊
陈纯
曲明成
仇光
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2008101209714A priority Critical patent/CN101354714B/zh
Publication of CN101354714A publication Critical patent/CN101354714A/zh
Application granted granted Critical
Publication of CN101354714B publication Critical patent/CN101354714B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于概率潜在语义分析的问题推荐方法。本发明的方法是通过概率潜在语义分析中的状态模型,描述用户兴趣,进而对用户交互式问答系统提供相适应的问题推荐。本方法采用了三元状态模型,具有基于内容和协同过滤两种推荐方式的优点,根据用户的个性化信息进行问题推荐,在用户交互式问答系统中具有较高的准确率和良好的适用性。

Description

一种基于概率潜在语义分析的问题推荐方法
技术领域
本发明涉及社交网络,问答系统,推荐系统技术,特别是涉及一种基于概率潜在语义分析的问题推荐方法。
背景技术
近年来,旨在增进用户间互相回答问题的用户交互式问答系统成了一个新的研究热点。在过去几年间出现了诸如新浪爱问、百度知道、Yahoo!Answers等用户交互式问答系统。用户可以自由地提出问题、浏览问题、回答问题。然而对于用户来说,寻找自己感兴趣的问题是一件耗费时间的事情。因此,将问题推荐给感兴趣的或者能够回答的用户,是对用户交互式问答系统的一个重要补充。
推荐系统是一种旨在将物品(如电影、音乐、书籍等)呈现给用户的信息过滤技术,通过用户显式的和隐式的偏好将物品推荐给感兴趣的用户。推荐系统可以划分为两大类别。协同过滤式推荐方式利用其他用户的评价信息来向用户进行推荐,而基于内容的推荐方式则是通过了用户信息和物品信息之间的匹配。
现有用户交互式问答系统的问题推荐方法是根据用户提出的和回答的问题,对用户进行兴趣建模,系统将与用户兴趣模型匹配的问题推荐给该用户。然而,这种基于内容的推荐并未充分利用用户之间的联系。为了得到更好的效果,有必要将协同过滤的推荐方式引入问题推荐。
概率潜在语义分析是一种用来分析共线数据的统计方法。该技术在信息检索、信息过滤、自然语言处理、机器学习等相关领域用着广泛的应用。与基于线性代数的传统潜在语义分析技术相比,概率潜在语义分析技术有着坚实的统计学基础。基于概率潜在语义分析的问题推荐方法结合了基于内容的推荐和协同过滤推荐两者的优点,应用在用户交互式问答系统中,具有较高的准确率和良好的适用性。
发明内容
本发明的目的在于提供一种基于概率潜在语义分析的问题推荐方法。
本发明解决其技术问题所采用的技术方案如下:
1)在用户交互式问答系统中提取用户所提出和回答的问题,并对每一个问题抽取其中包含的词语;
2)以用户,问题以及词语作为模型的变量,利用概率潜在语义分析的状态模型计算问题中潜在的主题;其中主题是通过期望最大化方法来找到训练数据对数似然度的局部最大值;
3)利用潜在的主题信息,对每一个新提出的问题,基于先选定主题,再选择具体词语的问题构造方法,计算新提出的问题与每个用户的联合概率,并根据联合概率值的排序结果向用户进行问题推荐。
所述步骤2)中概率潜在语义分析的状态模型,采用三元状态模型(u,q,w)表示用户选定问题,其中包含了词语的事件,其中u表示用户、q表示问题,w表示问题中的词语;给定主题z,假设用户、问题、词语间相互独立,其三者的联合概率为:
Pr ( u , q , w ) = Σ z Pr ( z ) Pr ( u | z ) Pr ( q | z ) Pr ( w | z ) ;
其中,Pr(z)为用户选择某主题的概率,Pr(u|z)为给定主题的情况下用户的概率,Pr(q|z)为给定主题的情况下问题的概率,Pr(w|z)为给定主题的情况下词语的概率。
所述步骤2)中训练数据对数似然度,其计算公式如下:
L = Σ u , q , w n ( u , q , w ) log Pr ( u , q , w ) ;
其中,n(u,q,w)为用户u看见词语w出现在问题q中的次数,其计算公式如下:
n(u,q,w)=n(u,q)×n(q,w);
其中,n(u,q)为用户u进入问题q的次数,n(q,w)为词语w在问题q中出现的次数。
所述步骤2)中以期望最大化获取局部最大值的方法,其算法如下:
期望步骤:
Pr ( z | u , q , w ) = Pr ( z ) Pr ( u | z ) Pr ( q | z ) Pr ( w | z ) Σ z ′ Pr ( z ′ ) Pr ( u | z ′ ) Pr ( q | z ′ ) Pr ( w | z ′ ) ;
其中,Pr(z|u,q,w)为给定用户、问题、词语的情形下,主题的概率,Pr(z)为主题的概率,Pr(u|z)为给定主题的情况下用户的概率,Pr(q|z)为给定主题的情况下问题的概率,Pr(w|z)为给定主题的情况下词语的概率;分子部分为主题、用户、问题、词语的联合概率,而分母部分为用户、问题、词语的联合概率;
最大化步骤:
Pr ( u | z ) ∝ Σ q , w n ( u , q , w ) Pr ( z | u , q , w )
Pr ( q | z ) ∝ Σ u , w n ( u , q , w ) Pr ( z | u , q , w )
Pr ( w | z ) ∝ Σ u , q n ( u , q , w ) Pr ( z | u , q , w )
Pr ( z ) ∝ Σ u , q , w n ( u , q , w ) Pr ( z | u , q , w )
期望步骤和最大化步骤循环进行,直到收敛在一个局部最大值上。
所述步骤3)中针对用户进行问题推荐的方法;给定一个用户,问题的概率计算如下:
Pr ( q | u ) ∝ Σ w Pr ( u , q , w ) ;
其中,Pr(q|u)为给定用户的情形下问题的概率,在用户确定的情况下,其与问题和用户的联合概率成正比;
根据联合概率的计算,可获得问题排序结果,并将该结果推荐给相应的用户。
本发明与背景技术相比,具有的有益的效果是:
本发明是一种结合了基于内容推荐方式和协同过滤推荐方式的混合推荐方式,通过概率潜在语义分析的三元状态模型,使用期望最大化的方法找到训练数据对数似然度的局部最大值,建立潜在的用户兴趣特征,在此基础上进而将问题推荐给相关用户。本发明因采用了三元状态模型,具有基于内容和协同过滤两种推荐方式的优点,作为用户交互式问答系统的重要组成部分,具有更高的准确率和更广的适用性。
具体实施方式
本发明实施流程首先需要经过训练,然后再进行应用。
训练步骤中,先从用户交互式问答系统中提取出所有用户提出和回答的问题信息,其中每个问题以一个文本向量来表示,包含问题本身及其答案。接下来,使用期望最大化方法来训练三路状态模型,其中状态模型的潜在变量是表示兴趣的向量,其初始值为一组随机值。经过期望最大化的反复迭代过程,兴趣向量将收敛到局部最优的结果。至此,训练步骤完毕。
在应用过程中,根据训练得的兴趣向量,计算问题和用户的联合概率并排序,将最后的问题排序列表推荐给用户。
本发明实施的关键有三点:状态模型的建立和维护,期望最大化方法的实现,问题排序方法的实现。
1.状态模型的建立和维护:
本发明采用的是概率潜在语义分析的三路状态模型,分别代表用户、用户提出和回答的问题、问题的词语信息;给定主题,假设用户、问题、词语之间互相独立;用户、问题、词语的联合概率为:
Pr ( u , q , w ) = Σ z Pr ( z ) Pr ( u | z ) Pr ( q | z ) Pr ( w | z ) ;
状态模型的建立是问题推荐的训练阶段,需要耗费较多的时间;而问题排序则是问题推荐的预测阶段,耗费的时间小,可以根据最新的状态模型进行实时计算。因此对于状态模型的维护,无法采取实时更新,而需要根据合适的间隔进行静态更新。如果状态模型更新的周期过长,则其无法准确反映用户的兴趣状态;如果更新的周期过短,则会对服务器造成额外的负担。状态模型更新维护的周期将根据具体的问答系统和服务器条件做决定。
2.期望最大化方法的实现:
本发明采用期望最大化方法计算训练数据的局部最大值,以此作为全局最大值的近似。其期望步骤计算潜在变量的后验概率:
Pr ( z | u , q , w ) = Pr ( z ) Pr ( u | z ) Pr ( q | z ) Pr ( w | z ) Σ z ′ Pr ( z ′ ) Pr ( u | z ′ ) Pr ( q | z ′ ) Pr ( w | z ′ ) ;
其中,Pr(z|u,q,w)为给定用户、问题、词语的情形下,主题的概率,Pr(z)为主题的概率,Pr(u|z)为给定主题的情况下用户的概率,Pr(q|z)为给定主题的情况下问题的概率,Pr(w|z)为给定主题的情况下词语的概率;分子部分为主题、用户、问题、词语的联合概率,而分母部分为用户、问题、词语的联合概率;
最大化步骤更新参数值:
Pr ( u | z ) ∝ Σ q , w n ( u , q , w ) Pr ( z | u , q , w )
Pr ( q | z ) ∝ Σ u , w n ( u , q , w ) Pr ( z | u , q , w )
Pr ( w | z ) ∝ Σ u , q n ( u , q , w ) Pr ( z | u , q , w )
Pr ( z ) ∝ Σ u , q , w n ( u , q , w ) Pr ( z | u , q , w )
主题z的初始概率分布为随机分布,随后期望步骤和最大化步骤循环进行,直到潜在变量的参数值收敛在固定数值上时,训练数据达到局部最大值。
3.问题排序方法的实现:
本发明通过状态模型计算每个用户的问题排序列表。
给定用户的情形下,问题的概率为Pr(q|u),因为其与问题和用户的联合概率成正比,只需对每个用户求出每个问题的联合概率,并进行排序。所获得的问题排序列表即为用户最感兴趣的问题列表。最后,将问题列表中用户已回答、已访问过的问题删除,即得到问题推荐列表。

Claims (4)

1.一种基于概率潜在语义分析的问题推荐方法,该方法的步骤如下:
1)在用户交互式问答系统中提取用户所提出和回答的问题,并对每一个问题抽取其中包含的词语;
2)以用户,问题以及词语作为模型的变量,利用概率潜在语义分析的状态模型计算问题中潜在的主题;其中主题是通过期望最大化方法来找到训练数据对数似然度的局部最大值;
3)利用潜在的主题信息,对每一个新提出的问题,基于先选定主题,再选择具体词语的问题构造方法,计算新提出的问题与每个用户的联合概率,并根据联合概率值的排序结果向用户进行问题推荐;其特征在于:
所述步骤2)中概率潜在语义分析的状态模型,采用三元状态模型(u,q,w)表示用户选定问题,其中包含了词语的事件,其中u表示用户、q表示问题,w表示问题中的词语;给定主题z,假设用户、问题、词语间相互独立,其三者的联合概率为:
Pr ( u , q , w ) = Σ z Pr ( z ) Pr ( u | z ) Pr ( q | z ) Pr ( w | z ) ;
其中,Pr(z)为用户选择某主题的概率,Pr(u|z)为给定主题的情况下用户的概率,Pr(q|z)为给定主题的情况下问题的概率,Pr(w|z)为给定主题的情况下词语的概率。
2.根据权利要求1所述的一种基于概率潜在语义分析的问题推荐方法,其特征在于:所述步骤2)中训练数据对数似然度,其计算公式如下:
L = Σ u , q , w n ( u , q , w ) log Pr ( u , q , w ) ;
其中,n(u,q,w)为用户u看见词语w出现在问题q中的次数,其计算公式如下:
n(u,q,w)=n(u,q)×n(q,w);
其中,n(u,q)为用户u进入问题q的次数,n(q,w)为词语w在问题q中出现的次数。
3.根据权利要求1所述的一种基于概率潜在语义分析的问题推荐方法,其特征在于:所述步骤2)中以期望最大化获取局部最大值的方法,其算法如下:
期望步骤:
Pr ( z | u , q , w ) = Pr ( z ) Pr ( u | z ) Pr ( q | z ) Pr ( w | z ) Σ z ′ Pr ( z ′ ) Pr ( u | z ′ ) Pr ( q | z ′ ) Pr ( w | z ′ ) ;
其中,Pr(z|u,q,w)为给定用户、问题、词语的情形下,主题的概率,Pr(z)为主题的概率,Pr(u|z)为给定主题的情况下用户的概率,Pr(q|z)为给定主题的情况下问题的概率,Pr(w|z)为给定主题的情况下词语的概率;分子部分为主题、用户、问题、词语的联合概率,而分母部分为用户、问题、词语的联合概率;
最大化步骤:
Pr ( u | z ) ∝ Σ q , w n ( u , q , w ) Pr ( z | u , q , w )
Pr ( q | z ) ∝ Σ u , w n ( u , q , w ) Pr ( z | u , q , w )
Pr ( w | z ) ∝ Σ u , q n ( u , q , w ) Pr ( z | u , q , w )
Pr ( z ) ∝ Σ u , q , w n ( u , q , w ) Pr ( z | u , q , w )
其中,n(u,q,w)为用户u看见词语w出现在问题q中的次数,其计算公式如下:
n(u,q,w)=n(u,q)×n(q,w);
其中,n(u,q)为用户u进入问题q的次数,n(q,w)为词语w在问题q中出现的次数;
期望步骤和最大化步骤循环进行,直到收敛在一个局部最大值上。
4.根据权利要求1所述的一种基于概率潜在语义分析的问题推荐方法,其特征在于:所述步骤3)中针对用户进行问题推荐的方法;给定一个用户,问题的概率计算如下:
Pr ( q | u ) ∝ Σ w Pr ( u , q , w ) ;
其中,Pr(q|u)为给定用户的情形下问题的概率,在用户确定的情况下,其与问题和用户的联合概率成正比;
根据联合概率的计算,可获得问题排序结果,并将该结果推荐给相应的用户。
CN2008101209714A 2008-09-09 2008-09-09 一种基于概率潜在语义分析的问题推荐方法 Expired - Fee Related CN101354714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101209714A CN101354714B (zh) 2008-09-09 2008-09-09 一种基于概率潜在语义分析的问题推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101209714A CN101354714B (zh) 2008-09-09 2008-09-09 一种基于概率潜在语义分析的问题推荐方法

Publications (2)

Publication Number Publication Date
CN101354714A CN101354714A (zh) 2009-01-28
CN101354714B true CN101354714B (zh) 2010-09-08

Family

ID=40307524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101209714A Expired - Fee Related CN101354714B (zh) 2008-09-09 2008-09-09 一种基于概率潜在语义分析的问题推荐方法

Country Status (1)

Country Link
CN (1) CN101354714B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102760124B (zh) * 2011-04-25 2014-11-12 阿里巴巴集团控股有限公司 一种推荐数据的推送方法及系统
CN103679496B (zh) * 2012-09-19 2021-10-08 盛趣信息技术(上海)有限公司 状态推荐方法及系统
US10664657B2 (en) 2012-12-27 2020-05-26 Touchtype Limited System and method for inputting images or labels into electronic devices
GB201223450D0 (en) * 2012-12-27 2013-02-13 Touchtype Ltd Search and corresponding method
CN103106267B (zh) * 2013-02-02 2016-03-30 浙江大学 基于微博的众包问答系统信息采集方法
CN104572734B (zh) 2013-10-23 2019-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统
CN103714488A (zh) * 2014-01-03 2014-04-09 无锡清华信息科学与技术国家实验室物联网技术中心 社会网络中问答平台的优化方法
CN104836720B (zh) * 2014-02-12 2022-02-25 北京三星通信技术研究有限公司 交互式通信中进行信息推荐的方法及装置
CN104572982B (zh) * 2014-12-31 2017-10-31 东软集团股份有限公司 基于问题引导的个性化推荐方法及系统
WO2016179755A1 (en) * 2015-05-08 2016-11-17 Microsoft Technology Licensing, Llc. Mixed proposal based model training system
CN107451199B (zh) * 2017-07-05 2020-06-26 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
CN107609201A (zh) * 2017-10-25 2018-01-19 广东工业大学 一种基于推荐系统的推荐模型生成方法及相关装置
CN109086303B (zh) * 2018-06-21 2021-09-28 深圳壹账通智能科技有限公司 基于机器阅读理解的智能对话方法、装置、终端
CN109992657B (zh) * 2019-04-03 2021-03-30 浙江大学 一种基于强化动态推理的对话式问题生成方法
CN113313470B (zh) * 2021-06-10 2023-06-09 郑州科技学院 一种基于大数据的就业类型评估方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267607A1 (en) * 2002-12-13 2004-12-30 American Payroll Association Performance assessment system and associated method of interactively presenting assessment driven solution
CN101221583A (zh) * 2008-01-29 2008-07-16 北京百问百答网络技术有限公司 一种问题推荐方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267607A1 (en) * 2002-12-13 2004-12-30 American Payroll Association Performance assessment system and associated method of interactively presenting assessment driven solution
CN101221583A (zh) * 2008-01-29 2008-07-16 北京百问百答网络技术有限公司 一种问题推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石新景,汤小春,闫磊.基于盖然论潜在语义分析的Web使用挖掘.微电子学与计算机25 6.2008,25(6),225-228. *

Also Published As

Publication number Publication date
CN101354714A (zh) 2009-01-28

Similar Documents

Publication Publication Date Title
CN101354714B (zh) 一种基于概率潜在语义分析的问题推荐方法
CN107133224B (zh) 一种基于主题词的语言生成方法
CN102708153B (zh) 自适应在线社交网络热点话题发展趋势预测方法及系统
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN106802915A (zh) 一种基于用户行为的学术资源推荐方法
CN110321291A (zh) 测试案例智能提取系统及方法
CN106105096A (zh) 用于连续社交通信的系统和方法
CN104834686A (zh) 一种基于混合语义矩阵的视频推荐方法
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN107657284A (zh) 一种基于语义相似性扩展的商品名称分类方法及系统
Shi et al. A personalized matching system for management teaching resources based on collaborative filtering algorithm
CN107657034A (zh) 一种社交信息增强的事件社交网络推荐算法
CN108845986A (zh) 一种情感分析方法、设备及系统、计算机可读存储介质
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
CN110110225A (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN107391582A (zh) 基于上下文本体树计算用户偏好相似度的信息推荐方法
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN110263982A (zh) 广告点击率预估模型的优化方法和装置
Cui et al. Modelling customer online behaviours with neural networks: applications to conversion prediction and advertising retargeting
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN114358807A (zh) 基于可预测用户特征属性的用户画像方法及系统
Lei et al. Personalized Item Recommendation Algorithm for Outdoor Sports
CN103995820B (zh) 基于最低阈值的用户个人品性多标记预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100908

Termination date: 20210909