CN108427756B - 基于同类用户模型的个性化查询词补全推荐方法和装置 - Google Patents

基于同类用户模型的个性化查询词补全推荐方法和装置 Download PDF

Info

Publication number
CN108427756B
CN108427756B CN201810220321.0A CN201810220321A CN108427756B CN 108427756 B CN108427756 B CN 108427756B CN 201810220321 A CN201810220321 A CN 201810220321A CN 108427756 B CN108427756 B CN 108427756B
Authority
CN
China
Prior art keywords
query
user
complemented
similarity
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810220321.0A
Other languages
English (en)
Other versions
CN108427756A (zh
Inventor
蔡飞
蒋丹阳
陈洪辉
刘俊先
郑建明
邵太华
郝泽鹏
陈皖玉
陈涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201810220321.0A priority Critical patent/CN108427756B/zh
Publication of CN108427756A publication Critical patent/CN108427756A/zh
Application granted granted Critical
Publication of CN108427756B publication Critical patent/CN108427756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于同类用户模型的个性化查询词补全推荐方法和装置,方法包括:获取用户输入的查询词前缀;根据查询日志和查询词前缀获取待补全查询词的集合;计算待补全查询词的频率得分;根据同类用户模型获取该用户与其所属的同类用户群成员的相似度,以及待补全查询词与同类用户群成员提交的查询词之间的相似度,并计算待补全查询词与同类用户所提交的查询词的相似度;根据频率得分和待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序;将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户,从而解决了单个用户数据稀疏的问题,提高了查询词推荐的稳定性,提升用户的体验。

Description

基于同类用户模型的个性化查询词补全推荐方法和装置
技术领域
本发明涉及查询词补全推荐技术领域,特别涉及一种基于同类用户模型的个性化查询词补全推荐方法、一种非临时性计算机可读存储介质和一种基于同类用户模型的个性化查询词补全推荐装置。
背景技术
查询词补全推荐(Query auto-completion,QAC)是一个被大众熟知并广泛应用于搜索引擎以方便用户提交查询词的技术。
相关技术中,根据用户输入的字符串为前缀可以得到一系列补全的查询词,将它们排序后以推荐列表的方式推荐给用户,QAC正是通过这种方式帮助用户省时省力地构造查询词。通常来说,查询词的前缀是短小且模糊的,这导致系统难以精确的预测用户的搜索意图并准确的提供补全的查询词。常用、直观的方法是根据查询词的过去或未来的查询频率来排序,这种方法旨在对所有用户提供一个同样的推荐列表以最大化平均准确率。然而,这种“一体适用”的方法并未考虑用户的上下文信息,比如递交的查询词和点击的网页信息,而这些上下文通常会对用户最终所提交的查询词产生影响。然而,当且仅当系统能够获取大量的用户数据时这种个性化的推荐方法才有效。不幸的是,用户的上下文信息通常是非常稀疏的,它并不足以确定用户的兴趣和搜索意图。更为严重的是,现有的研究通常忽略了个性化QAC中的数据稀疏性问题,那些拥有少量查询历史的用户通常会被排除在外。因此,需要提供一种能够解决数据稀疏性并获取稳定的个性化推荐的方法。
发明内容
本发明的目的是提供一种基于同类用户模型的个性化查询词补全推荐方法,能够稳定的进行个性化查询词进行补全推荐。
本发明的另一个目的提供一种非临时性计算机可读存储介质。
本发明的又一个目的提供一种基于同类用户模型的个性化查询词补全推荐装置。
为达到上述目的,本发明一方面实施例提出的一种基于同类用户模型的个性化查询词补全推荐方法,包括以下步骤:获取用户输入的查询词前缀;根据查询日志和所述查询词前缀获取待补全查询词的集合;计算待补全查询词的频率得分;根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度,以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度;根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度;根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序;将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。
进一步地,所述根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Score(q)=λ·FreqScore(q)+(1-λ)·CoScore(q)
其中,λ∈[0,1]是一个控制两个排序信号权重的可调参数,FreqScore(q)是待补全查询词q的频率得分,CoScore(q)为待补全查询词q与同类用户所提交的查询词的相似度。
进一步地,所述计算待补全查询词的频率得分采用如下公式:
Figure GDA0002882490440000031
其中,f(q)为待补全查询词在查询日志中出现的次数。
进一步地,所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Figure GDA0002882490440000032
其中,sim(q,qc)为待补全查询词q与所述同类用户群成员aj提交的查询词qc之间的相似度,sim(a,aj)为用户a和同类用户群成员aj之间的相似度。
进一步地,所述用户a本身就是他自己的同类且sim(a,a)=1。
进一步地,通过隐性狄利克雷分布模型、作者主题模型、同类用户主题模型1和同类用户主题模型2中的一个得到所述同类用户。
本发明的另一个目的提出的一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的基于同类用户模型的个性化查询词补全推荐方法。
本发明的又一个目的提出的一种基于同类用户模型的个性化查询词补全推荐装置,包括:第一获取模块,用于获取用户输入的查询词前缀;第二获取模块,用于根据查询日志和所述查询词前缀获取待补全查询词的集合;第一计算模块,用于计算待补全查询词的频率得分;第三获取模块,用于根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度,以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度;第二计算模块,用于根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度;第四获取模块,用于根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序;推荐模块,用于将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。
根据本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法,通过获取用户输入的查询词前缀,然后根据查询日志和查询词前缀获取待补全查询词的集合,计算待补全查询词的频率得分,根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度,以及待补全查询词与同类用户群成员提交的查询词之间的相似度,根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度,再根据频率得分和待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序,最后将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。由此,本发明实施例提出的方法能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐,解决了单个用户数据稀疏的问题,提高了查询词推荐的稳定性,提升用户的体验。
附图说明
图1为根据本发明实施例的基于同类用户模型的个性化查询词补全推荐方法的流程图;
图2为根据本发明一个实施例的同类用户模型中的隐性狄利克雷分布模型的概率图模型;
图3为根据本发明一个实施例的同类用户模型中的作者主题模型的概率图模型;
图4为根据本发明一个实施例的同类用户模型中的同类用户主题模型1的概率图模型;
图5为根据本发明一个实施例的同类用户模型中的同类用户主题模型2的概率图模型;
图6为根据本发明实施例的基于同类用户模型的个性化查询词补全推荐装置的方框示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的,其中为了清楚的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
下面参考附图来描述本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法、基于同类用户模型的个性化查询词补全推荐装置。
图1为根据本发明实施例的基于同类用户模型的个性化查询词补全推荐方法的流程图。如图1所示,本发明实施例的基于同类用户模型的个性化查询词补全推荐方法包括以下步骤:
S1:获取用户输入的查询词前缀。
S2:根据查询日志和查询词前缀获取待补全查询词的集合。
其中,查询日志可为该用户历史查询数据的查询日志,待补全查询词的集合为根据用户输入的查询词前缀能够预测的全部可用来补全该查询词前缀的查询词的集合。
S3:计算待补全查询词的频率得分。
根据本发明的一个实施例,计算待补全查询词的频率得分采用如下公式:
Figure GDA0002882490440000061
其中,f(q)为待补全查询词在查询日志中出现的次数,C(p)为输入的查询词前缀p相匹配的待补全查询词集合。
S4:根据同类用户模型获取该用户与其所属的同类用户群成员的相似度,以及待补全查询词与同类用户群成员提交的查询词之间的相似度。
根据本发明的一个实施例,通过隐性狄利克雷分布(Latent DirichletAllocation)模型、作者主题模型(Author Topic Model)、同类用户主题模型1(CohortTopic Model 1)和同类用户主题模型2(Cohort Topic Model 2)中的一个得到同类用户。
如图2-5所示,分别为四种同类用户模型的概率模型图,其中阴影圆表示观察变量,非阴影的圆表示隐性变量,箭头表示变量之间的条件依赖关系,图中的方框表示按照方框底部的数值进行重复采样。表1为同类用户模型的变量含义。
表1主题模型的变量含义
Figure GDA0002882490440000062
Figure GDA0002882490440000071
具体地,如图2所示,隐性狄利克雷分布模型可通过贝叶斯概率主题模型建立。在隐性狄利克雷分布模型将文档表示成隐性主题
Figure GDA0002882490440000072
的有限组合。在隐性狄利克雷分布模型中,根据文档
Figure GDA0002882490440000073
的词计算隐性主题的后验概率分布:
Figure GDA0002882490440000074
由于上式中的分子是对KW个词求和,因此想要获取
Figure GDA0002882490440000075
的准确估计是不可能的,然而,可以采用全概率
Figure GDA0002882490440000076
来近似估计
Figure GDA0002882490440000077
从而得到:
Figure GDA0002882490440000078
将Dirichlet(狄利克雷)分布带入上式可以得到:
Figure GDA0002882490440000079
进一步地,通过Gibbs(吉布斯)采样来估计后验概率分布。其中,
Figure GDA00028824904400000710
表示词t对主题K的概率分布,θm,k=p(zi=k|dm)表示主题K对文档dm的概率分布,由此,我们可以得到隐性狄利克雷分布模型分布为:
Figure GDA0002882490440000081
其中,
Figure GDA0002882490440000082
表示用户a在整个文档集中点击文档dm的概率。
由此,对每个用户都可以得到一个1×K维的主题兴趣向量,对这些向量采用常规的聚类方法就能得到拥有相似主题兴趣的同类用户群。
本发明实施例还提出了作者主题模型,如图3所示,作者主题模型(Author TopicModel,ATM)能够通过将每个文档的作者信息ud作为观察变量加入到主题模型之中,对上述隐性狄利克雷分布模型进行了扩展,其中,u表示从用户信息ud中随机选择的一个用户,其中,本实施例的作者主题模型中的用户即为作者。假设:所有点击文档dm的用户都是文档dm的作者,这样ATM就可以应用在QAC任务中了。给定一篇文档,通过采用与隐性狄利克雷分布模型相类似的吉布斯采样方法,主题和作者分配均采样于:
Figure GDA0002882490440000083
Figure GDA0002882490440000084
作者主题模型的参数估计如下:
Figure GDA0002882490440000085
其中,
Figure GDA0002882490440000086
表示词t对主题K的概率分布,φa,k=p(zi=k|ui=a)表示用户a对主题K的感兴趣的概率。由于,用户信息ud可以看成是点击该文档的所有用户的集合,因此,作者主题分布
Figure GDA0002882490440000087
是一个1×K维向量,向量中每个元素i的值等于φa,i,因此可通过常规的聚类方法得到同类用户群。
基于此,上述两种传统的主题模型能够获取到隐性狄利克雷分布和作者主题分布,进而通过常规的聚类方法可以得到同类用户群。其中,常规的聚类方法可为K均值方法或K最相邻用户分类方法等。
然而,这些聚类方法都是“硬聚类”,即每个用户被分配至唯一一个同类用户群,对于那些兴趣偏好较为广泛的用户,将他们分配到多个同类用户群是比较合适的。因此“软聚类”方法能够更好的捕捉到不同用户在兴趣和搜索意图上的多样化差异。基于以上原因,提出了基于兴趣的同类用户主题模型(Cohort Topic Model,CTM),在该模型中我们将同类群作为一个隐性变量融入到主题模型中。在建模过程中,将同类群和主题这两个概念分开,即一个同类群可以对应多个兴趣主题,而多个同类群可以共享一个兴趣主题。
基于此,本发明实施例提出了两个不同的将同类群融入到主题模型的策略,与硬聚类方法相比,作为软聚类的CTM能够将一个用户分配至多个同类用户群且给出该用户属于每个同类用户群的概率。
具体地,如图4所示,同类用户主题模型1中,每个用户和各个同类用户群之间通过一个多项分布μ联系起来,每个同类群和各个主题之间通过一个多项分布χ联系起来,每个主题和各个词之间通过一个多项分布
Figure GDA0002882490440000091
联系起来。多项分布μ、χ和
Figure GDA0002882490440000092
分别由超参数γ、α和β生成。
进一步地,同类用户主题模型1的建立过程如下:
S101:对文档的每个用户u,根据超参数γ得到一个属于该用户的多项分布μDirichlet(γ)。
S102:对每个同类群c,根据超参数α得到一个属于该同类群的多项分布χDirichlet(α)。
S103:对每个主题z,根据超参数β得到一个属于该主题的多项分布
Figure GDA0002882490440000093
S104:获取文档的用户向量ud,按照平均分布ui=a Uniform(ud)抽取一个用户a。其中,用户a为用户u中的一个。
S105:根据用户a从步骤S101中得到的多项分布ci=s Discrete(μa)中抽取一个同类群。
S106:根据同类群从步骤S102中得到的多项分布zi=k Discrete(χs)中抽取一个主题K。
S107:根据主题K从步骤S103中得到的多项分布wi=t
Figure GDA0002882490440000105
中抽取一个词语t。
S108:判断是否生成文档。
如果是,则建模结束;如果否,则返回步骤S104。
需要说明的是,上述同类用户主题模型1建立过程中步骤S101-S103为对每个用户、每个同类群、每个主题获取对应的多项分布,步骤S104-S107为对已获取到多项分布中的一个用户、一个同类群、一个主题进行抽样的示例。应当理解的是,在同类用户主题模型1建模过程中,通过多次进行S101-S103获取全部用户、同类群和主题的多项分布,然后通过多次进行S104-S107以生成文档。
对建立的同类用户主题模型1模型进行吉布斯采样的迭代公式如下:
Figure GDA0002882490440000101
Figure GDA0002882490440000102
进一步地,同类用户主题模型1中参数的估计值为:
Figure GDA0002882490440000103
其中,χs,k=p(zi=k|ci=s),μa,s=p(ci=s|ui=a),由于
Figure GDA0002882490440000104
与上述两种同类用户主题模型1和同类用户主题模型2中的含义一样,为了简洁此处忽略了它的估计值。
具体地,如图5所示,同类用户主题模型2可假设每个用户是从同类用户群而非文档的作者集合中采样得到。每个文档关于所有同类群的多项分布用η表示,每个同类群关于所有用户的多项分布用ψ表示,每个用户关于各个主题的多项分布用φ表示,每个主题关于各个词的多项分布用
Figure GDA0002882490440000111
表示,上述四个多项分布的超参数分别为:γ、δ、α和β。
进一步地,同类用户主题模型2建立过程如下:
S201:对文档集中的每个文档dm,根据超参数γ得到一个属于该文档的多项分布ηDirichlet(γ)。
S202:对每个同类群c,根据超参数δ得到一个属于该同类群的多项分布ψDirichlet(δ)。
S203:对文档集中的每个用户u,根据超参数α得到一个属于该用户的多项分布φDirichlet(α)。
S204:对每个主题z,根据超参数β得到一个属于该主题的多项分布
Figure GDA0002882490440000112
S205:获取文档dm,从步骤S201中得到的多项分布ci=s Discrete(ηm)抽取一个同类群s。
S206:根据同类群s,从步骤S202中得到的多项分布ui=a Discrete(ψs)抽取一个用户。
S207:根据用户a,从步骤S203中得到的多项分布zi=k Discrete(φa)抽取一个主题K。
S208:获取主题K,从步骤S204中得到的多项分布wi=t
Figure GDA0002882490440000113
抽取一个词语t。
S209:判断是否生成文档。
如果是,则建模结束;如果否,则返回步骤S205。
需要说明的是,上述同类用户主题模型2建立过程中步骤S201-S204为对每个用户、每个同类群、每个主题获取对应的多项分布,步骤S205-S208为对已获取到多项分布中的一个用户、一个同类群、一个主题进行抽样的示例。应当理解的是,在同类用户主题模型1建模过程中,通过多次进行S201-S204获取全部用户、同类群和主题的多项分布,然后通过多次进行S S205-S208以生成文档。
对建立的同类用户主题模型2进行吉布斯采样的迭代公式如下:
Figure GDA0002882490440000121
Figure GDA0002882490440000122
Figure GDA0002882490440000123
进一步地,同类用户主题模型2中参数的估计值为:
Figure GDA0002882490440000124
其中,ψs,a=p(ui=a|ci=s),ηm,s=p(ci=s|dm),由于φa,k与同类用户主题模型2相同,为简洁起见在此不再赘述。
S5:根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度。
根据本发明的一个实施例,待补全查询词q与同类用户所提交的查询词的相似度采用如下公式获得:
Figure GDA0002882490440000125
其中,sim(q,qc)为待补全查询词q与同类用户群成员aj提交的查询词qc之间的相似度,sim(a,aj)为用户a和同类用户群成员aj之间的相似度,norm(ωj)对每个同类用户群成员aj在排序中所做的贡献进行归一化处理以确保∑jωj=1。
应当理解的是,根据上述四种同类用户模型,可分别根据上述四种同类用户模型进行个性化的查询词排序。具体地,对于隐性狄利克雷分布模型和作者主题模型而言sim(a,aj)=1/D(a,aj),其中,D(a,aj)表示
Figure GDA0002882490440000131
Figure GDA0002882490440000132
之间的欧拉距离,对同类用户主题模型1而言
Figure GDA0002882490440000133
对同类用户主题模型2而言
Figure GDA0002882490440000134
根据本发明的一个实施例,用户a本身就是他自己的同类且sim(a,a)=1。
S6:根据频率得分和待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序。
根据本发明的一个实施例,根据频率得分和待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Score(q)=λ·FreqScore(q)+(1-λ)·CoScore(q)
其中,λ∈[0,1]是一个控制两个排序信号权重的可调参数,FreqScore(q)是待补全查询词q的频率得分,CoScore(q)为待补全查询词q与同类用户所提交的查询词的相似度。
S7:将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。
根据本发明的一个实施例,由于FreqScore(q)和CoScore(q)采用了不同的单位,需要进行标准化后再计算最终的排序值。
由此,根据用户/作者和主题/兴趣建立四种同类用户模型,能够在数据稀疏的情况下根据同类用户的历史数据对该用户的查询词进行个性化查询词补全推荐。
为了验证本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法,而进行了实验。
在本发明实施例中,主题总数K为固定值80,由于已有研究指出同类用户模型中的超参数只影响Gibbs采样的收敛性而不影响最终的结果,因此在同类用户的发掘建模中,超参数设定为:α=50/K,β=0.01,γ=50/S,δ=0.1。对于基于采样的各个模型参数的估计值,采用50次迭代后的结果作为最终结果。对于隐性狄利克雷分布模型和作者主题模型设定同类群总数S为20,考虑到有超过14万个用户聚集成20个同类群,每个用户可能会有上千个同类用户,为了计算更加高效且滤除聚类过程中的噪声,对于四个同类用户模型中用户a,sim(a,aj)值最高的前6个同类用户才能被用来计算待补全查询词与同类用户所提交的查询词的相似度。其中,设定N-grams为3。在排序实验过程中,对测试集中的每个查询词,给出查询词前缀长度#p为1到5时对应的前20个补全查询词,具体blue-cross-blue-shield-of-north-carolina的排序结果如下:
第一列(40603):为用户ID;
第二列(blue-cross-blue-shield-of-north-carolina):为用户最终提交的查询词,即用户心里想要算法给出的补全查询词,也就是正确答案。
第三列(2006-04-19 16:46:26):为查询词提交的时间。
第四列(b):为当前用户已输入的字符,即查询词前缀。
第五列(bank-of-america一直到bellsouth bank-one):为算法给出的前20个补全查询词。
从这个示例中可以看到,第一至第三列都没有发生变化,第四列的查询词前缀每次增加一个字符,然后第五列给出的前20个补全查询词相应的发生了一些变化。
40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26 b
bank-of-america bankofamerica best-buy billing bed-bath-and-beyondbarnes-and-noble babies-r-us buddy-list b bestbuy baby-names britney-spearsblockbuster blackplanet babiesrus beyonce better-business-bureau boobsbellsouth bank-one
40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26 bl
blockbuster blackplanet bloomingdales blue-book blackpeoplemeetblowjobs black-planet blackjack blue-cross-blue-shield black bluebook black-pussy blowjob blow-jobs black-eyed-peas blair blogs blog black-porn black-male-bank-robbers
40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26 blu
blue-book blue-cross-blue-shield bluebook blue-mountain blueflyblues-clues bluetooth bluemountain blue-cross blue-mountain-cards blue-book-value blue-birds blue bluecross bluewhiteillustrated blue-october blue-cross-of-california blue-angels blubster bluecrossblueshield
40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26
blue blue-book blue-cross-blue-shield bluebook blue-mountain blueflyblues-clues bluetooth bluemountain blue-cross blue-mountain-cards blue-book-value blue-birds blue bluecross bluewhiteillustrated blue-october blue-cross-of-california blue-angels bluecrossblueshield blue-letter-bible
40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26
blue-blue-book blue-cross-blue-shield blue-mountain blue-cross blue-mountain-cards blue-book-value blue-birds blue-october blue-cross-of-california blue-angels blue-letter-bible blue-man-group blue-heeler blue-mountain-greeting-cards blue-whale blue-ridge-parkway blue-monkey-sportsblue-tooth blue-cross-blue-sheild blue-nile
由此可见,本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法的有效性。
综上所述,根据本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法,通过获取用户输入的查询词前缀,然后根据查询日志和查询词前缀获取待补全查询词的集合,计算待补全查询词的频率得分,根据同类用户模型获取该用户与其所属的同类用户群成员的相似度,以及待补全查询词与同类用户群成员提交的查询词之间的相似度,根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度,再根据频率得分和待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序,最后将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。由此,本发明实施例提出的方法能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐,解决了单个用户数据稀疏的问题,提高了查询词推荐的稳定性,提升用户的体验。
本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的基于同类用户模型的个性化查询词补全推荐方法。
根据本发明实施例提出的非临时性计算机可读存储介质,通过实现基于同类用户模型的个性化查询词补全推荐方法能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐,解决了单个用户数据稀疏的问题,提高了查询词推荐的稳定性,提升用户的体验。
本发明还提出了一种基于同类用户模型的个性化查询词补全推荐装置。
图6为本发明实施例提出的基于同类用户模型的个性化查询词补全推荐装置的方框示意图。如图6所示,本发明实施例提出的基于同类用户模型的个性化查询词补全推荐装置包括:第一获取模块10、第二获取模块20、第一计算模块30、第三获取模块40、第二计算模块50、第四计算模块60和推荐模块70。
其中,第一获取模块10用于获取用户输入的查询词前缀;第二获取模块20用于根据查询日志和查询词前缀获取待补全查询词的集合;第一计算模块30用于计算待补全查询词的频率得分;第三获取模块40用于根据同类用户模型获取该用户与其所属的同类用户群成员的相似度,以及待补全查询词与同类用户群成员提交的查询词之间的相似度;第二计算模块50用于根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度;第四计算模块60用于根据频率得分和待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序;推荐模块70用于将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。
综上所述,根据本发明实施例提出的基于同类用户模型的个性化查询词补全推荐装置,通过获取用户输入的查询词前缀,然后根据查询日志和查询词前缀获取待补全查询词的集合,计算待补全查询词的频率得分,根据同类用户模型获取该用户与其所属的同类用户群成员的相似度,以及待补全查询词与同类用户群成员提交的查询词之间的相似度,根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度,再根据频率得分和待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序,最后将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。由此,本发明实施例提出的装置能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐,解决了单个用户数据稀疏的问题,提高了查询词推荐的稳定性,提升用户的体验。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
在以上的描述中,对于各层的构图、刻蚀等技术细节并没有做出详细的说明。但是本领域技术人员应当理解,可以通过现有技术中的各种手段,来形成所需形状的层、区域等。另外,为了形成同一结构,本领域技术人员还可以设计出与以上描述的方法并不完全相同的方法。
以上参照本发明的实施例对本发明予以了说明。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围,本领域技术人员可以做出多种替换和修改,这些替换和修改都应落在本发明的范围之内。
尽管已经详细描述了本发明的实施方式,但是应该理解的是,在不偏离本发明的精神和范围的情况下,可以对本发明的实施方式做出各种改变、替换和变更。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (4)

1.一种基于同类用户模型的个性化查询词补全推荐方法,其特征在于,包括以下步骤:
获取用户输入的查询词前缀;
根据查询日志和所述查询词前缀获取待补全查询词的集合;
计算待补全查询词的频率得分;
根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度,以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度;
根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度;
根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序;
将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户;其中,所述根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Score(q)=λ·FreqScore(q)+(1-λ)·CoScore(q)
其中,λ∈[0,1]是一个控制两个排序信号权重的可调参数,FreqScore(q)是待补全查询词q的频率得分,CoScore(q)为待补全查询词q与同类用户所提交的查询词的相似度;其中,所述计算待补全查询词的频率得分采用如下公式:
Figure FDA0002882490430000011
其中,f(q)为待补全查询词在所述查询日志中出现的次数,C(p)为输入的查询词前缀p相匹配的待补全查询词集合;其中,所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Figure FDA0002882490430000021
其中,sim(q,qc)为待补全查询词q与所述同类用户群成员aj提交的查询词qc之间的相似度,sim(a,aj)为用户a和同类用户群成员aj之间的相似度;所述用户a本身就是他自己的同类且sim(a,a)=1,norm(ωj)对每个同类用户群成员aj在排序中所做的贡献进行归一化处理以确保∑jωj=1。
2.根据权利要求1所述的基于同类用户模型的个性化查询词补全推荐方法,其特征在于,通过隐性狄利克雷分布模型、作者主题模型中的一个得到所述同类用户。
3.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-2中任一所述的基于同类用户模型的个性化查询词补全推荐方法。
4.一种基于同类用户模型的个性化查询词补全推荐装置,其特征在于,包括:
第一获取模块,用于获取用户输入的查询词前缀;
第二获取模块,用于根据查询日志和所述查询词前缀获取待补全查询词的集合;
第一计算模块,用于计算待补全查询词的频率得分;
第三获取模块,用于根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度,以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度;
第二计算模块,用于根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度,计算待补全查询词与同类用户所提交的查询词的相似度;
第四获取模块,用于根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度,获取待补全查询词的顺序;
推荐模块,用于将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户;
其中,所述根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Score(q)=λ·FreqScore(q)+(1-λ)·CoScore(q)
其中,λ∈[0,1]是一个控制两个排序信号权重的可调参数,FreqScore(q)是待补全查询词q的频率得分,CoScore(q)为待补全查询词q与同类用户所提交的查询词的相似度;其中,所述计算待补全查询词的频率得分采用如下公式:
Figure FDA0002882490430000031
其中,f(q)为待补全查询词在所述查询日志中出现的次数,C(p)为输入的查询词前缀p相匹配的待补全查询词集合;其中,所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得:
Figure FDA0002882490430000032
其中,sim(q,qc)为待补全查询词q与所述同类用户群成员aj提交的查询词qc之间的相似度,sim(a,aj)为用户a和同类用户群成员aj之间的相似度;所述用户a本身就是他自己的同类且sim(a,a)=1,norm(ωj)对每个同类用户群成员aj在排序中所做的贡献进行归一化处理以确保∑jωj=1。
CN201810220321.0A 2018-03-16 2018-03-16 基于同类用户模型的个性化查询词补全推荐方法和装置 Active CN108427756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810220321.0A CN108427756B (zh) 2018-03-16 2018-03-16 基于同类用户模型的个性化查询词补全推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810220321.0A CN108427756B (zh) 2018-03-16 2018-03-16 基于同类用户模型的个性化查询词补全推荐方法和装置

Publications (2)

Publication Number Publication Date
CN108427756A CN108427756A (zh) 2018-08-21
CN108427756B true CN108427756B (zh) 2021-02-12

Family

ID=63158418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810220321.0A Active CN108427756B (zh) 2018-03-16 2018-03-16 基于同类用户模型的个性化查询词补全推荐方法和装置

Country Status (1)

Country Link
CN (1) CN108427756B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046298B (zh) * 2019-04-24 2021-04-13 中国人民解放军国防科技大学 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN110134773A (zh) * 2019-04-24 2019-08-16 珠海市珠澳跨境工业区好易通科技有限公司 一种搜索推荐方法及系统
CN110750704B (zh) * 2019-10-23 2022-03-11 深圳计算科学研究院 一种查询自动补全的方法和装置
CN111221952B (zh) * 2020-01-06 2021-05-14 百度在线网络技术(北京)有限公司 建立排序模型的方法、查询自动补全的方法及对应装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092877A (zh) * 2011-11-04 2013-05-08 百度在线网络技术(北京)有限公司 一种关键词推荐方法和装置
CN103399883A (zh) * 2013-07-19 2013-11-20 百度在线网络技术(北京)有限公司 根据用户兴趣点/关注点进行个性化推荐的方法和系统
CN103678358A (zh) * 2012-09-13 2014-03-26 腾讯科技(深圳)有限公司 一种信息搜索方法及系统
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN104572797A (zh) * 2014-05-12 2015-04-29 深圳市智搜信息技术有限公司 基于主题模型的个性化服务推荐系统和方法
CN107122469A (zh) * 2017-04-28 2017-09-01 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107169045A (zh) * 2017-04-19 2017-09-15 中国人民解放军国防科学技术大学 一种基于时域特征的查询词自动补全方法与装置
CN107193916A (zh) * 2017-05-15 2017-09-22 中国人民解放军国防科学技术大学 一种个性化多样化查询推荐方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092877A (zh) * 2011-11-04 2013-05-08 百度在线网络技术(北京)有限公司 一种关键词推荐方法和装置
CN103678358A (zh) * 2012-09-13 2014-03-26 腾讯科技(深圳)有限公司 一种信息搜索方法及系统
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN103399883A (zh) * 2013-07-19 2013-11-20 百度在线网络技术(北京)有限公司 根据用户兴趣点/关注点进行个性化推荐的方法和系统
CN104572797A (zh) * 2014-05-12 2015-04-29 深圳市智搜信息技术有限公司 基于主题模型的个性化服务推荐系统和方法
CN107169045A (zh) * 2017-04-19 2017-09-15 中国人民解放军国防科学技术大学 一种基于时域特征的查询词自动补全方法与装置
CN107122469A (zh) * 2017-04-28 2017-09-01 中国人民解放军国防科学技术大学 基于语义相似度与时效性频率的查询推荐排序方法与装置
CN107193916A (zh) * 2017-05-15 2017-09-22 中国人民解放军国防科学技术大学 一种个性化多样化查询推荐方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Classifying User Search Intents for Query Auto-Completion;Jyun-Yu Jiang and Pu-Jen Cheng;《Proceedings of the 2016 ACM International Conference on the Theory of Information Retrieval》;20160901;49-58 *
Learning Online Trends for Interactive Query Auto-Completion;Y. Wang, H. Ouyang, H. Deng and Y. Chang;《EEE Transactions on Knowledge and Data Engineering》;20171101;第29卷(第11期);2442-2454 *
Prefix-Adaptive and Time-Sensitive Personalized Query Auto Completion;F. Cai, S. Liang and M. de Rijke;《IEEE Transactions on Knowledge and Data Engineering》;20160930;第28卷(第9期);2452-2466 *
Time-sensitive Personalized Query Auto-Completion.;Fei Cai, Shangsong Liang, and Maarten de Rijke;《Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management》;20141130;1599-1608 *
时间敏感查询词补全关键技术研究综述;田萱,张骁,孟祥光,陈志泊;《电子学报》;20150630;第43卷(第6期);1160-1168 *

Also Published As

Publication number Publication date
CN108427756A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
AlNuaimi et al. Streaming feature selection algorithms for big data: A survey
Kumar et al. An efficient k-means clustering filtering algorithm using density based initial cluster centers
Li et al. Unsupervised streaming feature selection in social media
Mcauley et al. Discovering social circles in ego networks
Lin et al. Multi-label feature selection with streaming labels
Hu et al. Fuzzy clustering in a complex network based on content relevance and link structures
Vanchinathan et al. Explore-exploit in top-n recommender systems via gaussian processes
Pool et al. Description-driven community detection
US9009148B2 (en) Clickthrough-based latent semantic model
CN108427756B (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
CN110516146B (zh) 一种基于异质图卷积神经网络嵌入的作者名字消歧方法
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
Aghdam et al. A novel non-negative matrix factorization method for recommender systems
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
Cintia Ganesha Putri et al. Design of an unsupervised machine learning-based movie recommender system
Komkhao et al. Incremental collaborative filtering based on Mahalanobis distance and fuzzy membership for recommender systems
CN109558533A (zh) 一种基于多重聚类的个性化内容推荐方法及装置
WO2018069836A1 (en) Quasi-clique prototype-based hybrid clustering
Fani et al. Temporally like-minded user community identification through neural embeddings
Xia et al. A regularized optimization framework for tag completion and image retrieval
CN114999635A (zh) 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法
KR101559459B1 (ko) 콘텐츠 추천 방법
Al-Sabaawi et al. A novel overlapping method to alleviate the cold-start problem in recommendation systems
Protasiewicz et al. A hybrid knowledge-based framework for author name disambiguation
Pauletic et al. An overview of clustering models with an application to document clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant