CN108427756B

CN108427756B - 基于同类用户模型的个性化查询词补全推荐方法和装置

Info

Publication number: CN108427756B
Application number: CN201810220321.0A
Authority: CN
Inventors: 蔡飞; 蒋丹阳; 陈洪辉; 刘俊先; 郑建明; 邵太华; 郝泽鹏; 陈皖玉; 陈涛
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2021-02-12
Anticipated expiration: 2038-03-16
Also published as: CN108427756A

Abstract

一种基于同类用户模型的个性化查询词补全推荐方法和装置，方法包括：获取用户输入的查询词前缀；根据查询日志和查询词前缀获取待补全查询词的集合；计算待补全查询词的频率得分；根据同类用户模型获取该用户与其所属的同类用户群成员的相似度，以及待补全查询词与同类用户群成员提交的查询词之间的相似度，并计算待补全查询词与同类用户所提交的查询词的相似度；根据频率得分和待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序；将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户，从而解决了单个用户数据稀疏的问题，提高了查询词推荐的稳定性，提升用户的体验。

Description

基于同类用户模型的个性化查询词补全推荐方法和装置

技术领域

本发明涉及查询词补全推荐技术领域，特别涉及一种基于同类用户模型的个性化查询词补全推荐方法、一种非临时性计算机可读存储介质和一种基于同类用户模型的个性化查询词补全推荐装置。

背景技术

查询词补全推荐(Query auto-completion，QAC)是一个被大众熟知并广泛应用于搜索引擎以方便用户提交查询词的技术。

相关技术中，根据用户输入的字符串为前缀可以得到一系列补全的查询词，将它们排序后以推荐列表的方式推荐给用户，QAC正是通过这种方式帮助用户省时省力地构造查询词。通常来说，查询词的前缀是短小且模糊的，这导致系统难以精确的预测用户的搜索意图并准确的提供补全的查询词。常用、直观的方法是根据查询词的过去或未来的查询频率来排序，这种方法旨在对所有用户提供一个同样的推荐列表以最大化平均准确率。然而，这种“一体适用”的方法并未考虑用户的上下文信息，比如递交的查询词和点击的网页信息，而这些上下文通常会对用户最终所提交的查询词产生影响。然而，当且仅当系统能够获取大量的用户数据时这种个性化的推荐方法才有效。不幸的是，用户的上下文信息通常是非常稀疏的，它并不足以确定用户的兴趣和搜索意图。更为严重的是，现有的研究通常忽略了个性化QAC中的数据稀疏性问题，那些拥有少量查询历史的用户通常会被排除在外。因此，需要提供一种能够解决数据稀疏性并获取稳定的个性化推荐的方法。

发明内容

本发明的目的是提供一种基于同类用户模型的个性化查询词补全推荐方法，能够稳定的进行个性化查询词进行补全推荐。

本发明的另一个目的提供一种非临时性计算机可读存储介质。

本发明的又一个目的提供一种基于同类用户模型的个性化查询词补全推荐装置。

为达到上述目的，本发明一方面实施例提出的一种基于同类用户模型的个性化查询词补全推荐方法，包括以下步骤：获取用户输入的查询词前缀；根据查询日志和所述查询词前缀获取待补全查询词的集合；计算待补全查询词的频率得分；根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度，以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度；根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度；根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序；将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。

进一步地，所述根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得：

Score(q)＝λ·FreqScore(q)+(1-λ)·CoScore(q)

其中，λ∈[0,1]是一个控制两个排序信号权重的可调参数，FreqScore(q)是待补全查询词q的频率得分，CoScore(q)为待补全查询词q与同类用户所提交的查询词的相似度。

进一步地，所述计算待补全查询词的频率得分采用如下公式：

其中，f(q)为待补全查询词在查询日志中出现的次数。

进一步地，所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得：

其中，sim(q,q_c)为待补全查询词q与所述同类用户群成员a_j提交的查询词q_c之间的相似度，sim(a,a_j)为用户a和同类用户群成员a_j之间的相似度。

进一步地，所述用户a本身就是他自己的同类且sim(a,a)＝1。

进一步地，通过隐性狄利克雷分布模型、作者主题模型、同类用户主题模型1和同类用户主题模型2中的一个得到所述同类用户。

本发明的另一个目的提出的一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于同类用户模型的个性化查询词补全推荐方法。

本发明的又一个目的提出的一种基于同类用户模型的个性化查询词补全推荐装置，包括：第一获取模块，用于获取用户输入的查询词前缀；第二获取模块，用于根据查询日志和所述查询词前缀获取待补全查询词的集合；第一计算模块，用于计算待补全查询词的频率得分；第三获取模块，用于根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度，以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度；第二计算模块，用于根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度；第四获取模块，用于根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序；推荐模块，用于将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。

根据本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法，通过获取用户输入的查询词前缀，然后根据查询日志和查询词前缀获取待补全查询词的集合，计算待补全查询词的频率得分，根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度，以及待补全查询词与同类用户群成员提交的查询词之间的相似度，根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度，再根据频率得分和待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序，最后将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。由此，本发明实施例提出的方法能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐，解决了单个用户数据稀疏的问题，提高了查询词推荐的稳定性，提升用户的体验。

附图说明

图1为根据本发明实施例的基于同类用户模型的个性化查询词补全推荐方法的流程图；

图2为根据本发明一个实施例的同类用户模型中的隐性狄利克雷分布模型的概率图模型；

图3为根据本发明一个实施例的同类用户模型中的作者主题模型的概率图模型；

图4为根据本发明一个实施例的同类用户模型中的同类用户主题模型1的概率图模型；

图5为根据本发明一个实施例的同类用户模型中的同类用户主题模型2的概率图模型；

图6为根据本发明实施例的基于同类用户模型的个性化查询词补全推荐装置的方框示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的，其中为了清楚的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

下面参考附图来描述本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法、基于同类用户模型的个性化查询词补全推荐装置。

图1为根据本发明实施例的基于同类用户模型的个性化查询词补全推荐方法的流程图。如图1所示，本发明实施例的基于同类用户模型的个性化查询词补全推荐方法包括以下步骤：

S1：获取用户输入的查询词前缀。

S2：根据查询日志和查询词前缀获取待补全查询词的集合。

其中，查询日志可为该用户历史查询数据的查询日志，待补全查询词的集合为根据用户输入的查询词前缀能够预测的全部可用来补全该查询词前缀的查询词的集合。

S3：计算待补全查询词的频率得分。

根据本发明的一个实施例，计算待补全查询词的频率得分采用如下公式：

其中，f(q)为待补全查询词在查询日志中出现的次数，C(p)为输入的查询词前缀p相匹配的待补全查询词集合。

S4：根据同类用户模型获取该用户与其所属的同类用户群成员的相似度，以及待补全查询词与同类用户群成员提交的查询词之间的相似度。

根据本发明的一个实施例，通过隐性狄利克雷分布(Latent DirichletAllocation)模型、作者主题模型(Author Topic Model)、同类用户主题模型1(CohortTopic Model 1)和同类用户主题模型2(Cohort Topic Model 2)中的一个得到同类用户。

如图2-5所示，分别为四种同类用户模型的概率模型图，其中阴影圆表示观察变量，非阴影的圆表示隐性变量，箭头表示变量之间的条件依赖关系，图中的方框表示按照方框底部的数值进行重复采样。表1为同类用户模型的变量含义。

表1主题模型的变量含义

具体地，如图2所示，隐性狄利克雷分布模型可通过贝叶斯概率主题模型建立。在隐性狄利克雷分布模型将文档表示成隐性主题

的有限组合。在隐性狄利克雷分布模型中，根据文档

的词计算隐性主题的后验概率分布：

由于上式中的分子是对K^W个词求和，因此想要获取

的准确估计是不可能的，然而，可以采用全概率

来近似估计

从而得到：

将Dirichlet(狄利克雷)分布带入上式可以得到：

进一步地，通过Gibbs(吉布斯)采样来估计后验概率分布。其中，

表示词t对主题K的概率分布，θ_m,k＝p(z_i＝k|d_m)表示主题K对文档d_m的概率分布，由此，我们可以得到隐性狄利克雷分布模型分布为：

其中，

表示用户a在整个文档集中点击文档d_m的概率。

由此，对每个用户都可以得到一个1×K维的主题兴趣向量，对这些向量采用常规的聚类方法就能得到拥有相似主题兴趣的同类用户群。

本发明实施例还提出了作者主题模型，如图3所示，作者主题模型(Author TopicModel，ATM)能够通过将每个文档的作者信息u_d作为观察变量加入到主题模型之中，对上述隐性狄利克雷分布模型进行了扩展，其中，u表示从用户信息u_d中随机选择的一个用户，其中，本实施例的作者主题模型中的用户即为作者。假设：所有点击文档d_m的用户都是文档d_m的作者，这样ATM就可以应用在QAC任务中了。给定一篇文档，通过采用与隐性狄利克雷分布模型相类似的吉布斯采样方法，主题和作者分配均采样于：

作者主题模型的参数估计如下：

其中，

表示词t对主题K的概率分布，φ_a,k＝p(z_i＝k|u_i＝a)表示用户a对主题K的感兴趣的概率。由于，用户信息u_d可以看成是点击该文档的所有用户的集合，因此，作者主题分布

是一个1×K维向量，向量中每个元素i的值等于φ_a,i，因此可通过常规的聚类方法得到同类用户群。

基于此，上述两种传统的主题模型能够获取到隐性狄利克雷分布和作者主题分布，进而通过常规的聚类方法可以得到同类用户群。其中，常规的聚类方法可为K均值方法或K最相邻用户分类方法等。

然而，这些聚类方法都是“硬聚类”，即每个用户被分配至唯一一个同类用户群，对于那些兴趣偏好较为广泛的用户，将他们分配到多个同类用户群是比较合适的。因此“软聚类”方法能够更好的捕捉到不同用户在兴趣和搜索意图上的多样化差异。基于以上原因，提出了基于兴趣的同类用户主题模型(Cohort Topic Model，CTM)，在该模型中我们将同类群作为一个隐性变量融入到主题模型中。在建模过程中，将同类群和主题这两个概念分开，即一个同类群可以对应多个兴趣主题，而多个同类群可以共享一个兴趣主题。

基于此，本发明实施例提出了两个不同的将同类群融入到主题模型的策略，与硬聚类方法相比，作为软聚类的CTM能够将一个用户分配至多个同类用户群且给出该用户属于每个同类用户群的概率。

具体地，如图4所示，同类用户主题模型1中，每个用户和各个同类用户群之间通过一个多项分布μ联系起来，每个同类群和各个主题之间通过一个多项分布χ联系起来，每个主题和各个词之间通过一个多项分布

联系起来。多项分布μ、χ和

分别由超参数γ、α和β生成。

进一步地，同类用户主题模型1的建立过程如下：

S101：对文档的每个用户u，根据超参数γ得到一个属于该用户的多项分布μDirichlet(γ)。

S102：对每个同类群c，根据超参数α得到一个属于该同类群的多项分布χDirichlet(α)。

S103：对每个主题z，根据超参数β得到一个属于该主题的多项分布

S104：获取文档的用户向量u_d，按照平均分布u_i＝a Uniform(u_d)抽取一个用户a。其中，用户a为用户u中的一个。

S105：根据用户a从步骤S101中得到的多项分布c_i＝s Discrete(μ_a)中抽取一个同类群。

S106：根据同类群从步骤S102中得到的多项分布z_i＝k Discrete(χ_s)中抽取一个主题K。

S107：根据主题K从步骤S103中得到的多项分布w_i＝t

中抽取一个词语t。

S108：判断是否生成文档。

如果是，则建模结束；如果否，则返回步骤S104。

需要说明的是，上述同类用户主题模型1建立过程中步骤S101-S103为对每个用户、每个同类群、每个主题获取对应的多项分布，步骤S104-S107为对已获取到多项分布中的一个用户、一个同类群、一个主题进行抽样的示例。应当理解的是，在同类用户主题模型1建模过程中，通过多次进行S101-S103获取全部用户、同类群和主题的多项分布，然后通过多次进行S104-S107以生成文档。

对建立的同类用户主题模型1模型进行吉布斯采样的迭代公式如下：

进一步地，同类用户主题模型1中参数的估计值为：

其中，χ_s,k＝p(z_i＝k|c_i＝s)，μ_a,s＝p(c_i＝s|u_i＝a)，由于

与上述两种同类用户主题模型1和同类用户主题模型2中的含义一样，为了简洁此处忽略了它的估计值。

具体地，如图5所示，同类用户主题模型2可假设每个用户是从同类用户群而非文档的作者集合中采样得到。每个文档关于所有同类群的多项分布用η表示，每个同类群关于所有用户的多项分布用ψ表示，每个用户关于各个主题的多项分布用φ表示，每个主题关于各个词的多项分布用

表示，上述四个多项分布的超参数分别为：γ、δ、α和β。

进一步地，同类用户主题模型2建立过程如下：

S201：对文档集中的每个文档d_m，根据超参数γ得到一个属于该文档的多项分布ηDirichlet(γ)。

S202：对每个同类群c，根据超参数δ得到一个属于该同类群的多项分布ψDirichlet(δ)。

S203：对文档集中的每个用户u，根据超参数α得到一个属于该用户的多项分布φDirichlet(α)。

S204：对每个主题z，根据超参数β得到一个属于该主题的多项分布

S205：获取文档d_m，从步骤S201中得到的多项分布c_i＝s Discrete(η_m)抽取一个同类群s。

S206：根据同类群s，从步骤S202中得到的多项分布u_i＝a Discrete(ψ_s)抽取一个用户。

S207：根据用户a，从步骤S203中得到的多项分布z_i＝k Discrete(φ_a)抽取一个主题K。

S208：获取主题K，从步骤S204中得到的多项分布w_i＝t

抽取一个词语t。

S209：判断是否生成文档。

如果是，则建模结束；如果否，则返回步骤S205。

需要说明的是，上述同类用户主题模型2建立过程中步骤S201-S204为对每个用户、每个同类群、每个主题获取对应的多项分布，步骤S205-S208为对已获取到多项分布中的一个用户、一个同类群、一个主题进行抽样的示例。应当理解的是，在同类用户主题模型1建模过程中，通过多次进行S201-S204获取全部用户、同类群和主题的多项分布，然后通过多次进行S S205-S208以生成文档。

对建立的同类用户主题模型2进行吉布斯采样的迭代公式如下：

进一步地，同类用户主题模型2中参数的估计值为：

其中，ψ_s,a＝p(u_i＝a|c_i＝s)，η_m,s＝p(c_i＝s|d_m)，由于φ_a,k与同类用户主题模型2相同，为简洁起见在此不再赘述。

S5：根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度。

根据本发明的一个实施例，待补全查询词q与同类用户所提交的查询词的相似度采用如下公式获得：

其中，sim(q,q_c)为待补全查询词q与同类用户群成员a_j提交的查询词q_c之间的相似度，sim(a,a_j)为用户a和同类用户群成员a_j之间的相似度，norm(ω_j)对每个同类用户群成员a_j在排序中所做的贡献进行归一化处理以确保∑_jω_j＝1。

应当理解的是，根据上述四种同类用户模型，可分别根据上述四种同类用户模型进行个性化的查询词排序。具体地，对于隐性狄利克雷分布模型和作者主题模型而言sim(a,a_j)＝1/D(a,a_j)，其中，D(a,a_j)表示

和

之间的欧拉距离，对同类用户主题模型1而言

对同类用户主题模型2而言

根据本发明的一个实施例，用户a本身就是他自己的同类且sim(a,a)＝1。

S6：根据频率得分和待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序。

根据本发明的一个实施例，根据频率得分和待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得：

Score(q)＝λ·FreqScore(q)+(1-λ)·CoScore(q)

S7：将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。

根据本发明的一个实施例，由于FreqScore(q)和CoScore(q)采用了不同的单位，需要进行标准化后再计算最终的排序值。

由此，根据用户/作者和主题/兴趣建立四种同类用户模型，能够在数据稀疏的情况下根据同类用户的历史数据对该用户的查询词进行个性化查询词补全推荐。

为了验证本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法，而进行了实验。

在本发明实施例中，主题总数K为固定值80，由于已有研究指出同类用户模型中的超参数只影响Gibbs采样的收敛性而不影响最终的结果，因此在同类用户的发掘建模中，超参数设定为：α＝50/K,β＝0.01,γ＝50/S,δ＝0.1。对于基于采样的各个模型参数的估计值，采用50次迭代后的结果作为最终结果。对于隐性狄利克雷分布模型和作者主题模型设定同类群总数S为20，考虑到有超过14万个用户聚集成20个同类群，每个用户可能会有上千个同类用户，为了计算更加高效且滤除聚类过程中的噪声，对于四个同类用户模型中用户a，sim(a,a_j)值最高的前6个同类用户才能被用来计算待补全查询词与同类用户所提交的查询词的相似度。其中，设定N-grams为3。在排序实验过程中，对测试集中的每个查询词，给出查询词前缀长度#p为1到5时对应的前20个补全查询词，具体blue-cross-blue-shield-of-north-carolina的排序结果如下：

第一列(40603)：为用户ID；

第二列(blue-cross-blue-shield-of-north-carolina)：为用户最终提交的查询词，即用户心里想要算法给出的补全查询词，也就是正确答案。

第三列(2006-04-19 16:46:26)：为查询词提交的时间。

第四列(b)：为当前用户已输入的字符，即查询词前缀。

第五列(bank-of-america一直到bellsouth bank-one)：为算法给出的前20个补全查询词。

从这个示例中可以看到，第一至第三列都没有发生变化，第四列的查询词前缀每次增加一个字符，然后第五列给出的前20个补全查询词相应的发生了一些变化。

40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26 b

bank-of-america bankofamerica best-buy billing bed-bath-and-beyondbarnes-and-noble babies-r-us buddy-list b bestbuy baby-names britney-spearsblockbuster blackplanet babiesrus beyonce better-business-bureau boobsbellsouth bank-one

40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26 bl

blockbuster blackplanet bloomingdales blue-book blackpeoplemeetblowjobs black-planet blackjack blue-cross-blue-shield black bluebook black-pussy blowjob blow-jobs black-eyed-peas blair blogs blog black-porn black-male-bank-robbers

40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26 blu

blue-book blue-cross-blue-shield bluebook blue-mountain blueflyblues-clues bluetooth bluemountain blue-cross blue-mountain-cards blue-book-value blue-birds blue bluecross bluewhiteillustrated blue-october blue-cross-of-california blue-angels blubster bluecrossblueshield

40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26

blue blue-book blue-cross-blue-shield bluebook blue-mountain blueflyblues-clues bluetooth bluemountain blue-cross blue-mountain-cards blue-book-value blue-birds blue bluecross bluewhiteillustrated blue-october blue-cross-of-california blue-angels bluecrossblueshield blue-letter-bible

40603blue-cross-blue-shield-of-north-carolina 2006-04-19 16:46:26

blue-blue-book blue-cross-blue-shield blue-mountain blue-cross blue-mountain-cards blue-book-value blue-birds blue-october blue-cross-of-california blue-angels blue-letter-bible blue-man-group blue-heeler blue-mountain-greeting-cards blue-whale blue-ridge-parkway blue-monkey-sportsblue-tooth blue-cross-blue-sheild blue-nile

由此可见，本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法的有效性。

综上所述，根据本发明实施例提出的基于同类用户模型的个性化查询词补全推荐方法，通过获取用户输入的查询词前缀，然后根据查询日志和查询词前缀获取待补全查询词的集合，计算待补全查询词的频率得分，根据同类用户模型获取该用户与其所属的同类用户群成员的相似度，以及待补全查询词与同类用户群成员提交的查询词之间的相似度，根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度，再根据频率得分和待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序，最后将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。由此，本发明实施例提出的方法能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐，解决了单个用户数据稀疏的问题，提高了查询词推荐的稳定性，提升用户的体验。

本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的基于同类用户模型的个性化查询词补全推荐方法。

根据本发明实施例提出的非临时性计算机可读存储介质，通过实现基于同类用户模型的个性化查询词补全推荐方法能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐，解决了单个用户数据稀疏的问题，提高了查询词推荐的稳定性，提升用户的体验。

本发明还提出了一种基于同类用户模型的个性化查询词补全推荐装置。

图6为本发明实施例提出的基于同类用户模型的个性化查询词补全推荐装置的方框示意图。如图6所示，本发明实施例提出的基于同类用户模型的个性化查询词补全推荐装置包括：第一获取模块10、第二获取模块20、第一计算模块30、第三获取模块40、第二计算模块50、第四计算模块60和推荐模块70。

其中，第一获取模块10用于获取用户输入的查询词前缀；第二获取模块20用于根据查询日志和查询词前缀获取待补全查询词的集合；第一计算模块30用于计算待补全查询词的频率得分；第三获取模块40用于根据同类用户模型获取该用户与其所属的同类用户群成员的相似度，以及待补全查询词与同类用户群成员提交的查询词之间的相似度；第二计算模块50用于根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度；第四计算模块60用于根据频率得分和待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序；推荐模块70用于将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。

综上所述，根据本发明实施例提出的基于同类用户模型的个性化查询词补全推荐装置，通过获取用户输入的查询词前缀，然后根据查询日志和查询词前缀获取待补全查询词的集合，计算待补全查询词的频率得分，根据同类用户模型获取该用户与其所属的同类用户群成员的相似度，以及待补全查询词与同类用户群成员提交的查询词之间的相似度，根据该用户与其所属的同类用户群成员之间的相似度和待补全查询词与同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度，再根据频率得分和待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序，最后将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户。由此，本发明实施例提出的装置能够根据用户所属的同类用户群的数据对该用户进行待补全查询词推荐，解决了单个用户数据稀疏的问题，提高了查询词推荐的稳定性，提升用户的体验。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

在以上的描述中，对于各层的构图、刻蚀等技术细节并没有做出详细的说明。但是本领域技术人员应当理解，可以通过现有技术中的各种手段，来形成所需形状的层、区域等。另外，为了形成同一结构，本领域技术人员还可以设计出与以上描述的方法并不完全相同的方法。

以上参照本发明的实施例对本发明予以了说明。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围，本领域技术人员可以做出多种替换和修改，这些替换和修改都应落在本发明的范围之内。

尽管已经详细描述了本发明的实施方式，但是应该理解的是，在不偏离本发明的精神和范围的情况下，可以对本发明的实施方式做出各种改变、替换和变更。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于同类用户模型的个性化查询词补全推荐方法，其特征在于，包括以下步骤：

获取用户输入的查询词前缀；

根据查询日志和所述查询词前缀获取待补全查询词的集合；

计算待补全查询词的频率得分；

根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度，以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度；

根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度；

根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序；

将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户；其中，所述根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得：

Score(q)＝λ·FreqScore(q)+(1-λ)·CoScore(q)

其中，λ∈[0,1]是一个控制两个排序信号权重的可调参数，FreqScore(q)是待补全查询词q的频率得分，CoScore(q)为待补全查询词q与同类用户所提交的查询词的相似度；其中，所述计算待补全查询词的频率得分采用如下公式：

其中，f(q)为待补全查询词在所述查询日志中出现的次数，C(p)为输入的查询词前缀p相匹配的待补全查询词集合；其中，所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得：

其中，sim(q,q_c)为待补全查询词q与所述同类用户群成员a_j提交的查询词q_c之间的相似度，sim(a,a_j)为用户a和同类用户群成员a_j之间的相似度；所述用户a本身就是他自己的同类且sim(a,a)＝1，norm(ω_j)对每个同类用户群成员a_j在排序中所做的贡献进行归一化处理以确保∑_jω_j＝1。

2.根据权利要求1所述的基于同类用户模型的个性化查询词补全推荐方法，其特征在于，通过隐性狄利克雷分布模型、作者主题模型中的一个得到所述同类用户。

3.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于,该程序被处理器执行时实现如权利要求1-2中任一所述的基于同类用户模型的个性化查询词补全推荐方法。

4.一种基于同类用户模型的个性化查询词补全推荐装置，其特征在于,包括：

第一获取模块，用于获取用户输入的查询词前缀；

第二获取模块，用于根据查询日志和所述查询词前缀获取待补全查询词的集合；

第一计算模块，用于计算待补全查询词的频率得分；

第三获取模块，用于根据同类用户模型获取该用户与其所属的同类用户群成员之间的相似度，以及待补全查询词与所述同类用户群成员提交的查询词之间的相似度；

第二计算模块，用于根据所述该用户与其所属的同类用户群成员之间的相似度和待补全查询词与所述同类用户群成员提交的查询词之间的相似度，计算待补全查询词与同类用户所提交的查询词的相似度；

第四获取模块，用于根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度，获取待补全查询词的顺序；

推荐模块，用于将待补全查询词进行排序以及将排序后的待补全查询词推荐给用户；

其中，所述根据所述频率得分和所述待补全查询词与同类用户所提交的查询词的相似度采用如下公式获得：

Score(q)＝λ·FreqScore(q)+(1-λ)·CoScore(q)