CN102682001A

CN102682001A - 一种确定推荐词的方法及设备

Info

Publication number: CN102682001A
Application number: CN2011100566487A
Authority: CN
Inventors: 廖剑; 林锋; 黎耀炳; 冯炯
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-03-09
Filing date: 2011-03-09
Publication date: 2012-09-19
Anticipated expiration: 2031-03-09
Also published as: CN102682001B

Abstract

本申请公开了一种确定推荐词的方法及设备，从词特征的相关度、类目特征的相关度来综合考虑候选词与查询词的相关度以及候选词与用户感兴趣的领域的相关度，进而选择与查询词和用户兴趣所在的领域相关度都相对较高的候选词作为推荐词，使得最终得到的推荐词从词义以及词的类目都与查询词以及用户的兴趣高度相关，在针对不同用户的相同查询词来确定推荐词时，可以有效地区分用户的兴趣所在，为用户确定最能反映用户搜索需求的推荐词；同时，由于在确定推荐词时还考虑到了词类目的相关度，因此，即使查询词有不同领域的多种含义，也能够根据用户感兴趣的领域准确地确定推荐词；本申请还可以有效降低推荐词确定过程的工作量，提高确定推荐词的效率。

Description

一种确定推荐词的方法及设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种确定推荐词的方法及设备。

背景技术

信息搜索过程是指搜索引擎根据用户输入的查询词，从特定的搜索信息库中搜索出与所述查询词相关的搜索信息，并将得到的搜索信息向用户展示的过程。在信息搜索过程中，用户需要将待搜索的物品转换为查询词来进行搜索，若用户使用的查询词不准确，则可能导致最终得到的搜索信息不是用户实际希望获得的搜索信息。为了提高搜索结果的准确性，在信息搜索过程中引入相关搜索的方案。

相关搜索是指搜索引擎根据用户输入的查询词，向用户推送与该查询词相关性较高的推荐词(即搜索引擎向用户推荐的查询词)，用户可以根据所述推荐词进行信息搜索，使最终得到的搜索信息能够满足用户的搜索需求。

具体做法是：搜索引擎对用户输入的查询词进行完善或扩展、改写，得到与查询词相关性较高的推荐词，并在对用户输入的查询词进行搜索得到搜索结果后，将推荐词在搜索结果的页面上方或下方向用户显示。若用户在搜索结果中没有找到满意的搜索信息(即搜索结果中的搜索信息不准确)，则用户可以再将推荐词作为新的查询词继续进行搜索，直至查询出需要的搜索信息。

比如，用户输入的查询词为“A品牌手机”，搜索引擎可以对“A品牌手机”进行完善，向用户推送“B品牌手机”、“A品牌电脑”等与“A品牌手机”相关性较高的推荐词。再比如：用户输入的查询词为“a公司”名称，搜索引擎可以对“a公司”进行扩展，向用户推送“a公司创始人”、“a公司产品”等推荐词。

在上述相关搜索的方案中，搜索引擎是预先将所有用户使用过的查询词作为候选推荐词集合，并将候选推荐词集合存储在数据库中。当搜索引擎接收到某一用户发送的包含查询词的搜索请求后，根据候选推荐词集合中各候选推荐词的热门程度以及各候选推荐词与当前接收到的查询词的相关性高低，从候选推荐词结合中选择出向用户推送的推荐词。

由于搜索引擎是将所有用户使用的查询词作为候选推荐词集合，在每次为用户发送的搜索请求进行相关搜索时，都要从包含大量查询词的候选推荐词集合进行搜索，使搜索引擎确定推荐词的运算工作量极大，导致搜索引擎的工作时延较大，降低相关搜索的效率；另外，由于推荐词的产生只与候选推荐词的热门程度以及与当前的查询词相关性有关，而不考虑当前发起搜索请求的用户的个性化需求，因此，当多个用户使用相同查询词进行搜索请求时，每个用户得到的推荐词相同，而用户的需求差异化将会导致部分用户得到的推荐词不能正确地反映该用户的搜索需求，使得最终得到的搜索结果准确性较低；进一步地，在用户使用的查询词具有多种含义，且每种含义所属的领域差别较大时，产生的推荐词反映用户搜索需求的能力将会更差。

比如：用户输入的查询词为“apple”，搜索引擎对之前所有的用户使用过的查询词进行搜索，而没有任何针对性，确定候选推荐词的时延较长；另外，在确定推荐词时，有的用户希望得到的推荐词是水果类的推荐词，而有的用户希望得到的推荐词是apple品牌的电子产品类的推荐词。再比如：用户输入的查询词为java”，从事计算机技术的用户希望得到关于java语言的推荐词，而喜欢旅游的用户希望得到的是关于爪哇岛的推荐词。在目前推荐词的产生过程中，有不同需求的用户得到的推荐词相同，每个用户只能得到热门程度高以及与查询词相关性高的推荐词，不能为用户个性化地产生推荐词，无法满足不同用户的搜索需求。

发明内容

本申请目的在于：提供一种确定推荐词的方法及设备，用以解决现有技术中存在的确定推荐词的运算量极大，且不能为用户个性化地产生推荐词的问题。

一种确定推荐词的方法，包括：

接收用户发送的包含查询词的搜索请求；

根据预先存储的多个用户使用的词集合，将包含所述查询词的词集合作为候选词集合；

针对候选词集合中的多个候选词，确定候选词与查询词的相关度，以及确定候选词与发送搜索请求的用户使用的词集合中各词的相关度；

将与查询词的相关度和与发送搜索请求的用户使用的词集合中各词的相关度满足设定条件的候选词，作为向发送搜索请求的用户提供的推荐词。

一种确定推荐词的设备，包括：

接收模块，用于接收用户发送的包含查询词的搜索请求；

候选集合确定模块，用于根据预先存储的多个用户使用的词集合，将包含查询词的词集合作为候选词集合；

相关度确定模块，用于针对候选词集合中的多个候选词，确定候选词与查询词的相关度，以及确定候选词与发送搜索请求的用户使用的词集合中各词的相关度；

推荐模块，用于将与查询词的相关度和与发送搜索请求的用户使用的词集合中各词的相关度满足设定条件的候选词，作为向发送搜索请求的用户提供的推荐词。

本申请有益效果如下：

本申请实施例不从所有用户使用过的所有查询词中确定推荐词，而是从部分用户使用的词集合组成的候选词集合中确定推荐词，可以有效降低推荐词确定过程的工作量，提高确定推荐词的效率；同时，本申请实施例从词特征的相关度、类目特征的相关度来综合考虑候选词与查询词的相关度以及候选词与用户感兴趣的领域的相关度，进而选择与查询词和用户兴趣所在的领域相关度都相对较高的候选词作为推荐词，使得最终得到的推荐词从词义以及词的类目都与查询词以及用户的兴趣高度相关，在针对不同用户的相同查询词来确定推荐词时，可以有效地区分用户的兴趣所在，为用户确定最能反映用户搜索需求的推荐词；同时，由于在确定推荐词时还考虑到了词类目的相关度，因此，即使查询词有不同领域的多种含义，也能够根据用户感兴趣的领域准确地确定推荐词。

附图说明

图1为本申请实施例一确定推荐词的方法示意图；

图2为类目特征模型和词特征模型的建模示意图；

图3为本申请实施例三确定推荐词的设备结构示意图；

图4为本申请的系统架构示意图。

具体实施方式

为了实现本申请目的，本申请实施例提出一种新的确定推荐词的方案，预先分析确定各用户感兴趣的词集合，当需要为某一用户确定推荐词时，根据该用户感兴趣的词集合以及与该用户有相同兴趣的其他用户的词集合，为用户确定与搜索请求中的查询词相关的推荐词，使得产生的推荐词能够正确地反映搜索用户的搜索需求，即使是在查询词有多种含义的情况下，仍然能够根据搜索用户的兴趣确定合适词义的推荐词。且本申请实施例从部分用户使用的词集合组成的候选词集合中确定推荐词，可以有效降低推荐词确定过程的工作量，提高确定推荐词的效率。

本申请各实施例中涉及的查询词是指信息搜索过程中，软硬件设备能够识别的、表示用户待搜索的物品标识；推荐词是指相关搜索中，软硬件设备根据搜索过程中使用的查询词，确定的与该查询词相关性较高的推荐词，并展示给用户，当用户使用推荐词继续进行信息搜索过程时，继续进行信息搜索过程中的推荐词将成为查询词。

上述软硬件设备是本申请实施例中涉及的确定推荐词的设备，该设备可以是集成在搜索引擎中的逻辑部件，也可以是独立于搜索引擎的包含软硬件的设备。

下面结合说明书附图对本申请实施例进行详细描述。

实施例一

本申请实施例一提供了一种确定推荐词的方法，如图1所示，该方法包括以下步骤：

步骤101：接收用户发送的包含查询词的搜索请求。

在本步骤中，当有用户希望进行信息搜索过程时，主动发起包含查询词的搜索请求。本步骤中涉及的查询词可以是用户将待搜索的物品转换得到的查询词，也可以是用户主动选择之前已展示的推荐词作为新的查询词。

若确定推荐词的设备(后续简称确定推荐词的设备)是集成在搜索引擎中的逻辑部件，则在本步骤中，确定推荐词的设备接收到用户发送的搜索请求后，一边根据搜索请求中包含的查询词进行常规的信息搜索过程，一边根据用户本次使用的查询词，为用户确定推荐词。

若确定推荐词的设备是独立于搜索引擎的设备，则在本步骤中，确定推荐词的设备接收到用户发送的搜索请求后，一边将该搜索请求发送给搜索引擎，请求搜索引擎根据搜索请求中包含的查询词进行常规的信息搜索过程，一边根据用户本次接收到的查询词，为用户确定推荐词。

步骤102：根据预先存储的多个用户使用的词集合，将包含查询词的词集合作为候选词集合。

本步骤主要包括以下两部分内容：

第一部分：对接收到的查询词进行预处理，将用户输入的查询词转换为词特征向量以及该查询词的类目特征向量。

第二部分：产生候选词集合。

本申请实施例中产生候选词集合的方式包括：

第一步：提取出预先存储的多个用户使用的词集合。

本步骤中预先存储了大量用户使用的词集合，在执行本步骤中，可以用大量用户中提取出部分用户使用的词集合，进而减少确定推荐词的设备确定推荐词的查询基数，降低推荐词确定过程的运算量。

本步骤中，通过对设定时间段内多个用户的行为进行分析，确定用户使用的查询词和/或浏览的文档的主题词，进而将用户使用的查询词和/或浏览的文档的主题词作为该用户使用的词集合。

进行行为分析的用户是指曾经向确定推荐词的设备发起过搜索请求的用户，确定推荐词的设备在每次接收到搜索请求时，记录搜索请求中包含的查询词以及用户对查询结果的浏览情况。

用户使用的词集合是指：用户在设定时间段内使用的查询词以及浏览的文档的主题词的集合。用户使用的词集合能够反映出在设定时间段内，该用户感兴趣的词语，进而表达该用户感兴趣的领域，成为后续为用户确定推荐词的基础。

第二步：确定包含查询词的词集合，并将确定的词集合作为候选词集合。

由于词集合表示曾经发起过搜索请求的用户感兴趣的词语，包含查询词的词集合对应的用户是曾经对查询词感兴趣的用户，将这些对所述查询词感兴趣的用户看作是与发起搜索请求的用户有相似性的用户，因此，将包含查询词的词集合作为候选集合，可以提高推荐词确定效率，从中找到能够正确反映发起搜索请求的用户的搜索需求。

步骤103：针对候选词集合中的多个候选词，确定候选词与查询词的相关度，以及候选词与发送搜索请求的用户使用的词集合中各词的相关度。

本步骤中可以从候选词集合中选择部分候选词进行相关度确定过程，也可以对候选词中的每个候选词进行相关度确定过程。

本步骤中，候选词与查询词的相关度包括：候选词与查询词的词特征相关度和候选词与查询词的类目特征相关度。

候选词与发送搜索请求的用户使用的词集合中各词的相关度包括：候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度和候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度。

在本步骤的方案中，在计算相关度时，除了计算候选词与查询词的相关度之外，只需要计算候选词与发送搜索请求的用户使用的词集合中各词的相关度，而无需像现有技术方案那样计算候选词与所有用户使用的词集合中各词的相关度，减少了确定推荐词的设备计算相关度的运算量，进一步提高了推荐词确定的效率。

步骤104：将相关度满足设定条件的候选词作为向发送搜索请求的用户提供的推荐词。

由于在步骤103中，一个候选词与查询词和与发送搜索请求的用户使用的词集合中各词的相关度计算后，会得到4个相关度的数值，因此，可以根据这4个相关度的数值为用户确定最终的用于判断是否可作为推荐词的相关度数值。具体的计算方式可以有多种，包括但不限于线性加权求和的方式或其他算法。

在计算确定每个候选词最终的相关度后，将该最终的相关度与设定的阈值进行比较，若候选词最终的相关度大于设定的阈值，则将该候选词存储至推荐集合中，作为推荐词，重复执行步骤103和步骤104，直至将候选集合中的所有候选词执行完毕后，得到完整的推荐集合，并在向用户展示针对查询词的搜索结果时，同时展示推荐集合中的推荐词。

本实施例一的方案通过对4个维度的相关性考虑，从词特征的相关度、类目特征的相关度来综合选择推荐词，使得最终得到的推荐词从词义以及词的类目都与查询词以及用户的兴趣高度相关，在针对不同用户的相同查询词来确定推荐词时，可以有效地区分用户的兴趣所在，为用户确定最能反映用户搜索需求的推荐词；同时，由于在确定推荐词时还考虑到了词类目的相关度，因此，即使查询词有不同领域的多种含义，也能够根据用户感兴趣的领域确定推荐词。进一步地，本申请实施例还对历史的设定时间段进行限制，充分考虑到用户的兴趣会随着时间推移而改变，动态地实现了对用户兴趣的学习，同时，本申请实施只使用历史的设定时间段内用户使用的词集合，一方面相对于所有历史时间段内的词集合进行处理的情况，可以减少对运算量，提高运算效率，另一方面，历史的设定时间段内的词集合已经能够正确地反映用户的兴趣，在运算效率较高的情况下，使确定的推荐词能够准确地满足用户的查询需求。

实施例二

本申请实施例二通过具体的实例对本申请实施例一的方案进行详细描述。

在本实施例二的方案中，要对设定时间段内用户的行为进行分析，生成用户行为的类目特征模型以及用户行为的词特征模型。下面详细说明类目特征模型以及词特征模型的建模过程。

一、类目特征模型的建模过程：

用户在历史的设定时间段内使用的查询词和浏览的文档都能够反映用户感兴趣的领域，而查询词和浏览文档的主题词所属的类目又能够反映出用户对各种类目的感兴趣程度，通过基于矢量空间的模型可以描述用户对各种类目的感兴趣程度，如公式(1)所示：

uc＝(wc₁，wc₂，......wc_n) (1)

其中：uc表示用户u对各种类目的感兴趣程度；wc_i表示用户u对第i个类目感兴趣的程度。

上述公式(1)中用户u对各类目感兴趣的程度可以通过对用户u的搜索行为和对搜索结果的浏览行为进行分析确定，具体的算法可以有多种，下面举例说明一种计算用户u对各类目感兴趣程度的方法：

第一步：通过Click through(CT)数据分析确定用户u感兴趣的类目。

CT数据是记录用户在历史的设定时间段内使用的查询词和对搜索结果的文档浏览情况的数据，通过对CT数据的分析可以隐式地确定用户u感兴趣的类目，如公式(2)所示：

CT＝{＜u，q，d＞|u∈U，q∈Q，d∈D_q} (2)

其中：U表示在历史的设定时间段内，有过搜索行为的用户集合，u表示在历史的设定时间段内，有过搜索行为的用户u；Q表示在历史的设定时间段内，用户u的搜索行为使用的查询词的集合，q表示在历史的设定时间段内，用户u的一次搜索行为使用的查询词；D_q表示用户u在使用查询词q后得到的搜索结果中浏览的文档集合，d表示用户u在使用查询词q后得到的搜索结果中浏览一个文档。

利用CT数据为每个用户生成公式(2)所示的列表，并存储在数据库中。

第二步：通过Doc数据记录搜索使用的数据库中所有文档的信息集合(如文档所属的类目)。例如：在电子商务网站中，文档是表示产品信息的页面，文档所属的类目是卖家在发布产品时填写的产品类目。在非电子商务网站中，若没有建立产品与类目的对应关系，则可以基于自定义的或国际通用的类目体系(如ODP类目体系)，通过对文档内容的分析，确定文档所属的类目。

Doc数据所表示的文档类目信息如公式(3)所示：

Doc＝{＜d，c＞|d∈D，c∈C} (3)

其中：D表示所有文档的集合；C表示文档所属类目集合，也就是文档的主题词所属的类目集合。

第三步：在得到公式(2)和公式(3)所示的CT数据以及Doc数据后，以用户u浏览一个文档d为中介，得到用户u和类目之间的关系，并从中挑选可信度较高的集合得到生成用户对各种类目的感兴趣程度所需的训练数据，如公式(4)所示：

UC＝{＜u，c＞|u∈U，c∈C} (4)

第四步：在得到公式(4)所示的用户u与各类目之间的关系后，需要进一步计算出用户u对各类目感兴趣的程度，本实施例中可以采用概率分布p(c|u)来表达用户u在各类目出现的概率值wc_i。具体做法为，通过最大使然估计算法，近似得到公式(5)：

wc_i＝p(c_i|u)＝f(u，c_i)/f(u) (5)

其中：f(u，c_i)表示u和c同时在UC数据中出现的次数，f(u)表示u在UC数据中出现的次数。例如：用户u在c₁类目中出现的次数为10次，在c₂类目中出现5次，则用户u在UC数据中出现的次数f(u)为15次，用户u在c₁类目出现的概率值为10/15，用户u在c₂类目中出现的概率值为5/15。

对所有的用户分别执行上述四步，得到各用户在类目中出现的概率值，进而得到所有用户的类目特征模型列表，称之为用户-类目列表。如表1所示，列表中的行表示各用户的标识，列表示各种类目的标识，列表中的数值表示某用户感兴趣的词在某种类目中出现的概率值。

	类目1	类目2	……	类目i	……	类目n
							用户1	0.745	0.121	0.133
用户2		0.835		0.165
							……
用户i		0.639				0.361
							……
用户N	0.247	0.461		0.291

表1

通过表1得到用户与类目之间的关系后，还可以利用公式(2)和公式(3)，以用户u浏览一个文档d为中介，得到用户u的一次搜索行为使用的查询词q和类目之间的关系，与公式(4)的计算方式类似，得到公式(6)所示的词与类目之间的关系：

QC＝{＜q，c＞|q∈Q，c∈C} (6)

再采用概率分布p(c|q)来表达查询词q在各类目中出现的概率wq，通过最大使然估计算法，近似得到：

wq_i＝p(c_i|q)＝f(q，c_i)/f(q) (7)

其中：f(q，c_i)表示q和c同时在QC数据中出现的次数，f(q)表示q在QC数据中出现的次数。例如：查询词q在c₁类目中出现的次数为4次，在c₂类目中出现3次，则查询词q在QC数据中出现的次数f(q)为7次，查询词q在c₁类目中出现的概率为4/7，查询词q在c₂类目中出现的概率为3/7。

依次为每个查询词进行上述运算，得到如表2所示的词-类目列表，词-类目列表中的行表示各查询词的标识，列表示各种类目的标识，列表中的数值表示某一查询词在特定类目中出现的概率。

	类目1	类目2	……	类目i	……	类目n
							Term1	0.133	0.121	0.745
Term2	0.165					0.835
							……
Term i				0.639		0.361
							……
Term N		0.461		0.291		0.247

表2

二、词特征模型的建模过程。

用户在历史的设定时间段内使用的查询词和/或浏览的文档的主题词是词特征建模的基础，是用户使用的词集合。通过基于矢量空间的模型可以描述用户对词集合中各词的感兴趣程度，如公式(8)所示，这里的感兴趣程度可以表示为词的权重，词的权重越大，表示用户对该词越感兴趣。

ut＝(wt₁，wt₂，......wt_n) (8)

其中：ut表示用户u对词集合中各词的感兴趣程度，wt_i表示用户u对第i个词感兴趣的程度，即第i个词的权重。

本实施例中的历史的设定时间段可以通过时间窗的方式来设定，在窗口设定为N时，表示历史的设定时间段是当前最进的N天内用户的词集合，并考虑用户的对词的兴趣可能会随着时间推移而衰减，因此，可以建立如公式(9)所示的词特征生成模型：

wt_i＝f(t_i，d) (9)

其中：f(t_i，d)表示用户u对第i个词的权重生成的函数。

本实施例的方案中可以有多种生成函数f(t_i，d)，包括但不限于以下公式(10)所示的生成函数：

{wt}_{i} = \frac{1}{S_{N}} Σ_{hp = 1}^{S_{N}} (&PartialD; (t_{i}^{hp}) \times e^{- \frac{\log 2}{hl} (d - d_{i - init})}) - - - (10)

其中：S_N表示时间窗口内，词集合中一个词t_i的出现次数；hl为常数，如hl＝7，表示用户对词t_i的感兴趣的程度每7天衰减一半；d表示时间窗口内词t_i每次出现的时间；d_i-init表示时间窗口内词t_i第一次出现的时间；

表示词t_i在第hp次出现时的权重。

可以根据词t_i的语义重要程度、在第hp次出现时的位置等信息来确定。

例如：若词t_i是从用户u浏览过的文档中提取的主题词，则可以将词t_i所在的文档在搜索结果中的排名作为

大小的影响因素，文档的排名越靠前，该文档的主题词的

越大。

如利用公式(11)来描述

&PartialD; (t_{i}^{hp}) = tf_idf (t_{i}^{hp}) \times e^{- \frac{\log 2}{c} \times (page \times pageNum + pos)} - - - (11)

表示词t_i在文档

中的tf_idf值，page表示文档

的页数；pageNum表示每页搜索结果中展示结果数量；pos表示文档

在搜索结果页面中的位置；c为常量。

再例如：若词t_i是用户u在历史的设定时间段内使用的查询词，可以设定

为常数，历史的设定时间段内使用的各查询词使用相同的

在确定

后，通过公式(10)可以计算得到用户u对词t_i的权重wt_i。

特殊地，若词t_i既是用户u在历史的设定时间段内使用的查询词，又是用户u浏览过的文档中提取的主题词，则可以分别按照查询词和主题词的方式确定

并将按照查询词和主题词的方式确定的

分别代入公式(10)后得到词t_i的多个权重，再将这多个权重加权求和，得到词t_i的权重。

在对用户使用的词集合中的每个词执行上述操作得到词的权重后，进而得到如表3所示的词特征模型列表，称之为用户-词列表，其中，表3中的行表示用户的标识，列表示词集合中的词的标识，列表中的数值表示某一用户对特定词的感兴趣程度，即词对用户的权重。

	Term1	Term2	……	Term i	……	Term T
							用户1	0.745	0.362	0.718
用户2		0.835		0.534		0.126
							……
用户i		0.639				0.485
							……
用户N	0.247	0.461		0.928

表3

表1、表2和表3表示了类目特征模型和词特征模型，表1的用户-类目列表通过用户在类目中出现的概率值来表示用户对某种类目感兴趣的程度；+表2的词-类目列表通过词在类目中的出现概率表示用户感兴趣的词与类目的关系；表3的用户-词列表通过词对用户的权重表示每个用户感兴趣的词集合。

如图2所示，为类目特征模型和词特征模型的建模示意图，通过采集用户在历史的设定时间段内使用的查询词、浏览文档的主题词、文档的类目信息等，将采集的信息按用户进行划分，得到最终的表1～表3，完成类目特征模型和词特征模型的建模。

类目特征模式是通过用户感兴趣的类目来表示用户的偏好，词特征模型是通过用户感兴趣的词来表示用户的偏好，这两种模式从不同角度来表示用户的偏好，作为确定推荐词的基础，使得最终得到的推荐词能够正确反映用户的偏好，使用户的搜索过程更加准确。

在类目特征模型和词特征模型建立之后，当有用户发起搜索请求时，将利用已建立的类目特征模型和词特征模型为当前搜索请求中的查询词确定对应的推荐词，具体确定推荐词的过程如下：

第一步：产生候选词集合。

当用户1向确定推荐词的设备发送包含查询词query的搜索请求时，确定推荐词的设备首先从表3中查找同样对query感兴趣的其他用户，即查找使用的词集合中包含query的其他用户。在查找出对query感兴趣的其他用户后，进而查找出其他用户使用的词集合，并将这些词集合作为推荐词的候选词集合。

例如：用户2发送的查询词query是term_j，此时，确定推荐词的设备查找表3后发现用户1和用户N的词集合中也包含term_j，因此，将用户1和用户N的词集合作为候选词集合。

第二步：针对候选词集合中的每个候选词，确定4维度的相关度。

在实施例一中记载了每个候选词需要计算的4维度的相关度，包括：候选词与查询词的词特征相关度、候选词与查询词的类目特征相关度、候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度和候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度。

下面以候选词集合中的候选词term_i为例，来说明如何确定候选词4维度的相关度。

1、候选词term_i与查询词term_j的词特征相关度。

所述i和j是不小于1且不大于N的正整数。

假设通过查询表3后发现候选词集合是用户1和用户N使用的词集合，因此，根据表3中的用户1和用户N的词集合中各词的权重，可以确定候选词集合中每个候选词的权重。

再利用列表3中的列向量可以计算term_j和term_i之间的词特征的相关度sim₁(term_i，term_i)，由于表3中term_j所在的列向量是将term_j在每个用户中的权重表征为向量形式，term_i所在的列向量是将term_i在每个用户中的权重表征为向量形式，因此，term_j和term_i之间词特征的相关度可以采用向量相似度的计算方法确定，例如：余弦夹角算法、Jaccard系数算法、Dice距离算法、内积算法等。

本实施例中采用Pearson相关系数算法来计算term_j和term_i之间词特征的相关度sim₁(term_i，term_i)，具体的计算公式如公式(13)所示：

{sim}_{1} ({term}_{i}, {term}_{j}) = \frac{\underset{U}{Σ} (w_{ui} - \overset{&OverBar;}{w_{u}}) (w_{uj} - \overset{&OverBar;}{w_{u}})}{\sqrt{\underset{U}{Σ} {(w_{ui} - \overset{&OverBar;}{w_{u}})}^{2}} \sqrt{\underset{U}{Σ} {(w_{uj} - \overset{&OverBar;}{w_{u}})}^{2}}} - - - (13)

其中：U是使用的词集合中同时有查询词term_j和候选词term_i的用户集合；w_ui表示U中一个用户对候选词term_i的权重；w_uj表示U中该用户对查询词term_j的权重；

表示U中该用户对使用的词集合中各词权重的平均值。

通过公式(13)可以计算term_j和term_i之间词特征的相关度sim₁(term_i，term_i)。

2、候选词term_i与查询词term_j的类目特征相关度。

利用利用列表2可以确定查询词term_j在各类目中出现的概率，以及确定候选词term_i在各类目中出现的概率，利用表2确定的查询词term_j的行向量和term_i的行向量可以计算term_j和term_i类目特征的相关度sim₂(term_i，term_j)。

由于表2中term_j的行向量是将term_j在不同类目中出现的概率表征为向量形式，term_i的行向量是将term_i在不同的类目中出现的概率表征为向量，因此，term_j和termi之间类目特征的相关度可以采用向量相似度的计算方法确定，例如：余弦夹角算法、Jaccard系数算法、Dice距离算法、内积算法等。假设候选词term_i在表2中的行向量是查询词term_j在表2中的行向量是则通过向量之间夹角的余弦值来计算term_j和term_i类目特征的相关度可以使用公式(14)的方式：

{sim}_{2} ({term}_{i}, {term}_{j}) = \cos (\overset{&RightArrow;}{q_{j}}, \overset{&RightArrow;}{t_{i}}) = \frac{\overset{&RightArrow;}{q_{j}} \times \overset{&RightArrow;}{t_{i}}}{| | \overset{&RightArrow;}{q_{j}} | | \times | | \overset{&RightArrow;}{t_{i}} | |} - - - (14)

通过公式(14)可以计算term_j和term_i之间类目特征的相关度sim₂(term_i，term_j)，可选地，term_j和term_i之间类目特征的相关度也可以采用公式(13)计算确定。

3、候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度。

假设本次发起搜索请求的用户是用户2，通过查询表3可以将用户2所在的行向量作为用户2的向量

向量

中将用户2使用的词集合中各词的权重作为向量参数。

将候选词term_i与向量

中每个向量参数分别计算词特征相关度。在表3中，用户2的向量

的内容为(0，0.835，...，0.534，...，0.126)。将候选词term_i分别与每个向量

中的每个向量参数使用向量相似度计算方式(如公式(13))来计算确定候选词term_i与向量

中每个向量参数的相关度，通过对得到的候选词term_i与向量中每个向量参数的相关度进行加权融合，得到用户2对候选词term_i感兴趣的程度，进而得到候选词term_i与发送搜索请求的用户使用的词集合中各词的词特征相关度sim₃(term_i，u)。

这里对得到的候选词term_i与向量

中每个向量参数的相关度进行加权融合的方式可以是表示为候选词term_i与向量

中每个向量参数的相关度的一种投票模型和机制，如公式(15)所示的投票算法：

{sim}_{3} ({term}_{i}, u) = L ({term}_{i}, \overset{&RightArrow;}{U}) - - - (15)

进一步地，可以从term_i与向量

中每个向量参数的相关度中选取相关度最高的M(M为正整数)个值来计算term_i与向量

中每个向量参数的词特征相关度，具体算法如公式(16)所示：

{sim}_{3} ({term}_{i}, u) = \frac{\underset{k &Element; N}{Σ} (s_{ik} \times w_{uk})}{\underset{k &Element; N}{Σ} | s_{ik} |} - - - (16)

其中：s_ik表示term_i与term_k的相关度，所述term_k表示发起搜索请求的用户使用词集合中的词，term_i与term_k的相关度可以用公式(13)来计算；w_uk表示发起搜索请求的用户对使用的词集合中各词的权重。

4、候选词term_i与发送搜索请求的用户使用的词集合中各词的类目特征相关度。

根据列表1确定发送搜索请求的用户2中的行向量为

term_i在表2中的行向量为

根据向量之间夹角的余弦值的公式(17)可以计算出候选词term_i与发送搜索请求的用户使用的词集合中各词的类目特征相关度sim₄(term_i，u)：

{sim}_{4} ({term}_{i}, u) =cos (\overset{&RightArrow;}{u}, {\overset{&RightArrow;}{t}}_{i}) - - - (17)

至此，本步骤中计算得到了候选词term_i的4维相关度，对候选词集合中的所有候选词执行上述步骤后，可以得到每个候选词的4维相关度。

第三步：综合每个候选词的4维相关度，确定相关度满足设定条件的候选词作为推荐词。

将候选词作为推荐词的置信度可以看作是该候选词的4维相关度的综合效应，设定的条件可描述为sim₁～sim₄的函数如公式(18)所示：

sim＝h(sim₁，sim₂，sim₃，sim₄) (18)

公式(18)中的一种可实现方式为线性加权求和方式，如公式(19)所示：

sim＝λ₁*sim₁+λ₂*sim₂+λ₃*sim₃+λ₄*sim₄ (19)

其中，λ₁～λ₄表示分别表示sim₁～sim₄的权重。

若某一候选词的sim大于设定阈值，则将该候选词作为推荐词，在推荐词产生完毕后，可以按照推荐词的sim由大到小的顺序展示。

本申请实施例二是针对每个独立用户进行推荐词确定的，本申请实施例也不限于用统计方法确定出与需要确定推荐词的用户(即当前发起搜索请求的用户)相似的若干用户，当这类相似的若干用户发起搜索请求时，可以使用已确定推荐词的用户的相关信息为相似的若干用户确定推荐词。另外，为了提供本申请实施例的性能，降低噪音，本申请实施例还可以使用降维技术(如LSI技术)来降低表1、表2、表3的维空间数量，从而更加简便地发现词之间的相关度。

实施例三

本申请实施例三还提供一种确定推荐词的设备，如图3所示，包括：接收模块11、候选集合确定模块12、相关度确定模块13和推荐模块14，其中：接收模块11用于接收用户发送的包含查询词的搜索请求；候选集合确定模块12用于根据预先存储的多个用户使用的词集合，将包含查询词的词集合作为候选词集合；相关度确定模块13用于针对候选词集合中的多个候选词，确定候选词与查询词的相关度，以及确定候选词与发送搜索请求的用户使用的词集合中各词的相关度；推荐模块14用于将与查询词的相关度和与发送搜索请求的用户使用的词集合中各词的相关度满足设定条件的候选词，作为向发送搜索请求的用户提供的推荐词。

确定推荐词的设备还包括词集合确定模块15，用于采集设定时间段内一用户使用的查询词，并将采集的查询词作为该用户使用的词集合；或，采集设定时间段内一用户浏览的文档，并确定各文档的主题词，将确定的主题词作为该用户使用的词集合；或，采集设定时间段内一用户使用的查询词以及该用户浏览的文档，将采集的查询词和各文档的主题词作为该用户使用的词集合。

另外，确定推荐词的设备还可以包括建模模块16，用于按照实施例二的方式建立类目特征模型和词特征模型。

所述相关度确定模块13具体包括以下多个子模块，分别按照实施例二中的方案确定候选词的4维相关度：

第一子模块，用于确定候选词与查询词的词特征相关度；

第二子模块，用于确定候选词与查询词的类目特征相关度。

第三子模块，用于确定候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度；

第四子模块，用于确定候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度。

如图4所述，为利用实施例三中的确定推荐词的设备和用户之间传输关系构建的系统架构图，在相关搜索过程中，用户向确定推荐词的设备发送包含查询词的搜索请求后，由确定推荐词的设备为其确定相应的推荐词并返回给用户，使用户的查询体验较好；在确定推荐词的设备内部，由建模模块16根据历史日志数据库中信息进行建模，候选集合确定模块12根据建模模块16建立的模型确定候选词集合，再由相关度确定模块13根据接收模块11接收到的查询词对候选词集合中各候选词进行相关度运算，最后由推荐模块14将推荐词返回给用户。本申请各实施例的方案都可运行在图4所示的系统架构下。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种确定推荐词的方法，其特征在于，包括：

接收用户发送的包含查询词的搜索请求；

2.如权利要求1所述的方法，其特征在于，用户使用的词集合通过以下方式确定：

采集设定时间段内一用户使用的查询词，并将采集的查询词作为该用户使用的词集合；或

采集设定时间段内一用户浏览的文档，并确定各文档的主题词，将确定的主题词作为该用户使用的词集合；或

采集设定时间段内一用户使用的查询词以及该用户浏览的文档，将采集的查询词和各文档的主题词作为该用户使用的词集合。

3.如权利要求1所述的方法，其特征在于，候选词与查询词的相关度包括：候选词与查询词的词特征相关度和候选词与查询词的类目特征相关度。

4.如权利要求3所述的方法，其特征在于，确定候选词与查询词的词特征相关度，具体包括：

根据用户使用的词集合中各词的权重，确定候选词集合中，每个候选词的权重；

根据候选词的权重以及与该候选词在同一词集合中的查询词的权重，确定该候选词与查询词的词特征相关度。

5.如权利要求4所述的方法，其特征在于，通过以下公式确定一个候选词与查询词的词特征相关度：

{sim}_{1} ({term}_{i}, {term}_{j}) = \frac{\underset{U}{Σ} (w_{ui} - \overset{&OverBar;}{w_{u}}) (w_{uj} - \overset{&OverBar;}{w_{u}})}{\sqrt{\underset{U}{Σ} {(w_{ui} - \overset{&OverBar;}{w_{u}})}^{2}} \sqrt{\underset{U}{Σ} {(w_{uj} - \overset{&OverBar;}{w_{u}})}^{2}}}

其中：sim₁(term_i，term_i)表示候选词term_i与查询词term_j的词特征相关度；U是使用的词集合中同时有查询词term_j和候选词term_i的用户集合；w_ui表示U中一个用户对候选词term_i的权重；w_uj表示U中一个用户对查询词term_j的权重；表示U中一个用户对使用的词集合中各词权重的平均值。

6.如权利要求3所述的方法，其特征在于，确定候选词与查询词的类目特征相关度，具体包括：

确定候选词在预设的各类目中出现的概率值，以及查询词在预设的各类目中出现的概率值；

根据候选词在各类目中出现的概率值和查询词在各类目中出现的概率值，确定候选词与查询词的类目特征相关度。

7.如权利要求6所述的方法，其特征在于，通过以下公式确定一个候选词与查询词的类目特征相关度：

{sim}_{2} ({term}_{i}, {term}_{j}) = \cos (\overset{&RightArrow;}{q_{j}}, \overset{&RightArrow;}{t_{i}}) = \frac{\overset{&RightArrow;}{q_{j}} \times \overset{&RightArrow;}{t_{i}}}{| | \overset{&RightArrow;}{q_{j}} | | \times | | \overset{&RightArrow;}{t_{i}} | |}

其中：sim₂(term_i，term_j)表示候选词term_i与查询词term_j的类目特征相关度；

表示查询词term_j在预设的各类目中出现的概率值的向量形式；

表示候选词term_i在预设的各类目中出现的概率值的向量形式；

表示向量和向量之间的夹角余弦函数。

8.如权利要求1所述的方法，其特征在于，候选词与发送搜索请求的用户使用的词集合中各词的相关度包括：候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度和候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度。

9.如权利要求8所述的方法，其特征在于，确定候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度，具体包括：

根据发送搜索请求的用户使用的词集合中各词的权重，以及候选词的权重，确定该候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度。

10.如权利要求9所述的方法，其特征在于，通过以下公式确定一个候选词与发送搜索请求的用户使用的词集合中各词的词特征相关度：

{sim}_{3} ({term}_{i}, u) = \frac{\underset{k &Element; N}{Σ} (s_{ik} \times w_{uk})}{\underset{k &Element; N}{Σ} | s_{ik} |}

其中：sim₃(term_i，u)表示候选词term_i与发送搜索请求的用户使用的词集合中各词的词特征相关度；s_ik表示候选词term_i与term_k的相关度，所述term_k表示发起搜索请求的用户使用词集合中的词；w_uk表示发起搜索请求的用户对使用的词集合中各词的权重。

11.如权利要求8所述的方法，其特征在于，确定候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度，具体包括：

确定候选词在预设的各类目中出现的概率值，以及发送搜索请求的用户使用的词集合中各词在预设的各类目中出现的概率值；

根据候选词在各类目中出现的概率值和发送搜索请求的用户使用的词集合中各词在各类目中出现的概率值，确定候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度。

12.如权利要求11所述的方法，其特征在于，通过以下公式确定候选词与发送搜索请求的用户使用的词集合中各词的类目特征相关度：

{sim}_{4} ({term}_{i}, u) =cos (\overset{&RightArrow;}{u}, {\overset{&RightArrow;}{t}}_{i})

其中：sim₄(term_i，u)表示候选词term_i与发送搜索请求的用户使用的词集合中一个词的类目特征相关度；

表示发送搜索请求的用户使用的词集合中各词在预设的各类目中出现的概率值的向量形式；

表示向量和向量

之间的夹角余弦函数。

13.一种确定推荐词的设备，其特征在于，包括：

接收模块，用于接收用户发送的包含查询词的搜索请求；

14.如权利要求13所述的设备，其特征在于，还包括：

词集合确定模块，用于采集设定时间段内一用户使用的查询词，并将采集的查询词作为该用户使用的词集合；或，采集设定时间段内一用户浏览的文档，并确定各文档的主题词，将确定的主题词作为该用户使用的词集合；或，采集设定时间段内一用户使用的查询词以及该用户浏览的文档，将采集的查询词和各文档的主题词作为该用户使用的词集合。

15.如权利要求13所述的设备，其特征在于，相关度确定模块包括：

第一子模块，用于确定候选词与查询词的词特征相关度；

第二子模块，用于确定候选词与查询词的类目特征相关度。

16.如权利要求13所述的设备，其特征在于，相关度确定模块包括：