CN103729351B

CN103729351B - 查询词推荐方法及装置

Info

Publication number: CN103729351B
Application number: CN201210380800.1A
Authority: CN
Inventors: 王�义
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2017-10-03
Anticipated expiration: 2032-10-10
Also published as: CN103729351A

Abstract

本申请涉及一种查询词推荐方法及装置，包括：根据用户输入词确定候选查询词；根据用户历史搜索行为数据，建立搜索行为使用的查询词的第一评价值的预测模型，所述第一评价值表征该查询词引导的商品在设定时间内的交易信息；根据预测模型及候选查询词对应的用户历史搜索行为数据预测该候选查询词的第一评价值；根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。因此，本申请实现了推荐的查询词所对应的商品易于成交，并增加了作弊成本能。

Description

查询词推荐方法及装置

技术领域

本申请涉及电子商务领域，尤其涉及一种查询词推荐方法及装置。

背景技术

为了减少电子商务网站中用户的搜索路径，在用户进行查询词的输入过程中以及搜索结束后，为用户推荐可能的候选查询词(Query)，帮助用户明确搜索意图，并实现购买行为。其中，用户输入查询词的过程中为用户推荐候选查询词的功能称为搜索下拉提示，搜索结束后为用户推荐候选查询词的功能称为相关搜索。

搜索下拉提示作为用户登陆搜索页面接触到的第一个服务，它可以在用户输入搜索关键词的过程中为用户推荐相关的查询词。常见的搜索下拉提示服务，首先会收集与用户当前输入的查询词具有相同前缀的查询词集合，这个查询词集合中的查询词按照前一天各查询词的搜索结果页面的浏览次数(Page View,PV)进行排序，并根据所述排序进行查询词的推荐。采用这种方法推荐出的查询词未反应商品成交量、同时容易被外部发现漏洞，导致作弊现象的发生。

相关搜索功能是在用户完成一个关键词的搜索后，为用户推荐的一组查询词，如果用户对当前搜索结果不满意，可以选择相关搜索推荐的查询词来明确自己的搜索意图。一般的，相关搜索功能中获取查询词的方法包括以下几步：

(1)在用户历史使用的查询词中召回与用户当前使用的查询词相关的词的集合；

(2)按照用户当前输入的查询词与召回的查询词的文本分以及召回查询词的自身页面浏览次数信息，为召回查询词设定推荐度分值，其中，文本分即文本相似度，用于表征两个给定文本之间的相似性，数值越大表示两个文本相似度越高；

(3)按照召回查询词的推荐度分值进行排序获得相关搜索推荐结果。

这种方法的缺点是：过分关注用户输入的查询词与召回的查询词的相似度，导致召回的结果与当前用户输入的查询词过分相似；同时召回词的PV特征比较明显，可以通过人为增加某些召回查询词的搜索结果页的点击量来提升召回查询词的排序，作弊成本比较低，使得推荐结果准确度较低。

发明内容

本申请的目的是，提供一种查询词推荐方法及装置，将历史搜索行为数据、点击反馈信息用以获取查询词，以实现了推荐的查询词尽可能多的反映用户的意图，并且其所对应的商品易于成交，并增加了作弊成本能。

为实现上述目的，本申请提供了一种查询词推荐方法，所述方法包括：

根据用户输入词确定候选查询词；

根据用户历史搜索行为数据，建立搜索行为使用的查询词的第一评价值的预测模型，所述第一评价值表征该查询词引导的商品在设定时间内的交易信息；

根据预测模型及候选查询词对应的用户历史搜索行为数据预测该候选查询词的第一评价值；

根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

本申请还提供了一种查询词推荐装置，所述装置包括：

确定单元，用于根据用户输入词确定候选查询词；

建立单元，用于根据用户历史搜索行为数据，建立搜索行为使用的查询词的第一评价值的预测模型，所述第一评价值以该查询词引导的商品在设定时间内的交易信息表征；

预测单元，用于根据预测模型及候选查询词对应的用户历史搜索行为数据预测该候选查询词的第一评价值；

推荐单元，用于根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

本申请实施例通过根据用户历史搜索行为数据，建立搜索行为使用的查询词的第一评价值的预测模型，所述第一评价值以该查询词引导的商品在设定时间内的交易信息表征；根据预测模型及候选查询词对应的用户历史搜索行为数据预测该候选查询词的第一评价值；根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。实现了推荐的查询词所对应的商品易于成交，并增加了作弊成本能。

附图说明

图1为本申请实施例提供的查询词推荐方法的流程图；

图2为本申请实施例提供的第一评价值的预测模型建立方法流程图；

图3为本申请实施例提供的又一查询词推荐方法流程图；

图4为本申请实施例提供的根据用户的点击反馈数据对所述候选查询词的第一评价值进行修正的方法流程图；

图5为本申请实施例提供的文本相似度计算方法流程图；

图6为本申请实施例提供的类目点击分布比例计算方法流程图；

图7为本申请实施例提供的搜索词、查询词及其它信息对应关系图；

图8为本申请实施例提供的查询词获取过程示意图；

图9为本申请实施例提供的查询词推荐装置的示意图；

图10为本申请实施例提供的又一查询词推荐装置的示意图。

具体实施方式

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

本申请实施例通过将历史搜索行为数据和/或历史点击数据用于选择查询词，从而可以使获取的查询词对应的商品易于成交并且尽可能多的反映用户的意图，增加了作弊成本，同时可以增加查询词的文本丰富度。

图1为本申请实施例查询词推荐方法的示意图。如图1所示，本申请实施例提供的查询词推荐方法具体包括以下步骤：

步骤101，根据用户输入词确定候选查询词。

根据用户输入词向用户推送一组候选的查询词以现有方法即可实现，如根据用户输入词召回与用户当前输入词具有相同前缀的词集合或用户历史搜索记录中找出与当前输入词文意相关或相似的词的集合。

对于一个用户输入词，该输入词都对应有由候选查询词形成的集合，该集合记为其中，Content表示用户输入词，Query表示候选推荐词，l表示搜索词对应的查询词个数。

步骤102，根据用户历史搜索行为数据，建立搜索行为使用的查询词引导的商品在设定时间内的第一评价值的预测模型，所述第一评价值表征该查询词引导的商品在设定时间内的交易信息。

在对用户进行查询词推荐过程中，为了获得查询词引导的商品(即根据该查询词获得的搜索结果中包含的商品)的交易信息，使推荐结果更加符合用户的意图，可以根据用户的历史搜索行为数据建立任一查询词的搜索结果包含的商品在预定时间内(当日或未来某一天)的交易信息的预测模型。所述的交易信息可以包括商品成交金额和/或商品成交数量。本实施例中第一评价值使用所述成交金额来表征，该第一评价值用于根据查询词引导的商品在设定时间内的成交金额评价该查询词的推荐度或符合用户意图的程度。所述第一评价值可以是对所述成交金额进行预定的数据处理(如归一化处理)后获得的。因此，所述成交金额的预测模型即为第一评价值的预测模型，记为Y＝H(X)，其中，Y表示根据某一查询词的搜索结果包含的商品在预定时间内的成交金额得到的第一评价值，X表示由该查询词对应的历史搜索行为数据组成的向量。

可以理解的，建立搜索行为使用的查询词引导的商品在设定时间内的第一评价值的预测模型可以在步骤101前实施也可以在步骤102后实施，本申请实施例在此对这些步骤的实施顺序不做限制。

步骤103，根据预测模型及候选查询词对应的用户历史搜索行为数据预测该候选查询词的第一评价值。

获得该预测模型后，可以根据该预测模型和候选查询词在预定时间对应的历史搜索行为数据预测出该候选查询词的第一评价值，也可以理解为通过该预测模型来预测该候选查询词引导的商品在设定时间内的成交金额，进而获得该候选查询词的第一评价值。第一评价值越高，表示该查询词对应的商品的成交金额越高，也更符合用户的意图。

步骤104，根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

由于第一评价值越高，符合用户意图的可能性越大，因此，可以将该候选查询词按照第一评价值从大到小依序排列，将评价值高的该候选查询词优先推荐给用户。也可以预先设定阈值，将滤除掉评价值低于该设定阈值的候选查询词，从而将评价值高于该设定阈值的候选查询词推荐给用户。

本申请该实施例通过根据历史搜索行为数据计算查询词的第一评价值，根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。实现了推荐的查询词所对应的商品易于成交，并增加了作弊成本能。

具体地，图2为本申请实施例提供的第一评价值的预测模型建立方法流程图。如图2所示，该预测模型建立方法包括以下步骤：

步骤201，统计历史搜索行为数据，并对历史搜索行为数据处理形成训练样本。

从搜索日志中统计查询词引导的商品在设定时间内的历史成交金额y及查询词对应的在该设定时间以前的历史搜索行为数据X，根据设定时间内的历史成交金额及该设定时间以前的历史搜索行为数据构建第一评价值预测模型的训练样本。所述查询词可以为用户在历史搜索中使用的任意关键词。所述历史搜索行为数据包括一个或多个维度的历史搜索行为数据，记为f₁,......,f_n，(n为大于1的自然数)。所述历史搜索行为数据作为向量记作X＝[f₁,...f_i,...f₇]。所述历史搜索行为数据包括页面浏览数、搜索引擎引导的页面展现次数(Induct Page View,IPV)、商品成交笔数、发生交易的人数(User View,UV)、成交件数、搜索页面使用人数(User View,UV)、及通过引擎引导的使用人数(Induct Page ViewUser View,IPVUV)中的一项或多项的组合。其中，通常情况下，当天以前某一查询词对应的历史搜索行为数据可以根据用户的历史日志统计获得，是已知的，该查询词对应的商品在当天的成交金额需要在第二天进行统计才会知道，因此，作为训练样本的搜索行为数据和成交金额对应的时间点之间有一个时间差。本申请实施例选取某一设定日(比如当天)以前的7天内的历史搜索行为数据的加和作为训练样本，即将7天内同一维度的历史搜索行为数据分别相加作为所述历史搜索行为数向量X中的一个特征值f_i(1≤i≤7，i为自然数)，例如，假设第一天查询词对应的历史搜索行为数据为：第i天查询词对应的历史搜索行为数据为：第7天查询词对应的历史搜索行为数据为：则然后，对每个特征值f_i取Log_ef_i，以使特征值比较平滑。同样将每个查询词引导的商品在该设定日(比如当天)的成交额金额y也取Log_ey，同时对Log_ey做基于密度的归一化得到训练样本中的Y，从而保证目标值Y∈[0,1]，并且在[0,1]这个区间内Y值是分布均匀的。从而获得训练样本Train_Sample(X,Y)。其中，Y即为第一评价值的样本数据。

需要说明的是，本申请实例取7天的历史数据进行处理形成训练样本，本领域技术人员可以根据实际情况取其它不同天数的数据进行处理形成训练样本。另外，本申请实施例中选取了7种历史搜索行为数据建立所述预测模型，本领域技术人员可以根据实际情况选取其它历史搜索行为数据或历史搜索行为数据的组合建立所述预测模型。

步骤202，进行模型训练获得预测模型。

取100万样本作为训练集合(也可以采用其它数量的样本作为训练集合)，选择算法模型进行模型训练，获得预测模型H(X)。本申请实施例采用最小二乘法(generalizedleast squares，简称GLS)进行模型训练。

最小二乘法，又称最小平方法(least square method)是一种数学优化技术。它通过最小化误差的平方和寻找数据X和Y的最佳函数匹配Y＝F(X)。并利用最佳匹配函数和已知数据X简便地求得未知的数据Y，这里的X和Y可以是一维数据也可以是多维数据。

本申请实施例中，利用GLS算法训练得到的预测模型为其中，j表示X中特征个数，w_j表示第j个特征的权重，f_j表示X中第j个特征值，b表示一个常量。

在另一个例子中，可以采用基于集成算法的决策树森林算法(Gradient boostingDecision tree简称GBDT)进行模型训练。基于GBDT的算法是对一组样本集合进行切割，然后在每组样本集上构建一个决策树，使用决策树森林来对既有的样本集合进行分类。

利用GBDT算法训练得到的预测模型为其中，m表示基分类器个数，h(x；a_m)表示基分类器模型，x表示模型泛化的样本空间，a_m表示模型参数，β_m表示第m个分类器在集成分类中的权重。

需要说明的是，除上述两种算法外，本领域技术人员也可以采取其它算法建立所述预测模型。

建立所述预测模型后，可以根据该预测模型和候选查询词的历史搜索行为数据预测该候选查询词第一评价值。具体为：从搜索日志中获得各个查询词的历史搜索行为数据集合{X_next,1,...,X_next,i,...}，并通过第一评价值预测模型获得各个查询词的第一评价值{Y'_next,1,...,Y'_next,i,...}，其中，搜索行为数据包括页面浏览数、引擎引导的页面展现次数(Induct Page View,IPV)、商品成交笔数、发生交易的人数(UserView,UV)、成交件数、搜索页面使用人数(User View,UV)、及通过引擎引导的使用人数(Induct Page View User View,IPVUV)中的一项或多项的组合。

优选地，为了使预测结果更准确，可以根据设定的时间间隔重新进行第一评价值预测模型的模型训练，得到新的第一评价值预测模型，根据新的第一评价值预测模型预测第一评价值。例如，采用第一天的历史搜索行为数据和第二天获得的该历史搜索行为数据对应的商品的实际成交金额进行模型训练，获得第一评价值预测模型后，可以采用该预测模型以及第二的历史搜索行为数据预测其对应的成交金额(实际成交金额可以在第三天获得)；当第二天的历史搜索行为数据对应的商品实际成交金额在第三天获得后，可以根据第二天的历史搜索行为数据及在第三天获得的该实际成交金额重新进行模型训练，获得新的第一评价值预测模型，然后根据该新的第一评价值预测模型及第三天的历史搜索行为数据预测其对应的成交金额(应该在第四天获得)，后面的预测以此类推。

优选的，在本申请另一实施例中，如图3所示，图3为本申请实施例提供的又一查询词推荐方法流程图，所述方法包括步骤301-304，其中，步骤301-303与步骤101-103一样，在此不复赘述。

步骤304，根据用户的点击反馈数据对所述候选查询词的第一评价值进行修正，根据修正后的第一评价值滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

用户的点击反馈信息可以进一步帮助我们确认哪些推荐结果才是用户希望获得的。因此，对用户的点击反馈信息加以利用，可以使推荐结果更加符合用户的意图。

具体地，所述点击反馈数据是指候选查询词的点击分布比例和位置的点击分布比例。表1是搜索词和查询词对应关系的举例，根据表1可以清楚的看出点击分布比例和位置点击分布比例的意义。

表1输入词和查询词对应关系

对于一个用户输入词Content，该输入词都对应有由候选查询词形成的集合l表示输入词Content对应的查询词个数。集合中的任意一个候选查询词的历史点击次数n_i可以从点击日志中获得，同样可以获得集合中所有候选查询词的点击次数之和则任意一个候选查询词的点击分布比例为n_i/N，即候选查询词的点击比例可以为该候选查询词的用户点击次数与该候选查询词所在的、用户输入词所对应的候选查询词集合的总点击次数的比率。将所有候选查询词的点击分布比例写成集合的形式为为便于理解，下面以表1为例对上述过程做具体解释：以上述表1中的用户输入词Content₁为例，其对应有5个候选查询词每个输入词对应的历史点击次数分别为并且假设之和为则N，则候选词的点击比例依次为

所述位置可以包括在进行查询词推荐时被推荐查询词在排序中的位置。对于用户输入词集合{Content_k|k＝1,...,x}，x表示用户输入词个数，每个输入词都对应有由候选查询词形成的集合每个输入词对应的候选查询词集合中的每一个位置的历史点击次数n_ki(也即候选查询词对应的历史点击次数)可以从点击日志中获得，则不同输入词对应的各候选查询词集合在第i个位置上的历史点击次数总和为统计各位置的历史点击次数也可以计算得到所有位置的总点击次数则第i个位置对应的点击分布比例Click_Dis_Pos_i为N_i/N，将所有位置的点击分布比例写成集合的形式为{Click_Dis_Pos_i|i＝1,...,l}。为便于理解，下面以表1为例对上述过程做具体解释：以上述表1为例，候选查询词位置“1”上的历史点击次数N₁为查询词位置“2”上的历史点击次数N₂为以此类推可以计算出其它为位置的历史点击次数，所有位置的点击次数N为每个位置的历史点击次数的加和，那么，查询词位置“1”的位置的点击分布比例为N₁/N，查询词位置“2”的位置的点击分布比例为N₂/N，以此类推其它位置的位置点击分布比例。

具体地，图4为本申请实施例提供的根据用户的点击反馈数据对所述候选查询词的第一评价值进行修正的方法流程图。如图4所示，根据用户的点击反馈数据对所述候选查询词的第一评价值进行修正的方法包括：

步骤401，计算候选查询词的点击分布比例。

对于一个用户输入词Content，从点击日志中获得该输入词所对应的候选查询词集合中的每个候选查询词的点击次数，并计算出候选查询词的点击分布比例集合

步骤402，计算位置点击分布比例。

对于所有的用户输入词，计算出位置点击分布比例集合{Click_Dis_Pos_i|i＝1,...,l}。

优选地，可以先将候选查询词按照第一评价值从高到低排序，再根据排序后的候选查询词的用户点击反馈数据统计获得位置的点击分布比例。

步骤403，计算候选查询词的第一评价值的修正值。

候选查询词的第一评价值的修正值记作第二评价值，根据上述候选查询词的点击分布比例、位置点击分布比例和第一评价值计算出第二评价值，计算公式如下：

Score_Q_i＝[Old_Score_Q_i*(1+(Click_Dis_Q_i-Click_Dis_Pos_i))]，其中，Score_Q_i表示第i个查询词的第二评价值，Old_Score_Q表示第i个查询词的第一评价值。

需要说明的是，本申请实施例提供的查询词推荐方法既可以用于相关搜索功能，又可以用于搜索下拉提示功能。

本申请该实施例通过根据历史搜索行为数据计算候选查询词的第一评价值，根据所述第一评价值和点击反馈信息计算第二评价值，根据所述候选查询词的第二评价值，对所述候选查询词进行过滤或排序；将过滤或排序后的查询词推荐给用户，实现了推荐的查询词尽可能多的反映用户的意图。进一步地，所述候选查询词的推荐方式考虑了商品成交金额，增加了作弊成本。

在进行候选查询词推荐时，为了保证推荐结果在文本上的丰富性，可以剔除在文本上比较相似的查询词，从而增加推荐给用户的候选查询词的文本丰富度。

因此，在本申请实施例还可以将所述候选查询词进行比较，获得文本相似度；在所述文本相似度超过设定阈值时滤除进行比较的候选查询词中第一评价值低的候选查询词。所述候选查询词的比较包括：比较根据所述候选查询词获得的搜索结果页；所述文本相似度包括所述搜索结果页的商品信息的相似度。

根据候选查询词的文本相似度比较滤除进行比较的候选查询词中第一评价值低的候选查询词的步骤，可以在根据第一评价值滤除候选查询词或对该候选查询词进行排序之前或之后实施，本申请对上述步骤的实施顺序不做限制。也即，根据第一评价值对候选查询词进行滤除或排序可以是对根据文本相似度比较而进行滤除后的候选查询词；也可以是，根据第一评价值对候选查询词进行滤除或排序后进一步根据文本相似度比较将第一评价值低的候选查询词滤除，并将剩下的候选查询词推荐给用户。

可以理解的，在本申请另一些实施例可以在所述文本相似度超过设定阈值时滤除进行比较的候选查询词中第二评价值低的候选查询词。根据候选查询词的文本相似度比较滤除进行比较的候选查询词中第二评价值低的候选查询词的步骤，可以在根据第二评价值滤除候选查询词或对该候选查询词进行排序之前实施，也可以是在根据第二评价值滤除候选查询词或对该候选查询词进行排序之后实施。本申请对上述步骤的实施顺序不做限制。

图5为本申请实施例提供的文本相似度计算方法流程图。如图5所示，文本相似度计算步骤如下：

步骤501，统计集合中每个候选查询词在搜索结果页的商品信息。

对于用户输入词Content对应的候选查询词集合统计集合中每个候选查询词在搜索结果页的商品信息，并记为

其中，AuctionIDS_i＝(AuctionID₁,AuctionID₂,...AuctionID_k...AuctionID_n)，AuctionIDS_i为第i个候选查询词搜索出的商品集合，AuctionID_k为AuctionIDS_i中用于区分不同商品的标识，n为通过候选查询词搜索出的商品数量。

步骤502，根据候选查询词对应的搜索结果页包含的商品信息的相似性计算不同查询词间的文本相似度。计算公式如下：

其中：

AuctionIDS_i∩AuctionIDS_j表示在AuctionIDS_i和AuctionIDS_j间取交集，也即表示两个集合中相同的商品的数量。

AuctionIDS_i∪AuctionIDS_j表示在AuctionIDS_i和Auction IDS_j间取并集，也即表示两个集合中商品的数量之和，两个集合中相同商品不重复计算。

也就是说，不同候选查询词的文本相似度可以用一个候选查询词对应的搜索结果页包含的与另一候选查询词对应的搜索结果页的商品相同的商品数量相对于这两个候选查询词的搜索结果页所包含的不同的商品数量的总和的比值来表示。

在进行查询词推荐时，为了保证推荐结果在类目上的丰富性，可以根据候选查询词引导的商品的点击量计算出输入词对应的候选查询词集合引导的商品在商品类目的点击分布比例，并根据类目点击分布比例推荐候选查询词。

具体地，图6为本申请实施例提供的类目点击分布比例计算方法流程图。如图6所示，类目点击分布比例计算方法包括以下步骤：

步骤601，统计用户输入词对应的每个候选查询词引导的商品的点击信息。

对于用户输入词Content，将其对应的候选查询词集合记为其中，l表示输入词对应的查询词个数，该集合中每个候选查询词在搜索结果页的商品信息记为其中，AuctionIDS_i为候选查询词搜索出的商品集合，为AuctionIDS_i中用于区分不同商品的标识，n_i为搜索出的商品数量。图7为本申请实施例提供的输入词、候选查询词及其它信息对应关系图，从图7中可以很清楚的看出输入词、候选查询词和候选查询词引导的商品之间的关系。

步骤602，计算每个候选查询词对应的商品类目点击量。

通过引导的每个商品的统计获得其对应的后台商品类目First_level_CatID_k。根据从点击日志中获取的每个商品的点击量，可以计算出该商品所对应的商品类目First_level_CatID_k的点击量Count_First_level_CatID_k，通过统计每个商品的点击量可以获得每个候选查询词引导的在商品类目上的点击量。计算方法为：如图7所示，假设商品的点击量为c₁，商品的点击量为c₂，如果商品和对应同一个商品类目First_level_CatID_c，则商品类目First_level_CatID_c的点击量为c₁+c₂，如果还有其它商品对应的商品类目也为First_level_CatID_c，则商品类目First_level_CatID_c的点击量为在c₁+c₂基础上继续加上该其它商品的点击量。则对应的所有商品的商品类目的点击量可以写成集合的形式其中，m_i表示所对应的商品类目总数，由于不同的商品可能从属于同一个商品类目，因此，中的所有商品所对应的商品类目总数必然小于等于商品数量，即m_i≤n_i。

步骤603，计算候选查询词集合中每一候选查询词对应的商品类目点击分布比例。

根据上述步骤获得的查询词集合中每个所对应的商品类目点击量集合可以计算出商品类目总数，和每个商品类目对应的点击量，并将其写成集合形式{Count_First_level_CatID_i ^Content|i＝1,...,t}，其中，Count_First_level_CatID_i ^Content表示第i个商品类目的点击量，t表示输入词Content对应的商品类目总数，由此，可以计算出每个商品类目的点击量占所有商品类目点击量Nc的比值Pro_CatID_i ^Content，即商品类目的点击分布比例，可以写成集合形式其中，

可以通过上述步骤计算出的类目点击分布比例推荐查询词。具体地，根据每个商品类目的点击分布比例Pro_CatID_i ^Content和预设的为用户输入词推荐的候选查询词个数N，计算出对应所述商品类目的查询词个数然后统计候选查询词集合中对应所述商品类目的候选查询词，并将其按照第一评价值或第二评价值从高到低排序，选择前N‵个候选查询词进行推荐。为便于理解，下面以图8为例做详细阐述，图8为本申请实施例提供的查询词获取过程示意图，假设，按照第一评价值或第二评价值高到低排序的查询词为Query_a～Query_e，按点击分布比例从高到低排序的一级类目为A～F，各个一级类目的点击分布比例依次为如图8中所示的40％、20％、18％、10％、9％和3％。候选查询词Query_a对应的一级类目为A、B，查询词Query_b对应的一级类目为C、E、F，其它候选查询词与所述以及类目的对应关系如图8所示，并且假设需要获取4个查询词，那么，根据上述信息，可以计算得到每个商品类目需要对应的候选查询词的个数，例如，对应商品类目A的候选查询词个数为4*40％＝2个，因此，从候选查询词中选取第一评价值或第二评价值高的对应商品类目A的两个候选查询词Query_a和Query_c，对应商品类目B的候选查询词个数为4*20％＝1个，因此，从候选查询词中选取第一评价值或第二评价值高的对应商品类目B的候选查询词Query_d，对应商品类目C的候选查询词个数为4*18％＝1个，因此，从候选查询词中选取第一评价值或第二评价值高的对应商品类目C的查询词Query_b，其它依次类推。

需要说明的是，本申请实施例提供的方法既可以用于相关搜索功能，又可以用于搜索下拉提示功能。

本申请该实施例根据选择的所述候选查询词对应的商品类目的点击比例和所述第一评价值或第二评价值，推荐候选查询词,实现了推荐的候选查询词在商品类目上的丰富度。

相应地，本申请提供一种查询词推荐装置。如图9所示，图9为本申请实施例提供的查询词推荐装置的示意图。该装置包括：

确定单元901，用于根据用户输入词确定候选查询词。

建立单元902，用于根据用户历史搜索行为数据，建立搜索行为使用的查询词的第一评价值的预测模型，所述第一评价值表征该查询词引导的商品在设定时间内的交易信息。

预测单元903，用于根据预测模型及候选查询词对应的用户历史搜索行为数据预测该候选查询词的第一评价值。

推荐单元904，用于根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

本申请实施例提供的装置中植入了本申请第一个实施例提供的方法，因此，本申请实施例提供的装置的各个单元的具体功能在此不复赘述。

需要说明的是，本申请实施例提供的装置既可以用于相关搜索功能，又可以用于搜索下拉提示功能。

本申请的一个优选实施例为：如图10所示，图10为本申请实施例提供的又一查询词推荐装置的示意图。该装置包括：确定单元1001、建立单元1002、预测单元1003和推荐单元1004。其中，确定单元1001、建立单元1002、预测单元1003的工作过程分别与上述实施例中的确定单元901、建立单元902和预测单元903的工作过程一样，在此不复赘述。

推荐单元1004包括修正子单元1010和推荐子单元1020。

修正子单元1010，用于根据用户的点击反馈数据对所述候选查询词的所述第一评价值进行修正获得所述候选查询词的第二评价值。

推荐子单元1020，用于根据所述第二评价值滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

本申请实施例提供的装置中植入了本申请第二个实施例提供的方法，因此，本申请实施例提供的装置的各个单元的具体功能在此不复赘述。

本申请该实施例通过根据历史搜索行为数据计算候选查询词的第一评价值，根据用户的点击反馈数据对所述候选查询词的第一评价值进行修正获得第二评价值，根据所述候选查询词的第二评价值，对所述候选查询词进行过滤或排序；将过滤或排序后的查询词推荐给用户，实现了推荐的查询词尽可能多的反映用户的意图。进一步地，所述候选查询词的推荐方式考虑了商品成交金额，增加了作弊成本。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种查询词推荐方法，其特征在于，包括：

根据用户输入词确定候选查询词；

2.根据权利要求1所述的查询词推荐方法，其特征在于，所述交易信息包括商品成交金额和/或商品成交数量。

3.根据权利要求1所述的查询词推荐方法，其特征在于，所述历史搜索行为数据为设定时间内以前的用户历史搜索行为数据；

预测该候选查询词的第一评价值的方法包括使用当日以前的所述历史搜索行为数据预测该候选查询词引导的商品在当日的交易信息。

4.根据权利要求1所述的查询词推荐方法，其特征在于，该预测模型的建立方法包括：

使用最小二乘法或基于集成算法的决策树森林算法进行模型训练获得预测模型。

5.根据权利要求1所述的查询词推荐方法，其特征在于，所述根据该第一评价值，滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户的方法包括：

根据用户的点击反馈数据对所述候选查询词的所述第一评价值进行修正，获得所述候选查询词的第二评价值；

根据所述第二评价值滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

6.根据权利要求5所述的查询词推荐方法，其特征在于，所述点击反馈数据包括候选查询词的点击分布比例及位置点击分布比例；

所述根据用户的点击反馈数据对所述候选查询词的第一评价值进行修正，获得所述候选查询词的第二评价值的方法包括：

计算候选查询词的点击分布比例；

计算位置点击分布比例；及

根据候选查询词的点击分布比例、位置点击分布比例和第一评价值计算出第二评价值，以所述第二评价值作为第一评价值的修正值，计算公式如下：

Score_Q_i＝[Old_Score_Q_i*(1+(Click_Dis_Q_i-Click_Dis_Pos_i))]，

其中，Score_Q_i表示第i个候选查询词的第二评价值，Old_Score_Q_i表示第i个候选查询词的第一评价值，Click_Dis_Q_i表示i个候选查询词的点击比例，Click_Dis_Pos_i表示第i个位置的点击分布比例，i为自然数。

7.根据权利要求5所述的查询词推荐方法，其特征在于，所述根据所述第二评价值滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户的方法包括：

根据所述第二评价值滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词的搜索结果页进行比较，获得所述搜索结果页的商品信息的相似度；

在所述相似度超过设定阈值时滤除进行比较的候选查询词中所述第二评价值低的候选查询词，将滤除后的候选查询词推荐给用户。

8.根据权利要求7所述的查询词推荐方法，其特征在于，所述候选查询词的相似度是通过以下公式计算的：

Simi(Query_i,Query_j)＝(AuctionIDS_i∩AuctionIDS_j)/(AuctionIDS_i∪AuctionIDS_j)，

其中，Query_i表示第i个候选查询词，Query_j表示第j个查询词，Simi(Query_i,Query_i)表示所述候选查询词的相似度，AuctionIDS_i表示第i个候选查询词搜索出的商品集合，AuctionIDS_j表示第j个候选查询词搜索出的商品集合，AuctionIDS_i∩AuctionIDS_j表示两个商品集合中相同商品的数量；AuctionIDS_i∪AuctionIDS_j表示两个商品集合中商品数量之和。

9.根据权利要求7所述的查询词推荐方法，其特征在于，所述在所述相似度超过设定阈值时滤除进行比较的候选查询词中所述第二评价值低的候选查询词，将滤除后的候选查询词推荐给用户的方法包括：在所述相似度超过设定阈值时滤除进行比较的候选查询词中所述第二评价值低的候选查询词；

根据滤除后的候选查询词所引导的商品的点击量，计算出所述滤除后的候选查询词所引导的商品对应的商品类目的点击分布比例，并根据所述商品类目的点击分布比例和所述第二评价值对所述滤除后的候选查询进行滤除或排序，将进行滤除或排序后的候选查询词推荐给用户。

10.根据权利要求9所述的查询词推荐方法，其特征在于，所述根据滤除后的候选查询词所引导的商品的点击量，计算出所述滤除后的候选查询词所引导的商品对应的商品类目的点击分布比例的方法包括：

统计所述滤除后的候选查询词引导的商品的点击信息；

计算每个候选查询词对应的商品类目点击量；及

统计每个商品类目的点击量，获得候选查询词集合对应的商品类目点击分布比例。

11.一种查询词推荐装置，其特征在于，包括：

确定单元，用于根据用户输入词确定候选查询词；

12.根据权利要求11所述的查询词推荐装置，其特征在于，所述建立单元中的所述交易信息包括商品成交金额和/或商品成交数量。

13.根据权利要求11所述的查询词推荐装置，其特征在于，所述建立单元中的所述历史搜索行为数据为设定时间内以前的用户历史搜索行为数据；

所述建立单元使用当日以前的所述历史搜索行为数据预测该候选查询词引导的商品在当日的交易信息。

14.根据权利要求11所述的查询词推荐装置，其特征在于，所述建立单元使用最小二乘法或基于集成算法的决策树森林算法进行模型训练获得预测模型。

15.根据权利要求11所述的查询词推荐装置，其特征在于，所述推荐单元具体包括：

修正子单元，用于根据用户的点击反馈数据对所述候选查询词的所述第一评价值进行修正获得所述候选查询词的第二评价值；

推荐子单元，用于根据所述第二评价值滤除候选查询词或对该候选查询词进行排序，并将进行滤除或排序后的候选查询词推荐给用户。

16.根据权利要求15所述的查询词推荐装置，其特征在于，所述修正子单元中的点击反馈数据包括候选查询词的点击分布比例及位置点击分布比例；

所述修正子单元具体用于，

计算候选查询词的点击分布比例；

计算位置点击分布比例；及

Score_Q_i＝[Old_Score_Q_i*(1+(Click_Dis_Q_i-Click_Dis_Pos_i))]，

17.根据权利要求15所述的查询词推荐装置，其特征在于，所述推荐子单元具体用于，

18.根据权利要求17所述的查询词推荐装置，其特征在于，所述推荐子单元中的所述候选查询词的相似度是通过以下公式计算的：

19.根据权利要求17所述的查询词推荐装置，其特征在于，所述推荐子单元还用于，

根据所述滤除后的候选查询词所引导的商品的点击量，计算出所述滤除后的候选查询词所引导的商品对应的商品类目的点击分布比例，并根据所述商品类目的点击分布比例和所述第二评价值对所述滤除后的候选查询进行滤除或排序，将进行滤除或排序后的候选查询词推荐给用户。

20.根据权利要求19所述的查询词推荐装置，其特征在于，所述推荐子单元具体通过统计所述滤除后的候选查询词引导的商品的点击信息，计算每个候选查询词对应的商品类目点击量，及统计每个商品类目的点击量，获得候选查询词集合对应的商品类目点击分布比例。