CN111782912B

CN111782912B - 词推荐方法、装置、服务器和介质

Info

Publication number: CN111782912B
Application number: CN201910271614.6A
Authority: CN
Inventors: 洪坚斌; 李海兵; 初乃强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-08-15
Anticipated expiration: 2039-04-04
Also published as: CN111782912A

Abstract

本发明实施例公开了一种词推荐方法、装置、服务器和介质，其中，该方法包括：获取全部检索词和每个检索词所触发的至少一个展现对象；以任两个检索词各自所触发展现对象的展现次数作为词特征计算任两个检索词的相似度；根据相似度和预设的置信值判断任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词。本发明实施例解决了现有的词推荐方法中确定出的扩展词在线上系统的表现无法预期的问题，实现了在保证互为推荐词的检索词之间相关性的基础上，确保互为推荐词的检索词在线上系统的表现一致性。

Description

词推荐方法、装置、服务器和介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种词推荐方法、装置、服务器和介质。

背景技术

在以搜索为主产品的互联网公司，检索词是广告变现的主要方式，广告主通过买词(即买入与广告主主营业务相关的词)将广告和流量相关联。实际上，用户输入的检索词普遍较为简易和单一，而且不同的用户输入的检索词存在多样性，例如用户搜索“NBA”，系统需要通过扩词，得到“篮球”、“灌篮”、“nba新浪”、“nba球星”等词，然后从数据库中拉取这些词的广告，以提升广告流量覆盖。通过扩展出相似的词，实现用户检索词由一到多的变化效果，从而增加广告主可触达的用户，同时在扩词过程中还需要确保广告和用户的相关性。

现有技术中，通常有如下词推荐方案：

方案一：简单日志分析扩词方案。在该方案中，系统性地分析广告系统中各个检索词触发广告创意的点击和转化情况，对检索词触发的高转化和高点击率的广告创意进行二次挖掘和提取，得到和检索词相关的其他短语作为检索词的扩展。此外，也可以通过分析用户自然点击过的文章或网页，通过提取核心兴趣词作为用户检索词的扩展词或推荐词；

方案二：词语意召回方案。这种方案普遍通过神经网络训练语言模型，将各个词或短语进行嵌入(embedding)，形成词特征向量(word2vec/phrase2vec)，然后计算词与词之间的相似度，例如基于词特征向量求余弦相关度。通过语言模型的刻画和大数据训练，词特征向量普遍上能很好地表达词本身的语意信息，召回的词相对可靠，并且确保了推词相关性可评估。

方案一和方案二的使用场景不同，方案存在的缺陷也不同，具体分析如下：

方案一适用于词库匮乏的广告系统，当系统中缺乏丰富的词库时，通过对检索词触发的广告进行二次挖掘，可以从中提取出与广告相关的词作为扩展词或推荐词。该方案能较快地补充词推荐的丰富度，但在词的语意相关性上得不到保证，而且可能会倾向于挖出高点击(如标题党)或高转化的低相关词；

方案二适用于有丰富词库的广告系统，通常首先通过嵌入处理对用户检索词进行特征数值化，然后计算两两词之间的相似度，作为扩词标准，并进行相似阈值截断或者个数截断。此方案确定的扩展词与用户检索词在语意上都较为相关，但是扩展词对应的广告在线上系统的表现无法预期。

发明内容

本发明实施例提供一种词推荐方法、装置、服务器和介质，以实现在保证互为推荐词的检索词之间相关性的基础上，确保互为推荐词的检索词在线上系统的表现一致性。

第一方面，本发明实施例提供了一种词推荐方法，该方法包括：

获取全部检索词和每个检索词所触发的至少一个展现对象；

以任两个检索词各自所触发展现对象的展现次数作为词特征计算所述任两个检索词的相似度；

根据所述相似度和预设的置信值判断所述任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词。

第二方面，本发明实施例还提供了一种词推荐装置，该装置包括：

检索词与展现对象获取模块，用于获取全部检索词和每个检索词所触发的至少一个展现对象；

相似度计算模块，用于以任两个检索词各自所触发展现对象的展现次数作为词特征计算所述任两个检索词的相似度；

推荐词确定模块，用于根据所述相似度和预设的置信值判断所述任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词。

第三方面，本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的词推荐方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的词推荐方法。

本发明实施例通过基于获取的每个检索词所触发的至少一个展现对象，以任两个检索词各自所触发展现对象的展现次数作为词特征计算任两个检索词的相似度，根据相似度和预设的置信值判断任两个检索词是否相互独立，进而确定任两个检索词是否互为推荐词，其中，依据展现次数计算任两个检索词之间的相似度是对两个检索词在线上系统的相关程度的体现，当两个检索词在线上系统具有相关性时，它们在线上系统的表现则具有一致性。因此，本发明实施例解决了现有的词推荐方法中确定出的扩展词在线上系统的表现无法预期的问题，实现了在保证互为推荐词的检索词之间相关性的基础上，确保互为推荐词的检索词在线上系统的表现一致性的效果，同时，提高了词推荐效果。

附图说明

图1是本发明实施例一提供的词推荐方法的流程图；

图2是本发明实施例二提供的词推荐方法的流程图；

图3是本发明实施例三提供的词推荐装置的结构示意图；

图4是本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的词推荐方法的流程图，本实施例可适用于推荐检索词的情况，该方法可以由词推荐装置来执行，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图1所示，本实施例提供的词推荐方法可以包括：

S110、获取全部检索词和每个检索词所触发的至少一个展现对象。

本实施例中，检索词触发的展现对象包括互联网线上系统展示的广告、搜索结果条目和弹窗内容等，互联网线上系统包括基于网络通信技术的网页和应用界面等，例如广告系统页面。对于提供展现对象的服务商而言，例如广告主，全部检索词包括其购买的所有词包中的内容。每一个检索词均对应有至少一个展现对象。当服务器收到用户终端发送的检索请求后，便根据预设的展现排序方法向用户终端下发与检索请求中的检索词相关的预设数量的展现对象，例如对于广告服务商，通常将与用户输入的检索词相关的排序前三位的广告展示给用户。

S120、以任两个检索词各自所触发展现对象的展现次数作为词特征计算任两个检索词的相似度。

其中，展现对象的展现次数包括展现对象在互联网线上系统被用户浏览和点击的次数，是对检索词在线上系统的表现的考虑，即检索词触发的展现对象被用户浏览或点击的情况。具体的，展现对象的展现次数可以通过服务商在服务器后台经过监控用户行为与统计分析得到。本实施例中，可以利用统计学方法，在假设任两个检索词相互独立的情况下，将各个检索词触发的展现对象的展现次数作为计算任两个检索词之间的相似度的计算依据，相当于基于用户行为计算各个检索词在线上系统的相关程度。用户行为是评估检索词在线上系统的表现的直接因素，因此，如果两个检索词在线上系统属于相关的，则理论上可以确定它们在线上系统的表现也是相关的，即两个检索词在线上系统的表现具有一致性。两个检索词在线上系统的表现具有一致性是指其中一个检索词触发的展现对象在线上系统被用户浏览或点击，另一个检索词触发的展现对象在线上系统也会以同样的概率被用户浏览或点击。

基于展现次数计算相似度不同于基于词特征向量计算相似度，基于词特征向量得到的相似度只反映了不同检索词在线下的语义相关性，不涉及检索词在线上系统的相关性，因此，基于词特征向量计算相似度确定出的扩展词，并不一定具有和原检索词相同的线上表现，即扩展词在线上系统的表现无法预期。例如，利用基于词特征向量计算相似度的方法，确定检索词“中高端SUV”和“宝马X5”互为推荐词，当服务器向用户终端下发检索词“中高端SUV”触发的广告时，将“宝马X5”触发的广告也一并下发至用户终端，但是“宝马X5”触发的广告却未被用户浏览或者点击，即“宝马X5”作为“中高端SUV”的扩展词，其在广告系统上的表现要弱于“中高端SUV”。然而，本实施例方案则可以避免上述现象的发生，使得确定的互为推荐词的两个检索词在线上系统具有一致的表现。

S130、根据相似度和预设的置信值判断任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词。

基于统计学中的假设验证思想，判断任两个检索词是否相互独立，相当于判断假设任两个检索词相互独立的前提是否成立。如果确定任两个检索词相互不独立，即假设不成立，则该任两个检索词互为推荐词。本实施例中可以采用的统计学中的假设验证方法包括但不限于切比雪夫检验方法、T检验(t-test)方法和Z校验(z-test)方法等，本实施例对此不作具体限定。

统计学中的假设验证方法是一种基于小概率的反证法思想，是依据一定的假设条件由样本推断总体的一种方法。小概率思想认为小概率事件在一次试验中基本上不可能发生，在此前提下，如果我们首先假设大概率事件成立，而在一次实验中，试验结果与原假设相背离，即小概率事件竟然发生了，则认为原假设不成立。在本实施例中，假设任两个检索词相互独立对应于大概率事件，两个检索词互为推荐词对应于小概率事件，基于相似度与置信值之间的数值关系确定假设不成立，则两个检索词互为推荐词。置信值的值可以适应性设置，例如，可以将置信值设置为0.05。

具体的，根据相似度和预设的置信值判断任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词，包括：如果相似度大于预设的置信值，则判断任两个检索词相互不独立，并确定该任两个检索词互为推荐词。对服务商而言，当确定出两个检索词互为推荐词之后，服务器收到用户终端发送的互为推荐词中的任一个检索词，便可同时将两个检索词对应的展现对象下发至用户终端，提升展现对象的流量覆盖，提高商业收益；对用户而言，也可以得到与检索词相关的更丰富的信息。

需要说明的是，将假设验证方法应用于本实施例的词推荐中，使得词推荐过程中对全部检索词的数量没有附加要求，即无论是针对大基数的检索词词库还是针对小基数的检索词词库，本实施例方案均适用。相比于常规的正向计算方法，即不以假设大概率事件成立为前提的确定推荐词的方法，本实施例方案摆脱了要求检索词数量需要达到一定数量的限制条件。并且，在检索词数量非常多的情况下，常规的正向计算方法属于一种依据总体推断样本的方法，与本实施例思想完全不同。

本实施例的技术方案通过基于获取的每个检索词所触发的至少一个展现对象，以任两个检索词各自所触发展现对象的展现次数作为词特征计算任两个检索词的相似度，根据相似度和预设的置信值判断任两个检索词是否相互独立，进而确定该任两个检索词是否互为推荐词，其中，依据展现次数计算任两个检索词之间的相似度是对两个检索词在线上系统的相关程度的体现，当两个检索词在线上系统具有相关性时，它们在线上系统的表现则具有一致性。因此，本实施例通过依据检索词在线上系统的实际效果，即检索词触发的展现对象被用户浏览或点击的次数，形成反馈机制，确定其扩展词，解决了现有的词推荐方法中确定出的扩展词在线上系统的表现无法预期的问题，实现了在保证互为推荐词的检索词之间相关性的基础上，确保互为推荐词的检索词在线上系统的表现一致性的效果，同时，提高了词推荐效果；并且，本实施例技术方案通过利用统计学中的假设验证思想，摆脱了词推荐过程中对检索词数量的要求，提高了词推荐方法的普遍适用性。

实施例二

图2是本发明实施例二提供的词推荐方法的流程图，本实施例是在上述实施例的基础上进一步进行优化与扩展。如图2所示，该方法可以包括：

S210、获取全部检索词和每个检索词所触发的至少一个展现对象。

S220、以任两个检索词各自所触发展现对象的展现次数作为词特征，计算切比雪夫值，其中，切比雪夫值作为任两个检索词的相似度。

本实施例中，可以利用统计学中的切比雪夫检验方法，假设任两个检索词相互独立，则它们各自触发的展现对象的展现次数趋近于正态分布，通过平方相加即为切比雪夫分布。然后依据计算得到的切比雪夫值验证假设是否成立，即验证任两个检索词是否相互独立。

S230、根据相似度和预设的置信值判断任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词。

在上述技术方案的基础上，可选的，以任两个检索词各自所触发展现对象的展现次数作为词特征，计算切比雪夫值，包括：

获取任两个检索词各自所触发的至少一个展现对象中，存在交集的展现对象集合，其中，展现对象的交集部分指任两个检索词触发的公共展现对象；

以任两个检索词各自在展现对象集合中所触发展现对象的展现次数作为词特征，计算切比雪夫值。

当假设任两个检索词相互独立时，由这两个检索词触发的展现对象的交集部分对应的线上表现也是相互独立的，如果该假设不成立，则两个检索词是相关的，互为推荐词。

下面以展现对象为广告，对切比雪夫值的计算过程进行示例性说明：如下表1所示，对于检索词a和检索词b，在它们各自触发的至少一个广告中，存在交集的广告为包括广告i至广告i+j的多个广告，其中，i和j可以为任意的自然数，根据实际应用中检索词a和检索词b触发的公共广告的数量确定。由广告i至广告i+j确定的广告集合中，检索词a触发的各个广告的展现次数分别为A_i至A_i+j，检索词b触发的各个广告的展现次数分别为B_i至B_i+j。将数量A_i至A_i+j作为检索词a的词特征，将数量B_i至B_i+j作为检索词b的词特征，计算检索词a和检索词b的切比雪夫值。

表1.检索词a和检索词b触发的广告集合中各广告的展现次数

广告1

广告2

……

广告i

广告i+j

广告n

检索词a

A_i

A_i+j

检索词b

B_i

B_i+j

进一步的，以任两个检索词各自在展现对象集合中所触发展现对象的展现次数作为词特征，计算切比雪夫值，包括：

分别计算任两个检索词各自触发展现对象集合中各展现对象的原始展现次数，其中，展现对象的原始展现次数即指进行求和处理前确定的展现次数；

计算任两个检索词中，每个检索词各自触发展现对象集合中各展现对象的原始展现次数之和，作为每个检索词各自对应的第一展现和；

针对展现对象集合中的每个展现对象，计算任两个检索词各自触发该展现对象的原始展现次数之和，作为展现对象集合中各展现对象对应的第二展现和；

计算任两个检索词中，每个检索词各自对应的第一展现和的展现总和值；

根据第一展现和、第二展现和以及展现总和值计算展现对象集合对应的展现次数的期望矩阵；

根据期望矩阵和由原始展现次数构成的展现对象集合对应的展现次数的原始矩阵计算切比雪夫值。

继续以上述示例为例，在表1中，由检索词a触发的广告i至广告i+j对应的原始展现次数分别为A_i至A_i+j，由检索词b触发的广告i至广告i+j对应的原始展现次数分别为B_i至B_i+j。检索词a对应的第一展现和sum_row_a为A_i至A_i+j的和；检索词b对应的第一展现和sum_row_b为B_i至B_i+j的和。广告i对应的第二展现和sum_col_i为A_i与B_i的和，依次类推，广告i+j对应的第二展现和sum_col_i+j为A_i+j与B_i+j的和。基于前述计算，可以得到第一展现和与第二展现和的数据表，如下表2所示：

表2.第一展现和与第二展现和的数据表

检索词a和检索词b各自对应的第一展现和的展现总和值total为sum_row_a与sum_row_b的和。根据检索词a对应的第一展现和sum_row_a、广告i对应的第二展现和sum_col_i以及展现总和值total，计算检索词a触发的广告i的展现次数的期望P_a,i；依次类推，根据检索词a对应的第一展现和sum_row_a、广告i+j对应的第二展现和sum_col_i+j以及展现总和值total，计算检索词a触发的广告i+j的展现次数的期望P_a,i+j。同理，可以得到由检索词b触发的广告i至广告i+j的展现次数的期望分别为P_b,i至P_b,i+j。基于上述计算，得到的期望矩阵如下表3所示：

表3.广告集合的展现次数对应的期望矩阵

广告1

广告2

……

广告i

广告i+j

广告n

检索词a

P_a,i

P_a,i+j

检索词b

P_b,i

P_b,i+j

广告集合对应的展现次数的原始矩阵即表1，其后，便可根据表1和表2计算检索词a和检索词b的切比雪夫值。

注意，上述以展现对象为广告，对本实施例中切比雪夫值的计算过程进行示例性说明，但不应理解为对本实施例的具体限定。若展现对象为与检索词对应搜索结果条目等内容，同样可用上述方案计算任两个检索词的切比雪夫值。

具体的，在期望矩阵中，每个元素为展现对象集合中各展现对象展现次数的期望P，期望P的计算公式为：

如表2所示，a是指任两个检索词中的检索词a；i是指展现对象集合中的展现对象i，i取任意自然数，i的最大值由检索词a触发的展现对象的数量决定；sum_coli是指展现对象i对应的第二展现和；sum_rowa是指检索词a对应的第一展现和；total是指展现总和值。依据该期望公式，可以得到每个检索词对应的每个展现对象的展现次数的期望。

进一步的，根据期望矩阵和由原始展现次数构成的展现对象集合对应的展现次数的原始矩阵计算切比雪夫值，包括：

计算期望矩阵与原始矩阵的方差；

通过查表或开源包的方法，根据方差计算出切比雪夫值。

继续以上述示例为例，方差的计算公式如下：

其中，求和的次数由展现对象集合中展现对象的数量决定。当确定出方差后，可以根据展现对象集合中展现对象的数量与参与计算的检索词数量确定出自由度值，再结合现有的数据表或者开源包中方差与切比雪夫值的对应关系，确定当前的切比雪夫值，还可以利用特定的用于计算切比雪夫值的计算器得到当前切比雪夫值。然后，基于确定的切比雪夫值与置信值的数值关系，确定检索词a和检索词b是否互为推荐词。

本实施例的技术方案通过基于获取的每个检索词所触发的至少一个展现对象，利用统计学中的切比雪夫检验方法，以任两个检索词各自所触发展现对象的展现次数作为词特征，将计算得到的切比雪夫值作为任两个检索词的相似度，进而确定任两个检索词是否互为推荐词，解决了现有的词推荐方法中确定出的扩展词在线上系统的表现无法预期的问题，实现了在保证互为推荐词的检索词之间相关性的基础上，确保互为推荐词的检索词在线上系统的表现一致性的效果，同时，提高了词推荐效果。

实施例三

图3是本发明实施例三提供的词推荐装置的结构示意图，本实施例可适用于推荐检索词的情况，该装置可以采用软件和/或硬件的方式实现，并可集成在服务器上。

如图3所示，本实施例提供的词推荐装置可以包括检索词与展现对象获取模块310、相似度计算模块320、和推荐词确定模块330，其中：

检索词与展现对象获取模块310，用于获取全部检索词和每个检索词所触发的至少一个展现对象；

相似度计算模块320，用于以任两个检索词各自所触发展现对象的展现次数作为词特征计算任两个检索词的相似度；

推荐词确定模块330，用于根据相似度和预设的置信值判断任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词。

可选的，相似度计算模块320具体用于：

以任两个检索词各自所触发展现对象的展现次数作为词特征，计算切比雪夫值，其中，切比雪夫值作为任两个检索词的相似度。

可选的，相似度计算模块320包括：

展现对象集合获取单元，用于获取任两个检索词各自所触发的至少一个展现对象中，存在交集的展现对象集合；

切比雪夫值确定单元，用于利用统计学中的切比雪夫检验方法，在假设任两个检索词相互独立的情况下，以任两个检索词各自在展现对象集合中所触发展现对象的展现次数作为词特征，计算切比雪夫值。

可选的，切比雪夫值确定单元包括：

原始展现次数计算子单元，用于分别计算任两个检索词各自触发展现对象集合中各展现对象的原始展现次数；

第一展现和计算子单元，用于计算任两个检索词中，每个检索词各自触发展现对象集合中各展现对象的原始展现次数之和，作为每个检索词各自对应的第一展现和；

第二展现和计算子单元，用于针对展现对象集合中的每个展现对象，计算任两个检索词各自触发该展现对象的原始展现次数之和，作为展现对象集合中各展现对象对应的第二展现和；

展现总和计算子单元，用于计算任两个检索词中，每个检索词各自对应的第一展现和的展现总和值；

期望矩阵计算子单元，用于根据第一展现和、第二展现和以及展现总和值计算展现对象集合对应的展现次数的期望矩阵；

切比雪夫值计算子单元，用于根据期望矩阵和由原始展现次数构成的展现对象集合对应的展现次数的原始矩阵计算切比雪夫值。

可选的，在期望矩阵中，每个元素为展现对象集合中各展现对象展现次数的期望P，期望P的计算公式为：

其中，a是指任两个检索词中的检索词a；i是指展现对象集合中的展现对象i，i取任意自然数；sum_col_i是指展现对象i对应的第二展现和；sum_row_a是指检索词a对应的第一展现和；total是指展现总和值。

可选的，切比雪夫值计算子单元具体用于：

计算期望矩阵与原始矩阵的方差；

通过查表或开源包的装置，根据方差计算出切比雪夫值。

可选的，推荐词确定模块330具体用于：

如果相似度大于预设的置信值，则判断任两个检索词相互不独立，并确定该任两个检索词互为推荐词。

本发明实施例所提供的词推荐装置可执行本发明任意实施例所提供的词推荐方法，具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明方法实施例中的描述。

实施例四

图4是本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器412的框图。图4显示的服务器412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，服务器412以通用服务器的形式表现。服务器412的组件可以包括但不限于：一个或者多个处理器416，存储装置428，连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储装置428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

服务器412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信，还可与一个或者多个使得用户能与该服务器412交互的终端通信，和/或与使得该服务器412能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器420通过总线418与服务器412的其它模块通信。应当明白，尽管图中未示出，可以结合服务器412使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的词推荐方法，该方法可以包括：

获取全部检索词和每个检索词所触发的至少一个展现对象；

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的词推荐方法，该方法可以包括：

获取全部检索词和每个检索词所触发的至少一个展现对象；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种词推荐方法，其特征在于，所述方法包括：

获取全部检索词和每个检索词所触发的至少一个展现对象；

获取任两个检索词各自所触发的至少一个展现对象中，存在交集的展现对象集合；

分别计算所述任两个检索词各自触发所述展现对象集合中各展现对象的原始展现次数；

计算所述任两个检索词中，每个检索词各自触发所述展现对象集合中各展现对象的原始展现次数之和，作为每个检索词各自对应的第一展现和；

针对所述展现对象集合中的每个展现对象，计算所述任两个检索词各自触发该展现对象的原始展现次数之和，作为所述展现对象集合中各展现对象对应的第二展现和；

计算所述任两个检索词中，每个检索词各自对应的第一展现和的展现总和值；

根据第一展现和、第二展现和以及所述展现总和值计算所述展现对象集合对应的展现次数的期望矩阵；

根据所述期望矩阵和由所述原始展现次数构成的所述展现对象集合对应的展现次数的原始矩阵计算切比雪夫值，其中，所述切比雪夫值作为所述任两个检索词的相似度；

2.根据权利要求1所述的方法，其特征在于，在所述期望矩阵中，每个元素为所述展现对象集合中各展现对象展现次数的期望P，所述期望P的计算公式为：

；

其中，a是指所述任两个检索词中的检索词a；i是指所述展现对象集合中的展现对象i，i取任意自然数；sum_col_i是指展现对象i对应的第二展现和；sum_row_a是指检索词a对应的第一展现和；total是指所述展现总和值。

3.根据权利要求1所述的方法，其特征在于，根据所述期望矩阵和由所述原始展现次数构成的所述展现对象集合对应的展现次数的原始矩阵计算所述切比雪夫值，包括：

计算所述期望矩阵与原始矩阵的方差；

通过查表或开源包的方法，根据所述方差计算出所述切比雪夫值。

4.根据权利要求1所述的方法，其特征在于，根据所述相似度和预设的置信值判断所述任两个检索词是否相互独立，并将相互不独立的检索词确定互为推荐词，包括：

如果所述相似度大于预设的置信值，则判断所述任两个检索词相互不独立，并确定所述任两个检索词互为推荐词。

5.一种词推荐装置，其特征在于，所述装置包括：

相似度计算模块，包括，展现对象集合获取单元和切比雪夫值确定单元，

所述展现对象集合获取单元，用于获取任两个检索词各自所触发的至少一个展现对象中，存在交集的展现对象集合；

所述切比雪夫值确定单元包括：

原始展现次数计算子单元，用于分别计算所述任两个检索词各自触发所述展现对象集合中各展现对象的原始展现次数；

第一展现和计算子单元，用于计算所述任两个检索词中，每个检索词各自触发所述展现对象集合中各展现对象的原始展现次数之和，作为每个检索词各自对应的第一展现和；

第二展现和计算子单元，用于针对所述展现对象集合中的每个展现对象，计算所述任两个检索词各自触发该展现对象的原始展现次数之和，作为所述展现对象集合中各展现对象对应的第二展现和；

展现总和计算子单元，用于计算所述任两个检索词中，每个检索词各自对应的第一展现和的展现总和值；

期望矩阵计算子单元，用于根据第一展现和、第二展现和以及所述展现总和值计算所述展现对象集合对应的展现次数的期望矩阵；

切比雪夫值计算子单元，用于根据所述期望矩阵和由所述原始展现次数构成的所述展现对象集合对应的展现次数的原始矩阵计算切比雪夫值，其中，所述切比雪夫值作为所述任两个检索词的相似度；

6.根据权利要求5所述的装置，其特征在于，在所述期望矩阵中，每个元素为所述展现对象集合中各展现对象展现次数的期望P，所述期望P的计算公式为：

；

7.根据权利要求5所述的装置，其特征在于，所述切比雪夫值计算子单元具体用于：

计算所述期望矩阵与原始矩阵的方差；

通过查表或开源包的装置，根据所述方差计算出所述切比雪夫值。

8.根据权利要求5所述的装置，其特征在于，所述推荐词确定模块具体用于：

9.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的词推荐方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的词推荐方法。