CN102737045A

CN102737045A - 一种相关度计算方法和装置

Info

Publication number: CN102737045A
Application number: CN2011100885919A
Authority: CN
Inventors: 占惠融; 李双龙
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-04-08
Filing date: 2011-04-08
Publication date: 2012-10-17
Anticipated expiration: 2031-04-08
Also published as: CN102737045B

Abstract

本发明提供了一种相关度计算方法和装置，其中方法包括：对用户输入的搜索请求(query)进行分词处理；利用分词处理后得到的各词语所对应的需求类型概率，对所述query进行需求类型的识别；分别计算所述query在识别出的各需求类型上与页面之间的相关度；整合所述query在识别出的各需求类型上与页面之间的相关度，得到所述query与所述页面之间的相关度。通过本发明计算的相关度充分考量了query的需求类型，能够在至少一个需求维度上计算query与页面之间的相关度，使得计算出的相关度更加准确，应用于搜索过程能够提供更好的搜索效果。

Description

一种相关度计算方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种相关度计算方法和装置。

【背景技术】

随着计算机技术的迅速发展，搜索引擎逐渐成为人们获取信息的重要工具，用户向搜索引擎输入搜索请求(query)后，搜索引擎就能够将与query匹配的页面包含搜索结果返回给用户。其中，搜索引擎在对搜索结果中的页面进行排序时，是依据搜索结果中各页面与query之间的相关度进行的，将相关度越高的排在越前面。

在现有技术中页面与query之间相关度的计算仅仅基于文本，即仅仅计算页面在文本上与query的相关度，但基于这种相关度计算方式提供的搜索结果并不能很好地满足用户需求，搜索效果较差。例如，当用户输入的query为“蜗居第三集”，搜索引擎向用户返回的页面与query之间相关度的计算是基于词频和位置信息等文本内容的，如果在页面中词语“蜗居”以及“第三集”的词频越高，则该页面与query的相关度越高。然而，当用户输入的query为“蜗居第三集”时，更可能要获取视频类的页面，但词语“蜗居”和“第三集”在视频类页面中出现的词频可能很低，因此视频类页面往往不能排在搜索结果中靠前的位置。

【发明内容】

本发明提供了一种相关度计算方法和装置，以便于充分考量用户的需求，提高搜索效果。

具体技术方案如下：

一种相关度计算方法，该方法包括：

A、对用户输入的搜索请求query进行分词处理；

B、利用分词处理后得到的各词语所对应的需求类型概率，对所述query进行需求类型的识别；

C、分别计算所述query在识别出的各需求类型上与页面之间的相关度；

D、整合所述query在识别出的各需求类型上与页面之间的相关度，得到所述query与所述页面之间的相关度。

在所述步骤B中，查找预先建立的词语需求概率模型，来确定所述分词处理后得到的各词语对应的需求类型概率；

其中，所述词语需求概率模型中包含：词语、词语对应的需求类型、词语对应的需求类型概率。

具体地，所述词语需求概率模型的建立包括：

S1、根据搜索日志中各query对应的搜索结果，确定所述各query对应的需求类型；

S2、对所述各query进行分词处理，将分词处理后得到的各词语映射到所属query对应的需求类型；

S3、根据各词语映射到各需求类型上的次数，统计各词语对应的需求类型概率。

其中，所述步骤S1具体包括：

根据搜索日志中各query对应的搜索结果，人工标注所述各query对应的需求类型；或者，

根据搜索日志中记录的用户对各query对应的搜索结果的行为，从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。

另外，所述步骤B具体包括：

针对所述分词处理后得到的各词语所对应的各需求类型，分别采用公式

计算query在需求类型T_j上的概率p(q，T_j)，其中，t_i为所述query进行分词处理后得到的第i个词语，M为所述query进行分词处理后得到的词语个数，p(t_i，T_j)为词语t_i所对应的需求类型T_j概率；

根据所述query在各需求类型上的概率，将排在前N个的需求类型确定为所述query具有的需求类型，其中N为预设的正整数。

或者，所述步骤B具体包括：

将处于所述query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为所述query具有的需求类型，其中N为预设的正整数。具体地，在所述步骤C中，采用公式

计算所述query在需求类型T_i上与页面d之间的相关度p(q，T_i|d)；

其中p(t_j，T_i|d)为对所述query进行分词处理之后得到的第j个词语t_j在需求类型T_i上与页面d之间的相关度，M为所述query进行分词处理后得到的词语个数。

另外，所述步骤D具体包括：

采用公式整合得到所述query与页面d之间的相关度p(d|q)；

其中，所述p(d)和所述p(q)为预设的正整数，所述p(q，T_i|d)为所述query在需求类型T_i上与页面d之间的相关度。

当所述T_i为文本类需求时，所述p(t_j，T_i|d)为所述t_j在所述页面d的词频-倒文档率的值；

当所述T_i为非文本类需求时，所述p(t_j，T_i|d)采用以下参数构成的拟合函数来计算：所述t_j与所述页面d的主题的相关度、所述页面d的资源类型与T_i一致的概率。

一种相关度计算装置，该装置包括：分词处理单元、需求识别单元、相关度计算单元和相关度整合单元；

所述分词处理单元，用于对用户输入的搜索请求query进行分词处理；

所述需求识别单元，用于利用所述分词处理单元分词处理后得到的各词语所对应的需求类型概率，对所述query进行需求类型的识别；

所述相关度计算单元，用于分别计算所述query在所述需求识别单元识别出的各需求类型上与页面之间的相关度；

所述整合处理单元，用于整合所述query在识别出的各需求类型上与页面之间的相关度，得到所述query与所述页面之间的相关度。

更进一步地，该装置还包括：词语需求确定单元，用于查找预先建立的词语需求概率模型，来确定所述分词处理后得到的各词语对应的需求类型概率；

另外，该装置还包括：模型建立单元；

所述模型建立单元具体包括：query需求确定子单元、分词处理子单元、需求映射子单元和概率统计子单元；

所述query需求确定子单元，用于根据搜索日志中各query对应的搜索结果，确定所述各query对应的需求类型；

所述分词处理子单元，用于对所述各query进行分词处理；

所述需求映射子单元，用于将所述分词处理子单元进行分词处理后得到的各词语映射到所属query对应的需求类型；

所述概率统计子单元，用于根据各词语映射到各需求类型上的次数，统计各词语对应的需求类型概率。

具体地，所述query需求确定子单元，根据人工标注确定各query对应的需求类型，或者，根据搜索日志中记录的用户对各query对应的搜索结果的行为，从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。

所述需求识别单元具体包括：概率计算子单元和需求识别子单元；

所述概率计算子单元，用于针对所述分词处理单元分词处理后得到的各词语所对应的各需求类型，分别采用公式

所述需求识别子单元，用于根据所述query在各需求类型上的概率，将排在前N个的需求类型确定为所述query具有的需求类型，其中N为预设的正整数。

或者，所述需求识别单元具体将所述query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为所述query具有的需求类型，其中N为预设的正整数。

另外，所述相关度计算单元具体采用公式计算所述query在需求类型T_i上与页面d之间的相关度p(q，T_i|d)；

所述相关度整合单元具体采用公式

整合得到所述query与页面d之间的相关度p(d|q)；

当所述T_i为文本类需求时，所述p(t_j,T_i|d)为所述t_j在所述页面d的词频-倒文档率的值；

由以上技术方案可以看出，本发明利用query分词处理后得到的各词语所对应的需求类型概率，对所述query进行需求类型的识别，分别计算query在识别出的各需求类型上与页面之间的相关度后再进行整合，得到该query与页面之间的相关度。通过该方式能够根据识别出的query的需求类型，在至少一个需求维度上计算query与页面之间的相关度，而不像现有技术中一样无视query的需求仅基于文本进行相关度计算，因此，本发明提供的方法和装置计算的相关度更加准确，应用于搜索过程能够提供更好的搜索效果。

【附图说明】

图1为本发明实施例一提供的相关度计算方法流程图；

图2为本发明实施例一中提供的建立词语需求概率模型的方法流程图；

图3为本发明实施例一中提供的query分词处理后得到的词语映射到各需求类型的示意图；

图4为本发明实施例二提供的相关度计算装置的结构图。

【具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的相关度计算方法流程图，如图1所示，该方法可以包括以下步骤：

步骤101：对用户输入的query进行分词处理。

本步骤中对query进行的分词处理可以采用但不限于以下所列中的任一种：基于字符串的分词方法、基于理解的分词方法、基于统计的分词方法以及基于语义的分词方法。

更优地，在对query进行分词处理后，可以进一步对分词处理后得到的各词语进行过滤处理，包括但不限于以下所列过滤处理：过滤掉预设的停用词表所包含的词语，或者过滤掉非独立表意的词语等。

本步骤为已有技术，在此不再赘述。

步骤102：利用分词处理后得到的各词语所对应的需求类型概率，对query进行需求类型的识别。

本步骤中获取分词处理后得到的各词语所对应的需求类型概率可以通过查找预先建立的词语需求概率模型的方式。该词语需求概率模型中可以包括：各词语、词语对应的需求类型、词语对应的需求类型的概率。

其中，建立词语需求概率模型可以采用对搜索日志进行数据挖掘的方式，如图2所示，可以具体包括步骤S1至步骤S3：

S1、根据搜索日志中各query对应的搜索结果，确定各query对应的需求类型。

该步骤S1中，可以采用人工标注的方式，确定各query对应的需求类型，即根据各query对应的搜索结果人工确定query对应的需求类型。例如：如果用户输入的query为“蜗居第三集”，根据“蜗居第三集”对应的搜索结果，可以认为判定出搜索结果大多是视频类、小说类，那么，可以人工标注该query对应的需求类型为视频类需求和小说类需求。

也可以采用机器学习的方式，确定各query对应的需求类型，通常基于搜索日志中记录的用户对query对应的搜索结果的行为，从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。例如：如果用户输入的query为“蜗居第三集”，在该query对应的搜索结果中用户点击的页面类型多为视频类和小说类，那么，可以确定该query对应的需求类型为视频类需求和小说类需求。

S2、对各query进行分词处理，将分词处理后得到的各词语映射到各query对应的需求类型。

例如，如果某query(标识为q)对应的需求类型为T₁和T₂，该query进行分词处理后得到的词语为t₁、t₂和t₃，则t₁、t₂和t₃可以均映射到需求类型T₁和T₂，如图3所示。

S3、根据分词处理后得到的各词语映射到各需求类型上的次数，统计各词语对应的需求类型概率。

同一个词语在不同query中可能映射到相同的需求类型，也可能映射到不同的需求类型，可以统计各词语映射到需求类型上的次数，从而计算各词语映射到该需求类型的概率分别作为各词语对应的需求类型概率。

至此建立词语需求概率模型的过程结束。

在获取到分词处理后得到的各词语所对应的需求类型概率后，确定query具有的需求类型的方式可以采用但不限于以下两种：

第一种方式：确定出query进行分词处理后得到各词语所对应的各需求类型后，针对各需求类型，分别采用公式

计算query在需求类型T_j上的概率p(q，T_j)，其中，t_i为query进行分词处理后得到的第i个词语，M为query进行分词处理后得到的词语个数，p(t_i，T_j)为词语t_i对应的需求类型T_j的概率。根据query在各需求类型上的概率，将排在前N个的需求类型确定为该query具有的需求类型，其中N为预设的正整数。

第二种方式：将处于query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型作为query具有的需求类型，其中预设位置可以是query中的头部或者尾部位置，N为预设的正整数。通常，用户在输入query时，会将重要的词语(即表达用户意图的词语)放在query中的头部或尾部位置，因此，可以直接将处于query中的头部或尾部位置的词语所对应的需求类型概率中排在前一个或几个的需求类型作为query具有的需求类型。

例如，对于用户输入的query如果是“蜗居海青第三集”，如果预设位置是query中的头部，词语“蜗居”对应的需求类型概率分别为：在视频类需求的概率为0.6，在小说类需求的概率为0.2，在图片类需求的概率为0.1，在新闻类需求的概率为0.1，如果取N为2，则可以确定该query的需求类型为视频类需求和小说类需求。

在本发明中query的需求类型可以包括：文本类需求和非文本类需求。其中非文本类需求可以包括：视频类需求、图片类需求、商品类需求、博客类需求、小说类需求、论坛类需求等。

步骤103：分别计算query在识别出的各需求类型上与页面之间的相关度。

假设在步骤102中识别出query具有N种需求类型，query进行步骤101的分词处理之后得到的词语为M个，那么query在第i种需求类型T_i上与页面d之间的相关度p(q，T_i|d)可以采用如下公式计算：

p (q, T_{i} | d) = Π_{j}^{M} p (t_{j}, T_{i} | d) - - - (1)

其中，p(t_j，T_i|d)为对query进行分词处理之后得到的第j个词语t_j在需求类型T_i上与页面d之间的相关度。

p(t_j，T_i|d)可以按照具体的需求类型T_i采用不同的计算方式：

如果T_i为文本类需求，则可以采用词频-倒文档率(TF-IDF)的方式计算p(t_j，T_i|d)，即将词语t_j在页面d的TF-IDF作为p(t_j，T_i|d)。

如果T_i是非文本类需求，则需要进一步对页面d的资源类型进行识别，可以采用以下参数构成的拟合函数来计算p(t_j，T_i|d)：t_j与该页面d主题的相关度、页面d的资源类型与T_i一致的概率。

例如，如果T_i为视频类需求，则可以采用以下参数构成的拟合函数来计算p(t_j，T_i|d)：t_j与该页面d主题的相关度、页面d是视频类页面的概率。该拟合函数还可以包括以下参数中的之一或组合：视频长度、视频清晰度以及视频来源等。例如：将页面d的f(t_j与该页面d主题的相关度，页面d是视频类页面的概率，视频长度，视频清晰度，视频来源)的函数值作为p(t_j，T_i|d)。

如果T_i为图片类需求，则可以采用以下参数构成的拟合函数来计算p(t_j，T_i|d)：t_j与该页面d主题的相关度、页面d是图片类页面的概率。该拟合函数还可以包括以下参数中的之一或组合：图片大小、图片数目以及图片清晰度等。例如：将页面d的f(t_j与该页面d主题的相关度，页面d是图片类页面的概率，图片大小，图片数目，图片清晰度)的函数值作为p(t_j，T_i|d)。

如果T_i为商品类需求，则可以采用以下参数构成的拟合函数来计算p(t_j，T_i|d)：t_j与该页面d主题的相关度、页面d是商品类页面的概率。该拟合函数还可以包括以下参数中的之一或组合：商品数目以及商品丰富度等。例如，将页面d的f(t_j与该页面d主题的相关度，页面d是商品类页面的概率，商品数目，商品丰富度)的函数值作为p(t_j，T_i|d)。

步骤104：整合query在识别出的各需求类型上与页面之间的相关度，得到query与页面之间的相关度。

本步骤可以采用如下公式整合得到query与页面d之间的相关度p(d|q)：

p (d | q) = \frac{Σ_{i = 1}^{N} p (q, T_{i} | d) * p (d)}{p (q)} - - - (2)

其中，p(d)为页面d出现的概率，p(q)为query出现的概率，可以认为所有页面出现的概率均是相同的，所有query出现的概率也是相同的，即p(d)和p(q)可以采用预设的正整数。

下面举一个具体的例子对图1所示过程进行说明。假设用户输入的query为“蜗居第三集”的query，对该query进行分词处理后，得到“蜗居”和“第三集”两个词语。查找预先建立的词语需求概率模型后，得到“蜗居”对应视频类需求的概率为0.6，对应小说类需求的概率为0.2，对应图片类需求的概率为0.1，对应新闻类需求的概率为0.1；“第三集”对应视频类需求的概率为0.8，对应小说类需求的概率为0.2，新闻类需求的概率为0.05。

计算query在视频类需求的概率p(q，T₁)为：0.6×0.8＝0.48，query在小说类需求的概率p(q，T₂)为：0.2×0.2＝0.04，query在新闻类需求的概率p(q，T₃)为：0.1*0.05＝0.005，query在图片类需求的概率p(q，T₄)为0。取概率值排在前两个的需求类型，即视频类需求和小说类需求作为该query具有的需求类型。

进一步计算query分别在视频类需求和小说类需求上与页面d之间的相关度p(q，T₁|d)和p(q，T₂|d)：

p (q, T_{1} | d) = Π_{j}^{2} p (t_{j}, T_{1} | d)

p (q, T_{2} | d) = Π_{j}^{2} p (t_{j}, T_{2} | d)

最后整合query在视频类需求和小说类需求上与页面d之间的相关度，假设p(d)和p(q)的取值均为1，得到query与页面d之间的相关度p(d|q)为：

p (d | q) = \frac{p (q, T_{1} | d) * p (d) + p (q, T_{2} | d) * p (d)}{p (q)} .

本发明实施例提供的上述方法可以用于搜索结果的排序，即根据上述方法计算出的query与搜索结果中各页面的相关度，按照相关度从高到低的顺序对搜索结果中各页面进行排序。当然，也不排除利用本发明提供的上述方法进行其他应用，例如，应用于搜索结果的召回，仅将与query的相关度达到预设相关度阈值的页面作为该query的搜索结果进行召回。

实施例二、

图4为本发明实施例二提供的相关度计算装置结构图，如图4所示，该装置可以包括：分词处理单元400、需求识别单元410、相关度计算单元420和相关度整合单元430。

分词处理单元400，用于对用户输入的搜索请求query进行分词处理。

其中，对query进行的分词处理可以采用但不限于以下所列中的任一种：基于字符串的分词方法、基于理解的分词方法、基于统计的分词方法以及基于语义的分词方法。

另外，分词处理单元400还可以进一步对分词处理后得到的各词语进行过滤处理，包括但不限于以下所列过滤处理：过滤掉预设的停用词表所包含的词语，或者过滤掉非独立表意的词语等。

需求识别单元410，用于利用分词处理单元400分词处理后得到的各词语所对应的需求类型概率，对query进行需求类型的识别。

相关度计算单元420，用于分别计算query在需求识别单元410识别出的各需求类型上与页面之间的相关度。

整合处理单元430，用于整合query在识别出的各需求类型上与页面之间的相关度，得到query与页面之间的相关度。

另外，该装置还可以包括：词语需求确定单元440，用于查找预先建立的词语需求概率模型，来确定分词处理后得到的各词语对应的需求类型概率。

其中，上述词语需求概率模型可以包含：词语、词语对应的需求类型、词语对应的需求类型概率。

除此之外，该装置还可以包括：用于建立词语需求概率模型的模型建立单元450，具体包括：query需求确定子单元451、分词处理子单元452、需求映射子单元453和概率统计子单元454。

query需求确定子单元451，用于根据搜索日志中各query对应的搜索结果，确定各query对应的需求类型。

分词处理子单元452，用于对各query进行分词处理。

需求映射子单元453，用于将分词处理子单元452进行分词处理后得到的各词语映射到所属query对应的需求类型。

概率统计子单元454，用于根据各词语映射到各需求类型上的次数，统计各词语对应的需求类型概率。

其中，query需求确定子单元451可以根据人工标注确定各query对应的需求类型，或者，根据搜索日志中记录的用户对各query对应的搜索结果的行为，从用户所点击或浏览搜索结果的页面类型中确定各query对应的需求类型。

需求识别单元410可以采用以下两种方式进行query的需求识别：

第一种方式：需求识别单元410具体包括：概率计算子单元411和需求识别子单元412。

概率计算子单元411，用于针对分词处理单元400分词处理后得到的各词语所对应的各需求类型，分别采用公式

计算query在需求类型T_j上的概率p(q，T_j)，其中，t_i为query进行分词处理后得到的第i个词语，M为query进行分词处理后得到的词语个数，p(t_i，T_j)为词语t_i所对应的需求类型T_j概率。

需求识别子单元412，用于根据query在各需求类型上的概率，将排在前N个的需求类型确定为query具有的需求类型，其中N为预设的正整数。

第二种方式：需求识别单元410具体将query中的预设位置的词语所对应的需求类型概率中排在前N个的需求类型确定为query具有的需求类型，其中N为预设的正整数。

图4中仅示出需求识别单元410的上述第一种方式所对应的结构。具体地，相关度计算单元420可以采用公式

计算query在需求类型T_i上与页面d之间的相关度p(q，T_i|d)。

其中p(t_j，T_i|d)为对query进行分词处理之后得到的第j个词语t_j在需求类型T_i上与页面d之间的相关度，M为query进行分词处理后得到的词语个数。

相关度整合单元430可以具体采用公式

整合得到query与页面d之间的相关度p(d|q)。

其中，p(d)和p(q)为预设的正整数，所述p(q，T_i|d)为所述query在需求类型T_i上与页面d之间的相关度。

当T_i为文本类需求时，p(t_j，T_i|d)可以采用词频-倒文档率(TF-IDF)的方式计算，即将词语t_j在页面d的TF-IDF作为p(t_j，T_i|d)。

当T_i是非文本类需求时，可以采用以下参数构成的拟合函数来计算p(t_j，T_i|d)：t_j与该页面d主题的相关度、页面d的资源类型与T_i一致的概率。

例如，当T_i为视频类需求时，p(t_j，T_i|d)可以采用以下参数构成的拟合函数来计算p(t_j，T_i|d)：t_j与该页面d主题的相关度、页面d是视频类页面的概率。该拟合函数还可以包括以下参数中的之一或组合：视频长度、视频清晰度以及视频来源等。例如：将页面d的f(t_j与该页面d主题的相关度，页面d是视频类页面的概率，视频长度，视频清晰度，视频来源)的函数值作为p(t_j，T_i|d)。

当T_i为图片类需求时，则p(t_j，T_i|d)可以采用以下参数构成的拟合函数来计算：t_j与该页面d主题的相关度、页面d是图片类页面的概率。该拟合函数还可以包括以下参数中的之一或组合：图片大小、图片数目以及图片清晰度等。例如：将页面d的f(t_j与该页面d主题的相关度，页面d是图片类页面的概率，图片大小，图片数目，图片清晰度)的函数值作为p(t_j，T_i|d)。

当T_i为商品类需求时，则p(t_j，T_i|d)可以采用以下参数构成的拟合函数来计算：t_j与该页面d主题的相关度、页面d是商品类页面的概率。该拟合函数还可以包括以下参数中的之一或组合：商品数目以及商品丰富度等。例如，将页面d的f(t_j与该页面d主题的相关度，页面d是商品类页面的概率，商品数目，商品丰富度)的函数值作为p(t_j，T_i|d)。

通过本发明实施例提供的上述方法和装置所计算出的相关度，可以应用于搜索过程中的页面召回或页面排序中，由于通过本发明实施例计算出的query与页面之间的相关度充分考量了query的需求类型，能够在至少一个需求维度上计算query与页面之间的相关度，使得计算出的相关度更加准确，因此，应用于搜索过程能够提供更好的搜索效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。