CN103365910A

CN103365910A - 一种信息检索的方法和系统

Info

Publication number: CN103365910A
Application number: CN2012100997209A
Authority: CN
Inventors: 姚伶伶; 赫南; 王迪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-04-06
Filing date: 2012-04-06
Publication date: 2013-10-23
Anticipated expiration: 2032-04-06
Also published as: CN103365910B

Abstract

本发明公开了一种信息检索的方法和系统，方法包括：基于检索串(query)的扩展对基础检索串分析(QA)词表进行二次映射过程，生成二级映射的QA词表；其中，基础QA词表包括高频query到关键词的映射，二级映射的QA词表中的第一级映射为扩展query到高频query的映射，第二级映射为高频query到关键词的映射；根据获取的信息检索请求中的检索串，进行二级映射的QA词表的查找，得到该检索串命中的关键词，并提取该关键词对应的互联网发布信息作为检索结果。通过本发明，能够提高信息检索结果对互联网发布信息的覆盖率。

Description

一种信息检索的方法和系统

技术领域

本发明涉及互联网技术领域，尤其涉及一种信息检索的方法和系统。

背景技术

在现有的信息检索发布系统中，按照传统网页搜索的检索方法、即按照检索串(query)中多个核心语素的“与”操作进行检索，例如：某个检索串包含A、B、C这三个核心语素，那么按照传统网页搜索的检索方法，即是按照A、B、C的“与”操作进行检索，也就是能同时匹配到A、B、C这三个核心语素的互联网发布信息才会被检索出来，作为检索结果。

上述检索方法会导致大量的匹配无结果，因此，目前的做法是扩展匹配端，在离线情况下按照一定的时间窗口从用户检索日志(query log)中筛选出高频query(即出现频率高于一定阈值的query)；通过语义分析服务模块，获取这些query的网页搜索结果并分析其特征；同时对每一个筛选的query，通过整合各query扩展结果和关键词扩展，生成最初的关键词候选列表，该列表中包括用于匹配query的关键词。然后，query关键词映射子系统为每一对query和关键词计算各种用于衡量两者相关度的特征，包括各种文本相似度、语义相似度等。最后，对每一对query和关键词及其各种特征，进行相关度预测，按照相关度得分对候选关键词筛选和排序，得到query的最终关键词映射表，即QA(QueryAnalysis，检索串分析)词表。其中，QA词表是指query到关键词的hash(哈希)词表，该词表的左键为一定的时间窗口内的query log所统计出来的高频query，右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列，即QA词表维护的是高频query与关键词的映射关系。在检索端进行query分析并匹配互联网发布信息时，会从QA词表中查找query所对应的关键词，然后在关键词-互联网发布信息索引中找到相应的互联网发布信息作为检索结果。

然而，在现有的检索方法和系统中，query只有精确命中QA词表，才能匹配出相应的关键词，并未充分利用query之间的相关性，从而导致检索结果对互联网发布信息的覆盖率较低。

发明内容

有鉴于此，本发明的主要目的在于提供一种信息检索的方法和系统，以充分利用query之间的相关性，提高信息检索结果对互联网发布信息的覆盖率。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种信息检索的方法，该方法包括：

基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程，生成二级映射的QA词表；其中，所述基础QA词表包括高频query到关键词的映射，所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射，第二级映射为高频query到关键词的映射；

根据获取的信息检索请求中的检索串，进行所述二级映射的QA词表的查找，得到所述检索串命中的关键词，并提取所述关键词对应的互联网发布信息作为检索结果。

较佳的，所述query的扩展具体为：

依据检索日志，采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展，得到多个query相关系列。

较佳的，所述基于query的扩展对基础QA词表进行二次映射过程，生成二级映射的QA词表，具体为：

对于query扩展得到的每一个query相关系列，在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时，将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query，生成扩展query到高频query的初始的第一级映射；

计算所述初始的第一级映射中的各扩展query与相应高频query的相似度，并过滤掉相似度小于预设阈值的扩展query，保留相似度大于或等于预设阈值的扩展query，得到最终的第一级映射；

根据所述最终的第一级映射和所述基础QA词表，生成二级映射的QA词表。

较佳的，该方法进一步包括：根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度，具体为：

接收人工标注的标准集，所述标准集中包括人工标注的扩展query到高频query的映射；

计算所述标准集中每一个扩展query到高频query映射的特征值，并随机将所述标准集划分为训练集和校验集；

用所述训练集进行相关性逻辑回归模型训练，得到用于评价扩展query和高频query相关性的初始逻辑回归模型，再用所述校验集对所述初始逻辑回归模型进行评价，根据评价结果优化特征选择，得到最终的相关性逻辑回归模型；

根据最终的相关性逻辑回归模型，通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度：

Score (q_{1}, q_{2}) = \frac{1}{1 + e^{- Σ_{i = 1}^{n} w_{i} f_{i} (q_{1}, q_{2})}}

其中，q₁表示扩展query，q₂表示高频query，n表示特征总数，f_i(q₁，q₂)表示扩展query到高频query映射的第i个特征值，w_i表示第i个特征的权重。

较佳的，所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值，所述文本相似度特征值包括以下至少之一：

扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。

较佳的，所述根据获取的信息检索请求中的检索串，进行所述二级映射的QA词表的查找，得到所述检索串命中的关键词，具体为：

根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射，获取与所述检索串匹配的扩展query所对应的高频query，再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。

较佳的，该方法进一步包括：

根据获取的信息检索请求中的检索串，先查找基础QA词表，如果匹配到所述基础QA词表中的高频query，则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词，不再进行所述二级映射的QA词表的查找；

如果未匹配到所述基础QA词表中的高频query，则进行所述二级映射的QA词表的查找。

本发明还提供了一种信息检索的系统，该系统包括：

二级映射词表生成模块，用于基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程，生成二级映射的QA词表；其中，所述基础QA词表包括高频query到关键词的映射，所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射，第二级映射为高频query到关键词的映射；

信息检索模块，用于根据获取的信息检索请求中的检索串，进行所述二级映射的QA词表的查找，得到所述检索串命中的关键词，并提取所述关键词对应的互联网发布信息作为检索结果。

较佳的，所述二级映射词表生成模块进一步用于，依据检索日志，采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展，得到多个query相关系列。

较佳的，所述二级映射词表生成模块进一步用于，

计算所述初始的第一级映射中的各扩展query与高频query的相似度，并过滤掉相似度小于预设阈值的扩展query，保留相似度大于或等于预设阈值的扩展query，得到最终的第一级映射；

较佳的，所述二级映射词表生成模块进一步用于，根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与高频query的相似度，具体为：

Score (q_{1}, q_{2}) = \frac{1}{1 + e^{- Σ_{i = 1}^{n} w_{i} f_{i} (q_{1}, q_{2})}}

其中，q₁表示扩展query，q₂表示高频query，n表示特征总数，f_i(q₁，q₂)表示扩展query和高频query对的第i个特征值，w_i表示第i个特征的权重。

较佳的，所述信息检索模块进一步用于，根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射，获取与所述检索串匹配的扩展query所对应的高频query，再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。

较佳的，所述信息检索模块进一步用于，

本发明所提供的一种信息检索的方法和系统，丰富了QA词表的左键入口，可以更加充分地利用基础QA词表，提升信息检索对互联网发布信息的覆盖率，提高信息检索的准确率，提高检索性能。

附图说明

图1为本发明实施例的一种信息检索的方法流程图；

图2为本发明实施例中二级映射的QA词表的结构示意图；

图3为本发明实施例中根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度的过程示意图；

图4为图1所示的步骤101的具体执行过程的示意图；

图5为图1所示的步骤102具体执行过程的示意图；

图6为本发明实施例的一种信息检索的系统结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

本发明实施例提供的一种信息检索的方法如图1所示，主要包括以下步骤：

步骤101，基于query的扩展对基础QA词表进行二次映射过程，生成二级映射的QA词表；其中，基础QA词表包括高频query到关键词的映射，二级映射的QA词表中的第一级映射为扩展query到高频query的映射，第二级映射为高频query到关键词的映射。

所谓基础QA词表，是指query到关键词的hash词表，该词表的左键为一定的时间窗口内的query log所统计出来的高频query，右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列，即基础QA词表维护的是高频query与关键词(或关键词系列)的映射关系。该基础QA词表可以通过专门的QBM(检索串关键词合并)模块离线处理得到。

所谓互联网发布信息，是指互联网信息发布方通过信息检索发布系统发布的信息，包括：地理信息、人文信息、商户信息等等。这些互联网发布信息通过专门的数据库存储。

其中，query的扩展处理后得到多个query相关系列，query的扩展可以采用以下方式的至少之一：

一、依据一定的时间窗口内的query log，采用基于会话(session)的query扩展；

二、依据一定的时间窗口内的query log，采用基于互联网发布信息互点击的query扩展；

三、依据一定的时间窗口内的query log，采用基于相关搜索的query扩展。

基于session的query扩展，主要包括以下操作：先对检索日志中的query进行归一化和噪声词汇过滤处理；然后，将同一个用户在一段连续时间里检索过的query归并为一个query系列，统计每个query在一天的日志里出现的次数，以及每任意两个query在一天的日志中出现在同一个query系列的次数；在一个大时间区间里(例如1个月)，将上面得到的每一天的query系列以及统计的频次信息合并起来，利用似然比公式计算query之间的似然比特征值LLR，并利用此特征值对query扩展结果进行过滤(例如，LLR小于预设阈值的query相关系列被过滤)；最后将多天的query扩展结果排重合并，并按照似然比特征值对query扩展结果排序，得到query相关系列。似然比公式如下：

LLR＝logb(c₁₂；c₁，p)+logb(c₂-c₁₂；N-c₁，p)

-logb(c₁₂；c₁，p₁)-logb(c₂-c₁₂；N-c₁，p₂)

其中，

p = \frac{c_{2}}{N},

p_{1} = \frac{c_{12}}{c_{1}},

p_{2} = \frac{c_{2} - c_{12}}{N - c_{1}},

b (k : n, x) = C_{n}^{k} x^{k} {(1 - x)}^{(n - k)};

c₁为query1在大时间区间里出现的总频次，c₁为query2在大时间区间里出现的总频次，c₁₂为query1与query2同时出现在一个query相关系列的总频次，N为大时间区间里所有query的总频次。

基于互联网发布信息互点击的query扩展，主要包括以下操作：由于在信息检索发布系统中触发了同一条互联网发布信息展示的不同query之间可能是有联系的，如果这样的互联网发布信息还会被共同点击，则不同的query间可能蕴含着相同的意图；因此，基于互联网发布信息的点击日志，可以将触发了同一条互联网发布信息展示的不同query聚合在一起，组成一个query相关系列。例如：搜索queryA时会有几条互联网发布信息展示，搜索queryB时也会有几条互联网发布信息展示，如果搜索queryA和搜索queryB时展示的互联网发布信息中存在相同的互联网发布信息，且此相同的互联网发布信息都被用户点击，则认为queryA和queryB是存在相关性的，从而将queryA和queryB聚合到一个query相关系列中。

基于相关搜索的query扩展，主要包括以下操作：搜索引擎在响应用户查询请求时，会“猜测”用户可能的检索意图，针对检索query自动进行一些扩展；例如：用户搜索“刘德华”，搜索引擎返回自然结果的同时，还会将相关的检索query呈现给用户，如“刘德华电影”、“刘德华演唱会”、“刘德华微博”等；用户搜索“玫瑰花”，搜索引擎返回自然结果的同时，还会将相关的检索query呈现给用户，如“鲜花”、“白玫瑰”、“蓝玫瑰”、“黄玫瑰”等等。利用搜索引擎的这种智能提示，可以对高频query进行扩展，得到对应的query相关系列。

基于query的扩展对基础QA词表进行二次映射过程，生成二级映射的QA词表，具体包括：

对于上述query扩展得到的每一个query相关系列，在判断所述query相关系列中存在与基础QA词表中相同的高频query时，将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query，生成扩展query到高频query的初始的第一级映射；

根据最终的第一级映射和基础QA词表，生成二级映射的QA词表。

生成的二级映射的QA词表参见图2，在图2所示的QA词表中，第一级映射为扩展query到高频query的映射，第一级映射的左键为扩展query，右键为高频query；第二级映射为高频query到关键词(或关键词系列)的映射，第二级映射的左键为高频query，右键为关键词(或关键词系列)。其中，基础QA词表即作为第二级映射，二级映射的QA词表中需保证第一级映射的左键在第二级映射的左键中未出现，第一级映射的右键在第二级映射的左键中出现。

需要说明的是，本发明的实施例可以根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度，当然，本发明实施例中计算初始的第一级映射中的各扩展query与相应高频query的相似度的方法并不仅限于此，实际应用中任何能够用于计算得到以上相似度的方法应当都属于本发明实施例的保护范围。

其中，根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度的具体操作过程，如图3所示，具体包括：

用所述训练集进行相关性逻辑回归模型训练，得到用于评价扩展query和高频query相关性的初始逻辑回归模型，再用所述校验集对所述初始逻辑回归模型进行评价，根据评价结果优化特征选择(如增加特征、删除特征、进行特征组合等等)，得到最终的相关性逻辑回归模型；

根据最终的相关性逻辑回归模型，通过下式(将初始的第一级映射中的各扩展query到高频query映射的特征值代入下式)计算初始的第一级映射中的各扩展query与相应高频query的相似度：

Score (q_{1}, q_{2}) = \frac{1}{1 + e^{- Σ_{i = 1}^{n} w_{i} f_{i} (q_{1}, q_{2})}}

所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值，所述文本相似度特征值包括以下至少之一：扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语(term)率、编辑距离、最长公共子串。

其中，tanimoto系数

A、B表示任意两个query；

字面相似度

A、B表示任意两个query；

共同term率＝切词后A与B共有的短语个数×2/切词后A与B的短语个数总和，A、B表示任意两个query；

编辑距离，又称Levenshtein距离，是指两个字串之间由一个转成另一个所需的最少编辑操作次数；

最长公共子串：一个序列S，如果分别是两个已知字符序列(如A、B)的子序列，且是所有符合此条件序列中最长的，则S称为两个已知字符序列的最长公共子序列，可以用于描述两个字符系列之间的相似度。

步骤101的详细操作可参见图4所示的示意图，依据一定的时间窗口内的query log，采用基于session的query扩展、基于互联网发布信息互点击的query扩展和基于相关搜索的query扩展，并将扩展query的结果合并得到多个query相关系列；然后，对于每一个query相关系列，基于基础QA词表进行二次映射过程，生成二级映射的QA词表。在进行二次映射过程中需要用到相关性逻辑回归模型，具体执行过程参见前述说明。

步骤102，根据获取的信息检索请求中的检索串，进行所述二级映射的QA词表的查找，得到所述检索串命中的关键词，并提取所述关键词对应的互联网发布信息作为检索结果。

二级映射的QA词表查找的具体操作为：根据信息检索请求中的检索串查找二级映射的QA词表中的第一级映射，获取与检索串匹配的扩展query所对应的高频query，再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。

作为本发明的一种优选实施例，还可以根据获取的信息检索请求中的检索串，先查找基础QA词表，如果匹配到所述基础QA词表中的高频query，则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词，不再进行所述二级映射的QA词表的查找；如果未匹配到所述基础QA词表中的高频query，则再进行所述二级映射的QA词表的查找。如果信息检索请求中的检索串在基础QA词表和二级映射的QA词表中都未命中到相应的关键词，则可以选择其他可行的命中关键词的方法继续进行。具体操作过程参见图5。

对应上述信息检索的方法，本发明实施例还提供了一种信息检索的系统，如图6所示，主要包括：二级映射词表生成模块10和信息检索模块20；其中，

二级映射词表生成模块10，用于基于query的扩展对基础QA词表进行二次映射过程，生成二级映射的QA词表；其中，所述基础QA词表包括高频query到关键词的映射，所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射，第二级映射为高频query到关键词的映射；

信息检索模块20，用于根据获取的信息检索请求中的检索串，进行二级映射的QA词表的查找，得到该检索串命中的关键词，并提取该关键词对应的互联网发布信息作为检索结果。

较佳的，二级映射词表生成模块10可进一步用于，依据检索日志，采用基于session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展，得到多个query相关系列。

较佳的，二级映射词表生成模块10还可进一步用于，对于query扩展得到的每一个query相关系列，在判断所述query相关系列中存在与基础QA词表中相同的高频query时，将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query，生成扩展query到高频query的初始的第一级映射；计算初始的第一级映射中的各扩展query与高频query的相似度，并过滤掉相似度小于预设阈值的扩展query，保留相似度大于或等于预设阈值的扩展query，得到最终的第一级映射；根据最终的第一级映射和基础QA词表，生成二级映射的QA词表。

较佳的，二级映射词表生成模块10还可进一步用于，根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与高频query的相似度，具体为：

Score (q_{1}, q_{2}) = \frac{1}{1 + e^{- Σ_{i = 1}^{n} w_{i} f_{i} (q_{1}, q_{2})}}

所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值，所述文本相似度特征值包括以下至少之一：扩展query与对应高频query之间的tanimoto系数、字面相似度、共同term率、编辑距离、最长公共子串。

较佳的，信息检索模块20可进一步用于，根据信息检索请求中的检索串查找二级映射的QA词表中的第一级映射，获取与所述检索串匹配的扩展query所对应的高频query，再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。

较佳的，信息检索模块20还可进一步用于，根据获取的信息检索请求中的检索串，先查找基础QA词表，如果匹配到基础QA词表中的高频query，则提取基础QA词表中与所述高频query对应的关键词作为命中的关键词，不再进行二级映射的QA词表的查找；

如果未匹配到基础QA词表中的高频query，则进行二级映射的QA词表的查找。

另外，作为本发明的一种优选实施方式，信息检索的系统还可以添加一个实时的检索串重写模块(图6中未示出)，连接信息检索模块20，用于对通过上述方法未能命中到关键词的检索串进行适当的变型(例如删除检索串中的若干核心元素)后，重新送入信息检索模块20执行新一轮的检索流程；依此类推，直到命中到关键词。

综上所述，本发明实施例利用基于session的query扩展、基于互联网发布信息互点击的query扩展、基于相关搜索的query扩展等方法，在query集合中建立一个关联的query网络；然后对query之间的相关性进行校验，提取出高质量的关联query。在具体实现中采用hash map数据结构来表示这种关联关系，该map的右键(map value)为一定的时间窗口中从用户检索日志中筛选出的高频query，该map的左键(map key)为高频query相关的扩展query。而高频query与关键词的映射关系可以通过QBM模块离线处理得到。这样就形成了一个二级映射的QA词表，相当于对原有基础QA词表的左键进行了扩充；该二级映射的QA词表中的第一级映射为扩展query到高频query的映射，第二级映射为高频query到关键词的映射。本发明的实施例丰富了QA词表的左键入口，可以更加充分地利用基础QA词表，提升互联网发布信息的覆盖率。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种信息检索的方法，其特征在于，该方法包括：

2.根据权利要求1所述信息检索的方法，其特征在于，所述query的扩展具体为：

3.根据权利要求2所述信息检索的方法，其特征在于，所述基于query的扩展对基础QA词表进行二次映射过程，生成二级映射的QA词表，具体为：

4.根据权利要求3所述信息检索的方法，其特征在于，该方法进一步包括：根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度，具体为：

Score (q_{1}, q_{2}) = \frac{1}{1 + e^{- Σ_{i = 1}^{n} w_{i} f_{i} (q_{1}, q_{2})}}

5.根据权利要求4所述信息检索的方法，其特征在于，所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值，所述文本相似度特征值包括以下至少之一：

6.根据权利要求1至5任一项所述信息检索的方法，其特征在于，所述根据获取的信息检索请求中的检索串，进行所述二级映射的QA词表的查找，得到所述检索串命中的关键词，具体为：

7.根据权利要求6所述信息检索的方法，其特征在于，该方法进一步包括：

8.一种信息检索的系统，其特征在于，该系统包括：

9.根据权利要求8所述信息检索的系统，其特征在于，所述二级映射词表生成模块进一步用于，依据检索日志，采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展，得到多个query相关系列。

10.根据权利要求9所述信息检索的系统，其特征在于，所述二级映射词表生成模块进一步用于，

11.根据权利要求10所述信息检索的系统，其特征在于，所述二级映射词表生成模块进一步用于，根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与高频query的相似度，具体为：

Score (q_{1}, q_{2}) = \frac{1}{1 + e^{- Σ_{i = 1}^{n} w_{i} f_{i} (q_{1}, q_{2})}}

12.根据权利要求11所述信息检索的系统，其特征在于，所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值，所述文本相似度特征值包括以下至少之一：

13.根据权利要求8至12任一项所述信息检索的系统，其特征在于，所述信息检索模块进一步用于，根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射，获取与所述检索串匹配的扩展query所对应的高频query，再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。

14.根据权利要求13所述信息检索的系统，其特征在于，所述信息检索模块进一步用于，