CN102982153A

CN102982153A - 一种信息检索方法及其装置

Info

Publication number: CN102982153A
Application number: CN2012105007826A
Authority: CN
Inventors: 罗峰; 黄苏支; 李娜
Original assignee: BEIJING IZP TECHNOLOGIES Co Ltd
Current assignee: Chongqing Qianbao Technology Service Co., Ltd
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2013-03-20
Anticipated expiration: 2032-11-29
Also published as: CN102982153B

Abstract

本发明公开了一种信息检索方法及其装置，其中，方法包括：对信息库中的每一个信息文件进行分词获取策略词，按照预设的评分标准获取各策略词在各信息文件中的权重；S2、创建倒排索引表，将各策略词在各信息文件中的权重记录在倒排索引表中；S3、当接收到用户检索请求时，提取该检索请求中的特征词；S4、依据各特征词与用户的行为特征的相关性，分别计算各特征词的权重；S5、获取候选信息文件分别计算各候选信息件的总得分；S6、依据总得分对候选信息文件进行排序，将排序在前的候选信息文件推送给用户。本发明使信息文件的推送到更加准确的定位目标受众，使信息文件的推送更有针对性。

Description

一种信息检索方法及其装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息检索方法及其装置、系统。

背景技术

近年来，互联网已成为广告行业的一个重要的媒体途径。许多大的门户网站或搜索引擎网站都提供了投放广告的平台。这些广告投放平台大都基于搜索引擎的原理，根据用户访问浏览器页面的行为对用户进行分类，并根据广告主的投放策略在互联网上选择目标受众来定向投放广告。

广告投放系统中最重要的模块是广告搜索模块，它根据其他模块提取的表征用户兴趣和特征的关键字、分类等信息，寻找期望对该类用户进行广告投放的最匹配广告，并返回该条广告给投放的其他模块，以最终将该广告展示到用户访问的页面上。

图1是现有技术中搜索引擎技术的方法流程图,如图1所示，搜索引擎技术对用户各查询词不做区分，只依赖于各查询词在某文档中出现的频率，以及各查询词在文档集中出现的频率来计算查询词和文档的相关性得分，并根据得分对文档进行排序，以返回最有价值的文档。在广告投放系统中，表征用户特征的各查询词通常有高低之分，例如，一个用户通常拥有多个兴趣组，并属于多种分类，但根据用户近期的访问行为可以对其各个兴趣的高低进行区分，因此如果简单采用搜索引擎系统的评分算法，则无法准确的描述广告的目标受众的特征。

此外搜索引擎通常不对文档中各关键词进行区分，即使区分，也只是对文档的不同域信息赋以不同的权重，并没有详细区分文档中各关键词，而在广告投放系统中，广告中的各关键词通常为广告主绑定的策略信息和竞价关键词，这些信息都有高低之分，例如，某个广告主更关心对某一类用户进行广告投放，他可能会付给该竞价词较高的价格，因此简单的使用搜索引擎的技术无法准确地给出广告主对广告信息的描述。

发明内容

为了解决采用搜索引擎技术来实现广告投放系统的不足，本发明提出了一种信息检索方法，包括：

步骤S1、对信息库中的每一个信息文件进行分词获取策略词，按照预设的评分标准获取各策略词在各信息文件中的权重；

步骤S2、在所述信息库范围内为各策略词创建倒排索引表，将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中；

步骤S3、当接收到用户检索请求时，提取该检索请求中的特征词，依据所述倒排索引表，将包含至少一个所述特征词的信息文件作为候选信息文件，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分；

步骤S4、依据所述总得分对所述候选信息文件进行排序，将排序在前的候选信息文件推送给所述用户。

进一步地，步骤S1中按照预设的评分标准获取各策略词在各信息文件中的权重具体为：

依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重，或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度，将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。

进一步地，所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：

依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重，依据各特征词的权重和所述倒排索引表，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

进一步地，所述分别计算各特征词的权重具体包括：

获取所述用户的检索历史和/或用户属性，将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。

进一步地，步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：候选信息文件D与用户查询中所有特征词Q的相关性总得分等于：

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是预设的常数；

A是特征词i的权重值；

B是特征词i作为策略词对于候选信息文件D的权重值。

根据同一发明构思，本发明还提出了一种信息检索装置，设于服务端，包括如下单元：

倒排索引表创建单元，用于预先对信息库中的每一个信息文件进行分词获取策略词，按照预设的评分标准获取各策略词在各信息文件中的权重，在所述信息库范围内为各策略词创建倒排索引表，将各策略词在各信息文件中的权重、出现次数和出现的位置记录在倒排索引表中；

筛选单元，用于当收到客户端发送的特征词时，依据所述倒排索引表创建单元预先创建的倒排索引表，将包含至少一个所述特征词的信息文件筛选出来作为候选信息文件；

打分单元，用于分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分；

排序单元，用于依据所述总得分对所述候选信息文件进行排序；

文件推送单元，用于将排序在前的候选信息文件推送给所述客户端。

进一步地，所述倒排索引表创建单元按照预设的评分标准获取各策略词在各信息文件中的权重具体为：

进一步地，所述筛选单元还用于对所述提取的特征词计算权重，包括依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重，依据各特征词的权重和所述倒排索引表，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

进一步地，所述筛选单元分别计算各特征词的权重具体包括：获取所述用户的检索历史和/或用户属性，将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。

进一步地，所述筛选单元分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：候选信息文件D与用户查询中所有特征词Q的相关性总得分等于：

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

A是特征词i的权重值；

B是特征词i作为策略词对于候选信息文件D的权重值，可通过查找倒排索引表获得。

本发明的技术方案考虑了各策略词在各信息文件中的重要性不同，对各策图词按照预设的评分标准进行打分来进行推送信息的排序依据，使信息文件的推送到更加准确的定位目标受众，使信息文件的推送更有针对性。

附图说明

图1是现有技术中搜索引擎技术的方法流程图；

图2是本发明具体实施例一所述的信息检索方法流程图；

图3是现有技术中倒排索引表；

图4是本发明的倒排索引表；

图5是本发明具体实施例二所述的信息检索装置结构框图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

图2是本实施例所述的信息检索方法流程图，如图2所示，本实施例所述的信息检索方法包括：

步骤S201、对信息库中的每一个信息文件分词获取策略词，对各策略词进行打分获取各策略词在各信息文件中的权重；

分词是信息提取、信息检索等信息处理领域的基础课题，目前的中文分词算法包括基于规则的分词方法、基于理解的分词方法和基于统计的分词方法，本发明具体选择何种方法进行分词根据于本发明的具体应用方面不同而不同。

以应用于广告推送业务为例，可采用基于统计的分词方法。统计分词需要使用一部基本的分词词典，进行串匹配分词。所述分词词典可源于信息投放主指定的策略词的汇总，当有新的信息投放主投放策略词时，将该投放的策略词中新的策略词补充到民述分词词典中，并在整个信息库中为该策略词创建倒排索引。

或者，所述分词词典可源于从各客户端接收到的检索的特征词统计而来。

对信息库中的每一个信息文件进行分词获取策略词，其分词方法依据信息库的检索功能

其中，各策略词在各信息文件中的权重是按照预设的评分标准来获取，可以分别依据各策略词与各信息文件的相关程度、各信息文件的投放主对各策略词的报价或重视程度等方面来打分，也可以是以某一方面的得分作为各策略词在各信息文件中的权重，也可以综合考虑以上两个或多个方面的权重来综合打分。

例如，依据各信息文件的投放主对各策略词的报价作为各信息文件中各策略词的权重，或者，依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度，将所述给定权重或相似度进行归一化处理后所得值作为各信息文件中各策略词的权重。

其中，归一化是一种简化计算的方式，即将有量纲的表达式经过变换，化为无量纲的表达式，成为纯量，在多种计算中都经常用到这种方法，因为信息文件的投放主对各策略词的报价是建立在同一个度量方式上，所以不需要归一化，直接依据报价高低获取权重因子，不同的信息文件的投放主对各自信息文件里面相同的策略词，报价越高，该信息文件的投放主的信息文件中该策略词的权重因子越大。

而信息文件的投放主对各策略词的给定权重和该策略词与该信息文件的相似度则需要进行归一化，以达到每个信息文件中的策略词的给定权重或与该信息文件的相似度都建立在同一套度量标准之上。

步骤S202、建立包含权重的建倒排索引表；

在所述信息库范围内为各策略词创建倒排索引表，将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中。

图3是现有技术中倒排索引表，如图3所示，索引表中不包括策略词在信息文件中的权重，图4是本发明的倒排索引表，如图4所示，索引表中包括策略词在信息文件中的权重。

步骤S203、当接收到用户检索请求时，提取该检索请求中的特征词；

当接收到用户检索请求时，对请求信息进行分词，提取该检索请求中的特征词。

步骤S204、依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重；

本步骤为非必要步骤，可以跳过本步骤直接执行步骤S205。

其中，权重计算具体包括：获取所述用户的检索历史和/或用户属性，将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。

步骤S205、获取候选信息文件，分别计算各候选信息文件的总得分；

当没有步骤S204时，从所述倒排索引表，查找与用户检索请求中的特征词相同或相近的策略词，将所述倒排索引表中该策略词对应的信息文件挑选出来作为候选信息文件，所述候选文件可包含至少一个的用户检索请求中的特征词即可，即只要某信息文件包含一个特征词即可作为候选信息文件。

分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

其中，所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：候选信息文件D与用户查询中所有特征词Q的相关性总得分等于：

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

或者，当有步骤S204时，依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重；依据所述倒排索引表，将包含至少一个所述特征词的信息文件作为候选信息文件；依据各特征词的权重和所述倒排索引表，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

A是特征词i的权重值；

步骤S206、依据总得分对候选信息文件进行排序，将排序在前的候选信息文件推送给用户。

实施例二

图5是本实施例所述的信息检索装置结构框图，如图5所示，本实施例所述的信息检索装置位于服务器端，包括倒排索引表创建单元501，筛选单元502，打分单元503，排序单元504和文件推送单元505。

下面分别介结各模块：

倒排索引表创建单元501，用于预先对信息库中的每一个信息文件进行分词获取策略词，按照预设的评分标准获取各策略词在各信息文件中的权重，在所述信息库范围内为各策略词创建倒排索引表，将各策略词在各信息文件中的权重、出现次数和出现的位置记录在倒排索引表中。

对信息库中的每一个信息文件进行分词获取策略词，其分词方法依据信息库的检索功能而设定。

按照预设的评分标准获取各策略词在各信息文件中的权重具体为：

本单元中依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重，或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度，将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。

筛选单元502，用于当收到客户端发送的特征词时，依据所述倒排索引表创建单元501预先创建的倒排索引表，将包含至少一个所述特征词的信息文件筛选出来作为候选信息文件。

进一步地，筛选单元502还用于对所述提取的特征词计算权重，包括依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重，依据各特征词的权重和所述倒排索引表，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

筛选单元502分别计算各特征词的权重具体包括：获取所述用户的检索历史和/或用户属性，将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。

打分单元503，用于分别计算每一个所述筛选单元502选出的候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

打分单元503分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：候选信息文件D与用户查询中所有特征词Q的相关性总得分等于：

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

A是特征词i的权重值；

排序单元504，用于依据所述打分单元503获取的总得分对所述候选信息文件进行排序。

文件推送单元505，用于将排序单元504排序后的排序在前的候选信息文件推送给所述客户端。

实施例三

本实施例提出了一种信息检索系统，本实施例所述的信息检索系统包括客户端和服务器端，其中服务器端即为实施例二所述的信息检索装置，具体实施方式参见实施例二；其中所述客户端包括用户特征词提取模块和特征词权重计算模块。

用户特征词提取模块，当接收到用户检索请求时，用于提取该检索请求中的特征词，将所述特征词发送给服务器的评分与排序模块；

其中所述提取特征词的方案为：当接收到用户检索请求时，对请求信息进行分词，提取该检索请求中的特征词。

特征词权重计算模块，与用户特征词提取模块连接，接收所述特征词提取模块的特征词，依据所述各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重；

本模块为非必要步骤，可以跳过本模块。权重计算具体包括：获取所述用户的检索历史和/或用户属性，将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。

当没有特征词权重计算模块时，从所述倒排索引表，查找与用户检索请求中的特征词相同或相近的策略词，将所述倒排索引表中该策略词对应的信息文件挑选出来作为候选信息文件，所述候选文件可包含至少一个的用户检索请求中的特征词即可，即只要某信息文件包含一个特征词即可作为候选信息文件。

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

或者，当有特征词权重计算模块时，依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重；依据所述倒排索引表，将包含至少一个所述特征词的信息文件作为候选信息文件；依据各特征词的权重和所述倒排索引表，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

A是特征词i的权重值；

依据总得分对候选信息文件进行排序，将排序在前的候选信息文件推送给用户。

以上所述计算方法基于BM25算法，同时加入了特征词权重因子和策略词权重因子。

衡量一套搜索方法的原则无外乎准确度和量,基于转移概率的搜索方法虽然得到的量会更多一些，的那是我们认为准确度会有所不足，并不是每组高转移概率的词汇对都会如“中国首都”和“北京”这样同义，可能会有很多无意义的转移词汇对或者根本不相关的词汇对，这将大大降低搜索的效率。基于BM25的搜索方法在准确度上会更胜一筹，它的结果至少保证了是含有给定搜索语句的语素，事实上大部分实用的全文搜索也保证了这一原则。由此对比，我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法，但是实际操作用问题很多，在没有一个相对而言准确且大量的转移词汇对数据库前，基于BM25评分的搜索算法应该是更实用的。

本发明实施例一所述的信息检索方法、实施例二所述的信息检索装置以及实施例三所述的信息检索系统，考虑了信息文件中各策略词在该信息文件中具有差异性，进一步地，考虑了用户检索请求时各检索的特征词的差异性，使信息文件的推送到更加准确的定位目标受众，使信息文件的推送更有针对性。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

上述仅为本发明的较佳实施例及所运用技术原理，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种信息检索方法，其特征在于，包括：

2.如权利要求1所述的信息检索方法，其特征在于，步骤S1中按照预设的评分标准获取各策略词在各信息文件中的权重具体为：

3.如权利要求1或2所述的信息检索方法，其特征在于，所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：

4.如权利要求3所述的信息检索方法，其特征在于，所述分别计算各特征词的权重具体包括：

5.如权利要求4所述的信息检索方法，其特征在于，步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：候选信息文件D与用户查询中所有特征词Q的相关性总得分等于：

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是预设的常数；

A是特征词i的权重值；

B是特征词i作为策略词对于候选信息文件D的权重值。

6.一种信息检索装置，设于服务端，其特征在于，包括如下单元：

7.如权种要求6所述的信息检索装置，其特征在于，所述倒排索引表创建单元按照预设的评分标准获取各策略词在各信息文件中的权重具体为：

8.如权利要求6或7所述的信息检索装置，其特征在于，所述筛选单元还用于对所述提取的特征词计算权重，包括依据各特征词与所述用户的行为特征的相关性，分别计算各特征词的权重，依据各特征词的权重和所述倒排索引表，分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。

9.如权利要求8所述的信息检索装置，其特征在于，所述筛选单元分别计算各特征词的权重具体包括：获取所述用户的检索历史和/或用户属性，将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。

10.如权利要求9所述的信息检索装置，其特征在于，所述筛选单元分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为：候选信息文件D与用户查询中所有特征词Q的相关性总得分等于：

其中，

Q是用户检索请求中的所有特征词集合；

i是Q中一个特征词；

r_i是包含特征词i的相关信息文件数量；

n_i是包含特征词i的信息文件数量；

N是信息库中所有信息文件的数量；

fi是特征词i在候选信息文件D中出现的次数；

qi是特征词i出现在Q中的次数；

K1,K2,K是根据经验预设的常数；

A是特征词i的权重值；