CN102982153A - 一种信息检索方法及其装置 - Google Patents

一种信息检索方法及其装置 Download PDF

Info

Publication number
CN102982153A
CN102982153A CN2012105007826A CN201210500782A CN102982153A CN 102982153 A CN102982153 A CN 102982153A CN 2012105007826 A CN2012105007826 A CN 2012105007826A CN 201210500782 A CN201210500782 A CN 201210500782A CN 102982153 A CN102982153 A CN 102982153A
Authority
CN
China
Prior art keywords
feature words
word
weight
file
tactful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105007826A
Other languages
English (en)
Other versions
CN102982153B (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Qianbao Technology Service Co., Ltd
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN201210500782.6A priority Critical patent/CN102982153B/zh
Publication of CN102982153A publication Critical patent/CN102982153A/zh
Application granted granted Critical
Publication of CN102982153B publication Critical patent/CN102982153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种信息检索方法及其装置,其中,方法包括:对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;S2、创建倒排索引表,将各策略词在各信息文件中的权重记录在倒排索引表中;S3、当接收到用户检索请求时,提取该检索请求中的特征词;S4、依据各特征词与用户的行为特征的相关性,分别计算各特征词的权重;S5、获取候选信息文件分别计算各候选信息件的总得分;S6、依据总得分对候选信息文件进行排序,将排序在前的候选信息文件推送给用户。本发明使信息文件的推送到更加准确的定位目标受众,使信息文件的推送更有针对性。

Description

一种信息检索方法及其装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种信息检索方法及其装置、系统。
背景技术
近年来,互联网已成为广告行业的一个重要的媒体途径。许多大的门户网站或搜索引擎网站都提供了投放广告的平台。这些广告投放平台大都基于搜索引擎的原理,根据用户访问浏览器页面的行为对用户进行分类,并根据广告主的投放策略在互联网上选择目标受众来定向投放广告。
广告投放系统中最重要的模块是广告搜索模块,它根据其他模块提取的表征用户兴趣和特征的关键字、分类等信息,寻找期望对该类用户进行广告投放的最匹配广告,并返回该条广告给投放的其他模块,以最终将该广告展示到用户访问的页面上。
图1是现有技术中搜索引擎技术的方法流程图,如图1所示,搜索引擎技术对用户各查询词不做区分,只依赖于各查询词在某文档中出现的频率,以及各查询词在文档集中出现的频率来计算查询词和文档的相关性得分,并根据得分对文档进行排序,以返回最有价值的文档。在广告投放系统中,表征用户特征的各查询词通常有高低之分,例如,一个用户通常拥有多个兴趣组,并属于多种分类,但根据用户近期的访问行为可以对其各个兴趣的高低进行区分,因此如果简单采用搜索引擎系统的评分算法,则无法准确的描述广告的目标受众的特征。
此外搜索引擎通常不对文档中各关键词进行区分,即使区分,也只是对文档的不同域信息赋以不同的权重,并没有详细区分文档中各关键词,而在广告投放系统中,广告中的各关键词通常为广告主绑定的策略信息和竞价关键词,这些信息都有高低之分,例如,某个广告主更关心对某一类用户进行广告投放,他可能会付给该竞价词较高的价格,因此简单的使用搜索引擎的技术无法准确地给出广告主对广告信息的描述。
发明内容
为了解决采用搜索引擎技术来实现广告投放系统的不足,本发明提出了一种信息检索方法,包括:
步骤S1、对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;
步骤S2、在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中;
步骤S3、当接收到用户检索请求时,提取该检索请求中的特征词,依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;
步骤S4、依据所述总得分对所述候选信息文件进行排序,将排序在前的候选信息文件推送给所述用户。
进一步地,步骤S1中按照预设的评分标准获取各策略词在各信息文件中的权重具体为:
依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。
进一步地,所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:
依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
进一步地,所述分别计算各特征词的权重具体包括:
获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
进一步地,步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900031
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值。
根据同一发明构思,本发明还提出了一种信息检索装置,设于服务端,包括如下单元:
倒排索引表创建单元,用于预先对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重,在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在倒排索引表中;
筛选单元,用于当收到客户端发送的特征词时,依据所述倒排索引表创建单元预先创建的倒排索引表,将包含至少一个所述特征词的信息文件筛选出来作为候选信息文件;
打分单元,用于分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;
排序单元,用于依据所述总得分对所述候选信息文件进行排序;
文件推送单元,用于将排序在前的候选信息文件推送给所述客户端。
进一步地,所述倒排索引表创建单元按照预设的评分标准获取各策略词在各信息文件中的权重具体为:
依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。
进一步地,所述筛选单元还用于对所述提取的特征词计算权重,包括依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
进一步地,所述筛选单元分别计算各特征词的权重具体包括:获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
进一步地,所述筛选单元分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900051
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
本发明的技术方案考虑了各策略词在各信息文件中的重要性不同,对各策图词按照预设的评分标准进行打分来进行推送信息的排序依据,使信息文件的推送到更加准确的定位目标受众,使信息文件的推送更有针对性。
附图说明
图1是现有技术中搜索引擎技术的方法流程图;
图2是本发明具体实施例一所述的信息检索方法流程图;
图3是现有技术中倒排索引表;
图4是本发明的倒排索引表;
图5是本发明具体实施例二所述的信息检索装置结构框图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
图2是本实施例所述的信息检索方法流程图,如图2所示,本实施例所述的信息检索方法包括:
步骤S201、对信息库中的每一个信息文件分词获取策略词,对各策略词进行打分获取各策略词在各信息文件中的权重;
分词是信息提取、信息检索等信息处理领域的基础课题,目前的中文分词算法包括基于规则的分词方法、基于理解的分词方法和基于统计的分词方法,本发明具体选择何种方法进行分词根据于本发明的具体应用方面不同而不同。
以应用于广告推送业务为例,可采用基于统计的分词方法。统计分词需要使用一部基本的分词词典,进行串匹配分词。所述分词词典可源于信息投放主指定的策略词的汇总,当有新的信息投放主投放策略词时,将该投放的策略词中新的策略词补充到民述分词词典中,并在整个信息库中为该策略词创建倒排索引。
或者,所述分词词典可源于从各客户端接收到的检索的特征词统计而来。
对信息库中的每一个信息文件进行分词获取策略词,其分词方法依据信息库的检索功能
其中,各策略词在各信息文件中的权重是按照预设的评分标准来获取,可以分别依据各策略词与各信息文件的相关程度、各信息文件的投放主对各策略词的报价或重视程度等方面来打分,也可以是以某一方面的得分作为各策略词在各信息文件中的权重,也可以综合考虑以上两个或多个方面的权重来综合打分。
例如,依据各信息文件的投放主对各策略词的报价作为各信息文件中各策略词的权重,或者,依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各信息文件中各策略词的权重。
其中,归一化是一种简化计算的方式,即将有量纲的表达式经过变换,化为无量纲的表达式,成为纯量,在多种计算中都经常用到这种方法,因为信息文件的投放主对各策略词的报价是建立在同一个度量方式上,所以不需要归一化,直接依据报价高低获取权重因子,不同的信息文件的投放主对各自信息文件里面相同的策略词,报价越高,该信息文件的投放主的信息文件中该策略词的权重因子越大。
而信息文件的投放主对各策略词的给定权重和该策略词与该信息文件的相似度则需要进行归一化,以达到每个信息文件中的策略词的给定权重或与该信息文件的相似度都建立在同一套度量标准之上。
步骤S202、建立包含权重的建倒排索引表;
在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中。
图3是现有技术中倒排索引表,如图3所示,索引表中不包括策略词在信息文件中的权重,图4是本发明的倒排索引表,如图4所示,索引表中包括策略词在信息文件中的权重。
步骤S203、当接收到用户检索请求时,提取该检索请求中的特征词;
当接收到用户检索请求时,对请求信息进行分词,提取该检索请求中的特征词。
步骤S204、依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重;
本步骤为非必要步骤,可以跳过本步骤直接执行步骤S205。
其中,权重计算具体包括:获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
步骤S205、获取候选信息文件,分别计算各候选信息文件的总得分;
当没有步骤S204时,从所述倒排索引表,查找与用户检索请求中的特征词相同或相近的策略词,将所述倒排索引表中该策略词对应的信息文件挑选出来作为候选信息文件,所述候选文件可包含至少一个的用户检索请求中的特征词即可,即只要某信息文件包含一个特征词即可作为候选信息文件。
分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
其中,所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900091
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
或者,当有步骤S204时,依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重;依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件;依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
其中,所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900101
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
步骤S206、依据总得分对候选信息文件进行排序,将排序在前的候选信息文件推送给用户。
实施例二
图5是本实施例所述的信息检索装置结构框图,如图5所示,本实施例所述的信息检索装置位于服务器端,包括倒排索引表创建单元501,筛选单元502,打分单元503,排序单元504和文件推送单元505。
下面分别介结各模块:
倒排索引表创建单元501,用于预先对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重,在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在倒排索引表中。
分词是信息提取、信息检索等信息处理领域的基础课题,目前的中文分词算法包括基于规则的分词方法、基于理解的分词方法和基于统计的分词方法,本发明具体选择何种方法进行分词根据于本发明的具体应用方面不同而不同。
以应用于广告推送业务为例,可采用基于统计的分词方法。统计分词需要使用一部基本的分词词典,进行串匹配分词。所述分词词典可源于信息投放主指定的策略词的汇总,当有新的信息投放主投放策略词时,将该投放的策略词中新的策略词补充到民述分词词典中,并在整个信息库中为该策略词创建倒排索引。
或者,所述分词词典可源于从各客户端接收到的检索的特征词统计而来。
对信息库中的每一个信息文件进行分词获取策略词,其分词方法依据信息库的检索功能而设定。
其中,各策略词在各信息文件中的权重是按照预设的评分标准来获取,可以分别依据各策略词与各信息文件的相关程度、各信息文件的投放主对各策略词的报价或重视程度等方面来打分,也可以是以某一方面的得分作为各策略词在各信息文件中的权重,也可以综合考虑以上两个或多个方面的权重来综合打分。
例如,依据各信息文件的投放主对各策略词的报价作为各信息文件中各策略词的权重,或者,依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各信息文件中各策略词的权重。
其中,归一化是一种简化计算的方式,即将有量纲的表达式经过变换,化为无量纲的表达式,成为纯量,在多种计算中都经常用到这种方法,因为信息文件的投放主对各策略词的报价是建立在同一个度量方式上,所以不需要归一化,直接依据报价高低获取权重因子,不同的信息文件的投放主对各自信息文件里面相同的策略词,报价越高,该信息文件的投放主的信息文件中该策略词的权重因子越大。
而信息文件的投放主对各策略词的给定权重和该策略词与该信息文件的相似度则需要进行归一化,以达到每个信息文件中的策略词的给定权重或与该信息文件的相似度都建立在同一套度量标准之上。
图3是现有技术中倒排索引表,如图3所示,索引表中不包括策略词在信息文件中的权重,图4是本发明的倒排索引表,如图4所示,索引表中包括策略词在信息文件中的权重。
按照预设的评分标准获取各策略词在各信息文件中的权重具体为:
本单元中依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。
筛选单元502,用于当收到客户端发送的特征词时,依据所述倒排索引表创建单元501预先创建的倒排索引表,将包含至少一个所述特征词的信息文件筛选出来作为候选信息文件。
进一步地,筛选单元502还用于对所述提取的特征词计算权重,包括依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
筛选单元502分别计算各特征词的权重具体包括:获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
打分单元503,用于分别计算每一个所述筛选单元502选出的候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
打分单元503分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900131
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
排序单元504,用于依据所述打分单元503获取的总得分对所述候选信息文件进行排序。
文件推送单元505,用于将排序单元504排序后的排序在前的候选信息文件推送给所述客户端。
实施例三
本实施例提出了一种信息检索系统,本实施例所述的信息检索系统包括客户端和服务器端,其中服务器端即为实施例二所述的信息检索装置,具体实施方式参见实施例二;其中所述客户端包括用户特征词提取模块和特征词权重计算模块。
用户特征词提取模块,当接收到用户检索请求时,用于提取该检索请求中的特征词,将所述特征词发送给服务器的评分与排序模块;
其中所述提取特征词的方案为:当接收到用户检索请求时,对请求信息进行分词,提取该检索请求中的特征词。
特征词权重计算模块,与用户特征词提取模块连接,接收所述特征词提取模块的特征词,依据所述各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重;
本模块为非必要步骤,可以跳过本模块。权重计算具体包括:获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
当没有特征词权重计算模块时,从所述倒排索引表,查找与用户检索请求中的特征词相同或相近的策略词,将所述倒排索引表中该策略词对应的信息文件挑选出来作为候选信息文件,所述候选文件可包含至少一个的用户检索请求中的特征词即可,即只要某信息文件包含一个特征词即可作为候选信息文件。
分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
其中,所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900151
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
或者,当有特征词权重计算模块时,依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重;依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件;依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
其中,所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure BDA00002493120900161
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
依据总得分对候选信息文件进行排序,将排序在前的候选信息文件推送给用户。
以上所述计算方法基于BM25算法,同时加入了特征词权重因子和策略词权重因子。
衡量一套搜索方法的原则无外乎准确度和量,基于转移概率的搜索方法虽然得到的量会更多一些,的那是我们认为准确度会有所不足,并不是每组高转移概率的词汇对都会如“中国首都”和“北京”这样同义,可能会有很多无意义的转移词汇对或者根本不相关的词汇对,这将大大降低搜索的效率。基于BM25的搜索方法在准确度上会更胜一筹,它的结果至少保证了是含有给定搜索语句的语素,事实上大部分实用的全文搜索也保证了这一原则。由此对比,我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法,但是实际操作用问题很多,在没有一个相对而言准确且大量的转移词汇对数据库前,基于BM25评分的搜索算法应该是更实用的。
本发明实施例一所述的信息检索方法、实施例二所述的信息检索装置以及实施例三所述的信息检索系统,考虑了信息文件中各策略词在该信息文件中具有差异性,进一步地,考虑了用户检索请求时各检索的特征词的差异性,使信息文件的推送到更加准确的定位目标受众,使信息文件的推送更有针对性。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
上述仅为本发明的较佳实施例及所运用技术原理,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种信息检索方法,其特征在于,包括:
步骤S1、对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重;
步骤S2、在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在所述倒排索引表中;
步骤S3、当接收到用户检索请求时,提取该检索请求中的特征词,依据所述倒排索引表,将包含至少一个所述特征词的信息文件作为候选信息文件,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;
步骤S4、依据所述总得分对所述候选信息文件进行排序,将排序在前的候选信息文件推送给所述用户。
2.如权利要求1所述的信息检索方法,其特征在于,步骤S1中按照预设的评分标准获取各策略词在各信息文件中的权重具体为:
依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。
3.如权利要求1或2所述的信息检索方法,其特征在于,所述步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:
依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
4.如权利要求3所述的信息检索方法,其特征在于,所述分别计算各特征词的权重具体包括:
获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
5.如权利要求4所述的信息检索方法,其特征在于,步骤S3中所述分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure FDA00002493120800021
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值。
6.一种信息检索装置,设于服务端,其特征在于,包括如下单元:
倒排索引表创建单元,用于预先对信息库中的每一个信息文件进行分词获取策略词,按照预设的评分标准获取各策略词在各信息文件中的权重,在所述信息库范围内为各策略词创建倒排索引表,将各策略词在各信息文件中的权重、出现次数和出现的位置记录在倒排索引表中;
筛选单元,用于当收到客户端发送的特征词时,依据所述倒排索引表创建单元预先创建的倒排索引表,将包含至少一个所述特征词的信息文件筛选出来作为候选信息文件;
打分单元,用于分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分;
排序单元,用于依据所述总得分对所述候选信息文件进行排序;
文件推送单元,用于将排序在前的候选信息文件推送给所述客户端。
7.如权种要求6所述的信息检索装置,其特征在于,所述倒排索引表创建单元按照预设的评分标准获取各策略词在各信息文件中的权重具体为:
依据各信息文件的投放主对各策略词的报价作为各策略词在各信息文件中的权重,或依据各信息文件的投放主对各策略词的给定权重和/或该策略词与该信息文件的相似度,将所述给定权重或相似度进行归一化处理后所得值作为各策略词在各信息文件中的权重。
8.如权利要求6或7所述的信息检索装置,其特征在于,所述筛选单元还用于对所述提取的特征词计算权重,包括依据各特征词与所述用户的行为特征的相关性,分别计算各特征词的权重,依据各特征词的权重和所述倒排索引表,分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分。
9.如权利要求8所述的信息检索装置,其特征在于,所述筛选单元分别计算各特征词的权重具体包括:获取所述用户的检索历史和/或用户属性,将各特征词在所述检索历史中出现的频率作为特征词的权重和/或将所述用户属性与各特征词的相关度作为特征词的权重。
10.如权利要求9所述的信息检索装置,其特征在于,所述筛选单元分别计算每一个所述候选信息文件与所述用户检索请求中的所有特征词的相关程度的总得分具体为:候选信息文件D与用户查询中所有特征词Q的相关性总得分等于:
Figure FDA00002493120800041
其中,
Q是用户检索请求中的所有特征词集合;
i是Q中一个特征词;
ri是包含特征词i的相关信息文件数量;
ni是包含特征词i的信息文件数量;
N是信息库中所有信息文件的数量;
R是和特征词i作为策略词在倒排索引表中对应的相关信息文件数量;
fi是特征词i在候选信息文件D中出现的次数;
qi是特征词i出现在Q中的次数;
K1,K2,K是根据经验预设的常数;
A是特征词i的权重值;
B是特征词i作为策略词对于候选信息文件D的权重值,可通过查找倒排索引表获得。
CN201210500782.6A 2012-11-29 2012-11-29 一种信息检索方法及其装置 Active CN102982153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210500782.6A CN102982153B (zh) 2012-11-29 2012-11-29 一种信息检索方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210500782.6A CN102982153B (zh) 2012-11-29 2012-11-29 一种信息检索方法及其装置

Publications (2)

Publication Number Publication Date
CN102982153A true CN102982153A (zh) 2013-03-20
CN102982153B CN102982153B (zh) 2016-03-23

Family

ID=47856170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210500782.6A Active CN102982153B (zh) 2012-11-29 2012-11-29 一种信息检索方法及其装置

Country Status (1)

Country Link
CN (1) CN102982153B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218445A (zh) * 2013-04-22 2013-07-24 亿赞普(北京)科技有限公司 一种移动终端信息推送方法及装置
CN103955842A (zh) * 2014-04-14 2014-07-30 武汉烽火普天信息技术有限公司 一种面向大规模媒体数据的在线广告推荐系统及方法
CN104424341A (zh) * 2013-09-11 2015-03-18 北大方正集团有限公司 资源推荐装置和资源推荐方法
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN105117385A (zh) * 2015-09-09 2015-12-02 北京中润普达信息技术有限公司 一种以矩阵计算为基础进行舆论信息抽取的方法及系统
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN106127512A (zh) * 2016-06-21 2016-11-16 南阳柯丽尔科技有限公司 基于自助打印的广告推荐方法和广告推荐系统
CN106940788A (zh) * 2017-03-07 2017-07-11 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN107918618A (zh) * 2016-10-10 2018-04-17 腾讯科技(北京)有限公司 数据处理方法及装置
CN108133058A (zh) * 2014-04-30 2018-06-08 海信集团有限公司 一种视频检索方法
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN108228794A (zh) * 2017-12-29 2018-06-29 三角兽(北京)科技有限公司 信息管理装置、信息处理装置及自动回复/评论方法
CN108228648A (zh) * 2016-12-21 2018-06-29 伊姆西Ip控股有限责任公司 创建索引的方法和设备
CN109376270A (zh) * 2018-09-26 2019-02-22 青岛聚看云科技有限公司 一种数据检索方法和装置
CN109840275A (zh) * 2019-01-31 2019-06-04 北京嘉和美康信息技术有限公司 一种医疗搜索语句的处理方法、装置和设备
CN110334269A (zh) * 2019-07-11 2019-10-15 中国船舶工业综合技术经济研究院 一种信息检索方法及系统
CN110737698A (zh) * 2019-10-15 2020-01-31 重庆浪尖至简物联网科技有限公司 一种基于问题描述的问题相关信息推荐方法
CN111104583A (zh) * 2018-10-10 2020-05-05 武汉斗鱼网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN111444304A (zh) * 2019-01-17 2020-07-24 北京京东尚科信息技术有限公司 搜索排序的方法和装置
CN111444406A (zh) * 2020-03-26 2020-07-24 安徽博约信息科技股份有限公司 一种爬虫正文匹配方法
CN111831928A (zh) * 2019-09-17 2020-10-27 北京嘀嘀无限科技发展有限公司 一种poi排序方法及装置
CN112988980A (zh) * 2021-05-12 2021-06-18 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质
CN113495947A (zh) * 2020-04-08 2021-10-12 中国移动通信集团安徽有限公司 工单搜索方法、装置及计算设备
CN113505196A (zh) * 2021-06-30 2021-10-15 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN113704408A (zh) * 2021-08-31 2021-11-26 工银科技有限公司 检索方法、装置、电子设备、存储介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
CN101826075A (zh) * 2009-03-06 2010-09-08 刘金莉 一种基于语言模型的排序算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206752A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 电子商务网站相关商品推荐系统及其方法
CN101826075A (zh) * 2009-03-06 2010-09-08 刘金莉 一种基于语言模型的排序算法
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218445A (zh) * 2013-04-22 2013-07-24 亿赞普(北京)科技有限公司 一种移动终端信息推送方法及装置
CN104424341A (zh) * 2013-09-11 2015-03-18 北大方正集团有限公司 资源推荐装置和资源推荐方法
CN104636334A (zh) * 2013-11-06 2015-05-20 阿里巴巴集团控股有限公司 一种关键词推荐方法和装置
CN103955842B (zh) * 2014-04-14 2017-03-29 武汉烽火普天信息技术有限公司 一种面向大规模媒体数据的在线广告推荐系统及方法
CN103955842A (zh) * 2014-04-14 2014-07-30 武汉烽火普天信息技术有限公司 一种面向大规模媒体数据的在线广告推荐系统及方法
CN108133058A (zh) * 2014-04-30 2018-06-08 海信集团有限公司 一种视频检索方法
CN108133058B (zh) * 2014-04-30 2022-02-18 海信集团有限公司 一种视频检索方法
CN105117385B (zh) * 2015-09-09 2017-12-19 北京中润普达信息技术有限公司 一种以矩阵计算为基础进行舆论信息抽取的方法及系统
CN105117385A (zh) * 2015-09-09 2015-12-02 北京中润普达信息技术有限公司 一种以矩阵计算为基础进行舆论信息抽取的方法及系统
CN105354321A (zh) * 2015-11-16 2016-02-24 中国建设银行股份有限公司 一种查询数据处理方法和装置
CN106127512A (zh) * 2016-06-21 2016-11-16 南阳柯丽尔科技有限公司 基于自助打印的广告推荐方法和广告推荐系统
CN107918618A (zh) * 2016-10-10 2018-04-17 腾讯科技(北京)有限公司 数据处理方法及装置
CN108228648A (zh) * 2016-12-21 2018-06-29 伊姆西Ip控股有限责任公司 创建索引的方法和设备
US11429648B2 (en) 2016-12-21 2022-08-30 EMC IP Holding Company LLC Method and device for creating an index
CN106940788A (zh) * 2017-03-07 2017-07-11 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
WO2018161917A1 (zh) * 2017-03-07 2018-09-13 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN106940788B (zh) * 2017-03-07 2020-05-29 百度在线网络技术(北京)有限公司 智能评分方法及装置、计算机设备及计算机可读介质
CN108228794A (zh) * 2017-12-29 2018-06-29 三角兽(北京)科技有限公司 信息管理装置、信息处理装置及自动回复/评论方法
CN108197315A (zh) * 2018-02-01 2018-06-22 中控技术(西安)有限公司 一种建立分词索引库的方法和装置
CN109376270A (zh) * 2018-09-26 2019-02-22 青岛聚看云科技有限公司 一种数据检索方法和装置
CN111104583A (zh) * 2018-10-10 2020-05-05 武汉斗鱼网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN111104583B (zh) * 2018-10-10 2024-01-05 河南星易网络科技有限公司 一种直播间推荐方法、存储介质、电子设备及系统
CN111444304A (zh) * 2019-01-17 2020-07-24 北京京东尚科信息技术有限公司 搜索排序的方法和装置
CN109840275A (zh) * 2019-01-31 2019-06-04 北京嘉和美康信息技术有限公司 一种医疗搜索语句的处理方法、装置和设备
CN110334269A (zh) * 2019-07-11 2019-10-15 中国船舶工业综合技术经济研究院 一种信息检索方法及系统
CN110334269B (zh) * 2019-07-11 2021-05-07 中国船舶工业综合技术经济研究院 一种信息检索方法及系统
CN111831928A (zh) * 2019-09-17 2020-10-27 北京嘀嘀无限科技发展有限公司 一种poi排序方法及装置
CN110737698A (zh) * 2019-10-15 2020-01-31 重庆浪尖至简物联网科技有限公司 一种基于问题描述的问题相关信息推荐方法
CN111444406A (zh) * 2020-03-26 2020-07-24 安徽博约信息科技股份有限公司 一种爬虫正文匹配方法
CN113495947A (zh) * 2020-04-08 2021-10-12 中国移动通信集团安徽有限公司 工单搜索方法、装置及计算设备
CN112988980A (zh) * 2021-05-12 2021-06-18 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质
CN112988980B (zh) * 2021-05-12 2021-07-30 太平金融科技服务(上海)有限公司 目标产品查询方法、装置、计算机设备和存储介质
CN113505196A (zh) * 2021-06-30 2021-10-15 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN113505196B (zh) * 2021-06-30 2024-01-30 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN113704408A (zh) * 2021-08-31 2021-11-26 工银科技有限公司 检索方法、装置、电子设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN102982153B (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN102982153B (zh) 一种信息检索方法及其装置
Hillard et al. Improving ad relevance in sponsored search
US8504550B2 (en) Social network message categorization systems and methods
US8554854B2 (en) Systems and methods for identifying terms relevant to web pages using social network messages
US9542476B1 (en) Refining search queries
US9317613B2 (en) Large scale entity-specific resource classification
US8311957B2 (en) Method and system for developing a classification tool
CN103246670B (zh) 微博排序、搜索、展示方法和系统
Sarawagi et al. Open-domain quantity queries on web tables: annotation, response, and consensus models
CN106095949A (zh) 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统
CN105095187A (zh) 一种搜索意图识别方法及装置
CN104428767A (zh) 相关实体
US8793252B2 (en) Systems and methods for contextual analysis and segmentation using dynamically-derived topics
CN103838756A (zh) 一种确定推送信息的方法及装置
Cortez et al. Ondux: on-demand unsupervised learning for information extraction
CN102103603A (zh) 用户行为数据分析方法和装置
CN103577416A (zh) 扩展查询方法及系统
CN103577462A (zh) 一种文档分类方法及装置
CN102428467A (zh) 用于分类的基于相似度的特征集补充
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN103853789A (zh) 一种用于向用户推荐信息的方法和设备
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN103745380A (zh) 一种广告投放方法和装置
KR100876214B1 (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
Kae et al. Categorization of display ads using image and landing page features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201014

Address after: 28-2, building 2, Zhongyu Plaza, No. 90, Hongjin Avenue, Longxi street, Yubei District, Chongqing

Patentee after: Chongqing Qianbao Technology Service Co., Ltd

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: BEIJING IZP NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right