CN103365910B - 一种信息检索的方法和系统 - Google Patents

一种信息检索的方法和系统 Download PDF

Info

Publication number
CN103365910B
CN103365910B CN201210099720.9A CN201210099720A CN103365910B CN 103365910 B CN103365910 B CN 103365910B CN 201210099720 A CN201210099720 A CN 201210099720A CN 103365910 B CN103365910 B CN 103365910B
Authority
CN
China
Prior art keywords
query
high frequency
vocabulary
extension
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210099720.9A
Other languages
English (en)
Other versions
CN103365910A (zh
Inventor
姚伶伶
赫南
王迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210099720.9A priority Critical patent/CN103365910B/zh
Publication of CN103365910A publication Critical patent/CN103365910A/zh
Application granted granted Critical
Publication of CN103365910B publication Critical patent/CN103365910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种信息检索的方法和系统,方法包括:基于检索串(query)的扩展对基础检索串分析(QA)词表进行二次映射过程,生成二级映射的QA词表;其中,基础QA词表包括高频query到关键词的映射,二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;根据获取的信息检索请求中的检索串,进行二级映射的QA词表的查找,得到该检索串命中的关键词,并提取该关键词对应的互联网发布信息作为检索结果。通过本发明,能够提高信息检索结果对互联网发布信息的覆盖率。

Description

一种信息检索的方法和系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息检索的方法和系统。
背景技术
在现有的信息检索发布系统中,按照传统网页搜索的检索方法、即按照检索串(query)中多个核心语素的“与”操作进行检索,例如:某个检索串包含A、B、C这三个核心语素,那么按照传统网页搜索的检索方法,即是按照A、B、C的“与”操作进行检索,也就是能同时匹配到A、B、C这三个核心语素的互联网发布信息才会被检索出来,作为检索结果。
上述检索方法会导致大量的匹配无结果,因此,目前的做法是扩展匹配端,在离线情况下按照一定的时间窗口从用户检索日志(query log)中筛选出高频query(即出现频率高于一定阈值的query);通过语义分析服务模块,获取这些query的网页搜索结果并分析其特征;同时对每一个筛选的query,通过整合各query扩展结果和关键词扩展,生成最初的关键词候选列表,该列表中包括用于匹配query的关键词。然后,query关键词映射子系统为每一对query和关键词计算各种用于衡量两者相关度的特征,包括各种文本相似度、语义相似度等。最后,对每一对query和关键词及其各种特征,进行相关度预测,按照相关度得分对候选关键词筛选和排序,得到query的最终关键词映射表,即QA(Query Analysis,检索串分析)词表。其中,QA词表是指query到关键词的hash(哈希)词表,该词表的左键为一定的时间窗口内的query log所统计出来的高频query,右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列,即QA词表维护的是高频query与关键词的映射关系。在检索端进行query分析并匹配互联网发布信息时,会从QA词表中查找query所对应的关键词,然后在关键词-互联网发布信息索引中找到相应的互联网发布信息作为检索结果。
然而,在现有的检索方法和系统中,query只有精确命中QA词表,才能匹配出相应的关键词,并未充分利用query之间的相关性,从而导致检索结果对互联网发布信息的覆盖率较低。
发明内容
有鉴于此,本发明的主要目的在于提供一种信息检索的方法和系统,以充分利用query之间的相关性,提高信息检索结果对互联网发布信息的覆盖率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种信息检索的方法,该方法包括:
基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
较佳的,所述query的扩展具体为:
依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
较佳的,所述基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体为:
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
较佳的,该方法进一步包括:根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。
较佳的,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
较佳的,所述根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,具体为:
根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
较佳的,该方法进一步包括:
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
本发明还提供了一种信息检索的系统,该系统包括:
二级映射词表生成模块,用于基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
信息检索模块,用于根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
较佳的,所述二级映射词表生成模块进一步用于,依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
较佳的,所述二级映射词表生成模块进一步用于,
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
较佳的,所述二级映射词表生成模块进一步用于,根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query和高频query对的第i个特征值,wi表示第i个特征的权重。
较佳的,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
较佳的,所述信息检索模块进一步用于,根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
较佳的,所述信息检索模块进一步用于,
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
本发明所提供的一种信息检索的方法和系统,丰富了QA词表的左键入口,可以更加充分地利用基础QA词表,提升信息检索对互联网发布信息的覆盖率,提高信息检索的准确率,提高检索性能。
附图说明
图1为本发明实施例的一种信息检索的方法流程图;
图2为本发明实施例中二级映射的QA词表的结构示意图;
图3为本发明实施例中根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度的过程示意图;
图4为图1所示的步骤101的具体执行过程的示意图;
图5为图1所示的步骤102具体执行过程的示意图;
图6为本发明实施例的一种信息检索的系统结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明实施例提供的一种信息检索的方法如图1所示,主要包括以下步骤:
步骤101,基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表;其中,基础QA词表包括高频query到关键词的映射,二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射。
所谓基础QA词表,是指query到关键词的hash词表,该词表的左键为一定的时间窗口内的query log所统计出来的高频query,右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列,即基础QA词表维护的是高频query与关键词(或关键词系列)的映射关系。该基础QA词表可以通过专门的QBM(检索串关键词合并)模块离线处理得到。
所谓互联网发布信息,是指互联网信息发布方通过信息检索发布系统发布的信息,包括:地理信息、人文信息、商户信息等等。这些互联网发布信息通过专门的数据库存储。
其中,query的扩展处理后得到多个query相关系列,query的扩展可以采用以下方式的至少之一:
一、依据一定的时间窗口内的query log,采用基于会话(session)的query扩展;
二、依据一定的时间窗口内的query log,采用基于互联网发布信息互点击的query扩展;
三、依据一定的时间窗口内的query log,采用基于相关搜索的query扩展。
基于session的query扩展,主要包括以下操作:先对检索日志中的query进行归一化和噪声词汇过滤处理;然后,将同一个用户在一段连续时间里检索过的query归并为一个query系列,统计每个query在一天的日志里出现的次数,以及每任意两个query在一天的日志中出现在同一个query系列的次数;在一个大时间区间里(例如1个月),将上面得到的每一天的query系列以及统计的频次信息合并起来,利用似然比公式计算query之间的似然比特征值LLR,并利用此特征值对query扩展结果进行过滤(例如,LLR小于预设阈值的query相关系列被过滤);最后将多天的query扩展结果排重合并,并按照似然比特征值对query扩展结果排序,得到query相关系列。似然比公式如下:
LLR=logb(c12;c1,p)+logb(c2-c12;N-c1,p)
-logb(c12;c1,p1)-logb(c2-c12;N-c1,p2)
其中,
c1为query1在大时间区间里出现的总频次,c1为query2在大时间区间里出现的总频次,c12为query1与query2同时出现在一个query相关系列的总频次,N为大时间区间里所有query的总频次。
基于互联网发布信息互点击的query扩展,主要包括以下操作:由于在信息检索发布系统中触发了同一条互联网发布信息展示的不同query之间可能是有联系的,如果这样的互联网发布信息还会被共同点击,则不同的query间可能蕴含着相同的意图;因此,基于互联网发布信息的点击日志,可以将触发了同一条互联网发布信息展示的不同query聚合在一起,组成一个query相关系列。例如:搜索queryA时会有几条互联网发布信息展示,搜索queryB时也会有几条互联网发布信息展示,如果搜索queryA和搜索queryB时展示的互联网发布信息中存在相同的互联网发布信息,且此相同的互联网发布信息都被用户点击,则认为queryA和queryB是存在相关性的,从而将queryA和queryB聚合到一个query相关系列中。
基于相关搜索的query扩展,主要包括以下操作:搜索引擎在响应用户查询请求时,会“猜测”用户可能的检索意图,针对检索query自动进行一些扩展;例如:用户搜索“刘德华”,搜索引擎返回自然结果的同时,还会将相关的检索query呈现给用户,如“刘德华电影”、“刘德华演唱会”、“刘德华微博”等;用户搜索“玫瑰花”,搜索引擎返回自然结果的同时,还会将相关的检索query呈现给用户,如“鲜花”、“白玫瑰”、“蓝玫瑰”、“黄玫瑰”等等。利用搜索引擎的这种智能提示,可以对高频query进行扩展,得到对应的query相关系列。
基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体包括:
对于上述query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据最终的第一级映射和基础QA词表,生成二级映射的QA词表。
生成的二级映射的QA词表参见图2,在图2所示的QA词表中,第一级映射为扩展query到高频query的映射,第一级映射的左键为扩展query,右键为高频query;第二级映射为高频query到关键词(或关键词系列)的映射,第二级映射的左键为高频query,右键为关键词(或关键词系列)。其中,基础QA词表即作为第二级映射,二级映射的QA词表中需保证第一级映射的左键在第二级映射的左键中未出现,第一级映射的右键在第二级映射的左键中出现。
需要说明的是,本发明的实施例可以根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度,当然,本发明实施例中计算初始的第一级映射中的各扩展query与相应高频query的相似度的方法并不仅限于此,实际应用中任何能够用于计算得到以上相似度的方法应当都属于本发明实施例的保护范围。
其中,根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度的具体操作过程,如图3所示,具体包括:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择(如增加特征、删除特征、进行特征组合等等),得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式(将初始的第一级映射中的各扩展query到高频query映射的特征值代入下式)计算初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。
所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语(term)率、编辑距离、最长公共子串。
其中,tanimoto系数A、B表示任意两个query;
字面相似度A、B表示任意两个query;
共同term率=切词后A与B共有的短语个数×2/切词后A与B的短语个数总和,A、B表示任意两个query;
编辑距离,又称Levenshtein距离,是指两个字串之间由一个转成另一个所需的最少编辑操作次数;
最长公共子串:一个序列S,如果分别是两个已知字符序列(如A、B)的子序列,且是所有符合此条件序列中最长的,则S称为两个已知字符序列的最长公共子序列,可以用于描述两个字符系列之间的相似度。
步骤101的详细操作可参见图4所示的示意图,依据一定的时间窗口内的querylog,采用基于session的query扩展、基于互联网发布信息互点击的query扩展和基于相关搜索的query扩展,并将扩展query的结果合并得到多个query相关系列;然后,对于每一个query相关系列,基于基础QA词表进行二次映射过程,生成二级映射的QA词表。在进行二次映射过程中需要用到相关性逻辑回归模型,具体执行过程参见前述说明。
步骤102,根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
二级映射的QA词表查找的具体操作为:根据信息检索请求中的检索串查找二级映射的QA词表中的第一级映射,获取与检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
作为本发明的一种优选实施例,还可以根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;如果未匹配到所述基础QA词表中的高频query,则再进行所述二级映射的QA词表的查找。如果信息检索请求中的检索串在基础QA词表和二级映射的QA词表中都未命中到相应的关键词,则可以选择其他可行的命中关键词的方法继续进行。具体操作过程参见图5。
对应上述信息检索的方法,本发明实施例还提供了一种信息检索的系统,如图6所示,主要包括:二级映射词表生成模块10和信息检索模块20;其中,
二级映射词表生成模块10,用于基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
信息检索模块20,用于根据获取的信息检索请求中的检索串,进行二级映射的QA词表的查找,得到该检索串命中的关键词,并提取该关键词对应的互联网发布信息作为检索结果。
较佳的,二级映射词表生成模块10可进一步用于,依据检索日志,采用基于session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
较佳的,二级映射词表生成模块10还可进一步用于,对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;计算初始的第一级映射中的各扩展query与高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;根据最终的第一级映射和基础QA词表,生成二级映射的QA词表。
较佳的,二级映射词表生成模块10还可进一步用于,根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query和高频query对的第i个特征值,wi表示第i个特征的权重。
所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:扩展query与对应高频query之间的tanimoto系数、字面相似度、共同term率、编辑距离、最长公共子串。
较佳的,信息检索模块20可进一步用于,根据信息检索请求中的检索串查找二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
较佳的,信息检索模块20还可进一步用于,根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到基础QA词表中的高频query,则提取基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行二级映射的QA词表的查找;
如果未匹配到基础QA词表中的高频query,则进行二级映射的QA词表的查找。
另外,作为本发明的一种优选实施方式,信息检索的系统还可以添加一个实时的检索串重写模块(图6中未示出),连接信息检索模块20,用于对通过上述方法未能命中到关键词的检索串进行适当的变型(例如删除检索串中的若干核心元素)后,重新送入信息检索模块20执行新一轮的检索流程;依此类推,直到命中到关键词。
综上所述,本发明实施例利用基于session的query扩展、基于互联网发布信息互点击的query扩展、基于相关搜索的query扩展等方法,在query集合中建立一个关联的query网络;然后对query之间的相关性进行校验,提取出高质量的关联query。在具体实现中采用hash map数据结构来表示这种关联关系,该map的右键(map value)为一定的时间窗口中从用户检索日志中筛选出的高频query,该map的左键(map key)为高频query相关的扩展query。而高频query与关键词的映射关系可以通过QBM模块离线处理得到。这样就形成了一个二级映射的QA词表,相当于对原有基础QA词表的左键进行了扩充;该二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射。本发明的实施例丰富了QA词表的左键入口,可以更加充分地利用基础QA词表,提升互联网发布信息的覆盖率。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种信息检索的方法,其特征在于,该方法包括:
基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果;
所述基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体为:
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
2.根据权利要求1所述信息检索的方法,其特征在于,所述query的扩展具体为:
依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
3.根据权利要求1所述信息检索的方法,其特征在于,该方法进一步包括:根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
S c o r e ( q 1 , q 2 ) = 1 1 + e - Σ i = 1 n w i f i ( q 1 , q 2 )
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。
4.根据权利要求3所述信息检索的方法,其特征在于,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
5.根据权利要求1至4任一项所述信息检索的方法,其特征在于,所述根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,具体为:
根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
6.根据权利要求5所述信息检索的方法,其特征在于,该方法进一步包括:
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
7.一种信息检索的系统,其特征在于,该系统包括:
二级映射词表生成模块,用于基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
信息检索模块,用于根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果;
所述二级映射词表生成模块进一步用于,
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
8.根据权利要求7所述信息检索的系统,其特征在于,所述二级映射词表生成模块进一步用于,依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
9.根据权利要求7所述信息检索的系统,其特征在于,所述二级映射词表生成模块进一步用于,根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
S c o r e ( q 1 , q 2 ) = 1 1 + e - Σ i = 1 n w i f i ( q 1 , q 2 )
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query和高频query对的第i个特征值,wi表示第i个特征的权重。
10.根据权利要求9所述信息检索的系统,其特征在于,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
11.根据权利要求7至10任一项所述信息检索的系统,其特征在于,所述信息检索模块进一步用于,根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
12.根据权利要求11所述信息检索的系统,其特征在于,所述信息检索模块进一步用于,
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
CN201210099720.9A 2012-04-06 2012-04-06 一种信息检索的方法和系统 Active CN103365910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210099720.9A CN103365910B (zh) 2012-04-06 2012-04-06 一种信息检索的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210099720.9A CN103365910B (zh) 2012-04-06 2012-04-06 一种信息检索的方法和系统

Publications (2)

Publication Number Publication Date
CN103365910A CN103365910A (zh) 2013-10-23
CN103365910B true CN103365910B (zh) 2017-02-15

Family

ID=49367274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210099720.9A Active CN103365910B (zh) 2012-04-06 2012-04-06 一种信息检索的方法和系统

Country Status (1)

Country Link
CN (1) CN103365910B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794139B (zh) * 2014-01-22 2019-09-20 腾讯科技(北京)有限公司 信息检索方法、装置及系统
CN104142993B (zh) * 2014-07-30 2017-08-29 东软集团股份有限公司 基于深度特征的复杂snort规则分类方法及系统
CN105574028B (zh) * 2014-10-15 2020-08-11 腾讯科技(深圳)有限公司 信息检索方法和装置
CN105354216B (zh) * 2015-09-28 2018-09-07 哈尔滨工业大学 一种中文微博话题信息处理方法
CN106844406B (zh) * 2015-12-07 2021-03-02 腾讯科技(深圳)有限公司 检索方法和检索装置
CN105631025B (zh) * 2015-12-29 2021-09-28 腾讯科技(深圳)有限公司 一种查询标签的归一化处理方法和装置
CN107679186B (zh) * 2017-09-30 2021-12-21 北京奇虎科技有限公司 基于实体库进行实体搜索的方法及装置
CN110110035A (zh) * 2018-01-24 2019-08-09 北京京东尚科信息技术有限公司 数据处理方法和装置以及计算机可读存储介质
CN108874885A (zh) * 2018-05-08 2018-11-23 苏州显知禾创科技服务有限公司 一种专利数据管理系统
CN109725901B (zh) * 2018-05-31 2024-03-29 中国平安人寿保险股份有限公司 前端代码的开发方法、装置、设备和计算机存储介质
CN109033457A (zh) * 2018-08-29 2018-12-18 广州中赢财富信息科技有限公司 多源数据库关联的审计方法及系统
CN109829115B (zh) * 2019-02-14 2020-02-04 上海晓材科技有限公司 搜索引擎关键词优化方法
CN111859042A (zh) * 2020-07-30 2020-10-30 上海妙一生物科技有限公司 一种检索方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库
CN101467125A (zh) * 2006-04-19 2009-06-24 谷歌公司 查询词语的处理
CN102054007A (zh) * 2009-11-10 2011-05-11 北大方正集团有限公司 一种检索方法及检索装置
CN102346756A (zh) * 2010-12-24 2012-02-08 镇江诺尼基智能技术有限公司 一种设备故障解决方案知识管理与检索系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747600B2 (en) * 2007-06-13 2010-06-29 Microsoft Corporation Multi-level search

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467125A (zh) * 2006-04-19 2009-06-24 谷歌公司 查询词语的处理
CN101281523A (zh) * 2007-04-25 2008-10-08 北大方正集团有限公司 查询扩展方法和装置以及相关检索词库
CN102054007A (zh) * 2009-11-10 2011-05-11 北大方正集团有限公司 一种检索方法及检索装置
CN102346756A (zh) * 2010-12-24 2012-02-08 镇江诺尼基智能技术有限公司 一种设备故障解决方案知识管理与检索系统及方法

Also Published As

Publication number Publication date
CN103365910A (zh) 2013-10-23

Similar Documents

Publication Publication Date Title
CN103365910B (zh) 一种信息检索的方法和系统
CN103530281B (zh) 一种论元抽取方法和系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103778262B (zh) 基于叙词表的信息检索方法及装置
CN105045875B (zh) 个性化信息检索方法及装置
US9276956B2 (en) Method for detecting phishing website without depending on samples
CN104636465B (zh) 网页摘要生成方法、展示方法及相应装置
CN102693219B (zh) 一种中文事件的抽取方法及系统
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN103914494B (zh) 一种微博用户身份识别方法及系统
CN106570144A (zh) 推荐信息的方法和装置
Osborn et al. JUSTICE: A judicial search tool using intelligent concept extraction
CN105528411B (zh) 船舶装备交互式电子技术手册全文检索装置及方法
KR20150036117A (ko) 쿼리 확장
CN104281565B (zh) 语义词典构建方法和装置
CN106934010A (zh) 自动查重方法及装置
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
CN103885985B (zh) 微博实时检索方法和装置
CN103544307B (zh) 一种不依赖文档库的多搜索引擎自动化对比评测方法
CN104679825A (zh) 基于网络文本的地震宏观异常信息获取与筛选方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN103064984A (zh) 垃圾网页的识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant