CN103365910A - 一种信息检索的方法和系统 - Google Patents
一种信息检索的方法和系统 Download PDFInfo
- Publication number
- CN103365910A CN103365910A CN2012100997209A CN201210099720A CN103365910A CN 103365910 A CN103365910 A CN 103365910A CN 2012100997209 A CN2012100997209 A CN 2012100997209A CN 201210099720 A CN201210099720 A CN 201210099720A CN 103365910 A CN103365910 A CN 103365910A
- Authority
- CN
- China
- Prior art keywords
- query
- mapping
- frequency
- word list
- extended
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 200
- 238000007477 logistic regression Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 6
- 241000109329 Rosa xanthina Species 0.000 description 2
- 235000004789 Rosa xanthina Nutrition 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000220317 Rosa Species 0.000 description 1
- 241000109463 Rosa x alba Species 0.000 description 1
- 235000005073 Rosa x alba Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息检索的方法和系统,方法包括:基于检索串(query)的扩展对基础检索串分析(QA)词表进行二次映射过程,生成二级映射的QA词表;其中,基础QA词表包括高频query到关键词的映射,二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;根据获取的信息检索请求中的检索串,进行二级映射的QA词表的查找,得到该检索串命中的关键词,并提取该关键词对应的互联网发布信息作为检索结果。通过本发明,能够提高信息检索结果对互联网发布信息的覆盖率。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种信息检索的方法和系统。
背景技术
在现有的信息检索发布系统中,按照传统网页搜索的检索方法、即按照检索串(query)中多个核心语素的“与”操作进行检索,例如:某个检索串包含A、B、C这三个核心语素,那么按照传统网页搜索的检索方法,即是按照A、B、C的“与”操作进行检索,也就是能同时匹配到A、B、C这三个核心语素的互联网发布信息才会被检索出来,作为检索结果。
上述检索方法会导致大量的匹配无结果,因此,目前的做法是扩展匹配端,在离线情况下按照一定的时间窗口从用户检索日志(query log)中筛选出高频query(即出现频率高于一定阈值的query);通过语义分析服务模块,获取这些query的网页搜索结果并分析其特征;同时对每一个筛选的query,通过整合各query扩展结果和关键词扩展,生成最初的关键词候选列表,该列表中包括用于匹配query的关键词。然后,query关键词映射子系统为每一对query和关键词计算各种用于衡量两者相关度的特征,包括各种文本相似度、语义相似度等。最后,对每一对query和关键词及其各种特征,进行相关度预测,按照相关度得分对候选关键词筛选和排序,得到query的最终关键词映射表,即QA(QueryAnalysis,检索串分析)词表。其中,QA词表是指query到关键词的hash(哈希)词表,该词表的左键为一定的时间窗口内的query log所统计出来的高频query,右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列,即QA词表维护的是高频query与关键词的映射关系。在检索端进行query分析并匹配互联网发布信息时,会从QA词表中查找query所对应的关键词,然后在关键词-互联网发布信息索引中找到相应的互联网发布信息作为检索结果。
然而,在现有的检索方法和系统中,query只有精确命中QA词表,才能匹配出相应的关键词,并未充分利用query之间的相关性,从而导致检索结果对互联网发布信息的覆盖率较低。
发明内容
有鉴于此,本发明的主要目的在于提供一种信息检索的方法和系统,以充分利用query之间的相关性,提高信息检索结果对互联网发布信息的覆盖率。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种信息检索的方法,该方法包括:
基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
较佳的,所述query的扩展具体为:
依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
较佳的,所述基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体为:
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
较佳的,该方法进一步包括:根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。
较佳的,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
较佳的,所述根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,具体为:
根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
较佳的,该方法进一步包括:
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
本发明还提供了一种信息检索的系统,该系统包括:
二级映射词表生成模块,用于基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
信息检索模块,用于根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
较佳的,所述二级映射词表生成模块进一步用于,依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
较佳的,所述二级映射词表生成模块进一步用于,
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
较佳的,所述二级映射词表生成模块进一步用于,根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query和高频query对的第i个特征值,wi表示第i个特征的权重。
较佳的,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
较佳的,所述信息检索模块进一步用于,根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
较佳的,所述信息检索模块进一步用于,
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
本发明所提供的一种信息检索的方法和系统,丰富了QA词表的左键入口,可以更加充分地利用基础QA词表,提升信息检索对互联网发布信息的覆盖率,提高信息检索的准确率,提高检索性能。
附图说明
图1为本发明实施例的一种信息检索的方法流程图;
图2为本发明实施例中二级映射的QA词表的结构示意图;
图3为本发明实施例中根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度的过程示意图;
图4为图1所示的步骤101的具体执行过程的示意图;
图5为图1所示的步骤102具体执行过程的示意图;
图6为本发明实施例的一种信息检索的系统结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明实施例提供的一种信息检索的方法如图1所示,主要包括以下步骤:
步骤101,基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表;其中,基础QA词表包括高频query到关键词的映射,二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射。
所谓基础QA词表,是指query到关键词的hash词表,该词表的左键为一定的时间窗口内的query log所统计出来的高频query,右键为高频query映射到的互联网发布信息的数据库中与该query文本语义相似的关键词或关键词系列,即基础QA词表维护的是高频query与关键词(或关键词系列)的映射关系。该基础QA词表可以通过专门的QBM(检索串关键词合并)模块离线处理得到。
所谓互联网发布信息,是指互联网信息发布方通过信息检索发布系统发布的信息,包括:地理信息、人文信息、商户信息等等。这些互联网发布信息通过专门的数据库存储。
其中,query的扩展处理后得到多个query相关系列,query的扩展可以采用以下方式的至少之一:
一、依据一定的时间窗口内的query log,采用基于会话(session)的query扩展;
二、依据一定的时间窗口内的query log,采用基于互联网发布信息互点击的query扩展;
三、依据一定的时间窗口内的query log,采用基于相关搜索的query扩展。
基于session的query扩展,主要包括以下操作:先对检索日志中的query进行归一化和噪声词汇过滤处理;然后,将同一个用户在一段连续时间里检索过的query归并为一个query系列,统计每个query在一天的日志里出现的次数,以及每任意两个query在一天的日志中出现在同一个query系列的次数;在一个大时间区间里(例如1个月),将上面得到的每一天的query系列以及统计的频次信息合并起来,利用似然比公式计算query之间的似然比特征值LLR,并利用此特征值对query扩展结果进行过滤(例如,LLR小于预设阈值的query相关系列被过滤);最后将多天的query扩展结果排重合并,并按照似然比特征值对query扩展结果排序,得到query相关系列。似然比公式如下:
LLR=logb(c12;c1,p)+logb(c2-c12;N-c1,p)
-logb(c12;c1,p1)-logb(c2-c12;N-c1,p2)
其中,
c1为query1在大时间区间里出现的总频次,c1为query2在大时间区间里出现的总频次,c12为query1与query2同时出现在一个query相关系列的总频次,N为大时间区间里所有query的总频次。
基于互联网发布信息互点击的query扩展,主要包括以下操作:由于在信息检索发布系统中触发了同一条互联网发布信息展示的不同query之间可能是有联系的,如果这样的互联网发布信息还会被共同点击,则不同的query间可能蕴含着相同的意图;因此,基于互联网发布信息的点击日志,可以将触发了同一条互联网发布信息展示的不同query聚合在一起,组成一个query相关系列。例如:搜索queryA时会有几条互联网发布信息展示,搜索queryB时也会有几条互联网发布信息展示,如果搜索queryA和搜索queryB时展示的互联网发布信息中存在相同的互联网发布信息,且此相同的互联网发布信息都被用户点击,则认为queryA和queryB是存在相关性的,从而将queryA和queryB聚合到一个query相关系列中。
基于相关搜索的query扩展,主要包括以下操作:搜索引擎在响应用户查询请求时,会“猜测”用户可能的检索意图,针对检索query自动进行一些扩展;例如:用户搜索“刘德华”,搜索引擎返回自然结果的同时,还会将相关的检索query呈现给用户,如“刘德华电影”、“刘德华演唱会”、“刘德华微博”等;用户搜索“玫瑰花”,搜索引擎返回自然结果的同时,还会将相关的检索query呈现给用户,如“鲜花”、“白玫瑰”、“蓝玫瑰”、“黄玫瑰”等等。利用搜索引擎的这种智能提示,可以对高频query进行扩展,得到对应的query相关系列。
基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体包括:
对于上述query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据最终的第一级映射和基础QA词表,生成二级映射的QA词表。
生成的二级映射的QA词表参见图2,在图2所示的QA词表中,第一级映射为扩展query到高频query的映射,第一级映射的左键为扩展query,右键为高频query;第二级映射为高频query到关键词(或关键词系列)的映射,第二级映射的左键为高频query,右键为关键词(或关键词系列)。其中,基础QA词表即作为第二级映射,二级映射的QA词表中需保证第一级映射的左键在第二级映射的左键中未出现,第一级映射的右键在第二级映射的左键中出现。
需要说明的是,本发明的实施例可以根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度,当然,本发明实施例中计算初始的第一级映射中的各扩展query与相应高频query的相似度的方法并不仅限于此,实际应用中任何能够用于计算得到以上相似度的方法应当都属于本发明实施例的保护范围。
其中,根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与相应高频query的相似度的具体操作过程,如图3所示,具体包括:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择(如增加特征、删除特征、进行特征组合等等),得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式(将初始的第一级映射中的各扩展query到高频query映射的特征值代入下式)计算初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。
所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语(term)率、编辑距离、最长公共子串。
共同term率=切词后A与B共有的短语个数×2/切词后A与B的短语个数总和,A、B表示任意两个query;
编辑距离,又称Levenshtein距离,是指两个字串之间由一个转成另一个所需的最少编辑操作次数;
最长公共子串:一个序列S,如果分别是两个已知字符序列(如A、B)的子序列,且是所有符合此条件序列中最长的,则S称为两个已知字符序列的最长公共子序列,可以用于描述两个字符系列之间的相似度。
步骤101的详细操作可参见图4所示的示意图,依据一定的时间窗口内的query log,采用基于session的query扩展、基于互联网发布信息互点击的query扩展和基于相关搜索的query扩展,并将扩展query的结果合并得到多个query相关系列;然后,对于每一个query相关系列,基于基础QA词表进行二次映射过程,生成二级映射的QA词表。在进行二次映射过程中需要用到相关性逻辑回归模型,具体执行过程参见前述说明。
步骤102,根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
二级映射的QA词表查找的具体操作为:根据信息检索请求中的检索串查找二级映射的QA词表中的第一级映射,获取与检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
作为本发明的一种优选实施例,还可以根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;如果未匹配到所述基础QA词表中的高频query,则再进行所述二级映射的QA词表的查找。如果信息检索请求中的检索串在基础QA词表和二级映射的QA词表中都未命中到相应的关键词,则可以选择其他可行的命中关键词的方法继续进行。具体操作过程参见图5。
对应上述信息检索的方法,本发明实施例还提供了一种信息检索的系统,如图6所示,主要包括:二级映射词表生成模块10和信息检索模块20;其中,
二级映射词表生成模块10,用于基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
信息检索模块20,用于根据获取的信息检索请求中的检索串,进行二级映射的QA词表的查找,得到该检索串命中的关键词,并提取该关键词对应的互联网发布信息作为检索结果。
较佳的,二级映射词表生成模块10可进一步用于,依据检索日志,采用基于session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
较佳的,二级映射词表生成模块10还可进一步用于,对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;计算初始的第一级映射中的各扩展query与高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;根据最终的第一级映射和基础QA词表,生成二级映射的QA词表。
较佳的,二级映射词表生成模块10还可进一步用于,根据相关性逻辑回归模型计算初始的第一级映射中的各扩展query与高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query和高频query对的第i个特征值,wi表示第i个特征的权重。
所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:扩展query与对应高频query之间的tanimoto系数、字面相似度、共同term率、编辑距离、最长公共子串。
较佳的,信息检索模块20可进一步用于,根据信息检索请求中的检索串查找二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
较佳的,信息检索模块20还可进一步用于,根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到基础QA词表中的高频query,则提取基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行二级映射的QA词表的查找;
如果未匹配到基础QA词表中的高频query,则进行二级映射的QA词表的查找。
另外,作为本发明的一种优选实施方式,信息检索的系统还可以添加一个实时的检索串重写模块(图6中未示出),连接信息检索模块20,用于对通过上述方法未能命中到关键词的检索串进行适当的变型(例如删除检索串中的若干核心元素)后,重新送入信息检索模块20执行新一轮的检索流程;依此类推,直到命中到关键词。
综上所述,本发明实施例利用基于session的query扩展、基于互联网发布信息互点击的query扩展、基于相关搜索的query扩展等方法,在query集合中建立一个关联的query网络;然后对query之间的相关性进行校验,提取出高质量的关联query。在具体实现中采用hash map数据结构来表示这种关联关系,该map的右键(map value)为一定的时间窗口中从用户检索日志中筛选出的高频query,该map的左键(map key)为高频query相关的扩展query。而高频query与关键词的映射关系可以通过QBM模块离线处理得到。这样就形成了一个二级映射的QA词表,相当于对原有基础QA词表的左键进行了扩充;该二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射。本发明的实施例丰富了QA词表的左键入口,可以更加充分地利用基础QA词表,提升互联网发布信息的覆盖率。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (14)
1.一种信息检索的方法,其特征在于,该方法包括:
基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
2.根据权利要求1所述信息检索的方法,其特征在于,所述query的扩展具体为:
依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
3.根据权利要求2所述信息检索的方法,其特征在于,所述基于query的扩展对基础QA词表进行二次映射过程,生成二级映射的QA词表,具体为:
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
4.根据权利要求3所述信息检索的方法,其特征在于,该方法进一步包括:根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与相应高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query到高频query映射的第i个特征值,wi表示第i个特征的权重。
5.根据权利要求4所述信息检索的方法,其特征在于,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
6.根据权利要求1至5任一项所述信息检索的方法,其特征在于,所述根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,具体为:
根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
7.根据权利要求6所述信息检索的方法,其特征在于,该方法进一步包括:
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
8.一种信息检索的系统,其特征在于,该系统包括:
二级映射词表生成模块,用于基于检索串query的扩展对基础检索串分析QA词表进行二次映射过程,生成二级映射的QA词表;其中,所述基础QA词表包括高频query到关键词的映射,所述二级映射的QA词表中的第一级映射为扩展query到高频query的映射,第二级映射为高频query到关键词的映射;
信息检索模块,用于根据获取的信息检索请求中的检索串,进行所述二级映射的QA词表的查找,得到所述检索串命中的关键词,并提取所述关键词对应的互联网发布信息作为检索结果。
9.根据权利要求8所述信息检索的系统,其特征在于,所述二级映射词表生成模块进一步用于,依据检索日志,采用基于会话session的query扩展、和/或基于互联网发布信息互点击的query扩展、和/或基于相关搜索的query扩展,得到多个query相关系列。
10.根据权利要求9所述信息检索的系统,其特征在于,所述二级映射词表生成模块进一步用于,
对于query扩展得到的每一个query相关系列,在判断所述query相关系列中存在与所述基础QA词表中相同的高频query时,将所述query相关系列中除所述高频query之外的其他query添加为所述高频query的扩展query,生成扩展query到高频query的初始的第一级映射;
计算所述初始的第一级映射中的各扩展query与高频query的相似度,并过滤掉相似度小于预设阈值的扩展query,保留相似度大于或等于预设阈值的扩展query,得到最终的第一级映射;
根据所述最终的第一级映射和所述基础QA词表,生成二级映射的QA词表。
11.根据权利要求10所述信息检索的系统,其特征在于,所述二级映射词表生成模块进一步用于,根据相关性逻辑回归模型计算所述初始的第一级映射中的各扩展query与高频query的相似度,具体为:
接收人工标注的标准集,所述标准集中包括人工标注的扩展query到高频query的映射;
计算所述标准集中每一个扩展query到高频query映射的特征值,并随机将所述标准集划分为训练集和校验集;
用所述训练集进行相关性逻辑回归模型训练,得到用于评价扩展query和高频query相关性的初始逻辑回归模型,再用所述校验集对所述初始逻辑回归模型进行评价,根据评价结果优化特征选择,得到最终的相关性逻辑回归模型;
根据最终的相关性逻辑回归模型,通过下式计算所述初始的第一级映射中的各扩展query与相应高频query的相似度:
其中,q1表示扩展query,q2表示高频query,n表示特征总数,fi(q1,q2)表示扩展query和高频query对的第i个特征值,wi表示第i个特征的权重。
12.根据权利要求11所述信息检索的系统,其特征在于,所述特征值包括扩展query与对应高频query之间的文本相似度特征值和类别相似度特征值,所述文本相似度特征值包括以下至少之一:
扩展query与对应高频query之间的tanimoto系数、字面相似度、共同短语term率、编辑距离、最长公共子串。
13.根据权利要求8至12任一项所述信息检索的系统,其特征在于,所述信息检索模块进一步用于,根据所述信息检索请求中的检索串查找所述二级映射的QA词表中的第一级映射,获取与所述检索串匹配的扩展query所对应的高频query,再提取第二级映射中与所述高频query对应的关键词作为命中的关键词。
14.根据权利要求13所述信息检索的系统,其特征在于,所述信息检索模块进一步用于,
根据获取的信息检索请求中的检索串,先查找基础QA词表,如果匹配到所述基础QA词表中的高频query,则提取所述基础QA词表中与所述高频query对应的关键词作为命中的关键词,不再进行所述二级映射的QA词表的查找;
如果未匹配到所述基础QA词表中的高频query,则进行所述二级映射的QA词表的查找。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210099720.9A CN103365910B (zh) | 2012-04-06 | 2012-04-06 | 一种信息检索的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210099720.9A CN103365910B (zh) | 2012-04-06 | 2012-04-06 | 一种信息检索的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103365910A true CN103365910A (zh) | 2013-10-23 |
CN103365910B CN103365910B (zh) | 2017-02-15 |
Family
ID=49367274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210099720.9A Active CN103365910B (zh) | 2012-04-06 | 2012-04-06 | 一种信息检索的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103365910B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142993A (zh) * | 2014-07-30 | 2014-11-12 | 东软集团股份有限公司 | 基于深度特征的复杂snort规则分类方法及系统 |
WO2015109992A1 (en) * | 2014-01-22 | 2015-07-30 | Tencent Technology (Shenzhen) Company Limited | Information retrieval method, apparatus and system |
CN105354216A (zh) * | 2015-09-28 | 2016-02-24 | 哈尔滨工业大学 | 一种中文微博话题信息处理方法 |
CN105574028A (zh) * | 2014-10-15 | 2016-05-11 | 腾讯科技(深圳)有限公司 | 信息检索方法和装置 |
CN105631025A (zh) * | 2015-12-29 | 2016-06-01 | 腾讯科技(深圳)有限公司 | 一种查询标签的归一化处理方法和装置 |
CN106844406A (zh) * | 2015-12-07 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 检索方法和检索装置 |
CN107679186A (zh) * | 2017-09-30 | 2018-02-09 | 北京奇虎科技有限公司 | 基于实体库进行实体搜索的方法及装置 |
CN108874885A (zh) * | 2018-05-08 | 2018-11-23 | 苏州显知禾创科技服务有限公司 | 一种专利数据管理系统 |
CN109033457A (zh) * | 2018-08-29 | 2018-12-18 | 广州中赢财富信息科技有限公司 | 多源数据库关联的审计方法及系统 |
CN109725901A (zh) * | 2018-05-31 | 2019-05-07 | 中国平安人寿保险股份有限公司 | 前端代码的开发方法、装置、设备和计算机存储介质 |
CN109829115A (zh) * | 2019-02-14 | 2019-05-31 | 上海晓材科技有限公司 | 搜索引擎关键词优化方法 |
CN110110035A (zh) * | 2018-01-24 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置以及计算机可读存储介质 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
US20080313147A1 (en) * | 2007-06-13 | 2008-12-18 | Microsoft Corporation | Multi-level search |
CN101467125A (zh) * | 2006-04-19 | 2009-06-24 | 谷歌公司 | 查询词语的处理 |
CN102054007A (zh) * | 2009-11-10 | 2011-05-11 | 北大方正集团有限公司 | 一种检索方法及检索装置 |
CN102346756A (zh) * | 2010-12-24 | 2012-02-08 | 镇江诺尼基智能技术有限公司 | 一种设备故障解决方案知识管理与检索系统及方法 |
-
2012
- 2012-04-06 CN CN201210099720.9A patent/CN103365910B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101467125A (zh) * | 2006-04-19 | 2009-06-24 | 谷歌公司 | 查询词语的处理 |
CN101281523A (zh) * | 2007-04-25 | 2008-10-08 | 北大方正集团有限公司 | 查询扩展方法和装置以及相关检索词库 |
US20080313147A1 (en) * | 2007-06-13 | 2008-12-18 | Microsoft Corporation | Multi-level search |
CN102054007A (zh) * | 2009-11-10 | 2011-05-11 | 北大方正集团有限公司 | 一种检索方法及检索装置 |
CN102346756A (zh) * | 2010-12-24 | 2012-02-08 | 镇江诺尼基智能技术有限公司 | 一种设备故障解决方案知识管理与检索系统及方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015109992A1 (en) * | 2014-01-22 | 2015-07-30 | Tencent Technology (Shenzhen) Company Limited | Information retrieval method, apparatus and system |
CN104142993A (zh) * | 2014-07-30 | 2014-11-12 | 东软集团股份有限公司 | 基于深度特征的复杂snort规则分类方法及系统 |
CN104142993B (zh) * | 2014-07-30 | 2017-08-29 | 东软集团股份有限公司 | 基于深度特征的复杂snort规则分类方法及系统 |
CN105574028A (zh) * | 2014-10-15 | 2016-05-11 | 腾讯科技(深圳)有限公司 | 信息检索方法和装置 |
CN105354216B (zh) * | 2015-09-28 | 2018-09-07 | 哈尔滨工业大学 | 一种中文微博话题信息处理方法 |
CN105354216A (zh) * | 2015-09-28 | 2016-02-24 | 哈尔滨工业大学 | 一种中文微博话题信息处理方法 |
CN106844406A (zh) * | 2015-12-07 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 检索方法和检索装置 |
CN106844406B (zh) * | 2015-12-07 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 检索方法和检索装置 |
CN105631025A (zh) * | 2015-12-29 | 2016-06-01 | 腾讯科技(深圳)有限公司 | 一种查询标签的归一化处理方法和装置 |
CN107679186A (zh) * | 2017-09-30 | 2018-02-09 | 北京奇虎科技有限公司 | 基于实体库进行实体搜索的方法及装置 |
CN110110035A (zh) * | 2018-01-24 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 数据处理方法和装置以及计算机可读存储介质 |
CN108874885A (zh) * | 2018-05-08 | 2018-11-23 | 苏州显知禾创科技服务有限公司 | 一种专利数据管理系统 |
CN109725901A (zh) * | 2018-05-31 | 2019-05-07 | 中国平安人寿保险股份有限公司 | 前端代码的开发方法、装置、设备和计算机存储介质 |
CN109725901B (zh) * | 2018-05-31 | 2024-03-29 | 中国平安人寿保险股份有限公司 | 前端代码的开发方法、装置、设备和计算机存储介质 |
CN109033457A (zh) * | 2018-08-29 | 2018-12-18 | 广州中赢财富信息科技有限公司 | 多源数据库关联的审计方法及系统 |
CN109829115A (zh) * | 2019-02-14 | 2019-05-31 | 上海晓材科技有限公司 | 搜索引擎关键词优化方法 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103365910B (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103365910B (zh) | 一种信息检索的方法和系统 | |
US9317550B2 (en) | Query expansion | |
CN107993724B (zh) | 一种医学智能问答数据处理的方法及装置 | |
CN106991092B (zh) | 基于大数据挖掘相似裁判文书的方法和设备 | |
US9710547B2 (en) | Natural language semantic search system and method using weighted global semantic representations | |
CN103473283B (zh) | 一种文本案例匹配方法 | |
JP5701911B2 (ja) | クエリモデルに基づく誘導検索 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
US8478704B2 (en) | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components | |
RU2005111000A (ru) | Предложение родственных терминов для многосмыслового запроса | |
CN110390006A (zh) | 问答语料生成方法、装置和计算机可读存储介质 | |
CN105528411B (zh) | 船舶装备交互式电子技术手册全文检索装置及方法 | |
CN102637192A (zh) | 一种自然语言问答的方法 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
KR20180125746A (ko) | 문장 임베딩 및 유사 질문 검색을 위한 장치 및 방법 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN103279504B (zh) | 一种基于歧义消解的搜索方法及装置 | |
CN106649605B (zh) | 一种推广关键词的触发方法及装置 | |
CN109446399A (zh) | 一种影视实体搜索方法 | |
CN111125299B (zh) | 一种基于用户行为分析的动态词库更新方法 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
CN105677664A (zh) | 基于网络搜索的紧密度确定方法及装置 | |
CN103324707A (zh) | 一种基于半监督聚类的查询扩展方法 | |
Balfe et al. | A comparative analysis of query similarity metrics for community-based web search | |
CN101661480A (zh) | 确定组织在不同语言中的名称的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |