CN103810213B - 一种搜索方法和系统 - Google Patents

一种搜索方法和系统 Download PDF

Info

Publication number
CN103810213B
CN103810213B CN201210457609.2A CN201210457609A CN103810213B CN 103810213 B CN103810213 B CN 103810213B CN 201210457609 A CN201210457609 A CN 201210457609A CN 103810213 B CN103810213 B CN 103810213B
Authority
CN
China
Prior art keywords
morpheme
signature
inverted index
string
retrieval string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210457609.2A
Other languages
English (en)
Other versions
CN103810213A (zh
Inventor
赫南
姚伶伶
刘小兵
王迪
杨俊丽
王艳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210457609.2A priority Critical patent/CN103810213B/zh
Publication of CN103810213A publication Critical patent/CN103810213A/zh
Application granted granted Critical
Publication of CN103810213B publication Critical patent/CN103810213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种搜索方法和系统,方法包括:基于历史高频检索串构建检索串语素签名和倒排索引;所述检索串语素签名和倒排索引为对所述历史高频检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构;根据输入匹配系统的原始检索串查询所述检索串语素签名和倒排索引,得到与所述原始检索串语素签名和相同的检索串集合;根据所述检索串集合中的检索串查询高频检索串词表,得到对应的关键词。通过本发明,实现触发粒度更细、搜索结果更全面的关键词和相关素材搜索。

Description

一种搜索方法和系统
技术领域
本发明涉及计算机搜索技术领域,尤其涉及一种搜索方法和系统。
背景技术
搜索是指互联网用户使用个人计算机(PC)、手机等终端设备,通过向搜索引擎输入框提交检索串(query),在后台匹配系统中触发逻辑相关搜索结果的过程。
在匹配系统中,目前主要通过以下几种方式进行query到素材的关键词(keyword)之间的触发匹配:
1、按匹配类型的关键词触发
在系统数据库中,keyword及其对应的素材会以倒排索引的形式存放;匹配系统会对用户提交的query进行在线分析,找到对应各种匹配类型的keyword,并通过keyword的倒排信息,完成素材的拉取。一个典型的在线分析匹配keyword的方法如下:
例如,有query:ABCD(其中A、B、C、D是对query进行分词后的语素,语素是指字符串分词后的最小结果单元),对query的分词语素取组合遍历:
C(4,4)={A,B,C,D},
C(4,3)={A,B,C},{A,B,D},{A,C,D},{B,C,D},
C(4,2)={A,B},{A,C},{A,D},{B,C},{B,D},{C,D},
C(4,1)={A},{B},{C},{D}
用组合结果去检索keyword索引,可以找到当前所有生效的keyword,它们对应各种匹配类型。
2、用户检索串的纠错、改写触发
用户在使用搜索引擎的过程中,可能会出现拼写错误或不规范的输入,虽然用户本人(和智能的搜索引擎)可以理解,但是直接用来触发素材可能导致结果不理想。因此,除了正常的query归一化过程,还需要结合离线的历史统计信息,针对性的对输入的query进行纠错、query改写,从而正确触发含有用户检索意图的素材。
3、历史高频query的离线挖掘扩展
一种典型的实现方案是,预先统计好历史n天的高频query,使用各种离线挖掘的方法,扩展出高质量的keyword,最终以词表的形式加载到匹配系统中。这样,当用户提交一个已经离线分析过的query时,就可以形成素材keyword的即时触发,起到快速缓存的作用。
4、匹配系统中keyword的等价扩展补充
离线挖掘过程解决了大部分高频query的触发问题,但针对长尾query(即低频query,检索次数较少的、不常见的query)的匹配,如果只有在线分析过程,则很难保证匹配结果的数量和质量(往往找到的关键词语义上会形成偏离)。因此,在实际的匹配系统中,还会对已经找到的keyword进行等价补充。通常会大量使用诸如keyword等价聚类、同义替换等技术。
目前一种常见的匹配系统的关键词匹配流程,如图1所示,其应用到前述query的在线分析、高频query的离线挖掘、keyword等价聚类等技术手段。
在线分析过程找到的keyword往往是query的子串,容易局限于字面内容,而且找到的子串不能保证保留了query的核心意图,有时语义偏差较大。
用户检索串的纠错、改写触发可以解决一部分匹配问题,但应用范围较窄,对query的覆盖有限。
历史高频query的离线扩展,其使用的前提是query的精确命中,粒度太粗,如果query表达有细微变化,即使没有语义的偏移,也无法直接关联已有结果。
keyword的等价扩展补充也存在触发粒度较粗的问题,等价的聚类关系必须是与在线分析找到的keyword完全匹配,且在线分析找到的keyword还必须是当前生效的。这些限制条件往往导致keyword聚类资源本身不能发挥更大的作用。
基于此,需要提出一种触发粒度更细、搜索结果更全面的搜索方案,以解决上述不足。
发明内容
有鉴于此,本发明的主要目的在于提供一种搜索方法和系统,以实现触发粒度更细、搜索结果更全面的关键词和相关素材搜索。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供一种搜索方法,该方法包括:
基于历史高频检索串构建检索串语素签名和倒排索引;所述检索串语素签名和倒排索引为对所述历史高频检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构;
根据输入匹配系统的原始检索串查询所述检索串语素签名和倒排索引,得到与所述原始检索串语素签名相同的检索串集合;
根据所述检索串集合中的检索串查询高频检索串词表,得到对应的关键词。
该方法进一步包括:基于历史高频检索串、以及对所述历史高频检索串进行离线扩展得到的对应扩展检索串,构建检索串语素签名和倒排索引;
相应的,所述检索串语素签名和倒排索引为对所述历史高频检索串和扩展检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构。
所述根据输入匹配系统的原始检索串查询检索串语素签名和倒排索引,包括:
对所述原始检索串进行分词得到至少一个语素,并对得到的语素进行哈希运算得到原始检索串的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
在所述根据输入匹配系统的原始检索串查询检索串语素签名和倒排索引之前,该方法进一步包括:
对输入匹配系统的原始检索串进行在线分析,得到在线分析结果;
相应的,所述查询检索串语素签名和倒排索引为:对所述在线分析结果进行分词得到至少一个语素,并对得到的语素进行哈希运算得到相应的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
所述在线分析包括以下至少一种方式:精确匹配、词组匹配、广泛匹配、核心成分分析。
该方法进一步包括:预先基于已有的关键词集合构建关键词语素签名和倒排索引,所述关键词语素签名和倒排索引为对所述关键词进行分词后,语素签名和相同的各组关键词的倒排索引数据结构;
在根据检索串集合中的检索串查询高频检索串词表,得到对应的关键词后,根据所得关键词查询所述关键词语素签名和倒排索引,得到对应的扩展关键词。
本发明还提供一种搜索系统,包括:
检索串语素签名和倒排索引构建模块,用于基于历史高频检索串构建检索串语素签名和倒排索引;所述检索串语素签名和倒排索引为对所述历史高频检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构;
检索串语素签名和倒排索引查询模块,用于根据输入匹配系统的原始检索串查询所述检索串语素签名和倒排索引,得到与所述原始检索串语素签名和相同的检索串集合;
高频检索串词表查询模块,用于根据所述检索串集合中的检索串查询高频检索串词表,得到对应的关键词关键词。
所述检索串语素签名和倒排索引构建模块进一步用于,基于历史高频检索串、以及对所述历史高频检索串进行离线扩展得到的对应扩展检索串,构建检索串语素签名和倒排索引;
相应的,所述检索串语素签名和倒排索引为对所述历史高频检索串和扩展检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构。
所述检索串语素签名和倒排索引查询模块进一步用于,对所述原始检索串进行分词得到至少一个语素,并对得到的语素进行哈希运算得到原始检索串的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
所述检索串语素签名和倒排索引查询模块进一步用于,在根据输入匹配系统的原始检索串查询检索串语素签名和倒排索引之前,对输入匹配系统的原始检索串进行在线分析,得到在线分析结果;
相应的,所述查询检索串语素签名和倒排索引为:对所述在线分析结果进行分词得到至少一个语素,并对得到的语素进行哈希运算得到相应的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
所述在线分析包括以下至少一种方式:精确匹配、词组匹配、广泛匹配、核心成分分析。
该系统还包括:
关键词语素签名和倒排索引构建模块,用于预先基于已有的关键词集合构建关键词语素签名和倒排索引,所述关键词语素签名和倒排索引为对所述关键词进行分词后,语素签名和相同的各组关键词的倒排索引数据结构;
关键词语素签名和倒排索引查询模块,用于在所述高频检索串词表查询模块根据检索串集合中的检索串查询高频检索串词表,得到对应的关键词后,所述关键词语素签名和倒排索引查询模块根据所得关键词查询所述关键词语素签名和倒排索引,得到对应的扩展关键词。
本发明所提供的一种搜索方法和系统,基于历史高频query构建QSSII索引,能够增加query的匹配深度;对query在线分析与QSSII索引查询的结合,能进一步丰富query的触发粒度,从而使得关键词和相关素材的搜索结果更全面。
附图说明
图1为现有技术中一种匹配系统的关键词匹配流程示意图;
图2为本发明实施例的一种搜索方法的流程图;
图3为本发明实施例中QSSII索引的基本原理示意图;
图4为本发明实施例中query在线分析与QSSII索引结合使用的基本原理示意图;
图5为本发明实施例中KSSII索引的基本原理示意图;
图6为本发明实施例的一种搜索系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明提供一种搜索方法的实施例,如图2所示,该方法主要包括:
步骤201,基于历史高频query构建(QSSII,Query Signature Summary InvertedIndex)索引;所述QSSII索引即为检索串语素签名和倒排索引,是对所述历史高频query进行分词后,语素签名和相同的各组query的倒排索引数据结构。
语素是指query分词后的最小结果单元。语素签名(Signature)采用语素的md5哈希值。QSSII索引可以以表的形式存在。例如,以下几个query:
ABCD,ABCD,DCBA,ABDC,ABC,ABC,CBA(其中A、B、C、D代表分词后的语素);
它们的语素签名分别为SignABCD,SignABCD,SignDCBA,SignABDC,SignABC,SignABC,SignCBA,语素A、B、C、D的签名分别为SignA、SignB、SignC、SignD。
令Sign1=SignA+SignB+SignC+SignD,Sign2=SignA+SignB+SignC。则将这些数据加入QSSII索引后,QSSII索引中的索引内容为:
Sign1 <SignABCD,2>,<SignDCBA,1>,<SignABDC,1>
Sign2 <SignABC,2>,<SignCBA,1>
其中,Sign1、Sign2即表示语素签名和;<SignABCD,2>中的2代表SignABCD对应的计数(count)值为2,表示在历史高频query中,检索串ABCD的出现次数为2。
query加入QSSII索引的操作为:如果该query的语素签名不在QSSII索引中,则将该query加入QSSII索引中,并将其对应的count置为1;如果该query的语素签名在QSSII索引中,则将对应的count加1。
作为一种较佳的实施方式,可以基于历史高频query、以及对所述历史高频query进行离线扩展得到的对应扩展query,构建QSSII索引;相应的,所述QSSII索引为对所述历史高频query和扩展query进行分词后,语素签名和相同的各组query的倒排索引数据结构。本发明将通过这种较佳的实施方式所构建的QSSII索引称为EQSSII(Expand QuerySignature Summary Inverted Index)、即扩展检索串语素签名和倒排索引。
历史高频query扩展资源在匹配系统中以词表形式加载,对应map数据结构,即数据结构分为左键和右键,左键为历史高频query,右键为一系列离线挖掘到的对应相关的扩展query。
需要说明的是,QSSII索引和EQSSII索引的内部结构以及构建操作都是相同的,只是QSSII索引的数据源为历史高频query,EQSSII索引的数据源为历史高频query和扩展query。为描述方便,除特殊说明,本发明实施例后续描述中的QSSII索引包括QSSII索引和EQSSII索引。
QSSII索引的引入,将所有分词结果的语素签名和相同的query聚合到了一起。例如:“北京鲜花快递”、“鲜花北京快递”、“快递北京鲜花”之间是等价的,命中了“北京鲜花快递”,也即命中了其他两个等价的query,它们的keyword结果可以补充给“北京鲜花快递”。
如图3所示,为QSSII索引的基本原理。其中,query_hash表示query(ABCD)分词后的语素签名和;{query_1,query_2,...,query_n}为与query分词语素签名和相同的其他高频query和/或扩展query。在高频query词表索引中,左键为高频query和/或扩展query,右键为一系列离线挖掘的相应keyword;如keyword_n1,keyword_n2...表示query_n的离线扩展结果。基本的索引过程为:首先对原始query进行分词,计算分词后各个语素签名的和;根据所述语素签名的和查询QSSII索引,从而得到与原query意图相近(即query_hash相同)的一系列query(也称query集合),再通过高频query词表找到相关的keyword。
步骤202,根据输入匹配系统的原始query查询所述QSSII索引,得到与所述原始query语素签名和相同的query集合。
对所述原始query进行分词得到至少一个语素,并对得到的语素进行哈希运算得到原始query的语素签名和,根据运算得到的语素签名和查询所述QSSII索引,得到与所述原始query语素签名和相同的query集合。
较佳的,在所述根据输入匹配系统的原始query查询QSSII索引之前,可以对输入匹配系统的原始query进行在线分析,得到在线分析结果;
相应的,所述查询QSSII索引为:对所述在线分析结果进行分词得到至少一个语素,并对得到的语素进行哈希运算得到相应的语素签名和,根据运算得到的语素签名和查询所述QSSII索引。
所述在线分析包括以下至少一种方式:精确匹配、词组匹配、广泛匹配、核心成分分析、其他匹配类型等等。
QSSII索引的引入,增加了query的匹配深度;对query在线分析结果的使用则能进一步丰富触发的粒度。如图4所示,为query在线分析与QSSII索引结合使用的基本原理图。可以看到,对query的在线分析过程,即是依据各种匹配类型对其实现多粒度抽取的过程。前述提到的query直接分词查找QSSII索引,就对应query精确匹配的情况。匹配类型和算法越精细,在线分析结果越丰富,通过QSSII索引找到的keyword就越多。考虑相关性,可以对在线分析的结果排一个优先级来使用,例如,设置精确匹配的优先级高于长串的词组匹配,长串的词组匹配的优先级高于短串的广泛匹配等。为控制结果数量,还可以设置阈值,例如,限制在线分析结果的使用数量,过滤经过QSSII索引找到的高频query扩展结果的得分,控制不同触发方法在所有候选keyword中的比例等。
经过这个逻辑的补充,将在线分析过程的结果充分利用起来,再经过高频query索引的大量补充,可以触发更多的keyword,能够提高query的覆盖率。
实际应用中,query核心成分分析的实现方法很多,例如可以考虑原始query分词后语素的分类结果与原始query的类别是否一致,可以引入不同行业的专有名词词典提高分词的准确性,分词结果的固定搭配和历史统计结果参考等。
步骤203,根据所述query集合中的query查询高频query词表,得到对应的关键词keyword。
类比QSSII索引,可以预先基于已有的keyword集合构建KSSII(KeywordSignature Summary Inverted Index)索引,所述KSSII索引即为关键词语素签名和倒排索引,是对所述keyword进行分词后,语素签名和相同的各组keyword的倒排索引数据结构;这样,所有keyword分词后各语素签名和相同的,也能聚合到一组,从而形成keyword签名的倒排索引数据结构;KSSII索引的原理图如图5所示。
那么,在根据query集合中的query查询高频query词表,得到对应的keyword后,可以根据所得keyword查询所述KSSII索引,得到对应的扩展keyword。
也就是说,在实际检索时,可以将QSSII索引与KSSII索引结合使用。例如,当对高频query查询QSSII索引,找到相应的表项后,即可得到很多候选的keyword;再用这些keyword去直接检索KSSII索引,就可形成进一步的等价扩展。或者通过其他方法找到的keyword,也都可以直接用KSSII索引做扩展,从而找到更多的keyword。
本发明实施例中通过搜索找到的keyword作为触发条件,实现对匹配系统中的素材的拉取。
本发明还提供了一种搜索系统的实施例,如图6所示,该系统主要包括:QSSII索引构建模块10、QSSII索引查询模块20和高频query词表查询模块30。
其中,QSSII索引构建模块10,用于基于历史高频query构建QSSII索引;所述QSSII索引为对所述历史高频query进行分词后,语素签名和相同的各组query的倒排索引数据结构;
QSSII索引查询模块20,用于根据输入匹配系统的原始query查询所述QSSII索引,得到与所述原始query语素签名和相同的query集合;
高频query词表查询模块30,用于根据所述query集合中的query查询高频query词表,得到对应的关键词keyword。
较佳的,QSSII索引构建模块10进一步用于,基于历史高频query、以及对所述历史高频query进行离线扩展得到的对应扩展query,构建QSSII索引;
相应的,所述QSSII索引为对所述历史高频query和扩展query进行分词后,语素签名和相同的各组query的倒排索引数据结构。
较佳的,QSSII索引查询模块20进一步用于,对所述原始query进行分词得到至少一个语素,并对得到的语素进行哈希运算得到原始query的语素签名和,根据运算得到的语素签名和查询所述QSSII索引。
较佳的,QSSII索引查询模块20进一步用于,在根据输入匹配系统的原始query查询QSSII索引之前,对输入匹配系统的原始query进行在线分析,得到在线分析结果;
相应的,所述查询QSSII索引为:对所述在线分析结果进行分词得到至少一个语素,并对得到的语素进行哈希运算得到相应的语素签名和,根据运算得到的语素签名和查询所述QSSII索引。
所述在线分析包括以下至少一种方式:精确匹配、词组匹配、广泛匹配、核心成分分析。
较佳的,该系统还包括:
KSSII索引构建模块40,用于预先基于已有的keyword集合构建KSSII索引,所述KSSII索引为对所述keyword进行分词后,语素签名和相同的各组keyword的倒排索引数据结构;
KSSII索引查询模块50,用于在所述高频query词表查询模块30根据query集合中的query查询高频query词表,得到对应的keyword后,所述KSSII索引查询模块根据所得keyword查询所述KSSII索引,得到对应的扩展keyword。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种搜索方法,其特征在于,该方法包括:
基于历史高频检索串构建检索串语素签名和倒排索引;所述检索串语素签名和倒排索引为语素签名和相同的各倒排索引数据结构;所述各倒排索引数据结构,为各组检索串的倒排索引数据结构;所述语素签名和,为对所述历史高频检索串进行分词后计算得到的各个语素签名的和;
根据输入匹配系统的原始检索串查询所述检索串语素签名和倒排索引,得到与所述原始检索串语素签名和相同的检索串集合;
根据所述检索串集合中的检索串查询高频检索串词表,得到对应的关键词。
2.根据权利要求1所述搜索方法,其特征在于,该方法进一步包括:基于历史高频检索串、以及对所述历史高频检索串进行离线扩展得到的对应扩展检索串,构建检索串语素签名和倒排索引;
相应的,所述检索串语素签名和倒排索引为对所述历史高频检索串和扩展检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构。
3.根据权利要求1所述搜索方法,其特征在于,所述根据输入匹配系统的原始检索串查询检索串语素签名和倒排索引,包括:
对所述原始检索串进行分词得到至少一个语素,并对得到的语素进行哈希运算得到原始检索串的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
4.根据权利要求3所述搜索方法,其特征在于,在所述根据输入匹配系统的原始检索串查询检索串语素签名和倒排索引之前,该方法进一步包括:
对输入匹配系统的原始检索串进行在线分析,得到在线分析结果;
相应的,所述查询检索串语素签名和倒排索引为:对所述在线分析结果进行分词得到至少一个语素,并对得到的语素进行哈希运算得到相应的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
5.根据权利要求4所述搜索方法,其特征在于,所述在线分析包括以下至少一种方式:精确匹配、词组匹配、广泛匹配、核心成分分析。
6.根据权利要求1至5任一项所述搜索方法,其特征在于,该方法进一步包括:预先基于已有的关键词集合构建关键词语素签名和倒排索引,所述关键词语素签名和倒排索引为对所述关键词进行分词后,语素签名和相同的各组关键词的倒排索引数据结构;
在根据检索串集合中的检索串查询高频检索串词表,得到对应的关键词后,根据所得关键词查询所述关键词语素签名和倒排索引,得到对应的扩展关键词。
7.一种搜索系统,其特征在于,包括:
检索串语素签名和倒排索引构建模块,用于基于历史高频检索串构建检索串语素签名和倒排索引;所述检索串语素签名和倒排索引为语素签名和相同的各倒排索引数据结构;所述各倒排索引数据结构,为各组检索串的倒排索引数据结构;所述语素签名和,为对所述历史高频检索串进行分词后计算得到的各个语素签名的和;
检索串语素签名和倒排索引查询模块,用于根据输入匹配系统的原始检索串查询所述检索串语素签名和倒排索引,得到与所述原始检索串语素签名和相同的检索串集合;
高频检索串词表查询模块,用于根据所述检索串集合中的检索串查询高频检索串词表,得到对应的关键词关键词。
8.根据权利要求7所述搜索系统,其特征在于,所述检索串语素签名和倒排索引构建模块进一步用于,基于历史高频检索串、以及对所述历史高频检索串进行离线扩展得到的对应扩展检索串,构建检索串语素签名和倒排索引;
相应的,所述检索串语素签名和倒排索引为对所述历史高频检索串和扩展检索串进行分词后,语素签名和相同的各组检索串的倒排索引数据结构。
9.根据权利要求7所述搜索系统,其特征在于,所述检索串语素签名和倒排索引查询模块进一步用于,对所述原始检索串进行分词得到至少一个语素,并对得到的语素进行哈希运算得到原始检索串的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
10.根据权利要求9所述搜索系统,其特征在于,所述检索串语素签名和倒排索引查询模块进一步用于,在根据输入匹配系统的原始检索串查询检索串语素签名和倒排索引之前,对输入匹配系统的原始检索串进行在线分析,得到在线分析结果;
相应的,所述查询检索串语素签名和倒排索引为:对所述在线分析结果进行分词得到至少一个语素,并对得到的语素进行哈希运算得到相应的语素签名和,根据运算得到的语素签名和查询所述检索串语素签名和倒排索引。
11.根据权利要求10所述搜索系统,其特征在于,所述在线分析包括以下至少一种方式:精确匹配、词组匹配、广泛匹配、核心成分分析。
12.根据权利要求7至11任一项所述搜索系统,其特征在于,该系统还包括:
关键词语素签名和倒排索引构建模块,用于预先基于已有的关键词集合构建关键词语素签名和倒排索引,所述关键词语素签名和倒排索引为对所述关键词进行分词后,语素签名和相同的各组关键词的倒排索引数据结构;
关键词语素签名和倒排索引查询模块,用于在所述高频检索串词表查询模块根据检索串集合中的检索串查询高频检索串词表,得到对应的关键词后,所述关键词语素签名和倒排索引查询模块根据所得关键词查询所述关键词语素签名和倒排索引,得到对应的扩展关键词。
CN201210457609.2A 2012-11-14 2012-11-14 一种搜索方法和系统 Active CN103810213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210457609.2A CN103810213B (zh) 2012-11-14 2012-11-14 一种搜索方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210457609.2A CN103810213B (zh) 2012-11-14 2012-11-14 一种搜索方法和系统

Publications (2)

Publication Number Publication Date
CN103810213A CN103810213A (zh) 2014-05-21
CN103810213B true CN103810213B (zh) 2017-09-12

Family

ID=50706996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210457609.2A Active CN103810213B (zh) 2012-11-14 2012-11-14 一种搜索方法和系统

Country Status (1)

Country Link
CN (1) CN103810213B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550225B (zh) * 2015-12-07 2019-05-28 百度在线网络技术(北京)有限公司 索引构建方法、查询方法及装置
CN105447724B (zh) * 2015-12-15 2022-04-05 腾讯科技(深圳)有限公司 内容项推荐方法及装置
CN107908615A (zh) * 2017-10-17 2018-04-13 北京京东尚科信息技术有限公司 一种获取搜索词对应商品类目的方法和装置
CN109360017B (zh) * 2018-09-11 2021-08-13 阿里巴巴(中国)有限公司 为查询语句确定广告保留价的方法和装置
CN111581328A (zh) * 2020-04-21 2020-08-25 浙江华途信息安全技术股份有限公司 一种数据比对检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140573A (zh) * 2006-09-05 2008-03-12 阿里巴巴公司 一种实现信息搜索的方法及系统
CN101814080A (zh) * 2006-09-05 2010-08-25 阿里巴巴集团控股有限公司 一种实现信息搜索的方法及装置
CN102063446A (zh) * 2009-11-13 2011-05-18 中国移动通信集团四川有限公司 一种建立倒排索引的方法及倒排索引装置
CN102722553A (zh) * 2012-05-24 2012-10-10 浙江大学 基于用户日志分析的分布式倒排索引组织方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260784B2 (en) * 2009-02-13 2012-09-04 International Business Machines Corporation Indexing and searching JSON objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140573A (zh) * 2006-09-05 2008-03-12 阿里巴巴公司 一种实现信息搜索的方法及系统
CN101814080A (zh) * 2006-09-05 2010-08-25 阿里巴巴集团控股有限公司 一种实现信息搜索的方法及装置
CN102063446A (zh) * 2009-11-13 2011-05-18 中国移动通信集团四川有限公司 一种建立倒排索引的方法及倒排索引装置
CN102722553A (zh) * 2012-05-24 2012-10-10 浙江大学 基于用户日志分析的分布式倒排索引组织方法

Also Published As

Publication number Publication date
CN103810213A (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
US10061766B2 (en) Systems and methods for domain-specific machine-interpretation of input data
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
US10073840B2 (en) Unsupervised relation detection model training
CN104850554B (zh) 一种搜索方法和系统
CN103810213B (zh) 一种搜索方法和系统
CN106815252A (zh) 一种搜索方法和设备
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
JP2013529805A5 (ja) 検索方法、検索システム及びコンピュータプログラム
CN106708929B (zh) 视频节目的搜索方法和装置
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN104615724A (zh) 知识库的建立以及基于知识库的信息搜索方法和装置
CN112307153B (zh) 一种产业知识库自动构建方法、装置及存储介质
CN110032733A (zh) 一种针对新闻长文本的谣言检测方法及系统
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
US11573989B2 (en) Corpus specific generative query completion assistant
CN104036010A (zh) 一种基于半监督cbow的用户搜索词主题分类的方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112347761B (zh) 基于bert的药物关系抽取方法
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Zhang et al. Joint entity linking and relation extraction with neural networks for knowledge base population

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant