CN102955812B - 一种构建索引库的方法、装置及查询方法和装置 - Google Patents

一种构建索引库的方法、装置及查询方法和装置 Download PDF

Info

Publication number
CN102955812B
CN102955812B CN201110251177.5A CN201110251177A CN102955812B CN 102955812 B CN102955812 B CN 102955812B CN 201110251177 A CN201110251177 A CN 201110251177A CN 102955812 B CN102955812 B CN 102955812B
Authority
CN
China
Prior art keywords
keyword
classification
electronic document
index
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110251177.5A
Other languages
English (en)
Other versions
CN102955812A (zh
Inventor
吴凯
杨二宝
沈加翔
陈维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201110251177.5A priority Critical patent/CN102955812B/zh
Publication of CN102955812A publication Critical patent/CN102955812A/zh
Priority to HK13104558.1A priority patent/HK1177524A1/zh
Application granted granted Critical
Publication of CN102955812B publication Critical patent/CN102955812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种构建索引库的方法、装置及查询方法和装置。构建索引库的方法包括:收集电子文档;提取所述电子文档中的关键词;将所述关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;过滤掉所述第一类别关键词和所述第二类别关键词;以及针对所述第三类别关键词建立倒排索引;其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词。本申请实施例采用了给关键词分类的方法,排除了不需要建立索引的关键词,所以节约了磁盘的空间,而且当查询关键词为不需要建立索引的关键词时,则不用查询索引库,节约了磁盘读写操作的开销。

Description

一种构建索引库的方法、装置及查询方法和装置
技术领域
本发明涉及信息处理技术,尤其涉及一种构建索引库的方法、装置及查询方法和装置。
背景技术
随着互联网的发展,信息量越来越大,各种搜索引擎就应用而生。如图1所示,传统的搜索引擎主要包括如下几个部分:
搜索器101,其功能主要是在互联网中漫游,发现和搜集信息;
索引器102,其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,并存入索引库105中;
检索器103,其功能是根据用户的查询在索引库105中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
用户接口104,其作用是接纳用户查询、显示查询结果、提供个性化查询项。
其中,如图2所示,索引器102通过以下方法建立索引:
步骤1021:收集电子文档;
步骤1022:提取电子文档中的关键词;
步骤1023:构建索引。
在步骤1022中,对电子文档的提取关键词举例说明如下:
例如,文章1的内容为:你住在广州,我也住在广州;
文章2的内容为:他曾经住在上海。
取得这两篇文章的关键词,通常有以下步骤:对两片文章进行分词处理;将“在”、“也”和“曾经”和标号等这些不代表实际意义的词过滤掉。
经过处理后,文章1的所有关键词为:【你】、【住】、【广州】、【我】、【住】、【广州】;文章2的所有关键字为:【他】、【住】、【上海】。
接下来,进行步骤1023,构建索引,目前比较常用的构建索引的方法是倒排索引,简化的倒排索引的建立方法将在下文中详细叙述。上面的对应关系是“文章号”对“文章中所有关键词”,而倒排索引是把这个关系倒过来,变成“关键词”对“拥有该关键词的所有文章号”。文章1、2经过倒排后变成:
以关键词【住】来说,出现在文章1和文章2中,所以当使用者输入关键词【住】进行查询时,检索的结果就包含所有包含关键词【住】的文章,在这个例子中,即文章1和2,对应关键词【住】的倒排链即为{1,2}。
本发明人在实现本发明的过程中,至少发现如下技术问题:
在现有的方法中,只要是搜索器101搜集到得信息、文档等,索引器102都会给这些信息、文档建立索引,所以,索引器102的索引过程工作量大且耗时长。
现有的方法在检索过程中,检索器会将包含有关键词的文档列出来,当索引数据量特别大时,检索输出的文档也会非常多,很多与关键词相关度较低的文档也会被输出。
另外,在现有的方法中,由于索引器会针对每个关键词建索引,并根据检索词列出所有与所述检索词对应关键词的文档,这导致需要占用大量的存储空间,消耗大量的内存。
发明内容
本申请提供一种构建索引库的方法、装置用以解决现有技术中存在的索引过程中存在工作量大且耗时长的技术问题。
本申请一方面提供了一种构建索引库的方法,包括:收集电子文档;提取所述电子文档中的关键词;将所述关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;过滤掉所述第一类别关键词和所述第二类别关键词;针对所述第三类别关键词建立倒排索引;其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词。
优选地,所述分类步骤包括:判断所述关键词是否属于第一预定词汇集,如果是,则将所述关键词归类于所述第一类别关键词;如果不是,则判断所述关键词是否属于第二预定词汇集,如果是,则将所述关键词归类于所述第二类别关键词;如果不是,则将所述关键词归类于所述第三类别关键词。
优选地,所述第一预定词汇集包括虚词,所述第二预定词汇集包括停用词。
优选地,在所述针对所述第三类别关键词建立倒排索引时,所述方法还包括:计算所述第三类别关键词中每个关键词与对应电子文档的相关度;以及,按照所述相关度,将所述第三类别关键词中每个关键词对应倒排链中的电子文档编号排序。
优选地,在所述针对所述第三类别关键词建立倒排索引之后,所述方法还包括:统计所述第三类别关键词中每个关键词对应电子文档的总数量;找出所述对应电子文档的总数量高于第一阈值的高频关键词;过滤掉所述每个高频关键词对应倒排链中排序在第二阈值之后的电子文档编号,其中,所述每个高频关键词对应倒排链中的电子文档编号是按所述相关度降序排序,且所述第二阈值小于所述总数量。优选地,在所述针对所述第三类别关键词建立倒排索引之后,所述方法还包括:统计所述第三类别关键词中每个关键词对应电子文档的总数量;找出所述对应电子文档的总数量高于第一阈值的高频关键词;过滤掉所述每个高频关键词对应倒排链中相关度值低于第三阈值的电子文档对应的电子文档编号。
本申请另一方面提供了一种构建索引库的装置,应用于一搜索系统,所述装置包括:收集单元,用于收集电子文档;提取单元,用于提取所述电子文档中的关键词;分类单元,用于将所述关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;第一过滤单元,用于过滤掉所述第一类别关键词和所述第二类别关键词;以及索引建立单元,针对所述第三类别关键词建立倒排索引;其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词。
本申请再一方面还提供了一种利用本申请实施例所述的方法构建的索引库进行查询的方法,包括:接收N个查询关键词,所述N为大于或等于1的整数;判断所述N个查询关键词中是否有查询关键词是第三类别关键词;当所述判断的结果为是时,根据所述N个查询关键词中属于所述第三类别关键词的查询关键词,在所述索引库中进行检索,并返回检索结果。
本申请还提供了一种利用本申请实施例所述的查询方法进行查询的查询装置,包括:接收器,用于接收N个查询关键词,所述N为大于或等于1的整数;关键词类别判断器,用于判断所述N个查询关键词中是否有查询关键词是第三类别关键词;索引检索器,用于当所述关键词类别判断器的判断结果为是时,,根据所述N个查询关键词中属于所述第三类别关键词的查询关键词,在所述索引库中进行检索,并返回检索结果。
本申请有益效果如下:
本申请实施例采用了给关键词分类的方法,排除了不需要建立索引的关键词,所以节约了磁盘的空间,而且当查询关键词为不需要建立索引的关键词时,则不用查询索引库,节约了磁盘读写操作的开销。
在优选实施例中,通过预先计算每一关键词与对应电子文档的相关度,并将每一关键词对应倒排链中的电子文档编号按照相关度排序,当查询关键词只有一个第三类别关键词时,可以直接返回排序好的电子文档列表,而不需要再进行相关度计算以及排序,这提高了查询响应速度。
在更进一步的优选实施例中,通过过滤掉相关度低的电子文档对应的电子文档编号,这进一步减小了索引量,降低了资源浪费并降低了磁盘的读写操作的开销。查询时,在不影响查询结果的情况下,由于数据传输量变小,所以响应速度变快,用户查询速度也提高了。
附图说明
图1为现有技术中搜索引擎的结构框图;
图2为现有技术中构建索引库的方法流程图;
图3为本申请一实施例中构建索引库的方法流程图;
图4为本申请一实施例中构建索引库的装置功能方框图;
图5为根据本申请一实施例中利用本申请构建的索引库进行查询的方法流程图;
图6为根据本申请一实施例中利用本申请构建的索引库进行查询的装置功能方框图。
具体实施方式
如图3所示,图3为本申请一实施例中构建索引库的方法流程图,本实施例中的一种构建索引库的方法包括:
步骤310:收集电子文档;
步骤312:提取电子文档中的关键词;
步骤314:将关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;以及
步骤316:过滤掉第一类别关键词和第二类别关键词;以及
步骤318:针对第三类别关键词建立倒排索引。
其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词。电子文档包括网页,WORD文档、PDF文档等电子信息。
在步骤312中,关键词可以是对电子文档中的文章进行分词得到的。本领域技术人员可以采用已知的各种方法进行分词,这里不再详述。
在步骤314的分类步骤中,该分类可基于预定的分类标准进行分类,本领域技术人员可根据实际应用的需求来选择该分类标准或者该预定词汇集。例如,可以判断该关键词是否属于第一预定词汇集,如果属于则将所述关键词归类为第一类别关键词;如果不是,则判断该关键词是否属于第二预定词汇集,如果属于则将该关键词归类于第二类别关键词;如果不是,则将该关键词归类于第三类别关键词。在其他实施例中,也可以先判断关键词是否属于第二预定词汇集,然后再判断是否属于第一预定词汇集。
该第一预定词汇集包括副词、介词、连词、助词、语气词、象声词等虚词,可以是中文词汇,也可以是英文词汇,还可以是标点符号集;第二预定词汇集可以基于一词汇黑名单来确定,在其它实施例中,第二预定词汇集还包括其他不需要建立索引的关键词,本申请对此不作限制。
步骤316和步骤318并没有顺序限制,可以先后进行也可以同时进行。
在本实施例中,对关键词进行分类,一方面可以过滤掉例如虚词等没有实际意义的关键词,可以减小索引工作量,节约建立索引的时间;另一方面,可以进一步过滤掉例如网络中黑名单中的词汇,及其他不需要建立索引的词汇,这些词汇统称为停用词,所以进一步缩减了索引的工作量和时间。而且,对于属于第一类别关键词和第二类别关键词的查询关键词,并不需要去索引库中进行检索,减少了磁盘的读写操作开销,提高了查询响应速度。
进一步,在另一实施例中,在针对所述第三类别关键词建立倒排索引时,构建索引库的方法还包括:分别计算第三类别关键词中每个关键词与对应电子文档的相关度,然后按照相关度,将每个关键词对应的倒排链中的电子文档编号排序。例如,关键词【广州】在电子文档编号为1、3、5、6、8、20的电子文档中出现过,用倒排索引来表示就是:
关键词  电子文档编号
广州    1、3、5、6、8、20
但是通过分别计算关键词【广州】与电子文档1、3、5、6、8及20的相关度之后发现,关键词【广州】与电子文档3的相关度最高,例如为80,其次是电子文档8,例如为70,接下来依次是电子文档1(得分为60)、6(得分为50)、20(得分为9)、5(得分为9)。然后按照相关度,将关键词【广州】的倒排链中的电子文档编号排序,本实施例以降序排序为例但不限于降序排序,所以关键词【广州】的倒排索引为:
关键词  电子文档编号
广州    3、8、1、6、20、5
因此,当接收到第三类别关键词的一个查询关键词时,可以直接按照相关度从高到底的顺序返回结果,在查询过程中可以不用再进行计算相关度,然后排序等步骤,这进一步提高了查询速度。在其他实施例中,返回的查询结果也可以是相关度排序靠前的电子文档,而排序靠后的电子文档被过滤掉。
其中,计算相关度的方法有很多种,例如计算关键词在电子文档中出现的频次,即词频(term frequency,TF);或者针对出现在title中的TF进行加权;或者不仅考虑TF,也考虑其他因素,例如page rank(网页排名)等因素综合计算相关度;本领域技术人员还可以选择其他方法计算相关度,只要可以得到本实施例中的相关度排序,都在本申请涵盖的范围内。
更进一步地,在又一实施例中,在针对第三类别关键词建立倒排索引之后,当得到相关度排序后,统计第三类别关键词中每个关键词对应电子文档的总数量,找出对应电子文档总数量高于第一阈值的高频关键词,然后过滤掉高频关键词中每个高频关键词对应倒排链中的电子文档编号排序在第二阈值之后的电子文档编号,其中,每个高频关键词对应倒排链中的电子文档编号是按照相关度降序排序。其中,例如第一阈值为100000,在其他实施例中,第一阈值可以为其他数值,本领域技术人员可以根据需要任意设置,本申请不作限制;第二阈值小于总数量,可以大于第一阈值也可以小于第一阈值,本领域技术人员可以根据需要进行设置,本申请不作限制。
在倒排索引中,高频词的索引量特别大,电子文档倒排链很长,对应的电子文档数量甚至在百万之上,所以在本实施例中,找出对应电子文档数量高于第一阈值的高频关键词,然后过滤掉高频关键词中每个高频关键词对应倒排链中的电子文档编号排序在第二阈值之后的电子文档编号,以便精简索引。还是以关键词【广州】为例,其倒排链中电子文档编号的降序排列为3、8、1、6、20、5,例如本实施例中设置排序在第五之后电子文档编号都过滤掉,所以关键词【广州】的倒排链就变为{3、8、1、6、20}。因此,索引量变小,当用户进行查询时,数据传输量变小,减小了内存的消耗,同时也节约了磁盘空间,但是并不影响检索结果。
在再一实施例中,也可以根据相关度值来过滤电子文档编号,即过滤掉高频关键词中每个高频关键词对应倒排链中相关度值低于第三阈值的电子文档对应的电子文档编号,根据不同的相关度算法所得出的相关度值域是不相同的,所以本领域技术人员可以根据与使用的相关度算法一致的值域中的值来灵活设置第三阈值。例如,继续以前述例子中关键词【广州】为例,在本实施例中,第三阈值设为10,那电子文档编号20和5就会都过滤掉,因为电子文档编号20和5对应的电子文档的相关度值均为9,这样可进一步精简索引,使得检索结果相关度更加精确。并且可进一步节约磁盘空间,减少读取磁盘的开销,节约从磁盘传输的数据量和提高查询响应速度。
请再参考图4,图4为本申请一实施例中的构建索引库的装置功能方框图。构建索引库的装置包括:
收集单元410,用于收集电子文档;
提取单元412,用于提取电子文档中的关键词;
分类单元414,用于将关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;
第一过滤单元416,用于过滤掉第一类别关键词和第二类别关键词;以及
索引建立单元418,针对第三类别关键词建立倒排索引。
该装置应用于一搜索系统,以上各个单元可以由软件、固件、硬件实现及结合来实现,本申请不作限制。
其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词。
分类单元414被配置为判断关键词是否属于第一预定词汇集420,如果是,则将关键词归类于第一类别关键词;如果不是,则判断关键词是否属于第二预定词汇集422,如果是,则将关键词归类于第二类别关键词;如果不是,则将关键词归类于第三类别关键词。本领域技术人员可根据实际应用的需求来选择该分类标准或者该预定词汇集。
例如,该第一预定词汇集420包括副词、介词、连词、助词、语气词、象声词等虚词,可以是中文词汇,也可以是英文词汇,还可以是标点符号集;第二预定词汇集422可以基于一词汇黑名单来确定。在其它实施例中,第二预定词汇集422还包括其他不需要建立索引的关键词,本申请对此不作限制。
进一步,在另一实施例中,该装置还包括:计算单元,分别计算第三类别关键词中每个关键词与对应电子文档的相关度;排序单元,按照相关度将第三类别关键词中每个关键词对应的倒排链中的电子文档编号排序。
更进一步地,在又一实施例中,该装置还包括统计单元,统计第三类别关键词中每个关键词对应电子文档的总数量;查找单元,找出对应电子文档总数量高于第一阈值的高频关键词,然后利用第二过滤单元过滤掉高频关键词中每个高频关键词对应倒排链中的电子文档编号排序在第二阈值之后的电子文档编号,其中,每个高频关键词对应倒排链中的电子文档编号是按照对应电子文档的相关度降序排序。
其中,例如第一阈值为100000,在其他实施例中,第一阈值可以为其他数值,本领域技术人员可以根据需要任意设置,本申请不作限制;第二阈值小于总数量,可以大于第一阈值也可以小于第一阈值,本领域技术人员可以根据需要进行设置,本申请不作限制。
在再一实施例中,还包括第三过滤单元,利用第三过滤单元代替第二过滤单元,过滤所述高频关键词中每个高频关键词对应倒排链中相关度得分低于第三阈值的电子文档对应的电子文档编号。根据不同的相关度算法所得出的相关度值域是不相同的,所以本领域技术人员可以根据与使用的相关度算法一致的值域中的值来灵活设置第三阈值。
通过阅读上文所描述的根据本申请实施例的构建索引库的方法的操作过程,图4所示的构建索引库的装置的上述各个单元如何实现就变得非常清楚了,因此,为了说明书的简洁,在此就不再对上述各个单元的功能如何实现进行详细描述了。
此外,需要说明的是,虽然以上结合图4对根据本实施例的构建索引库的装置进行了描述,但是本领域技术人员完全可以根据实际需要对图4所示的示意图进行变型或更改。
根据本发明的实施例,还提供了一种利用本发明的构建索引库的方法所构建的索引库来进行查询以及相应的装置。
请参考图5,图5为根据本实施例中利用本申请构建的索引库进行查询的方法流程图。
如图5所示,该查询方法包括:
步骤501:接收N个查询关键词,N为大于或等于1的整数;
步骤502:判断N个查询关键词中是否有查询关键词是第三类别关键词;
步骤503:当所述判断的结果为是时,根据所述N个查询关键词中属于所述第三类别关键词的查询关键词,在所述索引库中进行检索,并返回检索得到结果。
其中,在步骤502中,判断N个查询关键词是够有查询关键词是第三类别关键词时,例如可以判断该关键词是否属于第一预定词汇集,如果不是,则判断该关键词是否属于第二预定词汇集,如果不是,则可以确定该关键词是第三类别关键词。
其中,例如该第一预定词汇集包括副词、介词、连词、助词、语气词、象声词等虚词,可以是中文词汇,也可以是英文词汇,还可以是标点符号集;第二预定词汇集可以基于一词汇黑名单来确定,在其它实施例中,第二预定词汇集还包括其他不需要建立索引的关键词,本申请对此不作限制,这些词汇统称停用词。
进一步,在另一实施例中,该查询方法还包括步骤504:当判断步骤502判断的结果是该N个查询关键词中没有查询关键词是第三类别关键词时,则直接返回查询关键词无效的提示信息,而并不需要去检索索引库,所以节约了读取磁盘的次数,降低了资源消耗。
在其他实施例中,当判断步骤502判断的结果是该N个查询关键词中没有查询关键词是第三类别关键词时,也可以直接返回结果为0的查询页面,也可以返回提示用户关键词不存在的信息。
根据图6所示,图6为根据本实施例中利用本申请构建的索引库进行查询的装置。如图6所示,该装置包括:接收器610,用于接收N个查询关键词;其中N为大于或等于1的整数;关键词类别判断器612,用于判断N个查询关键词中是否有查询关键词是第三类别关键词,例如可以判断该关键词是否属于第一预定词汇集,如果不是,则判断该关键词是否属于第二预定词汇集,如果不是,则可以确定该关键词是第三类别关键词;索引检索器614,用于当所述关键词类别判断器的判断结果为是时,根据所述N个查询关键词中属于所述第三类别关键词的查询关键词,在所述索引库中进行检索,并返回检索结果。
其中,例如该第一预定词汇集包括副词、介词、连词、助词、语气词、象声词等虚词,可以是中文词汇,也可以是英文词汇,还可以是标点符号集;第二预定词汇集可以基于一词汇黑名单来确定。在其它实施例中,第二预定词汇集还包括其他不需要建立索引的关键词,本申请对此不作限制,这些词汇统称停用词。
通过阅读上文所描述的根据本申请实施例的利用本申请构建的索引库来进行的查询方法的操作过程,图6所示的构建索引库的装置的上述各个部件如何实现就变得非常清楚了,因此,为了说明书的简洁,在此就不再对上述各个部件的功能如何实现进行详细描述了。
通过本申请中的上述实施例中的一个实施例或多个实施例,至少可以实现如下技术效果:
本申请一实施例中采用了给关键词分类的方法,排除了不需要建立索引的关键词,这不但缩减了索引量和时间,而且节约了磁盘的空间。当查询关键词为不需要建立索引的关键词时,则不用查询索引库,这进一步节约了磁盘读写操作的开销。
进一步,本申请一实施例中计算每一关键词与对应电子文档的相关度,并将每一关键词对应倒排链中的电子文档编号按照相关度排序,所以当查询关键词只有一个第三类别关键词时,可以直接返回排序好的电子文档列表,可以不用再进行相关度计算以及排序,所以提高了查询响应速度,而且内存消耗小。
更进一步地,本申请还过滤掉索引中相关度低的电子文档的电子文档编号,这样可进一步减小了索引量节约了磁盘空间,降低了资源浪费,而且减小了磁盘的读写操作开销。查询时,在不影响查询结果的前提下,由于数据传输量变小,所以响应速度变快,用户查询速度也提高了。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种构建索引库的方法,其特征在于,所述方法包括:
构建索引库的装置收集电子文档;
提取所述电子文档中的关键词;
将所述关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;
过滤所述第一类别关键词和所述第二类别关键词;以及
针对所述第三类别关键词建立倒排索引;
其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词;
在所述针对所述第三类别关键词建立倒排索引时,所述方法还包括:
计算所述第三类别关键词中每个关键词与对应电子文档的相关度;以及
按照所述相关度,将所述第三类别关键词中每个关键词对应倒排链中的电子文档编号排序。
2.如权利要求1所述的构建索引库的方法,其特征在于,所述分类步骤包括:
判断所述关键词是否属于第一预定词汇集,如果是,则将所述关键词归类于所述第一类别关键词;
如果不是,则判断所述关键词是否属于第二预定词汇集,如果是,则将所述关键词归类于所述第二类别关键词;以及
如果不是,则将所述关键词归类于所述第三类别关键词。
3.如权利要求2所述的构建索引库的方法,其特征在于,所述第一预定词汇集包括虚词,所述第二预定词汇集包括停用词。
4.如权利要求3所述的构建索引库的方法,其特征在于,在所述针对所述第三类别关键词建立倒排索引之后,所述方法还包括:
统计所述第三类别关键词中每个关键词对应电子文档的总数量;
找出所述对应电子文档的总数量高于第一阈值的高频关键词;
过滤掉所述每个高频关键词对应倒排链中排序在第二阈值之后的电子文档编号,其中,所述每个高频关键词对应倒排链中的电子文档编号是依据所述相关度降序排序,且所述第二阈值小于所述总数量。
5.如权利要求3所述的构建索引库的方法,其特征在于,在所述针对所述第三类别关键词建立倒排索引之后,所述方法还包括:
统计所述第三类别关键词中每个关键词对应电子文档的总数量;
找出所述对应电子文档的总数量高于第一阈值的高频关键词;
过滤掉所述每个高频关键词对应倒排链中相关度值低于第三阈值的电子文档对应的电子文档编号。
6.一种构建索引库的装置,应用于一搜索系统,其特征在于,所述装置包括:
收集单元,用于收集电子文档;
提取单元,用于提取所述电子文档中的关键词;
分类单元,用于将所述关键词分类为第一类别关键词、第二类别关键词和第三类别关键词;
第一过滤单元,用于过滤掉所述第一类别关键词和所述第二类别关键词;以及
索引建立单元,针对所述第三类别关键词建立倒排索引;
其中,所述第一类别关键词、所述第二类别关键词和所述第三类别关键词属于不同类别的关键词;
计算单元,分别计算第三类别关键词中每个关键词与对应电子文档的相关度;排序单元,按照相关度将第三类别关键词中每个关键词对应的倒排链中的电子文档编号排序。
7.一种利用如权利要求1-5任一个所述的方法构建的索引库进行查询的方法,其特征在于,所述方法包括:
接收N个查询关键词,所述N为大于或等于1的整数;
判断所述N个查询关键词中是否有查询关键词是第三类别关键词;
当所述判断的结果为是时,根据所述N个查询关键词中属于所述第三类别关键词的查询关键词,在所述索引库中进行检索,并返回检索结果。
8.一种利用如权利要求7所述的查询方法进行查询的查询装置,其特征在于,所述装置包括;
接收器,用于接收N个查询关键词,所述N为大于或等于1的整数;
关键词类别判断器,用于判断所述N个查询关键词中是否有查询关键词是第三类别关键词;
索引检索器,用于当所述关键词类别判断器的判断结果为是时,根据所述N个查询关键词中属于所述第三类别关键词的查询关键词,在所述索引库中进行检索,并返回检索结果。
CN201110251177.5A 2011-08-29 2011-08-29 一种构建索引库的方法、装置及查询方法和装置 Active CN102955812B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201110251177.5A CN102955812B (zh) 2011-08-29 2011-08-29 一种构建索引库的方法、装置及查询方法和装置
HK13104558.1A HK1177524A1 (zh) 2011-08-29 2013-04-16 種構建索引庫的方法、裝置及查詢方法和裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110251177.5A CN102955812B (zh) 2011-08-29 2011-08-29 一种构建索引库的方法、装置及查询方法和装置

Publications (2)

Publication Number Publication Date
CN102955812A CN102955812A (zh) 2013-03-06
CN102955812B true CN102955812B (zh) 2015-10-14

Family

ID=47764624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110251177.5A Active CN102955812B (zh) 2011-08-29 2011-08-29 一种构建索引库的方法、装置及查询方法和装置

Country Status (2)

Country Link
CN (1) CN102955812B (zh)
HK (1) HK1177524A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104636384B (zh) * 2013-11-13 2019-07-16 腾讯科技(深圳)有限公司 一种处理文档的方法及装置
CN104834736A (zh) * 2015-05-19 2015-08-12 深圳证券信息有限公司 构建索引库的方法、装置及检索的方法、装置和系统
CN108475265B (zh) * 2015-11-25 2021-03-30 华为技术有限公司 获取未登录词的方法与装置
CN106970922A (zh) * 2016-01-14 2017-07-21 北大方正集团有限公司 基于多字段关键词的索引建立方法、检索方法及索引系统
CN106844554A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同分类自动识别方法及系统
CN108427702B (zh) * 2017-10-23 2021-02-09 平安科技(深圳)有限公司 目标文档获取方法及应用服务器
CN111259145B (zh) * 2020-01-16 2023-05-12 广西计算中心有限责任公司 基于情报数据的文本检索分类方法、系统及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法

Also Published As

Publication number Publication date
CN102955812A (zh) 2013-03-06
HK1177524A1 (zh) 2013-08-23

Similar Documents

Publication Publication Date Title
CN102955812B (zh) 一种构建索引库的方法、装置及查询方法和装置
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN103258000B (zh) 对网页中高频关键词进行聚类的方法及装置
US8321410B1 (en) Identification of semantic units from within a search query
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
US7636714B1 (en) Determining query term synonyms within query context
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
CN101620608A (zh) 信息采集方法及系统
CN1290036C (zh) 根据机器可读词典建立概念知识的计算机系统及方法
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN100433018C (zh) 电子文档与某一领域相关程度的判别方法及其应用
CN111368038B (zh) 一种关键词的提取方法、装置、计算机设备和存储介质
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN103838756A (zh) 一种确定推送信息的方法及装置
CN103577478A (zh) 网页推送方法及系统
CN104965905A (zh) 一种网页分类的方法和装置
CN103207864A (zh) 一种网络小说内容近似度比对方法
CN105512143A (zh) 一种网页分类方法及装置
CN102012915A (zh) 一种文档共享平台的关键词推荐方法及系统
CN110543595A (zh) 一种站内搜索系统及方法
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN103559258A (zh) 基于云计算的网页排序方法
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
KR101059557B1 (ko) 정보 검색 방법 및 이를 수행할 수 있는 프로그램이 수록된컴퓨터로 읽을 수 있는 기록 매체
CN103646029A (zh) 一种针对博文的相似度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1177524

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1177524

Country of ref document: HK