CN103530298A

CN103530298A - 一种信息搜索方法和装置

Info

Publication number: CN103530298A
Application number: CN201210232960.1A
Authority: CN
Inventors: 谢朴锐
Original assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-07-06
Filing date: 2012-07-06
Publication date: 2014-01-22

Abstract

本申请公开了一种信息搜索方法和装置。该方法包括：获取查询词，基于两个以上的词典分别对所述查询词进行分词，得到每个词典对应的分词结果，其中，所述两个以上的词典包括基本词典和新词词典，当需要收录所述基本词典中当前未收录的词组时，将所述当前未收录的词组存储在所述新词词典中；根据每个词典对应的分词结果分别获取搜索结果信息，得到每个词典对应的搜索结果信息，从各个词典对应的搜索结果信息中确定最终的搜索结果。应用本发明使得信息搜索结果更加全面。

Description

一种信息搜索方法和装置

技术领域

本申请涉及信息搜索技术领域，尤其涉及一种信息搜索方法和装置。

背景技术

在当前信息化的社会中，信息搜索得到了广泛应用。目前的信息搜索过程一般包括：接收查询词，对查询词进行分词，根据分词结果查询倒排数据库，从倒排数据库中获取搜索结果，返回搜索结果。

其中，分词是指，根据词典中的词组，将分词目标（例如查询词）划分为词典中的一个或多个词组；倒排数据库用于存储待搜索文档的索引信息，具体地，倒排数据库以词典中的词组作为索引，每一词组对应了以该词组作为索引的所有待搜索文档的信息。

随着当前信息更新速度的加快，会不断涌现出新词，即未在词典中收录的词，这些新词常常可以由词典中已经收录的词组（简称旧词）组成，但是却拥有与组成该新词的各个旧词迥然不同的含义，比如“屌丝”由“屌”和“丝”组成，但是“屌丝”的含义却与“屌”和“丝”的含义完全不同。

由于新词的出现，将导致分词所基于的词典的内容也将发生变化，由于分词是以词典中收录的词组作为最小单元而进行的，因此，随着词典内容的变化，即在词典收录新词以前和收录新词之后，将导致针对同一分词目标的分词结果发生变化。

具体地，在进行分词所基于的词典收录新词之前，搜索引擎将按照词典中已收录的词组对该新词进行分词，得到组成该新词的各个词组，并根据组成该新词的各个词组从倒排数据库中获取搜索结果，例如在“屌丝”被收录到词典之前，对该“屌丝”的分词结果为“屌”和“丝”，则根据“屌”和“丝”从倒排数据库中获取搜索结果；在进行分词所基于的词典收录所述新词之后，搜索引擎将按照所述新词从倒排数据库中获取搜索结果。其中，倒排数据库中的文档索引信息，也会在词典中收录的词组更新以后，根据更新的词典中收录的词组重新对待搜索文档建立索引。

可见，目前的信息搜索方法中，由于词典的内容会随着新词的涌现和收录而不断发生变化，因此，导致搜索结果要么仅能查询到与组成查询词的各个词组相关的文档，要么仅能查询到与查询词本身相关的文档，信息搜索的结果不够全面。

发明内容

本申请提供了一种信息搜索方法和装置，从而使得信息搜索结果更加全面。

本申请的技术方案具体是这样实现的：

一种信息搜索方法，该方法包括：

获取查询词，基于两个以上的词典分别对所述查询词进行分词，得到每个词典对应的分词结果，其中，所述两个以上的词典包括基本词典和新词词典，所述新词词典用于存储所述基本词典中未收录的词组；

根据每个词典对应的分词结果分别获取搜索结果信息，得到每个词典对应的搜索结果信息，从各个词典对应的搜索结果信息中确定最终的搜索结果。

一种信息搜索装置，该装置包括第一获取模块、分词模块、第二获取模块和确定模块；

所述第一获取模块，用于获取查询词；

所述分词模块，用于基于两个以上的词典分别对所述查询词进行分词，得到每个词典对应的分词结果，其中，所述两个以上的词典包括基本词典和新词词典，所述新词词典用于存储所述基本词典中未收录的词组；

所述第二获取模块，用于根据每个词典对应的分词结果分别获取搜索结果信息，得到每个词典对应的搜索结果信息；

所述确定模块，用于根据各个词典对应的搜索结果信息，确定最终的搜索结果。

由上述方案可见，本申请在接收到查询词以后，基于两个以上的词典分别对所述查询词进行分词，得到每个词典对应的分词结果，根据每个词典对应的分词结果分别获取每个词典对应的搜索结果信息以后，根据各个词典对应的搜索结果信息，确定最终的搜索结果，并且，其中所述的两个以上的词典包括基本词典和新词词典，所述新词词典用于存储所述基本词典中未收录的词组。可见，由于本申请中，基于基本词典和新词词典进行分词，由于对于新词等基本词典中未收录的词组，并非像现有技术那样直接更新词典中已有的词组，而是将新词等基本词典中未收录的词组另外存储在新词词典中，综合利用基本词典和新词词典对查询词进行分词，并根据分词结果获取搜索结果信息，进而确定最终的搜索结果，因此，能够解决现有技术中由于词典内容不断变化导致的问题，即解决搜索结果要么仅能查询到与组成查询词的各个词组相关的文档，要么仅能查询到与查询词本身相关的文档，搜索结果不够全面的问题，使得搜索结果更加全面，提高了信息搜索质量。

附图说明

图1是本发明提供的信息搜索方法流程图。

图2是本发明提供的信息搜索装置结构图。

具体实施方式

图1是本发明提供的信息搜索方法流程图。

如图1所示，该流程包括：

步骤101，获取查询词。

本步骤中，所述获取可以是主动获取方式，也可以是接收等被动获取方式。

步骤102，基于两个以上的词典分别对所述查询词进行分词，得到每个词典对应的分词结果，其中，所述两个以上的词典包括基本词典和新词词典，所述新词词典用于存储所述基本词典中未收录的词组。

其中，新词词典的建立方法包括：当需要收录所述基本词典中当前未收录的词组时，将所述当前未收录的词组存储在所述新词词典中，从而建立新词词典。新词词典中会收入例如网络上新创造的词语例如屌丝、高富帅，等。

步骤103，根据每个词典对应的分词结果分别获取搜索结果信息，得到每个词典对应的搜索结果信息。

步骤104，根据各个词典对应的搜索结果信息，确定最终的搜索结果。

本步骤中，从各个词典对应的搜索结果信息中确定最终的搜索结果，例如，可以将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果，或者，将新词词典对应的至少部分搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。

其中，从各个词典对应的搜索结果信息中确定最终的搜索结果具体可以包括：

判断新词词典对应的搜索结果条数信息是否达到预定阈值，如果是，从新词词典对应的搜索结果中确定最终的搜索结果，如果否，利用所述预定阈值减去新词词典对应的搜索结果个数，根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果，将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果；或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。

可见，由于图1所示方法是基于两个以上的词典进行分词，进而根据两个以上的词典的分词结果确定最终的搜索结果，且该两个以上的词典包括基本词典和新词词典，其中，所述新词词典用于存储所述基本词典中未收录的词组，因此，当接收的查询词是未收录在基本词典中的新词、且由已收录在词典中的两个以上的旧词组成时，采用图1所述方法既能查询到与组成查询词的各个词组相关的文档，也能查询到与查询词本身相关的文档，搜索结果更加全面，提高了信息搜索质量。

其中，在基于两个以上的词典分别对查询词进行分词时，可以针对不同的词典采用不同分词处理函数进行分词，具体地：

可以通过查询处理函数数据库获得各个词典的分词处理函数，调用各个词典的分词处理函数分别对所述查询词进行分词，其中，在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。

其中，在步骤103中所述的根据每个词典对应的分词结果分别获取搜索结果信息，可以是直接根据每个词典对应的分词结果从倒排数据库中获取搜索结果，则在步骤104中，可以直接根据步骤103从倒排数据库中获取的各个词典的搜索结果，确定出最终的搜索结果。

由于从倒排数据库中获取搜索结果需要一定的时间，为了提高信息搜索的速度，本申请人还提出，可以预先建立加速数据库，在该加速数据库中存储所述两个以上的词典中的每个词组对应的搜索结果条数信息。其中，在加速数据库中具体可以存储每个词组与该词组的标识（ID）和搜索结果条数（或称为命中文档数）之间的对应关系。

当存在加速数据库时，步骤103中根据每个词典对应的分词结果分别获取搜索结果信息具体可以包括：根据每个词典对应的分词结果包含的词组，从所述加速数据库中获取相应词组的搜索结果条数信息，根据获取的每个词组的搜索结果条数信息，确定每个词典对应的搜索结果条数信息。步骤104中根据各个词典对应的搜索结果信息，确定最终的搜索结果具体可以包括：判断新词词典对应的搜索结果条数信息是否达到预定阈值，如果是，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果，从新词词典对应的搜索结果中确定最终的搜索结果，如果否，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果，从新词词典对应的搜索结果和基本词典对应的搜索结果中确定最终的搜索结果。

之所以优先从新词词典的搜索结果中确定最终的搜索结果，是因为本申请人经分析进一步注意到，当一查询词是未收录在基本词典中的新词、且可以由基本词典中的两个以上词组组成时，通常基于该查询词本身（即基于该新词、而非基于基本词典中组成该查询词的两个以上的词组）所得到的搜索结果，与基于基本词典中组成该查询词的两个以上的词组所得到的搜索结果相比，更符合信息搜索需求。因此，优先从新词词典的搜索结果中确定最终的搜索结果。

为了进一步提高信息搜索速度，所述加速数据库可以设置在信息搜索引擎所在设备的内存中。

其中的加速数据库并不是必须的，例如也可以先根据新词词典的分词结果从倒排数据库中搜索结果，在新词词典的搜索结果不能够满足信息搜索需求，例如新词词典的搜索结果个数小于预定阈值时，再根据基本词典的分词结果从倒排数据库中搜索结果，对新词词典的搜索结果进行补全，即利用所述预定阈值减去新词词典对应的搜索结果个数，根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果，将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果；或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。

根据本发明提供的上述方法，本发明还提供了相应的装置，具体请参见图2。

图2是本发明提供的信息搜索装置结构图。

如图2所示，该装置包括第一获取模块201、分词模块202、第二获取模块203和确定模块204。

第一获取模块201，用于获取查询词。

分词模块202，用于基于两个以上的词典分别对所述查询词进行分词，得到每个词典对应的分词结果，其中，所述两个以上的词典包括基本词典和新词词典，当需要收录所述基本词典中当前未收录的词组时，将所述当前未收录的词组存储在所述新词词典中。

第二获取模块203，用于根据每个词典对应的分词结果分别获取搜索结果信息，得到每个词典对应的搜索结果信息。

确定模块204，用于从各个词典对应的搜索结果信息中确定最终的搜索结果。

分词模块202，可以用于通过查询处理函数数据库获得各个词典的分词处理函数，调用各个词典的分词处理函数分别对所述查询词进行分词，其中，在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。

确定模块204，可以用于将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果，或者，将新词词典对应的至少部分搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。

其中，确定模块204，具体可以用于判断新词词典对应的搜索结果条数信息是否达到预定阈值，如果是，从新词词典对应的搜索结果中确定最终的搜索结果，如果否，利用所述预定阈值减去新词词典对应的搜索结果个数，根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果，将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果；或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。

该装置还可以包括加速数据库。所述加速数据库位于内存中。

所述加速数据库，用于存储所述两个以上的词典中的每个词组对应的搜索结果条数信息。

第二获取模块203，用于根据每个词典对应的分词结果包含的词组，从所述加速数据库中获取相应词组的搜索结果条数信息，根据获取的每个词组的搜索结果条数信息，确定每个词典对应的搜索结果条数信息；

确定模块204，用于判断新词词典对应的搜索结果条数信息是否达到预定阈值，如果是，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果，将新词词典对应的至少部分搜索结果确定为最终的搜索结果，如果否，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果，将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。

确定模块204，可以用于在新词词典对应的搜索结果条数信息未达到预定阈值时，利用所述预定阈值减去新词词典对应的搜索结果个数，根据所得的差从基本词典对应的搜索结果中选出相应个数的搜索结果，将新词词典对应的搜索结果和从基本词典对应的搜索结果中选出的搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中选出最终的搜索结果。

Claims

1.一种信息搜索方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，基于两个以上的词典分别对所述查询词进行分词包括：

通过查询处理函数数据库获得各个词典的分词处理函数，调用各个词典的分词处理函数分别对所述查询词进行分词，其中，在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。

3.根据权利要求1所述的方法，其特征在于，从各个词典对应的搜索结果信息中确定最终的搜索结果包括：

将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果；

或者，将新词词典对应的至少部分搜索结果确定为最终的搜索结果；

或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。

4.根据权利要求3所述的方法，其特征在于，确定的最终的搜索结果的总条数为一定值。

5.根据权利要求3所述的方法，其特征在于，该方法还包括：预先建立加速数据库，在该加速数据库中存储所述两个以上的词典中的每个词组对应的搜索结果条数信息；

所述根据每个词典对应的分词结果分别获取搜索结果信息，得到每个词典对应的搜索结果信息，从各个词典对应的搜索结果信息中确定最终的搜索结果包括：

根据每个词典对应的分词结果包含的词组，从所述加速数据库中获取相应词组的搜索结果条数信息，根据获取的每个词组的搜索结果条数信息，确定每个词典对应的搜索结果条数信息；

判断新词词典对应的搜索结果条数信息是否达到预定阈值，如果是，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果，将新词词典对应的至少部分搜索结果确定为最终的搜索结果，如果否，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果，将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。

6.一种信息搜索装置，其特征在于，该装置包括第一获取模块、分词模块、第二获取模块和确定模块；

所述第一获取模块，用于获取查询词；

所述确定模块，用于从各个词典对应的搜索结果信息中确定最终的搜索结果。

7.根据权利要求6所述的装置，其特征在于，

所述分词模块，用于通过查询处理函数数据库获得各个词典的分词处理函数，调用各个词典的分词处理函数分别对所述查询词进行分词，其中，在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。

8.根据权利要求6所述的装置，其特征在于，

所述确定模块，用于将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果，或者，将新词词典对应的至少部分搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。

9.根据权利要求8所述的装置，其特征在于，确定的最终的搜索结果的总条数为一定值。

10.根据权利要求8所述的装置，其特征在于，该装置还包括加速数据库，

所述加速数据库，用于存储所述两个以上的词典中的每个词组对应的搜索结果条数信息；

所述第二获取模块，用于根据每个词典对应的分词结果包含的词组，从所述加速数据库中获取相应词组的搜索结果条数信息，根据获取的每个词组的搜索结果条数信息，确定每个词典对应的搜索结果条数信息；

所述确定模块，用于判断新词词典对应的搜索结果条数信息是否达到预定阈值，如果是，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果，将新词词典对应的至少部分搜索结果确定为最终的搜索结果，如果否，根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果，将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果，或者，根据与查询词的相关性，从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。