CN102654879B

CN102654879B - 搜索方法及装置

Info

Publication number: CN102654879B
Application number: CN201110052484.0A
Authority: CN
Inventors: 齐波
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2011-03-04
Filing date: 2011-03-04
Publication date: 2015-01-28
Anticipated expiration: 2031-03-04
Also published as: CN102654879A; WO2012119339A1

Abstract

本发明公开了一种搜索方法及装置，该搜索方法包括：获取请求搜索的关键词；获取包括关键词的分词项或者与关键词相同的分词项所对应的多个文件的信息，其中，多个文件中的每个文件的信息均包括：该文件的关键信息对应的一个或多个分词项以及每个分词项在关键信息中出现的频率，关键信息是为检索该文件所设定的信息；确定多个文件中相同的文件，其中，相同的文件为文件对应的分词项和每个分词项对应的频率相同的比例超过阈值的文件；返回搜索结果，其中，对于相同的文件，搜索结果保留了其中的一个文件。通过本发明节约了带宽资源，提高了用户体验。

Description

搜索方法及装置

技术领域

本发明涉及信息检索领域，具体而言，涉及一种搜索方法及装置。

背景技术

目前，在网络上共享了很多文件，因此，如何检索到用户需要的文件显得尤为重要。

现有技术中提供了一种手机文件搜索下载的方法，即，移动终端所在域的服务器接收搜索请求关键字信息，在移动通信网络中搜索资源，并向所述移动终端返回搜索到的资源列表，移动终端收到用户根据资源列表选择的数据源信息，向所在域的服务器发起下载所需资源请求，移动终端所在域的服务器向该移动终端发送所需资源。

上述方法以及现有技术中的其他方法的检索结果均有可能存在重复冗余的项目，这种冗余的不仅占用的带宽资源还影响用户体验。

发明内容

本发明的主要目的在于提供一种搜索方法及装置，以至少解决上述问题。

根据本发明的一个方面，提供了一种搜索方法，包括：获取请求搜索的关键词；获取包括所述关键词的分词项或者与所述关键词相同的分词项所对应的多个文件的信息，其中，所述多个文件中的每个文件的信息均包括：该文件的关键信息对应的一个或多个分词项以及每个分词项在所述关键信息中出现的频率，所述关键信息是为检索该文件所设定的信息；确定所述多个文件中相同的文件，其中，所述相同的文件为文件对应的分词项和每个分词项对应的频率相同的比例超过阈值的文件；返回搜索结果，其中，对于相同的文件所述搜索结果保留了其中的一个文件。

优选地，在所述每个文件的信息还包括所述关键信息中的一个或多个的情况下，所述相同的文件还包括：文件的信息中包括的关键信息完全相同的文件。

优选地，确定所述多个文件中相同的文件包括：确定所述多个文件中的信息中包括的关键信息完全相同的文件为相同的文件；对于相同的文件仅保留其中的一个文件，再确定所述多个文件中剩余的文件中对应的分词项和每个分词项对应的频率相同的比较超过阈值的文件为相同的文件。

优选地，对于相同的文件所述搜索结果保留了其中的一个文件和多个获取该文件所需要的信息。

优选地，该方法还包括：对所述每个文件的关键信息按照逆向最大匹配算法将该文件中的关键信息进行分词，得到该文件对应的一个或多个分词项。

根据本发明的另一个方面，还提供了一种搜索装置，包括：第一获取模块，用于获取请求搜索的关键词；第二获取模块，用于获取包括所述关键词的分词项或者与所述关键词相同的分词项所对应的多个文件的信息，其中，所述多个文件中的每个文件的信息均包括：该文件的关键信息对应的一个或多个分词项以及每个分词项在所述关键信息中出现的频率，所述关键信息是为检索该文件所设定的信息；确定模块，用于确定所述多个文件中相同的文件，其中，所述相同的文件为文件对应的分词项和每个分词项对应的频率相同的比例超过阈值的文件；返回模块，用于返回搜索结果，其中，对于相同的文件所述搜索结果保留了其中的一个文件。

优选地，在所述每个文件的信息还包括所述关键信息中的一个或多个的情况下，所述确定模块确定的所述相同的文件还包括：文件的信息中包括的关键信息完全相同的文件。

优选地，所述确定模块包括：第一确定模块，用于确定所述多个文件中的信息中包括的关键信息完全相同的文件为相同的文件；第二确定模块，用于对于相同的文件仅保留其中的一个文件，并再确定所述多个文件中剩余的文件中对应的分词项和每个分词项对应的频率相同的比较超过阈值的文件为相同的文件。

优选地，所述搜索模块返回的搜索结果中对于相同的文件保留了其中的一个文件和多个获取该文件所需要的信息。

优选地，该装置还包括：分词模块，用于对所述每个文件的关键信息按照逆向最大匹配算法将该文件中的关键信息进行分词，得到该文件对应的一个或多个分词项。

通过本发明，解决了现有技术中检索结果存在重复冗余而导致的问题，节约了带宽资源，提高了用户体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的搜索方法的流程图；

图2是根据本发明实施例的搜索装置的结构框图；

图3a是根据本发明实施例的索引服务器a101的整体框架示意图；

图3b是根据本发明实施例的分词项的内部结构示意图；

图3c是根据本发明实施例的分词项位置信息的结构示意图；

图3d是根据本发明实施例的来自一个终端的共享文件信息的结构示意图；

图3e是根据本发明实施例的共享文件信息的组成示意图；

图3f是根据本发明实施例的空间向量的结构信息示意图；

图4是根据本发明优选实施例的搜索方法的流程图；

图5是根据本发明优选实施的空间向量的创建流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下的实施例可以应用于各种网络中的检索，当然，由于移动终端这种对带宽要求很严格，重复的数据传递意味着增付额外的流量费用，因此应用于移动终端中的检索可以取得更好的效果。

在本实施例中，提供了一种搜索方法，图1是根据本发明实施例的搜索方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取请求搜索的关键词。

步骤S104，获取包括上述关键词的分词项或者与上诉关键词相同的分词项所对应的多个文件的信息，其中，每个文件的信息均包括：该文件的关键信息对应的一个或多个分词项以及每个分词项在关键信息中出现的频率，关键信息是为检索该文件所设定的信息，例如，文件摘要、作者、标题等。

步骤S106，确定多个文件中相同的文件，其中，相同的文件为文件对应的所有分词项和每个分词项对应的频率相同的比例超过阈值的文件；例如，A文件对应的分词项为：(a1，出现10次)，(b1，出现9次)，(c1，出现1次)；B文件对应的分词项为：(a1，出现10次)，(b1，出现9次)，(c1，出现1次)，因此，可以判断A和B为相同的文件。如果B文件对应的c1出现2次，A文件和B文件的相似程度比较高也可以认为是相同的文件。

步骤S108，返回搜索结果，其中，对于相同的文件搜索结果保留了其中的一个文件，例如，A文件和B文件是相同的文件，搜索结果中保留A文件和B文件中的一个即可。

通过上述步骤，对服务器返回给用户的查询结果进行了去噪处理，从而解决了现有技术中搜索结果存在重复冗余而导致的问题，提高了用户体验，也节约了网络资源。

优选地，对于相同的文件，搜索结果保留了其中的一个文件和多个获取该文件所需要的信息，例如，如果保留了A文件，那么还可以保留A文件和B文件的下载地址，这样用户可以实现多点下载。

优选地，在实施时，可以首先比对一些信息量较小的关键信息，如果这些关键信息相同，则可以认为这两个文件相同，例如，可以比较作者和标题。通过这样的简单比对就可以屏蔽一些重复的文件，也可以减轻搜索服务器的负担。即，在每个文件的信息还包括关键信息中的一个或多个的情况下，相同的文件还包括：文件的信息中包括的关键信息完全相同的文件。在这种情况下，步骤S106中的确定多个文件中相同的文件包括：确定多个文件中的信息中包括的关键信息完全相同的文件为相同的文件；对于相同的文件仅保留其中的一个文件，再确定多个文件中剩余的文件中对应的分词项和每个分词项对应的频率相同的比较超过阈值的文件为相同的文件。

对关键信息进行分词的方式可以有很多种，在本实施例中采用了一种分词方式：对每个文件的关键信息按照逆向最大匹配算法将该文件中的关键信息进行分词，得到该文件对应的一个或多个分词项。无论采用哪种分词方式，只要采用了图1所示出的方法，均可以达到提高用户体验的效果。

在本实施例中还提供了一种搜索装置，该装置可以位于提供搜索功能的服务器中，该装置用于实现上述实施例及其优选实施方式，上述已经进行过说明的在此不再赘述，下面对该装置中涉及到的模块进行说明，图2是根据本发明实施例的搜索装置的结构框图，如图2所示，该搜索装置包括：第一获取模块20，第二获取模块22，确定模块24和返回模块26。下面对该结构进行说明。

第一获取模块20，用于获取请求搜索的关键词；第二获取模块22，连接至第一获取模块20，该模块用于获取包括关键词的分词项或者与关键词相同的分词项所对应的多个文件的信息，其中，多个文件中的每个文件的信息均包括：该文件的关键信息对应所有的分词项以及每个分词项在关键信息中出现的频率，关键信息是为检索该文件所设定的信息；确定模块24，连接至第二获取模块22，用于确定多个文件中相同的文件，其中，相同的文件为文件对应的分词项和每个分词项对应的频率相同的比例超过阈值的文件；返回模块26，连接至确定模块24，用于返回搜索结果，其中，对于相同的文件，搜索结果保留了其中的一个文件。

优选地，在每个文件的信息还包括关键信息中的一个或多个的情况下，确定模块24确定的相同的文件还包括：文件的信息中包括的关键信息完全相同的文件。在这种情况下，确定模块24可以包括：第一确定模块242，用于确定多个文件中的信息中包括的关键信息完全相同的文件为相同的文件；第二确定模块244，该模块连接至第一确定模块242，用于对于相同的文件仅保留其中的一个文件，并再确定多个文件中剩余的文件中对应的分词项和每个分词项对应的频率相同的比较超过阈值的文件为相同的文件。

优选地，搜索模块返回的搜索结果中对于相同的文件保留了其中的一个文件和多个获取该文件所需要的信息。

优选地，该装置还包括：分词模块，用于对每个文件的关键信息按照逆向最大匹配算法将该文件中的关键信息进行分词，得到该文件对应的一个或多个分词项。当然，这只是分词模块的一个优选的实施方式，其他的任何分词方式只要能够进行分词就能够达到相同的效果。

下面结合移动终端(例如，手机)相关的共享文件的搜索进行说明，当然，以下的优选实施例也可以用于非移动终端的其他终端中。

在本优选实施例中，移动终端可以采用两种共享文件的方式。一种是发布者将需要共享的文件直接上传到某文件服务器的共享区域中，下载者通过访问该中继服务器的共享区域，实现文件的下载。当然，在发布此文件的时候，发布者也可以设置相应的权限，只有被授权的下载者才可以获取该文件，如果是这种方式，可能需要获取到该文件的关键信息，例如，该文件的名称、作者等，这些信息可以让发布者在上传文件时输入。还有一种比较优化的共享方式，发布者仅将需要共享的文件的名称、摘要、类型、大小等信息发布到服务器上，而非原始文件；下载者通过访问该中继服务器，根据自身的需要来选择相应的文件，从而定位到原发布者，获取该共享文件。

本优选实施例提供了基于空间向量算法的终端文件搜索去噪方法，该空间向量是以分词项为向量维度的多维向量，分词项出现的频率作为向量在该维上的高度，然后将所有维上面的数据整合得到的向量。在该优选实施例中，移动终端之间共享文件搜索过程中相同或相似文件的去噪方法，并使用空间向量作为去噪因子。下面对建立索引模块和搜索过程进行分别说明。

建立具有去噪功能的索引模型。该过程可以包括如下步骤：

步骤一，移动终端向索引服务器发布一条共享文件信息；

步骤二，索引服务器开辟空间存储终端发布的共享信息；

步骤三，索引服务器参照词库对共享信息中的文件摘要、作者、标题等关键信息进行词法分析，将文章拆分为分词项的集合，例如，词法分析可以是通过查找词库，按照逆向最大匹配算法将共享文件信息中的文件摘要、作者、标题等关键信息分词，或者也可以把一篇完整的文章分解为多个分词项的集合；

步骤四，索引服务器统计各个分词项在这些关键信息中出现的频率和位置，并记录各分词的唯一识别码，在本实施例中称为主码；

步骤五，索引服务器将各个分词的频率和主码依次组合起来，然后再将这些组合后的值按照向量的维度整合起来，形成一个关于该共享文件的抽象数据模型，该抽象数据模型也称为空间向量；

步骤六，索引服务器将统计后的频率、位置、空间向量以及与共享文件信息的对应关系序列化到加密文件中，形成索引。

优选地，上述索引服务器主要存储终端的共享文件信息，在该存储区域管理发布上来的数据；可以在另一个区域对发布到服务器端的数据信息建立倒排索引，便于终端搜索。

通过上述步骤形成的分词项是一个数据结构，里面主要包含分词的主码、该词出现的频率和位置等信息，其中，主码是词库中每个词语对应的唯一识别码。需要说明的是，在以上数据库中做此映射主要目的是便于形成空间向量的数学抽象模型；其中，频率是指该分词项在当前共享文件信息的关键信息中出现的次数，位置是指分词项在关键信息中出现的位置。

需要说明的是，由于文件的基本组成单位是词语，而且不同的文件包含词语的种类以及词频均不同，因此使用词语作为维度可以唯一区分不同内容的文件。

相应于上述索引服务器建立的索引，其搜索流程可以包括如下步骤：

步骤一，索引服务器对搜索后的结果进行枚举，加入待处理队列；

步骤二，索引服务器从待处理队列中取出一条搜索结果信息，获取共享文件的标题、作者、大小、创建时间等关键且数据量小于阈值的信息；

步骤三，如果处理完成队列为空，就直接将此信息入列；否则，索引服务器将此信息与处理完成队列中的搜索结果信息一一对比，如果发现处理完成队列中与之有相同的信息则直接记录该共享文件的下载地址，添加到处理完成队列里相同的信息中，同时丢弃此条信息；

步骤四，如果步骤三对比结果是不同，那么，取出此条信息的空间向量继续与处理完成队列中的信息比较。如果发现处理完成队列中与之有相同的信息则直接记录该共享文件的下载地址，添加到相同的信息中，同时丢弃此条信息；否则，将此信息加入处理完成队列中；

步骤五，索引服务器继续从待处理队列中取出信息，重复步骤二、步骤三和步骤四，直至待处理队列为空；

步骤六，索引服务器将处理完成队列中的信息按一定的格式组装为结果列表，发送给终端。

需要说明的是，上述空间向量的维度较多，在判定文件是否相同时，可以预先给定一个阈值，即对于频率值较小的维，向量之间进行比较时可以酌情省略掉，例如，只要两篇文章达到98％相似也可以认为是相同文章。

通过本实施例，优化了服务器索引数据的存储结构，兼顾了查询时间和从服务器向终端返回的共享文件信息的唯一性和精准性。提高了用户体验。

图3a至图3f是根据本发明实施例的基于空间向量的索引服务器系统结构示意图，下面参照这些附图结合服务器的框架到具体的单元组成说明了空间向量的作用和去噪的可行性。

图3a从整体框架上介绍了索引服务器a101的组成结构，索引服务器a101包括索引模块a102和文件信息模块a104两个子部分，如图3a所示，索引模块a102用来存储索引信息，最主要包括分词项a103，即所有共享文件信息经过词法分析分解出来的分词项a103都以一定的格式存储在索引模块a102中；文件信息模块a104是一个集合，内部包括了各个终端共享发布的终端文件信息a105；终端文件信息a105则为具体一个终端的共享信息发布根目录，里面存储共享文件信息的具体资源。

图3b描述了分词项a103的内部结构，如图3b所示，b101为分词项a103主码，b102则是说明了分词项a103在所有共享文件信息中出现的位置。这些信息可以按照频率从高向低排序。

图3c说明了分词项位置信息b102的构成，如图3c所示，包括终端编号c101，终端共享文件编号c102，以及分词项在该共享文件中出现的频率c103。

图3d说明了文件信息模块中来自一个终端的共享文件信息a105的结构，如图3d所示，该终端目录中按照共享文件分为很多个共享文件信息项d101，一个具体的共享文件信息对应一项。

图3e描述了一项共享文件信息d101的组成，如图3e所示，e101则为图3c中提及的终端共享文件编号c102，图3e则通过此编号与图3c关联；空间向量e102，用于判定两份文件是否相同或相似；文件名称e103作为辅助信息显示在将来索引服务器向终端返回的共享文件列表中；文件地址e104是发布该共享文件信息的另一终端的地址，作为以后两终端通讯的入口。

图3f进一步更详细的刻画了空间向量e102的结构信息。为各个分词项a103在当前共享文件信息中出现的频率和其主码b101组合而成的多维向量。

图4是根据本发明优选实施例的搜索方法的流程图，如图4所示，终端用户提出搜索请求并最终获得搜索结果的过程包括如下步骤：

步骤S401，终端用户向索引服务器发送搜索请求；

步骤S402，索引服务器的对内部的索引开始检索，执行搜索索引操作；

步骤S403，如果检索到相关的分词项与搜索请求的匹配，则根据搜索到的分词项定位到相关的共享文件信息；

步骤S404，获取所有的共享文件信息，并压入一个待处理队列中；

步骤S405，在该步骤中进行相同或相似共享文件的去噪操作，该操作主要是通过空间向量的对比来判定，以处理完成队列中的共享文件信息作为对比参照来和一个待处理队列中提取出的共享文件信息比较，最终如果两文件信息不同则将待处理队列中提取出的共享文件信息放入处理完成队列；

步骤S406，整理处理完成队列中的共享文件信息，生成共享文件列表，发送给搜索终端用户；

步骤S407，终端用户选择列表中的一个共享文件，与该共享文件的发布终端建立点对点链接；

步骤S408，在该步骤中终端经过发布终端授权后下载共享文件。需要说明的是，在进行步骤S405时，如果对比的两个文件信息是重复的，则不要将从待处理队列中获取的文件信息加入处理完成队列，只是将其地址信息追加到处理完成队列中相同文件的地址字段中，这样以后下载终端收到共享文件列表信息后可以实现一个文件的多点下载支持。

图5是根据本发明优选实施的空间向量的创建流程图，该流程可以发生在索引服务器上的，如图5所示，该流程包括如下步骤：

步骤S501，从文件信息模块中获取一个共享文件信息；

步骤S502，从该共享文件信息的文件摘要、作者、标题等关键信息中提取出一条关键语句；

步骤S503，对此关键句进行词法分析，查找服务器内的关键词库，将该句子拆分为多个分词项的集合；

步骤S504，统计不同分词项在关键句中的出现频率并记录不同分词项对应的主码；

步骤S505，判断是否还有剩余的语句未进行词法分析，如果存在则继续执行步骤S502，否则执行步骤S506；

步骤S506，将词法分析完成的所有分词项主码和其出现频率组合在一起，再将这些组合后的值按照向量的维度整合起来，组织成该共享文件信息对应的空间向量。

综上所述，通过上述实施例，解决了现有技术中检索结果存在重复冗余而导致的问题，节约了带宽资源，提高了用户体验。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种搜索方法，其特征在于包括：

获取请求搜索的关键词；

获取包括所述关键词的分词项或者与所述关键词相同的分词项所对应的多个文件的信息，其中，所述多个文件中的每个文件的信息均包括：该文件的关键信息对应的一个或多个分词项以及每个分词项在所述关键信息中出现的频率，所述关键信息是为检索该文件所设定的信息，其中，所述分词项包括该分词项在所述关键信息中出现的位置；

确定所述多个文件中相同的文件，其中，所述相同的文件为文件对应的分词项和每个分词项对应的频率相同的比例超过阈值的文件；

返回搜索结果，其中，对于相同的文件，所述搜索结果保留了其中的一个文件。

2.根据权利要求1所述的方法，其特征在于，在所述每个文件的信息还包括所述关键信息中的一个或多个的情况下，所述相同的文件还包括：文件的信息中包括的关键信息完全相同的文件。

3.根据权利要求2所述的方法，其特征在于，确定所述多个文件中相同的文件包括：

确定所述多个文件中的信息中包括的关键信息完全相同的文件为相同的文件；

对于相同的文件仅保留其中的一个文件，再确定所述多个文件中剩余的文件中对应的分词项和每个分词项对应的频率相同的比较超过阈值的文件为相同的文件。

4.根据权利要求1所述的方法，其特征在于，对于相同的文件所述搜索结果保留了其中的一个文件和多个获取该文件所需要的信息。

5.根据权利要求1至4中任一项所述的方法，其特征在于，还包括：

对所述每个文件的关键信息按照逆向最大匹配算法将该文件中的关键信息进行分词，得到该文件对应的一个或多个分词项。

6.一种搜索装置，其特征在于包括：

第一获取模块，用于获取请求搜索的关键词；

第二获取模块，用于获取包括所述关键词的分词项或者与所述关键词相同的分词项所对应的多个文件的信息，其中，所述多个文件中的每个文件的信息均包括：该文件的关键信息对应的一个或多个分词项以及每个分词项在所述关键信息中出现的频率，所述关键信息是为检索该文件所设定的信息，其中，所述分词项包括该分词项在所述关键信息中出现的位置；

确定模块，用于确定所述多个文件中相同的文件，其中，所述相同的文件为文件对应的分词项和每个分词项对应的频率相同的比例超过阈值的文件；

返回模块，用于返回搜索结果，其中，对于相同的文件，所述搜索结果保留了其中的一个文件。

7.根据权利要求6所述的装置，其特征在于，在所述每个文件的信息还包括所述关键信息中的一个或多个的情况下，所述确定模块确定的所述相同的文件还包括：文件的信息中包括的关键信息完全相同的文件。

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

第一确定模块，用于确定所述多个文件中的信息中包括的关键信息完全相同的文件为相同的文件；

第二确定模块，用于对于相同的文件仅保留其中的一个文件，并再确定所述多个文件中剩余的文件中对应的分词项和每个分词项对应的频率相同的比较超过阈值的文件为相同的文件。

9.根据权利要求6所述的装置，其特征在于，所述搜索模块返回的搜索结果中对于相同的文件保留了其中的一个文件和多个获取该文件所需要的信息。

10.根据权利要求6至9中任一项所述的装置，其特征在于，还包括：

分词模块，用于对所述每个文件的关键信息按照逆向最大匹配算法将该文件中的关键信息进行分词，得到该文件对应的一个或多个分词项。