CN107943908A

CN107943908A - 一种文档获取方法及装置

Info

Publication number: CN107943908A
Application number: CN201711148155.XA
Authority: CN
Inventors: 王伟亮
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2018-04-20

Abstract

本发明公开了一种文档获取方法及装置，包括：确定从倒排索引中选定的每个倒排拉链对应的文档数量；对于选定的每个倒排拉链，从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。从本发明实施例可见，从选定的每个倒排拉链中分别获取对应文档数量的文档，而非从一部分选定的倒排拉链中获取文档，放弃另一部分选定的倒排拉链，这样就避免了放弃选定的倒排拉链中的优质的倒排拉链，提高了从倒排拉链中获取文档的质量。

Description

一种文档获取方法及装置

技术领域

本发明涉及互联网技术，尤指一种文档获取方法及装置。

背景技术

如今是一个信息大爆炸的时代，据统计全球的数据量正以平均年增长率为50％的速度增长，其中当前数据总量的80％都是最近两年产生的。目前每天全球互联网流量累计达1EB(即10亿GB或1000PB)，其中，人们一天上传的照片数量相当于柯达发明胶卷后拍摄的图片总和。这些数据已经渗透到社会经济、大众日常生活的各个角落。如何在数据海洋中获取用户需要的信息，要依赖的工具就是搜索引擎。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

搜索引擎聚合了众多网站信息，起到了信息导航的作用。通用搜索引擎实现了大量的信息整合与导航，极快的查询，迅速成为互联网中最有价值的领域。垂直搜索是针对通用搜索信息量大、查询不准确、深度不够等缺点提出来的新的服务模式，是搜索引擎的细分和延伸，垂直搜索能够针对某一特定领域、某一特定人群或某一特定需求提供的搜索服务。

搜索引擎的核心模块通常包括爬虫、索引、检索和排序这四个步骤。其中，在检索时，具体包括：在倒排索引的所有倒排拉链中选定倒排拉链，串行遍历所有选定的倒排拉链，对所有选定的倒排拉链进行去重处理，在选定的倒排拉链中的一个倒排拉链开始截取预先设置的数量的文档，该预先设置的数量是需要截取的文档的总数量。在检索完对截取的文档进行排序，并将排序后的文档展示到网页上。但是，由于受到截取文档的总数量的限制，并不会截取所有选定的倒排拉链中的文档，导致了在一部分选定的倒排拉链中获取文档，相应地就出现了未从另一部分选定的倒排拉链中获取文档，即未被截取文档的倒排拉链被放弃，如果截取文档的倒排拉链的质量不好，而被放弃的倒排拉链的质量比较好，这就会导致最终展示给用户的文档的质量并不高。

发明内容

本发明实施例提供了一种检索方法及装置，能够提高从倒排拉链中获取文档的质量。

为了达到本发明目的，本发明实施例提供了一种文档获取方法，包括：

确定从倒排索引中选定的每个倒排拉链对应的文档数量；

对于选定的每个倒排拉链，从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。

可选地，所述获取所述倒排拉链对应的预设文档数量的文档之前，文档获取方法还包括：

调用两个或两个以上线程，以通过调用的两个或两个以上线程分别对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。

可选地，所述获取所述倒排拉链对应的文档数量的文档之后，文档获取方法还包括：

若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第一类倒排拉链；若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第二类倒排拉链；

对于每个第二类倒排拉链，计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额，根据计算出的差额，从第一类倒排拉链的未被获取到的文档中获取文档。

可选地，所述获取所述倒排拉链对应的文档数量的文档，包括：

按照所述倒排拉链中文档的特征，对所述倒排拉链中的文档进行排序；

从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。

可选地，所述确定从倒排索引中选定的每个倒排拉链对应的文档数量，包括：

计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量；

若计算的结果为整数，则将计算的结果作为所述选定的每个倒排拉链对应的文档数量；

若计算的结果为小数，则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。

本发明实施例提供了另一种文档获取装置，包括：

确定模块，用于确定从倒排索引中选定的每个倒排拉链对应的文档数量；

第一获取模块，用于对于选定的每个倒排拉链，从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。

可选地，文档获取装置还包括：

调用模块，用于调用两个或两个以上线程；

所述第一获取模块用于，通过调用的两个或两个以上线程对所述选定的两个或两个以上倒排拉链执行所述获取的步骤。

可选地，文档获取装置还包括：

标识模块，用于若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第一类倒排拉链；若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第二类倒排拉链；

第二获取模块，用于对于每个第二类倒排拉链，计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额，根据计算出的差额，从第一类倒排拉链的未被获取到的文档中获取文档。

可选地，所述第一获取模块包括：

排序单元，用于按照所述倒排拉链中文档的特征，对所述倒排拉链中的文档进行排序；

截取单元，用于从所述倒排拉链的排序后的文档中截取所述倒排拉链对应的文档数量的文档。

可选地，所述确定模块包括：

计算单元，用于计算预先设置的需要获取的文档总数量除以所述选定的倒排拉链总数量；

确定单元，用于若计算的结果为整数，则将计算的结果作为所述选定的每个倒排拉链对应的文档数量；

设置单元，用于若计算的结果为小数，则根据预先设置的策略设置所述选定的每个倒排拉链对应的文档数量。

本发明实施例至少包括：确定从倒排索引中选定的每个倒排拉链对应的文档数量；对于选定的每个倒排拉链，从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。从本发明实施例可见，从选定的每个倒排拉链中分别获取对应文档数量的文档，而非从一部分选定的倒排拉链中获取文档，放弃另一部分选定的倒排拉链，这样就避免了放弃选定的倒排拉链中的优质的倒排拉链，提高了从倒排拉链中获取文档的质量。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的一种文档获取方法的流程示意图；

图2为本发明实施例提供的一种文档获取装置的结构示意图；

图3为本发明实施例提供的另一种文档获取装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供一种文档获取方法，如图1所示，该文档获取方法包括：

步骤101、确定从倒排索引中选定的每个倒排拉链对应的文档数量。

需要说明的是，在从倒排索引中选定倒排拉链之后，可以通过预先设置的数据处理算法的方式来确定选定的每个倒排拉链对应的文档数量，还可以由用户来设置每个倒排拉链对应的文档数量。其中，倒排索引(Inverted Index)也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。倒排索引是文档检索系统中最常用的数据结构。通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引包括多个倒排拉链，在本领域中，倒排拉链又称作倒排链或者倒排列表。每个倒排拉链包括按顺序排序的多个文档(即item)，文档指的是检索的最小个体。在从倒排索引中选定倒排拉链时，使用预先设置的倒排拉链选择算法对倒排索引的所有倒排拉链进行处理，以选定倒排拉链，选定倒排拉链的实现可以采用相关技术中的方式实现，具体实现并不用于限定本发明的保护范围，这里不再赘述。

步骤102、对于选定的每个倒排拉链，从倒排拉链中获取倒排拉链对应的文档数量的文档。

也就是说，从选定的每个倒排拉链中获取对应文档数量的文档。例如，选定的倒排拉链包括倒排拉链A、倒排拉链B和倒排拉链C，从倒排拉链A、倒排拉链B和倒排拉链C中分别获取对应文档数量的文档。区别与相关技术中的从倒排拉链A中开始获取文档，在倒排拉链A中获取完文档后从倒排拉链B中继续获取文档，当在倒排拉链B中获取到10个文档时就已经获取足够的文档了，这样就放弃掉了倒排拉链C中的文档，如果倒排拉链A和倒排拉链B的质量不好，倒排拉链C的质量好，相关技术中的方案就出现了获取文档的质量较低的情况。在本发明实施例中，由于从选定的每个倒排拉链中获取文档，并不会出现相关技术中的丢弃部分倒排拉链的情况，也就避免了丢弃质量比较好的倒排拉链，选定的每个倒排拉链都有公平的获取文档的机会，保证了展示给用户的文档的质量，从而提升了用户的体验。

在从选定的所有倒排拉链中获取文档之后，汇总所有获取的文档，具体地，对所有获取的文档进行排序和去重处理。然后将汇总的文档展示给用户，具体地是将汇总的文档展示到万维网的页面上。对于对文档进行排序、去重、展示的实现，可以采用相关技术中的方案来实现，具体实现并不用于限定本发明的保护范围，这里不再赘述。

可选地，在图1对应实施例的基础上，步骤102之前，还包括：

调用两个或两个以上线程，以通过调用的两个或两个以上线程对选定的两个或两个以上倒排拉链执行上述中的获取文档的步骤。

具体地，从线程池中调用该两个或两个以上线程，通过该两个或两个以上线程对选定的两个或两个以上倒排拉链执行上述中的获取文档的步骤，也就是说两个或两个以上线程并行处理，互不干扰。由于每个线程负责从一个倒排拉链中获取文档，当该线程从该倒排拉链中获取完文档后，该线程负责从下一个倒排拉链中获取文档，实现了两个或两个以上线程并行工作，区别与相关技术中的串行处理倒排拉链，解决了串行处理倒排拉链导致的处理时间长的问题，也就是说减少了数据处理的时间，缩短了在检索时用户等待的时间，从缩短用户等待时间的方面上提升了用户的使用体验。

可选地，在图1对应实施例的基础上，步骤102之后，还包括：

若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第一类倒排拉链；若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第二类倒排拉链；对于每个第二类倒排拉链，计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额，根据计算出的差额，从第一类倒排拉链的未被获取到的文档中获取文档。

也就是说，有些倒排拉链中文档的文档数量比较多，在从该倒排拉链中获取完文档后，该倒排拉链中会存在未被获取的文档，则将该倒排拉链标识为第一类倒排拉链。而有些倒排拉链中文档的文档数量比较少，该倒排拉链中文档的总数量达不到需要从该倒排拉链中获取的文档的数量，则从第一类倒排拉链的未被获取到的文档中获取文档，以补齐该倒排拉链中文档不够的情况，使得从选定的倒排拉链中获取到的文档的总文档数量达到或者尽可能地达到选定的倒排拉链对应的文档数量的总和，从而保证了最终获取到的文档的总数量。其中，根据计算出的差额，从第一类倒排拉链的未被获取到的文档中获取文档，包括：如果第一类倒排拉链的未被获取到的文档总数量大于或等于计算出的差额，说明第一类倒排拉链的未被获取到的文档比较多，足够补齐差额，则从第一类倒排拉链的未被获取到的文档中获取的文档数量等于该差额；如果第一类倒排拉链的未被获取到的文档总数量小于计算出的差额，说明第一类倒排拉链的未被获取到的文档比较少，不够补齐差额，则全部获取第一类倒排拉链的未被获取到的文档。

可选地，在图1对应实施例的基础上，步骤102包括：

按照倒排拉链中文档的特征，对倒排拉链中的文档进行排序；从倒排拉链的排序后的文档中截取倒排拉链对应的文档数量的文档。

其中，文档的特征包括但不限于：文档生成的时间、文档的分数和文档的质量高低。在截取文档时，可以从倒排拉链的排序后的第一个文档开始，截取与所述倒排拉链对应的预设文档数量的文档，也可以从倒排拉链的排序后的第二个文档开始，截取与所述倒排拉链对应的文档数量的文档。

可以按照文档的生成时间的先后顺序对倒排拉链中的文档进行排序，在截取文档时，截取该倒排拉链中的生成时间靠前的文档，这样就丢弃掉在倒排拉链中时间靠后的文档，从而提高了截取到的文档的质量。例如，倒排拉链中包括电视剧的视频，由于用户对很早拍摄的电视剧的视频感兴趣的比较少，截取生成时间比较新的电视剧的视频，丢弃掉比较老的电视剧的视频，例如，丢弃掉1990年之前拍摄的电视剧的视频。还可以按照文档的分数或者文档的质量高低对倒排拉链中的文档进行排序，在截取文档时，截取该倒排拉链中的分数较高的文档或者标识为质量较高的文档，这样就丢弃掉在倒排拉链中分数较低的文档或者标识为质量较低的文档，从而提高了截取到的文档的质量。

可选地，在图1对应实施例的基础上，步骤101包括：

计算预先设置的需要获取的文档总数量除以选定的倒排拉链总数量；若计算的结果为整数，则将计算的结果作为选定的每个倒排拉链对应的文档数量；若计算的结果为小数，则根据预先设置的策略设置选定的每个倒排拉链对应的文档数量。

需要说明的是，以上是通过数据处理的方式来确定选定的每个倒排拉链对应的文档数量，例如，如果需要获取的文档总文档数量为M，选定的倒排拉链的总数量为N，计算M除以N，如果该计算出的结果为整数，那么选定的每个倒排拉链对应的文档数量都是该计算出的结果，如果该计算出的结果不是整数，也就是小数，根据预先设置的策略设置选定的每个倒排拉链对应的文档数量。预先设置的策略可以是，对计算出的结果向上取整，该取整的数值为P，那么在选定的倒排拉链中，其中的一个倒排拉链对应的文档数量是M-P×N+P，另外的每个倒排拉链对应的文档数量是P。以上仅仅是确定倒排拉链对应的文档数量的一个实施例，确定倒排拉链对应的文档数量并不限于以上的实现方式。

根据本发明实施例的文档获取方法，确定从倒排索引中选定的每个倒排拉链对应的文档数量；对于选定的每个倒排拉链，从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。从本发明实施例可见，从选定的每个倒排拉链中分别获取对应文档数量的文档，而非从一部分选定的倒排拉链中获取文档，放弃另一部分选定的倒排拉链，这样就避免了放弃选定的倒排拉链中的优质的倒排拉链，提高了从倒排拉链中获取文档的质量。

根据本发明实施例提供的一种文档获取装置，如图2所示，该文档获取装置2包括：

确定模块21，用于确定从倒排索引中选定的每个倒排拉链对应的文档数量。

第一获取模块22，用于对于选定的每个倒排拉链，从倒排拉链中获取倒排拉链对应的文档数量的文档。

可选地，在图2对应实施例的基础上，本发明还提供另一种文档获取装置，如图3所示，该文档获取装置2还包括：

调用模块23，用于调用两个或两个以上线程。

第一获取模块22，用于通过调用的两个或两个以上线程对选定的两个或两个以上倒排拉链执行获取的步骤。

可选地，如图3所示，文档获取装置2还包括：

标识模块24，用于若所述倒排拉链中文档的总数量大于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第一类倒排拉链；若所述倒排拉链中文档的总数量小于所述倒排拉链对应的文档数量，则将所述倒排拉链标识为第二类倒排拉链。

第二获取模块25，用于对于每个第二类倒排拉链，计算所述第二类倒排拉链中文档的总数量和所述第二类倒排拉链对应的文档数量之间的差额，根据计算出的差额，从第一类倒排拉链的未被获取到的文档中获取文档。

可选地，如图3所示，第一获取模块22包括：

排序单元221，用于按照倒排拉链中文档的特征，对倒排拉链中的文档进行排序。

截取单元222，用于从倒排拉链的排序后的文档中截取倒排拉链对应的文档数量的文档。

可选地，如图3所示，确定模块21包括：

计算单元211，用于计算预先设置的需要获取的文档总数量除以选定的倒排拉链总文档数量。

确定单元212，用于若计算的结果为整数，则将计算的结果作为选定的每个倒排拉链对应的文档数量。

设置单元213，用于若计算的结果为小数，则根据预先设置的策略设置选定的每个倒排拉链对应的文档数量。

在实际应用中，确定模块21、第一获取模块22、调用模块23、标识模块24和第二获取模块25均可由文档获取装置2中的CPU、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field ProgrammableGate Array，FPGA)等实现。

根据本发明实施例的文档获取装置，确定从倒排索引中选定的每个倒排拉链对应的文档数量；对于选定的每个倒排拉链，从所述倒排拉链中获取所述倒排拉链对应的文档数量的文档。从本发明实施例可见，从选定的每个倒排拉链中分别获取对应文档数量的文档，而非从一部分选定的倒排拉链中获取文档，放弃另一部分选定的倒排拉链，这样就避免了放弃选定的倒排拉链中的优质的倒排拉链，提高了从倒排拉链中获取文档的质量。

本发明实施例提供又一种文档获取装置，该文档获取装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现的步骤包括：

确定从倒排索引中选定的每个倒排拉链对应的文档数量；

可选地，上述处理器执行计算机程序时实现的步骤还包括：

可选地，上述处理器执行计算机程序时实现的步骤具体包括：

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种文档获取方法，其特征在于，包括：

确定从倒排索引中选定的每个倒排拉链对应的文档数量；

2.根据权利要求1所述的文档获取方法，其特征在于，所述获取所述倒排拉链对应的预设文档数量的文档之前，还包括：

3.根据权利要求1所述的文档获取方法，其特征在于，所述获取所述倒排拉链对应的文档数量的文档之后，还包括：

4.根据权利要求1至3中任一项所述的文档获取方法，其特征在于，所述获取所述倒排拉链对应的文档数量的文档，包括：

5.根据权利要求1至3中任一项所述的文档获取方法，其特征在于，所述确定从倒排索引中选定的每个倒排拉链对应的文档数量，包括：

6.一种文档获取装置，其特征在于，包括：

7.根据权利要求6所述的文档获取装置，其特征在于，还包括：

调用模块，用于调用两个或两个以上线程；

8.根据权利要求6所述的文档获取装置，其特征在于，还包括：

9.根据权利要求6至8中任一项所述的文档获取装置，其特征在于，所述第一获取模块包括：

10.根据权利要求6至8中任一项所述的文档获取装置，其特征在于，所述确定模块包括：