CN114372190A

CN114372190A - 一种互联网海量数据检索方法和检索系统

Info

Publication number: CN114372190A
Application number: CN202210279242.3A
Authority: CN
Inventors: 胡中良; 肖立高; 龙俊池; 钟翔
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-04-19
Anticipated expiration: 2042-03-22
Also published as: CN114372190B

Abstract

本发明公开了一种互联网海量数据检索方法及系统，互联网海量数据检索系统包括服务器，以及与服务器分别通信连接的各个检索模块；服务器与用户终端通信连接；方法包括如下步骤：获取通过用户终端输入的检索条件，根据检索条件处理得到各个筛选信息，将根据各个筛选信息建立的检索式发送至服务器；将各个筛选信息和对应的检索式分别带入筛选结果预测模型，以确定检索模块数量；根据检索模块数量，将检索条件对应的检索任务向检索模块进行分配；将每个检索模块的筛选结果上传至服务器；在服务器中根据检索式对各个检索模块上传的筛选结果进行处理，按照筛选结果的重要性逐轮发布检索结果。本发明的技术方案有利于降低检索器的任务量。

Description

一种互联网海量数据检索方法和检索系统

技术领域

本发明涉及数据检索技术领域，尤其涉及一种互联网海量数据检索方法和一种互联网海量数据检索系统。

背景技术

互联网数据检索是一种有效的信息搜集方式，现有技术中，互联网数据检索的基本工作过程一般包括：在互联网中发现、搜集网页信息；同时对信息进行提取和组织建立索引库；再由检索器根据用户输入的查询关键字，在索引库中快速检出文档，并将查询结果返回给用户。

通常，一个检索任务对应由一个检索器进行检索任务处理，然而，每个检索任务对应的检索工作量并不相同，尤其在检索工作量大的情况下，一个检索器进行任务处理，不仅给检索器带来繁重的检索任务量，导致检索效率低下，还可能因为任务量过多，造成检索结果出错。因此，亟需提出一种降低单个检索器的检索任务量的数据检索方法，以提高检索效率和提高检索质量。

发明内容

本发明的主要目的在于提供一种互联网海量数据检索方法，旨在提供一种降低单个检索器的任务量的数据检索方法，以提高检索效率和提高检索质量。

为实现上述目的，本发明提供的互联网海量数据检索方法，应用于互联网海量数据检索系统，所述互联网海量数据检索系统包括服务器，以及与所述服务器分别通信连接的各个检索模块；所述服务器与用户终端通信连接；所述方法包括如下步骤：

获取通过所述用户终端输入的检索条件，根据检索条件处理得到各个筛选信息，将根据各个所述筛选信息建立的检索式发送至服务器；

在所述服务器中将各个所述筛选信息分别带入筛选结果预测模型；

在所述筛选结果预测模型中，识别每个所述筛选信息对应的数据库；

根据每个筛选信息对应的数据库进行数据库筛选，确定当前检索式对应的相关数据库集合；

根据当前检索式对应的相关数据库集合中包含的数据量，预估检索时间；

将预估检索时间与标准检索时间比对，根据比对结果，确定检索模块数量；

根据所述检索模块数量，将所述检索条件对应的检索任务向所述检索模块进行分配；

将每个所述检索模块的筛选结果上传至所述服务器；

在所述服务器中对各个所述检索模块上传的筛选结果进行处理，按照筛选结果的重要性逐轮发布检索结果。

优选地，所述根据每个筛选信息对应的数据库进行数据库筛选，确定当前检索式对应的相关数据库集合的步骤之前，包括：

在所述服务器中记录每个数据库针对筛选信息的筛选结果数量；

在所述服务器中，将每个数据库针对同一筛选信息的筛选结果数量进行比对，以确定每个数据库针对同一筛选信息的相关系数；

根据每个数据库针对同一筛选信息的相关系数，确定每个筛选信息对应的相关数据库集合，以形成相关数据库信息表。

优选地，所述根据每个筛选信息对应的数据库进行数据库筛选，确定当前检索式对应的相关数据库集合的步骤，包括：

将当前检索式作为输入数据带入权重值计算模型，以输出当前检索式中每个所述筛选信息对应的权重值；

根据所述相关数据库信息表，确定每个所述筛选信息对应的相关数据库集合，以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数；

根据每个所述筛选信息对应的权重值，以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数，确定每个所述筛选信息对应的相关数据库集合中各个数据库的重要系数；

根据所述重要系数，确定当前检索式对应的相关数据库。

优选地，所述根据每个筛选信息对应的数据库进行数据库筛选，确定当前检索式对应的相关数据库集合的步骤之后，还包括：

根据当前检索式对应的相关数据库集合，以及对应的重要系数，确定所述相关数据库集合中各个数据库的推荐检索次序；

将当前检索式对应的相关数据库集合中的各个数据库，按照所述推荐检索次序分成多个检索批次，将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。

优选地，所述将每个所述检索模块的筛选结果上传至所述服务器的步骤，包括：

在每个所述检索模块中，按照检索批次和推荐检索次序对当前检索式对应的相关数据库集合中的各个数据库进行依次检索；

各个所述检索模块将筛选结果进行检索批次标记；

各个所述检索模块将带有检索批次标记的筛选结果发送至所述服务器。

优选地，所述在所述服务器中对各个所述检索模块上传的筛选结果进行处理，按照筛选结果的重要性逐轮发布检索结果的步骤，包括：

在所述服务器中根据数据库的所述推荐检索次序的批次，将不同批次的子检索结果进行分区存储；

按照数据库的所述推荐检索次序的批次，形成子检索结果的重要性次序；

按照子检索结果的重要性次序从对应的存储区内提取子检索结果，并逐轮发布子检索结果。

优选地，所述获取通过所述用户终端输入的检索条件，根据检索条件处理得到各个筛选信息的步骤，包括：

获取通过所述用户终端输入的检索条件；

将所述检索条件带入切分模型进行切分，得到最优切分结果；

根据所述最优切分结果，得到各个所述筛选信息。

优选地，所述将当前检索式作为输入数据带入权重值计算模型，以输出当前检索式中每个所述筛选信息对应的权重值的具体步骤如下：

将当前检索式作为输入数据带入权重值计算模型，以识别所述当前检索式的检索目的，根据所述检索目的，赋予各个筛选信息初始权重；

对每个筛选信息对应的初始权重通过修正系数进行修正，其中，各个筛选信息之间若存在上下位关系，具有上下位关系的上位筛选信息的修正系数大于或等于0，且小于1，不具有上下位关系的筛选信息的修正系数为1，以得到修正后的权重；

根据每个筛选信息对应的修正后的权重，输出当前检索式中每个所述筛选信息对应的权重值；

其中，根据检索条件处理得到的各个筛选信息依次为：

；n表示筛选信息的数量，i表示筛选信息的次序，

，

；

每个筛选信息对应的初始权重依次为：

，

；

每个筛选信息对应的修正后的权重依次为：

；

为第i个筛选信息对应的修正系数。

优选地，所述根据所述重要系数，确定当前检索式对应的相关数据库的具体步骤如下：

筛选信息

对应的相关数据库集合为A_i，A_i包含的数据库为Aij，Aij对应的相关系数为

，Aij对应的重要系数为

；

其中

，

为将各个所述筛选信息

带入筛选结果预测模型后，在所述筛选结果预测模型中，识别到的所述筛选信息

对应的数据库数量；

计算筛选信息

对应的相关数据库集合中各个数据库的重要系数均值

，其中，

；

若数据库Aij的重要系数

，则将数据库Aij添加至当前检索式对应的相关数据库C；其中，B_i为针对筛选信息

的调整系数，B_i>0，B_i一般取1或根据用户定义调整；若数据库A_ij的重要系数

，则不将数据库Aij添加至当前检索式对应的相关数据库C，以确定当前检索式对应的相关数据库。

此外，为实现上述目的，本发明还提供一种互联网海量数据检索系统，用于执行上述任一项所述方法的步骤，所述互联网海量数据检索系统包括服务器，以及与所述服务器分别通信连接的各个检索模块；所述服务器与用户终端通信连接。

本发明的技术方案中，首先根据检索条件处理得到各个筛选信息，将筛选信息和对应的检索式，带入筛选结果预测模型，从而根据筛选结果预测模型确定待检索的数据量，根据待检索数据量确定检索任务量，根据检索任务量的多少，确定检索模块数量。从而，避免一个检索模块承担过多的检索任务量导致的检索反馈不及时，适用于互联网海量数据的检索。同时，也能避免较小的检索任务匹配过多的检索模块处理造成的检索模块被过度占用。

附图说明

图1为本发明互联网海量数据检索方法的流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

请参阅图1，为实现上述目的，本发明提供一种互联网海量数据检索方法，应用于互联网海量数据检索系统，所述互联网海量数据检索系统包括服务器，以及与所述服务器分别通信连接的各个检索模块；所述服务器与用户终端通信连接；所述方法包括如下步骤：

步骤S10，获取通过所述用户终端输入的检索条件，根据检索条件处理得到各个筛选信息，将根据各个所述筛选信息建立的检索式发送至服务器；

步骤S20，在所述服务器中将各个所述筛选信息分别带入筛选结果预测模型；例如，检索条件可以拆分为三个筛选信息，就需要将该三个筛选信息分别带入筛选结果预测模型；

步骤S30，在所述筛选结果预测模型中，识别每个所述筛选信息对应的数据库；本步骤用于保证待检索数据库的完全，以避免数据库遗漏，例如，筛选信息1对应的数据库为数据库A、B、C、D和E，筛选信息2对应的数据库为数据库C、D、E、F和G，筛选信息3对应的数据库为数据库D、E、H、I和J，则该步骤得到了一个数据完整的数据库筛选集合：A、B、C、D、E、F、G、H、I和J。

步骤S40，根据每个筛选信息对应的数据库进行数据库筛选，确定当前检索式对应的相关数据库集合；通过步骤S40，可以从数据完整的数据库筛选集合中确定各个数据库的重要程度，将不重要的数据库去除，将重要的数据库保留，从而确定当前检索式对应的相关数据库集合。

步骤S50，根据当前检索式对应的相关数据库集合中包含的数据量，预估检索时间；其中，数据量大，对应的检索时间长，数据量小，对应的检索时间短。并且，本发明中，还将检索时间与检索式的筛选信息个数相关联，容易理解，筛选信息个数越多，对应的检索时间越长，反之，检索时间越短。本发明中，进一步将检索时间与每个筛选信息对应的相近筛选信息个数关联。具体的，得到如下公式用于确定预估检索时间T：

；

其中，T为预估检索时间，T₀为时间常数，q为当前检索式对应的相关数据库集合中包含的数据量，n表示筛选信息的个数，i表示第i个筛选信息，

，

；

表示第i个筛选信息的相近筛选信息个数；

为速度系数，

。

步骤S60，将预估检索时间与标准检索时间比对，根据比对结果，确定检索模块数量；具体的，检索模块数量z参照如下公式确定：

，其中，T_b为标准检索时间。

步骤S70，根据所述检索模块数量，将所述检索条件对应的检索任务向所述检索模块进行分配；

步骤S80，将每个所述检索模块的筛选结果上传至所述服务器；

步骤S90，在所述服务器中对各个所述检索模块上传的筛选结果进行处理，按照筛选结果的重要性逐轮发布检索结果。

进一步的，现有的检索方法中，采用一个检索模块进行检索，并且需要等待该检索模块将检索任务全部完成后，再一次性地发布检索结果，这样的方式常常会使用户处于等待过程中，尤其是检索速度较慢的情况下，用户可能处于持续等待的过程中，造成用户等待时间的浪费，并降低了用户的体验。本发明中，将各个检索模块上传的筛选结果在服务器中进行处理，并且能够按照筛选结果的重要性逐轮发布检索结果，也就是说，先反馈重要的检索结果，再反馈重要程度相对小的检索结果，最后反馈重要程度低的检索结果，这样最先呈现给用户的检索结果，与用户的检索目的更相关，使用户可以在等待其他检索结果的过程中，先查看已发布的检索结果，并利用用户的查看时间，进一步进行下一轮结果的处理和发布，即使处于检索速度较慢的情况，也使用户能够优先查看到重要检索结果，降低了用户的检索等待时间，提高用户的检索体验。

进一步的，步骤S90之后，还可以进一步包括如下步骤：

侦测是否触发包含检索模块的重检信号，在重检信号触发后，所述重检信号对应的所述检索模块根据分配的检索任务进行再次检索，得到重筛结果；将所述重检信号对应的所述检索模块的上次所述筛选结果与所述重筛结果进行比对，当比对结果为不一致，则将所述重筛结果上传至所述服务器；

在所述服务器中将所述重检信号对应的所述检索模块的上次所述筛选结果替换为所述重筛结果，并对各个所述检索模块的最终上传筛选结果进行处理，以得到最终检索结果。

基于本发明的互联网海量数据检索方法的第一实施例，本发明的互联网海量数据检索方法的第二实施例中，所述步骤S40之前，包括步骤S100至步骤S120：

步骤S100，在所述服务器中记录每个数据库针对筛选信息的筛选结果数量；例如，若第一次对筛选信息1进行检索时，需要检索大量的数据库，有些数据库完全与筛选信息1无关，记录筛选结果数量为0，有些数据库则能检索到筛选信息1，则记录该数据库中检出的与筛选信息1相关的结果数量。

步骤S110，在所述服务器中，将每个数据库针对同一筛选信息的筛选结果数量进行比对，以确定每个数据库针对同一筛选信息的相关系数；具体的，若数据库针对指定的筛选信息的筛选结果数量为0，则相关系数取0，以使后续需要在众多数据库筛选指定筛选信息时，自动滤除相关系数为0的数据库，有效降低待检索的数据库数量，降低检索模块的检索任务量，节约检索资源和时间。若数据库针对指定的筛选信息的筛选结果数量大于0，则相关系数也大于0，容易理解，筛选结果数量越多，相关系数越大，筛选结果数量越少，相关系数越多。

步骤S120，根据每个数据库针对同一筛选信息的相关系数，确定每个筛选信息对应的相关数据库集合，以形成相关数据库信息表；具体的，确定每个筛选信息对应的相关数据库集合是为了滤除相关度不高的数据库，降低检索的数据处理量。具体的，用户可以选择大范围检索和精准检索的检索方式，根据检索方式确定相关系数的门槛值，例如，在大范围检索的检索方式下，相关系数的门槛值为0，此时，仅将相关系数为0的数据库滤除，将相关系数不为0的数据库形成相关数据库集合；例如，在精准检索的检索方式下，将将相关系数小于设定系数的数据库滤除，将相关系数在设定系数以上的数据库形成相关数据库集合。

步骤S100至步骤S120是服务器在日常的检索任务中根据检索结果进行记录形成，并且步骤S100至步骤S120有利于在日常的检索任务中，将每个检索信息紧密关联的数据库逐渐进行修正，从而不断提升日后的检索准确度。

基于本发明的互联网海量数据检索方法的第二实施例，本发明的互联网海量数据检索方法的第三实施例中，所述步骤S40，包括：

步骤S41，将当前检索式作为输入数据带入权重值计算模型，以输出当前检索式中每个所述筛选信息对应的权重值；

步骤S42，根据所述相关数据库信息表，确定每个所述筛选信息对应的相关数据库集合，以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数；

步骤S43，根据每个所述筛选信息对应的权重值，以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数，确定每个所述筛选信息对应的相关数据库集合中各个数据库的重要系数；

步骤S44，根据所述重要系数，确定当前检索式对应的相关数据库。

当前检索式中每个所述筛选信息对应的权重值代表在检索式中各个筛选信息的重要程度。权重值计算模型用于计算每个筛选信息相对当前检索式的权重分数。具体的，将当前检索式作为输入数据输入权重值计算模型，权重值计算模型的输出数据为：按照检索式中各个检索信息的排序，输出一组权重值。

基于本发明的互联网海量数据检索方法的第三实施例，本发明的互联网海量数据检索方法的第四实施例中，所述步骤S40之后，包括：

步骤S130，根据当前检索式对应的相关数据库集合，以及对应的重要系数，确定所述相关数据库集合中各个数据库的推荐检索次序；

步骤S140，将当前检索式对应的相关数据库集合中的各个数据库，按照所述推荐检索次序分成多个检索批次，将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。

重要系数用于确定当前检索式对应的相关数据库中，各个数据库与检索目的的相关性，相关性越大，该数据库中的检出结果与检索目的越相关，因此，赋予优先的推荐检索次序，相关性越小，该数据库中的检出结果与检索目的越不相关，赋予靠后的推荐检索次序。从而，根据推荐检索次序可以将当前检索式对应的相关数据库集合对应分成多个检索批次，将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。每个检索模块会接收到不同检索批次的数据库链接。

例如，将第一检索批次的若干个数据库链接，分别派发给第一个至最后一个检索模块，将第二检索批次的若干个数据库链接，也分别派发给第一个至最后一个检索模块，直至数据库派发完毕。因此，同一检索批次的检索任务同时由多个检索终端共同完成，缩短同一批次检索任务的完成时间，以及提高同一批次检索任务的发布速度。

基于本发明的互联网海量数据检索方法的第四实施例，本发明的互联网海量数据检索方法的第五实施例中，所述步骤S80，包括：

步骤S81，在每个所述检索模块中，按照检索批次和推荐检索次序对当前检索式对应的相关数据库集合中的各个数据库进行依次检索；

步骤S82，各个所述检索模块将筛选结果进行检索批次标记；

步骤S83，各个所述检索模块将带有检索批次标记的筛选结果发送至所述服务器。

其中，将推荐检索次序共享给每个检索模块，每个检索模块获取到推荐检索次序后，根据接收到的数据库链接的检索批次和推荐检索次序依次执行检索，每个检索模块在检索完一个检索批次后，将检索结果返回服务器，并继续进行下一个检索批次的检索任务。

基于本发明的互联网海量数据检索方法的第五实施例，本发明的互联网海量数据检索方法的第六实施例中，步骤S90，包括：

步骤S91，在所述服务器中根据数据库的所述推荐检索次序的批次，将不同批次的子检索结果进行分区存储；

步骤S92，按照数据库的所述推荐检索次序的批次，形成子检索结果的重要性次序；

步骤S93，按照子检索结果的重要性次序从对应的存储区内提取子检索结果，并逐轮发布子检索结果。

在服务器中对不同检索批次的子检索结果进行分区存储，当侦测到同一批次的子检索结果全部获取后，按照检索批次的顺序，逐轮向用户发布子检索结果，以使用户先看到更重要的检索结果，并利用用户查阅前一轮检索结果的时间，继续等待进行后一轮检索，并在后一轮检索结果形成后，发布后一轮子检索结果。

基于本发明的互联网海量数据检索方法的第一实施例至第六实施例，本发明的互联网海量数据检索方法的第七实施例中，步骤S10中的所述获取通过所述用户终端输入的检索条件，根据检索条件处理得到各个筛选信息的步骤，包括：

步骤S11，获取通过所述用户终端输入的检索条件；

步骤S12，将所述检索条件带入切分模型进行切分，得到最优切分结果；

步骤S13，根据所述最优切分结果，得到各个所述筛选信息。

基于本发明的互联网海量数据检索方法的第三实施例至第七实施例，本发明的互联网海量数据检索方法的第八实施例中，步骤S41的具体步骤如下：

步骤S411，将当前检索式作为输入数据带入权重值计算模型，以识别所述当前检索式的检索目的，根据所述检索目的，赋予各个筛选信息初始权重；

具体的，各个筛选信息的初始权重可以相等，或者不相等。在各个筛选信息相对检索目的的作用相等时，赋予各个筛选信息相等的初始权重，在各个筛选信息相对检索目的的作用不相等时，赋予各个筛选信息不相等的初始权重。

步骤S412，对每个筛选信息对应的初始权重通过修正系数进行修正，其中，各个筛选信息之间若存在上下位关系，具有上下位关系的上位筛选信息的修正系数大于或等于0，且小于1，不具有上下位关系的筛选信息的修正系数为1，以得到修正后的权重；

步骤S413，根据每个筛选信息对应的修正后的权重，输出当前检索式中每个所述筛选信息对应的权重值；

其中，根据检索条件处理得到的各个筛选信息依次为：

；n表示筛选信息的数量，i表示筛选信息的次序，

，

；

每个筛选信息对应的初始权重依次为：

，

；

每个筛选信息对应的修正后的权重依次为：

；

为第i个筛选信息对应的修正系数。

基于本发明的互联网海量数据检索方法的第八实施例，本发明的互联网海量数据检索方法的第九实施例中，步骤S44包括如下具体步骤：

筛选信息

对应的相关数据库集合为Ai，Ai包含的数据库为Aij，Aij对应的相关系数为

，Aij对应的重要系数为

；

其中

，

为将各个所述筛选信息

对应的数据库数量；

计算筛选信息

对应的相关数据库集合中各个数据库的重要系数均值

，其中，

；

若数据库Aij的重要系数

为实现上述目的，本发明还提供一种互联网海量数据检索系统，用于执行如上述任一实施例所述方法的步骤；所述互联网海量数据检索系统包括服务器，以及与所述服务器分别通信连接的各个检索模块；所述服务器与用户终端通信连接。

互联网海量数据检索系统，具有所述互联网海量数据检索方法的所有有益效果，在此不作赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。

在本说明书的描述中，参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第X实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。