CN114372190A - 一种互联网海量数据检索方法和检索系统 - Google Patents

一种互联网海量数据检索方法和检索系统 Download PDF

Info

Publication number
CN114372190A
CN114372190A CN202210279242.3A CN202210279242A CN114372190A CN 114372190 A CN114372190 A CN 114372190A CN 202210279242 A CN202210279242 A CN 202210279242A CN 114372190 A CN114372190 A CN 114372190A
Authority
CN
China
Prior art keywords
retrieval
database
screening
screening information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210279242.3A
Other languages
English (en)
Other versions
CN114372190B (zh
Inventor
胡中良
肖立高
龙俊池
钟翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210279242.3A priority Critical patent/CN114372190B/zh
Publication of CN114372190A publication Critical patent/CN114372190A/zh
Application granted granted Critical
Publication of CN114372190B publication Critical patent/CN114372190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种互联网海量数据检索方法及系统,互联网海量数据检索系统包括服务器,以及与服务器分别通信连接的各个检索模块;服务器与用户终端通信连接;方法包括如下步骤:获取通过用户终端输入的检索条件,根据检索条件处理得到各个筛选信息,将根据各个筛选信息建立的检索式发送至服务器;将各个筛选信息和对应的检索式分别带入筛选结果预测模型,以确定检索模块数量;根据检索模块数量,将检索条件对应的检索任务向检索模块进行分配;将每个检索模块的筛选结果上传至服务器;在服务器中根据检索式对各个检索模块上传的筛选结果进行处理,按照筛选结果的重要性逐轮发布检索结果。本发明的技术方案有利于降低检索器的任务量。

Description

一种互联网海量数据检索方法和检索系统
技术领域
本发明涉及数据检索技术领域,尤其涉及一种互联网海量数据检索方法和一种互联网海量数据检索系统。
背景技术
互联网数据检索是一种有效的信息搜集方式,现有技术中,互联网数据检索的基本工作过程一般包括:在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,并将查询结果返回给用户。
通常,一个检索任务对应由一个检索器进行检索任务处理,然而,每个检索任务对应的检索工作量并不相同,尤其在检索工作量大的情况下,一个检索器进行任务处理,不仅给检索器带来繁重的检索任务量,导致检索效率低下,还可能因为任务量过多,造成检索结果出错。因此,亟需提出一种降低单个检索器的检索任务量的数据检索方法,以提高检索效率和提高检索质量。
发明内容
本发明的主要目的在于提供一种互联网海量数据检索方法,旨在提供一种降低单个检索器的任务量的数据检索方法,以提高检索效率和提高检索质量。
为实现上述目的,本发明提供的互联网海量数据检索方法,应用于互联网海量数据检索系统,所述互联网海量数据检索系统包括服务器,以及与所述服务器分别通信连接的各个检索模块;所述服务器与用户终端通信连接;所述方法包括如下步骤:
获取通过所述用户终端输入的检索条件,根据检索条件处理得到各个筛选信息,将根据各个所述筛选信息建立的检索式发送至服务器;
在所述服务器中将各个所述筛选信息分别带入筛选结果预测模型;
在所述筛选结果预测模型中,识别每个所述筛选信息对应的数据库;
根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合;
根据当前检索式对应的相关数据库集合中包含的数据量,预估检索时间;
将预估检索时间与标准检索时间比对,根据比对结果,确定检索模块数量;
根据所述检索模块数量,将所述检索条件对应的检索任务向所述检索模块进行分配;
将每个所述检索模块的筛选结果上传至所述服务器;
在所述服务器中对各个所述检索模块上传的筛选结果进行处理,按照筛选结果的重要性逐轮发布检索结果。
优选地,所述根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合的步骤之前,包括:
在所述服务器中记录每个数据库针对筛选信息的筛选结果数量;
在所述服务器中,将每个数据库针对同一筛选信息的筛选结果数量进行比对,以确定每个数据库针对同一筛选信息的相关系数;
根据每个数据库针对同一筛选信息的相关系数,确定每个筛选信息对应的相关数据库集合,以形成相关数据库信息表。
优选地,所述根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合的步骤,包括:
将当前检索式作为输入数据带入权重值计算模型,以输出当前检索式中每个所述筛选信息对应的权重值;
根据所述相关数据库信息表,确定每个所述筛选信息对应的相关数据库集合,以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数;
根据每个所述筛选信息对应的权重值,以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数,确定每个所述筛选信息对应的相关数据库集合中各个数据库的重要系数;
根据所述重要系数,确定当前检索式对应的相关数据库。
优选地,所述根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合的步骤之后,还包括:
根据当前检索式对应的相关数据库集合,以及对应的重要系数,确定所述相关数据库集合中各个数据库的推荐检索次序;
将当前检索式对应的相关数据库集合中的各个数据库,按照所述推荐检索次序分成多个检索批次,将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。
优选地,所述将每个所述检索模块的筛选结果上传至所述服务器的步骤,包括:
在每个所述检索模块中,按照检索批次和推荐检索次序对当前检索式对应的相关数据库集合中的各个数据库进行依次检索;
各个所述检索模块将筛选结果进行检索批次标记;
各个所述检索模块将带有检索批次标记的筛选结果发送至所述服务器。
优选地,所述在所述服务器中对各个所述检索模块上传的筛选结果进行处理,按照筛选结果的重要性逐轮发布检索结果的步骤,包括:
在所述服务器中根据数据库的所述推荐检索次序的批次,将不同批次的子检索结果进行分区存储;
按照数据库的所述推荐检索次序的批次,形成子检索结果的重要性次序;
按照子检索结果的重要性次序从对应的存储区内提取子检索结果,并逐轮发布子检索结果。
优选地,所述获取通过所述用户终端输入的检索条件,根据检索条件处理得到各个筛选信息的步骤,包括:
获取通过所述用户终端输入的检索条件;
将所述检索条件带入切分模型进行切分,得到最优切分结果;
根据所述最优切分结果,得到各个所述筛选信息。
优选地,所述将当前检索式作为输入数据带入权重值计算模型,以输出当前检索式中每个所述筛选信息对应的权重值的具体步骤如下:
将当前检索式作为输入数据带入权重值计算模型,以识别所述当前检索式的检索目的,根据所述检索目的,赋予各个筛选信息初始权重;
对每个筛选信息对应的初始权重通过修正系数进行修正,其中,各个筛选信息之间若存在上下位关系,具有上下位关系的上位筛选信息的修正系数大于或等于0,且小于1,不具有上下位关系的筛选信息的修正系数为1,以得到修正后的权重;
根据每个筛选信息对应的修正后的权重,输出当前检索式中每个所述筛选信息对应的权重值;
其中,根据检索条件处理得到的各个筛选信息依次为:
Figure 304180DEST_PATH_IMAGE001
;n表示筛选信息的数量,i表示筛选信息的次序,
Figure 188697DEST_PATH_IMAGE002
Figure 234014DEST_PATH_IMAGE003
每个筛选信息对应的初始权重依次为:
Figure 98065DEST_PATH_IMAGE004
Figure 381278DEST_PATH_IMAGE005
每个筛选信息对应的修正后的权重依次为:
Figure 407003DEST_PATH_IMAGE006
Figure 939616DEST_PATH_IMAGE008
Figure 341778DEST_PATH_IMAGE009
为第i个筛选信息对应的修正系数。
优选地,所述根据所述重要系数,确定当前检索式对应的相关数据库的具体步骤如下:
筛选信息
Figure 276236DEST_PATH_IMAGE010
对应的相关数据库集合为Ai,Ai包含的数据库为Aij,Aij对应的相关系数为
Figure 472862DEST_PATH_IMAGE011
,Aij对应的重要系数为
Figure 492771DEST_PATH_IMAGE012
其中
Figure 433045DEST_PATH_IMAGE013
Figure 222010DEST_PATH_IMAGE014
为将各个所述筛选信息
Figure 120695DEST_PATH_IMAGE015
带入筛选结果预测模型后,在所述筛选结果预测模型中,识别到的所述筛选信息
Figure 64118DEST_PATH_IMAGE016
对应的数据库数量;
计算筛选信息
Figure 808084DEST_PATH_IMAGE016
对应的相关数据库集合中各个数据库的重要系数均值
Figure 920396DEST_PATH_IMAGE017
,其中,
Figure 521142DEST_PATH_IMAGE018
若数据库Aij的重要系数
Figure 453326DEST_PATH_IMAGE019
,则将数据库Aij添加至当前检索式对应的相关数据库C;其中,Bi为针对筛选信息
Figure 797719DEST_PATH_IMAGE020
的调整系数,Bi>0,Bi一般取1或根据用户定义调整;若数据库Aij的重要系数
Figure 498959DEST_PATH_IMAGE021
,则不将数据库Aij添加至当前检索式对应的相关数据库C,以确定当前检索式对应的相关数据库。
此外,为实现上述目的,本发明还提供一种互联网海量数据检索系统,用于执行上述任一项所述方法的步骤,所述互联网海量数据检索系统包括服务器,以及与所述服务器分别通信连接的各个检索模块;所述服务器与用户终端通信连接。
本发明的技术方案中,首先根据检索条件处理得到各个筛选信息,将筛选信息和对应的检索式,带入筛选结果预测模型,从而根据筛选结果预测模型确定待检索的数据量,根据待检索数据量确定检索任务量,根据检索任务量的多少,确定检索模块数量。从而,避免一个检索模块承担过多的检索任务量导致的检索反馈不及时,适用于互联网海量数据的检索。同时,也能避免较小的检索任务匹配过多的检索模块处理造成的检索模块被过度占用。
附图说明
图1为本发明互联网海量数据检索方法的流程示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
请参阅图1,为实现上述目的,本发明提供一种互联网海量数据检索方法,应用于互联网海量数据检索系统,所述互联网海量数据检索系统包括服务器,以及与所述服务器分别通信连接的各个检索模块;所述服务器与用户终端通信连接;所述方法包括如下步骤:
步骤S10,获取通过所述用户终端输入的检索条件,根据检索条件处理得到各个筛选信息,将根据各个所述筛选信息建立的检索式发送至服务器;
步骤S20,在所述服务器中将各个所述筛选信息分别带入筛选结果预测模型;例如,检索条件可以拆分为三个筛选信息,就需要将该三个筛选信息分别带入筛选结果预测模型;
步骤S30,在所述筛选结果预测模型中,识别每个所述筛选信息对应的数据库;本步骤用于保证待检索数据库的完全,以避免数据库遗漏,例如,筛选信息1对应的数据库为数据库A、B、C、D和E,筛选信息2对应的数据库为数据库C、D、E、F和G,筛选信息3对应的数据库为数据库D、E、H、I和J,则该步骤得到了一个数据完整的数据库筛选集合:A、B、C、D、E、F、G、H、I和J。
步骤S40,根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合;通过步骤S40,可以从数据完整的数据库筛选集合中确定各个数据库的重要程度,将不重要的数据库去除,将重要的数据库保留,从而确定当前检索式对应的相关数据库集合。
步骤S50,根据当前检索式对应的相关数据库集合中包含的数据量,预估检索时间;其中,数据量大,对应的检索时间长,数据量小,对应的检索时间短。并且,本发明中,还将检索时间与检索式的筛选信息个数相关联,容易理解,筛选信息个数越多,对应的检索时间越长,反之,检索时间越短。本发明中,进一步将检索时间与每个筛选信息对应的相近筛选信息个数关联。具体的,得到如下公式用于确定预估检索时间T:
Figure 536185DEST_PATH_IMAGE022
其中,T为预估检索时间,T0为时间常数,q为当前检索式对应的相关数据库集合中包含的数据量,n表示筛选信息的个数,i表示第i个筛选信息,
Figure 690086DEST_PATH_IMAGE023
Figure 572591DEST_PATH_IMAGE024
Figure 393917DEST_PATH_IMAGE025
表示第i个筛选信息的相近筛选信息个数;
Figure 602044DEST_PATH_IMAGE026
为速度系数,
Figure 243241DEST_PATH_IMAGE027
步骤S60,将预估检索时间与标准检索时间比对,根据比对结果,确定检索模块数量;具体的,检索模块数量z参照如下公式确定:
Figure 663858DEST_PATH_IMAGE028
,其中,Tb为标准检索时间。
步骤S70,根据所述检索模块数量,将所述检索条件对应的检索任务向所述检索模块进行分配;
步骤S80,将每个所述检索模块的筛选结果上传至所述服务器;
步骤S90,在所述服务器中对各个所述检索模块上传的筛选结果进行处理,按照筛选结果的重要性逐轮发布检索结果。
本发明的技术方案中,首先根据检索条件处理得到各个筛选信息,将筛选信息和对应的检索式,带入筛选结果预测模型,从而根据筛选结果预测模型确定待检索的数据量,根据待检索数据量确定检索任务量,根据检索任务量的多少,确定检索模块数量。从而,避免一个检索模块承担过多的检索任务量导致的检索反馈不及时,适用于互联网海量数据的检索。同时,也能避免较小的检索任务匹配过多的检索模块处理造成的检索模块被过度占用。
进一步的,现有的检索方法中,采用一个检索模块进行检索,并且需要等待该检索模块将检索任务全部完成后,再一次性地发布检索结果,这样的方式常常会使用户处于等待过程中,尤其是检索速度较慢的情况下,用户可能处于持续等待的过程中,造成用户等待时间的浪费,并降低了用户的体验。本发明中,将各个检索模块上传的筛选结果在服务器中进行处理,并且能够按照筛选结果的重要性逐轮发布检索结果,也就是说,先反馈重要的检索结果,再反馈重要程度相对小的检索结果,最后反馈重要程度低的检索结果,这样最先呈现给用户的检索结果,与用户的检索目的更相关,使用户可以在等待其他检索结果的过程中,先查看已发布的检索结果,并利用用户的查看时间,进一步进行下一轮结果的处理和发布,即使处于检索速度较慢的情况,也使用户能够优先查看到重要检索结果,降低了用户的检索等待时间,提高用户的检索体验。
进一步的,步骤S90之后,还可以进一步包括如下步骤:
侦测是否触发包含检索模块的重检信号,在重检信号触发后,所述重检信号对应的所述检索模块根据分配的检索任务进行再次检索,得到重筛结果;将所述重检信号对应的所述检索模块的上次所述筛选结果与所述重筛结果进行比对,当比对结果为不一致,则将所述重筛结果上传至所述服务器;
在所述服务器中将所述重检信号对应的所述检索模块的上次所述筛选结果替换为所述重筛结果,并对各个所述检索模块的最终上传筛选结果进行处理,以得到最终检索结果。
基于本发明的互联网海量数据检索方法的第一实施例,本发明的互联网海量数据检索方法的第二实施例中,所述步骤S40之前,包括步骤S100至步骤S120:
步骤S100,在所述服务器中记录每个数据库针对筛选信息的筛选结果数量;例如,若第一次对筛选信息1进行检索时,需要检索大量的数据库,有些数据库完全与筛选信息1无关,记录筛选结果数量为0,有些数据库则能检索到筛选信息1,则记录该数据库中检出的与筛选信息1相关的结果数量。
步骤S110,在所述服务器中,将每个数据库针对同一筛选信息的筛选结果数量进行比对,以确定每个数据库针对同一筛选信息的相关系数;具体的,若数据库针对指定的筛选信息的筛选结果数量为0,则相关系数取0,以使后续需要在众多数据库筛选指定筛选信息时,自动滤除相关系数为0的数据库,有效降低待检索的数据库数量,降低检索模块的检索任务量,节约检索资源和时间。若数据库针对指定的筛选信息的筛选结果数量大于0,则相关系数也大于0,容易理解,筛选结果数量越多,相关系数越大,筛选结果数量越少,相关系数越多。
步骤S120,根据每个数据库针对同一筛选信息的相关系数,确定每个筛选信息对应的相关数据库集合,以形成相关数据库信息表;具体的,确定每个筛选信息对应的相关数据库集合是为了滤除相关度不高的数据库,降低检索的数据处理量。具体的,用户可以选择大范围检索和精准检索的检索方式,根据检索方式确定相关系数的门槛值,例如,在大范围检索的检索方式下,相关系数的门槛值为0,此时,仅将相关系数为0的数据库滤除,将相关系数不为0的数据库形成相关数据库集合;例如,在精准检索的检索方式下,将将相关系数小于设定系数的数据库滤除,将相关系数在设定系数以上的数据库形成相关数据库集合。
步骤S100至步骤S120是服务器在日常的检索任务中根据检索结果进行记录形成,并且步骤S100至步骤S120有利于在日常的检索任务中,将每个检索信息紧密关联的数据库逐渐进行修正,从而不断提升日后的检索准确度。
基于本发明的互联网海量数据检索方法的第二实施例,本发明的互联网海量数据检索方法的第三实施例中,所述步骤S40,包括:
步骤S41,将当前检索式作为输入数据带入权重值计算模型,以输出当前检索式中每个所述筛选信息对应的权重值;
步骤S42,根据所述相关数据库信息表,确定每个所述筛选信息对应的相关数据库集合,以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数;
步骤S43,根据每个所述筛选信息对应的权重值,以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数,确定每个所述筛选信息对应的相关数据库集合中各个数据库的重要系数;
步骤S44,根据所述重要系数,确定当前检索式对应的相关数据库。
当前检索式中每个所述筛选信息对应的权重值代表在检索式中各个筛选信息的重要程度。权重值计算模型用于计算每个筛选信息相对当前检索式的权重分数。具体的,将当前检索式作为输入数据输入权重值计算模型,权重值计算模型的输出数据为:按照检索式中各个检索信息的排序,输出一组权重值。
基于本发明的互联网海量数据检索方法的第三实施例,本发明的互联网海量数据检索方法的第四实施例中,所述步骤S40之后,包括:
步骤S130,根据当前检索式对应的相关数据库集合,以及对应的重要系数,确定所述相关数据库集合中各个数据库的推荐检索次序;
步骤S140,将当前检索式对应的相关数据库集合中的各个数据库,按照所述推荐检索次序分成多个检索批次,将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。
重要系数用于确定当前检索式对应的相关数据库中,各个数据库与检索目的的相关性,相关性越大,该数据库中的检出结果与检索目的越相关,因此,赋予优先的推荐检索次序,相关性越小,该数据库中的检出结果与检索目的越不相关,赋予靠后的推荐检索次序。从而,根据推荐检索次序可以将当前检索式对应的相关数据库集合对应分成多个检索批次,将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。每个检索模块会接收到不同检索批次的数据库链接。
例如,将第一检索批次的若干个数据库链接,分别派发给第一个至最后一个检索模块,将第二检索批次的若干个数据库链接,也分别派发给第一个至最后一个检索模块,直至数据库派发完毕。因此,同一检索批次的检索任务同时由多个检索终端共同完成,缩短同一批次检索任务的完成时间,以及提高同一批次检索任务的发布速度。
基于本发明的互联网海量数据检索方法的第四实施例,本发明的互联网海量数据检索方法的第五实施例中,所述步骤S80,包括:
步骤S81,在每个所述检索模块中,按照检索批次和推荐检索次序对当前检索式对应的相关数据库集合中的各个数据库进行依次检索;
步骤S82,各个所述检索模块将筛选结果进行检索批次标记;
步骤S83,各个所述检索模块将带有检索批次标记的筛选结果发送至所述服务器。
其中,将推荐检索次序共享给每个检索模块,每个检索模块获取到推荐检索次序后,根据接收到的数据库链接的检索批次和推荐检索次序依次执行检索,每个检索模块在检索完一个检索批次后,将检索结果返回服务器,并继续进行下一个检索批次的检索任务。
基于本发明的互联网海量数据检索方法的第五实施例,本发明的互联网海量数据检索方法的第六实施例中,步骤S90,包括:
步骤S91,在所述服务器中根据数据库的所述推荐检索次序的批次,将不同批次的子检索结果进行分区存储;
步骤S92,按照数据库的所述推荐检索次序的批次,形成子检索结果的重要性次序;
步骤S93,按照子检索结果的重要性次序从对应的存储区内提取子检索结果,并逐轮发布子检索结果。
在服务器中对不同检索批次的子检索结果进行分区存储,当侦测到同一批次的子检索结果全部获取后,按照检索批次的顺序,逐轮向用户发布子检索结果,以使用户先看到更重要的检索结果,并利用用户查阅前一轮检索结果的时间,继续等待进行后一轮检索,并在后一轮检索结果形成后,发布后一轮子检索结果。
基于本发明的互联网海量数据检索方法的第一实施例至第六实施例,本发明的互联网海量数据检索方法的第七实施例中,步骤S10中的所述获取通过所述用户终端输入的检索条件,根据检索条件处理得到各个筛选信息的步骤,包括:
步骤S11,获取通过所述用户终端输入的检索条件;
步骤S12,将所述检索条件带入切分模型进行切分,得到最优切分结果;
步骤S13,根据所述最优切分结果,得到各个所述筛选信息。
基于本发明的互联网海量数据检索方法的第三实施例至第七实施例,本发明的互联网海量数据检索方法的第八实施例中,步骤S41的具体步骤如下:
步骤S411,将当前检索式作为输入数据带入权重值计算模型,以识别所述当前检索式的检索目的,根据所述检索目的,赋予各个筛选信息初始权重;
具体的,各个筛选信息的初始权重可以相等,或者不相等。在各个筛选信息相对检索目的的作用相等时,赋予各个筛选信息相等的初始权重,在各个筛选信息相对检索目的的作用不相等时,赋予各个筛选信息不相等的初始权重。
步骤S412,对每个筛选信息对应的初始权重通过修正系数进行修正,其中,各个筛选信息之间若存在上下位关系,具有上下位关系的上位筛选信息的修正系数大于或等于0,且小于1,不具有上下位关系的筛选信息的修正系数为1,以得到修正后的权重;
步骤S413,根据每个筛选信息对应的修正后的权重,输出当前检索式中每个所述筛选信息对应的权重值;
其中,根据检索条件处理得到的各个筛选信息依次为:
Figure 402007DEST_PATH_IMAGE001
;n表示筛选信息的数量,i表示筛选信息的次序,
Figure 217254DEST_PATH_IMAGE002
Figure 408064DEST_PATH_IMAGE003
每个筛选信息对应的初始权重依次为:
Figure 835634DEST_PATH_IMAGE004
Figure 162710DEST_PATH_IMAGE005
每个筛选信息对应的修正后的权重依次为:
Figure 650324DEST_PATH_IMAGE029
Figure 328430DEST_PATH_IMAGE030
Figure 559691DEST_PATH_IMAGE009
为第i个筛选信息对应的修正系数。
基于本发明的互联网海量数据检索方法的第八实施例,本发明的互联网海量数据检索方法的第九实施例中,步骤S44包括如下具体步骤:
筛选信息
Figure 6853DEST_PATH_IMAGE031
对应的相关数据库集合为Ai,Ai包含的数据库为Aij,Aij对应的相关系数为
Figure 196525DEST_PATH_IMAGE011
,Aij对应的重要系数为
Figure 299611DEST_PATH_IMAGE012
其中
Figure 131300DEST_PATH_IMAGE013
Figure 636231DEST_PATH_IMAGE014
为将各个所述筛选信息
Figure 262385DEST_PATH_IMAGE015
带入筛选结果预测模型后,在所述筛选结果预测模型中,识别到的所述筛选信息
Figure 852766DEST_PATH_IMAGE016
对应的数据库数量;
计算筛选信息
Figure 222567DEST_PATH_IMAGE016
对应的相关数据库集合中各个数据库的重要系数均值
Figure 378742DEST_PATH_IMAGE017
,其中,
Figure 379059DEST_PATH_IMAGE018
若数据库Aij的重要系数
Figure 429973DEST_PATH_IMAGE019
,则将数据库Aij添加至当前检索式对应的相关数据库C;其中,Bi为针对筛选信息
Figure 869044DEST_PATH_IMAGE020
的调整系数,Bi>0,Bi一般取1或根据用户定义调整;若数据库Aij的重要系数
Figure 82988DEST_PATH_IMAGE021
,则不将数据库Aij添加至当前检索式对应的相关数据库C,以确定当前检索式对应的相关数据库。
为实现上述目的,本发明还提供一种互联网海量数据检索系统,用于执行如上述任一实施例所述方法的步骤;所述互联网海量数据检索系统包括服务器,以及与所述服务器分别通信连接的各个检索模块;所述服务器与用户终端通信连接。
互联网海量数据检索系统,具有所述互联网海量数据检索方法的所有有益效果,在此不作赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、 或“第一实施例~第X实施例”等的描述意指结合该实施例或示例描述的具体特征、 结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种互联网海量数据检索方法,其特征在于,应用于互联网海量数据检索系统,所述互联网海量数据检索系统包括服务器,以及与所述服务器分别通信连接的各个检索模块;所述服务器与用户终端通信连接;所述方法包括如下步骤:
获取通过所述用户终端输入的检索条件,根据检索条件处理得到各个筛选信息,将根据各个所述筛选信息建立的检索式发送至服务器;
在所述服务器中将各个所述筛选信息分别带入筛选结果预测模型;
在所述筛选结果预测模型中,识别每个所述筛选信息对应的数据库;
根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合;
根据当前检索式对应的相关数据库集合中包含的数据量,预估检索时间;
将预估检索时间与标准检索时间比对,根据比对结果,确定检索模块数量;
根据所述检索模块数量,将所述检索条件对应的检索任务向所述检索模块进行分配;
将每个所述检索模块的筛选结果上传至所述服务器;
在所述服务器中对各个所述检索模块上传的筛选结果进行处理,按照筛选结果的重要性逐轮发布检索结果。
2.根据权利要求1所述的互联网海量数据检索方法,其特征在于,所述根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合的步骤之前,包括:
在所述服务器中记录每个数据库针对筛选信息的筛选结果数量;
在所述服务器中,将每个数据库针对同一筛选信息的筛选结果数量进行比对,以确定每个数据库针对同一筛选信息的相关系数;
根据每个数据库针对同一筛选信息的相关系数,确定每个筛选信息对应的相关数据库集合,以形成相关数据库信息表。
3.根据权利要求2所述的互联网海量数据检索方法,其特征在于,所述根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合的步骤,包括:
将当前检索式作为输入数据带入权重值计算模型,以输出当前检索式中每个所述筛选信息对应的权重值;
根据所述相关数据库信息表,确定每个所述筛选信息对应的相关数据库集合,以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数;
根据每个所述筛选信息对应的权重值,以及每个所述筛选信息对应的相关数据库集合中各个数据库的相关系数,确定每个所述筛选信息对应的相关数据库集合中各个数据库的重要系数;
根据所述重要系数,确定当前检索式对应的相关数据库。
4.根据权利要求3所述的互联网海量数据检索方法,其特征在于,所述根据每个筛选信息对应的数据库进行数据库筛选,确定当前检索式对应的相关数据库集合的步骤之后,还包括:
根据当前检索式对应的相关数据库集合,以及对应的重要系数,确定所述相关数据库集合中各个数据库的推荐检索次序;
将当前检索式对应的相关数据库集合中的各个数据库,按照所述推荐检索次序分成多个检索批次,将同一批次的相关数据库集合中的数据库链接分配至不同的所述检索模块进行检索。
5.根据权利要求4所述的互联网海量数据检索方法,其特征在于,所述将每个所述检索模块的筛选结果上传至所述服务器的步骤,包括:
在每个所述检索模块中,按照检索批次和推荐检索次序对当前检索式对应的相关数据库集合中的各个数据库进行依次检索;
各个所述检索模块将筛选结果进行检索批次标记;
各个所述检索模块将带有检索批次标记的筛选结果发送至所述服务器。
6.根据权利要求5所述的互联网海量数据检索方法,其特征在于,所述在所述服务器中对各个所述检索模块上传的筛选结果进行处理,按照筛选结果的重要性逐轮发布检索结果的步骤,包括:
在所述服务器中根据数据库的所述推荐检索次序的批次,将不同批次的子检索结果进行分区存储;
按照数据库的所述推荐检索次序的批次,形成子检索结果的重要性次序;
按照子检索结果的重要性次序从对应的存储区内提取子检索结果,并逐轮发布子检索结果。
7.根据权利要求1至6中任一项所述的互联网海量数据检索方法,其特征在于,所述获取通过所述用户终端输入的检索条件,根据检索条件处理得到各个筛选信息的步骤,包括:
获取通过所述用户终端输入的检索条件;
将所述检索条件带入切分模型进行切分,得到最优切分结果;
根据所述最优切分结果,得到各个所述筛选信息。
8.根据权利要求3至6中任一项所述的互联网海量数据检索方法,其特征在于,所述将当前检索式作为输入数据带入权重值计算模型,以输出当前检索式中每个所述筛选信息对应的权重值的具体步骤如下:
将当前检索式作为输入数据带入权重值计算模型,以识别所述当前检索式的检索目的,根据所述检索目的,赋予各个筛选信息初始权重;
对每个筛选信息对应的初始权重通过修正系数进行修正,其中,各个筛选信息之间若存在上下位关系,具有上下位关系的上位筛选信息的修正系数大于或等于0,且小于1,不具有上下位关系的筛选信息的修正系数为1,以得到修正后的权重;
根据每个筛选信息对应的修正后的权重,输出当前检索式中每个所述筛选信息对应的权重值;
其中,根据检索条件处理得到的各个筛选信息依次为:
Figure 472301DEST_PATH_IMAGE001
;n表示筛选信息的数量,i表示筛选信息的次序,
Figure 825922DEST_PATH_IMAGE002
Figure 358534DEST_PATH_IMAGE003
每个筛选信息对应的初始权重依次为:
Figure 823014DEST_PATH_IMAGE004
Figure 491893DEST_PATH_IMAGE005
每个筛选信息对应的修正后的权重依次为:
Figure 16415DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 46776DEST_PATH_IMAGE008
为第i个筛选信息对应的修正系数。
9.根据权利要求8所述的互联网海量数据检索方法,其特征在于,所述根据所述重要系数,确定当前检索式对应的相关数据库的具体步骤如下:
筛选信息
Figure 49367DEST_PATH_IMAGE009
对应的相关数据库集合为Ai,Ai包含的数据库为Aij,Aij对应的相关系数为
Figure 838331DEST_PATH_IMAGE010
,Aij对应的重要系数为
Figure 533755DEST_PATH_IMAGE011
其中
Figure DEST_PATH_IMAGE012
Figure 40959DEST_PATH_IMAGE013
为将各个所述筛选信息
Figure 847241DEST_PATH_IMAGE014
带入筛选结果预测模型后,在所述筛选结果预测模型中,识别到的所述筛选信息
Figure 507024DEST_PATH_IMAGE015
对应的数据库数量;
计算筛选信息
Figure 107770DEST_PATH_IMAGE015
对应的相关数据库集合中各个数据库的重要系数均值
Figure 102270DEST_PATH_IMAGE016
,其中,
Figure 446664DEST_PATH_IMAGE017
若数据库Aij的重要系数
Figure 475800DEST_PATH_IMAGE018
,则将数据库Aij添加至当前检索式对应的相关数据库C;其中,Bi为针对筛选信息
Figure DEST_PATH_IMAGE019
的调整系数,Bi>0,Bi一般取1或根据用户定义调整;若数据库Aij的重要系数
Figure 513026DEST_PATH_IMAGE020
,则不将数据库Aij添加至当前检索式对应的相关数据库C,以确定当前检索式对应的相关数据库。
10.一种互联网海量数据检索系统,其特征在于,用于执行如权利要求1至9中任一项所述方法的步骤,所述互联网海量数据检索系统包括服务器,以及与所述服务器分别通信连接的各个检索模块;所述服务器与用户终端通信连接。
CN202210279242.3A 2022-03-22 2022-03-22 一种互联网海量数据检索方法和检索系统 Active CN114372190B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210279242.3A CN114372190B (zh) 2022-03-22 2022-03-22 一种互联网海量数据检索方法和检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279242.3A CN114372190B (zh) 2022-03-22 2022-03-22 一种互联网海量数据检索方法和检索系统

Publications (2)

Publication Number Publication Date
CN114372190A true CN114372190A (zh) 2022-04-19
CN114372190B CN114372190B (zh) 2022-05-17

Family

ID=81146634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279242.3A Active CN114372190B (zh) 2022-03-22 2022-03-22 一种互联网海量数据检索方法和检索系统

Country Status (1)

Country Link
CN (1) CN114372190B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199858A (zh) * 2014-08-14 2014-12-10 中国科学技术信息研究所 专利文件的检索方法和可视化专利检索系统
CN104615672A (zh) * 2015-01-16 2015-05-13 中国农业大学 一种农业科技成果检索、展示方法及客户端和服务器
CN105824951A (zh) * 2016-03-23 2016-08-03 百度在线网络技术(北京)有限公司 检索方法和装置
CN110109924A (zh) * 2019-04-23 2019-08-09 重庆紫光华山智安科技有限公司 检索方法及装置
CN111737608A (zh) * 2020-06-22 2020-10-02 中国银行股份有限公司 企业信息检索结果排序方法及装置
US20210165964A1 (en) * 2019-12-03 2021-06-03 Morgan State University System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199858A (zh) * 2014-08-14 2014-12-10 中国科学技术信息研究所 专利文件的检索方法和可视化专利检索系统
CN104615672A (zh) * 2015-01-16 2015-05-13 中国农业大学 一种农业科技成果检索、展示方法及客户端和服务器
CN105824951A (zh) * 2016-03-23 2016-08-03 百度在线网络技术(北京)有限公司 检索方法和装置
CN110109924A (zh) * 2019-04-23 2019-08-09 重庆紫光华山智安科技有限公司 检索方法及装置
US20210165964A1 (en) * 2019-12-03 2021-06-03 Morgan State University System and method for monitoring and routing of computer traffic for cyber threat risk embedded in electronic documents
CN111737608A (zh) * 2020-06-22 2020-10-02 中国银行股份有限公司 企业信息检索结果排序方法及装置

Also Published As

Publication number Publication date
CN114372190B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN111459985B (zh) 标识信息处理方法及装置
CN108304512B (zh) 一种视频搜索引擎粗排序方法、装置及电子设备
CN109857938B (zh) 基于企业信息的搜索方法、搜索装置及计算机存储介质
CN111913954A (zh) 智能数据标准目录生成方法和装置
CN105095468A (zh) 一种新型的图像检索方法及系统
CN114372190B (zh) 一种互联网海量数据检索方法和检索系统
CN113792084A (zh) 数据热度的分析方法、装置、设备及存储介质
EP2518668A1 (en) Apparatus and method for visualizing technology transition
CN107085603B (zh) 一种数据处理方法及装置
CN110245118B (zh) 一种bim资料信息三维网格化检索归档方法及其归档系统
CN107291938A (zh) 订单查询系统及方法
CN113625967B (zh) 数据存储方法、数据查询方法及服务器
CN115129915A (zh) 重复图像检索方法、装置、设备及存储介质
CN116010668B (zh) 一种应用于数据库的快速检索方法及系统
CN110928868A (zh) 车辆数据检索方法、装置及计算机可读存储介质
CN117539869B (zh) 一种获取数据表的数据处理系统
CN111414936B (zh) 分类网络的确定方法、图像检测方法、装置、设备及介质
CN113139106B (zh) 一种保密检查的事件审核方法和装置
CN109977269B (zh) 一种针对xml文件的数据自适应融合方法
CN113590538B (zh) 一种实验室数据管理平台
CN112348016B (zh) 一种智慧图片logo识别方法
CN117131256B (zh) 一种基于aigc的媒体管理系统
Brilakis et al. Comparison of manual and user-guided methodologies for the classification and retrieval of construction site images
CN112364032B (zh) 基于互联网技术的数据中台数据查询方法
CN116383260A (zh) 一种基于大数据的数据查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant