CN115577157B - 多数据源元数据终端查询快速比对方法及系统 - Google Patents

多数据源元数据终端查询快速比对方法及系统 Download PDF

Info

Publication number
CN115577157B
CN115577157B CN202211478777.XA CN202211478777A CN115577157B CN 115577157 B CN115577157 B CN 115577157B CN 202211478777 A CN202211478777 A CN 202211478777A CN 115577157 B CN115577157 B CN 115577157B
Authority
CN
China
Prior art keywords
data
digital
metadata
virtual storage
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211478777.XA
Other languages
English (en)
Other versions
CN115577157A (zh
Inventor
底涛
赵金辉
史延雷
周敬伟
薛志国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Hot Spot Technology Co ltd
Original Assignee
Hebei Hot Spot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Hot Spot Technology Co ltd filed Critical Hebei Hot Spot Technology Co ltd
Priority to CN202211478777.XA priority Critical patent/CN115577157B/zh
Publication of CN115577157A publication Critical patent/CN115577157A/zh
Application granted granted Critical
Publication of CN115577157B publication Critical patent/CN115577157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开多数据源元数据终端查询快速比对方法及系统,涉及信息检索技术领域。本发明获取每个数据源内每个元数据的网络存储地址;获取每个数据源内每个元数据的固定长度的数字摘要;将元数据的网络存储地址以及对应的数字摘要存储至第一检索数据库;获取数字摘要在第一检索数据库中的物理地址;按照数字摘要的字符串大小顺序将数字摘要在第一检索数据库中的物理地址进行顺序排列,将数字摘要与对应的物理地址存储至第二检索数据库;获取查询终端发送的查询指令,生成指向元数据的超链接,得到多个元数据的数字摘要;根据多个元数据的数字摘要对查询指令对应的多个元数据进行一致性比对。本发明有效提高元数据的查询对比效率。

Description

多数据源元数据终端查询快速比对方法及系统
技术领域
本发明属于信息检索技术领域,特别是涉及多数据源元数据终端查询快速比对方法及系统。
背景技术
随着信息技术的广泛应用,大量数据存储在不同地点,导致对海量信息进行查询的过程中需要对数据进行大量跨网络比对,尤其是对于大文件的数据比对,更是会占用硬件资源拖慢查询速度。
为了提高多数据源的数据查询比对速度,传统方式是在同一个运算集群内建立文件副本或快照,因此实现基于本地检索的快速查询方案,但是此种方式需要建立庞大的本地存储库,大幅提高了硬件成本。
发明内容
本发明的目的在于提供多数据源元数据终端查询快速比对方法及系统,通过建立存储元数据数字摘要的第一检索数据库和第二检索数据库,在不大幅提高硬件开销的情况下,有效提高元数据的查询对比效率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供多数据源元数据终端查询快速比对方法,包括,
获取每个所述数据源内每个所述元数据的网络存储地址;
获取每个所述数据源内每个所述元数据的固定长度的数字摘要;
将所述元数据的网络存储地址以及对应的所述数字摘要存储至第一检索数据库;
获取所述数字摘要在所述第一检索数据库中的物理地址;
按照所述数字摘要的字符串大小顺序将所述数字摘要在所述第一检索数据库中的物理地址进行顺序排列,将所述数字摘要与对应的物理地址存储至第二检索数据库;
获取用户端发送的查询指令;
根据所述查询指令生成指向所述元数据的超链接;
根据多个所述元数据的超链接得到多个所述元数据的数字摘要;
根据多个所述元数据的数字摘要对所述查询指令对应的多个所述元数据进行一致性比对。
在本发明的一个实施例中,所述获取每个所述数据源内每个所述元数据的固定长度的数字摘要的步骤,包括,
获取全部所述数据源内全部所述元数据的数量;
根据全部所述数据源内全部所述元数据的数量获取所述数字摘要的固定长度;
根据所述数字摘要的固定长度将所述元数据划分为若干个数据区块;
获取每个所述数据区块内的数据的二进制编码;
沿着所述数据区块内的数据的逻辑方向,对每个所述数据区块内的数据的二进制编码进行去重;
获取每个去重后的所述数据区块内的数据的二进制编码的字节长度;
根据每个去重后的所述数据区块内的数据的二进制编码的字节长度对所述数据区块内的数据的二进制编码进行补码,使得每个去重后的所述数据区块内的数据的二进制编码的字节长度为二的整数次幂;
沿着所述数据区块内的数据的逻辑方向对补码去重后的所述数据区块内的数据的二进制编码进行逻辑运算,得到所述数字摘要的固定长度的运算结果,即所述数字摘要。
在本发明的一个实施例中,所述根据全部所述数据源内全部所述元数据的数量获取所述数字摘要的固定长度的步骤,包括,
获取设定的允许比对误差率;
根据全部所述数据源内全部所述元数据的数量以及设定的允许比对误差率得到所述数字摘要的表达容量;
根据所述数字摘要的表达容量得到所述数字摘要的最低位数;
根据所述数字摘要的最低位数得到所述数字摘要的固定长度。
在本发明的一个实施例中,所述沿着所述数据区块内的数据的逻辑方向对补码去重后的所述数据区块内的数据的二进制编码进行逻辑运算,得到所述数字摘要的固定长度的运算结果,即所述数字摘要的步骤,包括,
沿着所述数据区块内的数据的逻辑方向将补码去重后的所述数据区块内的数据的二进制编码每两个一组分成若干对初始数据单元;
将每对初始数据单元内的数据进行相同的逻辑运算得到若干个初始数据编组,所述逻辑运算包括与、或以及非运算;
若所述初始数据编组的字符长度达到所述数字摘要的固定长度,则将所述初始数据编组作为所述数字摘要;
若所述初始数据编组的字符长度超过所述数字摘要的固定长度,则将所述初始数据编组内的数据位每两个一组分成若干对迭代数据单元;
将每对所述迭代数据单元内的数据进行相同的逻辑运算得到迭代数据编组;
若所述迭代数据编组的字符长度达到所述数字摘要的固定长度,则将所述迭代数据编组作为所述数字摘要;
若所述迭代数据编组的字符长度超过所述数字摘要的固定长度,则将所述迭代数据编组内的数据位每两个一组进行相同逻辑运算得到更新后的迭代数据编组,直至所述迭代数据编组的字符长度达到所述数字摘要的固定长度,将所述迭代数据编组作为所述数字摘要。
在本发明的一个实施例中,所述按照所述数字摘要的字符串大小顺序将所述数字摘要在所述第一检索数据库中的物理地址进行顺序排列,将所述数字摘要与对应的物理地址存储至第二检索数据库的步骤,包括,
将一组对应的所述元数据的网络存储地址以及对应的所述数字摘要作为一条第一存储条目,将所述第一检索数据库中能够容纳的所述第一存储条目的数量作为所述第一检索数据库的最大容纳数量;
建立虚拟检索数据库,其中所述虚拟检索数据库中包括若干个虚拟存储仓,每个所述虚拟存储仓中包括若干个虚拟存储条目;
根据所述第一检索数据库的最大容纳数量对所述虚拟存储仓以及所述虚拟存储条目的包含关系和数量进行划分;
根据每个所述虚拟存储仓以及每个所述虚拟存储条目的逻辑顺序得到每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号;
按照每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号在所述虚拟存储条目内存入所述虚拟存储条目的编号、所述数字摘要以及对应的物理地址;
将已存入所述虚拟存储条目的编号、所述数字摘要以及对应的物理地址的所述虚拟存储条目中的数据内容存入所述第二检索数据库。
在本发明的一个实施例中,所述根据所述第一检索数据库的最大容纳数量对所述虚拟存储仓以及所述虚拟存储条目的包含关系和数量进行划分的步骤,包括,
按照所述第一检索数据库的最大容纳数量在所述虚拟检索数据库中划分出若干个所述虚拟存储仓;
在每个所述虚拟存储仓内按照所述第一检索数据库的最大容纳数量在每个所述虚拟存储仓中划分出若干个所述虚拟存储条目。
在本发明的一个实施例中,所述根据每个所述虚拟存储仓以及每个所述虚拟存储条目的逻辑顺序得到每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号的步骤,包括,
按照每个所述虚拟存储仓的逻辑顺序对所述虚拟存储仓进行编号,得到高位编号;
在每个所述虚拟存储仓内,按照每个所述虚拟存储条目的逻辑顺序对所述虚拟存储条目进行编号,得到低位编号;
将每个所述虚拟存储条目对应的所述高位编号和所述低位编号进行组合得到每个所述虚拟存储条目的编号;
其中,所述虚拟存储仓和所述拟存储条目的逻辑顺序包括生成顺序。
在本发明的一个实施例中,所述按照每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号在所述虚拟存储条目内存入所述虚拟存储条目的编号、所述数字摘要以及对应的物理地址的步骤,包括,
将第一个存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址存储至编号顺序居中的所述虚拟存储条目;
将第二个存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址,按照第一个所述虚拟存储条目中所述数字摘要的字符串大小顺序存储至第一个存入所述虚拟检索数据库的所述虚拟存储条目的逻辑前方或逻辑后方;
将之后存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址,按照所述数字摘要的字符串大小,寻找更接近的已经存入所述虚拟检索数据库的所述虚拟存储条目作为虚拟存储标的条目;
获取所述虚拟存储标的条目逻辑前方和逻辑后方的空白的所述虚拟存储条目的数量;
根据之后存入所述虚拟检索数据库的所述数字摘要与对应所述虚拟存储标的条目中所述数字摘要的字符串大小的比较结果,将之后存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址存储至对应所述虚拟存储标的条目逻辑前方和逻辑后方的空白的若干个所述虚拟存储条目的居中位置。
在本发明的一个实施例中,所述方法还包括,
实时获取所述元数据的数量;
根据所述元数据的数量更新所述数字摘要的长度。
本发明还公开了多数据源元数据终端查询快速比对系统,
用户端,用于向服务器端发送查询指令;
服务器端,用于获取每个所述数据源内每个所述元数据的网络存储地址;
获取每个所述数据源内每个所述元数据的固定长度的数字摘要;
将所述元数据的网络存储地址以及对应的所述数字摘要存储至第一检索数据库;
获取所述数字摘要在所述第一检索数据库中的物理地址;
按照所述数字摘要的字符串大小顺序将所述数字摘要在所述第一检索数据库中的物理地址进行顺序排列,将所述数字摘要与对应的物理地址存储至第二检索数据库;
获取所述用户端发送的查询指令;
根据所述查询指令生成指向所述元数据的超链接;
根据多个所述元数据的超链接得到多个所述元数据的数字摘要;
根据多个所述元数据的数字摘要对所述查询指令对应的多个所述元数据进行一致性比对。
本发明通过建立存储元数据数字摘要的第一检索数据库和第二检索数据库,在不大幅提高硬件开销的情况下,有效提高元数据的查询对比效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述多数据源元数据终端查询快速比对方法于一实施例的示意图一;
图2为本发明所述步骤S2于一实施例的示意图;
图3为本发明所述步骤S22于一实施例的示意图;
图4为本发明所述步骤S29于一实施例的示意图;
图5为本发明所述步骤S5于一实施例的示意图;
图6为本发明所述步骤S53于一实施例的示意图;
图7为本发明所述步骤S54于一实施例的示意图;
图8为本发明所述步骤S55于一实施例的示意图;
图9为本发明所述多数据源元数据终端查询快速比对方法于一实施例的示意图二;
图10为本发明所述多数据源元数据终端查询快速比对系统于一实施例的示意图。
附图中,各标号所代表的部件列表如下:
1-用户端,2-服务器端。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
面对散布网络各处的海量数据,当用户进行检索的时候需要对全部元数据文件进行对比,消耗大量硬件资源,并且拖慢检索速度。
请参阅图1和9所示,本发明提供了多数据源元数据终端查询快速比对方法。在实际应用中,由于元数据文件散落可能是存储在各个相互并列的局域网中,局域网之间通过低带宽高延时的城域网等广域网进行连通,为了对每个元数据进行定位,需要首先执行步骤S1获取每个数据源内每个元数据的网络存储地址,网络存储地址可以是URL地址,也可以是被服务器和用户端共同接受的自定义方案的地址。接下来需要执行步骤S2获取每个数据源内每个元数据的固定长度的数字摘要,数字摘要体现每个元数据文件的特性,用于对每个元数据文件进行区分。接下来可以执行步骤S3将元数据的网络存储地址以及对应的数字摘要存储至第一检索数据库,本方案中的第一检索数据库可以是实体数据库,存储在机械硬盘、磁带等外设内,由于第一数据库内存储的并非元数据而是其数据摘要,因此能够节省硬件资源开销,同时提高检索比对效率。接下来可以执行步骤S4获取数字摘要在第一检索数据库中的物理地址,在实践中可以是存储器中存储单元的编号。接下来可以执行步骤S5按照数字摘要的字符串大小顺序将数字摘要在第一检索数据库中的物理地址进行顺序排列,将数字摘要与对应的物理地址存储至第二检索数据库,第二检索数据库中的数字摘要按照字符串大小进行排列,在检索比对过程中也可以根据排列顺序进行快速检索,与此同时还可以将第二检索数据库存储在服务器端2的内存中,从而进一步提高检索比对效率。接下来可以执行步骤S6获取用户端发送的查询指令,之后可以执行步骤S7根据查询指令生成指向元数据的超链接,再执行步骤S8根据多个元数据的超链接得到多个元数据的数字摘要,最后执行步骤S9根据多个元数据的数字摘要对查询指令对应的多个元数据进行一致性比对,从而能够快速得到检索比对结果。有于本方案依赖对元数据的数字摘要的生成、存储、转化以及比对,为了兼顾效率和误差率,本方案在执行过程中还可以同步执行步骤S10实时获取所述元数据的数量,之后再根据所述元数据的数量更新所述数字摘要的长度,本方案中的固定长度的数字摘要,指的是所有的元数据的数字摘要的长度都是相同的,但是更新后和更新前的数字摘要的长度可以是不同,因此本方案在实施过程中还通过更新数字摘要长度的方式兼顾检索准确性和检索效率。
请参阅图2所示,为了获取元数据的固定长度的数字摘要,上述的步骤S2中可以首先执行步骤S21获取全部数据源内全部元数据的数量。接下来可以执行步骤S22根据全部数据源内全部元数据的数量获取数字摘要的固定长度。接下来可以执行步骤S23根据数字摘要的固定长度将元数据划分为若干个数据区块,接下来可以执行步骤S24获取每个数据区块内的数据的二进制编码。接下来可以执行步骤S25沿着数据区块内的数据的逻辑方向,对每个数据区块内的数据的二进制编码进行去重,接下来可以执行步骤S26获取每个去重后的数据区块内的数据的二进制编码的字节长度。接下来可以执行步骤S28根据每个去重后的数据区块内的数据的二进制编码的字节长度对数据区块内的数据的二进制编码进行补码,使得每个去重后的数据区块内的数据的二进制编码的字节长度为二的整数次幂。最后可以执行步骤S29沿着数据区块内的数据的逻辑方向对补码去重后的数据区块内的数据的二进制编码进行逻辑运算,得到数字摘要的固定长度的运算结果,即数字摘要。在上述方案中通过对元数据进行处理,得到与元数据的具体内容相关的且长度相同的数字摘要。
请参阅图3所示,为了避免数据摘要相同的两个元数据内容不同导致检索比对错误,需要根据元数据的数量确定合理数据长度的数字摘要,为了实现此技术目的,上述的步骤S22中可以首先执行步骤S221获取设定的允许比对误差率。接下来可以执行步骤S222根据全部数据源内全部元数据的数量以及设定的允许比对误差率得到数字摘要的表达容量,本方案中的数字摘要表达容量指的是数字摘要能够代表的元数据的最大数量,例如在二进制下的十位数的数字摘要,表达容量为1024个。接下来可以执行步骤S223根据数字摘要的表达容量得到数字摘要的最低位数,最后可以执行步骤S224根据数字摘要的最低位数得到数字摘要的固定长度。
请参阅图4所示,为了具体根据数据区块内计算得到数字摘要,上述的步骤S29中首先可以执行步骤S291沿着数据区块内的数据的逻辑方向将补码去重后的数据区块内的数据的二进制编码每两个一组分成若干对初始数据单元。接下来可以执行步骤S292将每对初始数据单元内的数据进行相同的逻辑运算得到若干个初始数据编组,逻辑运算包括与、或以及非运算。若初始数据编组的字符长度达到数字摘要的固定长度,则接下来可以执行步骤S293将初始数据编组作为数字摘要。若初始数据编组的字符长度超过数字摘要的固定长度,则接下来可以执行步骤S294将初始数据编组内的数据位每两个一组分成若干对迭代数据单元。接下来可以执行步骤S295将每对迭代数据单元内的数据进行相同的逻辑运算得到迭代数据编组,若迭代数据编组的字符长度达到数字摘要的固定长度,则接下来可以执行步骤S296将迭代数据编组作为数字摘要。若迭代数据编组的字符长度超过数字摘要的固定长度,则接下来可以返回执行步骤296将迭代数据编组内的数据位每两个一组进行相同逻辑运算得到更新后的迭代数据编组,直至迭代数据编组的字符长度达到数字摘要的固定长度,将迭代数据编组作为数字摘要。通过不断更新迭代数据编组并判断能够作为数字摘要,从而得到符合要求的数字摘要。
请参阅图5所示,为了进一步提高元数据的检索比对效率,可以将第一检索数据库中的内容进行梳理排序,从而实现提高查询检索的效率的技术效果,在实施的过程中,上述的步骤S5中首先可以执行步骤S51将一组对应的元数据的网络存储地址以及对应的数字摘要作为一条第一存储条目,将第一检索数据库中能够容纳的第一存储条目的数量作为第一检索数据库的最大容纳数量。接下来可以执行步骤S52建立虚拟检索数据库,其中虚拟检索数据库中包括若干个虚拟存储仓,每个虚拟存储仓中包括若干个虚拟存储条目。接下来可以执行步骤S53根据第一检索数据库的最大容纳数量对虚拟存储仓以及虚拟存储条目的包含关系和数量进行划分,接下来可以执行步骤S54根据每个虚拟存储仓以及每个虚拟存储条目的逻辑顺序得到每个虚拟存储仓的编号以及每个虚拟存储条目的编号。接下来可以执行步骤S55按照每个虚拟存储仓的编号以及每个虚拟存储条目的编号在虚拟存储条目内存入虚拟存储条目的编号、数字摘要以及对应的物理地址。最后可以执行步骤S56将已存入虚拟存储条目的编号、数字摘要以及对应的物理地址的虚拟存储条目中的数据内容存入第二检索数据库。通过建立虚拟检索数据库的方式对第一检索数据库中的内容进行初步顺序整理,之后再存储至第二检索数据库中,从而提高后续的检索比对效率。
请参阅图6所示,为了对虚拟检索数据库的内部结构进行组织,上述的步骤S53在实施的过程中首先可以执行步骤S531按照第一检索数据库的最大容纳数量在虚拟检索数据库中划分出若干个虚拟存储仓,最后可以执行步骤S532在每个虚拟存储仓内按照第一检索数据库的最大容纳数量在每个虚拟存储仓中划分出若干个虚拟存储条目。通过结合第一存储数据库的具体情况划分虚拟检索数据库中的虚拟存储仓和虚拟存储条目,从而能够容纳各种顺序出现的数字摘要。
请参阅图7所示,为了对每个虚拟存储条目进行不重复编号,上述的步骤S54在执行的过程中首先可以执行步骤S541按照每个虚拟存储仓的逻辑顺序对虚拟存储仓进行编号,得到高位编号,逻辑顺序可以市生成顺序,也可以是虚拟检索数据库中虚拟存储仓的逻辑位置连接顺序。接下来可以执行步骤S542在每个虚拟存储仓内,按照每个虚拟存储条目的逻辑顺序对虚拟存储条目进行编号,得到低位编号。最后可以执行步骤S543将每个虚拟存储条目对应的高位编号和低位编号进行组合得到每个虚拟存储条目的编号。通过将高位编号和低位编号进行组合,从而避免虚拟存储条目编号重复导致检索比对结果错误。
请参阅图8所示,为了将第一检索数据库中的数字摘要以及对应的物理地址按照数字摘要的顺序存储,需要将数字摘要以及对应的物理地址按照数字摘要的顺序存储编号之后的虚拟存储条目,为了实现此技术目的,上述步骤S55中首先可以执行步骤S551将第一个存入虚拟检索数据库的数字摘要以及对应的物理地址存储至编号顺序居中的虚拟存储条目。接下来可以执行步骤S552将第二个存入虚拟检索数据库的数字摘要以及对应的物理地址,按照第一个虚拟存储条目中数字摘要的字符串大小顺序存储至第一个存入虚拟检索数据库的虚拟存储条目的逻辑前方或逻辑后方。接下来可以执行步骤S553将之后存入虚拟检索数据库的数字摘要以及对应的物理地址,按照数字摘要的字符串大小,寻找更接近的已经存入虚拟检索数据库的虚拟存储条目作为虚拟存储标的条目。接下来可以执行步骤S554获取虚拟存储标的条目逻辑前方和逻辑后方的空白的虚拟存储条目的数量。最后可以执行步骤S555根据之后存入虚拟检索数据库的数字摘要与对应虚拟存储标的条目中数字摘要的字符串大小的比较结果,将之后存入虚拟检索数据库的数字摘要以及对应的物理地址存储至对应虚拟存储标的条目逻辑前方和逻辑后方的空白的若干个虚拟存储条目的居中位置。由于虚拟检索数据库为虚拟出来的存储空间,只需要多消耗记录虚拟存储仓和虚拟存储条目编号的空间,使用极少的硬件资源代价,实现对数字摘要以及对应的物理地址按照数字摘要的顺序存储,由于第二检索数据库存储在内存中,因此可以将虚拟检索数据库中的内容在去除空白虚拟存储条目之后实时存入第二检索数据库中。
请参阅图10所示,本方案还提供了多数据源元数据终端查询快速比对系统,包括由用户操作的用户端1以及后台处理的服务器端2。
在运行过程中用户端1用于向服务器端2发送查询指令。
服务器端2用于获取每个数据源内每个元数据的网络存储地址,之后获取每个数据源内每个元数据的固定长度的数字摘要。将元数据的网络存储地址以及对应的数字摘要存储至第一检索数据库,获取数字摘要在第一检索数据库中的物理地址。按照数字摘要的字符串大小顺序将数字摘要在第一检索数据库中的物理地址进行顺序排列,将数字摘要与对应的物理地址存储至第二检索数据库。获取用户端发送的查询指令,根据查询指令生成指向元数据的超链接。根据多个元数据的超链接得到多个元数据的数字摘要,根据多个元数据的数字摘要对查询指令对应的多个元数据进行一致性比对,最后服务器端2将一致性比对结果发送至用户端1。
综上所述,本方案在实时过程中,通过将元数据提取的数字摘要作为元数据的标记用于后续的检索比对,避免直接比对元数据造成的效率低下。不仅如此本方案还通过建立第一检索数据库和第二检索数据库的方式提高将数字摘要顺序排列,从而进一步提高了后续的检索比对效率。
本发明所示实施例的上述描述(包括在说明书摘要中的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例,但是正如本领域技术人员将认识和理解的,各种等效修改是可以在本发明的精神和范围内的。如所指出的,可以按照本发明实施例的上述描述来对本发明进行这些修改,并且这些修改将在本发明的精神和范围内。
本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外,已经给出了各种具体细节以提供本发明实施例的总体理解。然而,相关领域的技术人员将会认识到,本发明的实施例可以在没有一个或多个具体细节的情况下进行实践,或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下,并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。
因而,尽管本发明在本文已参照其具体实施例进行描述,但是修改自由、各种改变和替换意在上述公开内,并且应当理解,在某些情况下,在未背离所提出发明的范围和精神的前提下,在没有对应使用其他特征的情况下将采用本发明的一些特征。因此,可以进行许多修改,以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例,但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而,本发明的范围将只由所附的权利要求书进行确定。

Claims (9)

1.多数据源元数据终端查询快速比对方法,其特征在于,包括,
获取每个所述数据源内每个所述元数据的网络存储地址;
获取每个所述数据源内每个所述元数据的固定长度的数字摘要;
将所述元数据的网络存储地址以及对应的所述数字摘要存储至第一检索数据库;
获取所述数字摘要在所述第一检索数据库中的物理地址;
按照所述数字摘要的字符串大小顺序将所述数字摘要在所述第一检索数据库中的物理地址进行顺序排列,将所述数字摘要与对应的物理地址存储至第二检索数据库;
获取用户端发送的查询指令;
根据所述查询指令生成指向所述元数据的超链接;
根据多个所述元数据的超链接得到多个所述元数据的数字摘要;
根据多个所述元数据的数字摘要对所述查询指令对应的多个所述元数据进行一致性比对;
所述获取每个所述数据源内每个所述元数据的固定长度的数字摘要的步骤,包括,
获取全部所述数据源内全部所述元数据的数量;
根据全部所述数据源内全部所述元数据的数量获取所述数字摘要的固定长度;
根据所述数字摘要的固定长度将所述元数据划分为若干个数据区块;
获取每个所述数据区块内的数据的二进制编码;
沿着所述数据区块内的数据的逻辑方向,对每个所述数据区块内的数据的二进制编码进行去重;
获取每个去重后的所述数据区块内的数据的二进制编码的字节长度;
根据每个去重后的所述数据区块内的数据的二进制编码的字节长度对所述数据区块内的数据的二进制编码进行补码,使得每个去重后的所述数据区块内的数据的二进制编码的字节长度为二的整数次幂;
沿着所述数据区块内的数据的逻辑方向对补码去重后的所述数据区块内的数据的二进制编码进行逻辑运算,得到所述数字摘要的固定长度的运算结果,即所述数字摘要。
2.根据权利要求1所述的方法,其特征在于,所述根据全部所述数据源内全部所述元数据的数量获取所述数字摘要的固定长度的步骤,包括,
获取设定的允许比对误差率;
根据全部所述数据源内全部所述元数据的数量以及设定的允许比对误差率得到所述数字摘要的表达容量;
根据所述数字摘要的表达容量得到所述数字摘要的最低位数;
根据所述数字摘要的最低位数得到所述数字摘要的固定长度。
3.根据权利要求1所述的方法,其特征在于,所述沿着所述数据区块内的数据的逻辑方向对补码去重后的所述数据区块内的数据的二进制编码进行逻辑运算,得到所述数字摘要的固定长度的运算结果,即所述数字摘要的步骤,包括,
沿着所述数据区块内的数据的逻辑方向将补码去重后的所述数据区块内的数据的二进制编码每两个一组分成若干对初始数据单元;
将每对初始数据单元内的数据进行相同的逻辑运算得到若干个初始数据编组,所述逻辑运算包括与、或以及非运算;
若所述初始数据编组的字符长度达到所述数字摘要的固定长度,则将所述初始数据编组作为所述数字摘要;
若所述初始数据编组的字符长度超过所述数字摘要的固定长度,则将所述初始数据编组内的数据位每两个一组分成若干对迭代数据单元;
将每对所述迭代数据单元内的数据进行相同的逻辑运算得到迭代数据编组;
若所述迭代数据编组的字符长度达到所述数字摘要的固定长度,则将所述迭代数据编组作为所述数字摘要;
若所述迭代数据编组的字符长度超过所述数字摘要的固定长度,则将所述迭代数据编组内的数据位每两个一组进行相同逻辑运算得到更新后的迭代数据编组,直至所述迭代数据编组的字符长度达到所述数字摘要的固定长度,将所述迭代数据编组作为所述数字摘要。
4.根据权利要求1所述的方法,其特征在于,所述按照所述数字摘要的字符串大小顺序将所述数字摘要在所述第一检索数据库中的物理地址进行顺序排列,将所述数字摘要与对应的物理地址存储至第二检索数据库的步骤,包括,
将一组对应的所述元数据的网络存储地址以及对应的所述数字摘要作为一条第一存储条目,将所述第一检索数据库中能够容纳的所述第一存储条目的数量作为所述第一检索数据库的最大容纳数量;
建立虚拟检索数据库,其中所述虚拟检索数据库中包括若干个虚拟存储仓,每个所述虚拟存储仓中包括若干个虚拟存储条目;
根据所述第一检索数据库的最大容纳数量对所述虚拟存储仓以及所述虚拟存储条目的包含关系和数量进行划分;
根据每个所述虚拟存储仓以及每个所述虚拟存储条目的逻辑顺序得到每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号;
按照每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号在所述虚拟存储条目内存入所述虚拟存储条目的编号、所述数字摘要以及对应的物理地址;
将已存入所述虚拟存储条目的编号、所述数字摘要以及对应的物理地址的所述虚拟存储条目中的数据内容存入所述第二检索数据库。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一检索数据库的最大容纳数量对所述虚拟存储仓以及所述虚拟存储条目的包含关系和数量进行划分的步骤,包括,
按照所述第一检索数据库的最大容纳数量在所述虚拟检索数据库中划分出若干个所述虚拟存储仓;
在每个所述虚拟存储仓内按照所述第一检索数据库的最大容纳数量在每个所述虚拟存储仓中划分出若干个所述虚拟存储条目。
6.根据权利要求5所述的方法,其特征在于,所述根据每个所述虚拟存储仓以及每个所述虚拟存储条目的逻辑顺序得到每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号的步骤,包括,
按照每个所述虚拟存储仓的逻辑顺序对所述虚拟存储仓进行编号,得到高位编号;
在每个所述虚拟存储仓内,按照每个所述虚拟存储条目的逻辑顺序对所述虚拟存储条目进行编号,得到低位编号;
将每个所述虚拟存储条目对应的所述高位编号和所述低位编号进行组合得到每个所述虚拟存储条目的编号;
其中,所述虚拟存储仓和所述拟存储条目的逻辑顺序包括生成顺序。
7.根据权利要求6所述的方法,其特征在于,所述按照每个虚拟存储仓的编号以及每个所述虚拟存储条目的编号在所述虚拟存储条目内存入所述虚拟存储条目的编号、所述数字摘要以及对应的物理地址的步骤,包括,
将第一个存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址存储至编号顺序居中的所述虚拟存储条目;
将第二个存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址,按照第一个所述虚拟存储条目中所述数字摘要的字符串大小顺序存储至第一个存入所述虚拟检索数据库的所述虚拟存储条目的逻辑前方或逻辑后方;
将之后存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址,按照所述数字摘要的字符串大小,寻找更接近的已经存入所述虚拟检索数据库的所述虚拟存储条目作为虚拟存储标的条目;
获取所述虚拟存储标的条目逻辑前方和逻辑后方的空白的所述虚拟存储条目的数量;
根据之后存入所述虚拟检索数据库的所述数字摘要与对应所述虚拟存储标的条目中所述数字摘要的字符串大小的比较结果,将之后存入所述虚拟检索数据库的所述数字摘要以及对应的物理地址存储至对应所述虚拟存储标的条目逻辑前方和逻辑后方的空白的若干个所述虚拟存储条目的居中位置。
8.根据权利要求1、5、6或7所述的方法,其特征在于,所述方法还包括,
实时获取所述元数据的数量;
根据所述元数据的数量更新所述数字摘要的长度。
9.多数据源元数据终端查询快速比对系统,其特征在于,
用户端,用于向服务器端发送查询指令;
服务器端,用于获取每个所述数据源内每个所述元数据的网络存储地址;
获取每个所述数据源内每个所述元数据的固定长度的数字摘要;
将所述元数据的网络存储地址以及对应的所述数字摘要存储至第一检索数据库;
获取所述数字摘要在所述第一检索数据库中的物理地址;
按照所述数字摘要的字符串大小顺序将所述数字摘要在所述第一检索数据库中的物理地址进行顺序排列,将所述数字摘要与对应的物理地址存储至第二检索数据库;
获取所述用户端发送的查询指令;
根据所述查询指令生成指向所述元数据的超链接;
根据多个所述元数据的超链接得到多个所述元数据的数字摘要;
根据多个所述元数据的数字摘要对所述查询指令对应的多个所述元数据进行一致性比对;
将一致性比对结果发送至所述用户端;
所述获取每个所述数据源内每个所述元数据的固定长度的数字摘要的步骤,包括,
获取全部所述数据源内全部所述元数据的数量;
根据全部所述数据源内全部所述元数据的数量获取所述数字摘要的固定长度;
根据所述数字摘要的固定长度将所述元数据划分为若干个数据区块;
获取每个所述数据区块内的数据的二进制编码;
沿着所述数据区块内的数据的逻辑方向,对每个所述数据区块内的数据的二进制编码进行去重;
获取每个去重后的所述数据区块内的数据的二进制编码的字节长度;
根据每个去重后的所述数据区块内的数据的二进制编码的字节长度对所述数据区块内的数据的二进制编码进行补码,使得每个去重后的所述数据区块内的数据的二进制编码的字节长度为二的整数次幂;
沿着所述数据区块内的数据的逻辑方向对补码去重后的所述数据区块内的数据的二进制编码进行逻辑运算,得到所述数字摘要的固定长度的运算结果,即所述数字摘要。
CN202211478777.XA 2022-11-24 2022-11-24 多数据源元数据终端查询快速比对方法及系统 Active CN115577157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211478777.XA CN115577157B (zh) 2022-11-24 2022-11-24 多数据源元数据终端查询快速比对方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211478777.XA CN115577157B (zh) 2022-11-24 2022-11-24 多数据源元数据终端查询快速比对方法及系统

Publications (2)

Publication Number Publication Date
CN115577157A CN115577157A (zh) 2023-01-06
CN115577157B true CN115577157B (zh) 2023-02-28

Family

ID=84590799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211478777.XA Active CN115577157B (zh) 2022-11-24 2022-11-24 多数据源元数据终端查询快速比对方法及系统

Country Status (1)

Country Link
CN (1) CN115577157B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378431A (zh) * 2014-11-14 2015-02-25 青岛龙泰天翔通信科技有限公司 一种适用于云存储系统的元数据分布式存储方法
CN111324305A (zh) * 2020-02-16 2020-06-23 西安奥卡云数据科技有限公司 一种分布式存储系统中数据写入/读取方法
CN112579626A (zh) * 2020-09-28 2021-03-30 京信数据科技有限公司 多源异构sql查询引擎的构建方法及装置
CN115145943A (zh) * 2022-09-06 2022-10-04 北京麦聪软件有限公司 多数据源元数据快速比对方法、系统、设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719508B2 (en) * 2018-04-19 2020-07-21 Risk Management Solutions, Inc. Data storage system for providing low latency search query responses

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104378431A (zh) * 2014-11-14 2015-02-25 青岛龙泰天翔通信科技有限公司 一种适用于云存储系统的元数据分布式存储方法
CN111324305A (zh) * 2020-02-16 2020-06-23 西安奥卡云数据科技有限公司 一种分布式存储系统中数据写入/读取方法
CN112579626A (zh) * 2020-09-28 2021-03-30 京信数据科技有限公司 多源异构sql查询引擎的构建方法及装置
CN115145943A (zh) * 2022-09-06 2022-10-04 北京麦聪软件有限公司 多数据源元数据快速比对方法、系统、设备和存储介质

Also Published As

Publication number Publication date
CN115577157A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN110083601B (zh) 面向键值存储系统的索引树构建方法及系统
US9454318B2 (en) Efficient data storage system
US10649854B2 (en) Systems and methods for efficient data searching, storage and reduction
EP3238344B1 (en) Lossless reduction of data by deriving data from prime data elements resident in a content-associative sieve
US8725705B2 (en) Systems and methods for searching of storage data with reduced bandwidth requirements
US9594765B2 (en) Performing keyword-based search and retrieval on data that has been losslessly reduced using a prime data sieve
US7305532B2 (en) Efficient data storage system
JP4846156B2 (ja) 共通性ファクタリングシステムに用いられるハッシュファイルシステムおよび方法
US8250325B2 (en) Data deduplication dictionary system
CN104077423A (zh) 一种基于一致性散列的结构化数据存储、查询和迁移方法
WO2014067063A1 (zh) 重复数据检索方法及设备
EP3311494A1 (en) Performing multidimensional search, content-associative retrieval, and keyword-based search and retrieval on data that has been losslessly reduced using a prime data sieve
Xu et al. Reducing replication bandwidth for distributed document databases
CN115577157B (zh) 多数据源元数据终端查询快速比对方法及系统
US20230376461A1 (en) Supporting multiple fingerprint formats for data file segment
Tolic et al. Deduplication in unstructured-data storage systems
CN117149914B (zh) 一种基于ClickHouse的存储方法
Zhou et al. A data deduplication framework of disk images with adaptive block skipping
KR20130078594A (ko) 해시 함수 기반의 인덱스를 이용한 텍스트 검색 장치 및 방법
Kocberber et al. Compressed multi-framed signature files: an index structure for fast information retrieval
WO2023147842A1 (en) Data storage and methods of deduplication of data storage, storing new file and deleting file
Mamun et al. A new compression based index structure for efficient information retrieval
Chung Parallel relational operations using clustered surrogate files on shared-nothing multiprocessors
Chung A relational algebra machine based on surrogate files for very large data/knowledge bases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant