CN116841742B - 一种用于计算海量数据的流式处理方法 - Google Patents
一种用于计算海量数据的流式处理方法 Download PDFInfo
- Publication number
- CN116841742B CN116841742B CN202310802639.0A CN202310802639A CN116841742B CN 116841742 B CN116841742 B CN 116841742B CN 202310802639 A CN202310802639 A CN 202310802639A CN 116841742 B CN116841742 B CN 116841742B
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- memory
- blocks
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 abstract 1
- 238000011161 development Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于计算海量数据的流式处理方法,涉及数据处理技术领域。本发明包括如下步骤:数据预处理:根据数据的内在关联性,找到数据的特征包围盒,进行数据分块;分块读取数据:将每一块的数据从外存文件读取到内存处理;区分数据块:每块数据完成处理后,区分稳定态和待定态,将稳定态数据输出,待定态数据保留在内存,继续参与后续计算;处理结束:将所有块的数据处理完,输出最终结果。本发明通过预处理采用特定的编码方式及存储结构,结合流计算模式对海量数据进行优化处理,区分数据稳定态和待定态,并及时输出稳定态,只保留待定态数据在内存中参与后续,提高了计算海量数据的处理速度、内容占用大,减少操作系统内存占用。
Description
技术领域
本发明属于数据处理技术领域,特别是涉及一种用于计算海量数据的流式处理方法,能够在有限的操作系统内存资源下可以高效地实现海量数据的处理计算。
背景技术
随着现代各种技术手段的发展,海量数据的获取越来越便捷可行。这些数据通常以GB乃至TB为单位,远远超过普通计算机内存的容量。面对海量数据快速处理的强烈现实需求,目前的实现方法却有待突破。一方面由于计算机内存的局限性,对于海量数据没有很好的处理策略,空间性能较低,无法稳定实现海量数据的计算;另一方面现有很多处理算法效率不高,不能满足快速处理的实用需求。于是,要想充分利用好这些数据,发挥其海量的优势,传统的内存算法显然已经不再适用。
因此,研究基于外存的处理算法成为形势发展的当务之急。外存算法的基本思想是将计算机内存和外存(磁盘)看成一个连续的、巨大的存储空间,算法执行时不断的将需要处理的数据从外存读入内存,而将暂不处理的数据写入外存以空出必要的内存空间。然而由于数据的随机性,数据之间不具有空间关联,设计外存算法时内外存频繁交换,效率降低,算法的稳定性也不能保证。
基于此,本发明提出先根据数据的内在关联性,采用四叉树结构对海量数据进行分块,各块以Morton码排序后再逐个进行处理计算。该处理方法虽然块内数据无序但块间有序,保证了数据的内在关联性,提高了数据处理过程搜索定位的效率。同时引入流计算模式,在处理的时候只读入一块点数据,每块数据处理完成后区分出稳定态和待定态,把稳定态的数据全部输出,只保留待定态数据在内存中参与后面的计算。这样内存占用大大降低,从而可以很好地处理海量数据。
发明内容
本发明的目的在于提供一种用于计算海量数据的流式处理方法,通过预处理采用特定的编码方式及存储结构,结合流计算模式对海量数据进行优化处理,区分数据稳定态和待定态,并及时输出稳定态,只保留待定态数据在内存中参与后续计算,解决了现有的海量数据处理速度不佳、内容占用大的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种用于计算海量数据的流式处理方法,按数据读入顺序进行处理,可以提早输出结果并释放内存;计算限定在内存,数据块之间无缝,无需考虑合并的问题,具体包括如下步骤:
步骤S1、数据预处理:根据数据的内在关联性,找到数据的特征包围盒,进行数据分块(块内有序,块间排序),并按块将数据保存到外存文件;
步骤S2、分块读取数据:将每一块的数据从外存文件读取到内存处理;
步骤S3、区分数据块:每块数据按要求完成处理后,区分稳定态和待定态,将稳定态数据输出,待定态数据保留在内存,继续参与后续计算;
步骤S4、处理结束:将所有块的数据处理完,输出最终结果。
作为一种优选的技术方案,所述步骤S1中,对数据进行预处理具体过程包括:
步骤S11:第一次读取数据,根据数据内在的关联性,找到数据的最值,确定数据的特征包围盒;
步骤S12:第二次读取数据,将全部数据划分为均匀数据格网块,根据格网块单元特征值,判断数据落在哪个格网单元内,据此统计出每个格网单元内数据的个数;
步骤S13:第三次读取数据,将格网单元采用Z-Order曲线顺序进行外部排序,对每个单元添加落入其内的所有数据,并将这些数据输出到临时文件。
作为一种优选的技术方案,所述数据预处理过程中,第一次读取数据时,遍历所有数据的特征值,找出其中的最大值和最小值来确定数据的特征包围盒;第二次读取数据时,利用四叉树结构进行剖分,数据量的大小决定剖分的层次,四叉树的叶节点即格网单元,并以Morton码为键值key;统计每个格网内所包含的数据的个数,此步只是一个计数过程,数据本身并不保留在内存;第三次读取数据时,将新读取的数据添加到其所属格网单元内,当单元内数据的个数达到上限记录时,表明该单元已完成预处理,不会再有数据进入,于是将该单元内的所有数据输出到临时文件,同时释放内存。
作为一种优选的技术方案,所述步骤S2中,读取一块数据到内存中,在现存的特征值处理结果中,利用数据的特征值进行某种逻辑关系需求处理;首先在现存的特征值处理结果中,查找包含新进数据的特征值,然后搜索影响域,即找到所有与该特征值关联的结果影响域,对影响域重新进行逻辑关系需求处理,并删除原来的处理结果,将新得到的逻辑关系处理结果添加到现存结果集合中。
作为一种优选的技术方案,所述特征值的逻辑关系需求处理时,为了提高效率主要着眼于改进受影响结果域的搜索,本发明提出了两个优化策略。第一步特征值定位,即查找包含新进点的影响域,由于数据间具有特征值内在关联性,通过逆序排列新生成的影响域,从后向前查找,实现了快速定位。平均只需一个数量级的查找,即可完成定位过程。第二步邻接影响域搜索,我们把邻接关系表示为常数,用Hash表存储,一方面加快了查找的速度,另一方面也避免了复杂数据结构的维护。
作为一种优选的技术方案,所述步骤S3中,每一单元块完成特征值需求处理后,用快速相交检测算法,识别出稳定态区域和待定态区域;所述稳定态,即数据特征处理结果完全落在已处理的单元区域内,表示需求结果已经确定,不再受后面计算过程的影响;所述稳定态数据需求结果提前输出到设备上,并释放内存;所述待定态,即数据特征处理结果与未处理区域相交,表示数据的需求结果会受后续计算过程的影响;所述待定态数据保留在内存,继续参与计算。
作为一种优选的技术方案,所述步骤S4中,当所有数据的格网单元块都读入内存,并完成特征值需求处理后,内存中仍然保留一部分的特征值需求结果,把这些结果全部输出,并把所计算的最终结果写到输出文件中,关闭文件,完成全部计算过程,算法结束。
本发明具有以下有益效果:
本发明通过预处理采用特定的编码方式及存储结构,结合流计算模式对海量数据进行优化处理,区分数据稳定态和待定态,并及时输出稳定态,只保留待定态数据在内存中参与后续,提高了计算海量数据的处理速度、内容占用大,减少操作系统内存占用。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种用于计算海量数据的流式处理方法流程图;
图2为对数据进行预处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1所示,本发明为按数据读入顺序进行处理,可以提早输出结果并释放内存;计算限定在内存,数据块之间无缝,无需考虑合并的问题,具体包括如下步骤:
步骤S1、数据预处理:根据数据的内在关联性,找到数据的特征包围盒,进行数据分块(块内有序,块间排序),并按块将数据保存到外存文件;
请参阅图2所示,对数据进行预处理具体过程包括:
步骤S11:第一次读取数据,根据数据内在的关联性,找到数据的最值,确定数据的特征包围盒;
步骤S12:第二次读取数据,将全部数据划分为均匀数据格网块,根据格网块单元特征值,判断数据落在哪个格网单元内,据此统计出每个格网单元内数据的个数;
步骤S13:第三次读取数据,将格网单元采用Z-Order曲线顺序进行外部排序,对每个单元添加落入其内的所有数据,并将这些数据输出到临时
文件;Z-Order曲线排序如下表1所示,
表1Z-Order曲线排序图
数据预处理过程中,第一次读取数据时,遍历所有数据的特征值,找出其中的最大值和最小值来确定数据的特征包围盒;第二次读取数据时,利用四叉树结构进行剖分,数据量的大小决定剖分的层次,四叉树的叶节
点即格网单元,并以Morton码为键值key;统计每个格网内所包含的数据的个数,此步只是一个计数过程,数据本身并不保留在内存;第三次读取数据时,将新读取的数据添加到其所属格网单元内,当单元内数据的个数达到上限记录时,表明该单元已完成预处理,不会再有数据进入,于是将该单元内的所有数据输出到临时文件,同时释放内存。
如下表2,对数据进行两次遍历实现负载平衡后,在确定特征包围盒的同时,对余下的各子区域分别构建四叉树进行格网划分,并对四叉树叶子节点进行Morton编码;
表2数据进行Morton编码
步骤S2、分块读取数据:将每一块的数据从外存文件读取到内存处理;
读取一块数据到内存中,在现存的特征值处理结果中,利用数据的特征值进行某种逻辑关系需求处理;首先在现存的特征值处理结果中,查找包含新进数据的特征值,然后搜索影响域,即找到所有与该特征值关联的结果影响域,对影响域重新进行逻辑关系需求处理,并删除原来的处理结果,将新得到的逻辑关系处理结果添加到现存结果集合中。
特征值的逻辑关系需求处理时,为了提高效率主要着眼于改进受影响结果域的搜索,本发明提出了两个优化策略。第一步特征值定位,即查找包含新进点的影响域,由于数据间具有特征值内在关联性,通过逆序排列新生成的影响域,从后向前查找,实现了快速定位。平均只需一个数量级的查找,即可完成定位过程。第二步邻接影响域搜索,我们把邻接关系表示为常数,用Hash表存储,一方面加快了查找的速度,另一方面也避免了复杂数据结构的维护。
步骤S3、区分数据块:每块数据按要求完成处理后,区分稳定态和待定态,将稳定态数据输出,待定态数据保留在内存,继续参与后续计算;
每一单元块完成特征值需求处理后,用快速相交检测算法,识别出稳定态区域和待定态区域;稳定态,即数据特征处理结果完全落在已处理的单元区域内,表示需求结果已经确定,不再受后面计算过程的影响;稳定态数据需求结果提前输出到设备上,并释放内存;待定态,即数据特征处理结果与未处理区域相交,表示数据的需求结果会受后续计算过程的影响;待定态数据保留在内存,继续参与计算。
步骤S4、处理结束:将所有块的数据处理完,输出最终结果;
当所有数据的格网单元块都读入内存,并完成特征值需求处理后,内存中仍然保留一部分的特征值需求结果,把这些结果全部输出,并把所计算的最终结果写到输出文件中,关闭文件,完成全部计算过程,算法结束。
实施例二
以下为构建四叉树的代码:
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (5)
1.一种用于计算海量数据的流式处理方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:根据数据的内在关联性,找到数据的特征包围盒,进行数据分块,并按块将数据保存到外存文件;
步骤S2、分块读取数据:将每一块的数据从外存文件读取到内存处理;
步骤S3、区分数据块:每块数据按要求完成处理后,区分稳定态和待定态,将稳定态数据输出,待定态数据保留在内存,继续参与后续计算;
步骤S4、处理结束:将所有块的数据处理完,输出最终结果;
所述步骤S2中,读取一块数据到内存中,在现存的特征值处理结果中,查找包含新进数据的特征值,然后搜索影响域,即找到所有与该特征值关联的结果影响域,对影响域重新进行逻辑关系需求处理,并删除原来的处理结果,将新得到的逻辑关系处理结果添加到现存结果集合中;
所述特征值的逻辑关系需求处理时,进行特征值定位,即查找包含新进点的影响域,通过逆序排列新生成的影响域,从后向前查找;
邻接所述影响域搜索时,将邻接关系表示为常数,用Hash表存储。
2.根据权利要求1所述的一种用于计算海量数据的流式处理方法,其特征在于,所述步骤S1中,对数据进行预处理具体过程包括:
步骤S11:第一次读取数据,根据数据内在的关联性,找到数据的最值,确定数据的特征包围盒;
步骤S12:第二次读取数据,将全部数据划分为均匀数据格网块,根据格网块单元特征值,判断数据落在哪个格网单元内,据此统计出每个格网单元内数据的个数;
步骤S13:第三次读取数据,将格网单元采用Z-Order曲线顺序进行外部排序,对每个单元添加落入其内的所有数据,并将这些数据输出到临时文件。
3.根据权利要求2所述的一种用于计算海量数据的流式处理方法,其特征在于,所述数据预处理过程中,第一次读取数据时,遍历所有数据的特征值,找出其中的最大值和最小值来确定数据的特征包围盒;第二次读取数据时,利用四叉树结构进行剖分,四叉树的叶节点即格网单元,并以Morton码为键值key;第三次读取数据时,将新读取的数据添加到其所属格网单元内,当单元内数据的个数达到上限记录时,表明该单元已完成预处理,将该单元内的所有数据输出到临时文件,同时释放内存。
4.根据权利要求1所述的一种用于计算海量数据的流式处理方法,其特征在于,所述步骤S3中,每一单元块完成特征值需求处理后,用快速相交检测算法,识别出稳定态区域和待定态区域;所述稳定态,即数据特征处理结果完全落在已处理的单元区域内,表示需求结果已经确定,不再受后面计算过程的影响;所述稳定态数据需求结果提前输出到设备上,并释放内存;所述待定态,即数据特征处理结果与未处理区域相交,表示数据的需求结果会受后续计算过程的影响;所述待定态数据保留在内存,继续参与计算。
5.根据权利要求1所述的一种用于计算海量数据的流式处理方法,其特征在于,所述步骤S4中,当所有数据的格网单元块都读入内存,并完成特征值需求处理后,内存中仍然保留一部分的特征值需求结果,把结果全部输出,并把所计算的最终结果写到输出文件中,关闭文件,完成全部计算过程,算法结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310802639.0A CN116841742B (zh) | 2023-07-03 | 2023-07-03 | 一种用于计算海量数据的流式处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310802639.0A CN116841742B (zh) | 2023-07-03 | 2023-07-03 | 一种用于计算海量数据的流式处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116841742A CN116841742A (zh) | 2023-10-03 |
CN116841742B true CN116841742B (zh) | 2024-05-03 |
Family
ID=88159396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310802639.0A Active CN116841742B (zh) | 2023-07-03 | 2023-07-03 | 一种用于计算海量数据的流式处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116841742B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852826A (en) * | 1996-01-26 | 1998-12-22 | Sequent Computer Systems, Inc. | Parallel merge sort method and apparatus |
CN101286225A (zh) * | 2007-04-11 | 2008-10-15 | 中国科学院自动化研究所 | 一种基于三维纹理硬件加速的海量数据体绘制方法 |
CN102622272A (zh) * | 2012-01-18 | 2012-08-01 | 北京华迪宏图信息技术有限公司 | 基于集群和并行技术的海量卫星数据处理系统及处理方法 |
CN103914868A (zh) * | 2013-12-20 | 2014-07-09 | 柳州腾龙煤电科技股份有限公司 | 虚拟现实下的海量模型数据动态调度与实时异步加载方法 |
CN105160706A (zh) * | 2015-06-03 | 2015-12-16 | 江西理工大学 | 一种单机多核环境下约束地形并行构建方法 |
CN110533764A (zh) * | 2019-07-23 | 2019-12-03 | 桂林理工大学 | 面向建筑群的分形四叉树纹理组织方法 |
-
2023
- 2023-07-03 CN CN202310802639.0A patent/CN116841742B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5852826A (en) * | 1996-01-26 | 1998-12-22 | Sequent Computer Systems, Inc. | Parallel merge sort method and apparatus |
CN101286225A (zh) * | 2007-04-11 | 2008-10-15 | 中国科学院自动化研究所 | 一种基于三维纹理硬件加速的海量数据体绘制方法 |
CN102622272A (zh) * | 2012-01-18 | 2012-08-01 | 北京华迪宏图信息技术有限公司 | 基于集群和并行技术的海量卫星数据处理系统及处理方法 |
CN103914868A (zh) * | 2013-12-20 | 2014-07-09 | 柳州腾龙煤电科技股份有限公司 | 虚拟现实下的海量模型数据动态调度与实时异步加载方法 |
CN105160706A (zh) * | 2015-06-03 | 2015-12-16 | 江西理工大学 | 一种单机多核环境下约束地形并行构建方法 |
CN110533764A (zh) * | 2019-07-23 | 2019-12-03 | 桂林理工大学 | 面向建筑群的分形四叉树纹理组织方法 |
Non-Patent Citations (4)
Title |
---|
GAT: A Unified GPU-Accelerated Framework for Processing Batch Trajectory Queries;Kaixing Dong;《IEEE Transactions on Knowledge and Data Engineering》;20181106;第32卷(第1期);全文 * |
QR factorization with Morton-ordered quadtree matrices for memory re-use and parallelism;Jeremy D. Frens;《Proceedings of the ninth ACM SIGPLAN symposium on Principles and practice of parallel programming》;20030630;全文 * |
基于贝叶斯分类的海量点集多核D-TIN并行算法;乔梁;《信息技术》(第1期);第34-38页 * |
外存模型简化中数据读取及内存分配的优化;王海洋, 蔡康颖, 王文成, 吴恩华;计算机辅助设计与图形学学报(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116841742A (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102521334B (zh) | 一种基于分类特性和平衡二叉树的数据存储、查询方法 | |
CN109522428B (zh) | 一种基于索引定位的图计算系统的外存访问方法 | |
CN103345496B (zh) | 多媒体信息检索方法和系统 | |
CN107451146A (zh) | 利用多级缓存读取数据的方法和缓存数据的多级缓存装置 | |
CN105631003A (zh) | 支持海量数据分组统计的智能索引构建、查询及维护方法 | |
CN105159604A (zh) | 一种磁盘数据读写方法和系统 | |
CN113901279B (zh) | 一种图数据库的检索方法和装置 | |
CN106599091A (zh) | 基于键值存储的rdf图结构存储和索引方法 | |
CN108717448B (zh) | 一种面向键值对存储的范围查询过滤方法和键值对存储系统 | |
CN113268557A (zh) | 一种适应显示导向型可视化分析的快速的空间索引方法 | |
CN111861744A (zh) | 一种实现区块链交易并行化的方法及区块链节点 | |
CN102542041A (zh) | 栅格数据处理方法及系统 | |
CN116841742B (zh) | 一种用于计算海量数据的流式处理方法 | |
CN113535705A (zh) | Sfad布谷鸟过滤器及基于sfad布谷鸟过滤器重复数据删除方法 | |
CN111949610B (zh) | 一种基于ai训练平台的海量文件检索方法、装置及设备 | |
CN117454206A (zh) | 针对晶圆的缺陷的聚类方法、系统、设备及计算机可读介质 | |
CN115689761B (zh) | 一种电子商务流向路径多线程并行检测方法及设备 | |
CN113326343A (zh) | 基于多级网格和文件索引的路网数据存储方法及系统 | |
CN115689762B (zh) | 银行交易资金流向路径检测方法、系统、设备及存储介质 | |
CN113821630A (zh) | 一种数据聚类的方法和装置 | |
CN111859038A (zh) | 一种分布式存储系统数据热度统计方法、装置 | |
CN108021678B (zh) | 一种结构紧凑的键值对存储结构及快速键值对查找方法 | |
CN114579537A (zh) | 分布式图数据库的优化方法、装置、电子设备及存储介质 | |
He et al. | SLC-index: A scalable skip list-based index for cloud data processing | |
CN113495901A (zh) | 一种面向可变长数据块的快速检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |