CN114527929A - 基于双哈希模糊布隆滤波器云存储数据融合方法 - Google Patents

基于双哈希模糊布隆滤波器云存储数据融合方法 Download PDF

Info

Publication number
CN114527929A
CN114527929A CN202011319722.5A CN202011319722A CN114527929A CN 114527929 A CN114527929 A CN 114527929A CN 202011319722 A CN202011319722 A CN 202011319722A CN 114527929 A CN114527929 A CN 114527929A
Authority
CN
China
Prior art keywords
fuzzy
data
bloom filter
hash
bloom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011319722.5A
Other languages
English (en)
Inventor
洪文圳
李冬睿
许国恩
周劲桦
陈玉琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011319722.5A priority Critical patent/CN114527929A/zh
Publication of CN114527929A publication Critical patent/CN114527929A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于双哈希模糊布隆滤波器云存储数据融合方法,具体步骤如下:1)设置布隆滤波器;2)定义问题描述的数学模型;3)模糊交叉操作;4)模糊交叉布隆滤波器中的数据插入;5)模糊交叉布隆滤波器中的数据查询;6)实验分析。本发明的方法使用模糊交叉操作合并压缩两个布隆滤波器,实现散列数据在两个布隆滤波器的共享容纳,减少海量数据存储需求;2、利用双哈希计算多个哈希函数降低计算成本,对工业物联网网络失效数据的影响很小,数据衰减缓慢,并允许流数据在内存中驻留相当长的时间;3、在不损失精度的情况下高效优化利用存储空间。

Description

基于双哈希模糊布隆滤波器云存储数据融合方法
技术领域
本发明涉及数据融合领域,具体为一种基于双哈希模糊布隆滤波器云存储数据融合方法。
背景技术
当前已有许多针对IIoT(工业物联网)数据的处理方法,例如:基于Bloom滤波器的密钥值存储方法;动态Bloom(布隆)滤波器数组云存储系统成员身份的有效表示法;可调节Bloom过滤器批量数据的插入法和基于SDN的大数据管理方法。这些方法中普遍存在的缺点是查询复杂度随着输入数据量增加而增加,严重影响存储器的空间利用率。
发明内容
针对上述存在的技术不足,本发明的目的是提供一种基于双哈希模糊布隆滤波器云存储数据融合方法,其在确保失效数据鲁棒性条件下,使用了双哈希技术将两个布隆滤波器压缩成一个滤波器,两个哈希函数生成k个哈希函数,大大减少了哈希运算的时间,更为有效利用存储容量,提高跨多个区域大数据存储效率。
为解决上述技术问题,本发明采用如下技术方案:
基于双哈希模糊布隆滤波器云存储数据融合方法,其特征在于,具体步骤如下:
1)设置布隆滤波器:布隆滤波器由一个“m”位数组组成,初始设置全部为0,并由一组k个散列函数组成;
2)定义问题描述的数学模型:给定具有n个元素的数据流(Ds),即Ds={x1,x2,…,xn},数学模型为:
Figure BDA0002792476640000021
3)模糊交叉操作:合并ax∈BFi[]和by∈BFj[]的元素,其中x=y;这两个元素在两部分中具有相同的索引,彼此重叠并在上半部分存储为单个模糊值;在此过程中,索引位用于数据压缩;融合的两个布隆滤波器,BFi[]和BFj[],被称为第一交叉或第一压缩形式;它由符号CRi,j表示,并且需要块位和指纹位来表示使用模糊符号存储在其中的元素;
模糊交叉操作表示为如下模型:
Figure BDA0002792476640000022
其中,NFO表示不执行模糊操作;
4)模糊交叉布隆滤波器中的数据插入:模糊交叉布隆滤波器利用BF[]表示,其由m个元素组成,其中一个指纹位
Figure BDA0002792476640000026
与用于压缩操作的每个块位
Figure BDA0002792476640000023
相关联,来自集合S的输入数据使用双哈希方法添加到布隆滤波器中,显著减少计算时间,在所提布隆滤波器变量中,使用双哈希函数来生成k个哈希函数(即
Figure BDA0002792476640000024
),哈希函数的数学公式如下:
gi(x)={h1(x)+i×h2(x)}mod mp
其中,mp是相对于BF(m)大小的最大限制范围(1:m)和最接近素数之间的散列函数的值,mp的选择采取生成最佳散列值方式进行选取,插入首先将m大小的数组划分为两个相同大小的布隆滤波器:
Figure BDA0002792476640000025
元素被添加到第i个布隆滤波器中,当BFi[]的填充容量超过阈值填充比(Fthres)时,插入从BFi+1[]开始,在插入的第一级,根据以下散列值,只有块位被设置为1:
Figure BDA0002792476640000031
一旦达到BFi+1[]滤波器的阈值,模糊交叉操作
Figure BDA0002792476640000037
被应用在两个滤波器(BFi[]和BFi+1[])上,以便在现有的布隆滤波器中为更多的数据存储空间,为使模糊交叉操作有效,m和k应该是2的倍数;
5)模糊交叉布隆滤波器中的数据查询:在模糊交叉布隆滤波器中,查询过程始终从活动时隙A开始,如果在第A个时隙中找到元素,则查询过程返回TRUE;否则,扫描将继续,直到A=1搜索开始,按如下散列查询方式:
Figure BDA0002792476640000032
在以上公式中,哈希索引使用hi表示,在BFi中,如果
Figure BDA0002792476640000033
则yi被认为是BF[a]时隙中集合S的成员,如果第a个位置表示为CRi,i+1,然后使用hResult()函数,该函数检查在哈希索引
Figure BDA0002792476640000034
处出现的α,β,γ的数目,并且它们的对应值存储在Cα,Cβ,Cγ中,接下来,分别计算BFi[]和BFi+1[]的两个隶属函数,如下所示:
Figure BDA0002792476640000035
下面是根据上面定义的hResult()函数得出的结论:
Figure BDA0002792476640000036
查询CR中的一个项目(y∈Q)的时间复杂度是O(k),如果CRi,i+1表示时隙BF[i]和BF[i+1]的2n个元素。
优选地,步骤2中的数学模型表示:①与散列相关的计算成本(Cc)最小化;②处理动态数据集时的查询复杂性(Qc)最优化;③用于存储数据的存储器以最大数量的元素可容纳的方式最优化(Ea);④假阳性(fp),布隆滤波器的重要性能参数不超过预定限值。
本发明的有益效果在于:1、使用模糊交叉操作合并压缩两个布隆滤波器,实现散列数据在两个布隆滤波器的共享容纳,减少海量数据存储需求;2、利用双哈希计算多个哈希函数降低计算成本,对工业物联网网络失效数据的影响很小,数据衰减缓慢,并允许流数据在内存中驻留相当长的时间;3、在不损失精度的情况下高效优化利用存储空间。
具体实施方式
下面将结合本发明实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于双哈希模糊布隆滤波器云存储数据融合方法,具体步骤如下:
1)设置布隆滤波器:布隆滤波器由一个“m”位数组组成,初始设置全部为0,并由一组k个散列函数组成;
2)定义问题描述的数学模型:给定具有n个元素的数据流(Ds),即Ds={x1,x2,…,xn},主要要求是在存储器和搜索复杂度方面改进现有的布隆滤波器的性能,数学模型为:
Figure BDA0002792476640000041
所述数学模型表示如下问题:
①流数据在很短时间内是可用的,因此必须一次性处理,并在内存中保留足够长时间以便查询;
②与散列相关的计算成本(Cc)应最小化;
③处理动态数据集时的查询复杂性(Qc)应得到优化;
④用于存储数据的存储器应以最大数量的元素可容纳的方式进行优化(Ea)。
⑤假阳性(fp),Bloom滤波器的重要性能参数不应超过预定限值;
3)模糊交叉操作:合并ax∈BFi[]和by∈BFj[]的元素,其中x=y;这两个元素在两部分中具有相同的索引,彼此重叠并在上半部分存储为单个模糊值;在此过程中,索引位用于数据压缩;融合的两个布隆滤波器,BFi[]和BFj[],被称为第一交叉或第一压缩形式;它由符号CRi,j表示,并且需要块位和指纹位来表示使用模糊符号存储在其中的元素;
模糊交叉操作表示为如下模型:
Figure BDA0002792476640000051
其中,NFO表示不执行模糊操作;
Figure BDA0002792476640000052
存储在初始m/2空间中,一旦达到可用空间阈值,则空间m/2耗尽,然后应用下一个交叉过程,将存储在m/2空间中的数据移动到m/4空间中,并再次生成一些新的空间,以在相同大小m的布隆滤波器中存储更多传入数据,由于使用模糊交叉,上述存储方法具有唯一签名,它保留了布隆滤波器的两个部分数据,以便在更长的时间内可查询;
4)模糊交叉布隆滤波器中的数据插入:模糊交叉布隆滤波器利用BF[]表示,其由m个元素组成,其中一个指纹位
Figure BDA0002792476640000053
与用于压缩操作的每个块位
Figure BDA0002792476640000054
相关联,来自集合S的输入数据使用双哈希方法添加到布隆滤波器中,显著减少计算时间,在所提布隆滤波器变量中,使用双哈希函数来生成k个哈希函数(即
Figure BDA0002792476640000061
),哈希函数的数学公式如下:
gi(x)={h1(x)+i×h2(x)}mod mp
其中,mp是相对于BF(m)大小的最大限制范围(1:m)和最接近素数之间的散列函数的值,mp的选择采取生成最佳散列值方式进行选取,插入首先将m大小的数组划分为两个相同大小的布隆滤波器:
Figure BDA0002792476640000062
元素被添加到第i个Bloom滤波器中,当
Figure BDA0002792476640000063
的填充容量超过阈值填充比(Fthres)时,插入从BFi+1[]开始,在插入的第一级,根据以下散列值,只有块位被设置为1:
Figure BDA0002792476640000064
一旦达到BFi+1[]滤波器的阈值,模糊交叉操作
Figure BDA0002792476640000068
被应用在两个滤波器(BFi[]和BFi+1[])上,以便在现有的布隆滤波器中为更多的数据存储空间,为使模糊交叉操作有效,m和k应该是2的倍数;
5)模糊交叉布隆滤波器中的数据查询:在模糊交叉布隆滤波器中,查询过程始终从活动时隙A开始,如果在第A个时隙中找到元素,则查询过程返回TRUE;否则,扫描将继续,直到A=1搜索开始,按如下散列查询方式:
Figure BDA0002792476640000065
在以上公式中,哈希索引使用hi表示,在BFi中,如果
Figure BDA0002792476640000066
则yi被认为是BF[a]时隙中集合S的成员,如果第a个位置表示为CRi,i+1,然后使用hResult()函数,该函数检查在哈希索引
Figure BDA0002792476640000067
处出现的α,β,γ的数目,并且它们的对应值存储在Cα,Cβ,Cγ中,接下来,分别计算BFi[]和BFi+1[]的两个隶属函数,如下所示:
Figure BDA0002792476640000071
下面是根据上面定义的hResult()函数得出的结论:
Figure BDA0002792476640000072
查询CR中的一个项目(y∈Q)的时间复杂度是O(k),如果CRi,i+1表示时隙BF[i]和BF[i+1]的2n个元素。
对本发明涉及的云存储数据融合算法进行性能测试,具体内容为:选取PBC0.5.15测试库进行模拟测试,可实现对文件失效情况下的批量审计模型设计,同时选取相关文献三种云存储算法进行对比实验,该测试系统选取的开发语言是C语言。测试系统平台软件选取Linux 3.8.0-29,处理器配置为CPU Intel(R)E5605@2.55GHz,系统内存大小是32GB,系统硬盘是1TB希捷机械硬盘。
设置云存储过程中的数据块大小是|id|=50b,云存储过程的测试文件大小为1GB,设定模拟测试过程中的文件损坏的最大比例是1%,选取所有数据块中的500组作为模拟对象进行数据审计。实验对比指标首先选取云存储过程中的通信数据开销进行实验对比,为确保测试过程所得结果稳定,每组实验单独运行30次求取实验结果的均值进行对比测试。
本发明的设计使用模糊交叉操作合并压缩两个布隆滤波器,实现散列数据在两个布隆滤波器的共享容纳,减少海量数据存储需求;利用双哈希计算多个哈希函数降低计算成本,对工业物联网网络失效数据的影响很小,数据衰减缓慢,并允许流数据在内存中驻留相当长的时间;在不损失精度的情况下高效优化利用存储空间。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (2)

1.基于双哈希模糊布隆滤波器云存储数据融合方法,其特征在于,具体步骤如下:
1)设置布隆滤波器:布隆滤波器由一个“m”位数组组成,初始设置全部为0,并由一组k个散列函数组成;
2)定义问题描述的数学模型:给定具有n个元素的数据流(Ds),即Ds={x1,x2,…,xn},数学模型为:
Figure FDA0002792476630000011
3)模糊交叉操作:合并ax∈BFi[]和by∈BFj[]的元素,其中x=y;这两个元素在两部分中具有相同的索引,彼此重叠并在上半部分存储为单个模糊值;在此过程中,索引位用于数据压缩;融合的两个布隆滤波器,BFi[]和BFj[],被称为第一交叉或第一压缩形式;它由符号CRi,j表示,并且需要块位和指纹位来表示使用模糊符号存储在其中的元素;
模糊交叉操作表示为如下模型:
Figure FDA0002792476630000012
其中,NFO表示不执行模糊操作;
4)模糊交叉布隆滤波器中的数据插入:模糊交叉布隆滤波器利用BF[]表示,其由m个元素组成,其中一个指纹位
Figure FDA0002792476630000013
与用于压缩操作的每个块位
Figure FDA0002792476630000014
相关联,来自集合S的输入数据使用双哈希方法添加到布隆滤波器中,显著减少计算时间,在所提布隆滤波器变量中,使用双哈希函数来生成k个哈希函数(即
Figure FDA0002792476630000015
),哈希函数的数学公式如下:
gi(x)={h1(x)+i×h2(x)}mod mp
其中,mp是相对于BF(m)大小的最大限制范围(1:m)和最接近素数之间的散列函数的值,mp的选择采取生成最佳散列值方式进行选取,插入首先将m大小的数组划分为两个相同大小的布隆滤波器:
Figure FDA0002792476630000021
元素被添加到第i个布隆滤波器中,当BFi[]的填充容量超过阈值填充比(Fthres)时,插入从BFi+1[]开始,在插入的第一级,根据以下散列值,只有块位被设置为1:
Figure FDA0002792476630000022
一旦达到BFi+1[]滤波器的阈值,模糊交叉操作
Figure FDA0002792476630000026
被应用在两个滤波器(BFi[]和BFi+1[])上,以便在现有的布隆滤波器中为更多的数据存储空间,为使模糊交叉操作有效,m和k应该是2的倍数;
5)模糊交叉布隆滤波器中的数据查询:在模糊交叉布隆滤波器中,查询过程始终从活动时隙A开始,如果在第A个时隙中找到元素,则查询过程返回TRUE;否则,扫描将继续,直到A=1搜索开始,按如下散列查询方式:
Figure FDA0002792476630000023
在以上公式中,哈希索引使用hi表示,在BFi中,如果
Figure FDA0002792476630000024
则yi被认为是BF[a]时隙中集合S的成员,如果第a个位置表示为CRi,i+1,然后使用hResult()函数,该函数检查在哈希索引
Figure FDA0002792476630000025
处出现的α,β,γ的数目,并且它们的对应值存储在Cα,Cβ,Cγ中,接下来,分别计算BFi[]和BFi+1[]的两个隶属函数,如下所示:
Figure FDA0002792476630000031
下面是根据上面定义的hResult()函数得出的结论:
Figure FDA0002792476630000032
查询CR中的一个项目(y∈Q)的时间复杂度是O(k),如果CRi,i+1表示时隙BF[i]和BF[i+1]的2n个元素。
2.根据权利要求1所述的基于双哈希模糊布隆滤波器云存储数据融合方法,其特征在于,步骤2中的数学模型表示:①与散列相关的计算成本(Cc)最小化;②处理动态数据集时的查询复杂性(Qc)最优化;③用于存储数据的存储器以最大数量的元素可容纳的方式最优化(Ea);④假阳性(fp),布隆滤波器的重要性能参数不超过预定限值。
CN202011319722.5A 2020-11-23 2020-11-23 基于双哈希模糊布隆滤波器云存储数据融合方法 Pending CN114527929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011319722.5A CN114527929A (zh) 2020-11-23 2020-11-23 基于双哈希模糊布隆滤波器云存储数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011319722.5A CN114527929A (zh) 2020-11-23 2020-11-23 基于双哈希模糊布隆滤波器云存储数据融合方法

Publications (1)

Publication Number Publication Date
CN114527929A true CN114527929A (zh) 2022-05-24

Family

ID=81619011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011319722.5A Pending CN114527929A (zh) 2020-11-23 2020-11-23 基于双哈希模糊布隆滤波器云存储数据融合方法

Country Status (1)

Country Link
CN (1) CN114527929A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743338A (zh) * 2023-12-20 2024-03-22 无锡众星微系统技术有限公司 一种基于双哈希的关键字匹配方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL211163A0 (en) * 2011-02-10 2011-04-28 Univ Ben Gurion A method for generating a randomized data structure for representing sets, based on bloom filters
CN103595637A (zh) * 2013-10-27 2014-02-19 西安电子科技大学 基于树与哈希表的内容中心网络结点处理数据方法
CN109766479A (zh) * 2019-01-24 2019-05-17 北京三快在线科技有限公司 数据处理方法、装置、电子设备及存储介质
CN111858651A (zh) * 2020-09-22 2020-10-30 中国人民解放军国防科技大学 一种数据处理方法以及数据处理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL211163A0 (en) * 2011-02-10 2011-04-28 Univ Ben Gurion A method for generating a randomized data structure for representing sets, based on bloom filters
CN103595637A (zh) * 2013-10-27 2014-02-19 西安电子科技大学 基于树与哈希表的内容中心网络结点处理数据方法
CN109766479A (zh) * 2019-01-24 2019-05-17 北京三快在线科技有限公司 数据处理方法、装置、电子设备及存储介质
CN111858651A (zh) * 2020-09-22 2020-10-30 中国人民解放军国防科技大学 一种数据处理方法以及数据处理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
洪文圳等: "《 基于双哈希模糊布隆滤波器云存储数据融合》", 《计算机工程与设计》 *
王伟晨: "《基于布隆过滤器算法的数据检索误判率研究RFID数据冗余处理算法》", 《计算机产品与流通》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743338A (zh) * 2023-12-20 2024-03-22 无锡众星微系统技术有限公司 一种基于双哈希的关键字匹配方法和装置
CN117743338B (zh) * 2023-12-20 2024-05-10 无锡众星微系统技术有限公司 一种基于双哈希的关键字匹配方法和装置

Similar Documents

Publication Publication Date Title
CN102968503B (zh) 数据库系统的数据处理方法以及数据库系统
US10769126B1 (en) Data entropy reduction across stream shard
CN101694672B (zh) 一种分布式安全检索系统
CN109189995B (zh) 基于mpi的云存储中数据消冗方法
CN113535706B (zh) 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
US12073102B2 (en) Method and apparatus for compressing data of storage system, device, and readable storage medium
EP3963853B1 (en) Optimizing storage and retrieval of compressed data
CN110032470B (zh) 一种基于哈夫曼树的异构部分重复码的构造方法
Dai et al. Improving load balance for data-intensive computing on cloud platforms
CN111028897B (zh) 一种基于Hadoop的基因组索引构建的分布式并行计算方法
CN110019184B (zh) 一种压缩和解压缩有序整数数组的方法
CN108093024B (zh) 一种基于数据频度的分类路由方法及装置
CN111949681A (zh) 数据的聚合处理装置、方法和存储介质
CN114527929A (zh) 基于双哈希模糊布隆滤波器云存储数据融合方法
CN116010362A (zh) 文件存储和文件读取的方法、装置及系统
CN106909557B (zh) 内存集群的存储方法及装置、内存集群的读取方法及装置
CN114491401A (zh) 一种自适应稀疏矩阵向量乘策略选择及优化方法
CN112434085B (zh) 基于Roaring Bitmap的用户数据统计方法
CN109285015B (zh) 一种虚拟资源的分配方法及系统
CN111061428B (zh) 一种数据压缩的方法及装置
CN112764935B (zh) 大数据处理方法、装置、电子设备及存储介质
Ahsan et al. An Efficient Encoding Scheme to Handle the Address Space Overflow for Large Multidimensional Arrays.
US11036678B2 (en) Optimizing files stored in a distributed file system
CN116383290B (zh) 一种数据泛化解析方法
CN105468603A (zh) 数据选择方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination