CN108804661A - 一种云存储系统中基于模糊聚类的重复数据删除方法 - Google Patents
一种云存储系统中基于模糊聚类的重复数据删除方法 Download PDFInfo
- Publication number
- CN108804661A CN108804661A CN201810587507.XA CN201810587507A CN108804661A CN 108804661 A CN108804661 A CN 108804661A CN 201810587507 A CN201810587507 A CN 201810587507A CN 108804661 A CN108804661 A CN 108804661A
- Authority
- CN
- China
- Prior art keywords
- file
- data block
- fingerprint
- cluster
- membership
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明提出了一种云存储系统中基于模糊聚类的重复数据删除方法。本发明步骤:首先,对来自客户端待存储的文件,确定其文件类型;其次,构建初始聚类中心;然后,依次计算待存储文件的数据指纹集合与各聚类中心的隶属度;最后,按照隶属度的高低,选择合适的聚类,将文件的各数据块指纹与该聚类中所有的数据块指纹进行精确比对,舍弃指纹相同的数据块,只留下重复数据块的索引信息和非重复数据块,从而达到删除重复数据的目的,并更新聚类中心。本发明对文件的数据块指纹采取抽样处理,考虑抽样的数量,结合样本的相似度构建隶属度函数。本发明具有计算速度快的优点,有更少的指纹比对量,适用于云存储系统。
Description
技术领域
本发明主要涉及到计算机存储领域,特别涉及到一种云存储系统中基于模糊聚类的重复数据删除方法。
背景技术
目前全球的数字化浪潮带来了海量的数据信息,人类社会已经进入了信息化和大数据时代。据IDC预计,到2020年,人类所产生的数据量将超过40ZB。云存储系统作为当下最热门的存储数据的系统,在储存海量数据时,将会出现很多重复数据,有的系统中数据重复率高达70%~80%。因此需要重复数据删除技术来删除冗余数据,以减少储存空间的占用,节约网络带宽,同时减少数据中心的储存花费和日常能耗。
与其它的存储系统不同的是,云存储系统中存储的数据类型多样,例如邮件服务器(Mail),虚拟机映像(VM),Web服务器(Web)数据集,照片集(照片),音乐库(音频)等等,但是不同数据类型间的冗余数据很少。
发明内容
针对重复数据在云存储系统中,对检索造成的麻烦,但同时不同类型文件间冗余量可以忽略不计。本发明公开了一种云存储系统中基于模糊聚类的重复数据删除方法。
本发明为了实现上述目的所采用的技术方案:对存储空间的文件按类型进行分类,然后分块,对数据块进行哈希计算,提取指纹特征。构建初始聚类中心,分别计算待存储文件与各个聚类中心的隶属度,根据文件隶属度选择适合的聚类,通过数据块指纹比对来达到删除重复数据的目的,并更新聚类中心。
与现有技术相比,本方法的优点在于:
本发明具有计算速度快的优点,有更少的指纹比对量,同时提高了系统的可拓展性。
附图说明
图1是本发明的流程图。
具体实施方式
如图1所示,本发明技术方案的具体步骤为:
步骤1、对来自客户端待存储的文件,确定其文件类型,其特征所述的确定文件类型还应包括以下步骤:
根据待存储文件的头部信息,可以确定文件的类型。如通过UltraEdit得到的jpg文件的文件头为FFD8FF,xml文件的文件头为3C3F786D6C。
步骤2、构建初始聚类中心,其特征在于所述的构建初始聚类中心的方法还应包括以下步骤:
设存储空间的文件可按文件类型划分为c类,对于每类文件都随机地选取至少f个文件,对选取的文件进行分块,计算每个数据块的指纹。
例如,对于类型为i的文件组可以得到它的指纹集合p={p1,p2,......,pl},随机地选取指纹集合p中的m个数据块指纹作为聚类i的聚类中心,up={p1,p2,......,pm},并记录集合p中所有数据块指纹的出现次数k,删除集合p中的重复数据块,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给数据块的出现次数k加1。
依次对c个指纹集合进行处理,得到c个独立的聚类中心。
步骤3、根据步骤1中得到的文件类型和步骤2中得到的聚类中心。其特征所描述的计算待存储文件与各个聚类中心的隶属度的过程还应包含以下步骤:
1)设存储空间有待存储文件s,对文件s进行分块,计算各数据块的指纹,得到文件s的所有数据块的指纹集合,Sp={sp1,sp2,......,spn}。
2)为了简便计算,本发明对文件指纹集合采取抽样处理,在得到的文件s指纹集合Sp中,随机地选取t个数据块指纹,组成样本集合vp={sp1,sp2,......,spt}。
3)选择与文件s具有相同类型的聚类,计算文件s与各个聚类中心的相似度,例如,聚类中心i和文
件s的样本相似度为:
但是使用抽样的样本集合计算的相似度代表整个文件的相似度并不准确。
假设文件与聚类中心的冗余块有b个,抽到冗余块的概率为q,样本抽样的数量t是那么抽到冗余块的概率符合离散型随机变量的分布规律,可得抽到冗余块的期望为E:
抽样样本的相似度r为:
则文件s与聚类i的重复率有Ri:
其中ri表示文件s的样本与聚类中心i的相似度。
4)计算文件s与各个聚类的隶属度,例如文件s与聚类i的隶属度为:
步骤4、根据得到的隶属度,文件与某个聚类的隶属度越接近1,则说明文件s属于该聚类的程度越高,并且文件s与该聚类的重复数据块越多。按照隶属度的高低,依次比对文件与各个聚类中的所有指纹数据,删除重复数据块,并更新聚类中心,只留下索引信息和非重复数据块。其特征所描述的聚类的选择以及聚类中心更新的方法还应该包括以下步骤:
1)设定一个隶属度阈值δ,0<δ<1。对于隶属度小于阈值δ的聚类,文件将不再进行数据指纹的比对,若待存储的文件对所有聚类的隶属度都小于δ,则保存该文件,再随机地选取m个指纹,将其作为新的聚类中心。
2)按待存储文件s与各个聚类中心的隶属度A(s)值由高到低,依次与各个聚类中心中的所有指纹数据进行比对,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给该数据块的出现次数k加1。
3)查找完所有符合条件的聚类以后,将文件中剩余的非重复数据块指纹存入隶属度最高的聚类中。
4)在存储了文件以后,对各个进行了重复数据块删除的聚类,按k值由大到小,依次选取m个数据块指纹作为新的聚类中心。当聚类中具有相同k值的数据块指纹超过m个时,则随机选取m个数据块指纹,将其作为新的聚类中心。
Claims (4)
1.一种云存储系统中基于模糊聚类的重复数据删除方法,所述方法至少包含以下几个步骤:
步骤一、对来自客户端待存储的文件,确定其文件类型;
步骤二、构建初始聚类中心;
步骤三、计算待存储文件的指纹集合与各聚类中心的隶属度;
步骤四、根据步骤三中计算的隶属度的高低,选择合适的聚类,通过数据块的指纹比对来删除指纹相同的重复数据,并更新聚类中心。
2.根据权利要求1中所述的一种云存储系统中基于模糊聚类的重复数据删除方法,其特征在于,所述步骤二中构建初始聚类中心的过程,至少还包括以下步骤:
设云存储系统中的文件可按文件类型划分为c类,对于每类文件都随机地选取至少f个文件,然后对选取的文件进行分块并计算出每个数据块的指纹,得到c个指纹集合;
例如,对于文件类型为i的文件类可以得到它的指纹集合为p={p1,p2,......,pl},然后随机地选取集合p中m(1<m<l)个数据块指纹作为聚类i的聚类中心,并记录集合p中所有数据块指纹的出现次数k,删除指纹集合p中指纹相同的数据块,只留下重复数据块的索引信息和非重复数据块,在每删除一个重复数据块的同时,给该数据块的出现次数k加1;
依次对c个指纹集合进行处理,得到c个独立的聚类中心。
3.根据权利要求1中所述的一种云存储系统中基于模糊聚类的重复数据删除方法,其特征在于,所述步骤三中计算待存储文件与各个聚类中心的隶属度的过程,至少还包括如下步骤:
设存储空间有待存储文件s,对文件s进行分块,计算各数据块的指纹,得到文件s的指纹集合Sp;
选择与文件s具有相同类型的聚类,计算待存储文件的指纹集合与各聚类中心的隶属度,例如文件s与聚类中心i的隶属度的计算公式为:
在计算隶属度的过程中,为了减少计算量,本发明对文件s采取抽样处理,即在文件s的指纹集合中随机抽取t个指纹作为样本;其中ri是待存储文件s的样本与第i个聚类中心的相似度,b为冗余块数,t为抽取的数据块指纹数,m为聚类中心中的指纹数。
4.根据权利要求1中所述的一种云存储系统中基于模糊聚类的重复数据删除方法,其特征在于,所述步骤四中根据隶属度选择适合的聚类,通过数据块指纹比对来达到重复数据删除的目的,并更新聚类中心的过程,至少还包括以下步骤:
第一步:设定一个阈值,按待存储文件与各个聚类中心的隶属度值由高到低,依次与各个聚类中所有指纹数据进行比对,只留下重复数据块的索引信息和非重复的数据块,在每删除一个重复数据块的同时,给该数据块的出现次数k加1;
第二步:若文件s对所有聚类中心的隶属度都低于阈值则保存文件的所有数据块,再随机地选择该文件指纹集合中的m个数据块指纹作为新的聚类中心;
第三步:对于隶属度低于阈值的聚类,文件将不再进行去重处理,并将文件中未删除的剩余数据块存入隶属度最高的聚类中;
第四步,在删除重复数据块以后,对各个进行了重复数据块删除的聚类,按k值由大到小,依次选取m个数据块指纹作为新的聚类中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587507.XA CN108804661B (zh) | 2018-06-06 | 2018-06-06 | 一种云存储系统中基于模糊聚类的重复数据删除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810587507.XA CN108804661B (zh) | 2018-06-06 | 2018-06-06 | 一种云存储系统中基于模糊聚类的重复数据删除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804661A true CN108804661A (zh) | 2018-11-13 |
CN108804661B CN108804661B (zh) | 2023-04-28 |
Family
ID=64087907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810587507.XA Active CN108804661B (zh) | 2018-06-06 | 2018-06-06 | 一种云存储系统中基于模糊聚类的重复数据删除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804661B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110908972A (zh) * | 2019-11-19 | 2020-03-24 | 加和(北京)信息科技有限公司 | 一种日志数据预处理方法、装置、电子设备和存储介质 |
CN111478938A (zh) * | 2020-02-29 | 2020-07-31 | 新华三信息安全技术有限公司 | 一种数据冗余消除方法及装置 |
CN112329717A (zh) * | 2020-11-25 | 2021-02-05 | 中国人民解放军国防科技大学 | 一种面向海量数据相似度检测的指纹高速缓存方法 |
CN112435512A (zh) * | 2020-11-12 | 2021-03-02 | 郑州大学 | 一种轨道交通运输仿真培训的语音行为考核评价方法 |
CN117435135A (zh) * | 2023-10-27 | 2024-01-23 | 广州鼎甲计算机科技有限公司 | 关于重复数据删除的存储空间回收的方法、装置和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110072006A1 (en) * | 2009-09-18 | 2011-03-24 | Microsoft Corporation | Management of data and computation in data centers |
CN103544275A (zh) * | 2013-10-22 | 2014-01-29 | 华为技术有限公司 | 一种处理数据的方法及装置 |
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
US20150142809A1 (en) * | 2011-07-11 | 2015-05-21 | Aol Inc. | Systems and methods for providing a content item database and identifying content items |
US20160321140A1 (en) * | 2015-05-01 | 2016-11-03 | Ashish Govind Khurange | Methods and systems of a dedupe storage network for image management |
CN107169522A (zh) * | 2017-05-26 | 2017-09-15 | 同济大学 | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 |
CN107633444A (zh) * | 2017-08-29 | 2018-01-26 | 南京理工大学紫金学院 | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 |
-
2018
- 2018-06-06 CN CN201810587507.XA patent/CN108804661B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110072006A1 (en) * | 2009-09-18 | 2011-03-24 | Microsoft Corporation | Management of data and computation in data centers |
US20150142809A1 (en) * | 2011-07-11 | 2015-05-21 | Aol Inc. | Systems and methods for providing a content item database and identifying content items |
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
CN103544275A (zh) * | 2013-10-22 | 2014-01-29 | 华为技术有限公司 | 一种处理数据的方法及装置 |
US20160321140A1 (en) * | 2015-05-01 | 2016-11-03 | Ashish Govind Khurange | Methods and systems of a dedupe storage network for image management |
CN107169522A (zh) * | 2017-05-26 | 2017-09-15 | 同济大学 | 一种基于粗糙集和粒子群算法的改进模糊c‑均值聚类算法 |
CN107633444A (zh) * | 2017-08-29 | 2018-01-26 | 南京理工大学紫金学院 | 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法 |
Non-Patent Citations (1)
Title |
---|
王青松等: "相似聚类的二级索引重复数据删除算法", 《小型微型计算机系统》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110908972A (zh) * | 2019-11-19 | 2020-03-24 | 加和(北京)信息科技有限公司 | 一种日志数据预处理方法、装置、电子设备和存储介质 |
CN111478938A (zh) * | 2020-02-29 | 2020-07-31 | 新华三信息安全技术有限公司 | 一种数据冗余消除方法及装置 |
CN111478938B (zh) * | 2020-02-29 | 2022-02-22 | 新华三信息安全技术有限公司 | 一种数据冗余消除方法及装置 |
CN112435512A (zh) * | 2020-11-12 | 2021-03-02 | 郑州大学 | 一种轨道交通运输仿真培训的语音行为考核评价方法 |
CN112329717A (zh) * | 2020-11-25 | 2021-02-05 | 中国人民解放军国防科技大学 | 一种面向海量数据相似度检测的指纹高速缓存方法 |
CN117435135A (zh) * | 2023-10-27 | 2024-01-23 | 广州鼎甲计算机科技有限公司 | 关于重复数据删除的存储空间回收的方法、装置和系统 |
CN117435135B (zh) * | 2023-10-27 | 2024-04-02 | 广州鼎甲计算机科技有限公司 | 关于重复数据删除的存储空间回收的方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108804661B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804661A (zh) | 一种云存储系统中基于模糊聚类的重复数据删除方法 | |
CN106611035A (zh) | 一种云存储中重复数据删除的检索算法 | |
US8271456B2 (en) | Efficient backup data retrieval | |
CN106557777B (zh) | 一种基于SimHash改进的Kmeans文档聚类方法 | |
CN102323958A (zh) | 重复数据删除方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN109918448A (zh) | 一种基于用户行为的云存储数据分级方法 | |
CN101963982A (zh) | 基于位置敏感哈希的删冗存储系统元数据管理方法 | |
CN110569245A (zh) | 重复数据删除系统中基于强化学习的指纹索引预取方法 | |
CN105117502A (zh) | 一种基于大数据的检索方法 | |
US20090248725A1 (en) | Compressability estimation of non-unique indexes in a database management system | |
CN109271545B (zh) | 一种特征检索方法及装置、存储介质和计算机设备 | |
CN106407224A (zh) | 一种键值存储系统中文件压实的方法和装置 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 | |
CN108038188A (zh) | 一种文件处理方法及装置 | |
CN114281989B (zh) | 基于文本相似度的数据去重方法、装置及存储介质和服务器 | |
CN110019017B (zh) | 一种基于访问特征的高能物理文件存储方法 | |
CN111026337A (zh) | 一种基于机器学习和ceph思想的分布式储存方法 | |
CN116821053B (zh) | 数据上报方法、装置、计算机设备和存储介质 | |
US11789639B1 (en) | Method and apparatus for screening TB-scale incremental data | |
CN105302669B (zh) | 一种云备份过程中数据去重的方法和系统 | |
CN106599326B (zh) | 一种云化架构下的记录数据剔重处理方法及系统 | |
CN108427759A (zh) | 用于海量数据处理的实时数据计算方法 | |
CN112988684A (zh) | 一种基于哈希算法电子公文数据的提取和去重方法及系统 | |
CN112632020B (zh) | 基于spark大数据平台的日志信息类型提取方法、挖掘方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |