CN104407982B - 一种ssd盘片垃圾回收方法 - Google Patents

一种ssd盘片垃圾回收方法 Download PDF

Info

Publication number
CN104407982B
CN104407982B CN201410660188.2A CN201410660188A CN104407982B CN 104407982 B CN104407982 B CN 104407982B CN 201410660188 A CN201410660188 A CN 201410660188A CN 104407982 B CN104407982 B CN 104407982B
Authority
CN
China
Prior art keywords
data
ssd
discs
similarity
sample database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410660188.2A
Other languages
English (en)
Other versions
CN104407982A (zh
Inventor
吕辉
姜黎
马翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Goke Microelectronics Co Ltd
Original Assignee
Hunan Goke Microelectronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Goke Microelectronics Co Ltd filed Critical Hunan Goke Microelectronics Co Ltd
Priority to CN201410660188.2A priority Critical patent/CN104407982B/zh
Publication of CN104407982A publication Critical patent/CN104407982A/zh
Application granted granted Critical
Publication of CN104407982B publication Critical patent/CN104407982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种SSD盘片垃圾回收方法,把重复数据采样统计放在主机侧,改进盘片内部的巡检模块,利用主机的数据重复率统计及盘片内部定时巡检机制来对比得到盘片的重复数据,从而达到删除重复数据的目的,提供更多冗余空间,提高了磨损均衡及垃圾回收的效率。

Description

一种SSD盘片垃圾回收方法
技术领域
本发明涉及一种SSD盘片垃圾回收方法。
背景技术
现有技术中,SSD盘片内部定时触发巡检模块,在巡检已有数据区域过程中,根据数据块的擦写次数及有效数据的多少,来决定对相应的数据块进行搬移,从而达到静态磨损均衡。现有的动态磨损均衡方法也只会在接收IO过程中,根据数据块的擦写次数等参数处理正在变化的和未使用的数据区域,而不会去处理已有数据的区域。由于SSD硬盘空间固定,随着盘片空间消耗,空白块越来越少,可用于磨损均衡及垃圾回收的空间越来越少,因此磨损均衡及垃圾回收的效率会越来越低,最终影响SSD盘片的使用寿命。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种SSD盘片垃圾回收方法,提高SSD盘片的磨损均衡效率及垃圾回收效率,从而提高SSD盘片的空间利用率,延长SSD盘片的使用寿命。
为解决上述技术问题,本发明所采用的技术方案是:一种SSD盘片垃圾回收方法,包括以下步骤:
1)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据(该海明距离误判率比较低,海明距离越小,数据相似度越高),并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,考虑数据库容量及数据对比效率,其中100<N<5000,N随盘片容量递增而递增;
2)再一次从主机内存获取一段数据,按照上述方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数,删除相似度计数与初始样本数据库中相似度计数相等的余下的待入库数据中的数据,得到准入库数据,按照相似度计数从大到小的顺序将准入库数据保存到所述初始样本数据库中;
3)重复上述步骤2),直到所述初始样本数据库大小为:样本数据个数*(128K~1M),其中,样本数据个数=盘片容量/(512M~1M),即得到样本数据库;
4)当SSD盘片温度高于T时,遍历SSD盘片的数据块,将SSD盘片的数据块与上述样本数据库中的样本数据进行对比,若SSD盘片的数据块与所述样本数据库中的样本数据有重复,则标记主机逻辑地址映射到SSD盘片的物理地址的地址映射表,修改所述地址映射表地址为第一个重复数据块的地址;
5)遍历地址映射表,擦除没有映射的数据块,并将地址映射表回收到SSD盘片的空白块链表内。
与现有技术相比,本发明所具有的有益效果为:本发明把重复数据采样统计放在主机侧,利用主机的数据重复率统计及盘片内部定时巡检机制来对比得到盘片的重复数据,从而达到删除重复数据的目的,提供更多冗余空间,提高了SSD盘片磨损均衡及垃圾回收的效率,能有效提高SSD盘片的空间利用率和延长SSD盘片的使用寿命。
附图说明
图1为现有的SSD盘片垃圾回收系统结构框图;
图2为本发明一实施例SSD盘片垃圾回收系统结构框图。
具体实施方式
如图2所示,本发明主机下发数据经过数据缓存区时,根据固定大小的数据块对缓存数据进行抽样统计,并按重复率进行排序,把重复率较高的数据块保存到文件或数据库中。通过下发命令查询盘片巡检时间点,在盘片巡检时间点下发样本数据给盘片,启动巡检,具体实现机制如下:
主机数据采样统计实现:利用SimHash算法计算数据样本特征值并入库保存,数据样本特征值计算方法具体实现如下:
数据样本特征值计算方法:通过随机从内存获取一段数据,然后利用SimHash算法对缓存中所有数据计算签名,遍历所有签名,依次计算两个签名的海明距离(即两个签名二进制异或后1的个数),对于海明距离在3以内的签名,将其作为高相似度数据并统计每个签名的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,考虑数据库容量及数据对比效率,其中100<N<5000,N随盘片容量递增而递增;从而建立初始样本数据库。
SimHash算法描述如下:
参考文献:
Moses S. Charikar 《Similarity estimation techniques from roundingalgorithms》.
arist gionis, pioter indyk, rajeev motwani 《Similarity Search in HighDimensions via Hashing》
输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。
1)初始化一个C维向量Q为0,C位的二进制签名S为0。
2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对1<=i<=C,
如果H的第i位为1,则Q的第i个元素加上该特征的权重;
否则,Q的第i个元素减去该特征的权重。
3)如果Q的第i个元素大于0,则S的第i位为1;否则为0;
4)返回签名S。
盘片内部实现巡检机制:依据盘片温度高低触发定时器定期遍历盘片的数据块,把所有数据块搬移到新的地址,在搬移之前先与下发的样本数据进行对比,如果有重复,则标记地址映射表,修改映射表项地址为第一重复数据块的地址。在下次垃圾回收启动后,就可直接回收重复的数据块。有效防止数据翻转等异常。由于flash 颗粒本身可靠性在超过正常工作范围后随温度升高而下降,因此温度升高后巡检频率也随之增加, 该机制中触发巡检的温度参考范围(依据颗粒特性会略有调整)在:30~70摄氏度,此温度值会影响本方法的 启动频率 。
垃圾回收实现:通过遍历地址映射模块中的映射表,对于没有映射的数据块进行擦除并回收到空白块链表。该链表是提供给数据写操作分配空间使用的。
地址映射表是主机逻辑地址映射到盘片的物理地址的表项。
本发明由于把数据采样统计放在了主机侧,进抽样保存少量数据,充分利用了主机资源,同时又不影响主机业务正常执行。而SSD盘片侧的充分利用现有巡检机制处理数据重删,也不影响SSD盘片的业务处理。由于提供了更多冗余空间,保障了磨损均衡及垃圾回收的效率。而传统在主机侧或SSD盘片侧做数据重删,均存在影响正常业务执行或者新增专用处理器处理重删等成本的弊端。因此对比而言本方法均没有这些弊端,优势明显。

Claims (1)

1.一种SSD盘片垃圾回收方法,其特征在于,包括以下步骤:
1)随机从主机内存获取一段数据,计算所获取的数据的签名,遍历所有签名,依次计算两个签名的海明距离,将海明距离在3以内的签名作为高相似度数据,并统计每个高相似度数据的相似度计数,将相似度计数最高的前N个签名对应的数据保存到初始样本数据库中,其中100<N<5000;
2)再一次从主机内存获取一段数据,按照步骤1)方法抽取该段数据中前N个签名对应的数据,即待入库数据,将待入库数据与上述初始样本数据库中的数据进行对比,删除待入库数据中与所述初始样本数据库中数据相同的数据,比较余下的待入库数据的相似度计数与所述初始样本数据库中数据的相似度计数,删除相似度计数与初始样本数据库中相似度计数相等的余下的待入库数据中的数据,得到准入库数据,按照相似度计数从大到小的顺序将准入库数据保存到所述初始样本数据库中;
3)重复上述步骤2),直到所述初始样本数据库大小为:样本数据个数*(128K~1M),其中,样本数据个数=盘片容量/(512M~1M),即得到样本数据库;
4)当SSD盘片温度高于T时,遍历SSD盘片的数据,将SSD盘片的数据与上述样本数据库中的样本数据进行对比,若SSD盘片的数据块与所述样本数据库中的样本数据有重复,则标记主机逻辑地址映射到SSD盘片的物理地址的地址映射表,修改所述地址映射表地址为第一个重复数据块的地址;
5)遍历地址映射表,擦除没有映射的数据块,并将地址映射表回收到SSD盘片的空白块链表内。
CN201410660188.2A 2014-11-19 2014-11-19 一种ssd盘片垃圾回收方法 Active CN104407982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410660188.2A CN104407982B (zh) 2014-11-19 2014-11-19 一种ssd盘片垃圾回收方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410660188.2A CN104407982B (zh) 2014-11-19 2014-11-19 一种ssd盘片垃圾回收方法

Publications (2)

Publication Number Publication Date
CN104407982A CN104407982A (zh) 2015-03-11
CN104407982B true CN104407982B (zh) 2018-09-21

Family

ID=52645615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410660188.2A Active CN104407982B (zh) 2014-11-19 2014-11-19 一种ssd盘片垃圾回收方法

Country Status (1)

Country Link
CN (1) CN104407982B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9665287B2 (en) 2015-09-18 2017-05-30 Alibaba Group Holding Limited Data deduplication using a solid state drive controller
KR102630116B1 (ko) * 2016-10-18 2024-01-29 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
CN109388332A (zh) * 2017-08-04 2019-02-26 群联电子股份有限公司 数据存储方法、存储器控制电路单元及存储器存储装置
CN108132891A (zh) * 2017-12-29 2018-06-08 北京联想核芯科技有限公司 一种ssd硬盘的数据处理方法和装置
CN108304145A (zh) * 2018-01-30 2018-07-20 国科美国研究实验室 数据贮存装置的垃圾回收方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150258A (zh) * 2013-03-20 2013-06-12 中国科学院苏州纳米技术与纳米仿生研究所 一种固态存储系统的写入、读取及垃圾收集方法
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统
CN103870514A (zh) * 2012-12-18 2014-06-18 华为技术有限公司 重复数据删除方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251059B2 (en) * 2011-09-23 2016-02-02 Avalanche Technology, Inc. Storage system employing MRAM and redundant array of solid state disk
CN102646069B (zh) * 2012-02-23 2014-12-10 华中科技大学 一种延长固态盘使用寿命的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870514A (zh) * 2012-12-18 2014-06-18 华为技术有限公司 重复数据删除方法和装置
CN103150258A (zh) * 2013-03-20 2013-06-12 中国科学院苏州纳米技术与纳米仿生研究所 一种固态存储系统的写入、读取及垃圾收集方法
CN103646080A (zh) * 2013-12-12 2014-03-19 北京京东尚科信息技术有限公司 基于倒序索引的微博去重方法和系统

Also Published As

Publication number Publication date
CN104407982A (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN104407982B (zh) 一种ssd盘片垃圾回收方法
US9053386B2 (en) Method and apparatus of identifying similar images
US9009149B2 (en) Systems and methods for mobile search using Bag of Hash Bits and boundary reranking
US9940060B1 (en) Memory use and eviction in a deduplication storage system
WO2013152678A1 (zh) 元数据查询方法和装置
CN113836084A (zh) 一种数据存储方法、装置和系统
US20200117642A1 (en) Determining optimal data size for data deduplication operation
CN101916171A (zh) 一种并发层次式的重复数据消除方法和系统
US9747051B2 (en) Cluster-wide memory management using similarity-preserving signatures
CN104616680B (zh) 基于光盘存储的重复数据删除系统及数据操作方法、装置
CN110569245A (zh) 重复数据删除系统中基于强化学习的指纹索引预取方法
CN108027713A (zh) 用于固态驱动器控制器的重复数据删除
Park et al. A lookahead read cache: improving read performance for deduplication backup storage
CN103150260A (zh) 重复数据删除方法和装置
CN107515931A (zh) 一种基于聚类的重复数据检测方法
CN104050057B (zh) 一种历史感知的数据去重碎片消除方法与系统
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
US10146740B1 (en) Sparse data set processing
CN110309143A (zh) 数据相似度确定方法、装置及处理设备
CN113746952B (zh) Dga域名检测方法、装置、电子设备及计算机存储介质
CN115878824B (zh) 图像检索系统、方法和装置
Lin et al. Leach: an automatic learning cache for inline primary deduplication system
Kaiser et al. Sorted deduplication: How to process thousands of backup streams
CN114943021B (zh) 一种tb级增量数据筛选方法和装置
CN109408288A (zh) 一种打包文件备份过程中数据去重碎片消除方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 410125 Hunan, Changsha economic and Technological Development Zone, the east side of the south section of the No. ten road, Tong Tong Street, No.

Applicant after: GOKE MICROELECTRONICS CO., LTD.

Address before: 410125 No. 9, East ten, South Road, Changsha economic and Technological Development Zone, Hunan

Applicant before: Hunan Guoke Microelectronics Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20150311

Assignee: Jiangsu Xinsheng Intelligent Technology Co., Ltd.

Assignor: GOKE MICROELECTRONICS CO., LTD.

Contract record no.: 2018430000021

Denomination of invention: SSD (solid state drive) disk garbage recycling method

Granted publication date: 20180921

License type: Common License

Record date: 20181203

EE01 Entry into force of recordation of patent licensing contract