CN201804331U - 一种基于协处理器的重复数据删除系统 - Google Patents
一种基于协处理器的重复数据删除系统 Download PDFInfo
- Publication number
- CN201804331U CN201804331U CN2010205370835U CN201020537083U CN201804331U CN 201804331 U CN201804331 U CN 201804331U CN 2010205370835 U CN2010205370835 U CN 2010205370835U CN 201020537083 U CN201020537083 U CN 201020537083U CN 201804331 U CN201804331 U CN 201804331U
- Authority
- CN
- China
- Prior art keywords
- module
- data
- cpu
- processor
- dram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Abstract
本实用新型涉及一种基于协处理器的重复数据删除系统,属于重复数据删除领域。本实用新型包括:CPU、协处理器模块、DRAM、存储设备;协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。本实用新型结构简单,采用廉价的协处理模块代替CPU进行大量重复性复杂计算,有效的提高了CPU的计算速度,从而满足系统需求。
Description
技术领域
本实用新型涉及一种基于协处理器的重复数据删除系统,属于重复数据删除领域。
背景技术
随着信息技术的发展,数据已经成为各行业的基础和命脉,数据备份日益重要。在全量备份、增量备份和连续数据保护(CDP)等的数据备份过程中,产生的数据信息量呈爆炸式增长,数据占用空间越来越大。在过去的几年里,许多行业提供的存储系统容量从数十GB发展到数百TB,甚至达到PB级。随着数据量指数级的增长,管理保存数据的成本以及数据中心空间和能耗变得越来越严重。研究发现,在所保存的数据中,冗余部分高达60%,而且随着时间的推移,其所占比例越来越多。为了缓解存储系统的空间增长问题,缩减数据占用空间,降低成本,最大程度地利用已有资源,重复数据删除技术已成为一个热门的研究课题。一方面,利用重复数据删除技术可以对存储空间的利用率进行优化,以消除分布在存储系统中的相同文件或者数据块。另一方面,利用重复数据删除技术可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽。
由于CPU运行和I/O操作之间存在巨大的速度差异,为了追求更好的性能,传统的重复数据删除系统将精力放在如何减少磁盘访问上。但是,随着新的存储介质的出现,如SSD,这将不再成为瓶颈。另外,随着网络技术的发展,数据传输带宽显著增加,CPU不得不在重复数据删除过程当中更多地进行像SHA-1和数据压缩这样的计算。这可能使CPU成为新的瓶颈。如果CPU用于太多的高复杂性的计算任务,也会影响到IO调度。对于这样的趋势,一般的解决办法有两个:通过增加计算节点来协同分担计算压力和用专门的计算芯片来释放CPU的计算压力。利用更多的计算单元能明显的提高CPU性能并且拥有很好的可扩展性。但是,如何保证各个计算单元的数据一致性成为一个难题。利用专门的计算芯片不会存在数据一致性问题,但是过高的成本和较长的开发周期让这种做法变得让人难以接受。
协处理器是一种与CPU协同工作、辅助其完成特定计算任务的专用处理芯片或器件。协处理器作为一个处理单元,与CPU一起并行使用并承担通常由CPU执行的运算任务。协处理器往往会拥有很好的特定计算性能。例如浮点运算协处理器,它在执行时可以大幅度地加快浮点数值计算速度,把CPU的计算任务放到性能优越的协处理器上,CPU主要负责IO处理以及程序调度工作,可以很好的解决目前的CPU瓶颈。而且协处理器价格更低、节省能耗并且计算性能更好。
本发明利用一种的协处理器,在重复数据删除系统中来减少CPU的计算压力,提供重复数据删除系统的工作效率,使系统具有更好的计算性能,更低的能耗,以及更低廉的价格。
发明内容
本实用新型的目的是为了解决传统重复数据删除系统的CPU用于太多的高复杂性的计算任务,会影响到IO调度等问题,而提供一种基于协处理器的重复数据删除系统。
本实用新型的目的是通过以下技术方案实现的;
本实用新型的一种基于协处理器的重复数据删除系统,包括:CPU、协处理器模块、动态随机存储器(DRAM)、存储设备;
协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
命令处理模块:主要用于缓存和解释由CPU发来的命令。
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块。
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定该数据是否为重复数据。
信息反馈模块:将查询模块的查找结果返回给CPU。
所述存储设备包括数据存储区和Hash库;Hash库内存储数据块的特征值表。
协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。
本实用新型的工作原理如下:
在进行重复数据删除时,首先CPU向协处理器模块的命令处理模块发出重复数据判定命令,命令处理模块将由CPU发来的命令翻译为协处理器指令并传给特征值计算模块;特征值计算模块根据指令,通过DRAM读入存储设备的数据存储区上的数据,然后对该数据进行特征值(Hash值)计算;特征值计算模块将计算结果传输给查找模块,查找模块根据相应算法将计算结果通过DRAM在存储设备的Hash库(特征值表)中进行查找,根据查找结果判断数据是否为重复数据;查找模块将判断结果传输给信息反馈模块;信息反馈模块再向CPU反馈判断结果。CPU根据判断结果做如下操作:如果是重复数据,则CPU通过DRAM在数据存储区中建立指针并删除该数据;如果不是重复数据,则保留该数据。
有益效果
由于采用协处理器模块代替CPU进行大量重复性复杂计算,使得CPU的性能大幅提高,由于协处理器模块相当于廉价,使得原有系统在因为CPU的性能无法满足系统需求而使系统效率大幅降低时,可以通过极低的价格提升系统性能,节约成本。
附图说明
图1为本实用新型的重复数据删除系统结构示意图;
图2为本实用新型中协处理器模块内部功能模块结构图。
具体实施方式
以下结合附图实施例对本实用新型作进一步详细描述。
实施例
如图1所示,一种基于协处理器的重复数据删除系统,包括:协处理器模块、DRAM、本地存储设备和网络存储设备;
协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
命令处理模块:主要用于缓存和解释由CPU发来的命令。
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块。
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定给数据是否为重复数据。
信息反馈模块:将查询模块的查找结果返回给CPU。
所述本地存储设备和网络存储设备各包括一个数据存储区和一个Hash库。
Hash库内存储相应数据存储区内数据块的特征值表。
如图2所示,协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM并联一个本地存储设备和一个网络存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。
本实用新型的工作原理如下:
对本地存储设备进行重复数据删除时,首先CPU向协处理器模块的命令处理模块发出重复数据判定命令,命令处理模块将由CPU发来的命令翻译为协处理器指令并传给特征值计算模块;特征值计算模块根据指令,通过DRAM读入存储设备的数据存储区上的数据,然后对该数据进行特征值(Hash值)计算;特征值计算模块将计算结果传输给查找模块,查找模块根据相应算法将计算结果通过DRAM在存储设备的Hash库(特征值表)中进行查找,根据查找结果判断数据是否为重复数据;查找模块将判断结果传输给信息反馈模块;信息反馈模块再向CPU反馈判断结果。CPU根据判断结果做如下操作:如果是重复数据,则CPU通过DRAM在数据存储区中建立指针并删除该数据;如果不是重复数据,则保留该数据。
网络存储设备与本地存储设备的重复数据删除过程相同。
Claims (1)
1.一种基于协处理器的重复数据删除系统,其特征在于包括:CPU、协处理器模块、DRAM、存储设备;
所述存储设备包括数据存储区和Hash库;协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接;
命令处理模块:主要用于缓存和解释由CPU发来的命令;
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块;
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定该数据是否为重复数据;
信息反馈模块:将查询模块的查找结果返回给CPU;
Hash库内存储数据块的特征值表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010205370835U CN201804331U (zh) | 2010-09-21 | 2010-09-21 | 一种基于协处理器的重复数据删除系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010205370835U CN201804331U (zh) | 2010-09-21 | 2010-09-21 | 一种基于协处理器的重复数据删除系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN201804331U true CN201804331U (zh) | 2011-04-20 |
Family
ID=43873833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010205370835U Expired - Lifetime CN201804331U (zh) | 2010-09-21 | 2010-09-21 | 一种基于协处理器的重复数据删除系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN201804331U (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298633A (zh) * | 2011-09-08 | 2011-12-28 | 厦门市美亚柏科信息股份有限公司 | 一种分布式海量数据排重方法及系统 |
WO2013149501A1 (en) * | 2012-04-05 | 2013-10-10 | International Business Machines Corporation | Increased in-line deduplication efficiency |
CN103547329A (zh) * | 2012-12-12 | 2014-01-29 | 华为技术有限公司 | 集群系统中数据处理方法及装置 |
CN104571946A (zh) * | 2014-11-28 | 2015-04-29 | 中国科学院上海微系统与信息技术研究所 | 一种支持逻辑电路快速查询的存储器装置及其访问方法 |
CN104662538A (zh) * | 2012-10-02 | 2015-05-27 | 甲骨文国际公司 | 半连接加速 |
-
2010
- 2010-09-21 CN CN2010205370835U patent/CN201804331U/zh not_active Expired - Lifetime
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298633A (zh) * | 2011-09-08 | 2011-12-28 | 厦门市美亚柏科信息股份有限公司 | 一种分布式海量数据排重方法及系统 |
GB2513514A (en) * | 2012-04-05 | 2014-10-29 | Ibm | Increased in-line deduplication efficiency |
WO2013149501A1 (en) * | 2012-04-05 | 2013-10-10 | International Business Machines Corporation | Increased in-line deduplication efficiency |
US8682869B2 (en) | 2012-04-05 | 2014-03-25 | International Business Machines Corporation | Increased in-line deduplication efficiency |
CN104205066A (zh) * | 2012-04-05 | 2014-12-10 | 国际商业机器公司 | 增加的联机去重复效率 |
CN104662538A (zh) * | 2012-10-02 | 2015-05-27 | 甲骨文国际公司 | 半连接加速 |
CN104662538B (zh) * | 2012-10-02 | 2018-05-18 | 甲骨文国际公司 | 半连接加速 |
US8892529B2 (en) | 2012-12-12 | 2014-11-18 | Huawei Technologies Co., Ltd. | Data processing method and apparatus in cluster system |
WO2014089767A1 (zh) * | 2012-12-12 | 2014-06-19 | 华为技术有限公司 | 集群系统中数据处理方法及装置 |
CN103547329A (zh) * | 2012-12-12 | 2014-01-29 | 华为技术有限公司 | 集群系统中数据处理方法及装置 |
CN103547329B (zh) * | 2012-12-12 | 2016-11-02 | 华为技术有限公司 | 集群系统中数据处理方法及装置 |
CN104571946A (zh) * | 2014-11-28 | 2015-04-29 | 中国科学院上海微系统与信息技术研究所 | 一种支持逻辑电路快速查询的存储器装置及其访问方法 |
CN104571946B (zh) * | 2014-11-28 | 2017-06-27 | 中国科学院上海微系统与信息技术研究所 | 一种支持逻辑电路快速查询的存储器装置及其访问方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103116661B (zh) | 一种数据库的数据处理方法 | |
CN201804331U (zh) | 一种基于协处理器的重复数据删除系统 | |
CN102385554B (zh) | 重复数据删除系统的优化方法 | |
CN104023088A (zh) | 一种应用于分布式文件系统的存储服务器选择方法 | |
CN104572106A (zh) | 一种基于小内存处理大规模数据的并行程序开发方法 | |
CN102662639A (zh) | 一种基于Mapreduce的多GPU协同计算方法 | |
CN100383792C (zh) | 缓存数据库数据组织方法 | |
CN103207920A (zh) | 一种元数据并行采集系统 | |
CN103916459A (zh) | 一种大数据归档存储系统 | |
CN104317770A (zh) | 用于众核处理系统的数据存储结构及数据访问方法 | |
CN104580503A (zh) | 一种高效动态负载均衡的处理大规模数据的系统及方法 | |
CN104125293B (zh) | 一种云服务器及其使用方法 | |
CN101499017B (zh) | 实现项目实时跟踪的方法 | |
CN207764844U (zh) | 一种数据处理系统 | |
CN106407226A (zh) | 一种数据处理方法、备份服务器及存储系统 | |
Al-kahtani et al. | An efficient distributed algorithm for big data processing | |
CN101079897B (zh) | 一种便于存储节点数量扩增的并行存储系统构造方法 | |
CN104299170B (zh) | 间歇性能源海量数据处理方法 | |
CN105930101A (zh) | 一种基于闪存固态盘的弱指纹重复数据删除机制 | |
CN108984298A (zh) | 一种云计算平台的资源调度方法和系统 | |
CN104461941A (zh) | 一种内存系统架构及管理方法 | |
CN108491167B (zh) | 一种工业过程工况数据快速随机分布存储方法 | |
Liu et al. | The application of Internet of things and Oracle database in the research of intelligent data management system | |
CN102722756A (zh) | 基于分布数据仓库便携式电力信息管理系统 | |
CN103491158A (zh) | 一种就近计算的云计算架构 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20110420 |
|
CX01 | Expiry of patent term |