CN201804331U - 一种基于协处理器的重复数据删除系统 - Google Patents

一种基于协处理器的重复数据删除系统 Download PDF

Info

Publication number
CN201804331U
CN201804331U CN2010205370835U CN201020537083U CN201804331U CN 201804331 U CN201804331 U CN 201804331U CN 2010205370835 U CN2010205370835 U CN 2010205370835U CN 201020537083 U CN201020537083 U CN 201020537083U CN 201804331 U CN201804331 U CN 201804331U
Authority
CN
China
Prior art keywords
module
data
cpu
processor
dram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN2010205370835U
Other languages
English (en)
Inventor
刘靖宇
周泽湘
武志民
孙志卓
谭毓安
何广韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING TOYOU FEIJI ELECTRONICS Co Ltd
Original Assignee
BEIJING TOYOU FEIJI ELECTRONICS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TOYOU FEIJI ELECTRONICS Co Ltd filed Critical BEIJING TOYOU FEIJI ELECTRONICS Co Ltd
Priority to CN2010205370835U priority Critical patent/CN201804331U/zh
Application granted granted Critical
Publication of CN201804331U publication Critical patent/CN201804331U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Abstract

本实用新型涉及一种基于协处理器的重复数据删除系统,属于重复数据删除领域。本实用新型包括:CPU、协处理器模块、DRAM、存储设备;协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。本实用新型结构简单,采用廉价的协处理模块代替CPU进行大量重复性复杂计算,有效的提高了CPU的计算速度,从而满足系统需求。

Description

一种基于协处理器的重复数据删除系统
技术领域
本实用新型涉及一种基于协处理器的重复数据删除系统,属于重复数据删除领域。
背景技术
随着信息技术的发展,数据已经成为各行业的基础和命脉,数据备份日益重要。在全量备份、增量备份和连续数据保护(CDP)等的数据备份过程中,产生的数据信息量呈爆炸式增长,数据占用空间越来越大。在过去的几年里,许多行业提供的存储系统容量从数十GB发展到数百TB,甚至达到PB级。随着数据量指数级的增长,管理保存数据的成本以及数据中心空间和能耗变得越来越严重。研究发现,在所保存的数据中,冗余部分高达60%,而且随着时间的推移,其所占比例越来越多。为了缓解存储系统的空间增长问题,缩减数据占用空间,降低成本,最大程度地利用已有资源,重复数据删除技术已成为一个热门的研究课题。一方面,利用重复数据删除技术可以对存储空间的利用率进行优化,以消除分布在存储系统中的相同文件或者数据块。另一方面,利用重复数据删除技术可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽。
由于CPU运行和I/O操作之间存在巨大的速度差异,为了追求更好的性能,传统的重复数据删除系统将精力放在如何减少磁盘访问上。但是,随着新的存储介质的出现,如SSD,这将不再成为瓶颈。另外,随着网络技术的发展,数据传输带宽显著增加,CPU不得不在重复数据删除过程当中更多地进行像SHA-1和数据压缩这样的计算。这可能使CPU成为新的瓶颈。如果CPU用于太多的高复杂性的计算任务,也会影响到IO调度。对于这样的趋势,一般的解决办法有两个:通过增加计算节点来协同分担计算压力和用专门的计算芯片来释放CPU的计算压力。利用更多的计算单元能明显的提高CPU性能并且拥有很好的可扩展性。但是,如何保证各个计算单元的数据一致性成为一个难题。利用专门的计算芯片不会存在数据一致性问题,但是过高的成本和较长的开发周期让这种做法变得让人难以接受。
协处理器是一种与CPU协同工作、辅助其完成特定计算任务的专用处理芯片或器件。协处理器作为一个处理单元,与CPU一起并行使用并承担通常由CPU执行的运算任务。协处理器往往会拥有很好的特定计算性能。例如浮点运算协处理器,它在执行时可以大幅度地加快浮点数值计算速度,把CPU的计算任务放到性能优越的协处理器上,CPU主要负责IO处理以及程序调度工作,可以很好的解决目前的CPU瓶颈。而且协处理器价格更低、节省能耗并且计算性能更好。
本发明利用一种的协处理器,在重复数据删除系统中来减少CPU的计算压力,提供重复数据删除系统的工作效率,使系统具有更好的计算性能,更低的能耗,以及更低廉的价格。
发明内容
本实用新型的目的是为了解决传统重复数据删除系统的CPU用于太多的高复杂性的计算任务,会影响到IO调度等问题,而提供一种基于协处理器的重复数据删除系统。
本实用新型的目的是通过以下技术方案实现的;
本实用新型的一种基于协处理器的重复数据删除系统,包括:CPU、协处理器模块、动态随机存储器(DRAM)、存储设备;
协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
命令处理模块:主要用于缓存和解释由CPU发来的命令。
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块。
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定该数据是否为重复数据。
信息反馈模块:将查询模块的查找结果返回给CPU。
所述存储设备包括数据存储区和Hash库;Hash库内存储数据块的特征值表。
协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。
本实用新型的工作原理如下:
在进行重复数据删除时,首先CPU向协处理器模块的命令处理模块发出重复数据判定命令,命令处理模块将由CPU发来的命令翻译为协处理器指令并传给特征值计算模块;特征值计算模块根据指令,通过DRAM读入存储设备的数据存储区上的数据,然后对该数据进行特征值(Hash值)计算;特征值计算模块将计算结果传输给查找模块,查找模块根据相应算法将计算结果通过DRAM在存储设备的Hash库(特征值表)中进行查找,根据查找结果判断数据是否为重复数据;查找模块将判断结果传输给信息反馈模块;信息反馈模块再向CPU反馈判断结果。CPU根据判断结果做如下操作:如果是重复数据,则CPU通过DRAM在数据存储区中建立指针并删除该数据;如果不是重复数据,则保留该数据。
有益效果
由于采用协处理器模块代替CPU进行大量重复性复杂计算,使得CPU的性能大幅提高,由于协处理器模块相当于廉价,使得原有系统在因为CPU的性能无法满足系统需求而使系统效率大幅降低时,可以通过极低的价格提升系统性能,节约成本。
附图说明
图1为本实用新型的重复数据删除系统结构示意图;
图2为本实用新型中协处理器模块内部功能模块结构图。
具体实施方式
以下结合附图实施例对本实用新型作进一步详细描述。
实施例
如图1所示,一种基于协处理器的重复数据删除系统,包括:协处理器模块、DRAM、本地存储设备和网络存储设备;
协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
命令处理模块:主要用于缓存和解释由CPU发来的命令。
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块。
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定给数据是否为重复数据。
信息反馈模块:将查询模块的查找结果返回给CPU。
所述本地存储设备和网络存储设备各包括一个数据存储区和一个Hash库。
Hash库内存储相应数据存储区内数据块的特征值表。
如图2所示,协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM并联一个本地存储设备和一个网络存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接。
本实用新型的工作原理如下:
对本地存储设备进行重复数据删除时,首先CPU向协处理器模块的命令处理模块发出重复数据判定命令,命令处理模块将由CPU发来的命令翻译为协处理器指令并传给特征值计算模块;特征值计算模块根据指令,通过DRAM读入存储设备的数据存储区上的数据,然后对该数据进行特征值(Hash值)计算;特征值计算模块将计算结果传输给查找模块,查找模块根据相应算法将计算结果通过DRAM在存储设备的Hash库(特征值表)中进行查找,根据查找结果判断数据是否为重复数据;查找模块将判断结果传输给信息反馈模块;信息反馈模块再向CPU反馈判断结果。CPU根据判断结果做如下操作:如果是重复数据,则CPU通过DRAM在数据存储区中建立指针并删除该数据;如果不是重复数据,则保留该数据。
网络存储设备与本地存储设备的重复数据删除过程相同。

Claims (1)

1.一种基于协处理器的重复数据删除系统,其特征在于包括:CPU、协处理器模块、DRAM、存储设备;
所述存储设备包括数据存储区和Hash库;协处理器模块包括命令处理模块、特征值计算模块、查询模块和信息反馈模块;
协处理器模块内部的命令处理模块、特征值计算模块、查询模块和信息反馈模块依次通过数据线连接;CPU通过数据线同时连接协处理器模块的命令处理模块和信息反馈模块,CPU、协处理器模块的命令处理模块和查找模块同时通过数据线连接DRAM;DRAM连接一个或并联多个的存储设备,且DRAM通过数据线同时与每个存储设备的数据存储区和Hash库连接;
命令处理模块:主要用于缓存和解释由CPU发来的命令;
特征值计算模块:计算待处理数据块的特征值,是该处理器的核心模块;
查询模块:根据特征值计算模块的计算结果,在特征值表中查找,确定该数据是否为重复数据;
信息反馈模块:将查询模块的查找结果返回给CPU;
Hash库内存储数据块的特征值表。
CN2010205370835U 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除系统 Expired - Lifetime CN201804331U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010205370835U CN201804331U (zh) 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010205370835U CN201804331U (zh) 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除系统

Publications (1)

Publication Number Publication Date
CN201804331U true CN201804331U (zh) 2011-04-20

Family

ID=43873833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010205370835U Expired - Lifetime CN201804331U (zh) 2010-09-21 2010-09-21 一种基于协处理器的重复数据删除系统

Country Status (1)

Country Link
CN (1) CN201804331U (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298633A (zh) * 2011-09-08 2011-12-28 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及系统
WO2013149501A1 (en) * 2012-04-05 2013-10-10 International Business Machines Corporation Increased in-line deduplication efficiency
CN103547329A (zh) * 2012-12-12 2014-01-29 华为技术有限公司 集群系统中数据处理方法及装置
CN104571946A (zh) * 2014-11-28 2015-04-29 中国科学院上海微系统与信息技术研究所 一种支持逻辑电路快速查询的存储器装置及其访问方法
CN104662538A (zh) * 2012-10-02 2015-05-27 甲骨文国际公司 半连接加速

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298633A (zh) * 2011-09-08 2011-12-28 厦门市美亚柏科信息股份有限公司 一种分布式海量数据排重方法及系统
GB2513514A (en) * 2012-04-05 2014-10-29 Ibm Increased in-line deduplication efficiency
WO2013149501A1 (en) * 2012-04-05 2013-10-10 International Business Machines Corporation Increased in-line deduplication efficiency
US8682869B2 (en) 2012-04-05 2014-03-25 International Business Machines Corporation Increased in-line deduplication efficiency
CN104205066A (zh) * 2012-04-05 2014-12-10 国际商业机器公司 增加的联机去重复效率
CN104662538A (zh) * 2012-10-02 2015-05-27 甲骨文国际公司 半连接加速
CN104662538B (zh) * 2012-10-02 2018-05-18 甲骨文国际公司 半连接加速
US8892529B2 (en) 2012-12-12 2014-11-18 Huawei Technologies Co., Ltd. Data processing method and apparatus in cluster system
WO2014089767A1 (zh) * 2012-12-12 2014-06-19 华为技术有限公司 集群系统中数据处理方法及装置
CN103547329A (zh) * 2012-12-12 2014-01-29 华为技术有限公司 集群系统中数据处理方法及装置
CN103547329B (zh) * 2012-12-12 2016-11-02 华为技术有限公司 集群系统中数据处理方法及装置
CN104571946A (zh) * 2014-11-28 2015-04-29 中国科学院上海微系统与信息技术研究所 一种支持逻辑电路快速查询的存储器装置及其访问方法
CN104571946B (zh) * 2014-11-28 2017-06-27 中国科学院上海微系统与信息技术研究所 一种支持逻辑电路快速查询的存储器装置及其访问方法

Similar Documents

Publication Publication Date Title
CN103116661B (zh) 一种数据库的数据处理方法
CN201804331U (zh) 一种基于协处理器的重复数据删除系统
CN102385554B (zh) 重复数据删除系统的优化方法
CN104023088A (zh) 一种应用于分布式文件系统的存储服务器选择方法
CN104572106A (zh) 一种基于小内存处理大规模数据的并行程序开发方法
CN102662639A (zh) 一种基于Mapreduce的多GPU协同计算方法
CN100383792C (zh) 缓存数据库数据组织方法
CN103207920A (zh) 一种元数据并行采集系统
CN103916459A (zh) 一种大数据归档存储系统
CN104317770A (zh) 用于众核处理系统的数据存储结构及数据访问方法
CN104580503A (zh) 一种高效动态负载均衡的处理大规模数据的系统及方法
CN104125293B (zh) 一种云服务器及其使用方法
CN101499017B (zh) 实现项目实时跟踪的方法
CN207764844U (zh) 一种数据处理系统
CN106407226A (zh) 一种数据处理方法、备份服务器及存储系统
Al-kahtani et al. An efficient distributed algorithm for big data processing
CN101079897B (zh) 一种便于存储节点数量扩增的并行存储系统构造方法
CN104299170B (zh) 间歇性能源海量数据处理方法
CN105930101A (zh) 一种基于闪存固态盘的弱指纹重复数据删除机制
CN108984298A (zh) 一种云计算平台的资源调度方法和系统
CN104461941A (zh) 一种内存系统架构及管理方法
CN108491167B (zh) 一种工业过程工况数据快速随机分布存储方法
Liu et al. The application of Internet of things and Oracle database in the research of intelligent data management system
CN102722756A (zh) 基于分布数据仓库便携式电力信息管理系统
CN103491158A (zh) 一种就近计算的云计算架构

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20110420

CX01 Expiry of patent term