CN102546817A - 集中式数据中心数据冗余消除方法 - Google Patents

集中式数据中心数据冗余消除方法 Download PDF

Info

Publication number
CN102546817A
CN102546817A CN2012100232461A CN201210023246A CN102546817A CN 102546817 A CN102546817 A CN 102546817A CN 2012100232461 A CN2012100232461 A CN 2012100232461A CN 201210023246 A CN201210023246 A CN 201210023246A CN 102546817 A CN102546817 A CN 102546817A
Authority
CN
China
Prior art keywords
data
intermediate node
buffer memory
data center
effectiveness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100232461A
Other languages
English (en)
Other versions
CN102546817B (zh
Inventor
崔勇
廖春鹏
王弘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210023246.1A priority Critical patent/CN102546817B/zh
Publication of CN102546817A publication Critical patent/CN102546817A/zh
Application granted granted Critical
Publication of CN102546817B publication Critical patent/CN102546817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种集中式数据中心数据冗余消除方法,在现有的数据中心网络体系结构的中间节点中增加缓存;中间节点缓存数据中心服务器间发送的数据;数据中心集中模块通过对数据中心传输数据进行统计,估计在不同的时间发送的数据的期望;数据中心集中模块对数据缓存进行调度,使得不同的数据缓存到不同的中间节点,从而最大化缓存的效用;数据中心服务器发送数据时,根据中间节点中的缓存情况对数据进行压缩编码;中间节点对压缩编码进行解码,本发明不仅能够消除相同服务器发送的数据的冗余,同时不同服务器发送的数据之间的冗余也能得到消除,同时始终选择缓存效用最大的中间节点作为缓存数据中间节点,从而达到更高的冗余消除效果。

Description

集中式数据中心数据冗余消除方法
技术领域
本发明属于网络体系结构技术领域,特别涉及一种集中式数据中心数据冗余消除方法。
背景技术
近年来,作为企业的业务系统与数据资源进行集中、集成、共享、分析的场地、工具、流程等的有机组合的数据中心,随着云存储、云计算以及搜索引擎等新技术的兴起而迅速发展。由于数据中心强大的计算能力和可靠性等特征,越来越多的企业将自己的网络服务转移到数据中心。同时,随着个人应用需求的增加,数据中心也为个人提供各种计算和存储等网络服务。一方面为了满足日益增长的服务需求,数据中心的规模变得越来越大;另一方面,随着数据中心服务器间传输的数据量的迅速增加,数据中心中的带宽变得越来越稀缺。
传统的数据中心体系结构存在不足之处。其中一个问题就是传统的数据中心不能有效利用数据中心网络带宽。其中某些链路的拥塞造成整个网络带宽不能充分被利用,传统的数据中心网络体系结构没有从传输数据的相关性出发,在传输数据时对数据不加区分的进行发送,其中传输的很多数据都是冗余的。数据中心网络传输的数据的冗余性主要是由于:数据中心网络提供的网络应用的数据中,一些数据比另外一些数据更受欢迎,这种差别使得很多数据中心传输的数据是重复出现的,这些重复传输的数据造成了很大的数据冗余;数据中心使用的软件架构自身带来很多冗余,目前比较流行的MapReduce软件架构在数据中心网络中广泛使用,MapReduce软件架构为了提高并行性计算功能,网络数据以广播的方式给多个节点传输,这就造成在数据中心网络中相同的数据的多次发送,从而带来了数据中心网络传输数据的冗余性;数据中心网络中传输的数据的协议带来数据冗余,数据中心中传输的数据使用的协议与其他网络中传输的数据的协议是一致的,而这些协议传输的数据已经被证明具有很大的冗余性。综上所述,在数据中心传输的数据具有很大的冗余,在数据中心进行冗余消除具有很强的现实意义。
目前,针对网络中冗余数据的消除机制研究已经广泛开展,在较早的研究中,消除网络冗余数据通过网络缓存、代理服务器的方式,将在网络中已经传输的数据(这个文件)在离目的节点较近的设备上缓存下来,在相同的数据请求达到的时候,代理服务器将缓存的数据发送到请求服务器,从而达到降低网络流量的目的;Spring等人在2000年提出了协议无关冗余消除机制(protocol-independent RE),通过这种方法,在网络中传输的数据间的冗余在更小的粒度(数据包层面或者数据块层面)被发现和消除,从而达到更好的冗余消除的效果;此后,更多的冗余消除机制被提出来,A.Muthitacharoen和S.Annapureddy等人研究了给予内容的命名机制;Anand等人提出了将冗余消除作为IP层的一种服务的冗余消除机制和协调缓存的冗余消除机制SmartRE;B.Aggarwall等人提出了端系统(End-system)冗余消除机制。但是在数据中心进行数据冗余消除研究还处于初步阶段,结合数据中心的特点进行冗余消除的机制研究还有待深入。
在实现本发明过程中,发明人发现现有的冗余消除机制应用到数据中心网络中至少存在以下不足:
1)现有的冗余消除技术没有考虑不同节点发送的数据之间的冗余性。在数据中心网络中,由于很多服务器提供的服务是相似的,因此不同的节点发送的数据之间存在大量的冗余。现有的冗余消除机制只考虑相同的服务器发送的数据之间的冗余性,不同的服务器发送的数据间的冗余不能被发现和消除。
2)现有的冗余消除机制没有充分考虑不同中间节点(路由器或交换机)缓存不同数据的效用的差别。不同的中间节点缓存不同的数据的效用是不同的,换句话说就是每个数据都有缓存它的最佳中间节点。现有的冗余消除机制要么没有考虑中间节点的缓存能力,从而每个节点都可以无限地缓存所有经过它的数据,要么采用简单的随机缓存和先进先出的缓存替换策略,这些方法都不能有效利用中间节点的缓存。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种集中式数据中心数据冗余消除方法,通过在传统的数据中心网络的中间节点(路由器或交换机)中增加缓存和在数据中心实现集中管理机制来实现,充分利用数据中心网络特点,有效降低链路负载。
为了实现上述目的,本发明采用的技术方案是:
集中式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据,从而在相同数据再次发送的时候可以先进行压缩编码,然后发送,在中间节点进行解码转发,完成数据传输,
在源服务器、中间节点以及目标服务器组成的数据中心网络中,布置一个集中调度模块,利用该模块获取服务器之间传输的数据以及中间节点中缓存的数据,对于数据di,缓存到不同的中间节点带来的缓存效用不同,选用缓存效用最大的中间节点作为其待缓存节点;
其中,缓存效用
Figure BDA0000133676860000031
u(i,j,k)为冗余消除的效用,其计算方法如下:
在数据中心网络中,需要发送的数据的集合为{d1,d2,......,dM),中间节点的集合为R={r1,r2,......,r|R|},路径集合为{p1,p2,......,p|P|),eij为数据di在路径pi的传输次数的期望,如果在中间节点rk中缓存了数据di,并且中间节点rk对数据di的压缩编码d′i进行解码,则冗余消除的效用
Figure BDA0000133676860000032
其中是路径pj的源节点到中间节点rk的跳数;
当前中间节点rk每缓存一个数据di,其剩余缓存容量减1,如果其剩余缓存容量为0,则计算尚未被缓存数据的缓存效用时,跳过当前中间节点rk
直至所有的数据被缓存完毕,或者所有的中间节点的剩余缓存容量都为0,调度结束。
同时,由于中间节点离目的节点越远,将数据缓存到这个中间节点所能带来的效用就越小,反之,中间节点离目的节点越近,将数据缓存到该中间节点所能带来的效用就越大,因此可尽量选用离目标服务器最近的中间节点作为该数据的待缓存节点。
当数据di已经缓存至缓存效用最大的中间节点rk时:
如果在路径pj中传输的数据di经过中间节点rk,则数据di在源服务器端压缩编码,然后发送,在中间节点rk进行解码转发;
如果路径pj中传输的数据di不经过中间节点rk,则数据di在源服务器端直接发送。
发明中所述中间节点可以为路由器和/或交换机。
与现有技术相比,本发明的优点是:
1)现有的研究方案中,不同服务器发送的数据之间的冗余情况没有被考虑,本发明从全网络的角度,不仅能够消除相同服务器发送的数据的冗余,同时不同服务器发送的数据之间的冗余也能得到消除。
2)本方案充分考虑不同中间节点(路由器或交换机)缓存不同数据的效用的差别,在选择缓存数据的中间节点时,始终选择使得缓存效用最大的中间节点作为缓存数据的中间节点,从而能够达到比原有方案更高的冗余消除效果。
附图说明
图1是本发明的总体流程图。
图2是本发明的定义的冗余消除示意图。
图3是本发明的框架图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
如图1所示,为本发明总体流程图,应用本发明时,应该按照其中所规定的流程实施,本发明所述方法在数据中心网络中依次按以下步骤实现,
步骤(1),集中调度模块获取数据中心的拓扑信息,即路径、中间节点、服务器等信息。发送的数据的集合为{d1,d2,......,dM},中间节点的集合为R={r1,r2,......,r|R|},路径集合为{p1,p2,......,p|P|};中间节点rk的缓存容量为ck
步骤(2),初始化
a.集中调度模块根据之前发送的数据情况,估计需要发送的数据的期望传送次数,得到传输矩阵E=(eij)M*|P|,其中元素eij为数据di在路径pj的传输次数的期望,其中M是发送数据的数量,|P|是数据中心网络中的路径数量。
b.中间节点rk的剩余缓存容量lk=ck
步骤(3),集中调度模块计算每一个数据di在不同的中间节点rk中缓存的缓存效用
Figure BDA0000133676860000051
a.如果中间节点rk的剩余缓存容量lk=0,则
Figure BDA0000133676860000052
否则
b.对在路径数据pj中传输的数据di,如果将其缓存在中间节点rk中,冗余消除效用u(i,j,k)用公式
Figure BDA0000133676860000053
求解,d′i为di的压缩编码,
Figure BDA0000133676860000054
是路径pj的源节点到中间节点rk的跳数。
c.对于数据di,对所有经过中间节点rk的路径进行求和,用公式计算数据di缓存到中间节点rk中的缓存效用。
步骤(4),在步骤(3)计算出来的缓存效用中选择一个是缓存效用最大的数据-中间节点(di,rk)。
步骤(5),对于步骤(4)的数据-中间节点(di,rk),中间节点rk缓存数据di
步骤(6),如果中间节点rk缓存某数据di,rk的剩余缓存容量减少1,即lk′=lk-1。
步骤(7),计算(di,rk)的调度集D(i,k),D(i,k)=(d(i,k)i′j′)M*|P|,即D(i,k)是一个M行|P|列的矩阵,其中如果在路径pj中传输的数据di如果经过中间节点rk,则d(i,k)ij′=ei,j′,其中ei,j′∈E;如果路径pj中传输的数据di如果不经过中间节点rk,则d(i,k)ij′=0。
步骤(8),剩余需要调度的数据集变为原数据集减去已经调度的数据。即E=E-D(i,k)。
步骤(9),判断调度是否完成。
a.如果没有需要调度的数据或者所有中间节点都没有剩余缓存,那么调度完成。
b.否则调度没有完成,转步骤(3)。
步骤(10)按照调度的结果,中间节点缓存相应的数据。
步骤(11)开始发送数据。
a.如果在路径pj中传输的数据di已经在该路径中的中间节点rk中缓存,那么数据di压缩发送,转步骤(12);
b.否则数据di直接发送。
步骤(12)中间节点rk在收到数据时,如果该数据是压缩形式的,并且该数据需要在rk进行解码,还原成原始数据,那么rk对压缩的数据进行解码,并转发该数据到目的节点。
图2为冗余消除的示例图,其中在没有采用冗余消除时,完整的数据从s发送到d,数据大小为200;当采用冗余消除时,压缩的数据(大小为50)先发送到r3,rk将该数据解码还原成原始大小为200的数据,此时冗余消除效用为(200-50)*3=450。
图3为本发明应用的场景。在本发明应用的数据中心网络中存在一个集中管理模块,该模块收集数据中心网络服务器之间发送数据的冗余特征(包括数据在不同的服务器之间发送的次数)、流量矩阵和路由策略,集中管理模块根据这些信息,对需要发送的数据进行调度,决定服务器发送数据的方式,即决定哪些数据压缩后发送,哪些数据直接发送,另一方面集中管理模块决定哪些数据在首次发送时缓存到哪些(或者哪个或者不缓存)中间节点中,从而最大化总的冗余消除效用。
本发明的实施,需要在数据中心网络的中间节点中部署缓存模块,并且需要计算不同中间节点缓存不同数据缓存效用。但是本发明不需要改变原有数据中心拓扑结构,也不需要改变大部分数据中心的设备,因此方案是可行的。
综上所述,本发明提供了一种在数据中心进行冗余消除的新型数据中心体系结构,本发明利用在数据中心中间节点上对数据进行缓存的方法,将发送的数据在离目的节点更近的节点进行缓存,从而再数据再次发送的时候可以发送数据的压缩编码达到降低链路传输数据量的目的。本发明充分考虑中间节点缓存不同数据的缓存效用,实现在缓存容量限制的情况下,对数据缓存的有效调度,提高冗余消除的效用。

Claims (3)

1.集中式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据,从而在相同数据再次发送的时候可以先进行压缩编码,然后发送,在中间节点进行解码转发,完成数据传输,
其特征在于,
在源服务器、中间节点以及目标服务器组成的数据中心网络中,布置一个集中调度模块,利用该模块获取服务器之间传输的数据以及中间节点中缓存的数据,对于数据di,缓存到不同的中间节点带来的缓存效用不同,选用缓存效用最大的中间节点作为其待缓存节点;
其中,缓存效用
Figure FDA0000133676850000011
u(j,j,k)为冗余消除的效用,其计算方法如下:
在数据中心网络中,需要发送的数据的集合为{d1,d2,......,dM),中间节点的集合为R={r1,r2,......,r|R|),路径集合为{p1,p2,......,p|P|),eij为数据di在路径pj的传输次数的期望,如果在中间节点rk中缓存了数据di,并且中间节点rk对数据di的压缩编码d′i进行解码,则冗余消除的效用
Figure FDA0000133676850000012
其中
Figure FDA0000133676850000013
是路径pj的源节点到中间节点rk的跳数;
当前中间节点rk每缓存一个数据di,其剩余缓存容量减1,如果其剩余缓存容量为0,则计算尚未被缓存数据的缓存效用时,跳过当前中间节点rk
直至所有的数据被缓存完毕,或者所有的中间节点的剩余缓存容量都为0,调度结束。
2.根据权利要求1所述集中式数据中心数据冗余消除方法,其特征在于,所述中间节点为路由器和/或交换机。
3.根据权利要求1所述集中式数据中心数据冗余消除方法,其特征在于,当数据di已经缓存至缓存效用最大的中间节点rk时:
如果在路径pj中传输的数据di经过中间节点rk,则数据di在源服务器端压缩编码,然后发送,在中间节点rk进行解码转发;
如果路径pj中传输的数据di不经过中间节点rk,则数据di在源服务器端直接发送。
CN201210023246.1A 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法 Active CN102546817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210023246.1A CN102546817B (zh) 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210023246.1A CN102546817B (zh) 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法

Publications (2)

Publication Number Publication Date
CN102546817A true CN102546817A (zh) 2012-07-04
CN102546817B CN102546817B (zh) 2014-08-20

Family

ID=46352763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210023246.1A Active CN102546817B (zh) 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法

Country Status (1)

Country Link
CN (1) CN102546817B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050098A (zh) * 2013-03-13 2014-09-17 国际商业机器公司 优化的数据去重复的动态高速缓存模块选择的方法和系统
WO2014139434A1 (en) * 2013-03-13 2014-09-18 Huawei Technologies Co., Ltd. System and method for compressing data associated with a buffer
US9690711B2 (en) 2013-03-13 2017-06-27 International Business Machines Corporation Scheduler training for multi-module byte caching
CN107483587A (zh) * 2017-08-21 2017-12-15 清华大学 一种面向内容的电力通信网缓存优化方法
CN109728823A (zh) * 2017-10-30 2019-05-07 晨星半导体股份有限公司 低密度同位检查码解码器及解码方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146049A (zh) * 2007-10-31 2008-03-19 北京航空航天大学 基于网络编码的无线自组织网络数据传输方法
CN101599890A (zh) * 2008-06-06 2009-12-09 中兴通讯股份有限公司 一种通信系统中的数据传输系统和方法
US20110314070A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Optimization of storage and transmission of data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146049A (zh) * 2007-10-31 2008-03-19 北京航空航天大学 基于网络编码的无线自组织网络数据传输方法
CN101599890A (zh) * 2008-06-06 2009-12-09 中兴通讯股份有限公司 一种通信系统中的数据传输系统和方法
US20110314070A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Optimization of storage and transmission of data

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《SIGCOMM '08 Proceedings of the ACM SIGCOMM 2008 conference on Data communication》 20081031 Ashok Anand 等 《Packet caches on routers: the implications of universal redundant traffic elimination》 第38卷, 第4期 *
《SIGMETRICS '09 Proceedings of the eleventh international joint conference on Measurement and modeling of computer systems 》 20090630 Ashok Anand等 《Redundancy in network traffic: findings and implications》 第37卷, 第1期 *
ASHOK ANAND 等: "《Packet caches on routers: the implications of universal redundant traffic elimination》", 《SIGCOMM ’08 PROCEEDINGS OF THE ACM SIGCOMM 2008 CONFERENCE ON DATA COMMUNICATION》, vol. 38, no. 4, 31 October 2008 (2008-10-31) *
ASHOK ANAND等: "《Redundancy in network traffic: findings and implications》", 《SIGMETRICS ’09 PROCEEDINGS OF THE ELEVENTH INTERNATIONAL JOINT CONFERENCE ON MEASUREMENT AND MODELING OF COMPUTER SYSTEMS 》, vol. 37, no. 1, 30 June 2009 (2009-06-30) *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050098A (zh) * 2013-03-13 2014-09-17 国际商业机器公司 优化的数据去重复的动态高速缓存模块选择的方法和系统
WO2014139434A1 (en) * 2013-03-13 2014-09-18 Huawei Technologies Co., Ltd. System and method for compressing data associated with a buffer
CN105052112A (zh) * 2013-03-13 2015-11-11 华为技术有限公司 一种压缩缓存器关联数据的方法与系统
US9690711B2 (en) 2013-03-13 2017-06-27 International Business Machines Corporation Scheduler training for multi-module byte caching
CN104050098B (zh) * 2013-03-13 2017-08-01 国际商业机器公司 优化的数据去重复的动态高速缓存模块选择的方法和系统
US9733843B2 (en) 2013-03-13 2017-08-15 International Business Machines Corporation Dynamic caching module selection for optimized data deduplication
US10241682B2 (en) 2013-03-13 2019-03-26 International Business Machines Corporation Dynamic caching module selection for optimized data deduplication
CN107483587A (zh) * 2017-08-21 2017-12-15 清华大学 一种面向内容的电力通信网缓存优化方法
CN107483587B (zh) * 2017-08-21 2020-10-30 清华大学 一种面向内容的电力通信网缓存优化方法
CN109728823A (zh) * 2017-10-30 2019-05-07 晨星半导体股份有限公司 低密度同位检查码解码器及解码方法

Also Published As

Publication number Publication date
CN102546817B (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN109479068B (zh) 经由挂毯弹弓的网络弹射
CN102546817B (zh) 集中式数据中心数据冗余消除方法
Kwon et al. MPMTP: Multipath multimedia transport protocol using systematic raptor codes over wireless networks
Liu et al. Fast-start video delivery in future internet architectures with intra-domain caching
CN103179037A (zh) 基于内容的数据中心网络的数据传输方法
Cui et al. Data centers as software defined networks: Traffic redundancy elimination with wireless cards at routers
CN101945103A (zh) Ip网络应用加速系统
Wu et al. Joint source-channel coding and optimization for mobile video streaming in heterogeneous wireless networks
CN111107000B (zh) 一种基于网络编码的命名数据网络中内容缓存方法
WO2014060584A1 (en) A method and a system for sharing wireless broadband connection between devices
JP2008271558A (ja) 無線ネットワークにおけるビデオ伝送方法及び装置
Wu et al. A novel scheduling approach to concurrent multipath transmission of high definition video in overlay networks
CN102111819A (zh) 一种延迟容忍网络
CN102970242A (zh) 一种实现负载均衡的方法
JP2016525256A (ja) 冗長データアクセスを提供するための方法および装置
Wang et al. QoS-predicted energy efficient routing for information-centric smart grid: A network calculus approach
Shi et al. Traffic aware inter-layer contact selection for multi-layer satellite terrestrial network
Wu et al. Robust bandwidth aggregation for real-time video delivery in integrated heterogeneous wireless networks
CN116708598A (zh) 用于实时网络传输的系统及方法
CN102571974B (zh) 分布式数据中心数据冗余消除方法
CN105516109B (zh) 一种保证无线多跳网络视频传输服务质量的传输调度方法
CN100348006C (zh) 通信子系统控制的信息传播
JP3964751B2 (ja) ネットワーク品質推定制御方式
KR102042027B1 (ko) IoT 로컬 네트워크에서 CoAP 기반의 트래픽 부하 관리 장치 및 방법
Liu et al. Loss‐Aware CMT‐Based Multipathing Scheme for Efficient Data Delivery to Heterogeneous Wireless Networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant