CN102546817B - 集中式数据中心数据冗余消除方法 - Google Patents

集中式数据中心数据冗余消除方法 Download PDF

Info

Publication number
CN102546817B
CN102546817B CN201210023246.1A CN201210023246A CN102546817B CN 102546817 B CN102546817 B CN 102546817B CN 201210023246 A CN201210023246 A CN 201210023246A CN 102546817 B CN102546817 B CN 102546817B
Authority
CN
China
Prior art keywords
data
intermediate node
buffer memory
redundancy
data center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210023246.1A
Other languages
English (en)
Other versions
CN102546817A (zh
Inventor
崔勇
廖春鹏
王弘毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201210023246.1A priority Critical patent/CN102546817B/zh
Publication of CN102546817A publication Critical patent/CN102546817A/zh
Application granted granted Critical
Publication of CN102546817B publication Critical patent/CN102546817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种集中式数据中心数据冗余消除方法,在现有的数据中心网络体系结构的中间节点中增加缓存;中间节点缓存数据中心服务器间发送的数据;数据中心集中模块通过对数据中心传输数据进行统计,估计在不同的时间发送的数据的期望;数据中心集中模块对数据缓存进行调度,使得不同的数据缓存到不同的中间节点,从而最大化缓存的效用;数据中心服务器发送数据时,根据中间节点中的缓存情况对数据进行压缩编码;中间节点对压缩编码进行解码,本发明不仅能够消除相同服务器发送的数据的冗余,同时不同服务器发送的数据之间的冗余也能得到消除,同时始终选择缓存效用最大的中间节点作为缓存数据中间节点,从而达到更高的冗余消除效果。

Description

集中式数据中心数据冗余消除方法
技术领域
本发明属于网络体系结构技术领域,特别涉及一种集中式数据中心数据冗余消除方法。
背景技术
近年来,作为企业的业务系统与数据资源进行集中、集成、共享、分析的场地、工具、流程等的有机组合的数据中心,随着云存储、云计算以及搜索引擎等新技术的兴起而迅速发展。由于数据中心强大的计算能力和可靠性等特征,越来越多的企业将自己的网络服务转移到数据中心。同时,随着个人应用需求的增加,数据中心也为个人提供各种计算和存储等网络服务。一方面为了满足日益增长的服务需求,数据中心的规模变得越来越大;另一方面,随着数据中心服务器间传输的数据量的迅速增加,数据中心中的带宽变得越来越稀缺。
传统的数据中心体系结构存在不足之处。其中一个问题就是传统的数据中心不能有效利用数据中心网络带宽。其中某些链路的拥塞造成整个网络带宽不能充分被利用,传统的数据中心网络体系结构没有从传输数据的相关性出发,在传输数据时对数据不加区分的进行发送,其中传输的很多数据都是冗余的。数据中心网络传输的数据的冗余性主要是由于:数据中心网络提供的网络应用的数据中,一些数据比另外一些数据更受欢迎,这种差别使得很多数据中心传输的数据是重复出现的,这些重复传输的数据造成了很大的数据冗余;数据中心使用的软件架构自身带来很多冗余,目前比较流行的MapReduce软件架构在数据中心网络中广泛使用,MapReduce软件架构为了提高并行性计算功能,网络数据以广播的方式给多个节点传输,这就造成在数据中心网络中相同的数据的多次发送,从而带来了数据中心网络传输数据的冗余性;数据中心网络中传输的数据的协议带来数据冗余,数据中心中传输的数据使用的协议与其他网络中传输的数据的协议是一致的,而这些协议传输的数据已经被证明具有很大的冗余性。综上所述,在数据中心传输的数据具有很大的冗余,在数据中心进行冗余消除具有很强的现实意义。
目前,针对网络中冗余数据的消除机制研究已经广泛开展,在较早的研究中,消除网络冗余数据通过网络缓存、代理服务器的方式,将在网络中已经传输的数据(这个文件)在离目的节点较近的设备上缓存下来,在相同的数据请求达到的时候,代理服务器将缓存的数据发送到请求服务器,从而达到降低网络流量的目的;Spring等人在2000年提出了协议无关冗余消除机制(protocol-independent RE),通过这种方法,在网络中传输的数据间的冗余在更小的粒度(数据包层面或者数据块层面)被发现和消除,从而达到更好的冗余消除的效果;此后,更多的冗余消除机制被提出来,A.Muthitacharoen和S.Annapureddy等人研究了给予内容的命名机制;Anand等人提出了将冗余消除作为IP层的一种服务的冗余消除机制和协调缓存的冗余消除机制SmartRE;B.Aggarwall等人提出了端系统(End-system)冗余消除机制。但是在数据中心进行数据冗余消除研究还处于初步阶段,结合数据中心的特点进行冗余消除的机制研究还有待深入。
在实现本发明过程中,发明人发现现有的冗余消除机制应用到数据中心网络中至少存在以下不足:
1)现有的冗余消除技术没有考虑不同节点发送的数据之间的冗余性。在数据中心网络中,由于很多服务器提供的服务是相似的,因此不同的节点发送的数据之间存在大量的冗余。现有的冗余消除机制只考虑相同的服务器发送的数据之间的冗余性,不同的服务器发送的数据间的冗余不能被发现和消除。
2)现有的冗余消除机制没有充分考虑不同中间节点(路由器或交换机)缓存不同数据的效用的差别。不同的中间节点缓存不同的数据的效用是不同的,换句话说就是每个数据都有缓存它的最佳中间节点。现有的冗余消除机制要么没有考虑中间节点的缓存能力,从而每个节点都可以无限地缓存所有经过它的数据,要么采用简单的随机缓存和先进先出的缓存替换策略,这些方法都不能有效利用中间节点的缓存。
发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种集中式数据中心数据冗余消除方法,通过在传统的数据中心网络的中间节点(路由器或交换机)中增加缓存和在数据中心实现集中管理机制来实现,充分利用数据中心网络特点,有效降低链路负载。
为了实现上述目的,本发明采用的技术方案是:
集中式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据,从而在相同数据再次发送的时候可以先进行压缩编码,然后发送,在中间节点进行解码转发,完成数据传输,
在源服务器、中间节点以及目标服务器组成的数据中心网络中,布置一个集中调度模块,利用该模块获取服务器之间传输的数据以及中间节点中缓存的数据,对于数据di,缓存到不同的中间节点带来的缓存效用不同,选用缓存效用最大的中间节点作为其待缓存节点;
其中,缓存效用u(i,j,k)为冗余消除的效用,其计算方法如下:
在数据中心网络中,需要发送的数据的集合为{d1,d2,......,dM},中间节点的集合为R={r1,r2,......,r|R|},路径集合为{p1,p2,......,p|P|},eij为数据di在路径pj的传输次数的期望,如果在中间节点rk中缓存了数据di,并且中间节点rk对数据di的压缩编码d i进行解码,则冗余消除的效用其中是路径pj的源节点到中间节点rk的跳数;
当前中间节点rk每缓存一个数据di,其剩余缓存容量减1,如果其剩余缓存容量为0,则计算尚未被缓存数据的缓存效用时,跳过当前中间节点rk
直至所有的数据被缓存完毕,或者所有的中间节点的剩余缓存容量都为0,调度结束。
同时,由于中间节点离目的节点越远,将数据缓存到这个中间节点所能带来的效用就越小,反之,中间节点离目的节点越近,将数据缓存到该中间节点所能带来的效用就越大,因此可尽量选用离目标服务器最近的中间节点作为该数据的待缓存节点。
当数据di已经缓存至缓存效用最大的中间节点rk时:
如果在路径pj中传输的数据di经过中间节点rk,则数据di在源服务器端压缩编码,然后发送,在中间节点rk进行解码转发;
如果路径pj中传输的数据di不经过中间节点rk,则数据di在源服务器端直接发送。
发明中所述中间节点可以为路由器和/或交换机。
与现有技术相比,本发明的优点是:
1)现有的研究方案中,不同服务器发送的数据之间的冗余情况没有被考虑,本发明从全网络的角度,不仅能够消除相同服务器发送的数据的冗余,同时不同服务器发送的数据之间的冗余也能得到消除。
2)本方案充分考虑不同中间节点(路由器或交换机)缓存不同数据的效用的差别,在选择缓存数据的中间节点时,始终选择使得缓存效用最大的中间节点作为缓存数据的中间节点,从而能够达到比原有方案更高的冗余消除效果。
附图说明
图1是本发明的总体流程图。
图2是本发明的定义的冗余消除示意图。
图3是本发明的框架图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
如图1所示,为本发明总体流程图,应用本发明时,应该按照其中所规定的流程实施,本发明所述方法在数据中心网络中依次按以下步骤实现,
步骤(1),集中调度模块获取数据中心的拓扑信息,即路径、中间节点、服务器等信息。发送的数据的集合为{d1,d2,......,dM},中间节点的集合为R={r1,r2,......,r|R|},路径集合为{p1,p2,......,p|P|};中间节点rk的缓存容量为ck
步骤(2),初始化
a.集中调度模块根据之前发送的数据情况,估计需要发送的数据的期望传送次数,得到传输矩阵E=(eij)M*|P|,其中元素eij为数据di在路径pj的传输次数的期望,其中M是发送数据的数量,|P|是数据中心网络中的路径数量。
b.中间节点rk的剩余缓存容量lk=ck
步骤(3),集中调度模块计算每一个数据di在不同的中间节点rk中缓存的缓存效用
a.如果中间节点rk的剩余缓存容量lk=0,则否则
b.对在路径数据pj中传输的数据di,如果将其缓存在中间节点rk中,冗余消除效用u(i,j,k)用公式求解,d i为di的压缩编码,是路径pj的源节点到中间节点rk的跳数。
c.对于数据di,对所有经过中间节点rk的路径进行求和,用公式计算数据di缓存到中间节点rk中的缓存效用。
步骤(4),在步骤(3)计算出来的缓存效用中选择一个是缓存效用最大的数据-中间节点(di,rk)。
步骤(5),对于步骤(4)的数据-中间节点(di,rk),中间节点rk缓存数据di
步骤(6),如果中间节点rk缓存某数据di,rk的剩余缓存容量减少1,即lk =lk-1。
步骤(7),计算(di,rk)的调度集D(i,k),D(i,k)=(d(i,k)i′j′)M*|P|,即D(i,k)是一个M行|P|列的矩阵,其中如果在路径pj中传输的数据di如果经过中间节点rk,则d(i,k)ij′=ei,j′,其中ei,j′∈E;如果路径pj中传输的数据di如果不经过中间节点rk,则d(i,k)ij′=0。
步骤(8),剩余需要调度的数据集变为原数据集减去已经调度的数据。即E=E-D(i,k)。
步骤(9),判断调度是否完成。
a.如果没有需要调度的数据或者所有中间节点都没有剩余缓存,那么调度完成。
b.否则调度没有完成,转步骤(3)。
步骤(10)按照调度的结果,中间节点缓存相应的数据。
步骤(11)开始发送数据。
a.如果在路径pj中传输的数据di已经在该路径中的中间节点rk中缓存,那么数据di压缩发送,转步骤(12);
b.否则数据di直接发送。
步骤(12)中间节点rk在收到数据时,如果该数据是压缩形式的,并且该数据需要在rk进行解码,还原成原始数据,那么rk对压缩的数据进行解码,并转发该数据到目的节点。
图2为冗余消除的示例图,其中在没有采用冗余消除时,完整的数据从s发送到d,数据大小为200;当采用冗余消除时,压缩的数据(大小为50)先发送到r3,rk将该数据解码还原成原始大小为200的数据,此时冗余消除效用为(200-50)*3=450。
图3为本发明应用的场景。在本发明应用的数据中心网络中存在一个集中管理模块,该模块收集数据中心网络服务器之间发送数据的冗余特征(包括数据在不同的服务器之间发送的次数)、流量矩阵和路由策略,集中管理模块根据这些信息,对需要发送的数据进行调度,决定服务器发送数据的方式,即决定哪些数据压缩后发送,哪些数据直接发送,另一方面集中管理模块决定哪些数据在首次发送时缓存到哪些(或者哪个或者不缓存)中间节点中,从而最大化总的冗余消除效用。
本发明的实施,需要在数据中心网络的中间节点中部署缓存模块,并且需要计算不同中间节点缓存不同数据缓存效用。但是本发明不需要改变原有数据中心拓扑结构,也不需要改变大部分数据中心的设备,因此方案是可行的。
综上所述,本发明提供了一种在数据中心进行冗余消除的新型数据中心体系结构,本发明利用在数据中心中间节点上对数据进行缓存的方法,将发送的数据在离目的节点更近的节点进行缓存,从而再数据再次发送的时候可以发送数据的压缩编码达到降低链路传输数据量的目的。本发明充分考虑中间节点缓存不同数据的缓存效用,实现在缓存容量限制的情况下,对数据缓存的有效调度,提高冗余消除的效用。

Claims (3)

1.一种集中式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据,从而在相同数据再次发送的时候可以先进行压缩编码,然后发送,在中间节点进行解码转发,完成数据传输,
其特征在于,
在源服务器、中间节点以及目标服务器组成的数据中心网络中,布置一个集中调度模块,利用该模块获取服务器之间传输的数据以及中间节点中缓存的数据,对于数据di,缓存到不同的中间节点带来的缓存效用不同,选用缓存效用最大的中间节点作为其待缓存节点;
其中,缓存效用u(i,j,k)为冗余消除的效用,其计算方法如下:
在数据中心网络中,需要发送的数据的集合为{d1,d2,......,dM},中间节点的集合为R={r1,r2,......,r|R|},路径集合为{p1,p2,......,p|P|},eij为数据di在路径pj的传输次数的期望,如果在中间节点rk中缓存了数据di,并且中间节点rk对数据di的压缩编码d′i进行解码,则冗余消除的效用 u ( i , j , k ) = e ij * ( | d i | - | d i ′ | ) * h p j , k , 其中是路径pj的源节点到中间节点rk的跳数;
当前中间节点rk每缓存一个数据di,其剩余缓存容量减1,如果其剩余缓存容量为0,则计算尚未被缓存数据的缓存效用时,跳过当前中间节点rk
直至所有的数据被缓存完毕,或者所有的中间节点的剩余缓存容量都为0,调度结束。
2.根据权利要求1所述集中式数据中心数据冗余消除方法,其特征在于,所述中间节点为路由器和/或交换机。
3.根据权利要求1所述集中式数据中心数据冗余消除方法,其特征在于,当数据di已经缓存至缓存效用最大的中间节点rk时:
如果在路径pj中传输的数据di经过中间节点rk,则数据di在源服务器端压缩编码,然后发送,在中间节点rk进行解码转发;
如果路径pj中传输的数据di不经过中间节点rk,则数据di在源服务器端直接发送。
CN201210023246.1A 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法 Active CN102546817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210023246.1A CN102546817B (zh) 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210023246.1A CN102546817B (zh) 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法

Publications (2)

Publication Number Publication Date
CN102546817A CN102546817A (zh) 2012-07-04
CN102546817B true CN102546817B (zh) 2014-08-20

Family

ID=46352763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210023246.1A Active CN102546817B (zh) 2012-02-02 2012-02-02 集中式数据中心数据冗余消除方法

Country Status (1)

Country Link
CN (1) CN102546817B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298637B2 (en) * 2013-03-13 2016-03-29 International Business Machines Corporation Dynamic caching module selection for optimized data deduplication
US9690711B2 (en) 2013-03-13 2017-06-27 International Business Machines Corporation Scheduler training for multi-module byte caching
US20140281034A1 (en) * 2013-03-13 2014-09-18 Futurewei Technologies, Inc. System and Method for Compressing Data Associated with a Buffer
CN107483587B (zh) * 2017-08-21 2020-10-30 清华大学 一种面向内容的电力通信网缓存优化方法
CN109728823A (zh) * 2017-10-30 2019-05-07 晨星半导体股份有限公司 低密度同位检查码解码器及解码方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146049A (zh) * 2007-10-31 2008-03-19 北京航空航天大学 基于网络编码的无线自组织网络数据传输方法
CN101599890A (zh) * 2008-06-06 2009-12-09 中兴通讯股份有限公司 一种通信系统中的数据传输系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110314070A1 (en) * 2010-06-18 2011-12-22 Microsoft Corporation Optimization of storage and transmission of data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101146049A (zh) * 2007-10-31 2008-03-19 北京航空航天大学 基于网络编码的无线自组织网络数据传输方法
CN101599890A (zh) * 2008-06-06 2009-12-09 中兴通讯股份有限公司 一种通信系统中的数据传输系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ashok Anand 等.《Packet caches on routers: the implications of universal redundant traffic elimination》.《SIGCOMM ’08 Proceedings of the ACM SIGCOMM 2008 conference on Data communication》.2008,第38卷(第4期), *
Ashok Anand等.《Redundancy in network traffic: findings and implications》.《SIGMETRICS ’09 Proceedings of the eleventh international joint conference on Measurement and modeling of computer systems 》.2009,第37卷(第1期), *

Also Published As

Publication number Publication date
CN102546817A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN102546817B (zh) 集中式数据中心数据冗余消除方法
CN113810205B (zh) 服务算力信息的上报、接收方法、服务器及数据中心网关
Cui et al. Data centers as software defined networks: Traffic redundancy elimination with wireless cards at routers
EP2671352A1 (en) System and method for aggregating and estimating the bandwidth of multiple network interfaces
JP2008271558A (ja) 無線ネットワークにおけるビデオ伝送方法及び装置
Wu et al. A novel scheduling approach to concurrent multipath transmission of high definition video in overlay networks
Wang et al. QoS-predicted energy efficient routing for information-centric smart grid: A network calculus approach
CN105376334A (zh) 负载均衡方法及装置
Wu et al. Robust bandwidth aggregation for real-time video delivery in integrated heterogeneous wireless networks
CN102571974B (zh) 分布式数据中心数据冗余消除方法
WO2016180284A1 (zh) 服务节点分配方法、装置、cdn管理服务器及系统
CN112311448B (zh) 一种基于虚拟机的卫星网络加速系统
JP3964751B2 (ja) ネットワーク品質推定制御方式
KR102042027B1 (ko) IoT 로컬 네트워크에서 CoAP 기반의 트래픽 부하 관리 장치 및 방법
JP2004048565A5 (zh)
RU2006137359A (ru) Система домашнего регистра местоположения для обслуживания пользователя сетей нескольких типов
Farahmand et al. A multi-layered approach to optical burst-switched based grids
CN1649326A (zh) 一种集群服务器的多分配器前端系统构成方法
Cui et al. Cooperative redundancy elimination in data center networks with wireless cards at routers
Anandaraj et al. An efficient framework for large scale multimedia content distribution in P2P network: I2NC
Gurses et al. Maximum utility peer selection for p2p streaming in wireless ad hoc networks
Xiong et al. MTM: A reliable multiple trees multicast for data center network
Samain et al. Enhancing Mobile Video Delivery over an Heterogeneous Network Access with Information-Centric Networking
Favalli et al. A P2P platform for real-time multicast video streaming leveraging on scalable multiple descriptions to cope with bandwidth fluctuations
Yu et al. Deep reinforcement learning-based fountain coding for concurrent multipath transfer in high-speed railway networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant