CN107508850A - 一种大数据环境下基于树形网络和数据分块的锁步分发方法 - Google Patents
一种大数据环境下基于树形网络和数据分块的锁步分发方法 Download PDFInfo
- Publication number
- CN107508850A CN107508850A CN201710485594.3A CN201710485594A CN107508850A CN 107508850 A CN107508850 A CN 107508850A CN 201710485594 A CN201710485594 A CN 201710485594A CN 107508850 A CN107508850 A CN 107508850A
- Authority
- CN
- China
- Prior art keywords
- node
- tree
- data
- lock
- tree network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/178—Techniques for file synchronisation in file systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Small-Scale Networks (AREA)
- Information Transfer Between Computers (AREA)
Abstract
树形网络的大数据分发技术,通过把大数据进行分块和按序编号,并搭建高度最小的最优树形网络结构,使大数据文件在网络中的数据分发能以流水线的形式进行,从而在很大程度上减少了数据分发延迟和计算开销,同时,这种方法还能为数据在树形网络中的传输时间进行预测。在本发明中提出了一种大数据在树形网络中锁步分发的方法,通过找出一个固定的、所有节点都一样的上传速率让整个数据分发时间变得最小,同时提出一种新的通过采用流水线技术和降低树形网络的高度来提高数据分发速率的方法,极大地降低了大数据在树形网络的数据分发的开销。
Description
技术领域
本发明涉及网络中的数据分发,特别是树形网络中的大数据分块分发。
背景技术
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据具有5V特点(IBM提出),分别是Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
树形网络:如图1所示:树形网络是由多个层次的星型结构纵向连接而成,树的每个节点都是计算机或转接设备。一般来说,越靠近树的根部,节点设备的性能就越好。与星型网络相比,树形网络总长度短,成本较低,节点易于扩充,但是树形网络复杂,与节点相连的链路由故障时,对整个网络的影响较大。
数据分块:由于数据文件比较大,传输延时也很大,而且一旦发生错误,将导致文件重新发送,不利于传输;因此,要对数据文件进行按序分块,即使发送出错,也能根据序号选择数据块重新发送和数据拼接。
锁步:CPU的锁步模式就是指锁定CPU内存频率一致,防止异步频率导致的蓝屏死机;在这里指的是树形网络中,使每一层节点对子节点的数据传输时间、速率保持一致。
发明内容
本发明的目的是提供一种大数据在树形网络中锁步分发的方法,即找出一个固定的、所有节点都一样的上传速率让整个数据分发时间变得最小,同时提出一种新的通过采用流水线技术和降低树形网络的高度来提高数据分发速率的方法,极大地降低了系统的开销。
具体思路是:由于参与数据分发操作的节点以及节点的上传能力都是已经确定的,那么所有节点都采用的固定上传速率r的大小就会影响到这个树形网络的高度,同时以流水线的方式把分好块的数据在树形网络高度最小的情况下进行分发,这样就能让数据分发的完成时间变得最小。所以,我们的目标就是找到让数据分发完成时间最小的那个上传速率r。
具体方法按照以下6个步骤实施:
1.初始化:把参与分发数据的所有n个节点的上传能力(单位kbps)集合{c1,c2,...,cn}作为输入,并按由高到低的顺序进行排序。其中ci为第i个节点的上传能力。
2.固定的上传速率r(图2和3:算法一、二):在树形网络中,第i个节点以ci的上传能力和相同的上传速率r给它的子节点们发送数据,那么r的最小值在只有两层节点的情况下取得,即r的最大值为其中l为叶子节点个数。所以r的取值范围但此时的r的取值范围是连续的,由于树中所有节点的出度k(1≤k≤n-1)都是正整数,那么根据(遍历c和k)和r的取值范围,便可以把r离散化,得到有限个r的取值。同时,由于不考虑节点所处的位置而只考虑完成时间,则可以对集合{c1,c2,...,cn}中相同的值进行合并去重,不必把每个c都进行计算,从而减少计算量。
3.树的高度h:在步骤1中,节点已经按照上传能力由大到小排序,把上传能力最大的节点作为根节点,次之作为根节点的最左边的节点,由左至右,以此类推。这样节点的出度也从根节点往下递减,树的高度也会变得最小。当只有两层节点的时候,树的高度h最小为1;h的最大值为
4.数据按序分块:把大数据文件进行分块,数据块大小为B,并编上序号。这样,即使数据传输出错,也能等下一次重新发送时进行数据拼接,而不用重新发送这个数据文件,减少了传输时延。
5.建立树形网络(图3:算法三):根据步骤2和步骤3得出的r和h的取值范围,我们可以遍历r和h,找到使完成时间D(即每一层的用时是一共h层)最小的那个r的取值。以集合中第一个节点作为根节点,接下来的k1个节点作为它的子节点(k1为根节点的出度),依次类推,直到所有节点都加到树中。
6.流水线分发:在根节点中,把分好块、排好序的数据文件进行分发,这样,就能以流水线的方式把数据以最快的速度分发给树中每一个非根节点。
附图说明
图1是算法所适用的树形网络。
图2是算法一流程图。
图3是算法二流程图。
图4是算法三流程图。
图5是本申请实施例建立的树形图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
给出节点上传能力降序集合{3,3,2,2,2,1,1,1,1,1},按照上述方法,树形网络的高度h范围为[1,8],r的取值范围为[3/9,10/9],因为出度k是整数,取值范围为[1,9],所以我们可以把r离散化(r=c/k),得r的取值范围为{1/9,1/8,1/7,1/6,1/5,1/4,1/3,1/2,1,2/9,2/7,2/5,2/3,2,3/8,3/7,3/5,3/4,3/2,3},由h和r的取值范围,遍历r和h,找到使完成时间D(即每一层的用时是一共h层)最小的那个r的取值,假设B=1,最后可以得出r*=1,h=2,建立如图5所示的树形网络。这样就让树形网络变得更加紧凑,数据分发时间也变得最小。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种大数据环境下基于树形网络和数据分块的锁步分发方法,其特征在于:把数据进行分块和按序编号,并搭建最优的树形网络,同时以流水线的方式把分好块的数据在树形网络高度最小的情况下进行分发,这样就能让数据分发的完成时间变得最小。
2.根据权利要求1所述的锁步分发方法,其特征在于:在给定节点中通过寻找最优的所有节点都相同的上传速率r,得到高度最低的最优树形网络结构。
3.根据权利要求1所述的锁步分发方法,其特征在于:以相同速率和锁步的方法在树形网络中以流水线方式进行分发。
4.根据权利要求1所述的锁步分发方法,其特征在于:具体包括如下步骤:初始化:把参与分发数据的所有n个节点的上传能力集合{c1,c2,...,cn}作为输入,并按由高到低的顺序进行排序,其中ci为第i个节点的上传能力;在树形网络中,第i个节点以ci的上传能力和相同的上传速率r给它的子节点们发送数据,那么r的最小值在只有两层节点的情况下取得,即r的最大值为其中l为叶子节点个数,所以r的取值范围但此时的r的取值范围是连续的,由于树中所有节点的出度k都是正整数,1≤k≤n-1,那么根据和r的取值范围,便可以把r离散化,得到有限个r的取值。
5.根据权利要求4所述的锁步分发方法,其特征在于:节点已经按照上传能力由大到小排序,把上传能力最大的节点作为根节点,次之作为根节点的最左边的节点,由左至右,以此类推;这样节点的出度也从根节点往下递减,树的高度也会变得最小;当只有两层节点的时候,树的高度h最小为1;h的最大值为
6.根据权利要求5所述的锁步分发方法,其特征在于:遍历r和h,找到使完成时间D最小的那个r的取值;以集合中第一个节点作为根节点,根节点的出度k1个节点作为它的子节点,依次类推,直到所有节点都加到树中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710485594.3A CN107508850B (zh) | 2017-06-23 | 2017-06-23 | 一种大数据环境下基于树形网络和数据分块的锁步分发方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710485594.3A CN107508850B (zh) | 2017-06-23 | 2017-06-23 | 一种大数据环境下基于树形网络和数据分块的锁步分发方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107508850A true CN107508850A (zh) | 2017-12-22 |
CN107508850B CN107508850B (zh) | 2020-07-28 |
Family
ID=60678543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710485594.3A Expired - Fee Related CN107508850B (zh) | 2017-06-23 | 2017-06-23 | 一种大数据环境下基于树形网络和数据分块的锁步分发方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107508850B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1795654A (zh) * | 2003-08-01 | 2006-06-28 | 网飞亚技术公司 | 网络环境中的内容同步系统及其方法 |
CN101577628A (zh) * | 2009-03-27 | 2009-11-11 | 上海理工大学 | 满足能力约束和QoS约束的应用层任意源多播方法 |
CN104065643A (zh) * | 2014-05-07 | 2014-09-24 | 上海文广互动电视有限公司 | 基于树形逻辑的多媒体网络传输方法及系统 |
CN104598321A (zh) * | 2015-02-11 | 2015-05-06 | 浪潮集团有限公司 | 一种智能大数据处理方法和装置 |
WO2016021949A1 (ko) * | 2014-08-07 | 2016-02-11 | 엘지전자(주) | 무선 통신 시스템에서 데이터를 송수신하기 위한 방법 및 이를 위한 장치 |
-
2017
- 2017-06-23 CN CN201710485594.3A patent/CN107508850B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1795654A (zh) * | 2003-08-01 | 2006-06-28 | 网飞亚技术公司 | 网络环境中的内容同步系统及其方法 |
CN101577628A (zh) * | 2009-03-27 | 2009-11-11 | 上海理工大学 | 满足能力约束和QoS约束的应用层任意源多播方法 |
CN104065643A (zh) * | 2014-05-07 | 2014-09-24 | 上海文广互动电视有限公司 | 基于树形逻辑的多媒体网络传输方法及系统 |
WO2016021949A1 (ko) * | 2014-08-07 | 2016-02-11 | 엘지전자(주) | 무선 통신 시스템에서 데이터를 송수신하기 위한 방법 및 이를 위한 장치 |
CN104598321A (zh) * | 2015-02-11 | 2015-05-06 | 浪潮集团有限公司 | 一种智能大数据处理方法和装置 |
Non-Patent Citations (2)
Title |
---|
付博方: "D2D多播通信场景下的中继选择与数据分发机制研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
陈剑鸿: "复杂网络上的数据分发模型及技术研究", 《中国优秀博士学位论文全文数据库基础科学辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN107508850B (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Adaptive federated learning on non-iid data with resource constraint | |
Hsieh et al. | Gaia:{Geo-Distributed} machine learning approaching {LAN} speeds | |
US9497117B2 (en) | Lookup front end packet output processor | |
JP4833965B2 (ja) | Hpcアーキテクチャに基づいたクラスタ管理のシステム及び方法 | |
CN101459600B (zh) | 用于跟踪网络争用的方法和设备 | |
US9276846B2 (en) | Packet extraction optimization in a network processor | |
US9430511B2 (en) | Merging independent writes, separating dependent and independent writes, and error roll back | |
Pandurangan et al. | On the distributed complexity of large-scale graph computations | |
CN106576055B (zh) | 用于改进高性能计算中的集体操作的性能的系统、方法和装置 | |
US8959138B2 (en) | Distributed data scalable adaptive map-reduce framework | |
US8065503B2 (en) | Iteratively processing data segments by concurrently transmitting to, processing by, and receiving from partnered process | |
JP2007533034A (ja) | Hpcクラスタを管理するためのグラフィカル・ユーザ・インタフェース | |
Guo et al. | Exploiting efficient and scalable shuffle transfers in future data center networks | |
CN105677447B (zh) | 分布式云中基于聚类的时延带宽极小化虚拟机部署方法 | |
Gai et al. | Blockchain meets DAG: a BlockDAG consensus mechanism | |
Zhou et al. | Cost-aware partitioning for efficient large graph processing in geo-distributed datacenters | |
Ke et al. | Aggregation on the fly: Reducing traffic for big data in the cloud | |
Liang et al. | Service composition for advanced multimedia applications | |
Geng et al. | Accelerating distributed machine learning by smart parameter server | |
Shi et al. | Partitioning dynamic graph asynchronously with distributed FENNEL | |
CN104391735B (zh) | 虚拟化一体机集群中虚拟机调度方法及系统 | |
Avin et al. | Distributed computing on core–periphery networks: Axiom-based design | |
CN107508850A (zh) | 一种大数据环境下基于树形网络和数据分块的锁步分发方法 | |
Song et al. | Towards modeling large-scale data flows in a multidatacenter computing system with petri net | |
Chao et al. | Intelligent interaction design research based on block chain communication technology and fuzzy system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200728 |