CN106533756B

CN106533756B - 一种通信特征抽取、流量产生方法及装置

Info

Publication number: CN106533756B
Application number: CN201610982385.5A
Authority: CN
Inventors: 邵恩; 曹政; 郭嘉梁; 王展; 臧大伟; 刘小丽; 谢震; 杨帆; 元国军; 谭光明; 孙凝晖
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2016-11-08
Filing date: 2016-11-08
Publication date: 2019-06-18
Anticipated expiration: 2036-11-08
Also published as: CN106533756A

Abstract

本发明提出一种通信特征抽取、流量产生方法及装置，涉及计算机通信技术领域，该装置包括：应用特征获取模块，用于通过分析Map/Reduce类应用的通信特征数据，建立通信模型，并将获取到的数据输入到所述通信模型，将生成结果，其中所述通信模型由阶段分割模型与阶段流量模型组成。应用实现模块，用于根据所述结果与所述通信模型，生成Map列表，并根据所述Map列表与数据速率请求信息，获得数据速率计算函数，通过数据速率计算函数获得数据速率；流量产生引擎模块，用于根据所述数据速率，获得产生的流量。本发明在通信信息统计方面，通过对目标应用的分析，降低特征参数的维度，因此所需计算存储资源成本较低，实现容易、适用于应用场景。

Description

一种通信特征抽取、流量产生方法及装置

技术领域

本发明涉及计算机通信技术领域，特别涉及一种通信特征抽取、流量产生方法及装置。

背景技术

目前，在大数据通信特征分析领域，如何利用有限的计算和存储资源,产生符合大数据分布式系统通信特征的网络流量,已成为分布式系统中通信优化的瓶颈技术，现有的解决方案都是在已经确定部署的网络结构下，统计记录在有限时间段内网络各个节点的数据传输情况，主要分为两种：其一是流量重放，即根据统计记录直接在网络的各个通信发送信息的通信节点上复现通信流量；其二是流量拟合建模，即根据一段时间内的统计记录，进行函数拟合，通过寻找符合实际记录的通信特征的数学模型，指导并使网络中各个发送信息的通信节点产生通信流量，但上述两种方法产生的流量仅刻画了特定网络中的通信特征，难以用于对不同规模或不同拓扑的网络性能评估，具体分析如下。

首先，通过记录网络流量并直接进行复现的方法，虽然能够比较准确的产生符合系统通信特性的通信流量，但在面向较大规模网络时不具备可操作性，如百万节点规模的网络，需要长时间记录网络中各个节点的随时间变化的通信流量数值信息，且需要消耗较大的存储资源来存储网络中各个发送信息的通信节点各个时刻的通信流量信息，同时该方法最大的问题是，其所能刻画的通信特征仅限于获取该流量时的系统规模，无法用于更大规模系统的通信特征描述，其次，根据统计记录进行函数拟合的方法，虽然节省了存储资源，但是实际大数据平台应用的通信行为具有一定波动性，忽略了应用实际部署参数变化导致的网络性能变化，该方法并不能体现系统通信特征的一般规律，而且根据拟合方法的误差影响，产生的通信流量也不能准确产生符合实际大数据分布式系统的流量。

综上，现有面向大数据分布式系统的通信流量产生方法，处理不能兼顾计算存储资源成本和流量的准确性，除此之外，现有方法在面向不同网络拓扑结构、不同网络节点规模、不同分布式平台种类时，都需要重新进行统计记录工序，即统计记录结果无普适性，增加了方法的可扩展性和实际部署实施上复杂度。

具体讲，“通信特征抽取”功能是面向运行Map/Reduce类应用的分布式系统的通信特点进行特征抽取的，面向运行Map/Reduce类应用的分布式系统有如下通信特点：在运行Map/Reduce类应用的分布式系统中，计算任务将拆分成多个子部分，分布到系统的多个不同的运算节点上，当计算进程启动后，将会在多个存储计算数据的网络节点进行数据运算，即“Map”行为；进行计算的节点将面向多个计算进程来进行Map，每个计算进程都有一个Reducer节点，该节点实时对该计算进程的各个进行Map计算的节点进行检测，当检测到任意一个节点的Map行为完成后，Reducer节点将会立即发送计算结果请求指令，当完成Map行为的计算节点接收到结果请求指令后，将作为发送信息的通信节点将该计算进程对应的计算结果发送给Reducer节点，该行为称为Shuffle行为，即网络通信的主要行为，当Reducer节点接收到所有该计算进程的计算结果后，将会对这些中间结果进行统一处理和计算，该过程即为Reduce行为。

发明专利“一种基于数据包特征的网络流量生成方法”，该发明公开了一种基于数据包特征的网络流量生成方法，包含一种基于数据包特征的流量生成方法，将网络数据流量在单位时间窗口内的网络数据包特征属性值引入网络流量生成方法中，该发明专注于监测的网络线路上的链路层、网络层、传输层的网络数据包数量、网络数据包尺寸数量分布、网络数据包发送间隔分布等特征属性信息引入网络流量生成方法中，实现网络数据流量生成，与本发明提出的提取少量应用通信特征配置参数，根据针对MapReduce类应用的通信特征模拟方式实现流量的产生有本质区别。

发明专利“基于多分形小波模型的fpga网络流量发生系统及方法”，该发明公开了一种基于多分形小波模型的fpga网络流量发生系统及方法，该发明要点是基于多分型的小波模型能够反映出互联网流量的长相关性和突发性，该模型能够更好的描绘互联网流量特征，但该发明专注于利用多分形小波模型，利用带特定标签的流量对网络流量分类器进行训练的方法，与本发明基于利用针对MapReduce类应用的通信行为分析和建模的思想不同，且本发明采用的基于数据聚合分组的通信模型也有本质区别，本发明与具体网络设备硬件结构不相关。

发明内容

针对现有技术的不足，本发明提出一种通信特征抽取、流量产生方法及装置。

本发明提出一种通信特征抽取、流量产生装置，面向Map/Reduce类应用，包括：

应用特征获取模块，用于通过分析Map/Reduce类应用的通信特征数据，建立通信模型，并将获取到的数据输入到所述通信模型，将生成结果，其中所述通信模型由阶段分割模型与阶段流量模型组成。

应用实现模块，用于根据所述结果与所述通信模型，生成Map列表，并根据所述Map列表与数据速率请求信息，获得数据速率计算函数，通过数据速率计算函数获得数据速率；

流量产生引擎模块，用于根据所述数据速率，获得产生的流量。

所述阶段分割模型，用于计算并输出Map/Reduce类应用在各输入条件下的任务数量与通信子阶段之间的边界。

所述任务数量包括Map任务与Reduce任务；所述通信子阶段包括Input、Map、Shuffle、Reduce与Output五个子阶段；

所述阶段流量模型，用于计算并输出各所述通信子阶段内各消息的大小、消息的源目的地址、消息的产生时机。

所述数据速率计算函数为：

Rate＝f₁₀(N_s,N_r,t)，其中N_s表示发送信息的通信节点的节点编号，N_r表示接收节点编号，t表示数据包发信时间值。

所述流量产生引擎模块包括流量分组建模与管理子模块与发送信息的通信节点通信流量产生子模块。

还包括数据速率计算子模块，用于计算数据速率，其中根据流量产生引擎模块产生的速率计算参数，通过遍历发送信息的通信节点的Map列表，查找在计算时刻发生重叠的Shuffle进程的表项，并将所述表项的平均数据通信传输速率进行叠加，作为结果返回给所述流量产生引擎模块。

所述阶段分割模型为：

m＝f₁(lnV)，其中f₁为以lnV为变量的线性函数，与lnV成正比；

r＝f₂(lnV)，其中f₂为以lnV为变量的线性函数，与lnV成正比；

T₁＝f₃(V/n,m/n)，其中f₃为以V/n与m/n为变量的二元线性函数，与V/n成正比，与m/n成正比；

T₂＝f₄(V/n,m/n)，其中f₄为以V/n与m/n为变量的二元线性函数，与V/n成正比，与m/n成正比；

T₃＝f₅(V/n,m/n，r/n)，其中f₅为以V/n、m/n与r/n为变量的二元线性函数，与V/n成正比，与m/n成反比，与r/n成正比；

T₄＝f₆(V/n,r/n)，其中f₆为以V/n与r/n为变量的二元线性函数，与V/n成正比，与r/n成反比；

T₅＝f₇(V/n,r/n)，其中f₇为以V/n与r/n为变量的二元线性函数，与V/n成正比，与r/n成反比；

其中V为初始数据总量、r为Reduce任务的数量、n为计算节点的数量、m为Map任务的数量。

若通信子阶段中Shuffle子阶段通信总量为d，Shuffle子阶段进行通信的进程的部署策略为f₈(m,r,n)，Shuffle子阶段进行通信的均匀通信数据速率函数为f₉(d，L,T₃)，则所述阶段流量模型为

d＝kV，其中k为常数，V为初始数据总量；

f₈(m,r,n)为m个Map任务与r个Reduce任务均匀随机地分布在n个计算节点上；

f₉(d,L,T₃)为两通信节点在Shuffle子阶段中任务总数据量d在T₃时间间隔内均匀通信数据速率。

本发明还提出一种通信特征抽取、流量产生方法，包括：

步骤1，通过分析Map/Reduce类应用的通信特征数据，建立通信模型，并将获取到的数据输入到所述通信模型，将生成结果，其中所述通信模型由阶段分割模型与阶段流量模型组成。

步骤2，根据所述结果与所述通信模型，生成Map列表，并根据所述Map列表与数据速率请求信息，获得数据速率计算函数，通过数据速率计算函数获得数据速率；

步骤3，根据所述数据速率，获得产生的流量。

采用本发明可以达到如下的有益效果：

首先，本发明在通信信息统计方面，通过对目标应用的分析，降低特征参数的维度，即仅需存储网络中各节点的少量通信行为特征参数，因此所需计算存储资源成本较低，实现容易、适用于应用场景，并且能有效降低因网络规模升级而造成的计算存储设备成本费用的提高，另外，该方法所使用的通信模型，结合Map/Reduce类应用(如Hadoop系统)的通信特征进行实现，能够更加有效准确地对流量特征建模，此外，通过对有限网络规模进行分布式系统统计，统计结果具有应用特征普适性，在运行相同应用特征的任意拓扑结构和节点规模的网络，仅需对不同规模的网络的性能参数进行数据处理，无需再进行重新进行大型网络规模统计记录工序，具有较强场景适用性和规模可扩展性。

附图说明

图1是本发明所述的通信特征抽取方法和通信流量产生装置的结构图；

图2是本发明通信子阶段特征划分图；

图3是本发明一个实施例的发送信息的通信节点通信进程信息列表的示意图；

图4是本发明一个实施例的“Map列表生成”实施流程图；

图5是本发明一个实施例的发送信息的通信节点单时刻数据速率计算方法流程图；

图6是本发明一个实施例的流量产生引擎实施流程图；

具体实施方式

本发明提供一种通信特征抽取、流量产生方法及装置，该装置具有通信特征抽取功能和流量产生功能。

如图1所示，整个装置共分为三个功能模块：应用特征获取模块、应用实现模块以及流量产生引擎模块，应用特征获取模块和应用实现模块实现“通信特征抽取”功能，流量产生引擎模块实现“通信流量产生”功能。

所述应用特征获取模块，其功能在于通过分析Map/Reduce类应用的通信特征数据，建立针对Map/Reduce类应用的通信模型，该通信模型的输入包括：“初始数据总量(V)”、计算节点个数(n)、“Map任务能处理的数据大小(M_slice)”，通信模型由“阶段分割模型”和“阶段流量模型”两部分组成，模型结果将作为“应用通信模型”辅助信息提供给应用实现模块。

所述应用特征获取模块中的“阶段分割模型”，用于计算并输出Map/Reduce类应用在不同输入条件下(包括待处理的数据量和计算结点数目)的任务数量(包括Map任务和Reduce任务)和通信子阶段(包括Input、Map、Shuffle、Reduce和Output五个子阶段)。

所述通信子阶段特征划分是指：确定整个应用通信过程都分为什么时间进行哪些阶段的通信,通过对大量面向Map/Reduce类应用在分布式系统中运行状态的分析，可将应用运行状态按照运行功能分为Input，Map，Shuffle，Reduce和Output五个子阶段，如图2所示。

若记Map任务数为m，Reduce任务数为r，Input子阶段执行时间长度为T₁,Map子阶段执行时间长度为T₂，Shuffle子阶段执行时间长度为T₃，Reduce子阶段执行时间长度为T₄，Output子阶段结束时间长度为T₅，则以初始数据总量(V)、计算节点个数(n)、数据包平均包长(L)为输入，本发明提出的“阶段分割模型”为：

(A1)m＝f₁(lnV)，其中f₁为以lnV为变量的线性函数，与lnV成正比；

(A2)r＝f₂(lnV)，其中f₂为以lnV为变量的线性函数，与lnV成正比；

(A3)T₁＝f₃(V/n,m/n)，其中f₃为以V/n和m/n为变量的二元线性函数，与V/n成正比，与m/n成正比；

(A4)T₂＝f₄(V/n,m/n)，其中f₄为以V/n和m/n为变量的二元线性函数，与V/n成正比，与m/n成正比；

(A5)T₃＝f₅(V/n,m/n，r/n)，其中f₅为以V/n、m/n和r/n为变量的二元线性函数，与V/n成正比，与m/n成反比，与r/n成正比；

(A6)T₄＝f₆(V/n,r/n)，其中f₆为以V/n和r/n为变量的二元线性函数，与V/n成正比，与r/n成反比；

(A7)T₅＝f₇(V/n,r/n)，其中f₇为以V/n和r/n为变量的二元线性函数，与V/n成正比，与r/n成反比；

所述应用特征获取模块中的“阶段流量模型”，用于计算并输出上述各通信子阶段内各个消息的大小、消息的源目的地址、消息的产生时机，由于Map/Reduce类应用具有原始数据本地化的特性，在Input、Map、Reduce和Output子阶段的流量极少，因此本发明的“阶段流量模型”仅针对Shuffle子阶段，若记Shuffle子阶段通信总量为d，Shuffle子阶段进行通信的进程的部署策略为f₈(m,r,n)，Shuffle子阶段进行通信的均匀通信数据速率函数为f₉(d，L,T₃)，则“阶段流量模型”为：

(B1)d＝kV，其中k为常数；

(B1)由于Map任务和Reduce任务在分布式系统中往往是均匀地部署到各个节点上，因此f₈(m,r,n)为m个Map任务和r个Reduce任务均匀随机地分布在n个计算节点上。

(B1)由于Shuffle任务在进行通信时往往是以均匀的速率在两个计算节点间进行通信，因此f₉(d,L,T₃)为通信两点在Shuffle任务中总数据量d在T₃时间间隔内均匀通信数据速率。

所述应用实现模块是通过调用应用特征获取模块所提供的“应用通信模型”，根据Map/Reduce类应用的通信模型，生成如图3所示的“Map列表”，产生方法如图4所示，并根据“Map列表”和数据速率请求信息，可得“数据速率计算函数”为：

Rate＝f₁₀(N_s,N_r,t)，其中N_s发送信息的通信节点节点编号，N_r表示接收节点编号，t表示数据包发信时间值，其中s表示发送(即英文send含义)；r表示接收(即英文receive含义)，该函数提供给流量产生引擎模块，实现方法如图5所示。

所述“Map列表”的逻辑存储结构，即发送信息的通信节点通信进程信息列表，如图3所示，该信息列表具有两级索引结构，第一级索引表通过任意网络计算节点的ID信息，索引到其对应的“Map列表”，第二级索引表存储了各个网络计算节点所进行的Map进程信息。

索引信息定义如下：

“Map进程编号”(Map number)表示：发送信息的通信节点在运行Map/Reduce类应用的分布式系统中所参与的各个Map分片的进程编号。

“信息接收节点编号”(Root number)表示：对应某发送信息的通信节点所参与的Map进程的对应的数据计算需求节点，即Reducer节点。

“Shuffle通信进程启动时间”(Time start)表示：单个Map分片运行结束后，进行Shuffle通信的启动时间。

“Shuffle通信进程结束时间”(Time end)表示：单个Map分片运行结束，Shuffle数据通信的结束时间。

“通信平均数据传输速率”(Date rate)表示：单个Map分片对应的Shuffle通信过程中，发送信息的通信节点针对该Map进程进行的平均通信数据传输速率。

所述Map列表生成子模块实现Map列表生成功能，该子模块需要从“应用特征获取模块”获得各个运行应用的“应用通信模型”，根据应用特征获得运行在Map/Reduce类应用的分布式系统中上的应用特征信息，生成“Map列表”内的各个数据表项及各表项的各个成员信息位，应用实现模块在生成“发信成员列表”以及“Map列表”后，还需要为流量产生引擎模块提供数据速率的计算服务。

针对“Map列表生成子模块”，本发明提出一种“Map列表生成”实现方法具体实现细节如图4所示，具体操作步骤如下：

步骤11：从应用特征获取模块，获得V、M_slice、Map_rate、n、r，完成网络参数初始化，对小规模网络采集“通信特征数据”信息，根据T₁数值确定各个发送信息的通信节点启动第一个Map分片进程的时间。

步骤12：确定分布式系统内总共会进行的Map进程个数,根据公式m＝f₁(lnV)进行计算可得，结合分布式系统内数据处理单元划分的均匀性原则，通过均匀分布，随机确定所有Map任务和Reduce任务将要在哪些节点启动。

步骤13：确定每个发送信息的通信节点需要进行的Map task，生成“Map number”，根据Reduce任务的均匀部署结构，生成每个Map进程所服务的Reduce的对象，“Rootnumber”信息位。

步骤14：需要从应用特征提取模块确定信息位：T₂和T₃，根据T₁和T₂，确定每个发送信息的通信节点所需要处理的各个Map进程分片的启动时间，该时间需要在第一个Map分片开始的时间至全部Map结束的时间范围内随机选取，将该数值与T₂之和设置为“Map列表”的“Time_start”信息位，该信息位表示当前Map列表的通信单元开始通信的时间，确定“Map列表”的“Time_end”信息位,Time_end＝Time_start+T₃，该信息位表示当前Map列表的通信单元结束通信的时间。

步骤15：根据f₉(d,L,T₃)通信时间函数曲线,计算Shuffle阶段的平均通信数据传输速率，得到“Date_rate”信息位。

数据速率计算子模块实现速率计算功能，需要根据流量产生引擎模块提供的速率计算参数，通过遍历发送信息的通信节点的Map列表，寻找在“计算时刻”发生重叠的Shuffle进程的表项，并将这些表项的平均数据通信传输速率进行叠加，作为结果返回给流量产生引擎模块。

该模块需要从“Map列表生成子模块”获得其所生产的“Map列表”，用以帮助本子模块进行数据速率计算。

针对“数据速率计算子模块”，本发明提出一种速率计算方法，定义：“单时刻数据传输速率”为Date_rate_time。

如图5所示，具体操作步骤包括：

步骤21：通过“数据速率计算函数”接口，接收到“发送信息的通信节点ID”、“Reduce执行节点ID”和“发包时间T_send”信息，“发送信息的通信节点ID”为当前执行发包任务的发送信息的通信节点的编号信息，“Reduce执行节点ID”为当前发包任务的目的节点的编号信息，T_send为当前发包任务进行发包的时刻数值。

步骤22：根据发送信息的通信节点ID，查找该发送信息的通信节点的“Map列表”，并遍历该Map列表，寻找满足Reduce执行节点ID与表项中Root number相同的表项，对本步骤中选出的表项进行发包时间条件判断，判断该表项的通信启动和结束时间是否满足：Time_start<T_send<Time_end。

步骤23：如果步骤22判断结果为真，则将选出的“Map表项”的“Date_rate”数据，累加到初值为0的“单时刻数据传输速率”，判断当前是否完成了发送信息的通信节点的遍历，如果未完成遍历则返回步骤22，对下一条Map表项进行判断累加操作。

步骤24：如果步骤23完成了对当前发送信息的通信节点的各个Map表项的遍历操作，则将经过累加计算的“Date_rate_time”作为当前询问的单一时刻，当前发送信息的通信节点对某目的节点发出的数据传输速率，将该数据返回后，完成数据速率计算。

所述流量产生引擎模块包含“流量分组建模与管理子模块”和“发送信息的通信节点通信流量产生子模块”两个子模块。

“流量分组建模与管理子模块”，主要实现符合建立Map/Reduce类应用的分布式系统中通信行为规则，主要面向“多对一发信分组模型”的建模方法和分组轮询选择管理方法，实现形如“多对一发信分组”的聚合通信行为以的方法，该子模块需要从应用实现模块的“Map列表生成子模块”获得“流量模型映射分布信息”，包括“Reducer部署节点信息”和“对应各个Reducer的发送信息的通信节点信息”；这部分信息将帮助本模块的子模块完成所述“分组”的通信模型的建模，所述“分组轮询选择”管理方法是指发送信息的通信节点轮询式地对其所服务的分组进行发信的行为，得到“分组轮询选择结果”为：N_r＝f₁₁(N_s)，其中f₁₁为发送信息的通信节点通信对象的轮询计算函数，保存了N_s所参与的Map进程的各个Reducer节点，通过不同发送信息的通信节点编号得到该发送信息的通信节点当前进行通信的编号，每次该函数被调用后，将对轮询结果进行调整。

“发送信息的通信节点通信流量产生子模块”，主要负责实施发包行为功能，该模块结合应用实现模块所提供的数据速率计算函数信息，产生符合运行Map/Reduce类应用的流量特征的数据流量，该模块需要从应用实现模块的“数据速率计算子模块”获得“数据速率计算函数”用以计算任意两通信节点在不同时刻的通信速率。

针对“流量产生引擎模块”通过两个子模块以及其相关交互得以完成，如图6所示，针对“流量分组建模与管理子模块”，本发明提出一种分组建模与管理方法，操作步骤包括步骤31,32,38，针对“发送信息的通信节点通信流量产生子模块”，本发明提出一种通信流量产生方法，操作步骤包括步骤33至步骤37，定义如下：

网络传输的平均数据包长(P_length)、发送延迟(Date_delay)、当前发送信息的通信节点所服务的Group分组个数(Group_num)、调整数值(T_change)、针对当前分组的当前时间片内发信数(Group_pkt)、发送信息的通信节点已发包数(Send_pkt)。

具体实施步骤如下：

步骤31：根据Reducer部署结果，对每个Reducer设置一个通信分组“Group”，而其他具有向该Reducer节点发信的节点作为该Group中的发送信息的通信节点，确定每个Group的发送信息的通信节点的方法是：遍历“发送信息的通信节点成员列表”,根据发送信息的通信节点的Map列表的“Root number”判断其所参与的Group分组。

将分组中的各个Reducer节点所发信的“平均通信数据量”进行累加，确定每个Reducer节点的“接收门限”，该门限表示了该节点接收的总数据量，当接收数据量到达该门限值后，将认为接收完成了当前Reduce计算的数据。

步骤32：遍历每个发送信息的通信节点的Map列表，找出每个发送信息的通信节点需要发信的不同Reducer节点，作为Group服务成员添加到“Group参与列表”中，遍历发送信息的通信节点的Map列表，将每个Map进程对应的“平均通信数据量”进行累加，生成发送信息的通信节点的“发信门限”，当发送的数据量到达该门限后，将结束发信行为，本步骤将随机选取启动网络中发送信息的通信节点的发信行为。

根据所选的发送信息的通信节点，判断发信者是否完成了发信行为，即其发包总数是否到达发包上限。

步骤33：发送信息的通信节点按照“Group参与列表”中Group的顺序，从第一个分组开始对每个Group分组进行发包服务，完成发包后，将服务指针指向下一个Group分组，实现面向“分组”的轮询式选择。

步骤34：将Group分组的Reducer计算节点的节点编号设置为当前需要发送的数据包的目的地址，将当前发送信息的通信节点的节点编号设置为源地址，设置P_length，将该信息设置为数据包长度，制造具有该数据量的信息包，将当前发送信息的通信节点的发信时间值、发送信息的通信节点编号以及目的节点编号信息，通过“数据速率计算函数”，得到当前“时间片”内，需要对该分组的Reducer节点发信数据速率，当前“时间片”内需要发送的数据包个数为：确定每个在当前分片内发送的数据包的Date_delay，即该延迟数值表示发送完每个数据包后，发送下一数据包的等待时间。

步骤35：对当前发送信息的通信节点，根据“Date_delay”和“P_value”执行发包行为，发送信息的通信节点所服务的Group分组个数为Group_num，确定当前发送信息的通信节点发信时间T_change，即将当前发信时间与“调整数值”之和，作为当前发送信息的通信节点的下一个可发包时间，将当前发送信息的通信节点的Group_pkt和发送信息的通信节点已发包数Send_pkt自增1，判断针对Group_pkt是否与当前时间片内发信的“发包总数”相同，如果相同则视为针对当前分组的当前时间分片完成了发包行为。

步骤36：如果步骤46中对当前时间片的发包判断不为真，则将“当前时间分片内发信数”加1，使当前发送信息的通信节点下一次再进行发包实现时，继续发送当前时间片内的数据包。

步骤37：将“时间片编号”自增1，将Group_pkt进行重置为0，使下一次该发送信息的通信节点发送属于下一时间片的第一个数据包。

步骤38：网络中的各个分组根节点，即Reducer节点接收到步骤35中所所发出的数据包，验证该数据包后，将自己的收包计数总数累加1。

遍历网络中各个Group的Reducer节点的收包情况，判断是否全部Reducer节点收包数量到达了接收门限，如果满足则流量发生全部结束，如果未到达门限则返回步骤32，继续使能未完成发包任务的发送信息的通信节点进行发信行为。

本发明还提出一种通信特征抽取、流量产生方法，包括：

步骤3，根据所述数据速率，获得产生的流量。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种通信特征抽取、流量产生装置，面向Map/Reduce类应用，其特征在于，包括：

应用特征获取模块，用于通过分析Map/Reduce类应用的通信特征数据，建立通信模型，并将获取到的数据输入到所述通信模型，将生成结果，其中所述通信模型由阶段分割模型与阶段流量模型组成；

流量产生引擎模块，用于根据所述数据速率，获得产生的流量；

所述阶段分割模型为：

其中V为初始数据总量、r为Reduce任务的数量、n为计算节点的数量、m为Map任务的数量，Input子阶段执行时间长度为T₁,Map子阶段执行时间长度为T₂，Shuffle子阶段执行时间长度为T₃，Reduce子阶段执行时间长度为T₄，Output子阶段结束时间长度为T₅；

若通信子阶段中Shuffle子阶段通信总量为d，Shuffle子阶段进行通信的进程的部署策略为f₈(m,r,n)，Shuffle子阶段进行通信的均匀通信数据速率函数为f₉(d，L,T₃)，则所述阶段流量模型为：

d＝kV，其中k为常数，V为初始数据总量；

2.如权利要求1所述的通信特征抽取、流量产生装置，其特征在于，所述阶段分割模型，用于计算并输出Map/Reduce类应用在各输入条件下的任务数量与通信子阶段之间的边界。

3.如权利要求2所述的通信特征抽取、流量产生装置，其特征在于，所述任务数量包括Map任务与Reduce任务；所述通信子阶段包括Input、Map、Shuffle、Reduce与Output五个子阶段。

4.如权利要求1所述的通信特征抽取、流量产生装置，其特征在于，所述阶段流量模型，用于计算并输出各所述通信子阶段内各消息的大小、消息的源目的地址、消息的产生时机。

5.如权利要求1所述的通信特征抽取、流量产生装置，其特征在于，所述数据速率计算函数为：

6.如权利要求1所述的通信特征抽取、流量产生装置，其特征在于，所述流量产生引擎模块包括流量分组建模与管理子模块与发送信息的通信节点通信流量产生子模块。

7.如权利要求1所述的通信特征抽取、流量产生装置，其特征在于，还包括数据速率计算子模块，用于计算数据速率，其中根据流量产生引擎模块产生的速率计算参数，通过遍历发送信息的通信节点的Map列表，查找在计算时刻发生重叠的Shuffle进程的表项，并将所述表项的平均数据通信传输速率进行叠加，作为结果返回给所述流量产生引擎模块。

8.一种通信特征抽取、流量产生方法，其特征在于，包括：

步骤1，通过分析Map/Reduce类应用的通信特征数据，建立通信模型，并将获取到的数据输入到所述通信模型，将生成结果，其中所述通信模型由阶段分割模型与阶段流量模型组成；

步骤3，根据所述数据速率，获得产生的流量；

所述阶段分割模型为：

d＝kV，其中k为常数，V为初始数据总量；