CN104253863B

CN104253863B - 一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法

Info

Publication number: CN104253863B
Application number: CN201410468903.2A
Authority: CN
Inventors: 雒江涛; 高伟; 杨军超; 王小平; 邓生雄; 申健; 刘勇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2014-09-15
Filing date: 2014-09-15
Publication date: 2017-07-28
Anticipated expiration: 2034-09-15
Also published as: CN104253863A

Abstract

本发明公开了一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法，Map的输入键值对为<偏移量，二进制数据包>，输出键值对为<五元组，时间戳+序列号+数据包有效净荷>。“+”操作表示将时间戳、序列号，数据包有效净荷部分拼成一个大的字节数组，并最终将“时间戳+序列号+数据包有效净荷”保存为Hadoop自带的BytesWritable数据类型。Map的输出经过Shuffle中间过程，完成对输出键值对的分区、排序、合并等过程。将Map输出中相同五元组的“时间戳+序列号+数据包有效净荷”聚集在一起形成键值对<五元组，list(时间戳+序列号+数据包有效净荷)>作为Reduce的输入。最终Reduce的输出键值对为<五元组，重组数据>。本发明提高了运行效率，减少了开销。

Description

一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法

技术领域

本发明涉及网络大数据流量分析领域。具体在于一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法。

背景技术

TCP是面向连接的、可靠的传输层协议，在互联网以及对传输可靠性要求较高的网络中得到了广泛的应用。由于互联网协议栈层次复杂、单个数据包的长度有限，应用层数据很有可能被切分为多个片段，由多个数据包负责传输。因此在对应用层的数据进行分析之前，重组TCP会话是必要的前提。

传统的TCP重组技术应用链表、哈希表等数据结构，结合TCP的五元组、确认号、序列号、各个标识位(SYN,ACK,RST,FIN)等信息经过相关的运算来实现。

随着大数据时代的到来，带来了一系列的现实问题，如存储成本高、分析难度大、处理效率低等。有相关研究表明，2012年，全球互联网用户约为23亿，截至2013年全球有一万亿台设备接入互联网，整个互联网流量为56EB(1EB＝10亿GB)，更有甚者预计2020年全球互联网流量将达到惊人的350亿TB(1TB＝1024GB)，这一数字已经完全超越了传统TCP会话重组方法的承载能力。目前还缺乏在Hadoop平台实现TCP流重组的算法。

基于以上问题本发明提出了一种基于Hadoop的重组TCP流的MapReduce设计，Hadoop是目前应用最为广泛的分布式平台，尤其适合大数据的处理任务，由于开源、稳定、容错性高、可扩展等特性，深受各大企业的欢迎。HDFS(分布式存储系统)和MapReduce(分布式处理编程模型)是它最为关键的技术。Hadoop的优势在于可以利用HDFS，稳定、可靠、均匀且低成本的将数据复制到集群中的各个节点，根据项目需要灵活的编写MapReduce程序，以键值对的形式对数据进行并行处理，通过增加结点来满足更高要求的任务。与此同时，Hadoop还支持对数据的压缩、排序、聚合、衔接传统关系数据库等功能。

发明内容

针对以上现有技术中的不足，本发明的目的在于提供一种提高运行效率，减少开销的基于Hadoop平台和分布式处理编程模型的TCP流重组方法。本发明的技术方案如下：一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法，将分布式处理编程模型MapReduce分为Map阶段和Reduce阶段，其中数据以block的形式存储在分布式存储系统HDFS中，Map阶段的步骤为：

步骤A1、将数据包映射到键值对，形成输入键值对<偏移量，二进制数据包>；

步骤A2、提取数据包的五元组，包括源IP，目的IP，源端口，目的端口，传输层协议类型；

步骤A3、判断传输层协议是否为TCP协议，若该传输层协议不是TCP协议，则读取下一个键值对；若该传输层协议是TCP协议，则提取数据包的序列号、时间戳，有效净荷，并判断该有效净荷的长度，若有效净荷长度为零，则忽略该数据包，读取下一个键值对，否则跳转到步骤A4；

步骤A4、输出键值对<五元组，时间戳+序列号+数据包有效净荷>，“+”操作表示将时间戳、序列号，数据包有效净荷部分拼成一个大的字节数组，并最终将“时间戳+序列号+数据包有效净荷”保存；

Reduce阶段的步骤为：

步骤B1、Reduce之前平台Hadoop将Map阶段输出中相同五元组的“时间戳+序列号+数据包有效净荷”聚集在一起形成键值对<五元组，list(时间戳+序列号+数据包有效净荷)>作为Reduce的输入；

步骤B2、依据时间戳，按照时间先后的顺序对list进行排序，所述list包括时间戳+序列号+数据包有效净荷；

步骤B3、删除经过排序后的list中TCP序列号相同的多余记录；

步骤B4、将经过排序后list中每个记录的时间戳、序列号去掉，形成只包含数据包有效净荷的list；

步骤B5：按照顺序合并只包含数据包有效净荷的list中的每个记录，完成重组；

步骤B6：输出键值对<五元组，重组数据>，完成TCP流的重组。

进一步的，Map阶段的步骤中A1步骤中通过修改InputFormat完成分片到键值对的映射。

进一步的，步骤A4中的输出键值对<五元组，时间戳+序列号+数据包有效净荷>保存为Hadoop自带的BytesWritable数据类型。

本发明的优点及有益效果如下：

本发明利用Hadoop并行处理大数据的的优势和Reduce的数据汇总功能，将同一个TCP流的所有数据包的有效净荷汇总到一起排序、去重，合并来达到重组目的，无需链表或者哈希表之类的复杂数据结构，提高运行效率，减少开销。

附图说明

图1所示为本发明优选实施例的MapReduce流程图；

图2：Map阶段流程图；

图3：Reduce阶段流程图。

具体实施方式

下面结合附图给出一个非限定的实施例对本发明作进一步的阐述。但是应该理解，这些描述只是示例的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明需要一个MapReduce任务，海量数据全部以block(默认64MB)的形式存储在HDFS中，修改InputFormat完成分片到键值对的映射，Map的输入键值对为<偏移量，二进制数据包>，输出键值对为<五元组，时间戳+序列号+数据包有效净荷>。Map的输出经过Shuffle中间过程，完成对输出键值对的分区、排序、合并等过程。将Map输出中相同五元组的“时间戳+序列号+数据包有效净荷”聚集在一起形成键值对<五元组，list(时间戳+序列号+数据包有效净荷)>作为Reduce的输入。最终Reduce的输出键值对为<五元组，重组数据>。

如图2所示，Map阶段具体过程如下：

步骤1：完成数据包到键值对的映射，形成输入键值对<偏移量，二进制数据包>。

步骤2：提取数据包的五元组(源IP，目的IP，源端口，目的端口，传输层协议类型)。

步骤3：判断传输层协议是否为TCP协议，若是则提取数据包的序列号、时间戳，有效净荷，若有效净荷长度为零，则忽略该数据包。

步骤4：输出键值对<五元组，时间戳+序列号+数据包有效净荷>。“+”操作表示将时间戳、序列号，数据包有效净荷部分拼成一个大的字节数组，并最终将“时间戳+序列号+数据包有效净荷”保存为Hadoop自带的BytesWritable数据类型。

如图3所示，Reduce阶段具体过程如下：

步骤1：Reduce之前Hadoop将Map输出中相同五元组的“时间戳+序列号+数据包有效净荷”聚集在一起形成键值对<五元组，list(时间戳+序列号+数据包有效净荷)>作为Reduce的输入。

步骤2：依据时间戳，按照时间先后的顺序对list(时间戳+序列号+数据包有效净荷)进行排序。

步骤3：删除经过排序后的list(时间戳+序列号+数据包有效净荷)中TCP序列号相同的多余记录。

步骤4：将经过排序后list(时间戳+序列号+数据包有效净荷)中每个记录的时间戳、序列号去掉，形成list(数据包有效净荷)。

步骤5：按照顺序合并list(数据包有效净荷)中的每个记录，完成重组。

步骤6：输出键值对<五元组，重组数据>。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明方法权利要求所限定的范围。

Claims

1.一种基于Hadoop平台和分布式处理编程模型的TCP流重组方法，其特征在于：分布式处理编程模型MapReduce分为Map阶段和Reduce阶段，其中数据以分块block的形式存储在分布式存储系统HDFS中，Map阶段的步骤为：

步骤A1、将分块的数据包通过采用切片的方法进行分片，并映射到键值对，形成输入键值对<偏移量，二进制数据包>；

Reduce阶段的步骤为：

步骤B3、删除经过排序后的list中TCP序列号相同的多余记录；

步骤B6：输出键值对<五元组，重组数据>，完成TCP流的重组。

2.根据权利要求1所述的基于Hadoop平台和分布式处理编程模型的TCP流重组方法，其特征在于：Map阶段的步骤中A1步骤中通过修改InputFormat完成分片到键值对的映射。

3.根据权利要求1所述的基于Hadoop平台和分布式处理编程模型的TCP流重组方法，其特征在于：步骤A4中的输出键值对<五元组，时间戳+序列号+数据包有效净荷>保存为Hadoop自带的BytesWritable数据类型。