CN110704649B

CN110704649B - 一种用于构建流量图像数据集的方法及系统

Info

Publication number: CN110704649B
Application number: CN201910810810.6A
Authority: CN
Inventors: 王攀; 李书航; 王梓炫; 黄琛
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-09-02
Anticipated expiration: 2039-08-29
Also published as: CN110704649A

Abstract

本发明公开了一种用于构建流量图像数据集的方法及系统，包括：读取Pcap源文件，解析并过滤PCAP文件的前24个字节，代表文件头相关信息；按照Pcap包的分组信息解析各组流量信息；解析出来的信息需要经过字符串分割、正则匹配、进制转换后，将所有字节信息按照对应分组编号保存至对应txt文件；读取生成的txt文件，生成成灰度图。将Pcap包转为图像后便可将其制作成类似MNIST手写体的数据集。本发明通过对Pcap文件和数据包格式的解析，实现将Pcap文件转换为灰度图，该图可用建立深度学习模型训练的数据集，提高了流量识别在深度学习领域的适用性。

Description

一种用于构建流量图像数据集的方法及系统

技术领域

本发明涉及一种用于构建流量图像数据集的方法，属于流量识别在深度学习领域的应用。

背景技术

深度模型强大的学习能力和特征表达能力，使得其语音识别、自然语言处理、计算机视觉、图像与视频分析等诸多领域的应用取得了巨大成功。在图像识别上的优势决定了大多数深度模型的输入都是图像。这就导致流量识别的研究人员在学习过程中需要对模型做大量修改，模型的修改需要有较全面的数学知识，大大提高了研究的门槛和研究的工作量。因此需要一种可以将Pcap数据包转为图像的方法来简化研究工作。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种用于构建流量图像数据集的方法，解决现有研究方法需要较全面的数学知识对模型做大量修改的问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种用于构建流量图像数据集的方法，通过将PCAP数据包中的分组信息转换成灰度图像，方便了流量识别在现有的图像识别领域经典的深度学习方法中的应用。包括步骤：读取Pcap源文件，解析并过滤PCAP文件的前24个字节，代表文件头相关信息；按照Pcap包的分组信息解析各组流量信息，首先需要解析出数据包头中的”Len”字段，该字段表示对应分组的数据包长度，以此来获取一个分组的完整信息；解析出来的信息需要经过字符串分割、正则匹配、进制转换后，将所有字节信息按照对应分组编号保存至对应txt文件；所有分组信息处理完成后，开始读取生成的txt文件，根据数据包规则，顺序将每两个十六进制字符转为十进制，转换后字节范围在0到255内，0对应黑色，255对应白色，转换后字节被存入数组中，数组中的一个元素对应图片中的一个像素点，按照这个规则将分组信息转换成灰度图。将Pcap包转为图像后便可将其制作成类似MNIST手写体的数据集，并在深度学习模型中适用。

具体包括以下步骤：

步骤一、获取Pcap文件，读取Pcap文件，解析出数据包的前24个文件头结构，并建立标记位(flag)进行数据包分组，同时将文件头过滤；

步骤二、根据数据包的格式，各分组前24个字节为包头，包含文件信息，解析出其中的”Len”字段，即数据包长度，根据步骤一中的标记位，截取出该分组的全部数据包，统计完整数据包分组的计算公式为：flag+24+Len；按照数据包分组对Pcap文件进行解析；

步骤三、对步骤二中得到的分组信息，首先根据十六进制标识符将数据分割，得到一个List，遍历List中的每个元素，根据正则匹配将不符合规则的Ascii码转为十六进制数据，最后将所有数据根据分组编号存入对应的txt文件中，该文件中全部为十六进制数据；

步骤四、步骤三完成后将一个Pcap文件按照分组解析成多个txt文件，根据数据包规则，一个字节中包含两个十六进制字符，顺序读取txt文件中的两个字符并转为十进制，转换后的数字范围在0到255之间，0对应黑色，255对应白色，转换后字节被存入数组中，数组中的一个元素对应图片中的一个像素点，按照这个规则将分组信息转换成灰度图；

步骤五、根据步骤四中生成的灰度图建立数据集。

进一步地，作为本发明的一种优选技术方案：将Pcap文件产生的乱码转为正常的十六进制数据时；识别出数据包中的换行符，在步骤四保存数组时根据换行符进行换行处理；对多余的数据进行截断处理，不足的数据补为0。

进一步地，作为本发明的一种优选技术方案：所述步骤四中描述的保存十进制数据的数组为二维数组，根据需求定义不同形状的数组从而生成不同尺寸的图片。

一种用于构建流量图像数据集的系统，包括输入模块、解析标记位模块、数据包分组模块、txt文件生成模块、分组信息转成灰度图生成模块、数据集生成模块，其中：

所述输入模块用于输入Pcap文件；

所述解析标记位模块用于解析出Pcap文件数据包的前24个文件头结构，并建立标记位(flag)进行数据包分组，同时将文件头过滤；

所述数据包分组模块用于根据数据包的格式，各分组前24个字节为包头，包含文件信息，解析出其中的”Len”字段，即数据包长度，根据步骤一中的标记位，截取出该分组的全部数据包，统计完整数据包分组的计算公式为：flag+24+Len；按照数据包分组对Pcap文件进行解析；

所述txt文件生成模块用于根据得到的分组信息，首先根据十六进制标识符将数据分割，得到一个List，遍历List中的每个元素，根据正则匹配将不符合规则的Ascii码转为十六进制数据，最后将所有数据根据分组编号存入对应的txt文件中，该文件中全部为十六进制数据；

所述分组信息转成灰度图生成模块用于将一个Pcap文件按照分组解析成多个txt文件，根据数据包规则，一个字节中包含两个十六进制字符，顺序读取txt文件中的两个字符并转为十进制，转换后的数字范围在0到255之间，0对应黑色，255对应白色，转换后字节被存入数组中，数组中的一个元素对应图片中的一个像素点，按照这个规则将分组信息转换成灰度图；

所述数据集生成模块用于根据生成的灰度图建立数据集。

本发明相比现有技术，具有以下有益效果：

本发明提供一种用于构建流量图像数据集的方法，该方法通过将Pcap源数据在经过分割、乱码解析等处理后，由十六进制转换为十进制；将十进制数据存入二维数组中，使数组中的每一个元素对应图片中的一个像素，且像素点取值范围在0到255之间，0对应黑色，255对应白色；通过上述规则将二维数组转换为图片，进而将图片制成数据集。

本发明方法创新性的提出一种用于构建流量图像数据集的方法，该方法通过将Pcap数据包转为图像，进而根据生成的灰度图建立数据集。建立的数据集可以直接适用于现有各类图像识别深度学习模型，大大减少流量识别研究人员工作量。

附图说明

图1为本发明基于Pcap数据包的深度学习数据集建立方法的流程示意图。

图2为本发明中数据包转换成图像的效果示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明设计了一种用于构建流量图像数据集的方法,包括以下步骤：

步骤一、读取Pcap文件，解析出Pcap文件数据包的前24个文件头结构，并建立标记位(flag)将文件头过滤。

步骤二、根据数据包的格式，各分组前24个字节为包头，包含文件信息，解析出其中的”Len”字段，即数据包长度，根据步骤一中的标记位，截取出该分组的全部数据包，即：flag+24+Len；按照数据包分组对Pcap文件进行解析。

步骤四、步骤三完成后将一个Pcap包按照分组解析成多个txt文件，根据数据包规则，一个字节中包含两个十六进制字符，顺序读取txt文件中的两个字符并转为十进制，转换后的十进制范围在0到255之间，0对应黑色，255对应白色，转换后字节被存入数组中，数组中的一个元素对应图片中的一个像素点，按照这个规则将分组信息转换成灰度图。

在步骤三中将直接读取Pcap文件产生的乱码转为了正常的十六进制数据；识别出数据包中的换行符，在步骤四保存数组时根据换行符进行换行处理；对多余的数据进行截断处理，不足的数据补为0。

步骤四中描述的保存十进制数据的数组为二维数组，根据需求可定义不同形状的数组从而生成不同尺寸的图片。

步骤五、通过步骤四中生成的灰度图建立数据集。

所述输入模块用于输入Pcap文件；

所述数据集生成模块用于根据生成的灰度图建立数据集。

如图2所示，本发明中数据包转换成图像的效果示意图。

本发明将Pcap包转为图像后便可将其制作成类似MNIST手写体的数据集，并在深度学习模型中适用。本发明通过对Pcap文件和数据包格式的解析，实现将Pcap文件转换为灰度图，该图可用建立深度学习模型训练的数据集，提高了流量识别在深度学习领域的适用性，本方法建立的数据集可以直接适用于现有各类图像识别深度学习模型，大大减少流量识别研究人员工作量。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于构建流量图像数据集的方法，其特征在于，包括以下步骤：

步骤一、获取Pcap文件，读取Pcap文件，解析出Pcap文件数据包的前24个文件头结构，并建立标记位flag进行数据包分组，同时将文件头过滤；

步骤二、根据数据包的格式，各分组前24个字节为包头，包含文件信息，解析出其中的“Len”字段，即数据包长度，根据步骤一中的标记位，截取出该分组的全部数据包，统计完整数据包分组的计算公式为：flag+24+Len；按照数据包分组对Pcap文件进行解析；

步骤五、根据步骤四中生成的灰度图建立数据集。

2.根据权利要求1所述用于构建流量图像数据集的方法，其特征在于：将Pcap文件产生的乱码转为正常的十六进制数据时；识别出数据包中的换行符，在步骤四保存数组时根据换行符进行换行处理；对多余的数据进行截断处理，不足的数据补为0。

3.根据权利要求2所述用于构建流量图像数据集的方法，其特征在于：所述步骤四中描述的保存十进制数据的数组为二维数组，根据需求定义不同形状的数组从而生成不同尺寸的图片。

4.一种用于构建流量图像数据集的系统，其特征在于：包括输入模块、解析标记位模块、数据包分组模块、txt文件生成模块、分组信息转成灰度图生成模块、数据集生成模块，其中：

所述输入模块用于输入Pcap文件；

所述解析标记位模块用于解析出Pcap文件数据包的前24个文件头结构，并建立标记位flag进行数据包分组，同时将文件头过滤；

所述数据包分组模块用于根据数据包的格式，各分组前24个字节为包头，包含文件信息，解析出其中的“Len”字段，即数据包长度，根据所述标记位，截取出该分组的全部数据包，统计完整数据包分组的计算公式为：flag+24+Len；按照数据包分组对Pcap文件进行解析；

所述数据集生成模块用于根据生成的灰度图建立数据集。