CN115622810B

CN115622810B - 一种基于机器学习算法的业务应用识别系统及方法

Info

Publication number: CN115622810B
Application number: CN202211602341.7A
Authority: CN
Inventors: 戚建淮; 成飏; 郑伟范; 何润民; 孙丁; 刘建辉
Original assignee: Shenzhen Y&D Electronics Information Co Ltd
Current assignee: Shenzhen Y&D Electronics Information Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-05-16
Anticipated expiration: 2042-12-14
Also published as: CN115622810A

Abstract

本发明涉及信息安全技术领域，具体涉及一种基于机器学习算法的业务应用识别系统及方法，该系统包括数据采集模块、数据预处理模块、神经网络分类模块、线下更新模块以及联动安全执行模块；设计改进的1D‑CNN模型算法，引入针对业务流量数据特性的全面数据预处理机制，从激活函数、损失函数和优化器的改进以及对dropout、early stopping等多种技术的引入对传统的CNN模型进行了优化，更适应业务应用合法性识别的场景，在识别效率和准确率上都得到提升；通过线下学习与动态更新，线上识别业务应用的方式，提高了系统的效率并能适应新业务增加的需求。

Description

一种基于机器学习算法的业务应用识别系统及方法

背景技术

随着互联网应用的普及和我国数字化转型的推进，越来越多的业务由人工操作向着自动化、网络化的方向发展，这给业务的处理效率带来了极大的提升，但同时也给业务的安全保障提出了新的要求。传统的网络安全防御秉持着“发现威胁、分析威胁、处理威胁”的解决思路，这种解决方案在应对大数据时代网络中海量的业务行为和攻击行为时显得力不从心，往往无法做出及时响应。

基于云计算的网络入侵检测系统虽然能够满足算力的需要但能耗巨大，并且其基于“黑名单”的针对性的防御在攻击手段层出不穷的今天难以做到全面覆盖所有攻击点，而攻击者只要攻破一点，就可以达到自己的攻击目的。

而深度学习神经网络是当前最流行的模式识别手段，而其中的卷积神经网络（CNN）又是一种公认的效果较为出色的神经网络模型。如何针对业务识别的特定应用场景，利用现实系统中合法业务应用可穷尽的特性实现对业务系统的安全防护成为目前亟需解决的技术问题。

发明内容

有鉴于此，针对业务识别的特定应用场景，利用现实系统中合法业务应用可穷尽的特性，本申请实施例的目的是提供一种基于机器学习算法的业务应用识别系统及方法，基于机器学习算法，通过改进的1D-CNN模型算法对业务应用是否合法进行识别，通过利用线下基于已知合法业务训练好的1D-CNN分类器直接对待检业务应用进行分类识别，然后对结果进行分析，当分类的准确率高于设定阈值时则属于对应合法业务应用，若所用分类准确率均低于阈值，则说明该业务应用属于非法应用，应予以阻断并采取对应安全措施，从而实现对业务系统的安全防护。

为实现上述目的，本发明提供了以下技术方案：

根据本发明的第一方面，提供了一种基于机器学习算法的业务应用识别系统，包括数据采集模块、数据预处理模块、神经网络分类模块、线下更新模块以及联动安全执行模块，所述数据采集模块用于在数据链路层采集对应的业务流量数据包；所述数据预处理模块用于对采集到的数据包进行预处理得到时序特征数据；所述神经网络分类模块用于对所述数据预处理模块输入的时序特征数据进行分类，输出得到网络应用服务流量的分类识别结果；所述线下更新模块包括合法业务数据库，用于监控是否有新的合法业务，并将新的合法业务加入所述合法业务数据库，且当有业务加入时对神经网络分类模块进行更新；所述联动安全执行模块用于对所述网络应用服务流量的分类识别结果中的非法网络业务行为根据预设的安全策略进行联动处置。

作为本发明的进一步方案，所述数据预处理模块用于对所述数据包中会话流进行数据预处理，并对数据包中数据集进行标注、标签编码以及采样处理。

作为本发明的进一步方案，所述神经网络分类模块用于基于改进的1D-CNN网络对输入的时序特征数据进行分类，输出得到网络应用服务流量的分类识别结果；其中，若所述分类识别结果为已知合法业务类型，则顺序通过，若所述分类识别结果为非法业务类型，则调用所述联动安全执行模块进行处理。

根据本发明的第二方面，提供了一种基于机器学习算法的业务应用识别方法，包括以下步骤：

在数据链路层采集对应的业务流量数据包，对采集到的数据包进行预处理得到时序特征数据；

将时序特征数据输入改进的1D-CNN模型算法对合法业务识别，判别所述合法业务的特征信息对业务应用分类的识别，输出得到网络应用服务流量的分类识别结果；

对所述分类识别结果进行判断，当所有分类精度均未达到阈值要求时，确定为非法网络业务应用，对非法网络业务行为根据预设的安全策略进行联动处置；

当分类识别结果为已知合法业务类型，则顺序通过；

利用线下更新模块监控是否有新的合法业务加入，若有则将新的合法业务加入所述合法业务数据库，且当有业务加入时对改进的1D-CNN模型算法进行更新。

作为本发明的进一步方案，改进的1D-CNN模型算法的构建方法，包括：

在线下将所有合法业务的特征数据进行获取和预处理，生成带有合法业务标记的基础数据集；

将所述基础数据集按照预设比例拆分成训练集和测试集，将训练集输入改进的1D-CNN分类模型中进行训练，得到识别合法业务的分类器模型；

采用所述测试集对所述分类器模型进行测试，根据预先设定好的指标参数对模型进行判别，若达到设定的指标要求则作为线上实际环境中的业务识别模型，否则对模型参数进行调整以再次测试，直到测试结果满足设定的指标要求。

作为本发明的进一步方案，改进的1D-CNN模型算法的构建方法，还包括：

当有新的合法业务加入时，将新的合法业务的特征数据获取后加入带有合法业务标记的所述基础数据集，完成更新后重新训练更新1D-CNN分类器模型；

将得到的经过训练的所述1D-CNN分类器对待检业务应用进行分类识别，若分类结果在对应类别的精度值达到预先设定的阈值，则该待检业务为对应类型的合法业务应用，若分类识别结果在所有分类中的精度值均小于阈值，则为非法业务，调用相应的安全策略进行联动处置。

作为本发明的进一步方案，在线下将所有合法业务的特征数据进行获取和预处理，生成带有合法业务标记的基础数据集，包括以下步骤：

在数据链路层上采集获取合法业务应用的数据集，取得用以表述合法业务应用的流量数据；

对获取的业务流量数据进行对应预处理操作，并对预处理的数据进行标注，对标注后的数据标签编码；

对数据集中各类业务应用的样本集进行随机采样，均衡各类样本的数量。

作为本发明的进一步方案，对获取的业务流量数据进行对应预处理操作，包括以下步骤：

数据链路层头部无关信息删除：移除以太网报头信息；

IP地址信息屏蔽：屏蔽IP报头中的IP地址信息；

传输层头部信息修改：在UDP分段的头部增补0使得与TCP头部长度相等，皆为固定字节长度；

无关数据包拒绝：删除不相关的数据包；

字节转换：将原始数据包转换成字节向量；

截取固定长度：截断大小超过1500的向量，为小于1500的字节向量填充零；

归一化处理：通过将每个字节除以255来规范化字节向量，取值范围归一到[0,1]区间。

作为本发明的进一步方案，所述改进的1D-CNN分类模型由输入层、卷积层（CONV）、池化层（POOL）、展平层（Flatten）、全连接层（FC）和输出层（Softmax分类器）组成；所述改进的1D-CNN分类模型的神经网络结构为：数据输入层、一维卷积层C1、一维卷积层C2、maxpooling池化层、Flatten展平层、连续3个全连接层、Softmax分类器，其中，连续3个全连接层包括全连接层D1、全连接层D2、全连接层D3；

所述数据输入层用于完成预处理、标注和编码的数据集输入至模型的输入工作；

所述Softmax分类器为输出层，用于辨识多个不同的网络业务应用类别；

利用交叉熵作为损失函数，并且采用early stopping技术，当验证集上的损失函数的值在设定时间内变化低于阈值时，则停止训练；优化方式使用Ranger优化器代替传统1D-CNN算法使用的Adam优化器；在优化器中学习率时通过退化学习率设置学习率的大小。

即：利用交叉熵（CrossEntropy Loss）作为损失函数，并且采用early stopping技术，当验证集上的损失函数的值在一段时间内变化较小时，就停止训练，从而防止模型对训练数据过拟合；优化方式使用Ranger优化器代替传统1D-CNN算法使用的Adam优化器作为实现方案，使模型的优化效果在性能和精度上都得到提升；在优化器中学习率的设计中，引入“退化学习率”来设置学习率的大小，即在训练刚开始时，使用大的学习率来加快速度，训练到一定程度后使用小的学习率来提高精度，从而在学习的精度和效率间找到平衡。

作为本发明的进一步方案，改进的1D-CNN模型算法引入了针对业务流量数据特性的全面数据预处理机制，从激活函数、损失函数和优化器等方面对传统CNN模型进行优化提升分类精度，并引入dropout、early stopping、设置退化学习率等技术避免过拟合并提升模型处理效率，当验证集上的损失函数的值在预设时段内变化低于预设阈值时，停止训练。

作为本发明的进一步方案，改进的1D-CNN分类模型最后一层利用Softmax作为分类器，其余各层用Swish函数代替ReLU函数作为激活函数，并采用Dropout机制丢失30％的特征，避免过拟合，Swish函数公式为：

其中，为x的缩放参数，参数为常数，由手动设置，或者为训练的参数，由神经网络学习设置。

与现有技术相比，本发明提供的一种基于改进的1D-CNN算法的业务应用识别方法、系统的技术方案可以包括以下有益效果：

1、不需要人工（专家）提取网络流量的特征，直接略过了特征提取的步骤,而直接从网络数据包的级别进行应用分类，能更好适用于真实的网络环境中。

2、通过专门设计的数据预处理技术，在规范数据输入的同时，有效避免了干扰因素对业务分类的影响，并且解决了业务应用基础数据集内部各业务应用数据量不均衡导致的分类偏差的问题。

3、通过对原始CNN算法激活函数、优化器、分类器算法的改进，以及引入dropout、early stopping、退化学习率等多种技术，提升了模型的执行效率和分类精度，并有效避免了过拟合现象，使模型更适应合法业务应用识别这一多分类的应用场景。

4、通过线下学习与动态更新，线上识别业务应用的方式，提高了系统的效率并能适应新业务增加的需求。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是的和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例。在附图中：

图1为本发明的实施例中一种基于机器学习算法的业务应用识别系统的功能结构图；

图2为本发明的实施例中一种基于机器学习算法的业务应用识别方法的流程图；

图3为本发明的实施例中一种基于机器学习算法的业务应用识别方法中改进的1D-CNN算法模型的结构图；

图4为了适于用来实现本发明的实施例的计算机设备的计算机系统的结构示意图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请的实施例提供了一种基于机器学习算法的业务应用识别系统及方法，设计了改进的1D-CNN模型算法，引入了针对业务流量数据特性的全面数据预处理机制，并从激活函数、损失函数和优化器的改进以及对dropout、early stopping等多种技术的引入对传统的CNN模型进行了优化，使之更适应业务应用合法性识别的场景，在识别效率和准确率上都得到提升。

将改进的1D-CNN模型算法用于合法业务应用的识别，通过直接判别可穷尽的合法业务特征信息的方式完成对业务应用分类的识别，当所有分类精度都无法达到阈值要求时，则确定为非法业务应用。避免了传统安全防护措施专注于对入侵威胁特征信息的判别，而导致的对新型攻击行为无法判别的问题。

另外，当加入新的业务时，可将该业务数据加入该1D-CNN模型算法的训练集中对模型进行再次训练，从而得到能满足新业务识别的更新后的1D-CNN识别模型，从而满足业务扩展的需要。

在一些实施方式中，该基于机器学习算法的业务应用识别方法可以应用在计算机设备，该计算机设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备，当然也不限于此。

请参照图1所示，本发明实施例提供了一种基于机器学习算法的业务应用识别系统，该系统包括数据采集模块100、数据预处理模块200、神经网络分类模块300、线下更新模块400以及联动安全执行模块500。

所述数据采集模块100用于在数据链路层采集对应的业务流量数据包。

所述数据预处理模块200用于对采集到的数据包进行预处理得到时序特征数据，在本实施例中，所述数据预处理模块200用于对所述数据包中会话流进行数据预处理，并对数据包中数据集进行标注、标签编码以及采样等处理。

所述神经网络分类模块300用于对所述数据预处理模块200输入的时序特征数据进行分类，输出得到网络应用服务流量的分类识别结果。

所述线下更新模块400包括现有的合法业务数据库，用于监控是否有新的合法业务，并将新的合法业务加入所述合法业务数据库，且当有业务加入时对神经网络分类模块300进行更新。

所述联动安全执行模块500用于对所述网络应用服务流量的分类识别结果中的非法网络业务行为根据预设的安全策略进行联动处置。

本发明的基于机器学习算法的业务应用识别系统，通过改进1D-CNN网络业务应用识别，基于改进的1D-CNN网络对输入的时序特征数据进行分类，输出得到网络应用服务流量的分类识别结果；其中，若所述分类识别结果为已知合法业务类型，则顺序通过，若所述分类识别结果为非法业务类型，则调用所述联动安全执行模块500进行处理。

本发明实施例的一种基于改进的1D-CNN算法的业务应用识别系统，不需要人工（专家）提取网络流量的特征，直接略过了特征提取的步骤,而直接从网络数据包的级别进行应用分类，能更好适用于真实的网络环境中。

通过专门设计的数据预处理技术，在规范数据输入的同时，有效避免了干扰因素对业务分类的影响，并且解决了业务应用基础数据集内部各业务应用数据量不均衡导致的分类偏差的问题。

通过线下学习与动态更新，线上识别业务应用的方式，提高了系统的效率并能适应新业务增加的需求。

请参照图2，图2为本申请基于机器学习算法的业务应用识别方法的流程示意图。本申请的一些实施例中还提供了一种基于机器学习算法的业务应用识别方法，该方法包括以下步骤：

步骤S10、在数据链路层采集对应的业务流量数据包，对采集到的数据包进行预处理得到时序特征数据；

步骤S20、将时序特征数据输入改进的1D-CNN模型算法对合法业务识别，判别所述合法业务的特征信息对业务应用分类的识别，输出得到网络应用服务流量的分类识别结果；

步骤S30、对所述分类识别结果进行判断，当所有分类精度均未达到阈值要求时，确定为非法网络业务应用，对非法网络业务行为根据预设的安全策略进行联动处置；

步骤S40、当分类识别结果为已知合法业务类型，则顺序通过；

步骤S50、利用线下更新模块监控是否有新的合法业务加入，若有则将新的合法业务加入所述合法业务数据库，且当有业务加入时对改进的1D-CNN模型算法进行更新。

本发明的基于机器学习算法的业务应用识别方法，通过获取业务流量数据并进行预处理操作，对预处理后的数据标注应用类型，对标注后的数据标签编码得到数据集；对所述数据集中每一应用类型的数据进行随机采样，得到数据数量均衡的数据集作为样本数据；将所述样本数据输入至构建的分类模型进行训练，辨识所述样本数据对应的网络业务应用类别；利用交叉熵（CrossEntropy Loss）作为损失函数，并且采用early stopping技术，当验证集上的损失函数的值在一段时间内变化较小时，就停止训练，从而防止模型对训练数据过拟合；优化方式使用Ranger优化器代替传统1D-CNN算法使用的Adam优化器作为实现方案，使模型的优化效果在性能和精度上都得到提升；在优化器中学习率的设计中，引入“退化学习率”来设置学习率的大小，即在训练刚开始时，使用大的学习率来加快速度，训练到一定程度后使用小的学习率来提高精度，从而在学习的精度和效率间找到平衡。

在一些实施例中，改进的1D-CNN模型算法的构建方法，包括：

在本实施例中，改进的1D-CNN模型算法的构建方法，还包括：

本发明实施例，通过将改进的1D-CNN模型算法用于合法业务应用的识别，通过直接判别可穷尽的合法业务特征信息的方式完成对业务应用分类的识别，当所有分类精度都无法达到阈值要求时，则确定为非法业务应用。避免了传统安全防护措施专注于对入侵威胁特征信息的判别，而导致的对新型攻击行为无法判别的问题。

当加入新的业务时，可将该业务数据加入该1D-CNN模型算法的训练集中对模型进行再次训练，从而得到能满足新业务识别的更新后的1D-CNN识别模型，从而满足业务扩展的需要。

其中，在线下将所有合法业务的特征数据进行获取和预处理，生成带有合法业务标记的基础数据集，包括以下步骤：

在数据链路层上采集获取合法业务应用的数据集，取得用以表述合法业务应用的流量数据，例如，以pcap文件形式组成；

在本实施例中，对获取的业务流量数据进行对应预处理操作，包括以下步骤：

a、数据链路层头部无关信息删除，具体操作为移除以太网报头信息。

b、IP地址信息屏蔽，具体操作为屏蔽IP报头中的IP地址信息，避免IP地址信息对分类的干扰。

c、传输层头部信息修改，具体操作为在UDP分段的头部增补0使得与TCP头部长度相等，皆为固定字节长度，例如：在UDP分段的头部增补0使得与TCP头部长度相等，皆为20字节长度。

d、无关数据包拒绝，具体操作为删除不相关的数据包，例如没有有效负载的数据包（如TCP握手信息报文）和DNS数据包等，减少无关数据对分类的影响，提升分类精度。

e、字节转换，具体操作为将原始数据包转换成字节向量，例如，将原始数据包（比特流）转换成字节向量（字节流），以降低神经网络的输人维度，提升分类训练和处理效率。

f、截取固定长度，具体操作为截断大小超过1500的向量，为小于1500的字节向量填充零。

g、归一化处理，具体操作为通过将每个字节（元素）除以255来规范化字节向量，取值范围归一到[0,1]区间，归一化操作可以使数据有相同的分布，减少不收敛或者梯度消失的情况。

在本实施例中，对预处理的数据进行标注。

数据集中的pcap文件是根据其相关的应用类型来标记的。本实施例中，为了适应VPN加密环境下应用识别的需求，可以将会话中采集到的VPN和nonVPN环境下采集到的同一个应用的流量将被合并至同一个文件，由此得到现有合法业务应用的分类。

在本实施例中，对标注后的数据标签编码。

由于原始数据集包含了字符串特征,不利于直接向量化,为了方便计算,将数据标签进行编码，常见的编码方式包括：顺序编码、One-hot编码和词向量（embedding）方式。在已知合法业务类型有限的情况下，本实施例中推荐使用One-hot编码方式，将每个流量字节都被编码成一个n维向量。其中，n的值由合法业务类型总数确定。

在本实施例中，数据采样。

数据集中各类业务应用的数量可能存在不平衡的情况，极可能会降低分类的效果。因此，需要对数量较多的分类的样本集进行随机采样，使得各类样本的数量相对平衡。

在发明的实施例中，设计并构建改进的1D-CNN分类模型时，本实施例中，参见图3所示，改进的一维卷积神经网络（1D-CNN）由输入层、卷积层（CONV）、池化层（POOL）、展平层（Flatten）、全连接层（FC）和输出层（Softmax分类器）组成。

在本实施例中，改进的1D-CNN分类模型的神经网络的整体结构为：数据输入层 ->一维卷积层C1 -> 一维卷积层C2 -> max pooling池化层 -> Flatten（展平）层->连续3个全连接层（全连接层D1 -> 全连接层D2 -> 全连接层D3） -> Softmax分类器。

在本实施例中，改进的1D-CNN分类模型的神经网络中，各层功能如下：

（1）数据输入层：负责将步骤S10中完成预处理、标注和编码的数据集对模型的输入工作；

（2）一维卷积层；

卷积计算方法为求线性乘积。计算公式为：N=(W-F+2P)/S+1，其中N：输出大小，W：输入大小，F：卷积核大小，P：填充值的大小，S：步长大小。本方案采用连续2个卷积层，其中：

Conv1：该卷积层的卷积核数为32，单个卷积核大小为4*4，滑动步长为1，采用Swish激活函数代替常见的ReLU激活函数来对结果进行非线性映射。

Conv2：该卷积层的卷积核数为64，单个卷积核大小为2*2，滑动步长为1，同样采用Swish激活函数对结果进行非线性映射。

（3）池化层：

池化操作有局部不变性，而且可以提取显著特征的同时降低模型的参数，从而降低模型的过拟合，本方案采用最大池化策略，该池化层大小为2*2，滑动步长为2。

其中，卷积（Convolution）是一种线性运算，数学中关于两个函数的一种无穷积分运算；在统计学中，加权的滑动平均是一种卷积。

其中，最大池化（Max-pooling）即取局部接受域中值最大的点。

（4）展平层：

传递给全连接层的卷积层的输出必须在全连接层接受输入之前进行flatten（展平）操作，张量flatten操作是卷积神经网络中的一种常见操作，是一种特殊类型的reshape操作，作用是将其中所有的轴都平滑或压扁在一起。

（5）全连接层：

全连接层作用有两个，一个是连接卷积层或其它全连接层的输出；另一个是去除空间信息（通道数），是一种将三维矩阵转变成向量的过程（一种全卷积操作）。本方案中D1、D2、D3的神经元个数分别为200、100、50个，使用Swish作为激活其函数，同时使用dropout机制策略，随机删除30％的隐藏神经单元。

（6）输出层（Softmax分类器）：

Softmax分类器是logistic回归模型在多分类问题上的推广，当分类数为2的时候会退化为Logistic分类。在多分类问题中，类标签 y 可以取两个以上的值。Softmax分类器的作用是是辨识多个不同的网络业务应用类别。

在本发明的实施例中，改进的1D-CNN模型算法引入了针对业务流量数据特性的全面数据预处理机制，从激活函数、损失函数和优化器引入CNN模型进行优化，利用交叉熵作为损失函数，并采用early stopping技术，当验证集上的损失函数的值在预设时段内变化低于预设阈值时，停止训练。

其中，模型使用的损失函数、激活函数和优化方式较之传统CNN算法改进包括：

A、利用交叉熵（CrossEntropy Loss）作为损失函数，并且采用early stopping技术，当验证集上的损失函数的值在一段时间内变化较小时，就停止训练，从而防止模型对训练数据过拟合。

B、神经网络最后一层利用Softmax作为分类器，其余各层用使用谷歌公司新提出的Swish函数代替传统1D-CNN算法使用的ReLU函数作为激活函数，其函数公式为：

其中，为x的缩放参数，在实际应用中，参数为常数，由手动设置，或者为训练的参数，由神经网络学习设置。

Swish函数使激活的效果更加准确，并采用Dropout机制丢失30％的特征，避免过拟合。

C、优化方式使用新提出的Ranger优化器代替传统1D-CNN算法使用的Adam优化器作为实现方案，Ranger优化器是在Radam（带有整流器的Adam）与Lookahead优化器基础上融合而得来的，兼顾了二者的优点。该优化器具有精度高、收敛速度快，且使用方便（不需要手动调参）的优点，使模型的优化效果在性能和精度上都得到提升。

在优化器中学习率的设计中，为了在学习的精度和效率间找到平衡，引入“退化学习率”来设置学习率的大小，即在训练刚开始时，使用大的学习率来加快速度，训练到一定程度后使用小的学习率来提高精度。在实现方案时可以采用等间隔调整学习率、多间隔调整学习率、指数衰减调整学习率、余弦退火函数调整学习率和根据指标调整学习率等方式或上诉方式的组合来实现。

在本实施例中，设计了改进的1D-CNN模型算法，引入了针对业务流量数据特性的全面数据预处理机制，并从激活函数、损失函数和优化器的改进以及对dropout、earlystopping等多种技术的引入对传统的CNN模型进行了优化，使之更适应业务应用合法性识别的场景，在识别效率和准确率上都得到提升。

在本实施例中，将所述基础数据集按照预设比例拆分成训练集和测试集，将训练集输入改进的1D-CNN分类模型中进行训练，得到识别合法业务的分类器模型时，将生成的基础数据集按照一定比例（如7:3）拆分成训练集和测试集，将训练集输入设计好的改进的1D-CNN分类模型中进行训练，得到能识别合法业务的分类器模型，再用测试集对模型进行测试，根据预先设定好的指标参数（如召回率、查准率和F1等指标）对模型进行判别，若达到设定的指标要求则可作为线上实际环境中的业务识别模型，否则对模型参数进行调整以再次测试，直到测试结果满足设定的指标要求。

当有新的合法业务加入时，将新的合法业务的特征数据获取后加入到步骤1生成的带有合法业务标记的基础数据集中，完成更新后再重新训练更新模型。

将得到的经过训练的1D-CNN分类器对待检业务应用进行分类识别，若分类结果在某一类的精度值达到预先设定的阈值，则该待检业务为对应类型的合法业务应用；若分类识别结果在所有分类中的精度值都小于阈值，则说明该业务应用不属于现有合法业务应用，是非法业务，需进行阻断并调用相应的安全措施进行处理。

本发明提出的基于改进1D-CNN算法的业务应用识别系统，应用于上述技术实施例提出的基于改进1D-CNN算法的业务应用识别方法。

本发明实施例的基于机器学习算法的业务应用识别方法，不需要人工（专家）提取网络流量的特征，直接略过了特征提取的步骤,而直接从网络数据包的级别进行应用分类，能更好适用于真实的网络环境中。

通过对原始CNN算法激活函数、优化器、分类器算法的改进，以及引入dropout、early stopping、退化学习率等多种技术，提升了模型的执行效率和分类精度，并有效避免了过拟合现象，使模型更适应合法业务应用识别这一多分类的应用场景。

需要注意的是，上述附图仅是根据本发明的实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

此外，在本发明的实施例中，还提供了一种能够实现上述基于机器学习算法的业务应用识别方法的计算机设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图4来描述根据本发明的这种实施例的计算机设备。图4显示的计算机设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备以通用计算设备的形式表现。计算机设备的组件可以包括但不限于：上述至少一个处理器401、上述至少一个存储器402、连接不同系统组件(包括存储器402和处理器401)的总线403、显示器404。

其中，所述存储器存储有程序代码，所述程序代码可以被所述处理器401执行，使得所述处理器401执行本说明书上述“的方法”部分中描述的根据本发明各种的实施例的步骤。

存储器402可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)和/或高速缓存存储器，还可以进一步包括只读存储器(ROM)。

存储器402还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线403可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

计算机设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该计算机设备交互的设备通信，和/或与使得该计算机设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器通过总线403与计算机设备的其它模块通信。应当明白，可以结合计算机设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施例的方法。

在本发明的实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“的方法”部分中描述的根据本发明各种的实施例的步骤。

在本发明的实施例中，描述了根据本发明的实施例的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于机器学习算法的业务应用识别方法，其特征在于，包括以下步骤：

在数据链路层采集对应的业务流量数据包，对采集到的数据包进行预处理得到时序特征数据，其特征在于，在线下将所有合法业务的特征数据进行获取和预处理，生成带有合法业务标记的基础数据集，包括以下步骤：

（1）在数据链路层上采集获取合法业务应用的数据集，取得用以表述合法业务应用的流量数据；

（2）对获取的业务流量数据进行对应预处理操作，并对预处理的数据进行标注，对标注后的数据标签编码，其特征在于，对获取的业务流量数据进行对应预处理操作，包括以下步骤：

1）数据链路层头部无关信息删除：移除以太网报头信息；

2）IP地址信息屏蔽：屏蔽IP报头中的IP地址信息；

3）传输层头部信息修改：在UDP分段的头部增补0使得与TCP头部长度相等，皆为固定字节长度；

4）无关数据包拒绝：删除不相关的数据包；

5）字节转换：将原始数据包转换成字节向量；

6）截取固定长度：截断大小超过1500的向量，为小于1500的字节向量填充零；

7）归一化处理：通过将每个字节除以255来规范化字节向量，取值范围归一到[0,1]区间；

（3）对数据集中各类业务应用的样本集进行随机采样，均衡各类样本的数量；

当识别结果为已知合法业务类型，则顺序通过，利用线下更新模块监控是否有新的合法业务加入，若有则将新的合法业务加入合法业务数据库，且当有业务加入时对改进的1D-CNN模型算法进行更新；

其中，改进的1D-CNN模型算法的构建方法，包括：

采用所述测试集对所述分类器模型进行测试，根据预先设定好的指标参数对模型进行判别，若达到设定的指标要求则作为线上实际环境中的业务识别模型，否则对模型参数进行调整以再次测试，直到测试结果满足设定的指标要求；

其中，改进的1D-CNN模型算法的构建方法，还包括：

2.根据权利要求1所述的基于机器学习算法的业务应用识别方法，其特征在于，所述改进的1D-CNN分类模型由输入层、卷积层、池化层、展平层、全连接层和输出层组成，所述输入层用于完成预处理、标注和编码的数据集输入至模型的输入工作；所述输出层为Softmax分类器，用于辨识多个不同的网络业务应用类别；利用交叉熵作为损失函数，并且采用earlystopping技术，当验证集上的损失函数的值在设定时间内变化低于阈值时，则停止训练；优化方式使用Ranger优化器代替传统1D-CNN算法使用的Adam优化器；在优化器中学习率是通过退化学习率设置学习率的大小。

3.根据权利要求2所述的基于机器学习算法的业务应用识别方法，其特征在于，改进的1D-CNN分类模型最后一层利用Softmax作为分类器，其余各层用Swish函数代替ReLU函数作为激活函数，并采用Dropout机制丢失30％的特征，Swish函数公式为：

4.一种基于权利要求1-3任一所述基于机器学习算法的业务应用识别方法的基于机器学习算法的业务应用识别系统，其特征在于，包括数据采集模块、数据预处理模块、神经网络分类模块、线下更新模块以及联动安全执行模块；

所述数据采集模块，用于在数据链路层采集对应的业务流量数据包；

所述数据预处理模块，用于对采集到的数据包进行预处理得到时序特征数据；

所述神经网络分类模块，用于对所述数据预处理模块输入的时序特征数据进行分类，输出得到网络应用服务流量的识别结果，所述神经网络分类模块用于基于改进的1D-CNN网络对输入的时序特征数据进行分类，输出得到网络应用服务流量的分类识别结果；其中，若所述分类识别结果为已知合法业务类型，则顺序通过，若所述分类识别结果为非法业务类型，则调用所述联动安全执行模块进行处理；

所述线下更新模块包括合法业务数据库，用于监控是否有新的合法业务，并将新的合法业务加入所述合法业务数据库，且当有业务加入时对神经网络分类模块进行更新；

所述联动安全执行模块，用于对所述网络应用服务流量的分类识别结果中的非法网络业务行为根据预设的安全策略进行联动处置。

5.根据权利要求4所述的基于机器学习算法的业务应用识别系统，其特征在于，所述数据预处理模块用于对所述数据包中会话流进行专门设计的数据预处理操作，并对数据包中数据集进行标注、标签编码以及采样处理。