CN114374541A

CN114374541A - 一种基于强化学习的异常网络流量检测器生成方法

Info

Publication number: CN114374541A
Application number: CN202111545423.8A
Authority: CN
Inventors: 方智阳; 王俊峰; 耿嘉炫
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-19

Abstract

本发明公开了一种基于强化学习的异常网络流量检测器生成方法，涉及网络与信息安全技术领域，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤采用强化学习算法，模拟信息安全专家选择流量特征生成异常网络流量检测器过程，设计对应的强化学习交互环境。通过智能体不断地与环境交互，智能体从原始流量特征集合中选出高区分度的流量特征，最终将所选特征用于基于机器学习方法的异常网络流量检测器训练，最终实现对异常流量的高精度、高响应检测。

Description

一种基于强化学习的异常网络流量检测器生成方法

技术领域

本发明涉及网络与信息安全技术领域，确切地说涉及一种基于强化学习的异常网络流量检测器生成方法。

背景技术

近20年来，我国计算机网络技术不断蓬勃发展，人们的生产与生活方式逐渐受到各类互联网应用的影响。中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》中指出，截止2020年底我国网民规模已经达到了9.89亿，互联网普及率则达到了70.4％。此外，物联网和人工智能的迅猛发展也使得各种类型的网络设备甚至是智能设备接入互联网。

然而，互联网在给人们带来便利的同时，也给人们带来了一定的负面影响。根据《2020年我国互联网网络安全态势综述》显示，2020年CNCERT处置网络安全事件约10.3万起。现如今，针对我国境内网站的境外攻击、控制事件不断增加，每年CNCERT捕获计算机恶意程序样本数量约为4,200万个，日均传播次数高达约482万次；中国境内受攻击的IP地址约5,541万个，约占我国活IP地址总数的14.2％；位于境外的约5.2万个计算机恶意程序控制服务器控制了我国境内约531万台主机，以网络为主要传播途径的恶意软件不断地利用网络开展攻击，我国网络攻击事件发生的频率呈总体上升的趋势。因此，为了应对频发的网络攻击，需要有正确且有效的理论方法作为相应指导，为了解决当前所面临的问题，需要去深入了解和分析网络攻击是如何产生并造成威胁的，而网络流量作为网络攻击中的一种重要载体，对其进行研究具有极其重大的意义。

异常网络流量检测器作为网络空间中较为有效的网络流量分析工具之一，有望抵御潜在的攻击者并保护网络空间的安全。其主要功能是监视流经设备的网络流量，以捕获潜在的异常活动并阻止来自潜在攻击者的异常流量。在检测的场景中，异常网络流量检测器的基本目标是从巨大的网络流量中识别异常流量。更进一步，异常网络流量可以分为四类攻击类型，例如DoS，Probe，U2R和R2L。

目前，异常网络流量检测器主要采用基于启发式的方法构建。启发式方法主要包括了基于监督学习的机器学习方法或者是深度学习方法，然而，基于监督学习的机器学习方法需要从网络流量样本中提取特征并训练检测器，而依靠专家知识和领域经验提取的特征并非一定是准确的，过多的特征也会导致异常网络流量检测器无法快速地鉴别异常行为，此外，穷尽流量特征子集与训练算法的组合是不切实际的；进一步的，许多设计人员倾向于在构造异常网络流量检测器时更专注于检测的准确性，却忽略了某些其它的检测成果指标，然而，这导致了所构建的恶意流量检测器在误警率和漏警率方面的性能较差，可这二者对于模型的性能而言是同样重要的。

同样的，基于深度学习方法所构建的异常网络流量检测器虽然有较高的检测准确率，但是其检测过程相比于基于机器学习方法所生成的检测器更为耗时。

因此，现在亟需一种可行、新颖，并且更为可靠的异常网络流量检测器生成方法。

发明内容

本发明目的在于针对上述问题，提供一种具备快速并准确识别异常网络流量能力的、基于机器学习方法的异常网络流量检测器生成方法。

本发明提供的这一种基于强化学习的异常网络流量检测器生成方法，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤；

所述网络流量样本获取步骤，获取包含正常网络流量和异常网络流量的网络流量样本，并对网络流量样本进行预处理，使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征，即获得明确已知含且能够区分的正常网络流量和异常网络流量的数据对象作为模型训练、学习、评价时的标准库。

优选地，所述网络流量样本获取步骤中，异常网络流量的类型包括DoS、Probe、U2R和R2L中的一种或者多种。

进一步的，所述网络流量样本获取步骤中，对网络流量样本进行预处理，具体的，是对网络流量样本中的非数字特征进行数字化操作，然后对所有数字特征进行归一化处理，通过预处理将所有的数据特征全部转换为便于智能模型识别和学习的二进制表达形式。

所述智能模型设置步骤，初始化智能模型，可根据先验阈值参数体系设置智能模型强化学习的环境、动作空间与状态空间，智能模型本身可以有多种的选择，AI模型等均可采用，而不同的模型选择则需要根据需求对应设置参数体系和具体参数，其中，所述环境中包括含有若干种可调用的机器学习算法的算法池，即存在一批量的可供模型选用调用的机器学习算法；设定对智能模型的奖励函数，并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法。

优选地，所述智能模型设置步骤中，环境中算法池所包含的机器学习算法至少包括随机森林(RF)算法、KNN(K近邻)算法、决策树(DT)算法、朴素贝叶斯(NB)算法、人工神经网络(ANN)算法、支持向量机(SVM)、AdaBoost算法和装袋(Bagging)算法。

进一步的，所述智能模型设置步骤中，奖励函数为

其中，ω_a、ω_p以及ω_r为对应的权重系数，而r_a、r_p以及r_r分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量，即，根据模型识别对象以及数据复杂程度、结果需求偏好等，可以通过权重系数的调整来适配，而奖励分值这是基于本申请这种特定环境和目的设计的评分体系，根据这个体系，可以将模型的测试结果转换为直观的、量化的结论进行评比选择。

更为优选地，所述权重系数ω_a、ω_p以及ω_r的取值分别为0.4、0.3以及0.3。

更进一步的，所述异常流量检测器的检测准确率r_a、精确率r_p以及召回率r_r的奖励值分量的取值为：

其中，pre_a，p，r表示使用上一轮次中智能体选择的特征生成的恶意流量检测器所能获得的准确率、精确率和召回率。

所述强化学习模型构建步骤，选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数；其中一个前馈深度Q网络用于训练所述智能模型进行强化学习，另一个用于输出Q值指导所述智能模型做出决策，

优选地，所述强化学习模型构建步骤中，所述前馈深度Q网络的结构一致，每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层；其中，第一个隐藏层含有128个神经元，第二个隐藏层含有64个神经元，神经元的激活函数均为ReLU激活函数，同时还加入了防止模型过拟合的Dropout机制，所述输出层含有41个输出值，对应的，所述动作空间的41个动作。

更为优选地，所述强化学习模型的超参数初始化的设定如下：

折扣系数gamma＝0.99；

Q-Learning网络的更新间隔为5轮次更新一次；

单次输入网络的最小样本数量为16个；

采用经验回放机制，经验回放池的大小为50000；

开始采用经验回放机制的时机为算法执行了200轮次以后；

采用探索和利用策略，一开始探索参数为1，终止条件为0.3。

所述特征集合选择步骤，在所述强化学习模型构建步骤中得到强化学习模型的指导下、通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征，并纳入已选特征集合；

进一步的，所述特征集合选择步骤中，是通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改，来防止智能模型从原始网络流量的特征集中重复选取同一个特征。

所述检测评价步骤，基于所述特征集合选择步骤中的特征集合，通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器，并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并革根据所述智能模型设置步骤中的奖励函数计算得到奖励；

进一步的，所述检测评价步骤中，所评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、误警率(False Alarm Rate)、漏警率(Miss Alarm Rate)和单流量样本检测率(Test Time Per Sample)。

更为优选地，所述检测评价步骤中，利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中，将所得到的当前的状态、当前的动作以及奖励反馈给智能模型，如果已经达到终止状态，即智能模型所选特征数量已达设置上限，则进入下一轮次的训练，否则跳转至所述特征集合选择步骤继续进行特征选取。

所述检测器生成步骤，当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时，对所有备选异常网络流量检测器对应的智能模型进行评估，获得所有智能模型中最优流量特征子集所对应的机器学习算法，并生成最终的异常网络流量检测器。

有益效果

与现有技术相比，本发明的有益效果是：

本方法采用强化学习算法，模拟信息安全专家选择流量特征生成异常网络流量检测器过程，设计对应的强化学习交互环境。通过智能体不断地与环境交互，智能体从原始流量特征集合中选出高区分度的流量特征，最终将所选特征用于基于机器学习方法的异常网络流量检测器训练，最终实现对异常流量的高精度、高响应检测。

本发明方法与其他的异常网络流量检测器生成方法相比，更易于实现且无需人工选择流量特征；本发明中基于强化学习的异常网络流量检测器生成方法，对于不同的流量数据集以及不同的初始流量特征，都能自动、有效地选择出高区分度的流量特征，最终生成高性能的异常网络流量检测器；所生成的检测器足够轻量，具备快速并准确识别异常网络流量的能力，同时有较低的误警率和漏警率。

附图说明

本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚，其中：

图1是基于强化学习的异常网络流量检测器生成框架图；

图2是训练过程中奖励值随训练过程变化趋势图；

图3是强化学习智能体所采用的DQN网络结构图；

图4是强化学习智能体训练过程中的决策过程图。

具体实施方式

下面通过具体的实施例来进一步说明实现本发明目的技术方案，需要说明的是，本发明要求保护的技术方案包括但不限于以下实施例。

实施例1

作为本发明一种最基本的实施方案，本实施例提供的这一种基于强化学习的异常网络流量检测器生成方法，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤，采用强化学习算法，模拟信息安全专家选择流量特征生成异常网络流量检测器过程，设计对应的强化学习交互环境。通过智能体不断地与环境交互，智能体从原始流量特征集合中选出高区分度的流量特征，最终将所选特征用于基于机器学习方法的异常网络流量检测器训练，最终实现对异常流量的高精度、高响应检测。

具体的，如图1所示：

所述网络流量样本获取步骤，获取包含正常网络流量和异常网络流量的网络流量样本，并对网络流量样本进行预处理，使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征，其中，异常网络流量的类型包括DoS、Probe、U2R和R2L中的一种或者多种，即获得明确已知含且能够区分的正常网络流量和异常网络流量的数据对象作为模型训练、学习、评价时的标准库。

所述强化学习模型构建步骤，如图3所示，选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数；其中一个前馈深度Q网络用于训练所述智能模型进行强化学习，另一个用于输出Q值指导所述智能模型做出决策。DeepQ-Learning网络是结合了神经网络的Q-Learning方法，Deep Q-Learning(DQN)，通过在探索的过程中训练网络，最后所达到的目标就是将当前状态输入，得到的输出就是对应它的动作值函数，也即f(s)＝q(s，a)，这个f就是训练的网络，这个动作值函数就可以作为训练和指导智能模型进行异常识别的可控工具。

所示检测评价步骤，基于所述特征集合选择步骤中的特征集合，如图4，通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器，并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并革根据所述智能模型设置步骤中的奖励函数计算得到奖励。

所示检测器生成步骤，当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时，对所有备选异常网络流量检测器对应的智能模型进行评估，获得所有智能模型中最优流量特征子集所对应的机器学习算法，并生成最终的异常网络流量检测器。

实施例2

作为本发明一种优选地实施方案，本实施例提供的这一种基于强化学习的异常网络流量检测器生成方法，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤，采用强化学习算法，模拟信息安全专家选择流量特征生成异常网络流量检测器过程，设计对应的强化学习交互环境。通过智能体不断地与环境交互，智能体从原始流量特征集合中选出高区分度的流量特征，最终将所选特征用于基于机器学习方法的异常网络流量检测器训练，最终实现对异常流量的高精度、高响应检测。

具体的，如图1所示：

所述网络流量样本获取步骤，获取包含正常网络流量和异常网络流量的网络流量样本，并对网络流量样本进行预处理，将网络流量样本中的非数字特征进行数字化操作，然后对所有数字特征进行归一化处理，使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征，其中，异常网络流量的类型包括DoS、Probe、U2R和R2L中的一种或者多种，即获得明确已知含且能够区分的正常网络流量和异常网络流量的数据对象作为模型训练、学习、评价时的标准库。

所述智能模型设置步骤，初始化智能模型，可根据先验阈值参数体系设置智能模型强化学习的环境、动作空间与状态空间，智能模型本身可以有多种的选择，AI模型等均可采用，而不同的模型选择则需要根据需求对应设置参数体系和具体参数，其中，所述环境中包括含有若干种可调用的机器学习算法的算法池，机器学习算法至少包括随机森林(RF)算法、KNN(K近邻)算法、决策树(DT)算法、朴素贝叶斯(NB)算法、人工神经网络(ANN)算法、支持向量机(SVM)、AdaBoost算法和装袋(Bagging)算法。

并且设定对智能模型的奖励函数

其中，ω_a、ω_p以及ω_r为对应的权重系数，取值分别为0.4、0.3以及0.3；而r_a、r_p以及r_r分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量，其取值为：

并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法。

所述强化学习模型构建步骤，如图3所示，选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数，Deep Q-Learning网络是结合了神经网络的Q-Learning方法，Deep Q-Learning(DQN)，通过在探索的过程中训练网络，最后所达到的目标就是将当前状态输入，得到的输出就是对应它的动作值函数，也即f(s)＝q(s，a)，这个f就是训练的网络，这个动作值函数就可以作为训练和指导智能模型进行异常识别的可控工具；两个前馈深度Q网络，一个前馈深度Q网络用于训练所述智能模型进行强化学习，另一个用于输出Q值指导所述智能模型做出决策，每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层；其中，第一个隐藏层含有128个神经元，第二个隐藏层含有64个神经元，神经元的激活函数均为ReLU激活函数，同时还加入了防止模型过拟合的Dropout机制，所述输出层含有41个输出值，对应的，所述动作空间的41个动作。

而所述强化学习模型的超参数初始化的设定如下：

折扣系数gamma＝0.99；

Q-Learning网络的更新间隔为5轮次更新一次；

单次输入网络的最小样本数量为16个；

采用经验回放机制，经验回放池的大小为50000；

开始采用经验回放机制的时机为算法执行了200轮次以后；

采用探索和利用策略，一开始探索参数为1，终止条件为0.3。

所示特征集合选择步骤，在所述强化学习模型构建步骤中得到强化学习模型的指导下、通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征，并纳入已选特征集合；且整个过程中，通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改，来防止智能模型从原始网络流量的特征集中重复选取同一个特征。

其中，所评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、误警率(False Alarm Rate)、漏警率(Miss Alarm Rate)和单流量样本检测率(Test TimePer Sample)，而训练过程中奖励值随训练过程变化趋势则如图2所示。

并且，利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中，将所得到的当前的状态、当前的动作以及奖励反馈给智能模型，如果已经达到终止状态，即智能模型所选特征数量已达设置上限，则进入下一轮次的训练，否则跳转至所述特征集合选择步骤继续进行特征选取

Claims

1.一种基于强化学习的异常网络流量检测器生成方法，其特征在于，包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤：

所述网络流量样本获取步骤，获取包含正常网络流量和异常网络流量的网络流量样本，并对网络流量样本进行预处理，使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征；

所述智能模型设置步骤，初始化智能模型，设置智能模型强化学习的环境、动作空间与状态空间，其中，所述环境中包括含有若干种可调用的机器学习算法的算法池；设定对智能模型的奖励函数，并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法；

所述强化学习模型构建步骤，选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数；其中一个前馈深度Q网络用于训练所述智能模型进行强化学习，另一个用于输出Q值指导所述智能模型做出决策；

所述检测评价步骤，基于所述特征集合选择步骤中的特征集合，通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器，并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并根据所述智能模型设置步骤中的奖励函数计算得到奖励；

2.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述网络流量样本获取步骤中，对网络流量样本进行预处理，具体的，是对网络流量样本中的非数字特征进行数字化操作，然后对所有数字特征进行归一化处理。

3.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述智能模型设置步骤中，奖励函数为

其中，ω_a、ω_p以及ω_r为对应的权重系数，而r_a、r_p以及r_r分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量。

4.如权利要求3所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述权重系数ω_a、ω_p以及ω_r的取值分别为0.4、0.3以及0.3。

5.如权利要求3或4所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于，所述异常流量检测器的检测准确率r_a、精确率r_p以及召回率r_r的奖励值分量的取值为：

6.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述强化学习模型构建步骤中，所述前馈深度Q网络的结构一致，每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层；其中，第一个隐藏层含有128个神经元，第二个隐藏层含有64个神经元，神经元的激活函数均为ReLU激活函数，同时还加入了防止模型过拟合的Dropout机制，所述输出层含有41个输出值，对应的，所述动作空间的41个动作。

7.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于，所述强化学习模型的超参数初始化的设定如下：

折扣系数gamma＝0.99；

Q-Learning网络的更新间隔为5轮次更新一次；

单次输入网络的最小样本数量为16个；

采用经验回放机制，经验回放池的大小为50000；

开始采用经验回放机制的时机为算法执行了200轮次以后；

采用探索和利用策略，一开始探索参数为1，终止条件为0.3。

8.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述特征集合选择步骤中，是通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改，来防止智能模型从原始网络流量的特征集中重复选取同一个特征。

9.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述检测评价步骤中，所评价指标包括准确率、精确率、召回率、误警率、漏警率和单流量样本检测率。

10.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法，其特征在于：所述检测评价步骤中，利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中，将所得到的当前的状态、当前的动作以及奖励反馈给智能模型，如果已经达到终止状态，即智能模型所选特征数量已达设置上限，则进入下一轮次的训练，否则跳转至所述特征集合选择步骤继续进行特征选取。