CN116916318A

CN116916318A - 面向物联网设备的基于可分卷积的轻量级入侵检测方法

Info

Publication number: CN116916318A
Application number: CN202310888567.6A
Authority: CN
Inventors: 杨韬; 陈江川; 何保林; 马晓宇
Original assignee: China West Normal University
Current assignee: China West Normal University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-20

Abstract

本发明提供一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，包括以下步骤：获取物联网设备的无线网络数据，并对无线网络数据中的字符数据进行数值化；引入液态分子蒸馏原理，将数值化后的无线网络数据视为液态分子，对液态分子依次进行蒸馏和分馏操作，即将优化后的无线网络数据进行粗提纯和精提纯(DPA)；将提纯后的无线网络数据转换为二维灰度图；基于可分离小波的刚体运动卷积原理构建LSCNN模型；输入二维灰度图至LSCNN模型中进行入侵检测，判断物联网设备是否产生入侵情况。该方法基于DPA提纯数据训练的LSCNN模型相较于传统CNN算法具有更高的时间效率与检测准确率，相较于传统机器学习算法具有更高的准确率。

Description

面向物联网设备的基于可分卷积的轻量级入侵检测方法

技术领域

本发明涉及物联网技术领域，具体涉及一种面向物联网设备的基于可分卷积的轻量级入侵检测方法。

背景技术

随着物联网的高速发展，网络数据呈现体量大、维度高的特点，CNN(Convolutional Neural Network)由于其在高维数据处理上的优势已经成为主流的入侵检测方法之一。

传统基于CNN的入侵检测模型在将非结构化数据转换为图像数据过程中缺乏有效的数据提纯手段，并且训练过程中因模型结构复杂而产生过多参数，进而导致了模型时间复杂度较高及检测率较低的问题，因此限制了CNN算法在物联网入侵检测系统上的应用。

发明内容

为解决上述问题，本发明提出了一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，基于DPA提纯数据训练的LSCNN模型相较于传统CNN算法具有更高的时间效率与检测准确率；相较于传统机器学习算法具有更高的准确率。

为实现上述目的，本发明提供了如下的技术方案。

一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，包括以下步骤：

获取物联网设备的无线网络数据，并对无线网络数据中的字符数据进行数值化；

引入液态分子蒸馏原理，将数值化后的无线网络数据视为液态分子，数据空间位置视为沸点，数据间的间距视为溶解性，数据的提纯误差视为蒸馏误差，对液态分子依次进行蒸馏和分馏操作，即将优化后的无线网络数据进行粗提纯和精提纯；

将提纯后的无线网络数据转换为二维灰度图；

根据CNN模型，基于可分离小波的刚体运动卷积原理使用可分卷积结构对原有卷积结构进行改进，构建LSCNN模型；其中，LSCNN模型的多个可分卷积层后均增加交叉通道参数池化层形成SMLP卷积层；其中，LSCNN模型将原CNN模型中的全连接层改为神经元内参数共享机制的半连接层，将原分类层改为利用投票机制的分类层SoftVMax；

输入二维灰度图至LSCNN模型中进行入侵检测，判断物联网设备是否产生入侵情况。

优选地，所述对无线网络数据中的字符数据进行数值化，包括以下步骤：

将无线网络数据的字符数据通过词向量模型Word2Vec，转换生成对应的词向量；

基于K-Means算法对词向量转换结果进行聚类，计算聚类中心到原点的欧式距离；

通过计算出的欧式距离替换由词向量生成的多维向量，实现字符数据的数值化。

优选地，所述液态分子的蒸馏操作，即对液态分子混合物的粗提纯，在一定的k值范围下，进行k次蒸馏操作，得到k种馏分，重复蒸馏过程，直到满足终止条件，具体包括以下步骤：

S2.1：初始化k，种馏分其中，1≤k≤w；w表示蒸馏得到的液态分子种类数；随机选择k类液态分子的沸点作为温度参数集T＝{t_i|t_i＝(x₁,x₂,..,x_n),1≤i≤k}，作为每次蒸馏操作的沸点；

S2.2：计算每类液态分子与所选k种温度参数的溶解性S，即混合物L中，L＝{l_j|l_j＝(x₁,x₂,..,x_n)}，液态分子间的溶解性S由它们之间的距离决定，通过欧几里德距离计算：

每类液态分子l_j在与k种温度参数中溶解性最高的那种温度参数下被馏化，即馏分P_i，表示为：P_i＝{l_i}∪P_i；

S2.3：计算蒸馏误差DE_k：

如果DE_k-DE'_k！＝0，更新温度参数转执行S2；

S2.4：如果k<w,k＝k+1，转执行S2.1；

S2.5：对每一个k值，在二维空间中，蒸馏次数k及其蒸馏误差DE_k所构成的点与k-1、k+1及其对应的蒸馏误差所在直线的距离为dist_k：

蒸馏次数k+1及其蒸馏误差DE_k+1所构成的点与k、k+2及其对应的蒸馏误差所在直线的距离为dist_k+1；如果dist_k-dist_k+1为最大值，返回k、P_i。

优选地，所述液态分子的粗提纯包括：

S3.1：初始化各馏分P_i的子馏分

S3.2：计算馏分P_i中液态分子与其所对应的馏分中心的溶解性S_i；

S3.3：对溶解性S_i降序排序S_i＝rank(S_i)，返回第r×|P_i|个溶解性值：S_i[r×|P_i|]；其中，r为提纯率；

S3.4：返回各馏分Pi中溶解性最高的前r×|P_i|类液态分子，Psub_i＝{x|x∈P_i,S(x,t_k)＞S_i[r×|P_i|]}。

优选地，所述基于可分离小波的刚体运动卷积原理使用可分卷积结构对原有卷积结构进行改进，其中可分卷积算法包括以下步骤：

对于任意赋有测度的群G，通过在可分离小波的刚体运动卷积中插入仿射子群，g′g＝(v′+A′v,A′A),/>对于任意/>将可分离小波的组卷积定义为：

假设测度和小波/>是可分离的，则:

则因式分解为：

当线性粒子群时，存在一种快速卷积算法，即包含旋转矩阵r_θ,θ∈[0,2π)的旋转群G＝SO(2),相应的仿射子群/>是刚体运动群，被表示为/>包含所有的平移和旋转组合，则：

式中，内项是与旋转小波/>的二维卷积；外项是内项与一维2π周期小波/>在转动群SO(2)上的一维周期性卷积。

优选地，所述SMLP卷积层，其对输入的特征图执行加权线性重组，然后输出新的特征图。

优选地，所述神经元内参数共享机制的半连接层的计算公式为：

式中，z_j为半连接层第j类的得分，w_j为权值矩阵，x_i为半连接层的输入，n为输出的feature map数。

优选地，所述利用投票机制的分类层SoftVMax将多个神经元的输出映射到(0,1)区间内，通过正常类别与异常类别分别投票判断数据类型，其表达式为：

其中，Class表示输出类别，Class＝1表示正常数据，Class＝0表示异常数据；n_normal与n_attack分别表示训练集中正常类型与攻击类型数据的类别量；z_i与z_j分别表示半连接层输出的与正常或攻击数据所对应的概率，k为训练数据类别。

优选地，所述将提纯后的无线网络数据转换为二维灰度图，包括以下步骤：

S4.1：假设非结构化数据的维度为n；将n维非结构化数据转m×m的图像：

并将冗余部分填充为0；

S4.2：以行开始,添加每行每列的标准差到对应的行尾和列尾：

用标准差来描述行或列的弥散程度，以增加图像的特征。

S4.3：为了放大图像特征，增强图像特征，在生成的矩阵的相邻行/列之间插入相邻行/列值之和的一半。

本发明的有益效果：

本发明提出一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，该方法基于液态分子蒸馏原理提出了一种针对非结构化数据的数据提纯方法，减少了非结构化数据转图像数据过程中产生的“冗余”数据；其次，基于可分离小波的刚体运动卷积原理使用可分卷积改进CNN结构，设计了一种轻量级的检测算法LSCNN，降低了网络结构中的参数量，提升了算法的时间效率与准确率。在真实入侵检测数据集上的实验结果表明，本发明基于DPA提纯数据训练的LSCNN模型相较于传统CNN算法具有更高的时间效率与检测准确率；相较于传统机器学习算法具有更高的准确率。

附图说明

图1是本发明实施例的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法的流程图；

图2是本发明实施例的将词向量替换原数据集中出现的字符数据示意图；

图3是本发明实施例的处理后输入数据示意图；

图4是本发明实施例的蒸馏数k对蒸馏误差DE的影响DE；

图5是本发明实施例的两个相邻点与相应直线之间的差；

图6是本发明实施例的随机生成的点；

图7是本发明实施例的对随机点蒸馏的结果；

图8是本发明实施例的数据提纯的最终结果；

图9是本发明实施例的可分离小波的刚体运动卷积实现示意图；

图10是本发明实施例的可分卷积结构；

图11是传统卷积层结构；

图12是本发明实施例的SMLP卷积层；

图13是本发明实施例的模型结构对模型参数量的影响；

图14是本发明实施例的模型结构对模型计算开销的影响；

图15是本发明实施例的Half connected layer的结构示意图；

图16是本发明实施例的LSCNN的模型结构示意图；

图17是本发明实施例的九维非结构化数据转图像的过程示意图；

图18是本发明实施例的AWID和NSL-KDDs转图像示例；

图19是本发明实施例的Training time comparison on MNSIT；

图20是本发明实施例的Accuracy comparison on MNSIT；

图21是本发明实施例的Training time comparison on AWID；

图22是本发明实施例的Training time comparison on NSL-KDD；

图23是本发明实施例的Training time comparison on AWID；

图24是本发明实施例的Test time comparison on AWID；

图25是本发明实施例的The accuracy comparison ofAWID；

图26是本发明实施例的Training time comparison on NSL-KDD；

图27是本发明实施例的Test time comparison on NSL-KDD；

图28是本发明实施例的The accuracy comparison ofNSL-KDD；

图29是本发明实施例的Comparison of experimental results between AWIDand NSL-KDD。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本发明的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，具体步骤如图1所示：

S1：获取物联网设备的无线网络数据，并对无线网络数据中的字符数据进行数值化。

S2：引入液态分子蒸馏原理，将数值化后的无线网络数据视为液态分子，数据空间位置视为沸点，数据间的间距视为溶解性，数据的提纯误差视为蒸馏误差，对液态分子依次进行蒸馏和分馏操作，即将优化后的无线网络数据进行粗提纯和精提纯。

S3：将提纯后的无线网络数据转换为二维灰度图。

S4：根据CNN模型，基于可分离小波的刚体运动卷积原理使用可分卷积结构对原有卷积结构进行改进，构建LSCNN模型；其中，LSCNN模型的多个可分卷积层后均增加交叉通道参数池化层形成SMLP卷积层；其中，LSCNN模型将原CNN模型中的全连接层改为神经元内参数共享机制的半连接层，将原分类层改为利用投票机制的分类层SoftVMax。

S5：输入二维灰度图至LSCNN模型中进行入侵检测，判断物联网设备是否产生入侵情况。

本实施例中，具体的：

1.1、数据表达优化

无线网络数据样例如表1所示，(？也为其中数据样例)。AWID数据集中存在大量的字符数据(表2所示，截取了极小部分作为示例)。字符数据无法直接应用于如神经网络、支持向量机等主流机器学习算法来进行入侵检测模型的训练和测试。因此，字符数据数值化是基于机器学习的入侵检测研究的模型训练的基础。但不同研究人员在数据预处理阶段，对字符数据处理方式不尽相同，导致以该数据集为基础的入侵检测系统研究工作无法以一套统一的标准来评估。

表1Wlan Data Structure

表2Character Data

Word2Vec是谷歌在2013年所开源的一种词向量模型，能够从大量且没有标注的语料中生成词的多维向量形式，并基于词在向量空间中的相似度来计算和表达文本或词汇的语义相似度，在自然语言处理方面应用广泛。本实施例基于维基百科的英文语料库训练Word2Vec模型，该语料库文件大小约为18G,共1782835402个字符，词向量模型训练时特征向量维度为默认值500，选择默认的CBOW训练算法，通过训练生成的词向量替换原数据集中出现的字符数据，如图2所示；值得注意的是，原数据集中出现了大量的乱码数据，这些乱码字符数据大都由英文字母、阿拉伯数字以及标点符号组成，因此，本实施例将过滤乱码中的标点符号，只保留数字和字母，并将新生成的字符数据加入语料库，同时参与词向量模型的训练。

直接使用词向量的转化结果可能会导致维度的过度增加。因此，本实施例将基于K-Means算法对词向量转换结果进行聚类。K-Means是一种使用广泛的聚类算法，它主要以欧氏距离作为相似性指标，迭代求出使得评价指标最小的K个均匀分簇，并以每个聚类质心描述各类。

聚类结束后，计算聚类中心到原点的欧式距离，并利用计算出的值替换由词向量生成的多维向量，这样既实现了原始数据集中字符数据的数值化，又防止了维度过度增加，结果如图3。“CYTA_8D28”与“AegeanSecLab”是完全不相同的两个词汇，它们词向量转换的结果不同，在聚类过程中被划分到了不同类别。因此，它们数值化的结果也大不相同。“CYTA_8D28”与“CYTA_C565”是相似的词汇，虽然Word2Vec转换的向量结果存在一定的差别，但在聚类过程中，它们被划分到了同一类，数值化的结果也是一样的。综上所述，基于词向量聚类的字符数据处理方法不仅有效的实现了字符数据数值化，还保留了数据间的相似性。处理后输入数据如表3所示。

表3Wlan Data

1.2数据提纯算法

非结构化数据转换为图像数据时容易出现数据“冗余”，进而导致模型训练时间增加。即使通过随机抽取数据的方法也会导致数据集的困难程度呈随机性。因此，在数据预处理过程，去除此类“冗余”数据，实现训练数据提纯是极为必要的。

在液态分子蒸馏理论体系中，多种混合物混合而成的混合液可通过蒸馏进行分离提纯，蒸馏得到的提纯物被称为馏分。其中，蒸馏可以将沸点差别大且相互间溶解性较低的混合液态分子提纯，而分馏可以提纯沸点差别不大的液态分子。受此机制启发，本实施例提出了DPA数据提纯方法。在DPA中，如表4，非结构化数据样本被视为混合液中的液态分子，数据样本的空间位置被视为该类液态分子沸点的温度参数，样本数据间的间距视为溶解性；将数据粗提纯得到多类液态分子组成的馏分的过程视为蒸馏过程，那么每种馏分内样本数据进行精提纯的过程就可以视为分馏的过程。于是，针对非结构化数据转换为图像数据过程中的数据提纯过程即为对于一组液态分子混合物(非结构化数据样本)，通过溶解性判断将其提纯至不同馏分，然后针对每种馏分提纯与馏分中心间溶解性(样本距离)最大的部分液态分子的过程。因此，DPA分为两个阶段：蒸馏与分馏。相关定义如下：

定义1.(蒸馏温度参数集):进行蒸馏操作时设置的温度参数(所选样本数据的空间位置)，表示为T＝{t_i|t_i＝(x₁,x₂,..,x_n),1≤i≤k}，t_i为选择的某种液态分子的沸点，n为数据维度，k为选择的温度参数个数，也即是在k种温度参数下，得到了k种馏分。

定义2.(溶解性)：混合物L中，L＝{l_j|l_j＝(x₁,x₂,..,x_n)}，液态分子间的溶解性由它们之间的距离决定。在实值特征空间中，溶解性可由欧几里德距离计算：

定义3.(蒸馏误差)：蒸馏得到k种馏分所产生的误差，误差可基于馏分P_i(1≤i≤k)内液态分子与该馏分的温度参数t_i计算溶解性平方和进行表示：

定义4.(提纯率)：对蒸馏得到的各馏分进行分馏操作，最终得到与馏分中心间溶解性S相对较大的m类液态分子，m在馏分P_i的液态分子总数|P_i|的占比即为提纯率:

表4液态分子蒸馏与数据提纯基本概念对照表

1.2.2蒸馏

蒸馏是对液态分子混合物的粗提纯，在一定的k值范围下，进行k次蒸馏操作，得到k种馏分，重复蒸馏过程，直到满足终止条件(终止条件将在后续进行讨论)。具体操作步骤如下：

步骤1：初始化k种馏分其中，1≤k≤w；w表示蒸馏得到的液态分子种类数；随机选择k类液态分子的沸点作为温度参数集T＝{t_i|t_i＝(x₁,x₂,..,x_n),1≤i≤k}，作为每次蒸馏操作的沸点。

步骤2：计算每类液态分子与所选k种温度参数的溶解性S，每类液态分子l_j在与k种温度参数中溶解性最高的那种温度参数下被馏化，表示为P_i＝{l_i}∪P_i。

步骤3：计算蒸馏误差DE_k，如果DE_k-DE'_k！＝0，更新温度参数转执行步骤2；

步骤4：如果k<w,k＝k+1，转执行步骤1。

步骤5：对每一个k值，在二维空间中，蒸馏次数k及其蒸馏误差DE_k所构成的点与k-1、k+1及其对应的蒸馏误差所在直线的距离为dist_k；蒸馏次数k+1及其蒸馏误差DE_k+1所构成的点与k、k+2及其对应的蒸馏误差所在直线的距离为dist_k+1。如果dist_k-dist_k+1为最大值，返回k、P_i。

证明：

不同的馏分种类数产生的蒸馏误差不同，随着种数的增加，所产生的蒸馏误差会逐渐减小，馏分相对更纯净。然而，当达到实际馏分数时，蒸馏误差下降幅度骤减，且其变化幅度会随温度参数个数的增加而逐渐趋近于0。因此，这个幅度开始骤减的数k就是蒸馏效果最佳的温度参数个数。在二维空间中，蒸馏次数k及其蒸馏误差DE_k所构成的点与k-1、k+1及其对应的蒸馏误差所在直线的距离为dist_k；蒸馏次数k+1及其蒸馏误差DE_k+1所构成的点与k、k+2及其对应的蒸馏误差所在直线的距离为dist_k+1。分析发现，当dist_k-dist_k+1得到最大值时，k即为最佳温度参数个数。距离计算方式如下：

为验证这一说法，本实施例将使用Haberman生存者数据集(Haberman’s SurvivalData Set)、康斯威星乳腺癌数据集(Breast-Cancer-Wisconsin)、鸢尾花数据集(Iris)以及NSL-KDD攻击数据(NSL-KDD-Attack)进一步解释。图4展示了在以上四种数据集的基础上所产生的蒸馏误差变化，图5展示了每种温度参数量下所得到的距离差。图4与图5均表明四种数据集的最佳蒸馏数分别为：2、2、3、4。与此同时，这4种数据集的真实类别为：2、2、3、4。因此，证明了最佳蒸馏数选取依据的合理性。

1.2.2分馏

蒸馏结束后得到了粗提纯结果，接下来需要通过分馏对每种馏分P_i中根据提纯率r进行精提纯。在此过程中，通过预设的提纯率r，分别对每种馏分P_i(1≤i≤k)进行分馏。具体操作如下：

步骤1：初始化各馏分的子馏分

步骤2：计算P_i(1≤i≤k)中液态分子与其所对应的馏分中心的溶解性S_i。

步骤3：对溶解性S_i降序排序S_i＝rank(S_i)，返回第r×|P_i|个溶解性值，S_i[r×|P_i|]。

步骤4：返回各馏分P_i中溶解性最高的前r×|P_i|类液态分子，Psub_i＝{x|x∈P_i,S(x,t_k)＞S_i[r×|P_i|]}。

通过蒸馏与分馏操作，最终的到的各种馏分的子馏分P_subi(1≤i≤k)就是数据提纯的最终结果，也即是即将参与模型训练的数据。由于过多的非结构化数据转换图像数据时不易于展示，同时为更好的演示这一过程，本实施例在三维空间中随机生成了1000个原始数据点进行表示，如图6。首先对这些随机点进行蒸馏操作，得到了8种馏分，如图7；然后设置提纯率r＝0.5，将这8种馏分进行分馏，如图8，数据由原来的1000条数据被提纯为500条。三维非结构化数据在转换图像数据时生成为2x2的灰度图，未进行数据提纯前，共有4000个像素值参与计算；数据提纯后，仅有2000个像素值参与计算过程。由此，较少的像素值参与计算避免了模型训练过程中的冗余计算，进而节省了模型训练时间。同时，也说明DPA数据提纯算法的有效性，减少了非结构化数据转换图像数据过程中产生的“冗余”数据。DPA算法步骤如表5。

表5 DPA算法步骤

/>

2.LSCNN算法设计2.1可分卷积

对于任意赋有测度的群G，通过在可分离小波的刚体运动卷积中插入仿射子群，g′g＝(v′+A′v,A′A),/>对于任意/>将可分离小波的组卷积可定义为：

假设测度和小波/>是可分离的,则:

则可因式分解为：

当线性粒子群时，存在一种快速卷积算法，即包含旋转矩阵r_θ,θ∈[0,2π),的旋转群G＝SO(2),相应的仿射子群/>是刚体运动群，被表示为/>包含所有的平移和旋转组合。则可简写为:

式中，内项是与旋转小波/>的二维卷积；外项是内项与一维2π周期小波/>在转动群SO(2)上的一维周期性卷积，如图9，即可分离小波的刚体运动卷积实现。

传统的稠密卷积层中一些权值是高度冗余的，受这种刚体运动卷积的启发，将这种刚体运动卷积结构动态调整得出一种可分离卷积结构，如图10。传统CNN卷积层结构如图11所示。可分离卷积层可以具有与传统卷积结构相同的输入和输出深度，不仅不会丧失表达能力，还大大降低了参数量。因此可以作为稠密卷积层的替代，具有更少的冗余。这表明可分离卷积是在不丧失表达能力的情况下分解密集卷积的一种合适方法，它实现相同的精度需要的数据更少，每步的训练和预测时间也更短。

2.2SMLP convolution layers

由于传统CNN卷积层存在较大参数量与计算量，导致了模型效率低。为此，本实施例基于可分卷积提出了一种SMLP卷积层(Separable Multilayer perceptron,SMLP)，如图12。其中，可分卷积层后是交叉通道参数池化层，其对输入的特征图执行加权线性重组，然后输出新的特征图。这种与可分卷积级联的跨通道参数池化结构允许跨通道信息的复杂且可学习的交互。交叉通道参数池化层也相当于1x1卷积核的卷积层，因此这也使得SMLP卷积层更易于理解与实现。

假设输入特征图尺寸为D_{f_in}×D_{f_in}×M，卷积核尺寸为D_k×D_k×M，输出特征图尺寸为D_{f_out}×D_{f_out}×N。SMLP的参数量为：D_k×D_k×M+M×N×2；标准卷积的参数量为：(D_k×D_k×M)×N。SMLP的计算量为：M×D_k×D_k×D_{f_out}×D_{f_out}+1×1×N×D_{f_out}×D_{f_out}×2；标准卷积的计算量为：M×D_k×D_k×D_{f_out}×D_{f_out}×N。因此，SMLP的参数量为标准卷积的计算量为标准卷积的/>例如：

假设每个卷积层输入输出大小一致，图像大小均为4x4，设通道范围为(1，8)，卷积层数为(1,8)，则SMLP卷积层与传统卷积层的参数量与计算量对比如图13、图14。显然，随着通道数与卷积层数的增加，传统卷积层的参数量与计算量远高于SMLP层，且传统卷积层参数量与计算量增加幅度也越来越大呈现指数级增长。这也说明SMLP比传统卷积层更节省参数量与计算量，同时拥有更快的计算速度。

此外，一方面，卷积神经网络来源于普通神经网络，这使得多层感知器与卷积神经网络之间存在结构兼容性；另一方面，多层感知器自身就属于深度学习模型，与卷积结构结合强化非结构化数据转换的图像数据的特征提取过程，且能在模型学习过程中进行优化。这些都正好与本实施例研究高效率及高准确率模型的主旨相符，以较少的参数量与计算量实现模型，保证模型的有效性，提升模型效率。SMLP计算特征图的方法如下：

其中(i,j)为feature map中的像素索引，x_i,j为以位置(i,j)为中心的输入片,c为feature map中的通道索引，n是可分多层感知器的层数。

2.3Half connected layer

在传统的卷积神经网络结构中，全连接层(fully connected layers，FC)起到了“分类器”作用，它将由Flatten层映射feature map得到的一维数据映射到样本标记空间。需说明的是，Flatten层在处理一些常规图像数据的feature map可能会造成结构信息的丢失，但本实施例使用的是非结构化数据转换的图像数据，这种Flatten层在一定程度上弥补了这种非结构化数据转换图像数据带来的附加相关性的缺陷。

然而，全连接层在训练过程中存在过多的参数需要维护，且过多的参数量容易导致模型效率低，影响算法模型性能。同时，这也正是全连接层过度依赖于DropoutRegularization的原因。因此，本实施例提出一种神经元内参数共享机制的半连接层(Halfconnected layer)，结构如图15所示。则图中单个神经元的输出结果为：

z_j＝(0.1×0.3+0×0.3+0.1×0.3+0×0.3)+(0.1×0.1+0×0.1+0.1×0.1+0×0.1)+(0.1×0.2+0×0.2+0.1×0.2+0×0.2)＝0.12

式中，z_j为半连接层第j类的得分，w_j为权值矩阵，x_i为半连接层的输入,n为输出的feature map数。

在这种半连接层结构上，神经元内不同feature经过flatten得到的一维数据使用相同参数。这种半连接层次结构不仅保证了模型训练过程中参数的可学习状态，还还减少了全连接层的参数量，进而提升模型效率。需说明的是，这个半连接层也相当于通道参数共享的与feature map大小一致的卷积核，这也使得算法编码实现更容易。

2.4SoftVMax分类层

在前文中，本实施例提出了DPA数据提纯算法，优化得到了最具代表性的典型训练样本数据，实现了有效的提纯非结构化训练数据所转换的图像数据。为进一步保证LSCNN算法模型在这种轻量级的训练集上训练后的准确性，针对基于非结构化数据转换图像训练的LSCNN模型，本实施例提出了一种利用投票机制的分类层—SoftVMax(Soft-Vote-Max,SoftVMax)，如下式所示。SoftVMax将多个神经元的输出映射到(0,1)区间内，并且能将生成的负数映射为非常小的数，最后通过正常类别与异常类别分别投票判断数据类型。

其中Class表示输出类别，Class＝1表示正常数据，Class＝0表示异常数据；n_normal与n_attack分别表示训练集中正常类型与攻击类型数据的类别量；z_i与z_j分别表示半连接层输出的与正常或攻击数据所对应的概率，k为训练数据类别。

需说明的是，为适应模型训练过程中交叉熵损失函数的计算，模型训练过程仍然采用softmax分类，而这种多分类过程也正与前文所述对同类别数据提纯相吻合。SoftVMax层用于模型效率与有效性的验证过程中测试入侵检测的测试集数据。

2.5LSCNN模型设计

本实施例使用Pytorch学习库来训练LSCNN模型及传统CNN算法模型。LSCNN模型的完整设计如图16所示，其总体结构属于对SMLP卷积结构的堆栈，除此之外是半连接层。这两种结构相互兼容，在一种相对较低参数量的情况下转换出了一种轻量级的算法模型。模型训练过程中，本实施例使用验证集验证模型训练过程中的准确率，以模型损失率阈值作为模型训练终止条件，最后利用训练好的模型对测试集进行分类并输出准确率。LSCNN模型训练到数据预测主要包括正向传播、反向传播以及模型测试三个过程，这三个过程主要由以下6个步骤完成：

步骤1：非结构化数据处理与图像化。优化非结构化数据的数学表达，将非结构化数据转换为二维图像数据，作为LSCNN与CNN模型的输入。

步骤2：图像特征提取，进行图像数据特征提取，LSCNN存在多个SMLP卷积层,则进行多次特征提取计算。

步骤3：特征重组，将Half connected layer每个神经元得到的来自于SMLP卷积层的feature map进行特征重组，以便于接下来的分类输出。

步骤4：softmax分类。通过softmax将halfconnected layer神经元的输出映射到(0,1)区间内，并输出分类结果。Softmax计算如下(其中z为softmax层的输入，N为输入维数)：

步骤5：反向传播和参数更新。在Softmax进行分类后，首先使用交叉熵损失函数计算预测值与实际值之间的损失。交叉熵损失函数如下所示，其中p(s_i)和分别代表样本i的真实分布和预测分布，H代表最终损失值。然后根据损失值进行反向传播。反向传播过程采用Adam优化器更新各层的权值和偏差：

步骤6：模型预测SoftVMax分类。将half connected layer神经元的输出映射到(0,1)间内，并投票输出分类结果。

LSCNN算法步骤如表6，更多关于实验结果的对比与分析将在下一节进行讨论。

表6 LSCNN算法步骤

3、实验证明

本实施例首先介绍了本实施例所使用的数据集极其对应的数据转图像方法；其次通过MNIST数据集、10％的原始AWID数据集以及20％的原始NSL-KDD数据集验证模型的有效性；最后通过与传统的入侵检测方法对比入侵检测准确率及时间有效性，进而验证LSCNN算法模型的效率。在本实施例的研究中，实验过程所使用的环境为HP-Z480工作站，IntelXeon(R)CPU，64GB RAM。

入侵检测数据集介绍

要实现入侵检测模型就必须准备一套标准的数据集，其中包含能最好地描述正常数据行为、入侵方法或二者兼而有之的特点。本实施例使用到了两种公开可用的入侵检测数据集：AWID和NSL-KDD。本节将提供更多关于上述两种数据集的描述细节，以供理解。

AWID数据集是2015年发表的用于无线网络入侵检测的数据集。作者通过创建一个实际模拟典型SOHO基础设施的物理实验室，利用Kali-Linux等工具对目标发起攻击，捕获并存储相应数据流量包。AWID是目前最新、最具有效性且公开可用的针对无线网络安全问题的入侵检测数据集，并且也是研究物联网入侵检测的典型数据集之一。2021年又有研究人员详细分析了AWID数据集，通过Word2Vec等技术优化了原始AWID数据集的表达，消除了原始AWID存在字符以及数据不平衡的现象，进而提出了一个进阶版的AWID数据集。优化后的AWID同样包含154个数据特征属性，且基于该数据集的不同的研究工作将具有一致性与可比性。具体AWID数据分布如表7。在本实施例接下来的研究中，将以这个进阶版的AWID数据集为基础进行实验过程。

表7File structure of advanced AWID

NSL-KDD数据集

KDDCup99是著名的网络入侵数据集之一，其存在一个衍生数据集NSL-KDD。NSL-KDD消除了原始有Kdd Cup 99存在冗余与重复记录的现象，且调整了的分布使其更具科学性与挑战性。NSL-KDD数据集中包含一个训练集(KDDTrain⁺)和两个测试集(KDDTest⁺andKDDTest^-21)，其中KDDTest^-21省略了难度级别较高的部分样本。因此，本实施例的研究以KDDTrain⁺为训练集，KDDTest⁺为测试集。NSL-KDD每个样本包含41个异构特征，整个数据集包含五种类型的数据:normal,denial of service(DoS)attacks,remote to local(R2L)attacks,user to root(U2R)attacks,and probing(Probe)attacks,如表8。此外需说明的是，NSL-KDD数据集中存在部分字符数据，本实施例将使用One-Hot编码将其数值化。

表8Data distribution in the NSL-KDD dataset

数据提纯

AWID与NSL-KDD训练集中数据量均比较大，且这两种非结构化数据在转换图像数据过程中会出现前文所述“冗余”图像数据。此外，即使是随机抽取数据也可能会导致数据集难度出现随机性，进而影响模型训练效果。因此，本节将使用前文所述DPA算法将这两种入侵检测数据的训练集进行数据提纯。为使实验更具科学性，本实施例将基于多种不同数据量下的训练数据集进行操作，如表9、表10所示。

表9AWID的数据量对比

表10NSL-KDD的数据量对比

一维数据转二维图像

由于CNN通常用于图像识别，具有较好的图像识别能力，且其输入为灰度图或RGB图像。因此，本实施例将一维的非结构化入侵检测数据转换为二维灰度图，作为LSCNN与CNN模型结构的输入，实现入侵检测。入侵检测数据转图像的主要步骤如下：

假设非结构化数据的维度为n。

步骤1:将n维非结构化数据转m×m的图像,并将冗余部分填充为0.

步骤2:以行开始,添加每行每列的标准差到对应的行尾和列尾,用标准差来描述行或列的弥散程度，以增加图像的特征。

步骤3:为了放大图像特征，增强图像特征，在生成的矩阵的相邻行(列)之间插入相邻行(列)值之和的一半。

图17更好的展示了一维非结构化数据转换为图像数据的详细过程。图18展示了AWID与NSL-KDD入侵检测数据转换的图像数据的结果，包括正常数据与攻击数据。其中，AWID数据被转换为26×26的图像，NSL-KDD被转换为14×14的图像：

size＝m+1+(m-1)＝2m

因此，由图可见本实施例所使用入侵检测数据图像化技术是有效可行的，保留了不同数据之间的差异性。

评价指标

在物联网入侵检测的研究中，最重要的是了解模型对未知数据的预测是否准确。因此，本实施例主要使用准确率作为评价模型性能的指标来验证LSCNN模型的有效性。其中，TP(True positive)是被识别为异常的异常记录的数量。TN(True Negative)是被标识为正常的正常记录的数量。FP(False Positive)是指正常记录中出现异常的记录数。FN(False Negative)是被识别为正常的异常记录的数量。混淆矩阵如表11。本实施例使用的性能指标定义如下:

准确性:分类正确的记录数占总记录数的百分比：

表11 Confusion Matrix

模型有效性对比实验

为验证本研究所设计LSCNN模型的有效性，本节将使用MNIST数据集、AWID数据集以及NSL-KDD数据集作为训练集，训练LSCNN模型与传统CNN模型。值得一提的是，MNIST数据集由大小为28x28的手写数字0-9组成。总共有60,000张训练图像和10,000张测试图像。其中NSL-KDD与AWID均为一维数据，本节将使用前文所提及的图像化方法，将这两种入侵检测数据转换为图像数据用以训练LSCNN与CNN模型。

训练过程将Learning Rate设置为区间[0.011,0.02]，步长为0.001；以Loss Rate作为模型训练终止条件，Loss Rate设置为区间[0.051,0.06]，步长为0.001。每个LearningRate值分别与每个Loss Rate值组合(共计一百种组合)作为训练参数训练两种模型，每次训练过程迭代十次取其平均值。

MNSIT数据集训练时间实验结果对比与模型准确率对比如图19和图20所示。在完整的MNSIT数据集上，由图可分析出CNN模型训练时间为LSCNN的二倍左右，且两种模型最终的准确率差别不大，甚至会出现LSCNN模型准确率还略高于传统CNN模型的情况。分析认为LSCNN模型因其具有更少的参数量与计算量及更简单的模型结构而使得LSCNN模型较传统CNN收敛更快，所需的训练时间更短，效率更高。

图21和图22展示了AWID与NSL-KDD两种数据集上，LSCNN与传统CNN两种模型的训练时间对比。可以得出的结论是，一方面，本实施例提出的入侵检测数据转换图像数据的方法是可行的，无论传统CNN模型还是LSCNN实验模型都能学习到入侵检测图像数据的特征；另一方面，在同样的训练集上LSCNN入侵检测模型相较于传统CNN入侵检测模型能够更快拟合，训练时间更少。需说明的是，本部分将不对两种数据集的入侵检测结果进行比较，具体的结果讨论与分析将放在下一部分进行。

通过MNIST、AWID及NSL-KDD数据集的对比实验说明，LSCNN模型训练时间更短，具有更高的效率。

入侵检测实验

在前文的研究中，已经成功实现了将入侵检测数据图像化。本节将使用AWID数据集与NSL-KDD数据集进行入侵检测实验。其中LSCNN使用DPA算法处理后的数据进行训练过程，传统CNN使用未经DPA处理的数据集进行训练。实验过程中，本实施例将Learning Rate与Loss Rate均设为0.01，所有实验结果都循环十次取平均值。此外，本实施例将同时通过Random Forest、J48、Bayes、Random Tree、Adaboost、ZeroR以及OneR算法对比验证LSCNN模型性能。需说明的是，传统机器学习方法所使用的训练集与LSCNN模型训练集所对应的非结构化数据一致。

AWID入侵检测实验

对于AWID数据集，本实施例通过DPA算法对训练集数据进行提纯。处理后的训练集共7类数据，其中正常数据4类，攻击数据3类。LSCNN将使用DPA提纯后的训练数据作为训练集，而传统CNN则使用未经DPA处理的训练数据进行训练。通过前文提出的图像化方法，将AWID数据转为26×26的灰度图像，而非RGB图像。这是因为RGB图像计算量更大，需要的资源消耗更大，所需时间更长，不符合预期对高时间效率模型的定义。

在模型训练时间方面，模型训练时间对比如图23，随着训练集的增加，两种模型训练时间也随之增加。LSCNN模型由于其具有更少的参数量，以及更精炼的训练集，训练时间方面明显低于传统CNN模型。随着训练数据的增加，LSCNN模型训练时间稳定增长。然而，传统CNN模型的训练时间不仅明显高出LSCNN模型，而且训练时间增幅也会随着训练集增加而逐渐变大，训练时间逐渐高出LSCNN模型多倍。在模型测试时间方面，模型测试时间对比如图24。在使用相同测试集进行测试时，LSCNN模型由于其具有更少的参数量，在测试时间方面优于传统CNN模型，且随着测试集的增加，这种趋势更加明显。

在模型准确率方面，具体的Awid实验结果如表12，实验对比如图25。可以得出的结论是，LSCNN模型获得了最好的实验效果91.7％，优于传统CNN和其他机器学习算法，其中ZeroR与OneR算法准确率最低。LSCNN模型准确率比传统CNN模型高出7％左右，这说明相较于传统CNN模型，LSCNN模型更容易学到这种入侵检测图像数据的信息。且在较小的训练集上LSCNN模型也能有更好的检测效果，同时也说明前文提出的DPA算法是有效的，能够准确提纯出那些更具代表性的典型样本数据。通过分析发现ZeroR算法仅根据训练集统计规律选择一种概率最大的类别作为未知样本的分类结果，OneR算法仅以数据的单一属性作为分类标准，而测试集中正常数据与攻击数据的比例正好为2:1，因而ZeroR与OneR算法准确率最低。

表12The accuracy ofAwid

NSL-KDD入侵检测实验

与AWID类似，本节将针对NSL-KDD数据集进行入侵检测实验。DPA处理后的提纯版NSL-KDD中共8类数据,其中正常数据4类，攻击数据4类。本实施例将采用与AWID相同的方式将其转换为14×14的灰度图像。LSCNN使用DPA处理后的数据作为训练集，而传统CNN则以未经DPA处理的数据为训练集。此外，具体的实验方案设计也与AWID验证方案一致。

在模型训练时间方面，模型训练时间对比如图26。随着NSL-KDD训练数据的增加，两种模型训练时间同时增加，但CNN训练时间的增幅明显高于LSCNN模型，且整体训练时间为LSCNN模型2倍及以上。在测试时间方面，测试时间对比图如图27，由于LSCNN模型参数更少，所需的测试时间也极少于传统CNN模型少。

在模型准确率方面，实验结果如表13，实验效果对比如图28。可以看出，整体NSL-KDD的实验结果并不太高，最高为LSCNN模型的准确率85.1％。通过分析发现，这是因为KDDTest+测试集中存在多种训练集中未出现的攻击类别数据，使得实验难度增加。LSCNN模型效果优于其他比较模型，其中高出CNN模型6％左右。此外，由于ZeroR与OneR的算法特性它们依然获得最差效果。

表13The accuracy ofNSL-KDD

AWID数据集与NSL-KDD数据集的实验结果对比如图29。在LSCNN模型与CNN模型上，AWID数据的整体检测效果优于NSL-KDD数据，这说明深度学习模型用于入侵检测时，高维数据转换图像数据更利于模型学习与分类。在传统机器学习方面，AWID准确率略低于NSL-KDD，这是因为AIWD具有更高的数据维度，使得数据难度更大。总的来说，本实施例提出的入侵检测模型已经超过了其他传统入侵检测模型，并且能在AWID与NSL-KDD两种基准数据集上提供一个可靠的分类方法，获得很好的性能结果。最终能实现一种轻量级物联网入侵检测模型。

入侵检测预警

通过入侵检测模型对无线网络通信数据进行检测，主动发现网络中存在的异常通信流量。其中，正常流量预测输出为1，异常流量输出为0。如检测发现连续异常攻击流量，则向安全人员提示攻击预警。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，包括以下步骤：

将提纯后的无线网络数据转换为二维灰度图；

基于CNN模型，根据可分离小波的刚体运动卷积原理使用可分卷积结构对原有卷积结构进行改进，构建LSCNN模型；其中，LSCNN模型的多个可分卷积层后均增加交叉通道参数池化层形成SMLP卷积层；其中，LSCNN模型将原CNN模型中的全连接层改为神经元内参数共享机制的半连接层，将原分类层改为利用投票机制的分类层SoftVMax；

2.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述对无线网络数据中的字符数据进行数值化，包括以下步骤：

3.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述液态分子的蒸馏操作，即对液态分子混合物的粗提纯，在一定的k值范围下，进行k次蒸馏操作，得到k种馏分，重复蒸馏过程，直到满足终止条件，具体包括以下步骤：

S2.1：初始化k种馏分其中，1≤k≤w；w表示蒸馏得到的液态分子种类数；随机选择k类液态分子的沸点作为温度参数集T＝{t_i|t_i＝(x₁,x₂,..,x_n),1≤i≤k}，作为每次蒸馏操作的沸点；

S2.3：计算蒸馏误差DE_k：

如果DE_k-DE'_k！＝0，更新温度参数转执行S2；

S2.4：如果k<w,k＝k+1，转执行S2.1；

4.根据权利要求3所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述液态分子的粗提纯包括：

S3.1：初始化各馏分P_i的子馏分

5.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述基于可分离小波的刚体运动卷积原理使用可分卷积结构对原有卷积结构进行改进，其中可分卷积算法包括以下步骤：

假设测度和小波/>是可分离的，则:

则因式分解为：

6.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述SMLP卷积层，其对输入的特征图执行加权线性重组，然后输出新的特征图。

7.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述神经元内参数共享机制的半连接层的计算公式为：

8.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述利用投票机制的分类层SoftVMax将多个神经元的输出映射到(0,1)区间内，通过正常类别与异常类别分别投票判断数据类型，其表达式为：

9.根据权利要求1所述的一种面向物联网设备的基于可分卷积的轻量级入侵检测方法，其特征在于，所述将提纯后的无线网络数据转换为二维灰度图，包括以下步骤：

并将冗余部分填充为0；

用标准差来描述行或列的弥散程度，以增加图像的特征。