CN115801463B

CN115801463B - 工业互联网平台入侵检测的方法、装置和电子设备

Info

Publication number: CN115801463B
Application number: CN202310065294.5A
Authority: CN
Inventors: 马兵; 尹旭; 张烁; 续敏; 王玉石; 刘建斌; 包明明; 朱运恒
Original assignee: Shandong Energy Shuzhiyun Technology Co ltd
Current assignee: Shandong Energy Shuzhiyun Technology Co ltd
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-04-18
Anticipated expiration: 2043-02-06
Also published as: CN115801463A

Abstract

本发明提供了一种工业互联网平台入侵检测的方法、装置和电子设备，属于工业互联网入侵检测的技术领域，该方法中，提出了一种基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，能够实现在稀疏区域生成更多的合成训练数据来增加其密度，以减少类内不平衡，保证了各类训练数据的数量均衡，另外，在采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练时，采用了基于有限搜索的蚁群算法对初始分类模型的参数进行优化，避免了传统梯度下降算法容易导致的梯度消失和梯度爆炸问题，同时避免了参数寻优过程中陷入局部最优解的现象，最终得到的特征提取模型和分类模型的鲁棒性好，泛化能力好。

Description

工业互联网平台入侵检测的方法、装置和电子设备

技术领域

本发明涉及工业互联网入侵检测的技术领域，尤其是涉及一种工业互联网平台入侵检测的方法、装置和电子设备。

背景技术

工业互联网作为第三代工业控制系统，是指满足工业智能化发展需求，具有低延时、高可靠、广覆盖特点的关键网络基础设施。随着5G基础设施建设，以及云计算、大数据和人工智能等新兴技术的兴起，工业互联网已经迅速完成了从提出构想到解决方案落地的进程。作为最新一代的工业控制系统，工业互联网不仅将生产机器、自动控制器和传感器等工业生产设备与企业的生产控制中心、决策管理部门紧密地联系在一起，而且将产业链上游的供应商、下游的销售商甚至是消费者都紧密地联系在一起。工业互联网平台是面向制造业数字化、网络化、智能化需求，构建基于海量数据采集、汇聚、分析的服务体系，支撑制造资源泛在连接、弹性供给、高效配置的工业云平台。

工业互联网平台入侵检测即对网络中违反安全策略的行为进行审计的过程。将潜在的、有预谋的、未经授权访问的、企图使系统不可靠或无法使用的行为称为入侵攻击，入侵检测系统与防火墙系统作为被动安全系统，可以在不影响网络性能的情况下为计算机网络提供安全保障，且相比于主动安全系统，其部署所花费的代价开销较小。同时，相比于防火墙系统，入侵检测系统的部署节点更加灵活，且可以提供粒度更加精细的安全服务。

工业互联网在为工业生产控制带来便利、提高企业效率和利润的同时，也将早先相对封闭的工业控制网络部分暴露于更易接入的互联网中。同时，工业互联网攻击展现出的强大破坏力，势必会使其成为现代战争中网络战争的重要手段之一，也会为不法分子所利用。然而，目前针对工业互联网的入侵检测的研究仍然处于起始阶段，检测手段多依赖于互联网的入侵检测方法，完整的大型数据集也严重缺失。因此，有必要专门针对工业互联网平台提出一种用于工业互联网平台入侵检测的算法，其检测结果的各项指标应满足实际应用的要求。

现有的工业互联网平台入侵检测方法中，基于传统机器学习的方法分类精度较低，而基于深度学习的方法难以充分利用有效特征，同时对于模型的训练容易产生梯度消失和梯度爆炸等现象，以及网络模型在参数寻优时容易陷入局部最优解，导致最终训练得到的模型鲁棒性差。此外，现有的工业互联网平台入侵检测数据集通常存在数据不均衡现象，容易导致训练出来的模型更倾向于分类样本数据较多的类别，而弱化样本数量较少的类别，即训练得到的模型鲁棒性差，泛化能力差，最终导致模型的分类精度低。

综上，现有的工业互联网平台入侵检测的方法存在检测精度低、准确性差的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种工业互联网平台入侵检测的方法、装置和电子设备，以缓解现有的工业互联网平台入侵检测的方法检测精度低、准确性差的技术问题。

第一方面，本发明实施例提供了一种工业互联网平台入侵检测的方法，包括：

对目标训练数据集中的训练数据进行预处理，得到预处理后的训练数据；

采用皮尔逊算法计算所述预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在所述各特征中确定目标特征，进而得到目标特征对应的训练数据；

对所述目标特征对应的训练数据中的字符型特征值进行数值化处理，并对数值化处理后的训练数据进行归一化处理，得到归一化后的训练数据；

基于稀疏系数的SMOTE算法对所述归一化后的训练数据进行扩充，得到扩充后的训练数据；

采用所述扩充后的训练数据对初始特征提取模型和初始分类模型进行训练，得到训练好的特征提取模型和分类模型，其中，训练时，采用基于有限搜索的蚁群算法对所述初始分类模型的参数进行优化；

基于所述特征提取模型和所述分类模型对待检测数据进行工业互联网平台的入侵检测，得到所述工业互联网平台的入侵检测结果。

在本发明实施例中，提供了一种工业互联网平台入侵检测的方法，包括：对目标训练数据集中的训练数据进行预处理，得到预处理后的训练数据；采用皮尔逊算法计算预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在各特征中确定目标特征，进而得到目标特征对应的训练数据；对目标特征对应的训练数据中的字符型特征值进行数值化处理，并对数值化处理后的训练数据进行归一化处理，得到归一化后的训练数据；基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，得到扩充后的训练数据；采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练，得到训练好的特征提取模型和分类模型，其中，训练时，采用基于有限搜索的蚁群算法对初始分类模型的参数进行优化；基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测，得到工业互联网平台的入侵检测结果。通过上述描述可知，本发明的工业互联网平台入侵检测的方法中，提出了一种基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，能够实现在稀疏区域生成更多的合成训练数据来增加其密度，以减少类内不平衡，保证了各类训练数据的数量均衡，另外，在采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练时，采用了基于有限搜索的蚁群算法对初始分类模型的参数进行优化，避免了传统梯度下降算法容易导致的梯度消失和梯度爆炸问题，同时避免了参数寻优过程中陷入局部最优解的现象，最终得到的特征提取模型和分类模型的鲁棒性好，泛化能力好，进而基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测时，入侵检测结果的精度高，准确性好，缓解了现有的工业互联网平台入侵检测的方法检测精度低、准确性差的技术问题。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种工业互联网平台入侵检测的方法的流程图；

图2为本发明实施例提供的基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充的流程图；

图3为本发明实施例提供的训练数据的样本实例的分布示意图；

图4为本发明实施例提供的初始特征提取模型的结构示意图；

图5为本发明实施例提供的双向长短期记忆网络的网络结构示意图；

图6为本发明实施例提供的LSTM模型的结构示意图；

图7为本发明实施例提供的一种工业互联网平台入侵检测的装置的示意图；

图8为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的工业互联网平台入侵检测的方法检测精度低、准确性差。

基于此，本发明的工业互联网平台入侵检测的方法中，提出了一种基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，能够实现在稀疏区域生成更多的合成训练数据来增加其密度，以减少类内不平衡，保证了各类训练数据的数量均衡，另外，在采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练时，采用了基于有限搜索的蚁群算法对初始分类模型的参数进行优化，避免了传统梯度下降算法容易导致的梯度消失和梯度爆炸问题，同时避免了参数寻优过程中陷入局部最优解的现象，最终得到的特征提取模型和分类模型的鲁棒性好，泛化能力好，进而基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测时，入侵检测结果的精度高，准确性好。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种工业互联网平台入侵检测的方法进行详细介绍。

实施例一：

根据本发明实施例，提供了一种工业互联网平台入侵检测的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种工业互联网平台入侵检测的方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，对目标训练数据集中的训练数据进行预处理，得到预处理后的训练数据；

在工业互联网平台入侵检测的建模研究中，算法所需的训练数据集和测试数据集等的获取主要有以下两种方法：一是通过在实验室搭建完整的仿真环境（如：安全堡垒机、安全数据库服务器等）自主获取完整的训练数据集，这种方法的针对性较强，可以根据需要仿真的具体网络环境来获取特定的训练数据集，进而构建特定的入侵攻击检测模型。但是这种方法也存在着开销大、数据集数据规模较小和数据集定制化导致的模型泛化性较差等问题；二是使用已有常用的互联网入侵检测数据集，再对其进行处理和改进。对于使用Modbus-TCP协议作为主要通信协议的SPI架构工业互联网，对互联网入侵检测数据集进行处理后，应用于工业互联网平台入侵检测是可行的。这些互联网入侵检测数据集由于使用较为广泛，并且历经官方的多次修改，具有数据规模大、入侵攻击类型全面等优势，同时便于与同样使用该数据集的入侵检测算法进行性能比较。

因此，本发明采用NSL-KDD数据集作为工业互联网平台入侵检测的目标训练数据集，该数据集包含4898431条数据，每条数据包含49个特征，即数据集的特征维度为49，特征包括：连接端口、连接时间、是否为首次连接等信息，数据集共划分为39类入侵攻击检测类别。

目标训练数据集NSL-KDD中包含一些对入侵攻击分类无用的数据，可以先对其进行预处理，得到预处理后的训练数据，下文中再对该过程进行详细描述，在此不再赘述。

步骤S102，采用皮尔逊算法计算预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在各特征中确定目标特征，进而得到目标特征对应的训练数据；

具体的，预处理后的训练数据中包含的特征多，一些特征对入侵攻击行为分类无明显价值，需要对其进行去除，所以，本发明采用皮尔逊算法计算预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在各特征中确定目标特征，下文中再对该过程进行详细描述，在此不再赘述。

步骤S103，对目标特征对应的训练数据中的字符型特征值进行数值化处理，并对数值化处理后的训练数据进行归一化处理，得到归一化后的训练数据；

具体的，对于目标特征对应的训练数据中，一些字符型向量，如protocol_type（协议类型）、service（服务类型）以及flag（连接状态）等基本特征属性，对于后续的机器模型算法可能无法进行处理，因此对此类特征进行字符型向数值型转化。

本发明采用广泛使用、简单易操作的独热编码技术，对于有N种不同状态的某一特征使用N位状态寄存器来进行编码区分，某一状态只有一位为1，其余皆为0。例如protocol_type对应的三种协议TCP、UDP、ICMP使用独热编码进行数值化后变化为100、010、001三种形式。

另外，在连续型特征内，如num_root(root账号访问次数)、count(连接次数)等特征的取值范围可从0到几百几千，而离散型特征如logged_in(是否登陆成功)、root_shell(是否获得rootshell)的取值只有0、1两个选择。因此，特征间的数值大小差距较为明显，数值过大的训练数据对模型的训练速度、收敛情况都存在着较大影响，为加速分类模型的收敛，确定正确梯度下降方向，对训练数据进行归一化使得样本训练数据数据控制在[0,1]之间。

本发明使用min-max归一化方法，具体公式如下所示：，其中，表示归一化后的训练数据，表示当前要进行归一化的数据（即数值化处理后的训练数据），表示数值化处理后的训练数据中最小的数据，表示数值化处理后的训练数据中最大的数据。

对数值化处理后的训练数据的全部特征取值进行归一化处理，确保取值均为[0,1]间浮点数，消除奇异样本数据，方便对各特征进行综合平等的对比评价。

步骤S104，基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，得到扩充后的训练数据；

上述基于稀疏系数的SMOTE算法能够在稀疏区域生成更多的合成训练数据来增加其密度，以减少类内不平衡，保证了各类训练数据的数量均衡，能够为后续的特征提取和分类器的训练提供帮助。所提出的基于稀疏系数的SMOTE算法解决了传统SMOTE算法容易产生类内不平衡的现象。下文中再对该过程进行详细描述，在此不再赘述。

步骤S105，采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练，得到训练好的特征提取模型和分类模型，其中，训练时，采用基于有限搜索的蚁群算法对初始分类模型的参数进行优化；

具体的，通过分类器实现工业互联网平台的入侵检测。在改进方面，基于有限搜索的蚁群算法对初始分类模型中的参数进行优化，避免了传统梯度下降算法容易导致的梯度消失和梯度爆炸问题，同时避免了参数寻优过程中陷入局部最优解的现象。同时，相比较于传统的蚁群算法，本发明提出的基于有限搜索的蚁群算法加入部分有限搜索避免局部极值。下文中再对该过程进行详细描述。

步骤S106，基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测，得到工业互联网平台的入侵检测结果。

具体的，上述待检测数据即为需要进行入侵检测的数据，在得到待检测数据后，按照上述步骤S102中确定的目标特征，确定目标特征对应的待检测数据，并对其进行数值化处理和归一化处理，之后再将归一化处理后的待检测数据输入至特征提取模型，进而分类模型输出该待检测数据对应的工业互联网平台的入侵检测结果，即具体的入侵攻击类型。

上述内容对本发明的工业互联网平台入侵检测的方法进行了简要介绍，下面对其中涉及到的具体内容进行详细描述。

在本发明的一个可选实施例中，上述步骤S101，对目标训练数据集中的训练数据进行预处理，具体包括如下步骤：

（1）对目标训练数据集中的目标协议的训练数据进行删除，得到第一删除后的训练数据；

具体的，本发明所采用的NSL-KDD数据集中有一些数据并不会出现在SPI架构下Modbus-TCP协议的通信中，需要对这部分数据进行删除，以提高目标训练数据集的质量。同时，NSL-KDD数据集中也存在着一些错误，这些错误在研究人员使用NSL-KDD数据集时不断被发现，官方定期会对已经发现的错误进行公告，并及时发布修正后的数据集。因此，在本发明的数据清洗步骤中，包括：错误剔除、数据删除2部分操作。

错误剔除是通过人工检查的方式剔除错误数据。

在NSL-KDD数据集中，不但存在着使用TCP协议的连接，还存在着大量使用UDP协议、ICMP协议的连接。使用UDP协议（即目标协议）的连接不会出现在使用Modbus-TCP协议的工业互联网通信中，故这些数据段应当予以删除，而使用ICMP协议的连接负责传递网络层IP协议数据报的情况，并广泛应用于TCP 连接的差错通知，且在使用Modbus-TCP协议的工业互联网通信中可能会出现该类型的连接，故在NSL-KDD数据集，相关数据段应予以保留。

（2）在第一删除后的训练数据中，若第一目标训练数据存在特征值缺失，且第一删除后的训练数据中与第一目标训练数据属于相同的入侵攻击类型的训练数据的数量达到第一预设阈值，则将第一目标训练数据删除，得到第二删除后的训练数据，其中，第一目标训练数据为第一删除后的训练数据中存在特征值缺失的训练数据；

在得到第一删除后的训练数据后，需要对第一删除后的训练数据内频繁出现的但是对入侵行为分类无明显价值的数据进行过滤，从传输协议角度来说，数据集内可能存在重复、冗余、冲突、关键值缺失等问题，这些问题都会对后续的模型分类训练造成影响，因此为了剔除数据集内的重复数据、纠正存在的错误数据、保证数据一致性，需要对采集后的数据进一步加以校验和清洗。

在数据清洗前，先对第一删除后的训练数据进行备份。针对存在缺失的数据，若经过检查后发现存在关键数据信息严重缺失，且在数据集内同类入侵攻击类型样本足够多（即数量达到第一预设阈值）的情况下，将该条训练数据进行直接剔除。

（3）在第二删除后的训练数据中，若第二目标训练数据存在特征值缺失，且第二删除后的训练数据中与第二目标训练数据属于相同的入侵攻击类型的训练数据的数量未达到第一预设阈值，则对第二目标训练数据中存在缺失的特征值进行填充，得到填充后的训练数据，其中，第二目标训练数据为第二删除后的训练数据中存在特征值缺失的训练数据；

具体的，对于小数据集样本（即数量达到第一预设阈值）剔除过多训练数据会破坏数据集的分布平衡性，同时训练数据若为连续攻击中的一环，直接剔除可能会造成完整性破坏。因此，针对部分存在缺失的数据集进行填补缺失。

由于入侵检测行为在一定程度上存在连续性与时序性，所以在缺值填充时不能选择简单的均值法求平均值或众数进行填充，采用K-近邻算法，按时序排列的训练数据包其上下训练数据进行比对与分析。针对数值型数据缺失情况，采取按时序排列后选取周围数据相同字段进行均值填充的方式，非数值型数据则采取临近值填充方式。

（4）采用非参数验证的卡方检验方法对填充后的训练数据进行检测，若检测得到填充后的训练数据中存在第三目标训练数据错误，则删除第三目标训练数据，得到预处理后的训练数据，其中，第三目标训练数据为填充后的训练数据中存在错误的训练数据。

具体的，针对采集工具可能引起或批处理时产生的错误数据，采取非参数验证的卡方检验方法进行检测，对疑似的错误数据与正常数据的之间的偏离值进行统计，偏离值越大说明数据异常的可能性越高，偏离值越小说明数据为正常数据的可能性越大。卡方统计的公式如下所示：，其中，表示正常数据，表示疑似的错误数据，表示正常数据与疑似的错误数据之间的差异程度，即偏移值，得到偏移值后，进行查表与临界值进行对比，判断训练数据是否为错误数据，如认定为是则直接剔除，若偏移量过小可认定为正常训练数据进行保留。

在本发明的一个可选实施例中，采用皮尔逊算法计算预处理后的训练数据的各特征与入侵攻击行为之间的相关度，具体包括如下步骤：

采用相关度计算算式计算各特征与入侵攻击行为之间的相关度，其中，表示第j个特征的特征值与入侵攻击行为的相关度，n表示预处理后的训练数据的总数量，表示所有入侵特征向量的第j个特征的均值，表示所有的入侵攻击类型的均值，表示是对于所有特征取均值的特征值，，，表示第j个预处理后的训练数据的入侵攻击类型向量，m表示入侵特征向量的数量，表示第i个预处理后的训练数据的入侵攻击类型向量，表示所有入侵特征向量的第i个特征的均值，表示预处理后的训练数据集内第i个预处理后的训练数据内第j个特征的特征值。

具体的，本发明采用皮尔逊算法进行目标特征的确定。相比于普通网络数据，工业互联网平台因为业务种类多、连接主体数量多等原因存在数据量大、流量冗余度高、数据内容复杂等特点，为了实现入侵检测方法能够对入侵工业互联网平台的攻击行为做出快速准确的判断响应，首先需要对训练数据进行特征选择，准确识别与攻击行为的判定高度相关的特征。在众多广泛应用的特征选择方法中，皮尔逊相关系数算法对相关度的计算复杂度相对较低，运算时间与占用资源较少，且运算结果简洁明了。使用皮尔逊相关系数算法对数据集内各特征与入侵攻击行为之间的相关性进行计算，并按计算值的大小选择与攻击行为相关性强的特征进行保留。

进行特征相关性计算时，首先对几个定义进行阐述。表示预处理后的训练数据集向量，表示预处理后的训练数据内包含的具体m个入侵特征向量，表示预处理后的训练数据集内第i个训练数据内第j个特征的特征值，表示训练数据的入侵攻击类型向量。对某一种类入侵特征的均值和入侵攻击类型的均值计算后，计算该类特征值与攻击行为的相关度大小计算公式如下所示：

其中，n表示预处理后的训练数据的总数量，表示所有入侵特征向量的第j个特征的均值，表示所有的入侵攻击类型的均值，表示是对于所有特征取均值的特征值，表示第j个预处理后的训练数据的入侵攻击类型向量，m表示入侵特征向量的数量，表示第i个预处理后的训练数据的入侵攻击类型向量，表示所有入侵特征向量的第i个特征的均值，表示预处理后的训练数据集内第i个预处理后的训练数据内第j个特征的特征值。

进行上述计算后，根据皮尔逊判定区间对训练数据集内特征值进行筛选，0.8-1.0为超强相关性，0.6-0.8为强相关性，0.4-0.6为相关，对数据集内相关度在0.4以下特征进行剔除，仅保留0.4以上具有一定相关性的特征作为后续学习分类的对象。

在本发明的一个可选实施例中，参考图2，上述步骤S104，基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，具体包括如下步骤：

步骤S201，在归一化后的训练数据中确定目标入侵攻击类型的训练数据，其中，目标入侵攻击类型的训练数据的数量小于预设值；

SMOTE算法是一种用于对少数类样本进行分析并生成新的样本，通过对随机选择的少数类样本及其k近邻进行插值，生成新样本。其原理如下：

其中，表示新生成的样本，表示少数类样本实例，表示距离最近的k近邻样本实例，表示一个随机数。

传统的SMOTE算法方法可以很容易地生成新的数据。但是，从SMOTE算法的原理中可以发现，若少数类样本中含有异常样本，给所有的少数类样本分配一个过采样权重会产生冗余样本和噪声标签。

在实际应用中，少数类中也存在数据分布不均匀的问题，如图3所示，少数类既有稀疏的区域，也有密集的区域。密集区域具有更高的样本密度，它已经包含了很多的分类信息。因此，稀疏区域需要更多的合成样本来增加其密度，以减少类内不平衡。也就是说，对于SMOTE算法，稀疏区域中的少数类样本D比少数类样本C更重要。如果不考虑少数类类内的不平衡，SMOTE算法可能会在密集区域产生重叠的合成样本，并且由于稀疏区域中识别的样本很少，不会添加新的有用信息进行分类。所以，稀疏区域需要更多的合成样本来增加其密度，以减少类内的不平衡。

基于以上两个问题，本发明提出了一种基于稀疏系数的SMOTE算法，它是对SMOTE算法的改进。首先，在归一化后的训练数据中确定目标入侵攻击类型的训练数据（目标入侵攻击类型的训练数据的数量小于预设值），即少数类样本。

步骤S202，采用均值滤波法去除目标入侵攻击类型的训练数据中的异常数据，得到去噪后的训练数据；

具体的，通过均值滤波法对目标入侵攻击类型的训练数据进行去噪，剔除少数类中的异常数据以及部分边界处的数据，以减少使用它们生成新样本的机会。均值滤波法去噪是现有技术领域中通用的去噪方法，在此不进行展开介绍。

步骤S203，计算去噪后的训练数据中每个训练数据的稀疏系数，并选取稀疏系数大于第二预设阈值的训练数据作为待合成训练数据；

具体的，通过测量每个训练数据（即样本实例）的k近邻随k的增加而产生的中心偏移量计算出稀疏系数的值，利用稀疏系数值大的样本实例选择出少数类中稀疏的样本进行合成，增加少数类的种类。其中，稀疏系数的定义如下：

采用稀疏系数计算算式计算每个训练数据的稀疏系数，其中，表示训练数据的稀疏系数，表示k近邻算法的近邻距离值为i+1时对应的迁移量衡量系数，表示 k近邻算法的近邻距离值为i时对应的迁移量衡量系数，，Dis表示计算距离长度，i=1,2,……,k-1，k为k近邻算法的近邻距离值，表示k近邻算法的近邻距离值为i时对应的区域中心，表示k近邻算法的近邻距离值为i+1时对应的区域中心，表示k近邻算法的近邻距离值为k时对应的区域中心，d表示去噪后的训练数据的数量，k表示k近邻算法的近邻距离值，表示的k近邻的集合，表示集合中的训练数据，q表示训练数据的编号。

具体的，在m维数据集中，稀疏系数与少数类实例及其k近邻的区域中心有关。可以通过以下方式计算出来：

其中，为k近邻算法的近邻距离值为k时对应的区域中心，d为少数类实例的数量，k为k近邻算法的近邻距离值，是的k近邻的集合，为集合中的训练数据，q为训练数据的编号。

随着参数k的增加，使用迁移量衡量系数来衡量区域中心的迁移量，即：

其中，为k近邻算法的近邻距离值为i时对应的迁移量衡量系数，Dis表示计算距离长度，i=1,2,……,k-1, k为k近邻算法的近邻距离值，为k近邻算法的近邻距离值为i时对应的区域中心，为k近邻算法的近邻距离值为i+1时对应的区域中心。通常在稀疏区域比在密集区域有更大的值。

为了表示对数据结点的近邻中心位置的影响，采用中心迁移量衡量系数的绝对误差来表示近邻中心位置变化的程度，通过累加近邻中心位置变化的程度定义出稀疏系数为：

其中，表示训练数据的稀疏系数，为k近邻算法的近邻距离值为i+1时对应的迁移量衡量系数，表示k近邻算法的近邻距离值为i时对应的迁移量衡量系数。

由于离群的训练数据处于稀疏的区域，使得它们比正常的训练数据具有更大的稀疏系数。故少数类中分布稀疏的训练数据可以通过大的稀疏系数来检测识别。

步骤S204，采用SMOTE算法对待合成训练数据进行扩充，得到待合成训练数据的扩充训练数据，进而得到扩充后的训练数据。

具体的，使用算式对待合成训练数据进行合成，生成新的样本，进而完成归一化后的训练数据的扩充。

在本发明实施例中，初始特征提取模型包括：卷积神经网络、双向长短期记忆神经网络和特征融合模块；

其中，卷积神经网络用于卷积特征提取；

双向长短期记忆神经网络用于上下位置特征和时序特征的提取；

特征融合模块用于对卷积特征、上下位置特征和时序特征进行融合，融合后的特征作为分类器的输入。

参考图4，其中示出了本发明的初始特征提取模型的结构示意图，具体的，采用的卷积神经网络网络包含：连续的3层卷积，第1层卷积负责提取一些低级的边缘特征，第2和第3层卷积利用低级的特征进行迭代提取，获得数据流全局的更深层更复杂的特征。第1层卷积使用双曲正切激活函数，第2和第3层使用指数线性单元激活函数，具体如下：

其中，m=2或3。上述公式分别为第1层卷积和第2、3层卷积的计算过程，其中，为第m层卷积的输出，为偏置参数，为第m层的数据特征值，为第m-1层的数据特征值，为卷积核，“*”表示卷积运算，exp是以自然常数e为底的指数函数。

在卷积层后设置注意力模块。为获得对入侵行为具有判别性的关键特征，提高检测精度，本发明引入注意力层以使模型可以动态地关注有助于执行当下决策的数据特征。注意力层负责计算多个向量或向量组的加权平均。注意力机制对每个从卷积层输出的数据流向量组计算注意力分布，得到注意力权重，最后加权得到数据流最终的向量表示。注意力权重系数为：

其中，为数据的深层特征的特征向量，exp是以自然常数e为底的指数函数，为上下位置相关的选择向量，用来评估的重要性。加权得到的向量特征s为：

其中，表示未对数据的深层特征进行转置的特征向量。

在注意力模块后增加池化层。池化计算用来压缩数据和减少参数数量，以减小计算量，提高下层网络的处理效率，同时防止过拟合，提高模型整体的泛化能力和收敛速度。池化层的操作与卷积层基本相同，下采样的卷积核对输入的向量取对应位置的最大值，其计算过程为：

其中，和为输出向量的高度和宽度，T为滤波器每次扫描的步长，和分别为输入向量和滤波器的高度，和分别为输入向量和滤波器的宽度。

双向长短期记忆网络英文缩写为Bi-LSTM，该网络可以充分的利用前向和后向的上下位置信息，使得模型能够更好地进行上下位置特征和时序特征提取。

双向长短期记忆网络的组成单元是LSTM，LSTM是领域内成熟的通用模型。双向长短期记忆网络由前向LSTM和后向LSTM构成，单向LSTM只能通过从前到后的顺序挖掘时间序列数据信息，无法从后到前挖掘时间序列数据信息，可能导致机器学习预测模型学习能力较弱。双向长短期记忆网络通过两个方向来挖掘时间序列数据信息，能够提高机器学习预测模型学习能力，提高模型的预测精度，双向长短期记忆网络的网络结构如图5所示，其中，LSTM是循环神经网络的一种变体，属于改进的循环神经网络，它能够有效地解决循环神经网络无法处理时间序列中长序列的依赖问题，通过引入专门的变量存储神经单元状态，从而使神经网络具有长时间序列记忆功能，解决了循环神经网络的梯度消失和爆炸问题。LSTM模型往往由多个LSTM神经单元构成，由输入层、LSTM层、输出层构成，如图6所示，双向长短期记忆网络的隐藏层的计算方式如下：

其中，为t时刻的输入向量，为前向的隐藏状态，为后向的隐藏状态，表示前一时刻的隐藏状态，表示下一时刻的隐藏状态。所以，t时刻的隐藏状态为前向和后向隐藏状态的拼接，其表示方式如下：

其中，符号表示状态拼接操作。因此输出可表示。

对输出的进行池化操作，池化层设计方式同上述池化层。

对卷积特征、上下位置特征和时序特征进行融合，融合的方式为对应位置像素值逐位相加后取平均。融合后的数据可表示为。

在本发明的一个可选实施例中，采用基于有限搜索的蚁群算法对初始分类模型的参数进行优化，具体包括如下步骤：

（1）根据蚁群状态转换概率计算算式计算蚁群的状态转换概率，其中，表示第j个蚂蚁在第g次迭代过程中的状态转换概率，表示第j个蚂蚁的第g次迭代过程，表示当前目标函数值最大的蚂蚁位置，表示蚂蚁的绝对位置；

（2）若蚁群的状态转换概率小于第三预设阈值，则基于有限搜索的蚁群算法为：，，其中，和表示每只蚂蚁移动前和后的位置，表示当前目标函数值最大的蚂蚁位置，a表示蚂蚁移动的步长，取，g表示当前迭代次数；

（3）若蚁群的状态转换概率不小于第三预设阈值，则基于有限搜索的蚁群算法进行全局搜索。

该方法还包括：在信息因素Q更新时，引入时变函数，其中，，G表示算法的总迭代次数，表示一次迭代对应的最优蚂蚁，exp表示以自然常数e为底的指数函数，表示蚂蚁的绝对位置，表示最优蚂蚁的绝对位置;根据蚂蚁最终位置计算算式计算蚂蚁最终位置，其中，表示蚂蚁最终位置，设置总迭代次数G，当达到G次迭代时，迭代停止，选择当前对应的参数作为神经网络中神经元的参数。

具体的，本发明采用3层的神经网络进行分类。第1、2层神经网络的神经元个数与上一步骤中特征提取后的单条数据特征数量相等，第3层神经网络的神经元个数为数据集类别数量39个。

在对神经网络的构建方面，采用基于有限搜索的蚁群算法对神经网络的参数进行优化。在神经网络的参数中，将关于的二元函数记为，其中，c为神经元的权重，为神经元的阈值。利用基于有限搜索的蚁群算法对神经网络中的参数c和进行寻优，以获得较高精度的分类结果。

蚁群算法是一种寻找最短路径的概率性智能算法，设神经网络分类数据预测准确率目标函数为：

其中，表示对神经网络的分类精度求最大值，表示第只蚂蚁，表示不同蚂蚁行驶的位置。蚁群算法中，用蚁群中的两个决策量来表示神经网络中权重参数c和阈值参数。

假设为参数c在第i只蚂蚁处的值，为参数在第i只蚂蚁处的值。表示目标函数值，为第g次迭代过程中第i只蚂蚁的位置。目标函数值越大，在这个位置上的信息因素浓度就越大，将当前目标函数值最大的蚂蚁位置和该处信息因素浓度最大值保存下来。为避免局部极值的出现，蚁群行进过程中的状态转换概率为：

其中，表示第j个蚂蚁的第g次迭代过程，表示第j个蚂蚁在第g次迭代过程中的状态转换概率，表示蚂蚁的绝对位置。蚂蚁离位置越近，转化概率越大。令a表示蚂蚁移动的步长，取，其中g表示当前迭代次数，随着蚂蚁移动次数增加，a值越来越小。

①当蚁群的状态转换概率小于0.5时，基于有限搜索的蚁群算法的有限搜索流程为：，，其中，和分别表示每只蚂蚁移动前和后的位置，表示当前目标函数值最大的蚂蚁位置。

②当蚁群的状态转换概率大于0.5时，基于有限搜索的蚁群算法进行全局搜索。

在信息因素Q更新时，引入相关时变函数，得到信息因素更新规则为：

其中，G为算法的总迭代次数，为一次迭代对应的最优蚂蚁，exp是以自然常数e为底的指数函数。表示蚂蚁的绝对位置，最优蚂蚁的绝对位置

则迭代完成后蚂蚁最终位置为，计算方式如下：

通过设置总的迭代次数G，当达到G次迭代时，迭代停止，选择当前对应的参数作为神经网络中神经元的参数。

本发明的样本扩充步骤中，提出一种基于稀疏系数的SMOTE算法，通过在稀疏区域生成更多的合成样本来增加其密度，以减少类内不平衡。本步骤的作用是通过样本的扩充，保证了样本各类别的数量均衡，能够为后续特征提取和分类器的训练提供帮助。所提出的基于稀疏系数的SMOTE算法解决了传统SMOTE算法容易产生类内不平衡的现象。

本发明的特征提取步骤中，提出使用两种特征提取器进行多种特征的提取，并对提取后的特征进行融合。本步骤的作用是通过精细化的多种特征提取，提高了数据的质量，有助于后续分类器的训练，提高分类精度。在改进方面，对于卷积神经网络的激活函数的设计和注意力模块的设计能够提高模型在特征提取时自适应细化重要特征的能力，同时，采用双向长短期记忆神经网络实现了上下位置特征和时序特征提取。

本发明的分类器模型设计步骤中，提出一种基于有限搜索的蚁群算法对神经网络参数进行优化。该步骤的作用是通过分类器实现工业互联网平台的入侵检测。在改进方面，基于有限搜索的蚁群算法对神经网络中的参数，避免了传统梯度下降算法容易导致的梯度消失和梯度爆炸问题，同时避免了参数寻优过程中陷入局部最优解的现象。同时，相比较于传统的蚁群算法，本发明提出的基于有限搜索的蚁群算法加人部分有限搜索避免局部极值，并在信息因素更新中引人时变函数，保证参数寻优过程中的速度和精确性，对分类器精度的提升具有重要作用。

实施例二：

本发明实施例还提供了一种工业互联网平台入侵检测的装置，该工业互联网平台入侵检测的装置主要用于执行本发明实施例一中所提供的工业互联网平台入侵检测的方法，以下对本发明实施例提供的工业互联网平台入侵检测的装置做具体介绍。

图7是根据本发明实施例的一种工业互联网平台入侵检测的装置的示意图，如图7所示，该装置主要包括：预处理单元10、相关度计算单元20、处理单元30、扩充单元40、训练单元50和入侵检测单元60，其中：

预处理单元，用于对目标训练数据集中的训练数据进行预处理，得到预处理后的训练数据；

相关度计算单元，用于采用皮尔逊算法计算预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在各特征中确定目标特征，进而得到目标特征对应的训练数据；

处理单元，用于对目标特征对应的训练数据中的字符型特征值进行数值化处理，并对数值化处理后的训练数据进行归一化处理，得到归一化后的训练数据；

扩充单元，用于基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，得到扩充后的训练数据；

训练单元，用于采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练，得到训练好的特征提取模型和分类模型，其中，训练时，采用基于有限搜索的蚁群算法对初始分类模型的参数进行优化；

入侵检测单元，用于基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测，得到工业互联网平台的入侵检测结果。

在本发明实施例中，提供了一种工业互联网平台入侵检测的装置，包括：对目标训练数据集中的训练数据进行预处理，得到预处理后的训练数据；采用皮尔逊算法计算预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在各特征中确定目标特征，进而得到目标特征对应的训练数据；对目标特征对应的训练数据中的字符型特征值进行数值化处理，并对数值化处理后的训练数据进行归一化处理，得到归一化后的训练数据；基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，得到扩充后的训练数据；采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练，得到训练好的特征提取模型和分类模型，其中，训练时，采用基于有限搜索的蚁群算法对初始分类模型的参数进行优化；基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测，得到工业互联网平台的入侵检测结果。通过上述描述可知，本发明的工业互联网平台入侵检测的装置中，提出了一种基于稀疏系数的SMOTE算法对归一化后的训练数据进行扩充，能够实现在稀疏区域生成更多的合成训练数据来增加其密度，以减少类内不平衡，保证了各类训练数据的数量均衡，另外，在采用扩充后的训练数据对初始特征提取模型和初始分类模型进行训练时，采用了基于有限搜索的蚁群算法对初始分类模型的参数进行优化，避免了传统梯度下降算法容易导致的梯度消失和梯度爆炸问题，同时避免了参数寻优过程中陷入局部最优解的现象，最终得到的特征提取模型和分类模型的鲁棒性好，泛化能力好，进而基于特征提取模型和分类模型对待检测数据进行工业互联网平台的入侵检测时，入侵检测结果的精度高，准确性好，缓解了现有的工业互联网平台入侵检测的方法检测精度低、准确性差的技术问题。

可选地，预处理单元还用于：对目标训练数据集中的目标协议的训练数据进行删除，得到第一删除后的训练数据；在第一删除后的训练数据中，若第一目标训练数据存在特征值缺失，且第一删除后的训练数据中与第一目标训练数据属于相同的入侵攻击类型的训练数据的数量达到第一预设阈值，则将第一目标训练数据删除，得到第二删除后的训练数据，其中，第一目标训练数据为第一删除后的训练数据中存在特征值缺失的训练数据；在第二删除后的训练数据中，若第二目标训练数据存在特征值缺失，且第二删除后的训练数据中与第二目标训练数据属于相同的入侵攻击类型的训练数据的数量未达到第一预设阈值，则对第二目标训练数据中存在缺失的特征值进行填充，得到填充后的训练数据，其中，第二目标训练数据为第二删除后的训练数据中存在特征值缺失的训练数据；采用非参数验证的卡方检验方法对填充后的训练数据进行检测，若检测得到填充后的训练数据中存在第三目标训练数据错误，则删除第三目标训练数据，得到预处理后的训练数据，其中，第三目标训练数据为填充后的训练数据中存在错误的训练数据。

可选地，相关度计算单元还用于：采用相关度计算算式计算各特征与入侵攻击行为之间的相关度，其中，表示第j个特征的特征值与入侵攻击行为的相关度，n表示预处理后的训练数据的总数量，表示所有入侵特征向量的第j个特征的均值，表示所有的入侵攻击类型的均值，表示是对于所有特征取均值的特征值，，，表示第j个预处理后的训练数据的入侵攻击类型向量，m表示入侵特征向量的数量，表示第i个预处理后的训练数据的入侵攻击类型向量，表示所有入侵特征向量的第i个特征的均值，表示预处理后的训练数据集内第i个预处理后的训练数据内第j个特征的特征值。

可选地，扩充单元还用于：在归一化后的训练数据中确定目标入侵攻击类型的训练数据，其中，目标入侵攻击类型的训练数据的数量小于预设值；采用均值滤波法去除目标入侵攻击类型的训练数据中的异常数据，得到去噪后的训练数据；计算去噪后的训练数据中每个训练数据的稀疏系数，并选取稀疏系数大于第二预设阈值的训练数据作为待合成训练数据；采用SMOTE算法对待合成训练数据进行扩充，得到待合成训练数据的扩充训练数据，进而得到扩充后的训练数据。

可选地，扩充单元还用于：采用稀疏系数计算算式计算每个训练数据的稀疏系数，其中，表示训练数据的稀疏系数，表示k近邻算法的近邻距离值为i+1时对应的迁移量衡量系数，表示k近邻算法的近邻距离值为i时对应的迁移量衡量系数，，Dis表示计算距离长度，i=1,2,……,k-1，k为k近邻算法的近邻距离值，表示k近邻算法的近邻距离值为i时对应的区域中心，表示k近邻算法的近邻距离值为i+1时对应的区域中心，表示k近邻算法的近邻距离值为k时对应的区域中心，d表示去噪后的训练数据的数量，k表示k近邻算法的近邻距离值，表示的k近邻的集合，表示集合中的训练数据，q表示训练数据的编号。

可选地，初始特征提取模型包括：卷积神经网络、双向长短期记忆神经网络和特征融合模块；其中，卷积神经网络用于卷积特征提取；双向长短期记忆神经网络用于上下位置特征和时序特征的提取；特征融合模块用于对卷积特征、上下位置特征和时序特征进行融合。

可选地，训练单元还用于：根据蚁群状态转换概率计算算式计算蚁群的状态转换概率，其中，表示第j个蚂蚁在第g次迭代过程中的状态转换概率，表示第j个蚂蚁的第g次迭代过程，表示当前目标函数值最大的蚂蚁位置，表示蚂蚁的绝对位置；若蚁群的状态转换概率小于第三预设阈值，则基于有限搜索的蚁群算法为：，，其中，和表示每只蚂蚁移动前和后的位置，表示当前目标函数值最大的蚂蚁位置，a表示蚂蚁移动的步长，取，g表示当前迭代次数；若蚁群的状态转换概率不小于第三预设阈值，则基于有限搜索的蚁群算法进行全局搜索。

可选地，训练单元还用于：在信息因素Q更新时，引入时变函数，其中，，G表示算法的总迭代次数，表示一次迭代对应的最优蚂蚁，exp表示以自然常数e为底的指数函数，表示蚂蚁的绝对位置，表示最优蚂蚁的绝对位置；根据蚂蚁最终位置计算算式计算蚂蚁最终位置，其中，表示蚂蚁最终位置，设置总迭代次数G，当达到G次迭代时，迭代停止，选择当前对应的参数作为神经网络中神经元的参数。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图8所示，本申请实施例提供的一种电子设备600，包括：处理器601、存储器602和总线，所述存储器602存储有所述处理器601可执行的机器可读指令，当电子设备运行时，所述处理器601与所述存储器602之间通过总线通信，所述处理器601执行所述机器可读指令，以执行如上述工业互联网平台入侵检测的方法的步骤。

具体地，上述存储器602和处理器601能够为通用的存储器和处理器，这里不做具体限定，当处理器601运行存储器602存储的计算机程序时，能够执行上述工业互联网平台入侵检测的方法。

处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application SpecificIntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

对应于上述工业互联网平台入侵检测的方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述工业互联网平台入侵检测的方法的步骤。

本申请实施例所提供的工业互联网平台入侵检测的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

再例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述车辆标记方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种工业互联网平台入侵检测的方法，其特征在于，包括：

基于所述特征提取模型和所述分类模型对待检测数据进行工业互联网平台的入侵检测，得到所述工业互联网平台的入侵检测结果；

其中，基于稀疏系数的SMOTE算法对所述归一化后的训练数据进行扩充，包括：

在所述归一化后的训练数据中确定目标入侵攻击类型的训练数据，其中，所述目标入侵攻击类型的训练数据的数量小于预设值；

采用均值滤波法去除所述目标入侵攻击类型的训练数据中的异常数据，得到去噪后的训练数据；

计算所述去噪后的训练数据中每个训练数据的稀疏系数，并选取稀疏系数大于第二预设阈值的训练数据作为待合成训练数据；

采用SMOTE算法对所述待合成训练数据进行扩充，得到所述待合成训练数据的扩充训练数据，进而得到所述扩充后的训练数据；

其中，计算所述去噪后的训练数据中每个训练数据的稀疏系数，包括：

采用稀疏系数计算算式计算每个训练数据的稀疏系数，其中，表示训练数据的稀疏系数，表示k近邻算法的近邻距离值为i+1时对应的迁移量衡量系数，表示k近邻算法的近邻距离值为i时对应的迁移量衡量系数，，Dis表示计算距离长度，i=1,2,…… ,k-1，k为k近邻算法的近邻距离值，表示k近邻算法的近邻距离值为i时对应的区域中心，表示k近邻算法的近邻距离值为i+1时对应的区域中心，表示k近邻算法的近邻距离值为k时对应的区域中心，d表示所述去噪后的训练数据的数量，k表示k近邻算法的近邻距离值，表示的k近邻的集合，表示集合中的训练数据，q表示训练数据的编号；

其中，采用基于有限搜索的蚁群算法对所述初始分类模型的参数进行优化，包括：

根据蚁群状态转换概率计算算式计算蚁群的状态转换概率，其中，表示第j个蚂蚁在第g次迭代过程中的状态转换概率，表示第j个蚂蚁的第g次迭代过程，表示当前目标函数值最大的蚂蚁位置，表示蚂蚁的绝对位置；

若所述蚁群的状态转换概率小于第三预设阈值，则基于有限搜索的蚁群算法为：，，其中，和表示每只蚂蚁移动前和后的位置，表示当前目标函数值最大的蚂蚁位置，a表示蚂蚁移动的步长，取，g表示当前迭代次数；

若所述蚁群的状态转换概率不小于所述第三预设阈值，则基于有限搜索的蚁群算法进行全局搜索。

2.根据权利要求1所述的方法，其特征在于，对目标训练数据集中的训练数据进行预处理，包括：

对所述目标训练数据集中的目标协议的训练数据进行删除，得到第一删除后的训练数据；

在所述第一删除后的训练数据中，若第一目标训练数据存在特征值缺失，且所述第一删除后的训练数据中与所述第一目标训练数据属于相同的入侵攻击类型的训练数据的数量达到第一预设阈值，则将所述第一目标训练数据删除，得到第二删除后的训练数据，其中，所述第一目标训练数据为所述第一删除后的训练数据中存在特征值缺失的训练数据；

在所述第二删除后的训练数据中，若第二目标训练数据存在特征值缺失，且所述第二删除后的训练数据中与所述第二目标训练数据属于相同的入侵攻击类型的训练数据的数量未达到所述第一预设阈值，则对所述第二目标训练数据中存在缺失的特征值进行填充，得到填充后的训练数据，其中，所述第二目标训练数据为所述第二删除后的训练数据中存在特征值缺失的训练数据；

采用非参数验证的卡方检验方法对所述填充后的训练数据进行检测，若检测得到所述填充后的训练数据中存在第三目标训练数据错误，则删除所述第三目标训练数据，得到所述预处理后的训练数据，其中，所述第三目标训练数据为所述填充后的训练数据中存在错误的训练数据。

3.根据权利要求1所述的方法，其特征在于，采用皮尔逊算法计算所述预处理后的训练数据的各特征与入侵攻击行为之间的相关度，包括：

采用相关度计算算式计算各特征与所述入侵攻击行为之间的相关度，其中，表示第j个特征的特征值与入侵攻击行为的相关度，n表示所述预处理后的训练数据的总数量，表示所有入侵特征向量的第j个特征的均值，表示所有的入侵攻击类型的均值，表示是对于所有特征取均值的特征值，，，表示第j个预处理后的训练数据的入侵攻击类型向量，m表示入侵特征向量的数量，表示第i个预处理后的训练数据的入侵攻击类型向量，表示所有入侵特征向量的第i个特征的均值，表示预处理后的训练数据集内第i个预处理后的训练数据内第j个特征的特征值。

4.根据权利要求1所述的方法，其特征在于，所述初始特征提取模型包括：卷积神经网络、双向长短期记忆神经网络和特征融合模块；

其中，所述卷积神经网络用于卷积特征提取；

所述双向长短期记忆神经网络用于上下位置特征和时序特征的提取；

所述特征融合模块用于对卷积特征、上下位置特征和时序特征进行融合。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在信息因素Q更新时，引入时变函数，其中，，G表示算法的总迭代次数，表示一次迭代对应的最优蚂蚁，exp表示以自然常数e为底的指数函数，表示蚂蚁的绝对位置，表示最优蚂蚁的绝对位置;

根据蚂蚁最终位置计算算式计算蚂蚁最终位置，其中，表示蚂蚁最终位置，设置总迭代次数G，当达到G次迭代时，迭代停止，选择当前对应的参数作为神经网络中神经元的参数。

6.一种工业互联网平台入侵检测的装置，其特征在于，包括：

相关度计算单元，用于采用皮尔逊算法计算所述预处理后的训练数据的各特征与入侵攻击行为之间的相关度，并根据计算得到的相关度在所述各特征中确定目标特征，进而得到目标特征对应的训练数据；

处理单元，用于对所述目标特征对应的训练数据中的字符型特征值进行数值化处理，并对数值化处理后的训练数据进行归一化处理，得到归一化后的训练数据；

扩充单元，用于基于稀疏系数的SMOTE算法对所述归一化后的训练数据进行扩充，得到扩充后的训练数据；

训练单元，用于采用所述扩充后的训练数据对初始特征提取模型和初始分类模型进行训练，得到训练好的特征提取模型和分类模型，其中，训练时，采用基于有限搜索的蚁群算法对所述初始分类模型的参数进行优化；

入侵检测单元，用于基于所述特征提取模型和所述分类模型对待检测数据进行工业互联网平台的入侵检测，得到所述工业互联网平台的入侵检测结果；

其中，所述扩充单元还用于：在所述归一化后的训练数据中确定目标入侵攻击类型的训练数据，其中，所述目标入侵攻击类型的训练数据的数量小于预设值；采用均值滤波法去除所述目标入侵攻击类型的训练数据中的异常数据，得到去噪后的训练数据；计算所述去噪后的训练数据中每个训练数据的稀疏系数，并选取稀疏系数大于第二预设阈值的训练数据作为待合成训练数据；采用SMOTE算法对所述待合成训练数据进行扩充，得到所述待合成训练数据的扩充训练数据，进而得到所述扩充后的训练数据；

其中，所述扩充单元还用于：采用稀疏系数计算算式计算每个训练数据的稀疏系数，其中，表示训练数据的稀疏系数，表示k近邻算法的近邻距离值为i+1时对应的迁移量衡量系数，表示k近邻算法的近邻距离值为i时对应的迁移量衡量系数，，Dis表示计算距离长度，i=1,2,…… ,k-1，k为k近邻算法的近邻距离值，表示k近邻算法的近邻距离值为i时对应的区域中心，表示k近邻算法的近邻距离值为i+1时对应的区域中心，表示k近邻算法的近邻距离值为k时对应的区域中心，d表示所述去噪后的训练数据的数量，k表示k近邻算法的近邻距离值，表示的k近邻的集合，表示集合中的训练数据，q表示训练数据的编号；

其中，所述训练单元还用于：根据蚁群状态转换概率计算算式计算蚁群的状态转换概率，其中，表示第j个蚂蚁在第g次迭代过程中的状态转换概率，表示第j个蚂蚁的第g次迭代过程，表示当前目标函数值最大的蚂蚁位置，表示蚂蚁的绝对位置；若所述蚁群的状态转换概率小于第三预设阈值，则基于有限搜索的蚁群算法为：，，其中，和表示每只蚂蚁移动前和后的位置，表示当前目标函数值最大的蚂蚁位置，a表示蚂蚁移动的步长，取，g表示当前迭代次数；若所述蚁群的状态转换概率不小于所述第三预设阈值，则基于有限搜索的蚁群算法进行全局搜索。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至5中任一项所述的方法的步骤。