CN111669354A

CN111669354A - 基于机器学习的威胁情报工业防火墙

Info

Publication number: CN111669354A
Application number: CN201910176013.7A
Authority: CN
Inventors: 袁倩; 邹强
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2020-09-15

Abstract

本发明涉及防火墙技术领域，尤其涉及一种基于机器学习的威胁情报工业防火墙，包括以下步骤：步骤一、访问识别：通过Modbus协议访问控制进行身份识别，限制工业控制系统中访问主体对客体的访问；步骤二、数采与传输：通过OPC协议进行数采与传输的过程；步骤三、特征抽取和筛选：用线性判别分析LDA技术先对数据进行降维；步骤四、训练：在机器学习中，通过使用支持向量机SVM算法；步骤五、检验：在以前的训练集上独立同分布的抽样获取测试集，启用leave one out的检测法。本发明支持几十种工业协议的深度识别和信息网络协议的深度识别，引领工控安全的广度。

Description

基于机器学习的威胁情报工业防火墙

技术领域

本发明涉及防火墙技术领域，尤其涉及一种基于机器学习的威胁情报工业防火墙。

背景技术

现在，工业控制系统已成为国家关键基础设施的重要组成部分，它的安全关系到国家的战略安全。而如今，由于工业控制系统的高可靠性、高实时性以及专用的网络通信协议等特点，传统的互联网防护技术难以在工业控制系统实施，工业控制系统安全威胁主要来源也已从内部恶意篡改、环境因素、误操作、集成商后门、错误配置等逐渐变化为黑客攻击、工业病毒、无线风险，以及设备漏洞等。多数执行者都已意识到，威胁情报是针对此类高级网络攻击的有力武器。而伴随着机器学习的不断发展，可以将威胁情报与行为检测系统充分结合起来，构造一款集机器自学习引擎、并针对工控系统而设计的防御系统——工业防火墙，从而快速识别出系统中的非法操作、异常行为以及外部攻击，在第一时间进行告警并阻断。

发明内容

本发明的目的在于克服上述技术的不足，而提供一种基于机器学习的威胁情报工业防火墙。

本发明为实现上述目的，采用以下技术方案：

一种基于机器学习的威胁情报工业防火墙，其特征在于：包括以下步骤：步骤一、访问识别：通过Modbus协议访问控制进行身份识别，限制工业控制系统中访问主体对客体的访问，防止未经授权使用或以未授权方式使用某资源，从而保障数据资源在合法范围内得以有效使用和管理；

步骤二、数采与传输：通过OPC协议进行数采与传输的过程，以OPC基金会、工业控制系统应急响应中心(ICSCERT)组织提出的安全问题及防护建议为理论基础，实时捕获OPC通信数据包，解析OPC数据包端口内容，为端口设置一条私密规则，对端口进行动态跟踪与授权管理，在建立连接之后对流经的数据包进行基于端口及协议进行监控，防止非法访问；

步骤三、特征抽取和筛选：用线性判别分析LDA技术先对数据进行降维，然后找出一个线性判别器构成新的特征子空间，之后通过计算得到的矩阵将样本变换到新的子空间中，从而解决不适合正则化模型的过拟合问题，使得变换后的数据可用于算法的训练和验证，同时，针对非监督的学习任务，可以采用深度学习技术从原始图像或语音中提取少量人为干预的特征；

步骤四、训练：在机器学习中，通过使用支持向量机SVM算法，把每个数据在N维空间中用点标出，N是所有的特征总数，每个特征的值是一个坐标的值，将数据分组分开使得各组中距离最近的点到分割线的距离同时最优化，此外，也可以通过逻辑回归算法，将数据拟合进一个逻辑函数来预估一个事件出现的概率，同时，利用深度学习算法学习极端复杂模式的多层神经网络，有效进行高维度训练，并且能在输入层和输出层之间使用隐藏层来对数据的中间表征建模；

步骤五、检验：在以前的训练集上独立同分布的抽样获取测试集，启用leave oneout的检测法，按照模型在每一个验证样本上犯错误的平均值的大小 (Eloocv)选择模型，在不同的错误衡量下，会得到不同的结果，之后往往选择Eloocv最小的那个错误衡量，从而判断该行为是否为威胁恶意攻击。

本发明的有益效果是:(1)深度性，本发明支持几十种工业协议的深度识别和信息网络协议的深度识别，引领工控安全的广度。

(2)抽象性，将威胁情报检测问题映射为机器学习能够解决的类别，问题映射的恰当与否直接关系到机器学习技术解决工业控制系统安全问题成功与否。

(3)高效性，采用基于机器学习的威胁情报工业防火墙对海量数据进行安全分析，降低在重复、简单的决策工作中浪费宝贵的人力成本，提高数据和特征维度的利用率。

(4)先进性，机器学习是当前特定领域的最先进技术，它的本质和目的就是对未知样本进行决策和判断。因此，传统基于规则和黑名单的安全防御机制难免出现滞后的情况，而通过人工智能的应用，在某些场景很容易发现和阻断从未遇到的攻击行为。

附图说明

图1是Modbus协议访问控制；

图2是OPC协议模块；

图3是威胁情报检测系统的一般流程图；

图4是威胁情报检测系统的四个部分；

图5是LDA技术实战原理图

图6是leave one out的检测法原理图；

图7是leave one out实务上的表现图。

具体实施方式

下面结合附图及较佳实施例详细说明本发明的具体实施方式。如图1-图2 所示，一种基于机器学习的威胁情报工业防火墙，结合纵深防御的思想，开发针对工业应用层协议的安全防护技术，建立不同区域之间的数据通信管道，对管道内的数据进行安全管控。其中基于ISA的纵深防御主要指“白名单规则”的区域管控，包括：划分控制系统安全区域，对安全区域的隔离保护；保护合法用户访问网络资源。以及由于安全威胁主要来自于应用层，传统五元组(源 IP、目的IP、协议、源端口、目的端口)方式的ACL将不能完全抵御高级可持续攻击，本发明针对工业专有应用层协议，结合机器学习进行深度的安全防护，包括已被投入使用的Modbus、OPC协议以及本发明的核心——威胁情报检测。

Modbus协议访问控制(如图1所示)是工业控制系统安全防护中极其重要的环节，它建立在身份识别基础上，限制了工业控制系统中访问主体对客体的访问，防止未经授权使用或以未授权方式使用某资源，从而保障数据资源在合法范围内得以有效使用和管理。而OPC协议模块(如图2所示)是用于保护工业控制系统中通过OPC协议进行数采与传输的过程，以OPC基金会、工业控制系统应急响应中心(ICSCERT)等组织提出的安全问题及防护建议为理论基础，实时捕获OPC通信数据包，解析OPC数据包端口内容，为端口设置一条私密规则，对端口进行动态跟踪与授权管理，在建立连接之后对流经的数据包进行基于端口及协议进行监控，防止非法访问。

威胁情报检测则是结合威胁情报，将它们作为二元特征(binary feature) 加入到训练集里面，从而将机器学习系统的结果与威胁情报源结合起来的检测系统。其一般流程(如图3所示)为收集一切可用数据，将其抽取分类转化为特征向量，并通过机器学习算法将其标记，使之构成一个特定的预测模型，再将一组新的样本进行特征抽取，检验预测模型，从而得出相应结果。简单的来说，该威

胁情报检测系统主要分为特征抽取、特征筛选、训练及验证四个部分(如图4所示)。

首先，特征抽取和筛选主要采用线性判别分析LDA技术(如图5所示)。该技术的基本思想是将高维的模式样本投影到最佳低维鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最佳的可分离性。因此，它是一种有效的特征抽取方法。当然，LDA也是一种监督算法。同时，针对非监督的学习任务，可以采用深度学习技术从原始图像或语音中提取少量人为干预的特征。

其次，根据抽取特征对变换后的样本数据进行训练。该训练技术算法主要以支持向量机(SVM)、逻辑回归以及深度学习为主。在机器学习中，支持向量机SVM是监督学习模型，可以分析数据，识别模式，用于分类和回归分析。此算法在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等多个机器学习问题中。此外，也可以通过逻辑回归算法，将数据拟合进一个逻辑函数来预估一个事件出现的概率。同时，近年来，新的和改进的训练技术，如非监督的预训练和逐层贪婪训练，导致深度学习的兴起。深度学习是指能够学习极端复杂模式的多层神经网络。它有如卷积、漏失等几个重要的机制，可以有效进行高维度训练，并且能在输入层和输出层之间使用隐藏层来对数据的中间表征建模，这一点是其他算法很难做到的。最后，应对所建模型进行检验。该系统主要启用leave one out的检测法(原理如图6)，可交叉验证多维度、来源及时间，按照模型在每一个验证样本上犯错误的平均值的大小(Eloocv)选择模型。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于机器学习的威胁情报工业防火墙，其特征在于：包括以下步骤：

步骤一、访问识别：通过Modbus协议访问控制进行身份识别，限制工业控制系统中访问主体对客体的访问，防止未经授权使用或以未授权方式使用某资源，从而保障数据资源在合法范围内得以有效使用和管理；

步骤五、检验：在以前的训练集上独立同分布的抽样获取测试集，启用leave one out的检测法，按照模型在每一个验证样本上犯错误的平均值的大小(Eloocv)选择模型，在不同的错误衡量下，会得到不同的结果，之后往往选择Eloocv最小的那个错误衡量，从而判断该行为是否为威胁恶意攻击。