CN116996355B

CN116996355B - 一种基于神经网络的工业控制网络资产发现方法

Info

Publication number: CN116996355B
Application number: CN202311229688.6A
Authority: CN
Inventors: 谢朝海; 齐大伟; 李志勇; 彭波; 谢朝战
Original assignee: Shenzhen Secidea Network Security Technology Co ltd
Current assignee: Shenzhen Secidea Network Security Technology Co ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-11-28
Anticipated expiration: 2043-09-22
Also published as: CN116996355A

Abstract

本发明公开了一种基于神经网络的工业控制网络资产发现方法，涉及工控设备识别领域，通过创建一个包含已知设备和对应报文的工控资产登记数据库，配合机器学习模型，实现设备发现和分类。本发明中，特定的网络元素被用于区分和分离属于不同设备的报文，利用聚类步骤将机器学习识别精读不够高的待确认数据库中的报文集聚成不同类别，然后由人工进行识别和标记；标记数据会被加入到初始数据库作为增量数据，进而用于更新机器学习模型，使其更加完善，通过流程循环，直到待确认数据库中的报文数量减少至预定的阈值。本发明不仅可以提高资产识别的效率，而且使模型能更快地适应和识别新的或未知的设备类型，大大提高了网络安全和管理效率。

Description

一种基于神经网络的工业控制网络资产发现方法

技术领域

本发明涉及工控设备识别领域，更具体地说，涉及一种基于神经网络的工业控制网络资产发现方法。

背景技术

工控系统资产构成复杂、数量巨大，给资产管理带来了巨大挑战。在不具备自动化资产探测发现工具支撑的情况下，资产的登记、管理主要依赖人工，而工业企业普遍只关心产量和效率，对于工控系统持有“能用就行”的态度，由于工控系统均是工业级品质，长久运行也不会轻易出现故障，在工控系统正常运行的情况下并不会主动关心资产属性，资产出现异常时也直接由供应商单点修复进行原件替换，经年累月运行后，原始资产明细丢失或未及时更新维护，导致工控系统中资产无人管理的情况普遍存在。

现有技术的工控资产发现方法一般有两种，一种是被动式的资产发现方法，通过抓取、分析网络环境中的日常通信流量的方式进行资产的发现。该方法中，用于资产发现所需要的流量元数据通常混杂、隐藏在通信交互繁杂的网络流量当中，在大量的网络流量中，寻找可用于识别设备厂商、产品型号等关键信息是一项艰巨的任务，就像大海捞针一般，而且并非总能获得准确的结果，资产发现不完全；另一种是主动式的资产发现方法，采用工控协议探测包实现主动式网络通信，并基于协议响应数据包与工控设备指纹库进行匹配，实现对响应数据包的关键信息提取，从而对资产进行分类、管理，该方法中，只是简单基于工控设备指纹库对响应数据包进行关键信息提取、分类，只能粗略实现基本的资产分类管理，而工业控制网络环境中，常常涉及多厂商、多产品系列的细分资产，该方法无法实现对各细分资产的分类管理。

发明内容

本发明要解决的技术问题是提供一种基于神经网络的工业控制网络资产发现方法，以解决背景技术中提到的问题。

为了达到上述目的，本发明采取以下技术方案：

一种基于神经网络的工业控制网络资产发现方法，包括如下步骤：

S1: 构建一个工控资产登记数据库，该数据库包含已知的设备和设备对应的报文，对每个已知的设备标记有设备类型标签；

S2: 利用S1中的工控资产登记数据库训练一个机器学习模型，所述机器学习模型接收报文为输入，输出所判断的设备类型的匹配度；

S3: 在网络中设置多个旁路抓取点，对网络通信进行实时捕获，获得混合报文；

S4: 根据混合报文中的网络五元素，包括源地址、目的地址、源端口、目的端口和协议，将混合报文分离为多个报文，每个报文对应于一个设备；

S5: 将S4中分离出的每个报文输入到S2中训练的机器学习模型中，计算该报文与设备类型的匹配度；

S6: 当S5中的匹配度大于等于预设阈值T时，直接标记该报文对应的设备类型；当S5中的匹配度小于预设阈值T时，将该报文加入至待确认数据库；

S7: 如果待确认数据库中的报文数量大于等于预设的阈值N，则对待确认数据库中的报文进行聚合，形成不同的聚合类别，然后在每个聚合类别中选择一个或多个报文人工进行设备类型识别和标记，并且将人工进行设备类型识别和标记的报文移出待确认数据库；

S8: 将S7中人工识别和标记得到的设备和报文信息加入到S1中的工控资产登记数据库中作为增量数据，对机器学习模型进行增量训练，得到更新后的机器学习模型；

S9: 利用S8中更新后的机器学习模型对待确认数据库中的报文进行重新识别，当设备类型的匹配度大于等于预设阈值T时，直接标记该报文对应的设备类型并将其移出待确认数据库；当设备类型的匹配度小于预设阈值T时，将该报文保留于待确认数据库;

S10:重复步骤S7~S9，直至待确认数据库内的设备数量小于预设的阈值N，并对剩余的待确认数据库内的报文进行设备类型识别和标记，并将人工识别和标记得到的设备和报文信息加入到S1中的工控资产登记数据库中作为增量数据，对机器学习模型进行增量训练，得到更新后的机器学习模型。

在一些实施例中，所述设备类型包括计算设备、网络设备、存储设备。

在一些实施例中，所述设备类型进一步包括PLC、SCADA系统、人机界面、工业网络设备、传感器、执行器、工业机器人和远程I/O模块。

在一些实施例中，所述计算设备进一步分类为服务器、工作站和个人计算机；

所述网络设备进一步分类为路由器、交换机和防火墙。

在一些实施例中，所述聚类算法为K-means算法。

在一些实施例中，所述机器学习模型为神经网络模型。

在一些实施例中，所述神经网络模型包括一个特征提取层和多个隐藏层。

在一些实施例中，所述神经网络模型使用交叉熵损失函数作为优化目标，并采用随机梯度下降作为优化器来进行模型的训练。

在一些实施例中，所述工控资产登记数据库的构建从采购合同、部署清单和探测发现的确认资产进行入库登记后获得。

在一些实施例中，所述方法还包括构建一个已识别设备数据库，用于收集匹配度大于等于预设阈值T的设备的报文信息和设备类型信息。

本发明相对于现有技术的优点在于，本发明通过机器学习模型，可以快速发现和识别设备类型。对于未能够按预定要求识别的设备类型，本发明通过聚类进行分析，能够将待确认数据库中的报文分成多个聚类类别，每个类别包含一组具有相似特征的报文。技术人员仅在每个聚类类别中选择一个或几个报文进行人工识别和标记，而不是对所有报文进行逐一识别，从而显著减少了人工识别的工作量和成本。这种方法不仅节省了人力资源，还降低了误差率，因为技术人员可以集中精力对一小部分报文进行更加细致和准确的识别。通过将人工识别和标记得到的设备和报文信息作为增量数据加入到工控资产登记数据库中，本发明实现了机器学习模型的快速迭代和完善。每一次的人工识别都是一个优化机会，使得机器学习模型能够不断学习和适应新的或者更加复杂的数据特征，从而提高其识别的准确度和效率。这种增量训练的方式，确保了机器学习模型能够迅速适应不断变化和更新的网络环境，实现了真正的动态和智能的资产发现。

综上所述，本发明不仅大大减少了人工识别的成本，而且通过快速迭代和完善机器学习模型，实现了更加高效和准确的工业控制网络资产发现，为企业节省了大量的时间和资源，同时也为工业控制系统的安全和稳定运行提供了有力保障。

附图说明

图1是本发明方法的流程示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例公开一种基于神经网络的工业控制网络资产发现方法，如图1所示，包括如下步骤：

S10:重复步骤S7~S9，直至待确认数据库内的设备数量小于预设的阈值N，并对剩余的待确认数据库内的报文进行设备类型识别和标记，并将人工识别和标记得到的设备和报文信息加入到S1中的工控资产登记数据库中作为增量数据，对机器学习模型进行增量训练，得到更新后的机器学习模型。更新后的机器学习模型与原来的机器学习模型相比更加完善，从而可以用到新的待确认的系统中。

以上实施例中的第一方面，“报文”（message or packet）是一种数据传输的基本单元。它包含了用于交付和处理该数据的各种信息。报文存在几个方面：

源地址：发送报文的设备的网络地址。

目的地址：目标接收设备的网络地址。

源端口：发送报文设备的网络端口号。

目的端口：接收报文设备的网络端口号。

协议：用于传输报文的网络协议，比如TCP、UDP等。

报文内容：报文不仅仅包含了源地址和目的地址，还包含了具体的数据内容，这些内容可以是各种类型的数据，例如文本、图像、音频等。

在S2步骤中，通过已知的工控资产登记数据库和对应的报文来训练机器学习模型，使其能够基于输入的报文识别设备类型。

在S4步骤中，根据报文中的网络五元素将混合报文分离为多个报文，每个报文对应于一个设备，这有助于识别网络中的各种设备。

在S5步骤中，报文被用作机器学习模型的输入，以计算与设备类型的匹配度，进而判定该报文对应的设备类型。

以上实施例中的第二方面，混合报文是来自多个不同设备的网络通讯数据的集合。要将这些混合报文分离为单个设备的报文，是基于网络五元组（即源地址、目的地址、源端口、目的端口和协议）对混合报文进行分析和分类。

在网络通讯的环境中，每一个报文都带有标识信息和数据内容。其中，源地址和目的地址这两个元素是网络交流的基石。源地址记录了报文发送方的网络位置，这样接收方可以知道是谁发送了这个报文；而目的地址则指示了报文的接收方，使得报文能够准确无误地送达预定的接收设备。

仅仅依赖这两个信息点还不足以完成混合报文的完全分离。这时，源端口和目的端口及网络协议的信息就变得尤为关键。源端口和目的端口可以提供更细节的信息，例如确定该报文是属于哪个特定的服务或应用；而网络协议则定义了报文在网络中的传输方式和规则，有助于进一步揭示报文的性质和用途。

借助上述详实的信息分析，就能够实施一个有序且精准的报文分离策略。首先，通过将具有相同源地址和目的地址的报文归并为一组，实现了第一步的分类。然后，可以进一步细化这个分类，根据源端口和目的端口以及协议的信息，将这些报文再次细分，从而识别出每个单独设备的报文流。

这样，一个结构化和层次化的报文分类和分离系统便得以形成，使得从一堆混合报文中提取出对应单个设备的多个报文不再是一项困难重重的任务，而是一个有条不紊、系统性的过程，大大提升了网络资产发现的效率和准确性。

以上实施例中的第三方面，设备类型的划分，可以根据需要进行具体划分。从宏观上将设备类型分为几大类别，例如计算设备、网络设备和存储设备、边缘控制设备、传感器设备等等，在每种设备往下还可以细分。

计算设备，通常是我们在网络中遇到的最常见设备，这包括了各种服务器、工作站和个人计算机。它们负责处理和执行网络中的各种计算任务，可以根据其作业特性和计算能力进一步细分为高性能计算设备和常规计算设备。

网络设备，主要负责数据的传输和交换。它们是构成网络的基础，可以包括路由器、交换机、防火墙等。这些设备通常负责将数据从源地址传送到目的地址，并可以通过各种网络协议和技术来优化数据传输的效率和安全性。

存储设备，它们是网络中数据存储和备份的关键组件。存储设备可以是物理的，例如硬盘和固态驱动器，也可以是虚拟的，如云存储服务。它们可以根据其存储容量和技术特点进一步细分为高速存储设备和大容量存储设备。

在工业控制系统中，还包括常见的PLC（可编程逻辑控制器）、SCADA系统、人机界面（HMI）、工业网络设备、传感器和执行器、工业机器人、远程I/O模块。这些设备通常具有特定的功能和作用，比如监控和控制工业生产线的运行状态，或者收集和处理来自各种传感器的数据。

以上实施例中的第四方面，对于本发明的机器学习模型，首先要确立模型的核心目标，即精准地识别并标记工业控制网络中流动的报文对应的设备类型。这是一个典型的多分类问题，可以通过监督学习的方法来解决。在一个具体的实施例中，其设计流程可以如下：

首先，本实施例需要构建一个特征提取层。该层主要用于从原始报文中提取出有助于设备识别的关键信息，例如网络五元组（源地址、目的地址、源端口、目的端口和协议）以及报文载荷中的特定模式或标志等。此外，本实施例还可以考虑加入时间特征，如报文的时间戳，以帮助捕捉设备之间的交互模式。

接下来，本实施例可以设计一个深度神经网络作为分类器。该网络可以包含多个隐藏层，用于学习报文特征与设备类型之间的复杂映射关系。本实施例可以使用诸如ReLU或Leaky ReLU等激活函数来增加模型的非线性表达能力。为了防止过拟合，本实施例还可以在网络中加入一些正则化技术，如Dropout或L2正则化。

为了训练模型，本实施例需要构建一个大规模的训练数据集，其中包含了大量的标注好的报文样本。本实施例可以使用交叉熵损失函数作为优化目标，并采用随机梯度下降（SGD）或其变体（如Adam）作为优化器来进行模型的训练。

在训练过程中，本实施例还需要设计一个合适的评价指标来评估模型的性能。对于多分类问题，本实施例可以使用准确率或F1分数等指标。还可以通过绘制混淆矩阵来分析模型在各个类别上的性能。

最后，为了保证模型的实时性和可扩展性，还需要进行一系列的优化和调整，以适应工业控制网络的动态和大规模特性。本实施例可以通过模型剪枝或量化等技术来减少模型的大小和计算量，从而提高模型的运行速度。

通过这样的设计，本实施例可以得到一个能够快速、准确地识别工业控制网络中设备类型的机器学习模型，从而为网络的监控和管理提供强有力的支持。

以上实施例中的第五方面，关于聚类算法，可以选择基于K-means算法的聚类。

在本发明的实施中，聚类过程主要发生在S7步骤，作为一种非监督学习方法，K-means算法可以有效地帮助我们对待确认数据库中的报文进行分类和分析。首先，需要确定合适的K值，也就是聚类的中心数量，这个可以通过一系列的预实验或者使用肘部法则来确定。

一旦确定了K值，算法将随机选择K个报文作为初始的聚类中心。接着，算法将遍历待确认数据库中的每一个报文，计算其与当前K个聚类中心的相似度或距离，然后将其分配到最近的聚类中心所代表的类别中。

随后，算法将根据新的类别划分，重新计算每个类别的聚类中心，通常是计算类别中所有报文的特征均值作为新的聚类中心。这样，算法将进入一个迭代过程，不断地更新聚类中心和重新分配报文到类别，直至聚类中心的变化小于某个预设的阈值或达到预定的迭代次数，算法才会停止。

完成聚类后，就得到了多个不同的聚合类别，每个聚合类别代表了一组具有相似特征的报文。在这个阶段，技术人员将介入，对每个聚合类别中的一个或一部分报文进行人工识别和标记，以确定其设备类型。

通过这样的方式，不仅能够准确识别和标记出各类设备，还能够通过将这些新的识别和标记信息反馈到工控资产登记数据库中，来进一步优化和训练我们的机器学习模型，从而提高其识别精度和效率。

最终，通过不断地重复这个聚类和人工识别的过程，可以逐步提升资产发现的准确性和效率，实现真正的动态和智能的资产发现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于神经网络的工业控制网络资产发现方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述设备类型包括计算设备、网络设备、存储设备。

3.根据权利要求2所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述设备类型进一步包括PLC、SCADA系统、人机界面、工业网络设备、传感器、执行器、工业机器人和远程I/O模块。

4.根据权利要求2所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述计算设备进一步分类为服务器、工作站和个人计算机；

所述网络设备进一步分类为路由器、交换机和防火墙。

5.根据权利要求1所述基于神经网络的工业控制网络资产发现方法，其特征在于，S7中产生所述聚合类别的聚类算法为K-means算法。

6.根据权利要求1所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述机器学习模型为神经网络模型。

7.根据权利要求6所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述神经网络模型包括一个特征提取层和多个隐藏层。

8.根据权利要求7所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述神经网络模型使用交叉熵损失函数作为优化目标，并采用随机梯度下降作为优化器来进行模型的训练。

9.根据权利要求1所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述工控资产登记数据库的构建从采购合同、部署清单和探测发现的确认资产进行入库登记后获得。

10.根据权利要求1所述基于神经网络的工业控制网络资产发现方法，其特征在于，所述方法还包括构建一个已识别设备数据库，用于收集匹配度大于等于预设阈值T的设备的报文信息和设备类型信息。