CN117454376A

CN117454376A - 工业互联网数据安全检测响应与溯源方法及装置

Info

Publication number: CN117454376A
Application number: CN202311022410.1A
Authority: CN
Inventors: 田野; 池剑磊; 刘岩利
Original assignee: Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Current assignee: Hangzhou Research Institute Of Xi'an University Of Electronic Science And Technology
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2024-01-26

Abstract

本发明公开了工业互联网数据安全检测响应与溯源方法及装置，基于掩膜遮挡的互联网数据安全恶意代码响应，使得神经网络模型在训练图像缺失部分特征的情况下，仍能根据余下的图像特征，对恶意代码图像进行准确识别分类；数据分布不平衡情况下的工业互联网数据安全恶意代码响应，通过随机采样训练神经网络模型，再通过均匀采样组成新的训练集合，对模型进行微调训练，在避免因恶意代码类别数量不均导致的过拟合现象的同时提高了检测的精度；恶意代码的分类检测后，还能够进行恶意代码的溯源；从而实现了提前检测与溯源恶意代码，并快速响应扼杀恶意代码传播。

Description

工业互联网数据安全检测响应与溯源方法及装置

技术领域

本发明属于网络安全技术领域，具体涉及工业互联网数据安全检测响应与溯源方法及装置。

背景技术

随着社会发展越来越依赖于计算机系统和网络技术，工业体系逐步进入信息化和智能化时代，种类繁多的工业互联网应用逐步进入了人们的视野，被用来提高工业生产的效率与质量，但随之而来的大量恶意代码对工业互联网的数据安全挑战也日趋严峻。恶意代码，又叫恶意软件，是一种具有恶意意图、以窃取敏感设备和关键信息，并对设备系统进行操纵并造成破坏，以瘫痪网络为目标而设计的一种具有高隐蔽性的软件程序，例如计算机病毒、蠕虫、间谍软件、广告软件等都属于恶意代码。

自计算机诞生起，恶意代码就持续威胁着计算机的安全。近年来，随着工业互联网的迅速发展，针对工业网络控制系统的网络攻击逐渐增多，且攻击病毒愈发复杂化、多样化和隐蔽化。网络攻击事件，在很大程度上对用户造成了损失，也为互联网数据安全的发展敲响了警钟。

我国工业制造体系庞大，而工业互联网是信息化和工业化进行深度融合的关键因素，对整个工业生产体系和企业战略规划体系的重要支撑。如何有效检测、遏制、阻断恶意代码对工业互联网数据安全的威胁，对数据安全事件进行检测响应与溯源，成为有效防御的重要基础支撑点。工业网络场景复杂，既有关键计算机节点，也有各类智能仪表和控制单元，对稳定性、可靠性、连续性、实时性的要求极高，其对恶意代码对抗能力的需求不能单纯的用传统的安装反病毒软件、部署反病毒网关等方式实现，而需要有更灵活地适配、组合方式，形成恶意代码的快速检测。

同时，工业场景下的反病毒引擎，既需要拥有完整的传统检测能力，以应对无差别攻击；也需要全面提升工控威胁防御能力防御定向攻击及威胁溯源。单纯传统的本地恶意代码检测引擎可以提供较为精准的检测，但易于被采用“免杀”、利用0DAY漏洞和加密混淆的恶意代码逃避检测，而且对复杂工业场景适配性较差；云查杀机制不仅更容易被绕过，同时在工业网下缺少部署条件；而传统检测机制对针对工业系统高级威胁的针对性和对态势感知的数据支撑均不足，且在检测过程中有着准确率低，耗时长且需要复杂的数据预处理过程等问题。由于信息技术的特殊性，恶意代码往往是通过主动寻找系统漏洞来寻找攻击突破口，所以往往是在系统被攻破，并造成了用户的损失之后，才进行研究识别和防御该恶意代码的措施，所以目前的安全措施往往是处于“后知后觉”、被动防御状态。

发明内容

为解决现有技术的不足，实现预测恶意代码的特征信息，提前检测与溯源恶意代码，并快速响应扼杀恶意代码传播的目的，本发明采用如下的技术方案：

一种互联网数据安全检测响应方法，包括如下步骤：

步骤S1：基于掩膜遮挡的互联网数据安全恶意代码响应，构建神经网络模型，对恶意代码样本数据可视化后的数据，经掩模遮挡处理后，用于神经网络模型的分类检测训练；

步骤S2：数据分布不平衡情况下的工业互联网数据安全恶意代码响应，对恶意代码样本数据，根据各类别的数量进行划分，得到一组不同类别的样本数据子集，从各子集中选取样本数据作为训练集，训练神经网络模型，然后再次选取样本数据进行再次训练，直至达到训练完成条件，训练完成后，在恶意代码样本数据上，对各类别样本进行了均匀采样，组成新的训练集合，使用新的训练集合对训练好的模型进行微调训练，以使得训练后模型获得更好的分类准确度，最终得到训练好的神经网络，用于恶意代码的分类检测。

进一步地，所述步骤S1中，构建训练样本集x_n表示恶意代码样本，y_n表示恶意代码的分类标签，N表示样本个数。

进一步地，所述步骤S1中的掩模遮挡处理，通过如下公式对训练样本集的图像中矩形区域进行去除：

x′_n＝M⊙x_n

其中，x_n为经过可视化后的代码指纹图，用于表示恶意代码样本，M∈{0,1}^W×H表示二进制掩码矩阵，在矩阵M中大部分区域取值为1，在图像x_n选中的中心点及其合围正方形区域在矩阵M中对应的元素取值为0，表示删除图像中的所选区域，矩阵M的大小，即宽W×高H，与代码指纹图x_n相同，⊙是逐元素乘法。通过遮挡住图像中的部分局部信息，使得卷积神经网络模型在训练图像缺失部分特征的情况下，仍能根据余下的图像特征，对恶意代码图像进行准确识别分类，提高了卷积神经网络模型对于恶意代码数据特征的使用效率。

进一步地，所述原膜遮挡处理中，先生成全部由1填充的矩阵M，随机产生N₁个不相同的整数，分别对应矩阵M中不同的行在选取出的行中，随机生成一个整数，对应行中选取出的像素点位置，然后生成一个N₂以内的整数，以此为半径，将矩阵M中像素点位置及其行的半径区域内的数值变更为0，最后使用得到的矩阵M，对指纹图x_n进行局部行遮挡。

进一步地，所述步骤S1中的神经网络模型，在特征提取后，通过自注意力机制提取特征进行计算，并得到相应的注意力特征图，最后通过全链接网络和softmax分类器对特征图进行分类识别。在自然语言处理中，自注意力模块通过关注所有位置并在嵌入空间中取其加权平均值来计算序列中某个位置的响应。自注意力机制是一种非局部均值的计算方式，将自然语言处理领域中的机器翻译任务中使用的自注意力机制同计算机视觉图像识别任务中的非局部滤波操作联系在一起。

进一步地，所述自注意力机制，将提取的特征分别通过两个卷积层计算特征图，通过特征图计算注意力：

其中，f_φ(X_i)_k表示第i个提取特征的k^th位置，f_φ(X_i)_j表示第i个提取特征的j^th区域，ψ₁(·)、ψ₂(·)分别表示第一、第二卷积层的卷积操作，s_kj为中间变量，β_j,k表示注意力程度；

通过注意力程度计算最终输出的特征图：A_i＝(A_i1,A_i2,...,A_ij...,A_iN)，C表示卷积核的通道数，N表示上一个隐藏层中特征图中点的数量，A_ij计算方式如下：

其中，γ表示可学习的标量，ψ₃(·)、ψ₄(·)分别表示第三、第四卷积层，通过引入可学习的标量γ能使得卷积神经网络模型在训练过程中加强对本地临域中特征的学习与挖掘，并在后续的训练过程中为非局部特征分配较大的训练权重，使得模型充分学习到全局的特征信息，以进一步提升训练所得卷积神经网络模型的识别泛化性能。

进一步地，在传统的恶意代码深度卷积神经网络模型训练任务中，模型对数据集中的所有样本逐批次采样训练，从而产生了对数据量较多的恶意代码类别过拟合的现象。所述步骤S2中，对恶意代码样本数据进行随机采样，依据各个类别的恶意样本数量，将恶意代码样本数据划分为多个从多到少依次排列的样本子集，由于训练数据集具有高度不平衡分布的特点，所以第一个样本自己远大于最后一个样本自己，为了削弱训练模型对数量较多的头部类别样本的过拟合现象，提高模型对于数量相对较少的尾部类别样本的识别准确度，随机采样通过如下方式使用子集训练恶意代码识别分类模型，随机打乱各样本子集中恶意代码训练样本的顺序，然后分别从各样本子集中按随机排列后的顺序依次取出相同数量的样本，组成一个新的训练集合，并记录最后一个样本在子集中的位置，然后使用训练集合中的样本作为训练子集，训练恶意代码识别分类模型，然后在各样本子集中上一批次最后一个样本的位置后，按顺序依次取出新的多个样本组成新的子集，并继续训练恶意代码识别分类模型，在经过多次选取后，由于各个子集中样本数量不同，将逐渐出现各子集中样本不足的情况，在这种情况下，重新打乱样本不足子集的数据顺序，并重新依次选取样本。在这种选取方式下，可以保证每个子集中用于训练模型的样本均匀分布，模型f_θ(x)能均匀的学习各类别样本的特征，从而提高对类别数量较少的样本的识别泛化性能。

进一步地，随机采样能够保证在模型的每个批次的训练过程中，训练模型f_θ(x)能均匀的学习各个类别样本的特征，以减少模型对数量较多的类别样本的学习偏好，从而减少模型对恶意代码训练样本的过拟合现象，提高模型对恶意代码训练集中数量较少的类别样本的识别泛化性能；但是随机采样过程中，训练模型f_θ(x)对于类别数量较多的样本的学习频次较低，虽然f_θ(x)模型对于恶意代码的整体识别精度有所提升，但对于样本数量较多的恶意代码类别，识别精度在一定程度上有所下降。为了进一步改善训练模型在类别高度不平衡的恶意代码数据集上的泛化性能；因此，在所有类别微调训练中，首先，使用通过随机采样方法训练后获得的恶意代码识别分类模型对各样本子集中的样本进行处理，得到各类别在恶意代码识别分类模型特征空间中的中心位置，然后根据中心点位置，计算各个类别样本与其中心样本之间的欧氏距离，在各个类别的样本中选取多个欧式距离最大、最小的样本，即距离中心样本最远的多个样本，同时在各个类别中选取出距离中心样本最近的多个样本，组成全新的训练子集，并使用全新的训练子集，在随机采样过程中训练好的恶意代码识别分类模型上进行微调训练，进一步优化模型的识别性能。

一种互联网数据安全检测响应与溯源方法，根据所述的互联网数据安全检测响应方法，还包括步骤S3：互联网数据安全恶意代码溯源，包括如下步骤：

步骤S3.1：恶意代码分析，包括静态分析和动态分析；

所述静态分析，打开恶意代码文件，对代码进行反汇编，查看其汇编指令，以了解代码的结构和执行流程，接下来，对代码进行分析，研究其逻辑、条件判断、循环和函数调用等，以理解代码的功能，并寻找可能存在的漏洞，同时，还可以提取恶意代码的静态特征，如文件哈希值、代码签名等，用于后续的关联分析；

所述动态分析，在受控环境中运行恶意代码，并监测其对文件的操作、与外部的网络通信、对注册表的访问，以分析其可能的持久性行为；

步骤S3.2：收集关键信息；

为了有效保存恶意代码样本和相关文件，首先需要创建一个安全的存储目录，在目录中，将恶意代码文件本身保存下来，并使用描述性的文件名，以便在后续的溯源分析中能够清楚地识别，还将其他相关文件，保存到相同的目录中，以便综合分析和调查；通过这样的整理方式，能够更好地留存恶意代码样本及其相关文件，为安全研究和威胁分析提供有力的支持；

收集受感染或受攻击系统的相关信息，包括系统日志、应用程序日志和安全设备日志；

收集网络流量数据；通过访问相应的日志文件或控制台，记录与恶意代码相关的网络流量数据；在整理数据时，要特别关注与攻击相关的IP地址、域名、URL、协议、传输方式等信息，以便追踪攻击源头和传播路径；这样能够帮助分析和识别潜在的安全威胁，并采取适当的安全措施来应对这些攻击。

步骤S3.3：分析样本特征，包括文件特征分析、动态行为分析和静态特征分析；

所述文件特征分析，获取文件的基本信息，然后，提取文件的文件名、文件路径、文件大小和文件哈希值，其中文件哈希值用于后续的关联分析和非法代码库的查询，最后，使用文件分析工具(如PEview)检查文件的结构和属性，包括文件头、节表、导入和导出函数等信息；

所述动态行为分析，在受控环境中运行恶意代码，并监控其行为，监测恶意代码的文件操作行为，包括创建、删除、修改文件等。记录恶意代码启动的进程及其关联的子进程。监测恶意代码的网络通信，包括与哪些IP地址或建立连接的域名、使用的协议和端口等，并检查恶意代码是否修改或创建了静态项目；

所述静态特征分析，提取恶意代码的静态特征，例如文件名、文件哈希值、导入和导出函数等，使用在线恶意代码库(如VirusTotal)或专业的恶意代码分析工具(如Maltego)对这些特征进行关联分析，以获取恶意代码的更多信息；

步骤S3.4：分析网络流量，包括收集网络流量数据并分析、追踪网络活动和分析网络通信；

所述收集网络流量数据并分析，筛选与非法代码相关或异常的流量，关注地址及其相关的信息，查看数据包及其相关信息；

所述追踪网络活动，获取注册信息及归属地，查找恶意流量对应的地址，通过关联分析，追踪与恶意代码相关的网络活动路径；

所述分析网络通信，对恶意代码相关的网络流量进行数据内容分析，寻找可能包含可疑命令、配置信息或敏感数据的传输；根据协议分析数据包，了解传输的数据类型和相关协议规范，并发现异常的网络通信模式，如大量的出站流量或非常规范的端口通信，可以发现潜在的威胁行为；

步骤S3.5：分析系统日志，配置系统日志记录，解析系统日志并配置解析规则，针对关键日志类型进行分析，通过寻找在日志中共同的特征将多个日志事件关联起来，根据关联的安全事件链，重构攻击或异常行为的完整过程，将系统日志与外部威胁情报源进行比较，根据分析结果，采取相应的安全措施；

配置系统日志记录，确保日志记录的级别和详细程度足够满足分析需求。定期收集系统日志数据，并将其保存到中央日志服务器或专用存储设备中。

解析系统日志，使用日志分析工具，如ELK Stack或Splunk。配置解析规则，将日志数据分类和结构化，以便进行分析和查询。对系统日志进行过滤和排序，集中关注与安全事件相关的日志条目。

分析系统日志主要是针对关键日志类型进行分析。根据日志的时间戳，查看日志事件的顺序，确定事件的时间线。关注异常事件，如异常登录、权限提升、文件篡改和异常进程活动等。查找与恶意代码活动相关的日志，如可疑的网络通信、异常注册表操作和恶意文件下载等。追踪特定用户或主机的日志，了解其活动模式和异常行为。

关联事件和行为是通过寻找在日志中共同的特征将多个日志事件关联起来，形成完整的安全事件链。可以使用事件关联工具，如规则引擎或自动关联分析工具，自动识别和关联相关日志事件。根据关联的安全事件链，重构攻击或异常行为的完整过程，以获得全面的了解。

将系统日志与外部威胁情报源进行比较，以了解是否有相关的已知威胁或恶意IP地址。根据分析结果，采取相应的安全措施，如封禁恶意IP地址、修补系统漏洞和强化密码策略等。这样可以及时应对潜在威胁，并提高系统的整体安全性。

步骤S3.6：关联分析和追踪攻击链；收集要进行关联分析和追踪攻击链的数据集，如网络流量数据、系统日志、安全事件记录等，确保数据集包含足够的信息来支持分析的目标和需求；对数据进行预处理，包括清洗数据、去重复项、填充缺失值等，确保数据的质量和完整性。同时，对数据进行标准化，统一数据格式和单位，以便后续的分析操作；针对关联分析，选择适当的关联分析算法，如Apriori算法。根据算法的要求和数据准备的结果，进行必要的数据转换和特征选择，以满足算法的输入要求。然后使用选定的关联分析算法进行关联分析，调整参数和阈值，得出合理的关联规则或关联模式；对于追踪攻击链，收集与安全事件相关的日志数据和其他证据，如系统日志、网络流量记录、异常登录记录等。根据收集到的证据，重构攻击事件的时间线，了解攻击者的行动路径和先后顺序。分析攻击过程中使用的技术和手段，了解攻击的目标、攻击手段和攻击者的动机；评估生成的关联规则或关联模式以及追踪攻击链的结果，分析它们所表示的关联关系和含义，并评估其质量和可信度，根据评估结果，选择具有实际应用价值的关联关系和采取相应的安全措施和修复策略；最后，使用适当的可视化工具，将分析和追踪结果以图表、图形等形式展现，以便更直观地理解和解释。撰写报告，将整个分析和追踪的过程、方法和结果进行整理和总结，方便与他人分享和沟通；

步骤S3.7：生成溯源报告。

一种工业互联网数据安全检测响应与溯源装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于在工业互联网上实现所述的互联网数据安全检测响应与溯源方法。

本发明的优势和有益效果在于：

本发明通过遮挡住图像中的部分局部信息，使得卷积神经网络模型在训练图像缺失部分特征的情况下，仍能根据余下的图像特征，对恶意代码图像进行准确识别分类，提高了卷积神经网络模型对于恶意代码数据特征的使用效率；本发明通过随机采样避免了因恶意代码类别数量不均导致的过拟合现象，并基于均匀采样构建新的训练集进行检测模型的微调，在避免过拟合的同时提高了检测的精度。

附图说明

图1是本发明实施例中方法的流程图。

图2a是本发明实施例中掩膜遮挡的图像之一。

图2b是本发明实施例中掩膜遮挡的图像之二。

图3是本发明实施例中注意力机制流程示意图。

图4是本发明实施例中注意力模块计算流程示意图。

图5是本发明实施例中随机采样过程示意图。

图6是本发明实施例中数据选取策略示意图。

图7是本发明实施例中装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

如图1所示，工业互联网数据安全检测响应与溯源方法，包括如下步骤：

步骤S1：基于掩膜遮挡的工业互联网数据安全恶意代码响应，包括如下步骤：

步骤S1.1：掩膜遮挡预处理；

对于训练样本集其中x_n表示恶意代码样本，y_n表示恶意代码的分类标签，训练样本集中存在N个样本。恶意代码识别分类任务的目标是使用训练样本集/>中的样本数据，训练卷积神经网络模型f_θ(x)，通过对模型参数θ的学习，使模型能对测试集中的样本数据进行准确分类。x_n表示经过可视化后的代码指纹图。

x′_n＝M⊙x_n (1)

其中，M∈{0,1}^W×H表示一个二进制掩码，在矩阵M中大部分区域取值为1，在图像x_n选中的中心点及其合围正方形区域在矩阵M中对应的元素取值为0，表示删除图像中的所选区域，矩阵M的大小W×H与代码指纹图x_n相同，⊙是逐元素乘法，通过公式(1)实现对训练图像中矩形区域的去除。

对于一个恶意代码指纹图x_n，我们在使用指纹图训练卷积神经网络模型之前，在其中随机选取出一定数量的行，并在选中的行中随机选取一段的区域以0代替进行遮挡。若指纹图的像素为299×299，首先生成一个299×299大小的、全部由1填充的矩阵M，在299以内随机产生N₁个不相同的整数，分别对应矩阵M中不同的行。在选取出的行中，随机生成299以内的一个整数，对应行中选取出的像素点位置，然后生成一个N₂以内的整数，以此为半径，将矩阵M中像素点位置及其行的半径区域内的数值变更为0。其中N₁和N₂为超参数，最后使用得到的矩阵M通过公式(1)的计算方式对指纹图x_n进行局部行遮挡。本发明所提掩膜遮挡的具体图像示例如图2a、图2b所示。图中，显示了掩膜遮挡数据预处理方法可以遮挡住图像中的部分局部信息，使得卷积神经网络模型在训练图像缺失部分特征的情况下，仍能根据余下的图像特征，对恶意代码图像进行准确识别分类，提高了卷积神经网络模型对于恶意代码数据特征的使用效率。

步骤S1.2：自注意力机制；

使用卷积神经网络模型对遮挡后的图像进行特征提取，经过卷积神经网络处理后，使用自注意力机制模块对提取特征进行计算，并得到相应的注意力特征图，最后通过全链接网络和softmax分类器对特征图进行识别分类，具体过程如图3所示。图中使用的自注意力机制模块，受自然语言处理中机器翻译任务启发，在自然语言处理中，自注意力模块通过关注所有位置并在嵌入空间中取其加权平均值来计算序列中某个位置的响应。自注意力机制是一种非局部均值的计算方式，将自然语言处理领域中的机器翻译任务中使用的自注意力机制同计算机视觉图像识别任务中的非局部滤波操作联系在一起。

在卷积神经网络模型中，卷积核在卷积运算中仅能处理图像中局部相邻的像素信息，在模型的训练过程中，卷积运算很难提取并得出图像中远距离的特征间的相关作用。为了使卷积神经网络模型能够在图像中捕获代码指纹图的全局特征信息，使最终获得的用于分类的特征更具有代表性和差异性，在卷积神经网络模型后加入了自注意力模块，其结构如图4所示。卷积神经网络对指纹图提取的特征图，经过两个1×1的卷积层的计算，得到计算后的特征图，使用计算后的特征图计算注意力。因此，所以在模型合成的j^th区域对k^th位置的注意力程度β_j,k表示为：

通过注意力程度计算出自注意力模块输出的特征图A_i＝(A_i1,A_i2,...,A_ij...,A_iN)，其中C表示卷积核的通道数，N表示上一个隐藏层中特征图中点的数量。同时A_ij计算方式如下：

其中，γ为可学习的标量，在训练开始时通常被设置为0。通过引入可学习的标量γ能使得卷积神经网络模型在训练过程中加强对本地临域中特征的学习与挖掘，并在后续的训练过程中为非局部特征分配较大的训练权重，使得模型充分学习到全局的特征信息，以进一步提升训练所得卷积神经网络模型的识别泛化性能。

步骤S2：数据分布不平衡情况下的工业互联网数据安全恶意代码响应

步骤S2.1：随机采样；

对于一个各类别数量分布高度不平衡的恶意代码识别分类训练数据集其中x_n表示恶意代码样本，y_n表示恶意代码的分类标签。在传统的恶意代码深度卷积神经网络模型训练任务中，模型对数据集/>中的所有样本逐批次采样训练，从而产生了对数据量较多的恶意代码类别过拟合的现象。

在本发明提出的随机采样中，对于训练集统计在训练数据集合中各类别样本的数量，各类别样本数量从多到少依次记为N₁，N₂，…,N_m，其中m表示数据集中包含的恶意样本类别数量。依据各个类别的恶意样本数量，将训练集划分为m个样本子集，分别用表示，其中/>表示第i个样本子集。由于训练数据集具有高度不平衡分布的特点，所以N₁＞＞N_m，为了削弱训练模型对数量较多的头部类别/>等样本的过拟合现象，提高模型对于数量相对较少的尾部类别/>等类别样本的识别准确度，随机采样通过如下方式使用/> 等子集训练恶意代码识别分类模型f_θ(x)：

随机采样过程如图5所示。对于划分后的各个子集中的样本，首先分别随机打乱各个样本子集中恶意代码训练样本的顺序，然后分别从各个子集中按随机排列后的顺序依次取出相同数量的样本，并记录最后一个样本在子集中的位置，每个子集中分别取出j个样本，j为超参数，本发明实施例中j取值为10，组成一个新的训练集合，记为然后使用中的样本作为训练子集，训练恶意代码识别分类模型f_θ(x)。在使用/>中的样本对恶意代码识别分类模型f_θ(x)训练一次后，在各个子集中上一批次最后一个样本的位置后按顺序依次取出新的j个样本组成新的子集/>并继续训练恶意代码识别分类模型f_θ(x)。在经过多次选取后，由于各个子集中样本数量不同，将逐渐出现各子集中样本不足的情况，在这种情况下，重新打乱样本不足子集的数据顺序，并重新依次选取样本。在这种选取方式下，可以保证每个子集中用于训练模型的样本均匀分布，模型f_θ(x)能均匀的学习各类别样本的特征，从而提高对类别数量较少的样本的识别泛化性能。

步骤S2.2：所有类别微调；

随机采样能够保证在模型的每个批次的训练过程中，训练模型f_θ(x)能均匀的学习各个类别样本的特征，以减少模型对数量较多的类别样本的学习偏好，从而减少模型对恶意代码训练样本的过拟合现象，提高模型对恶意代码训练集中数量较少的类别样本的识别泛化性能。

但是随机采样过程中，训练模型f_θ(x)对于类别数量较多的样本的学习频次较低，虽然f_θ(x)模型对于恶意代码的整体识别精度有所提升，但对于样本数量较多的恶意代码类别，识别精度在一定程度上有所下降。为了进一步改善训练模型在类别高度不平衡的恶意代码数据集上的泛化性能，本发明在随机采样训练步骤完成之后，在恶意代码数据集上对各类别样本进行了均匀采样，组成新的训练集合，使用新的训练集合对随机采样过程中训练好的模型进行微调训练，以使得训练后模型f_θ(x)获得更好的分类准确度。在所有类别微调训练中，训练数据的选取是该部分的核心，数据选取策略如图6所示。

在所有类别微调训练中，首先，使用通过随机采样方法训练后获得的恶意代码识别分类模型f_θ(x)对训练集中的样本进行如下处理：

其中，X_k表示每个类别在训练模型特征空间中的中心位置，通过式(4)计算出各个类别训练样本在随机采样过程中训练模型f_θ(x)预测空间中的中心点位置，然后根据计算的中心点位置，计算各个类别样本与其中心样本之间的欧氏距离d_k，在各个类别的样本中选取出d_k取值最大的k个样本和取值最小的k个样本，也即距离中心样本最远的k个样本，同时在各个类别中选取出距离中心样本最近的k个样本，组成全新的训练子集/>并使用/>训练子集在随机采样过程中训练好的模型f_θ(x)上进行微调训练，进一步优化模型的识别性能。

步骤S3：工业互联网数据安全恶意代码溯源

步骤S3.1：恶意代码分析；

本发明采用静态分析和动态分析的方法进行恶意代码分析。在静态分析方面，首先使用静态分析工具(如IDA Pro、Ghidra)打开恶意代码文件。然后，对代码进行反汇编，查看其汇编指令，以了解代码的结构和执行流程。接下来，对代码进行分析，研究其逻辑、条件判断、循环和函数调用等，以理解代码的功能，并寻找可能存在的漏洞。同时，还可以提取恶意代码的静态特征，如文件哈希值、代码签名等，用于后续的关联分析。

而在动态分析方面，首先需要在受控环境中运行恶意代码。通过虚拟化技术(如虚拟机)或沙盒技术(如Cuckoo Sandbox)来隔离恶意代码的运行环境，并监测其行为。在运行过程中，需要监测恶意代码对文件的操作，包括创建、删除、修改等。同时，还需要监测其与外部服务器的网络通信，包括发送的数据、通信协议和目标地址。此外，还需要注意恶意代码对注册表的访问情况，以分析其可能的持久性行为。

代码示意：

步骤S3.2：收集关键信息；

为了有效保存恶意代码样本和相关文件，首先需要创建一个安全的存储目录。这个目录应该在一个受控的环境中，确保只有授权人员可以访问。在这个目录中，我们可以将恶意代码文件本身保存下来，并使用描述性的文件名，以便在后续的溯源分析中能够清楚地识别。除了恶意代码文件，还应该将其他相关文件，如有效代码所生成的日志文件、配置文件等，保存到相同的目录中，以便综合分析和调查。通过这样的整理方式，能够更好地留存恶意代码样本及其相关文件，为安全研究和威胁分析提供有力的支持。

为了收集受感染或受攻击系统的相关信息，需要收集系统日志、应用程序日志和安全设备日志。首先，我们需要确定网络类型，并找到相应系统日志的存储位置。例如，对于Windows系统，我们可以使用事件查看器(Event Viewer)来查看系统日志。我们应该重点关注系统日志中的关键事件，例如异常登录、文件访问、进程创建、远程连接等。这些与不良代码相关的事件应该被记录另外，如果存在其他应用日志程序，例如Web服务器日志、数据库服务器日志等，我们也需要进行类似的操作。

为了收集网络流量数据，可以在受感染或受攻击的系统上部署网络流量监测工具，如入侵检测系统(IDS)或防火墙。然后，通过访问相应的日志文件或控制台，记录与恶意代码相关的网络流量数据。在整理数据时，要特别关注与攻击相关的IP地址、域名、URL、协议、传输方式等信息，以便追踪攻击源头和传播路径。这样能够帮助分析和识别潜在的安全威胁，并采取适当的安全措施来应对这些攻击。

代码示意

/>

步骤S3.3：分析样本特征；

文件特征分析：

首先，使用杀毒软件或在线病毒扫描服务对恶意代码文件进行查毒扫描，以获取文件的基本信息。然后，提取文件的文件名、文件路径、文件大小和文件哈希值，其中文件哈希值可以用于后续的关联分析和非法代码库的查询。最后，使用文件分析工具(如PEview)检查文件的结构和属性，包括文件头、节表、导入和导出函数等信息。

动态行为分析：

在受控环境中使用虚拟机或沙盒技术运行恶意代码，并监控其行为。监测恶意代码的文件操作行为，包括创建、删除、修改文件等。记录恶意代码启动的进程及其关联的子进程。监测恶意代码的网络通信，包括与哪些IP地址或建立连接的域名、使用的协议和端口等。还要检查恶意代码是否修改或创建了静态项目。

静态特征分析：

提取恶意代码的静态特征，例如文件名、文件哈希值、导入和导出函数等。使用在线恶意代码库(如VirusTotal)或专业的恶意代码分析工具(如Maltego)对这些特征进行关联分析，以获取恶意代码的更多信息。

步骤S3.4：分析网络流量；

收集网络流量数据：配置网络流量监测工具，如IDS、网络流量分析器或防火墙，并配置设备来捕获和记录网络流量数据。

分析网络流量：使用网络流量分析工具，如Wireshark，打开捕获到的网络流量数据文件，并筛选与非法代码相关或异常的流量。关注源IP地址、目的IP地址、端口号、传输协议、流量大小等信息，并查看数据包有效的税务和HTTP流量的详细信息。

追踪网络活动：通过恶意流量或异常流量的源IP地址或目的IP地址，使用WHOIS查询工具获取注册信息及归属地，并使用DNS查询工具查找恶意域名解析的IP地址。通过关联分析，追踪与恶意代码相关的网络活动路径。

分析网络通信：对恶意代码相关的网络流量进行数据内容分析，寻找可能包含可疑命令、配置信息或敏感数据的传输。根据协议分析数据包，了解传输的数据类型和相关协议规范，并发现异常的网络通信模式，如大量的出站流量或非常规范的端口通信，可以发现潜在的威胁行为。

示意代码：

步骤S3.5：分析系统日志；

解析系统日志使用日志分析工具，如ELK Stack或Splunk。配置解析规则，将日志数据分类和结构化，以便进行分析和查询。对系统日志进行过滤和排序，集中关注与安全事件相关的日志条目。

步骤S3.6：关联分析和追踪攻击链；

收集要进行关联分析和追踪攻击链的数据集，如网络流量数据、系统日志、安全事件记录等，确保数据集包含足够的信息来支持分析的目标和需求。

对数据进行预处理，包括清洗数据、去重复项、填充缺失值等，确保数据的质量和完整性。同时，对数据进行标准化，统一数据格式和单位，以便后续的分析操作。

针对关联分析，选择适当的关联分析算法，如Apriori算法。根据算法的要求和数据准备的结果，进行必要的数据转换和特征选择，以满足算法的输入要求。然后使用选定的算法进行关联分析，调整参数和阈值，得出合理的关联规则或关联模式。

Apriori算法示例代码：

/>

对于追踪攻击链，收集与安全事件相关的日志数据和其他证据，如系统日志、网络流量记录、异常登录记录等。根据收集到的证据，重构攻击事件的时间线，了解攻击者的行动路径和先后顺序。分析攻击过程中使用的技术和手段，了解攻击的目标、攻击手段和攻击者的动机。

评估生成的关联规则或关联模式以及追踪攻击链的结果，分析它们所表示的关联关系和含义，并评估其质量和可信度。根据评估结果，选择具有实际应用价值的关联关系和采取相应的安全措施和修复策略。

最后，使用适当的可视化工具，将分析和追踪结果以图表、图形等形式展现，以便更直观地理解和解释。撰写报告，将整个分析和追踪的过程、方法和结果进行整理和总结，方便与他人分享和沟通

步骤S3.7：生成溯源报告；

1.了解需求和目标：

a.与相关利益相关者沟通，明确溯源报告的目的、范围和期望的输出。

b.确定报告的受众和使用场景，以便提供合适的报告内容和格式。

2.收集溯源证据：

a.基于之前的攻击链追踪工作，收集所有相关的攻击证据和日志数据。

b.确保收集到的证据具备可靠性、完整性和准确性。

3.整理和清洗数据：

a.对收集到的溯源证据进行整理，并清除不必要的数据和噪音。

b.确保数据的可读性和易于分析，以便后续的报告编制工作。

4.分析溯源证据：

a.仔细分析收集到的溯源证据，比对攻击链的不同步骤和攻击者的行为。

b.识别和关联相关的日志事件，以建立攻击链的完整图景。

5.编制溯源报告：

a.根据目标和需求，确定报告的结构、内容和格式。

b.包括攻击链的重现、攻击者行动的详细描述、受影响的系统和数据的总结，以及建议的修复和保护措施。

6.提供可视化和图表：

a.利用图表、图形和可视化工具，以直观的方式展示攻击链和攻击路径。

b.通过让读者更直观地了解攻击事件的过程和影响，提高报告的易读性和可理解性。

7.附加支持材料和证据：

a.在报告中附加必要的支持材料和证据，如日志截图、数据分析结果等。

b.确保材料和证据的合法性和真实性，以增加报告的可信度。

8.审查和复核：

a.对生成的报告进行审查和复核，确保报告的质量和准确性。

b.确保报告中没有遗漏重要信息和错误的陈述。

9.交付和沟通：

a.将生成的溯源报告交付给相关利益相关者，如管理层、安全团队或法律顾问。

b.向相关利益相关者解释和沟通报告内容，确保报告的理解和使用。

与前述工业互联网数据安全检测响应与溯源方法的实施例相对应，本发明还提供了工业互联网数据安全检测响应与溯源装置的实施例。

参见图7，本发明实施例提供的工业互联网数据安全检测响应与溯源装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的工业互联网数据安全检测响应与溯源方法。

本发明工业互联网数据安全检测响应与溯源装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明工业互联网数据安全检测响应与溯源装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的工业互联网数据安全检测响应与溯源方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种互联网数据安全检测响应方法，其特征在于包括如下步骤：

步骤S2：数据分布不平衡情况下的工业互联网数据安全恶意代码响应，对恶意代码样本数据，根据各类别的数量进行划分，得到一组不同类别的样本数据子集，从各子集中选取样本数据作为训练集，训练神经网络模型，然后再次选取样本数据进行再次训练，直至达到训练完成条件，训练完成后，在恶意代码样本数据上，对各类别样本进行了均匀采样，组成新的训练集合，使用新的训练集合对训练好的模型进行微调训练，最终得到训练好的神经网络，用于恶意代码的分类检测。

2.根据权利要求1所述的互联网数据安全检测响应方法，其特征在于：所述步骤S1中，构建训练样本集x_n表示恶意代码样本，y_n表示恶意代码的分类标签，N表示样本个数。

3.根据权利要求1所述的互联网数据安全检测响应方法，其特征在于：所述步骤S1中的掩模遮挡处理，通过如下公式对训练样本集的图像中矩形区域进行去除：

x′_n＝M⊙x_n

其中，x_n为经过可视化后的代码指纹图，用于表示恶意代码样本，M∈{0,1}^W×H表示二进制掩码矩阵，在矩阵M中大部分区域取值为1，在图像x_n选中的中心点及其合围正方形区域在矩阵M中对应的元素取值为0，表示删除图像中的所选区域，矩阵M的大小，即宽W×高H，与代码指纹图x_n相同，⊙是逐元素乘法。

4.根据权利要求3所述的互联网数据安全检测响应方法，其特征在于：所述原膜遮挡处理中，先生成全部由1填充的矩阵M，随机产生N₁个不相同的整数，分别对应矩阵M中不同的行在选取出的行中，随机生成一个整数，对应行中选取出的像素点位置，然后生成一个N₂以内的整数，以此为半径，将矩阵M中像素点位置及其行的半径区域内的数值变更为0，最后使用得到的矩阵M，对指纹图x_n进行局部行遮挡。

5.根据权利要求1所述的互联网数据安全检测响应方法，其特征在于：所述步骤S1中的神经网络模型，在特征提取后，通过自注意力机制提取特征进行计算，并得到相应的注意力特征图，最后通过全链接网络和分类器对特征图进行分类识别。

6.根据权利要求5所述的互联网数据安全检测响应方法，其特征在于：所述自注意力机制，将提取的特征分别通过两个卷积层计算特征图，通过特征图计算注意力：

where s_kj＝ψ₁(f_φ(X_i)_k)^T·ψ₂(f_φ(X_i)_j)

其中，γ表示可学习的标量，ψ₃(·)、ψ₄(·)分别表示第三、第四卷积层。

7.根据权利要求1所述的互联网数据安全检测响应方法，其特征在于：所述步骤S2中，对恶意代码样本数据进行随机采样，依据各个类别的恶意样本数量，将恶意代码样本数据划分为多个从多到少依次排列的样本子集，随机打乱各样本子集中恶意代码训练样本的顺序，然后分别从各样本子集中按随机排列后的顺序依次取出相同数量的样本，组成一个新的训练集合，并记录最后一个样本在子集中的位置，然后使用训练集合中的样本作为训练子集，训练恶意代码识别分类模型，然后在各样本子集中上一批次最后一个样本的位置后，按顺序依次取出新的多个样本组成新的子集，并继续训练恶意代码识别分类模型，在经过多次选取后，重新打乱样本不足子集的数据顺序，并重新依次选取样本。

8.根据权利要求7所述的互联网数据安全检测响应方法，其特征在于：在所有类别微调训练中，首先，使用通过随机采样方法训练后获得的恶意代码识别分类模型对各样本子集中的样本进行处理，得到各类别在恶意代码识别分类模型特征空间中的中心位置，然后根据中心点位置，计算各个类别样本与其中心样本之间的欧氏距离，在各个类别的样本中选取多个欧式距离最大、最小的样本，即距离中心样本最远的多个样本，同时在各个类别中选取出距离中心样本最近的多个样本，组成全新的训练子集，并使用全新的训练子集，在随机采样过程中训练好的恶意代码识别分类模型上进行微调训练。

9.一种互联网数据安全检测响应与溯源方法，其特征在于：根据权利要求1至8任一项所述的互联网数据安全检测响应方法，还包括步骤S3：互联网数据安全恶意代码溯源，包括如下步骤：

步骤S3.1：恶意代码分析，包括静态分析和动态分析；

所述静态分析，打开恶意代码文件，对代码进行反汇编，对代码进行分析，并寻找可能存在的漏洞，同时，提取恶意代码的静态特征，用于后续的关联分析；

所述动态分析，在受控环境中运行恶意代码，并监测其对文件的操作、与外部的网络通信、对注册表的访问；

步骤S3.2：收集关键信息；

创建一个安全的存储目录，在目录中，将恶意代码文件本身保存下来，并使用描述性的文件名，还将其他相关文件，保存到相同的目录中；

收集网络流量数据；通过访问相应的日志文件或控制台，记录与恶意代码相关的网络流量数据；

所述文件特征分析，获取文件的基本信息，然后，提取文件的文件名、文件路径、文件大小和文件哈希值，其中文件哈希值用于后续的关联分析和非法代码库的查询，最后，检查文件的结构和属性；

所述动态行为分析，在受控环境中运行恶意代码，并监控其行为，并检查恶意代码是否修改或创建了静态项目；

所述静态特征分析，提取恶意代码的静态特征，进行关联分析，以获取恶意代码的更多信息；

所述分析网络通信，对恶意代码相关的网络流量进行数据内容分析，寻找可能包含可疑命令、配置信息或敏感数据的传输；根据协议分析数据包，了解传输的数据类型和相关协议规范，并发现异常的网络通信模式；

步骤S3.6：关联分析和追踪攻击链；收集要进行关联分析和追踪攻击链的数据集；对数据进行预处理，同时，对数据进行标准化，使用关联分析算法进行关联分析，调整参数和阈值，得出合理的关联规则或关联模式；对于追踪攻击链，收集与安全事件相关的日志数据和其他证据，根据收集到的证据，重构攻击事件的时间线，分析攻击过程中使用的技术和手段；评估生成的关联规则或关联模式以及追踪攻击链的结果，分析它们所表示的关联关系和含义，并评估其质量和可信度，根据评估结果，选择具有实际应用价值的关联关系和采取相应的安全措施和修复策略；最后，可视化工具展现；

步骤S3.7：生成溯源报告。

10.一种工业互联网数据安全检测响应与溯源装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于在工业互联网上实现权利要求9所述的互联网数据安全检测响应与溯源方法。