CN117113352A

CN117113352A - Dcs上位机恶意可执行文件检测方法、系统、设备及介质

Info

Publication number: CN117113352A
Application number: CN202311390587.7A
Authority: CN
Inventors: 宋美艳; 贾泽冰; 谢贝贝; 张津; 张军; 高少华; 王宾; 王珩; 柳曦; 杨柳; 钟庆尧; 翟亮晶
Original assignee: Xian Thermal Power Research Institute Co Ltd
Current assignee: Xian Thermal Power Research Institute Co Ltd
Priority date: 2023-10-25
Filing date: 2023-10-25
Publication date: 2023-11-24
Anticipated expiration: 2043-10-25
Also published as: CN117113352B

Abstract

本发明公开了一种DCS上位机恶意可执行文件检测方法、系统、设备及介质，属于控制器安全监测技术领域，包括执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，将动态运行输出结果作为序列数据集；对序列数据集进行数据预处理及拆分，得到基本块数据集；将基本块数据集输入到预先训练的双向长短期记忆网络模型中，检测所述可执行文件是否为恶意可执行文件；所述预先训练的双向长短期记忆网络模型是利用具有类别标签的训练样本进行训练得到的；其中，类别标签用于指明对应的训练样本为恶意或良性可执行文件。该方法可以快速的对恶意可执行文件进行检测，具有高效、准确的优点。

Description

DCS上位机恶意可执行文件检测方法、系统、设备及介质

技术领域

本发明涉及控制器安全监测技术领域，特别是涉及一种DCS上位机恶意可执行文件检测方法、系统、设备及介质。

背景技术

可信DCS（Distributed Control System，缩写为DCS）控制器具备可信计算功能，可以对引导程序、操作系统内核、应用程序、配置文件及进程等进行可信验证，以保证控制器软硬件环境的可信性。

可信DCS控制器中肯定存在恶意可执行文件可以绕过计算机主动安全防御体系而主动去攻击计算机操作系统和应用程序，获取用户重要信息，篡改上位机关键数据等危害系统安全操作。这些恶意可执行文件通过病毒、木马等程序寻找计算机系统中的漏洞，对系统进行攻击，破坏系统的可用性，使得有价值的数据泄露或不可用。随着技术的发展，传统的依靠规则或静态检测的方法已经不能很好的识别恶意可执行文件产生的变质和多态形式，且很多恶意文件内置了解密和伪装模块，使得系统对该可执行文件判断为良性的结果，从而绕过传统检测方法对系统造成伤害。

发明内容

针对上述存在的不足，本发明提供了一种DCS上位机恶意可执行文件检测方法、系统、设备及介质；该方法可以快速的对可执行文件进行检测，识别恶意文件，具有高效、准确的优点。

为实现上述目的，本发明采用如下技术手段：

本发明第一方面是提供一种DCS上位机恶意可执行文件检测方法，包括：

执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，将动态运行输出结果作为序列数据集；

对序列数据集进行数据预处理及拆分，得到基本块数据集；

将基本块数据集输入到预先训练的双向长短期记忆网络模型中，检测所述可执行文件是否为恶意可执行文件；所述预先训练的双向长短期记忆网络模型是利用具有类别标签的训练样本进行训练得到的；其中，类别标签用于指明对应的训练样本为恶意或良性可执行文件。

作为本发明进一步改进，所述执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，包括：

在调试器中执行待检测DCS上位机的每个良性/恶意的可执行文件，调试器是在上位机系统上运行自动化脚本指令；自动化脚本指令获取主机所有文件，处理来自非操作系统文件的可执行文件，通过自动化脚本指令跟踪可执行文件的动态运行输出结果。

作为本发明进一步改进，所述自动化脚本指令处理完所有可执行文件或达到最大执行指令限制时停止运行，并将运行跟踪输出结果保存成纯文本格式。

作为本发明进一步改进，所述序列数据集为序列数据集，序列数据集每一行包含一个装配指令，装配指令是由操作码和操作数组成的表达式；装配指令的操作码和操作数为可执行文件运行过程中在寄存器、内存或I/O端口生成的可执行文件的系统操作数据。

作为本发明进一步改进，所述对序列数据集进行数据预处理及拆分，得到基本块数据集，包括：

对序列数据集预处理及拆分，包含全角转化、半角转化、大小写转化、停用词过滤，基于正则的分词处理、数据筛选以及清洗后保存数据的操作对序列数据集进行数据预处理；

对预处理后的序列数据集进行拆分处理包括：将预处理后的序列数据集输入到python脚本中，从开始到端扫描运行并进行数据拆分处理，得到由一段直线代码组成的基本块数据，获得的基本块数据作为基本块数据集。

作为本发明进一步改进，所述预先训练的双向长短期记忆网络模型包含Glove词嵌入层、池化层、双向LSTM层、分类层以及退出层；

Glove词嵌入层将输入文本转换为词嵌入向量，池化层采用全局最大池化层将词嵌入向量转换为低维特征向量，双向LSTM层经过恶意文件分类计算得到输入文本的恶意概率，分类层通过softmax函数得到最终分类结果，退出层收到分类结果后进行对应操作并结束整个检测过程。

作为本发明进一步改进，所述预先训练的双向长短期记忆网络模型的训练方法包括：

获取并跟踪历史可执行文件的动态运行输出结果，将动态运行输出结果作为序列数据集样本；

对序列数据集样本进行数据预处理及拆分，得到基本块数据集样本；基本块数据集样本进行类别标签，得到具有类别标签的训练样本；

将具有类别标签的训练样本输入到双向长短期记忆网络模型中，训练输出所述可执行文件是否为恶意可执行文件的结果，最终训练后得到所述预先训练的双向长短期记忆网络模型。

本发明第二方面是提供一种DCS上位机恶意可执行文件检测系统，包括：

执行输出模块，用于执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，将动态运行输出结果作为序列数据集；

处理拆分模块，用于对序列数据集进行数据预处理及拆分，得到基本块数据集；

监测输出模块，用于将基本块数据集输入到预先训练的双向长短期记忆网络模型中，检测并输出所述可执行文件是否为恶意可执行文件；所述预先训练的双向长短期记忆网络模型是利用具有类别标签的训练样本进行训练得到的；其中，类别标签用于指明对应的训练样本为恶意或良性可执行文件。

本发明第三方面是提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述DCS上位机恶意可执行文件检测方法。

本发明第四方面是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述DCS上位机恶意可执行文件检测方法。

与现有技术相比，本发明具有如下有益效果：

本发明通过跟踪所述可执行文件的动态运行输出结果，预处理和拆分后得到基本块数据集，输入预先训练的模型中进行训练，可以高效、准确的检测恶意可执行文件方法，尤其是开发动态运行跟踪方法用于检测多态和变质恶意可执行文件的能力对于系统防护更为关键，利用长短期记忆网络动态分析恶意可执行文件的运行输出进行分类，从而达到保护上位机系统和核心数据安全性的目的。

附图说明

图1为本申请实施例的一种DCS上位机恶意可执行文件检测方法流程图；

图2为本申请实施例的DCS上位机恶意可执行文件检测方法具体流程图；

图3为本申请实施例提供的一种DCS上位机恶意可执行文件检测系统；

图4为本申请实施例提供的一种电子设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

术语解释：

双向长短期记忆网络(Bi-LSTM)，由前向L STM与后向LSTM组合而成。长短期神经网络(long short term memory, LSTM)是循环神经网络(RNN) 的一种。

Softmax是一种数学函数，通常用于将一组任意实数转换为表示概率分布的实数。其本质上是一种归一化函数，可以将一组任意的实数值转化为在[0, 1]之间的概率值，因为softmax将它们转换为0到1之间的值，所以它们可以被解释为概率。

Glove，是全局向量的词嵌入：是一种用于将词语映射到连续向量空间的词嵌入方法。它旨在捕捉词语之间的语义关系和语法关系,以便在自然语言处理任务中能够更好地表示词语的语义信息。

如图1所示，本发明第一个目的是提供一种DCS上位机恶意可执行文件检测方法，包括以下步骤：

S1，执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，将动态运行输出结果作为序列数据集；

S2，对序列数据集进行数据预处理及拆分，得到基本块数据集；

S3，将基本块数据集输入到预先训练的双向长短期记忆网络模型中，检测所述可执行文件是否为恶意可执行文件；所述预先训练的双向长短期记忆网络模型是利用具有类别标签的训练样本进行训练得到的；其中，类别标签用于指明对应的训练样本为恶意或良性可执行文件。

本申请实施例的方法通过跟踪所述可执行文件的动态运行输出结果，预处理和拆分后得到基本块数据，输入预先训练的模型中进行训练，直接输出检测结果，该过程具有高效、准确的优点，利用长短期记忆网络动态分析恶意可执行文件的运行输出进行分类，减少对系统造成伤害。

作为可选实施例，步骤S1中的执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，包括：

在调试器中执行待检测DCS上位机的每个良性或恶意的可执行文件，调试器是在上位机系统上运行自动化脚本指令；自动化脚本指令获取主机所有文件，处理来自非操作系统文件的可执行文件，通过自动化脚本指令跟踪可执行文件的动态运行输出结果。

自动化脚本指令处理完所有可执行文件或达到最大执行指令限制时停止运行，并将运行跟踪输出结果进行保存，保存形式可以为纯文本格式。

其中，序列数据集每一行包含一个装配指令，装配指令是由操作码和操作数组成的表达式；操作码和操作数为可执行文件运行过程中在寄存器、内存或I/O端口生成的可执行文件的系统操作数据。

作为一些实施例，步骤S2中，所述对序列数据集进行数据预处理及拆分，得到基本块数据集，包括：

序列数据集拆分处理通过编写python脚本进行数据处理，将序列数据集输入到python脚本中，从开始到端扫描运行进行数据拆分处理，得到由一段直线代码组成的基本块数据，获得的基本块数据作为基本块数据集。

其中，进行数据预处理和拆分，能够使得数据作为模型的输入形式，便于模型进行快速识别和检测。

作为一些实施例，步骤S3中，预先训练的双向长短期记忆网络模型的训练方法包括：

作为可选实施例，训练样本尽快能的多，以增加训练后模型的准确性，模型训练后还需要验证结果的准确性，经过验证后作为最终的预先训练的双向长短期记忆网络模型使用。

以下结合具体实施例，对本发明进行详细说明：

结合图2进行说明，一种DCS上位机恶意可执行文件检测方法包括如下步骤：

S1，在调试器中执行每个良性/恶意可执行文件，并跟踪可执行文件的动态运行输出结果，并将动态运行输出结果作为序列数据集。

其中，本实施例中的调试器是一个可以在上位机系统上运行的自动化脚本指令，通过该自动化脚本指令跟踪可执行文件的动态运行输出结果；自动化脚本指令获取主机所有文件，并处理来自非操作系统文件的可执行文件。

该自动化脚本指令处理完所有可执行文件或达到最大执行指令限制时停止运行，并将运行跟踪输出结果保存成纯文本格式。

其中，序列数据集为序列数据集，每一行都包含一个装配指令，装配指令是由操作码和操作数组成的表达式；可选实施例中，装配指令的操作码和操作数为可执行文件运行过程中在寄存器、内存或I/O端口生成的可执行文件的系统操作数据。

本申请实施例中，对序列数据集预处理及拆分包含全角转化、半角转化、大小写转化、停用词过滤，基于正则的分词处理，数据筛选以及清洗后保存数据等操作；

更具体的，序列数据集拆分处理通过编写python脚本进行数据处理，将序列数据集输入到python脚本中，该python脚本通过从开始到端扫描运行进行数据拆分处理过程，获得基本块数据作为基本块数据集；

基本块数据集为一个基本块数据，基本块数据由一段直线代码组成。基本数据块的直线代码仅包含可执行文件的执行入口、接口调用、退出接口外没有其它多余分支内容。

S3，将基本块数据集传递到双向长短期记忆网络模型来检测所述可执行文件是否为恶意可执行文件；

其中，双向长短期记忆网络包含Glove词嵌入层、池化层、双向LSTM层、分类层以及退出层；

恶意可执行文件是指可以获取上位机系统最高用户权限，以此获取用户重要信息、篡改上位机关键数据、破坏上位机系统可用性的可执行程序。

将基本块数据集作为输入传递到Glove词嵌入层，将Glove词嵌入层的输出向量作为输入传递到池化层；将所述池化层的输出向量作为输入传递到双向LSTM层，将所述双向LSTM层的输出传递到分类层进行恶意文件分类计算；将所述分类层的输出传递到退出层后激活退出函数并执行对应操作后结束整个检测过程。

本文检测恶意可执行文件模型核心参数设置如下：

上述方案中，Glove词嵌入层将输入文本转换为词嵌入向量，池化层采用全局最大池化层将词嵌入向量转换为低维特征向量，双向LSTM层经过一系列计算得到输入文本的恶意概率，分类层通过softmax函数得到最终分类结果，退出层收到分类结果后进行对应操作并结束整个检测过程；

上述方案中，最高用户权限拥有对上位机系统中所有进程与服务的执行权限、具有对上位机系统中所有文件的读写、删改权限。

本申请实施例在CPU为Phytium，FT-2000+/64，操作系统为ky10.aarch64，内存为64G的硬件环境中进行恶意可执行文件检测实验，采用准确率和全局召回率两个指标衡量恶意可执行文件检测的准确度。

通过对多次实验结果进行统计，得出该方法检测恶意可执行文件的准确率为95.86%，全局召回率为91.42%。

如图3所示，本发明还提供一种DCS上位机恶意可执行文件检测系统，包括：

如图4所示，本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述DCS上位机恶意可执行文件检测方法。

所述DCS上位机恶意可执行文件检测方法包括以下步骤：

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述DCS上位机恶意可执行文件检测方法。

所述DCS上位机恶意可执行文件检测方法包括以下步骤：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种DCS上位机恶意可执行文件检测方法，其特征在于，包括：

对序列数据集进行数据预处理及拆分，得到基本块数据集；

2.根据权利要求1所述的DCS上位机恶意可执行文件检测方法，其特征在于：所述执行待检测DCS上位机中每个可执行文件，跟踪所述可执行文件的动态运行输出结果，包括：

在调试器中执行待检测DCS上位机的每个可执行文件，调试器是在上位机系统上运行自动化脚本指令；自动化脚本指令获取主机所有文件，处理来自非操作系统文件的可执行文件，通过自动化脚本指令跟踪可执行文件的动态运行输出结果。

3.根据权利要求2所述的DCS上位机恶意可执行文件检测方法，其特征在于：所述自动化脚本指令处理完所有可执行文件或达到最大执行指令限制时停止运行，并将运行跟踪输出结果保存成纯文本格式。

4.根据权利要求1所述的DCS上位机恶意可执行文件检测方法，其特征在于：所述序列数据集每一行包含一个装配指令，装配指令是由操作码和操作数组成的表达式；操作码和操作数为可执行文件运行过程中在寄存器、内存或I/O端口生成的可执行文件的系统操作数据。

5.根据权利要求1所述的DCS上位机恶意可执行文件检测方法，其特征在于：所述对序列数据集进行数据预处理及拆分，得到基本块数据集，包括：

对序列数据集预处理，包含全角转化、半角转化、大小写转化及停用词过滤，基于正则的分词处理、数据筛选以及清洗后保存数据；

6.根据权利要求1所述的DCS上位机恶意可执行文件检测方法，其特征在于：所述预先训练的双向长短期记忆网络模型包含Glove词嵌入层、池化层、双向LSTM层、分类层以及退出层；

7.根据权利要求1所述的DCS上位机恶意可执行文件检测方法，其特征在于：所述预先训练的双向长短期记忆网络模型的训练方法包括：

8.一种DCS上位机恶意可执行文件检测系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述DCS上位机恶意可执行文件检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述DCS上位机恶意可执行文件检测方法。