CN115080974B

CN115080974B - 一种恶意pe文件检测方法、装置、设备及介质

Info

Publication number: CN115080974B
Application number: CN202210984153.9A
Authority: CN
Inventors: 潘澳涔; 税雪飞; 安通鉴; 陈达; 郜洪奎
Original assignee: DBAPPSecurity Co Ltd
Current assignee: DBAPPSecurity Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-08
Anticipated expiration: 2042-08-17
Also published as: US20240061936A1; CN115080974A

Abstract

本申请公开了一种恶意PE文件检测方法、装置、设备及介质，涉及人工智能领域，该方法包括：按照预设文件拆解方法对目标PE文件进行拆解，以获取文件头信息、文件可选头信息、文件节头信息以及文件节头信息对应的节信息；分别利用训练后的稀疏自编码神经网络模型对各头信息进行向量化，利用训练后的文本分类模型对节信息进行向量化，并将向量化后的各向量进行融合，将融合后向量输入神经网络模型，以获取神经网络模型输出的检测结果；神经网络模型为利用预设知识迁移方法对各训练后的稀疏自编码神经网络模型和文本分类模型进行模型迁移得到的。本发明能够通过使用针对性向量化处理的方法实现PE文件的恶意监测，检测流程精短，数据传递完整。

Description

一种恶意PE文件检测方法、装置、设备及介质

技术领域

本发明涉及人工智能领域，特别涉及一种恶意PE文件检测方法、装置、设备及介质。

背景技术

现有技术在进行恶意软件检测时，会从待检测软件的汇编代码和函数调用图提取语义特征和结构特征，并通过图神经网络进行判断软件是否具有恶意行为。在获取待检测软件的汇编代码和函数调用关系图时，首先需要借助其他工具判断该文件是否加壳，如果加壳，需要进行脱壳操作。软件无壳或者脱壳后，再借助其他第三方工具进行逆向获取软件的原始汇编码，然后根据汇编码中的指令行得到该软件内的函数调用图。最后使用语义特征向量来来表述汇编函数，对汇编码特征向量化后获取属性调用图，最终以属性调用图作为输入训练图神经网络模型，实现二进制文件的恶意检测。

现有技术在判断有壳和脱壳的过程中过程繁琐，且目前的自动化脱壳技术仍需要借助软件静态分析结合沙箱环境调用信息等；在自动化反汇编后也需要人工修复或检查，且现有技术中最终模型的输入是由待检测的软件经过多步处理后得到的汇编函数数据，导致模型的输入需要与验壳、脱壳工具，反汇编工具等强耦合，即该技术非常依赖于一些其他工具，即使图神经网络或者其他深度学习模型在特定数据集或者模型训练时具有较高的精度，在实际使用时由于前置模块产生的数据偏差会大大影响最终的分类效果。并且在实际运用需要较多的环境依赖，会消耗较大的内存和较多的计算资源，而且还无法保证稳定性和准确性。

由上可见，在恶意文件检测的过程中，如何避免出现由于现有PE恶意软件检测和分类方案对第三方工具依赖性强，方案限制条件多，方案覆盖的文件范围小等情况是本领域有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种恶意PE文件检测方法、装置、设备及介质，能够通过对PE结构特性进行结构化拆解和针对性向量化处理的方法实现PE文件的恶意监测，针对性强，流程更加精短，数据传递完整。其具体方案如下：

第一方面，本申请公开了一种恶意PE文件检测方法，包括：

按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息；

分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量；

将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量；

将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。

可选的，所述分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化之前，还包括：

获取预设数量的PE样本文件；所述PE样本文件包括恶意PE样本文件与非恶意PE样本文件；

将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息依次输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练，以获取训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型与训练后的文本分类模型。

可选的，所述将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息依次输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练之后，还包括：

通过各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型输出检测结果为恶意信息或非恶意信息的概率生成交叉熵损失函数；

基于所述交叉熵损失函数调节各所述训练后的稀疏自编码神经网络模型和所述和训练后的文本分类模型中进行向量化过程中的目标神经网络参数。

可选的，所述将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量之后，还包括：

将各所述训练后的稀疏自编码神经网络模型和所述和训练后的文本分类模型中的所述目标神经网络参数冻结。

可选的，所述分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量，包括：

将所述文件头信息、文件可选头信息、文件节头信息中的字段按预设排序方式分别输入至所述训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型以及预设第三稀疏自编码神经网络模型中，并将节信息输入至所述训练后的文本分类模型中；

分别将所述训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型以及预设第三稀疏自编码神经网络模型的隐藏层作为文件头向量、文件可选头向量、文件节头向量，并将所述训练后的文本分类模型中的全连接层作为节信息向量。

可选的，所述将所述融合后向量输入神经网络模型之前，还包括：

基于预设知识迁移方法对各所述训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型以及预设第三稀疏自编码神经网络模型和所述训练后的文本分类模型进行模型迁移，以得到神经网络模型。

可选的，所述获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果，包括：

获取所述神经网络模型输出的针对所述目标PE文件的，且包含八种软标签维度的文件检测结果；其中，所述八种软标签维度为文件头恶意、文件头非恶意、可选头恶意、可选头非恶意、节头恶意、节头非恶意、节恶意、节非恶意。

第二方面，本申请公开了一种恶意PE文件检测装置，包括：

文件拆解模块，用于按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息；

信息向量化模块，用于分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量；

向量融合模块，用于将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量；

结果输出模块，用于将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述的恶意PE文件检测方法。

第四方面，本申请公开了一种计算机存储介质，用于保存计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的恶意PE文件检测方法的步骤。

本申请中先按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息；分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量；将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量；将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。这样一来，本发明将PE文件拆解为文件头信息、文件可选头信息、文件节头信息以及节信息，并对PE中这四个维度的结构信息分别进行独立的恶意检测后，利用预设的知识迁移方法实现整个PE文件的恶意检测。本发明通过对PE结构特性进行结构化拆解和针对性向量化处理的方法，针对性强，精度高，具有较高解释性。相比于现有技术中先脱壳再反汇编后运用语义特征进行恶意检测的方法来说，本方法无需判断文件有无壳，甚至可以将判断文件有无壳作为目标任务，具有更高的泛用性。另外，本发明使用的结构信息包含了语义特征以及舍弃了转图像过程中的插补数据，且不需要借助其他工具帮助，流程更加精短，数据传递完整，具有更多的实用场景和较快的响应速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种恶意PE文件检测方法流程图；

图2为本申请提供的一种PE文件的结构信息示意图；

图3为本申请提供的一种文件拆解流程示意图；

图4为本申请提供的一种文件信息向量化示意图；

图5为本申请提供的一种向量融合示意图；

图6为本申请提供的一种具体的恶意PE文件检测方法流程图；

图7为本申请提供的一种节头中的部分信息示意图；

图8为本申请提供的一种稀疏自编码神经网络模型结构关系示意图；

图9为本申请提供的一种文件的基础信息示意图；

图10为本申请提供的一种节头信息示意图；

图11为本申请提供的一种16进制信息示意图；

图12为本申请提供的一种16进制信息示意图；

图13为本申请提供的一种具体的向量融合示意图；

图14为本申请提供的一种分类模型的结构示意图；

图15为本申请提供的一种分类模型的流程示意图；

图16为本申请提供的一种恶意PE文件检测装置结构示意图；

图17为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，在对PE恶意软件检测和分类时，对第三方工具依赖性强，方案限制条件多，方案覆盖的文件范围小。在本申请中，能够通过对PE结构特性进行结构化拆解和针对性向量化处理的方法实现PE文件的恶意监测，针对性强，流程更加精短，数据传递完整。

本发明实施例公开了一种恶意PE文件检测方法，参见图1所述，该方法包括：

步骤S11：按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息。

如图2所示为PE文件（即Portable Executable，可移植的可执行的文件）的结构信息，PE文件格式包括一系列头（header），用来使操作系统将程序加载到内存中；还包括一系列节（section）用来存放实际的程序数据，Windows将这些节加载到内存中，使其在内存中的偏移量与它们在磁盘上的显示位置相对应。本实施例中将除DOS头（DOS头是20世纪80年代微软DOS操作系统的遗留产物，仅仅出于兼容性原因而存在）以外的其他结构信息作为恶意软件检测和分类的重要信息。

如图3为本实施例提出的一种文件拆解流程示意图，其中，将PE文件拆解为以下几种信息：

1、PE文件头（FILE_HEADER）信息，包括了文件的基本信息；

2、PE文件可选头（OPTIONAL_HEADER）信息，包括目标程序如何加载到内存中等其他有关该程序的高级详细信息；

3、PE文件节头（PE Sections）信息，节头中定义了Windows应该授予节哪些权限，比如程序在执行时，是否应该可读、可写或可执行；节头信息中描述了各个节的PointerToRawData（偏移起始地址）和SizeOfRawData（物理内存大小），两者相加可以获得各个节的终止位置，由此能得到各个节在PE文件中的实际位置，根据节的位置便可确定节信息。

步骤S12：分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量。

本实施例中，如图4所示，本步骤会通过将PE文件头信息、PE文件可选头信息、PE文件节头信息以及节信息进行向量化，以确定文件头向量、文件可选头向量、文件节头向量以及节信息向量。在具体的实施方式中，可以结合机器学习和深度学习，利用PE文件结构特征的向量化模块通过下游任务将上述拆解的PE文件不同结构模块进行向量化。

具体地，可以将文件头信息、文件可选头信息、文件节头信息等头信息按照稀疏自编码的方式进行向量化，将节信息利用16进制序列与textCNN的方式进行向量化。本实施例中，所述文本分类模型包括但不限于textCNN。

步骤S13：将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量。

如图5所示为本步骤中一种向量融合示意图，即将PE文件头向量、PE文件可选头向量、PE文件节头向量以及节信息向量融合为PE文件向量。

本实施例的具体实施方式中，可以在预设结构向量融合模块融合向量化后的各个向量，并使用机器学习模型或者启发式规则实现恶意PE文件检测。

步骤S14：将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。

本实施例中，所述获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果，可以包括：获取所述神经网络模型输出的针对所述目标PE文件的，且包含八种软标签维度的文件检测结果；其中，所述八种软标签维度为文件头恶意、文件头非恶意、可选头恶意、可选头非恶意、节头恶意、节头非恶意、节恶意、节非恶意。

在一种具体的实施方式中，本实施例中所述稀疏自编码神经网络模型会生成相应信息为恶意信息或非恶意信息的结果，在知识迁移后，会将各结果进行整合，以生成带有八种软标签维度的文件检测结果，其中针对各个信息，即文件头信息、文件可选头信息、文件节头信息以及节信息均有其对应的检测结果，所以最终生成的检测结果中会生成有对应的软标签维度的结果，例如某一PE文件的检测结果为文件头恶意、可选头非恶意、节头非恶意、节非恶意，则此时可以判断此PE文件的文件头信息中带有恶意信息，而文件可选头信息、文件节头信息、节信息中不带有恶意信息。

本实施例中先按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息；分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量；将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量；将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。这样一来，本实施例将PE文件拆解为文件头信息、文件可选头信息、文件节头信息以及节信息，并对PE中这四个维度的结构信息分别进行独立的恶意检测后，利用预设的知识迁移方法实现整个PE文件的恶意检测。本发明通过对PE结构特性进行结构化拆解和针对性向量化处理的方法，针对性强，精度高，具有较高解释性。相比于现有技术中先脱壳再反汇编后运用语义特征进行恶意检测的方法来说，本方法无需判断文件有无壳，甚至可以将判断文件有无壳作为目标任务，具有更高的泛用性。另外，本发明使用的结构信息包含了语义特征以及舍弃了转图像过程中的插补数据，且不需要借助其他工具帮助，流程更加精短，数据传递完整，具有更多的实用场景和较快的响应速度。

图6为本申请实施例提供的一种具体的恶意PE文件检测方法流程图。参见图6所示，该方法包括：

步骤S21：获取预设数量的PE样本文件；所述PE样本文件包括恶意PE样本文件与非恶意PE样本文件。

在一些具体的实施方式中，本实施例中可以按照6:2:2的切分比例将所述PE文件样本且分为训练集、验证集以及测试集。本实施例中所述恶意PE样本文件中可以使用一些恶意软件作为恶意PE样本文件，以大量与之对应的绿色安全软件作为非恶意PE样本文件。

步骤S22：将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息依次输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练，以获取训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型与训练后的文本分类模型。

本实施例中，所述文件头信息、文件可选头信息、文件节头信息均使用稀疏自编码神经网络模型进行向量化，所述节信息使用所述预设文本分类模型进行向量化。且本实施例中所述预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型与训练后的文本分类模型均为可输出样本分类结果的分类模型。

在具体的实施方式中，在稀疏自编码神经网络模型进行向量化的过程中，以文件头信息为例，其中具有的字段信息包括[Misc_PhysicalAddress,VirtualAddress,PointerToRawData,PointerToRelocations,PointerToLinenumbers,NumberOfRelocations,Characteristics]等，这些字段的潜在结构及相关性信息可以经由稀疏自编码模型训练后得到，流程如下：将所有头信息字段值按固定顺序排序作为输入和输出放入构建的稀疏自编码神经网络模型中进行训练，旨在训练得到一个函数，使得输入等于输出，这样取中间隐藏层的神经元代替头信息，训练完成后，取每个中间隐藏层作为一个头信息的向量表示。其中，在具体的实施方式中，如图7所示为某个节头中的部分信息，如图8所示为所述稀疏自编码神经网络模型中输入层、隐藏层以及输出层的结构关系示意图。

在具体的实施方式中，在使用所述预设文本分类模型对节信息进行向量化的过程中，会先通过节头信息获取各个节在文件中的物理地址，并将该序列读取出来视作该文件的每一节数据，以文件suf80_launch.exe为例，图9是suf80_launch.exe文件的基础信息，该文件的.text节头信息如图10所示，根据图中可知该节SizeOfRawData（所占内存大小）:0x8000和PointerToRawData（该节开始位置）:0x1000。对应的从该文件的16进制表（即图11与图12中）中可以得知从0x1000开始存有数据并到0x1000+0x8000 = 0x9000的位置结束，然后以二进制流的方式读取该文件，并存储为16进制列表，该列表的第4096（0x1000）位到36864（0x9000）位即表示了该文件.text节所有的信息。类似的我们可以获取所有节头信息以及其对应的节信息。

本实施例中，在模型训练时，整个过程中保证用同样的训练集和验证集训练恶意软件分类任务，保证所有模型的最后一层训练相同的全连接节点数量，并以此全连接层作为各个结构模块向量。

例如，现有PE样本A，B，C…，从样本A中可以获取A样本的PE头信息A_pehd，A的可选头信息A_ophd，A的多个节头信息A_sehds，A的节信息A_sebn。将A_pehd，B_pehd，C_pehd…通过可选稀疏自编码的向量化方式得到PE文件头信息的向量，依据该向量训练分类模型1。类似地，通过可选稀疏自编码的向量化方式得到PE文件可选头信息的向量、节头信息的向量，然后依据该向量训练分类模型2与向量训练分类模型3。通过利用16进制序列与textcnn得到节信息的向量，依据该向量训练分类模型4。

本实施例中，所述将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息依次输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练之后，还可以包括：通过各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型输出检测结果为恶意信息或非恶意信息的概率生成交叉熵损失函数；基于所述交叉熵损失函数调节各所述训练后的稀疏自编码神经网络模型和所述和训练后的文本分类模型中进行向量化过程中的目标神经网络参数。

本实施例中，经过不同向量化后通过全连接层会输出两个类别的概率，由交叉熵损失来调节向量化过程中的神经网络参数。本实施例中利用PE中四个维度的结构信息可以训练得到4个分类模型。

步骤S23：按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息。

步骤S24：将所述文件头信息、文件可选头信息、文件节头信息中的字段按预设排序方式分别输入至所述训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型以及预设第三稀疏自编码神经网络模型中，并将节信息输入至所述训练后的文本分类模型中。

步骤S25：分别将所述训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型以及预设第三稀疏自编码神经网络模型的隐藏层作为文件头向量、文件可选头向量、文件节头向量，并将所述训练后的文本分类模型中的全连接层作为节信息向量。

步骤S26：将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量。

本实施例中，所述将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量之后，还可以包括：将各所述训练后的稀疏自编码神经网络模型和所述和训练后的文本分类模型中的所述目标神经网络参数冻结。

本实施例中，将为同一个任务做的不同输入和中间模型融合起来，得到这个文件的结构特征向量，即所述融合后向量后，会将各个分类模型的参数冻结，仅用于计算作用而停止更新参数，并将所有向量化后的结构数据融合继续训练。如图13为本申请提供的一种向量融合示意图，通过各个头信息与节信息对应的分类模型，可进行向量融合，以得到PE文件对应的文件结构特征向量。

步骤S27：基于预设知识迁移方法对各所述训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型以及预设第三稀疏自编码神经网络模型和所述训练后的文本分类模型进行模型迁移，以得到神经网络模型。

步骤S28：将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。

本实施例中，每一个模型分类的依据来自PE结构的不同信息，但是分类结果都是固定的。如图14为一种分类模型的结构示意图，模型会输出相应信息为恶意样本的概率与非恶意样本的概率。本实施例中还可以将4个分类模型输出的恶意or非恶意两个类别合并成8个软标签维度：文件头恶意、文件头非恶意、可选头恶意、可选头非恶意、节头恶意、节头非恶意、节恶意、节非恶意，并与最终二分类结果计算损失来调节参数。为了丰富软标签维度，本文将4个分类模型的全连接层合并作为软标签维度。

可以理解的是，图15为本实施例中提出的各分类模型的流程示意图，即输入文件结构信息后，将所述结构信息进行向量化，并生成全连接层，然后最终输出该信息对应的分类结果。

参见图16所示，本申请实施例公开了一种恶意PE文件检测装置，具体可以包括：

文件拆解模块11，用于按照预设文件拆解方法对目标PE文件进行拆解，以获取所述目标PE文件对应的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息；

信息向量化模块12，用于分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量；

向量融合模块13，用于将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量；

结果输出模块14，用于将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对各所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型。

进一步的，本申请实施例还公开了一种电子设备，图17是根据示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图17为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、显示屏24、输入输出接口25、通信接口26和通信总线27。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的恶意PE文件检测方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口26能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及虚拟机数据223等，虚拟机数据223可以包括各种各样的数据。存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的恶意PE文件检测方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本申请还公开了一种计算机可读存储介质，这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory，RAM)、内存、只读存储器(Read-OnlyMemory，ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中，所述计算机程序被处理器执行时实现前述公开的恶意PE文件检测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的恶意PE文件检测方法、装置、设备、存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种恶意PE文件检测方法，其特征在于，包括：

将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对全部所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型；

其中，利用训练后的预设第一稀疏自编码神经网络模型对所述文件头信息进行向量化，利用训练后的预设第二稀疏自编码神经网络模型对所述文件可选头信息进行向量化，利用训练后的预设第三稀疏自编码神经网络模型对所述文件节头信息进行向量化；

并且，所述分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化之前，还包括：获取预设数量的PE样本文件；所述PE样本文件包括恶意PE样本文件与非恶意PE样本文件；将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息分别输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练，以获取训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型与训练后的文本分类模型。

2.根据权利要求1所述的恶意PE文件检测方法，其特征在于，所述将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息分别输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练之后，还包括：

3.根据权利要求2所述的恶意PE文件检测方法，其特征在于，所述将所述文件头向量、文件可选头向量、文件节头向量以及节信息向量进行向量融合，以获得融合后向量之后，还包括：

4.根据权利要求1所述的恶意PE文件检测方法，其特征在于，所述分别利用训练后的稀疏自编码神经网络模型对所述文件头信息、文件可选头信息、文件节头信息进行向量化，并利用训练后的文本分类模型对所述节信息进行向量化，以获取文件头向量、文件可选头向量、文件节头向量以及节信息向量，包括：

5.根据权利要求1所述的恶意PE文件检测方法，其特征在于，所述将所述融合后向量输入神经网络模型之前，还包括：

6.根据权利要求1至5任一项所述的恶意PE文件检测方法，其特征在于，所述获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果，包括：

7.一种恶意PE文件检测装置，其特征在于，包括：

结果输出模块，用于将所述融合后向量输入神经网络模型，以获取所述神经网络模型输出的针对所述目标PE文件的文件检测结果；所述神经网络模型为利用预设知识迁移方法对全部所述训练后的稀疏自编码神经网络模型和训练后的文本分类模型进行模型迁移得到的模型；

并且，所述恶意PE文件检测装置，还用于获取预设数量的PE样本文件；所述PE样本文件包括恶意PE样本文件与非恶意PE样本文件；将所述PE样本文件按照预设文件拆解方法进行拆解，并将拆解后得到的文件头信息、文件可选头信息、文件节头信息以及所述文件节头信息对应的节信息分别输入预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型以及预设文本分类模型中进行模型训练，以获取训练后的预设第一稀疏自编码神经网络模型、预设第二稀疏自编码神经网络模型、预设第三稀疏自编码神经网络模型与训练后的文本分类模型。

8.一种电子设备，其特征在于，包括处理器和存储器；其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至6任一项所述的恶意PE文件检测方法。

9.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的恶意PE文件检测方法。