CN110532772B

CN110532772B - 文件检测方法、模型、设备及计算机可读存储介质

Info

Publication number: CN110532772B
Application number: CN201810503137.7A
Authority: CN
Inventors: 刘彦南; 位凯志
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2024-01-02
Anticipated expiration: 2038-05-23
Also published as: CN110532772A

Abstract

本发明公开了一种基于黑白名单的文件检测方法，在本方法中，预先通过黑白名单相关的文件对文件检测模型进行训练，通过文件检测模型中的神经网络来实现黑白名单的功能，由于一个简单神经网络模型的少量参数就可以表示数据空间中复杂的划分，而每一种划分就对应着一个黑白名单，因此本方案基于神经网络的强表征能力，可以通过只包含少量参数的神经网络模型来实现黑白名单功能，大大的压缩了旧方案记录哈希值的开销，减小了黑白名单的存储空间。本发明还公开了一种基于黑白名单的文件检测模型、设备及计算机可读存储介质，同样能实现上述技术效果。

Description

文件检测方法、模型、设备及计算机可读存储介质

技术领域

本发明涉及文件检测技术领域，更具体地说，涉及一种基于黑白名单的文件检测方法、模型、设备及计算机可读存储介质。

背景技术

随着互联网的发展，网络中恶意软件的数量急剧增加，严重影响了互联网用户的正常生活和工作，并造成巨大损失。为了解决这一问题，恶意软件检测产品营运而生，用于检测客户系统中潜伏的恶意软件。由于攻击者总是先行于检测软件的设计，对于网络中新出现的恶意软件，安全厂商往往无法及时分析以及更新各自复杂的检测引擎，例如更新检测引擎中用于检测的特征码。为此，黑/白名单往往作为应急响应方案部署于各个检测引擎中。通常，黑/白名单会记录需每个要抵御/放行的文件的哈希值。如果待检测文件命中名单中的某个哈希值，则进行抵御/放行操作。然而，由于网络中恶意软件数量的增加，并且该趋势还在加剧，这导致黑白名单所需记录的文件对应的哈希值越来越多，以便能够覆盖新的威胁。然而，越来越大的黑名单意味着需要更多的空间来存储，而恶意软件数量的爆炸趋势必将导致现在黑/白名单的设计方案无法在未来使用。

因此，如何在减小黑白名单存储空间的基础上，利用黑白名单检测文件是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种基于黑白名单的文件检测方法、模型、设备及计算机可读存储介质，以实现在减小黑白名单存储空间的基础上，利用黑白名单检测文件。

为实现上述目的，本发明实施例提供了如下技术方案：

一种基于黑白名单的文件检测方法，包括：

文件检测模型获取待检测文件；

解析与所述待检测文件对应的灰度特征图，并通过第一神经网络对所述灰度特征图分类，得到第一输出结果；

计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果；

将所述第一输出结果和所述第二输出结果输入全连接层，通过所述全连接层对所述待检测文件进行分类，得到最终分类结果；

其中，所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层，均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成。

其中，所述解析与所述待检测文件对应的灰度特征图，并通过第一神经网络对所述灰度特征图分类，得到第一输出结果，包括：

将所述待检测文件解析为灰度图像；

将所述灰度图像压缩为不同分辨率的灰度特征图，将每种分辨率的灰度特征图输入至对应的第一神经网络，通过所述第一神经网络对每种分辨率的灰度特征图进行分类，得到第一输出结果。

其中，所述计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果，包括：

计算所述待检测文件的模糊哈希值；

提取所述模糊哈希值的n-gram特征，并将所述n-gram特征输入第二神经网络，以通过所述第二神经网络进行分类，得到第二输出结果。

计算所述待检测文件的模糊哈希值；

将所述模糊哈希值输入LSTM神经网络，以通过LSTM神经网络进行分类，得到第二输出结果。

一种基于黑白名单的文件检测模型，包括：

待检测文件获取模块，用于获取待检测文件；

第一分类模块，用于解析与所述待检测文件对应的灰度特征图，并通过第一神经网络对所述灰度特征图分类，得到第一输出结果；

第二分类模块，用于计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果；

第三分类模块，用于将所述第一输出结果和所述第二输出结果输入全连接层，通过所述全连接层对所述待检测文件进行分类，得到最终分类结果；

其中，所述第一分类模块，包括：

文件解析单元，用于将所述待检测文件解析为灰度图像；

图像压缩单元，用于将所述灰度图像压缩为不同分辨率的灰度特征图；

第一分类单元，用于将每种分辨率的灰度特征图输入至对应的第一神经网络，通过所述第一神经网络对每种分辨率的灰度特征图进行分类，得到第一输出结果。

其中，所述第二分类模块包括：

第一计算单元，用于计算所述待检测文件的模糊哈希值；

特征提取单元，用于提取所述模糊哈希值的n-gram特征；

第二分类单元，用于将所述n-gram特征输入第二神经网络，以通过所述第二神经网络进行分类，得到第二输出结果。

其中，所述第二分类模块包括：

第二计算单元，用于计算所述待检测文件的模糊哈希值；

第三分类单元，用于将所述模糊哈希值输入LSTM神经网络，以通过LSTM神经网络进行分类，得到第二输出结果。

一种基于黑白名单的文件检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述文件检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述文件检测方法的步骤。

通过以上方案可知，本发明实施例提供的一种基于黑白名单的文件检测方法，在本方法中，预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练文件检测模型中的第一神经网络、第二神经网络以及全连接层，在通过文件检测模型检测文件时，具体通过解析与待检测文件对应的灰度特征图，并通过第一神经网络对所述灰度特征图分类，得到第一输出结果；计算待检测文件的模糊哈希值，并通过第二神经网络对模糊哈希值分类，得到第二输出结果；将第一输出结果和第二输出结果输入全连接层，通过全连接层对待检测文件进行分类，得到最终分类结果。

可见，本方案预先通过黑白名单相关的文件对文件检测模型进行训练，通过文件检测模型中的神经网络来实现黑白名单的功能，由于一个简单神经网络模型的少量参数就可以表示数据空间中复杂的划分，而每一种划分就对应着一个黑白名单，因此本方案基于神经网络的强表征能力，可以通过只包含少量参数的神经网络模型来实现黑白名单功能，大大的压缩了旧方案记录哈希值的开销，减小了黑白名单的存储空间。

本发明还公开了一种基于黑白名单的文件检测模型、设备及计算机可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于黑白名单的文件检测方法流程图；

图2为本发明实施例公开的基于灰度特征图的神经网络模型示意图；

图3为本发明实施例公开的基于模糊哈希值的神经网络模型示意图；。

图4为本发明实施例公开的一种基于黑白名单的文件检测模型结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于黑白名单的文件检测方法、模型、设备及计算机可读存储介质，以实现在减小黑白名单存储空间的基础上，利用黑白名单检测文件。

参见图1，本发明实施例提供的一种基于黑白名单的文件检测方法，包括：

S101、文件检测模型获取待检测文件；

需要说明的是，之前基于哈希值的黑白名单方案的开销会随着名单内文件的数量线性增长。其主要原因是旧方案把名单中每个文件单独处理，而不考虑文件之间的相似性，因此必须完整记录每个文件的信息。实际上，黑白名单内文件间通常具有相似性。譬如说，属于同一家族的不同病毒变种的大部分代码都是相同的，而仅在某些行有差异，也就是说，旧方案中会记录很多冗余信息，因此在本方案中，利用神经网络模型来实现黑白名单功能。

本方案需要预先对神经网络进行训练，通过训练神经网络来拟合给定黑白名单在数据空间中的划分。而训练好的神经网络模型就包含了原有黑白名单的信息，可以直接用来判断一个给定文件是否在原来的数据空间中，也就可以实现对文件的检测。基于神经网络的强表征能力，我们可以使用只包含少量参数的神经网络模型来实现黑白名单功能，大大的压缩了旧方案记录哈希值的开销。

具体的，本方案中的黑白名单包括黑名单或者白名单，同样的，文件检测模型也可以实现黑名单的功能，或者实现白名单的功能；如果实现的是黑名单的功能，则获取的待检测文件的目的是为了检测该待检测文件是否是恶意文件，如果实现的是白名单的功能，则获取的待检测文件的目的是为了检测该待检测文件是否是安全文件，也就是说，选择的文件检测模型不同，则相应的所实现的功能也不同。

S102、解析与所述待检测文件对应的灰度特征图，并通过第一神经网络对所述灰度特征图分类，得到第一输出结果；

具体的，在本实施例需要提取待检测文件的特征来实现对待检测文件的分类；在本方案中所选取的特征是灰度特征图及模糊哈希值，这两种特征均能有效压缩原样本文件的大小，同时保留文件之间的相似性。

在提取灰度特征图时，首先需要将与待检测文件的二进制文件解析为灰度图像，具体来说，需要将待检测文件的二进制文件的每一个字节视为一个像素的灰度值[0-255]。这样，我们就可以将给定的二进制文件解析成一张灰度图像；进而，根据灰度特征图的提取要求，从该灰度图像中提取灰度特征图，并输入至第一神经网络进行分类，得到第一输出结果。需要说明的是，本方案中的第一神经网络是由卷积层，池化层，全连接层，非线性层，softmax层排列组合而成。

S103、计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果；

本方案提取的第二个特征是模糊哈希值，模糊哈希值又叫基于内容分割的分片分片哈希算法(context triggered piecewise hashing,CTPH)，主要用于文件的相似性比较。目前，计算模糊哈希值的方法已经非常常用，在此便不具体限定模糊哈希值的计算方式。计算待检测文件的模糊哈希值之后，便将其输入第二神经网络，从而通过第二神经网络进行分类，得到第二输出结果；本方案中的第二神经网络可以通过CNN神经网络实现，也可以通过其他的神经网络实现，只要能起到对模糊哈希值分类的功能便可。

S104、将所述第一输出结果和所述第二输出结果输入全连接层，通过所述全连接层对所述待检测文件进行分类，得到最终分类结果。

其中，所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层，均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成。也就是说，所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层可以通过黑名单的文件和白文件样本训练生成，训练后的文件检测模型用来实现黑名单文件的检测；也可以用白名单的文件和黑名单样本训练生成，用来实现白名单文件的检测。

具体的，在前两个步骤中得到两个输出结果之后，并将这两个输出结果输入至全连接层进行整合，从而得到最终的分类结果。可以看出，本方案预先通过黑白名单相关的文件对文件检测模型进行训练，通过文件检测模型中的神经网络来实现黑白名单的功能，由于一个简单神经网络模型的少量参数就可以表示数据空间中复杂的划分，而每一种划分就对应着一个黑白名单，因此本方案基于神经网络的强表征能力，可以通过只包含少量参数的神经网络模型来实现黑白名单功能，大大的压缩了旧方案记录哈希值的开销，减小了黑白名单的存储空间。

基于上述方法实施例，在本实施例中，S102中解析与待检测文件对应的灰度特征图，并通过第一神经网络对灰度特征图分类，得到第一输出结果，具体包括：

将所述待检测文件解析为灰度图像；

具体的，本方案将待检测文件的二进制文件的每一个字节看成一个像素的灰度值[0-255]，从而将该二进制文件解析成一张灰度图像之后，根据灰度特征图的提取要求，从该灰度图像中提取灰度特征图；在本方案中的提取要求，是通过图像缩放算法将该灰度图像分别压缩成不同分辨率的正方形图片，该不同分辨率的正方形图片即为与灰度图像对应的不同分辨率的灰度特征图，具体包括32*32，64*64，256*256等不同分辨率像素的图像。进一步，对于上述每个尺寸的灰度特征图，本方案分别设计了对应的CNN来进行分类。

例如：参见图2，将32*32的灰度特征图输入与该灰度特征图对应的CNN神经网络32，得到输出结果A，将64*64的灰度特征图输入与该灰度特征图对应的CNN神经网络64，得到输出结果B，将256*256的灰度特征图输入与该灰度特征图对应的CNN神经网络256，得到输出结果C，这里的输出结果A、输出结果B和输出结果C便为第一输出结果。并且，上述CNN神经网络32、CNN神经网络64和CNN神经网络256这三种神经网络，均是由卷积层，池化层，全连接层，非线性层，softmax层排列组合而成。

基于上述方法实施例，在本实施例中，S103中的计算待检测文件的模糊哈希值，并通过第二神经网络对模糊哈希值分类，得到第二输出结果，具体包括一下两种方法：

第一种方法为：计算待检测文件的模糊哈希值；提取模糊哈希值的n-gram特征，并将n-gram特征输入第二神经网络，以通过第二神经网络进行分类，得到第二输出结果。

第二种方法为：计算待检测文件的模糊哈希值；将模糊哈希值输入LSTM神经网络，以通过LSTM神经网络进行分类，得到第二输出结果。

具体的，本方案提供的这两种方法，可以仅仅执行其中一种方法，也可以两种方法都执行，也就是说，在获取第二输出结果时，可以仅仅将这两种方法中任意一种方法得到的结果作为第二输出结果，也可以将这两种方法得到的两种结果作为该第二输出结果，在此并不具体限定。

参见图3，为本方案提供的基于模糊哈希值的神经网络模型示意图；无论使用哪一种方法，都需要先计算文件的模糊hash值，进而在第一种方法中，需要提取模糊hash值的n-gram特征，然后使用由全连接层，非线性层和softmax构成的神经网络进行分类；第二种方法是使用模糊hash直接作为一个LSTM网络模型的数据输入，并利用LSTM进行分类。

需要说明的是，本方案中的文件检测模型包括第一神经网络、第二神经网络和全连接层，在使用之前，需要通过数据对文件检测模型进行训练。以下本方案以构建黑名单的文件检测模型为例，对本方案进行介绍，白名单的模型构建方法与黑名单相同。

可以理解的是，在本方案在构建黑名单的文件检测模型之前，将黑名单问题转换为一个分类问题。具体来说，黑名单的文件属于第一个类，而所有的白文件属于第二类，那么黑名单的文件检测模型要解决的问题就是如何将这两类文件区分开来。其中，黑名单文件检测模型构建方案使用的黑名单的文件包含所有黑名单的文件，白文件为白文件样本，该白文件样本为预先收集的具有代表性的白样本，将这两种数据作为文件检测模型的输入，以训练文件检测模型。

在对文件模型进行训练时，其训练过程与S101-S104文件检测模型的检测过程基本一致，即：将黑名单的文件和白文件样本作为文件检测模型的输入，提取每个文件的灰度图像及模糊哈希值，通过每个文件的灰度图像训练CNN神经网络，通过模糊哈希值训练第二神经网络中的CNN神经网络和LSTM神经网络，对于上述训练的模型，通过一个全连接层进行整合，具体来说，提取每个模型中的高层特征作为全连接层的输入，然后通过训练来确定这个全连接层内部的参数值，例如权重和偏置，其中，这里的高层特征即为每个神经网络的最后一层的输出；对于得到的整合后的模型，我们通过逐步删除网络中的小值参数来来减小模型中的参数的个数。这样经过精简后的整合模型即为本方案中的文件检测模型，用来黑名单检测，从而实现了只用包含少量参数的神经网络模型来实现黑白名单功能，大大的压缩了旧方案记录哈希值的开销。

下面对本发明实施例提供的文件检测模型进行介绍，下文描述的文件检测模型与上文描述的文件检测方法可以相互参照。

参见图4，本发明实施例提供的一种基于黑白名单的文件检测模型，包括：

待检测文件获取模块100，用于获取待检测文件；

第一分类模块200，用于解析与所述待检测文件对应的灰度特征图，并通过第一神经网络对所述灰度特征图分类，得到第一输出结果；

第二分类模块300，用于计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果；

第三分类模块400，用于将所述第一输出结果和所述第二输出结果输入全连接层，通过所述全连接层对所述待检测文件进行分类，得到最终分类结果；

其中，所述第一分类模块200，包括：

文件解析单元，用于将所述待检测文件解析为灰度图像；

其中，所述第二分类模块300包括：

第一计算单元，用于计算所述待检测文件的模糊哈希值；

特征提取单元，用于提取所述模糊哈希值的n-gram特征；

其中，所述第二分类模块300包括：

第二计算单元，用于计算所述待检测文件的模糊哈希值；

发明实施例还提供了一种基于黑白名单的文件检测设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述文件检测方法的步骤。

发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述文件检测方法的步骤。

具体的，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于黑白名单的文件检测方法，其特征在于，包括：

文件检测模型获取待检测文件；

其中，所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层，均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成；

将所述待检测文件解析为灰度图像；

2.根据权利要求1所述的文件检测方法，其特征在于，所述计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果，包括：

计算所述待检测文件的模糊哈希值；

3.根据权利要求1所述的文件检测方法，其特征在于，所述计算所述待检测文件的模糊哈希值，并通过第二神经网络对所述模糊哈希值分类，得到第二输出结果，包括：

计算所述待检测文件的模糊哈希值；

4.一种基于黑白名单的文件检测模型，其特征在于，包括：

待检测文件获取模块，用于获取待检测文件；

其中，所述第一分类模块，包括：

文件解析单元，用于将所述待检测文件解析为灰度图像；

5.根据权利要求4所述的文件检测模型，其特征在于，所述第二分类模块包括：

第一计算单元，用于计算所述待检测文件的模糊哈希值；

特征提取单元，用于提取所述模糊哈希值的n-gram特征；

6.根据权利要求4所述的文件检测模型，其特征在于，所述第二分类模块包括：

第二计算单元，用于计算所述待检测文件的模糊哈希值；

7.一种基于黑白名单的文件检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述文件检测方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述文件检测方法的步骤。