CN110532772B - 文件检测方法、模型、设备及计算机可读存储介质 - Google Patents
文件检测方法、模型、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110532772B CN110532772B CN201810503137.7A CN201810503137A CN110532772B CN 110532772 B CN110532772 B CN 110532772B CN 201810503137 A CN201810503137 A CN 201810503137A CN 110532772 B CN110532772 B CN 110532772B
- Authority
- CN
- China
- Prior art keywords
- file
- neural network
- detected
- hash value
- output result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000013528 artificial neural network Methods 0.000 claims abstract description 104
- 238000000034 method Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000003062 neural network model Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000012512 characterization method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/562—Static detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Virology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于黑白名单的文件检测方法,在本方法中,预先通过黑白名单相关的文件对文件检测模型进行训练,通过文件检测模型中的神经网络来实现黑白名单的功能,由于一个简单神经网络模型的少量参数就可以表示数据空间中复杂的划分,而每一种划分就对应着一个黑白名单,因此本方案基于神经网络的强表征能力,可以通过只包含少量参数的神经网络模型来实现黑白名单功能,大大的压缩了旧方案记录哈希值的开销,减小了黑白名单的存储空间。本发明还公开了一种基于黑白名单的文件检测模型、设备及计算机可读存储介质,同样能实现上述技术效果。
Description
技术领域
本发明涉及文件检测技术领域,更具体地说,涉及一种基于黑白名单的文件检测方法、模型、设备及计算机可读存储介质。
背景技术
随着互联网的发展,网络中恶意软件的数量急剧增加,严重影响了互联网用户的正常生活和工作,并造成巨大损失。为了解决这一问题,恶意软件检测产品营运而生,用于检测客户系统中潜伏的恶意软件。由于攻击者总是先行于检测软件的设计,对于网络中新出现的恶意软件,安全厂商往往无法及时分析以及更新各自复杂的检测引擎,例如更新检测引擎中用于检测的特征码。为此,黑/白名单往往作为应急响应方案部署于各个检测引擎中。通常,黑/白名单会记录需每个要抵御/放行的文件的哈希值。如果待检测文件命中名单中的某个哈希值,则进行抵御/放行操作。然而,由于网络中恶意软件数量的增加,并且该趋势还在加剧,这导致黑白名单所需记录的文件对应的哈希值越来越多,以便能够覆盖新的威胁。然而,越来越大的黑名单意味着需要更多的空间来存储,而恶意软件数量的爆炸趋势必将导致现在黑/白名单的设计方案无法在未来使用。
因此,如何在减小黑白名单存储空间的基础上,利用黑白名单检测文件是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种基于黑白名单的文件检测方法、模型、设备及计算机可读存储介质,以实现在减小黑白名单存储空间的基础上,利用黑白名单检测文件。
为实现上述目的,本发明实施例提供了如下技术方案:
一种基于黑白名单的文件检测方法,包括:
文件检测模型获取待检测文件;
解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;
计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果;
将所述第一输出结果和所述第二输出结果输入全连接层,通过所述全连接层对所述待检测文件进行分类,得到最终分类结果;
其中,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层,均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成。
其中,所述解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果,包括:
将所述待检测文件解析为灰度图像;
将所述灰度图像压缩为不同分辨率的灰度特征图,将每种分辨率的灰度特征图输入至对应的第一神经网络,通过所述第一神经网络对每种分辨率的灰度特征图进行分类,得到第一输出结果。
其中,所述计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果,包括:
计算所述待检测文件的模糊哈希值;
提取所述模糊哈希值的n-gram特征,并将所述n-gram特征输入第二神经网络,以通过所述第二神经网络进行分类,得到第二输出结果。
其中,所述计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果,包括:
计算所述待检测文件的模糊哈希值;
将所述模糊哈希值输入LSTM神经网络,以通过LSTM神经网络进行分类,得到第二输出结果。
一种基于黑白名单的文件检测模型,包括:
待检测文件获取模块,用于获取待检测文件;
第一分类模块,用于解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;
第二分类模块,用于计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果;
第三分类模块,用于将所述第一输出结果和所述第二输出结果输入全连接层,通过所述全连接层对所述待检测文件进行分类,得到最终分类结果;
其中,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层,均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成。
其中,所述第一分类模块,包括:
文件解析单元,用于将所述待检测文件解析为灰度图像;
图像压缩单元,用于将所述灰度图像压缩为不同分辨率的灰度特征图;
第一分类单元,用于将每种分辨率的灰度特征图输入至对应的第一神经网络,通过所述第一神经网络对每种分辨率的灰度特征图进行分类,得到第一输出结果。
其中,所述第二分类模块包括:
第一计算单元,用于计算所述待检测文件的模糊哈希值;
特征提取单元,用于提取所述模糊哈希值的n-gram特征;
第二分类单元,用于将所述n-gram特征输入第二神经网络,以通过所述第二神经网络进行分类,得到第二输出结果。
其中,所述第二分类模块包括:
第二计算单元,用于计算所述待检测文件的模糊哈希值;
第三分类单元,用于将所述模糊哈希值输入LSTM神经网络,以通过LSTM神经网络进行分类,得到第二输出结果。
一种基于黑白名单的文件检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述文件检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述文件检测方法的步骤。
通过以上方案可知,本发明实施例提供的一种基于黑白名单的文件检测方法,在本方法中,预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练文件检测模型中的第一神经网络、第二神经网络以及全连接层,在通过文件检测模型检测文件时,具体通过解析与待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;计算待检测文件的模糊哈希值,并通过第二神经网络对模糊哈希值分类,得到第二输出结果;将第一输出结果和第二输出结果输入全连接层,通过全连接层对待检测文件进行分类,得到最终分类结果。
可见,本方案预先通过黑白名单相关的文件对文件检测模型进行训练,通过文件检测模型中的神经网络来实现黑白名单的功能,由于一个简单神经网络模型的少量参数就可以表示数据空间中复杂的划分,而每一种划分就对应着一个黑白名单,因此本方案基于神经网络的强表征能力,可以通过只包含少量参数的神经网络模型来实现黑白名单功能,大大的压缩了旧方案记录哈希值的开销,减小了黑白名单的存储空间。
本发明还公开了一种基于黑白名单的文件检测模型、设备及计算机可读存储介质,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于黑白名单的文件检测方法流程图;
图2为本发明实施例公开的基于灰度特征图的神经网络模型示意图;
图3为本发明实施例公开的基于模糊哈希值的神经网络模型示意图;。
图4为本发明实施例公开的一种基于黑白名单的文件检测模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于黑白名单的文件检测方法、模型、设备及计算机可读存储介质,以实现在减小黑白名单存储空间的基础上,利用黑白名单检测文件。
参见图1,本发明实施例提供的一种基于黑白名单的文件检测方法,包括:
S101、文件检测模型获取待检测文件;
需要说明的是,之前基于哈希值的黑白名单方案的开销会随着名单内文件的数量线性增长。其主要原因是旧方案把名单中每个文件单独处理,而不考虑文件之间的相似性,因此必须完整记录每个文件的信息。实际上,黑白名单内文件间通常具有相似性。譬如说,属于同一家族的不同病毒变种的大部分代码都是相同的,而仅在某些行有差异,也就是说,旧方案中会记录很多冗余信息,因此在本方案中,利用神经网络模型来实现黑白名单功能。
本方案需要预先对神经网络进行训练,通过训练神经网络来拟合给定黑白名单在数据空间中的划分。而训练好的神经网络模型就包含了原有黑白名单的信息,可以直接用来判断一个给定文件是否在原来的数据空间中,也就可以实现对文件的检测。基于神经网络的强表征能力,我们可以使用只包含少量参数的神经网络模型来实现黑白名单功能,大大的压缩了旧方案记录哈希值的开销。
具体的,本方案中的黑白名单包括黑名单或者白名单,同样的,文件检测模型也可以实现黑名单的功能,或者实现白名单的功能;如果实现的是黑名单的功能,则获取的待检测文件的目的是为了检测该待检测文件是否是恶意文件,如果实现的是白名单的功能,则获取的待检测文件的目的是为了检测该待检测文件是否是安全文件,也就是说,选择的文件检测模型不同,则相应的所实现的功能也不同。
S102、解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;
具体的,在本实施例需要提取待检测文件的特征来实现对待检测文件的分类;在本方案中所选取的特征是灰度特征图及模糊哈希值,这两种特征均能有效压缩原样本文件的大小,同时保留文件之间的相似性。
在提取灰度特征图时,首先需要将与待检测文件的二进制文件解析为灰度图像,具体来说,需要将待检测文件的二进制文件的每一个字节视为一个像素的灰度值[0-255]。这样,我们就可以将给定的二进制文件解析成一张灰度图像;进而,根据灰度特征图的提取要求,从该灰度图像中提取灰度特征图,并输入至第一神经网络进行分类,得到第一输出结果。需要说明的是,本方案中的第一神经网络是由卷积层,池化层,全连接层,非线性层,softmax层排列组合而成。
S103、计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果;
本方案提取的第二个特征是模糊哈希值,模糊哈希值又叫基于内容分割的分片分片哈希算法(context triggered piecewise hashing,CTPH),主要用于文件的相似性比较。目前,计算模糊哈希值的方法已经非常常用,在此便不具体限定模糊哈希值的计算方式。计算待检测文件的模糊哈希值之后,便将其输入第二神经网络,从而通过第二神经网络进行分类,得到第二输出结果;本方案中的第二神经网络可以通过CNN神经网络实现,也可以通过其他的神经网络实现,只要能起到对模糊哈希值分类的功能便可。
S104、将所述第一输出结果和所述第二输出结果输入全连接层,通过所述全连接层对所述待检测文件进行分类,得到最终分类结果。
其中,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层,均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成。也就是说,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层可以通过黑名单的文件和白文件样本训练生成,训练后的文件检测模型用来实现黑名单文件的检测;也可以用白名单的文件和黑名单样本训练生成,用来实现白名单文件的检测。
具体的,在前两个步骤中得到两个输出结果之后,并将这两个输出结果输入至全连接层进行整合,从而得到最终的分类结果。可以看出,本方案预先通过黑白名单相关的文件对文件检测模型进行训练,通过文件检测模型中的神经网络来实现黑白名单的功能,由于一个简单神经网络模型的少量参数就可以表示数据空间中复杂的划分,而每一种划分就对应着一个黑白名单,因此本方案基于神经网络的强表征能力,可以通过只包含少量参数的神经网络模型来实现黑白名单功能,大大的压缩了旧方案记录哈希值的开销,减小了黑白名单的存储空间。
基于上述方法实施例,在本实施例中,S102中解析与待检测文件对应的灰度特征图,并通过第一神经网络对灰度特征图分类,得到第一输出结果,具体包括:
将所述待检测文件解析为灰度图像;
将所述灰度图像压缩为不同分辨率的灰度特征图,将每种分辨率的灰度特征图输入至对应的第一神经网络,通过所述第一神经网络对每种分辨率的灰度特征图进行分类,得到第一输出结果。
具体的,本方案将待检测文件的二进制文件的每一个字节看成一个像素的灰度值[0-255],从而将该二进制文件解析成一张灰度图像之后,根据灰度特征图的提取要求,从该灰度图像中提取灰度特征图;在本方案中的提取要求,是通过图像缩放算法将该灰度图像分别压缩成不同分辨率的正方形图片,该不同分辨率的正方形图片即为与灰度图像对应的不同分辨率的灰度特征图,具体包括32*32,64*64,256*256等不同分辨率像素的图像。进一步,对于上述每个尺寸的灰度特征图,本方案分别设计了对应的CNN来进行分类。
例如:参见图2,将32*32的灰度特征图输入与该灰度特征图对应的CNN神经网络32,得到输出结果A,将64*64的灰度特征图输入与该灰度特征图对应的CNN神经网络64,得到输出结果B,将256*256的灰度特征图输入与该灰度特征图对应的CNN神经网络256,得到输出结果C,这里的输出结果A、输出结果B和输出结果C便为第一输出结果。并且,上述CNN神经网络32、CNN神经网络64和CNN神经网络256这三种神经网络,均是由卷积层,池化层,全连接层,非线性层,softmax层排列组合而成。
基于上述方法实施例,在本实施例中,S103中的计算待检测文件的模糊哈希值,并通过第二神经网络对模糊哈希值分类,得到第二输出结果,具体包括一下两种方法:
第一种方法为:计算待检测文件的模糊哈希值;提取模糊哈希值的n-gram特征,并将n-gram特征输入第二神经网络,以通过第二神经网络进行分类,得到第二输出结果。
第二种方法为:计算待检测文件的模糊哈希值;将模糊哈希值输入LSTM神经网络,以通过LSTM神经网络进行分类,得到第二输出结果。
具体的,本方案提供的这两种方法,可以仅仅执行其中一种方法,也可以两种方法都执行,也就是说,在获取第二输出结果时,可以仅仅将这两种方法中任意一种方法得到的结果作为第二输出结果,也可以将这两种方法得到的两种结果作为该第二输出结果,在此并不具体限定。
参见图3,为本方案提供的基于模糊哈希值的神经网络模型示意图;无论使用哪一种方法,都需要先计算文件的模糊hash值,进而在第一种方法中,需要提取模糊hash值的n-gram特征,然后使用由全连接层,非线性层和softmax构成的神经网络进行分类;第二种方法是使用模糊hash直接作为一个LSTM网络模型的数据输入,并利用LSTM进行分类。
需要说明的是,本方案中的文件检测模型包括第一神经网络、第二神经网络和全连接层,在使用之前,需要通过数据对文件检测模型进行训练。以下本方案以构建黑名单的文件检测模型为例,对本方案进行介绍,白名单的模型构建方法与黑名单相同。
可以理解的是,在本方案在构建黑名单的文件检测模型之前,将黑名单问题转换为一个分类问题。具体来说,黑名单的文件属于第一个类,而所有的白文件属于第二类,那么黑名单的文件检测模型要解决的问题就是如何将这两类文件区分开来。其中,黑名单文件检测模型构建方案使用的黑名单的文件包含所有黑名单的文件,白文件为白文件样本,该白文件样本为预先收集的具有代表性的白样本,将这两种数据作为文件检测模型的输入,以训练文件检测模型。
在对文件模型进行训练时,其训练过程与S101-S104文件检测模型的检测过程基本一致,即:将黑名单的文件和白文件样本作为文件检测模型的输入,提取每个文件的灰度图像及模糊哈希值,通过每个文件的灰度图像训练CNN神经网络,通过模糊哈希值训练第二神经网络中的CNN神经网络和LSTM神经网络,对于上述训练的模型,通过一个全连接层进行整合,具体来说,提取每个模型中的高层特征作为全连接层的输入,然后通过训练来确定这个全连接层内部的参数值,例如权重和偏置,其中,这里的高层特征即为每个神经网络的最后一层的输出;对于得到的整合后的模型,我们通过逐步删除网络中的小值参数来来减小模型中的参数的个数。这样经过精简后的整合模型即为本方案中的文件检测模型,用来黑名单检测,从而实现了只用包含少量参数的神经网络模型来实现黑白名单功能,大大的压缩了旧方案记录哈希值的开销。
下面对本发明实施例提供的文件检测模型进行介绍,下文描述的文件检测模型与上文描述的文件检测方法可以相互参照。
参见图4,本发明实施例提供的一种基于黑白名单的文件检测模型,包括:
待检测文件获取模块100,用于获取待检测文件;
第一分类模块200,用于解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;
第二分类模块300,用于计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果;
第三分类模块400,用于将所述第一输出结果和所述第二输出结果输入全连接层,通过所述全连接层对所述待检测文件进行分类,得到最终分类结果;
其中,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层,均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成。
其中,所述第一分类模块200,包括:
文件解析单元,用于将所述待检测文件解析为灰度图像;
图像压缩单元,用于将所述灰度图像压缩为不同分辨率的灰度特征图;
第一分类单元,用于将每种分辨率的灰度特征图输入至对应的第一神经网络,通过所述第一神经网络对每种分辨率的灰度特征图进行分类,得到第一输出结果。
其中,所述第二分类模块300包括:
第一计算单元,用于计算所述待检测文件的模糊哈希值;
特征提取单元,用于提取所述模糊哈希值的n-gram特征;
第二分类单元,用于将所述n-gram特征输入第二神经网络,以通过所述第二神经网络进行分类,得到第二输出结果。
其中,所述第二分类模块300包括:
第二计算单元,用于计算所述待检测文件的模糊哈希值;
第三分类单元,用于将所述模糊哈希值输入LSTM神经网络,以通过LSTM神经网络进行分类,得到第二输出结果。
发明实施例还提供了一种基于黑白名单的文件检测设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述文件检测方法的步骤。
发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述文件检测方法的步骤。
具体的,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种基于黑白名单的文件检测方法,其特征在于,包括:
文件检测模型获取待检测文件;
解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;
计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果;
将所述第一输出结果和所述第二输出结果输入全连接层,通过所述全连接层对所述待检测文件进行分类,得到最终分类结果;
其中,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层,均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成;
其中,所述解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果,包括:
将所述待检测文件解析为灰度图像;
将所述灰度图像压缩为不同分辨率的灰度特征图,将每种分辨率的灰度特征图输入至对应的第一神经网络,通过所述第一神经网络对每种分辨率的灰度特征图进行分类,得到第一输出结果。
2.根据权利要求1所述的文件检测方法,其特征在于,所述计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果,包括:
计算所述待检测文件的模糊哈希值;
提取所述模糊哈希值的n-gram特征,并将所述n-gram特征输入第二神经网络,以通过所述第二神经网络进行分类,得到第二输出结果。
3.根据权利要求1所述的文件检测方法,其特征在于,所述计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果,包括:
计算所述待检测文件的模糊哈希值;
将所述模糊哈希值输入LSTM神经网络,以通过LSTM神经网络进行分类,得到第二输出结果。
4.一种基于黑白名单的文件检测模型,其特征在于,包括:
待检测文件获取模块,用于获取待检测文件;
第一分类模块,用于解析与所述待检测文件对应的灰度特征图,并通过第一神经网络对所述灰度特征图分类,得到第一输出结果;
第二分类模块,用于计算所述待检测文件的模糊哈希值,并通过第二神经网络对所述模糊哈希值分类,得到第二输出结果;
第三分类模块,用于将所述第一输出结果和所述第二输出结果输入全连接层,通过所述全连接层对所述待检测文件进行分类,得到最终分类结果;
其中,所述文件检测模型中的所述第一神经网络、所述第二神经网络以及所述全连接层,均是预先通过黑名单的文件和白文件样本/白名单的文件和黑名单样本训练生成;
其中,所述第一分类模块,包括:
文件解析单元,用于将所述待检测文件解析为灰度图像;
图像压缩单元,用于将所述灰度图像压缩为不同分辨率的灰度特征图;
第一分类单元,用于将每种分辨率的灰度特征图输入至对应的第一神经网络,通过所述第一神经网络对每种分辨率的灰度特征图进行分类,得到第一输出结果。
5.根据权利要求4所述的文件检测模型,其特征在于,所述第二分类模块包括:
第一计算单元,用于计算所述待检测文件的模糊哈希值;
特征提取单元,用于提取所述模糊哈希值的n-gram特征;
第二分类单元,用于将所述n-gram特征输入第二神经网络,以通过所述第二神经网络进行分类,得到第二输出结果。
6.根据权利要求4所述的文件检测模型,其特征在于,所述第二分类模块包括:
第二计算单元,用于计算所述待检测文件的模糊哈希值;
第三分类单元,用于将所述模糊哈希值输入LSTM神经网络,以通过LSTM神经网络进行分类,得到第二输出结果。
7.一种基于黑白名单的文件检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述文件检测方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述文件检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810503137.7A CN110532772B (zh) | 2018-05-23 | 2018-05-23 | 文件检测方法、模型、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810503137.7A CN110532772B (zh) | 2018-05-23 | 2018-05-23 | 文件检测方法、模型、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532772A CN110532772A (zh) | 2019-12-03 |
CN110532772B true CN110532772B (zh) | 2024-01-02 |
Family
ID=68657881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810503137.7A Active CN110532772B (zh) | 2018-05-23 | 2018-05-23 | 文件检测方法、模型、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532772B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818347B (zh) * | 2021-02-22 | 2024-04-09 | 深信服科技股份有限公司 | 一种文件标签确定方法、装置、设备及存储介质 |
CN116468458A (zh) * | 2023-03-15 | 2023-07-21 | 深圳优钱信息技术有限公司 | 基于人工智能和神经网络的精准营销白名单提取方法 |
CN116881915B (zh) * | 2023-09-06 | 2024-01-02 | 中电长城网际系统应用有限公司 | 文件检测方法、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102811213A (zh) * | 2011-11-23 | 2012-12-05 | 北京安天电子设备有限公司 | 基于模糊哈希算法的恶意代码检测系统及方法 |
CN105956469A (zh) * | 2016-04-27 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 文件安全性识别方法和装置 |
CN105989288A (zh) * | 2015-12-31 | 2016-10-05 | 武汉安天信息技术有限责任公司 | 一种基于深度学习的恶意代码样本分类方法及系统 |
CN107103235A (zh) * | 2017-02-27 | 2017-08-29 | 广东工业大学 | 一种基于卷积神经网络的Android恶意软件检测方法 |
CN107392019A (zh) * | 2017-07-05 | 2017-11-24 | 北京金睛云华科技有限公司 | 一种恶意代码家族的训练和检测方法及装置 |
CN107609399A (zh) * | 2017-09-09 | 2018-01-19 | 北京工业大学 | 基于nin神经网络的恶意代码变种检测方法 |
CN107688742A (zh) * | 2017-08-09 | 2018-02-13 | 中国地质大学(武汉) | 大规模快速移动应用app检测和分析方法 |
-
2018
- 2018-05-23 CN CN201810503137.7A patent/CN110532772B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102811213A (zh) * | 2011-11-23 | 2012-12-05 | 北京安天电子设备有限公司 | 基于模糊哈希算法的恶意代码检测系统及方法 |
CN105989288A (zh) * | 2015-12-31 | 2016-10-05 | 武汉安天信息技术有限责任公司 | 一种基于深度学习的恶意代码样本分类方法及系统 |
CN105956469A (zh) * | 2016-04-27 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 文件安全性识别方法和装置 |
CN107103235A (zh) * | 2017-02-27 | 2017-08-29 | 广东工业大学 | 一种基于卷积神经网络的Android恶意软件检测方法 |
CN107392019A (zh) * | 2017-07-05 | 2017-11-24 | 北京金睛云华科技有限公司 | 一种恶意代码家族的训练和检测方法及装置 |
CN107688742A (zh) * | 2017-08-09 | 2018-02-13 | 中国地质大学(武汉) | 大规模快速移动应用app检测和分析方法 |
CN107609399A (zh) * | 2017-09-09 | 2018-01-19 | 北京工业大学 | 基于nin神经网络的恶意代码变种检测方法 |
Non-Patent Citations (1)
Title |
---|
基于非参数化特征提取的神经网络识别;曾坤, 桑农;微型机与应用(第07期);第57-59页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110532772A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908963B (zh) | 一种自动化检测恶意代码核心特征的方法 | |
CN110765458B (zh) | 一种基于深度学习的恶意软件图像格式检测方法及其装置 | |
US9215197B2 (en) | System, method, and computer program product for preventing image-related data loss | |
JP5121839B2 (ja) | 画像スパムの検出方法 | |
CN110532772B (zh) | 文件检测方法、模型、设备及计算机可读存储介质 | |
KR102007809B1 (ko) | 이미지를 이용한 신경망 기반 익스플로잇킷 탐지 시스템 | |
KR102093275B1 (ko) | 악성코드 감염 유도정보 판별 시스템, 프로그램이 기록된 저장매체 및 방법 | |
CN111818198B (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN111368289B (zh) | 一种恶意软件检测方法和装置 | |
CN111245784A (zh) | 多维度检测恶意域名的方法 | |
KR102188396B1 (ko) | 이미지 파일에 포함된 악성코드와 은닉 정보를 무력화하기 위한 장치 및 그의 구동 방법 | |
CN113179250B (zh) | web未知威胁检测方法及系统 | |
CN117454380A (zh) | 恶意软件的检测方法、训练方法、装置、设备及介质 | |
CN114169432B (zh) | 一种基于深度学习的跨站脚本攻击识别方法 | |
CN114051082B (zh) | 基于失真度和信息增益比的隐写检测特征选取方法及装置 | |
Dhavale | Advanced image-based spam detection and filtering techniques | |
CN112163217B (zh) | 恶意软件变种识别方法、装置、设备及计算机存储介质 | |
Kang et al. | Android malware family classification using images from dex files | |
CN114896594A (zh) | 基于图像特征多注意力学习的恶意代码检测装置及方法 | |
CN113553586A (zh) | 病毒检测方法、模型训练方法、装置、设备及存储介质 | |
CN112597498A (zh) | 一种webshell的检测方法、系统、装置及可读存储介质 | |
CN114611107B (zh) | 一种基于超分辨特征图像的安卓恶意软件分类方法 | |
CN113065132B (zh) | 一种宏程序的混淆检测方法、装置、电子设备和存储介质 | |
Darus et al. | A Preliminary Study on Malware Classification using Image Pattern | |
Komatwar et al. | Malware Identification and Classification by Imagining Executable |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |