CN108090356A - 一种基于图像纹理和bp神经网络的恶意文件检测方法 - Google Patents

一种基于图像纹理和bp神经网络的恶意文件检测方法 Download PDF

Info

Publication number
CN108090356A
CN108090356A CN201711290981.8A CN201711290981A CN108090356A CN 108090356 A CN108090356 A CN 108090356A CN 201711290981 A CN201711290981 A CN 201711290981A CN 108090356 A CN108090356 A CN 108090356A
Authority
CN
China
Prior art keywords
gray level
image
neural network
malicious file
level image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711290981.8A
Other languages
English (en)
Inventor
胡玉鹏
曹娜
温冠超
蒋晨
司凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201711290981.8A priority Critical patent/CN108090356A/zh
Publication of CN108090356A publication Critical patent/CN108090356A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Virology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像纹理和BP神经网络的恶意文件检测方法,结合图像分析技术和恶意文件检测技术,将恶意文件转换成灰阶图,使用GLCM算法和GIST算法提取纹理特征,并基于BP神经网络进行学习训练,从而快速地识别出不同平台的恶意文件。本发明能解决动态分析中虚拟机可能被感染的问题,也能很好地解决多平台下病毒的检测问题。

Description

一种基于图像纹理和BP神经网络的恶意文件检测方法
技术领域
本发明涉及一种基于图像纹理和BP神经网络的恶意文件检测方法。
背景技术
云存储技术的极大普及,在为人们带来方便的同时,也带来了一定的安全隐患。由于云存储环境下,用户上传的文件类型复杂多样且数量庞大。如何快速有效的检测用户上传的各种文件是否安全从而避免恶意文件在云盘上传播分享成为一个巨大挑战。
如今,随着互联网的快速发展,恶意文件的发展成指数级增长,已经成为威胁互联网安全的关键因素之一。根据赛门铁克发布的2015年《互联网安全威胁报告》[1]显示,在2014年,总共创建了超过3.17亿新的恶意代码片段,恶意软件总数已达到17亿,这意味着世界上每天增加将近100万新的威胁。同时,报告也显示,手机已成为了合适的攻击目标,在所有Android应用程序中有17%(总数近100万)实际上是伪装的恶意软件。相比去年增长了近30%。而在鱼叉钓鱼攻击中,”.doc”和”.exe”类型的恶意附件类型占到了60.3%,其他的还包括jpg、pdf、txt等常见的文件类型,恶意文件类型更趋多样化,这对检测手段提出了很大的挑战。
在报告中还指出,越来越多的恶意软件可以检测是否运行在虚拟机上,而且其行为不是放弃,而是改变以减少被检测到的风险。在所有恶意软件中,有高达28%具备了”虚拟机识别”能力,比以往增长了6%。甚至有些特定恶意软件在检测到虚拟机的同时,可以跳转到相同硬件上的其他虚拟机或者感染管理程序。这意味着传统采用基于沙盒技术的病毒检测技术有效性将会逐渐降低,同时还会带来一定的安全隐患。这给对于依赖虚拟沙盒观察和检测恶意软件的安全研究人员敲醒了警钟。
可见,病毒技术的发展更先进且更趋多样化。传统的恶意文件检测方法略显有点不足。目前主流的传统恶意文件检测方法包括:静态检测技术和动态检测技术两大类。
静态检测技术有:签名扫描检测技术、启发式扫描技术和完整性检测技术。签名扫描检测技术是通过从恶意代码中抽取不同于其他程序的字符串,称为签名,组成签名数据库。然后对目标程序进行扫描,如果程序中发现有匹配的签名值,则判定为恶意代码,签名扫描检测技术精度高,可识别恶意代码名称、误报率低,但是该方法也存在速度慢、不能检查未知和多态性的恶意代码;启发式扫描技术是基于给定的判定规则和定义的扫描技术,检测程序中是否存在可疑的程序功能指令,并做出预警或判断的恶意代码检测方法。启发式扫描技术能够很好的发现已知或未知的恶意代码,但是它对特定类型的文件的检测实现需要提取该类型病毒文件的各种可疑程序指令并制定判断规则,由于存储文件类型多,要对每一种类型的恶意文件提取可疑程序指令并制定判断规则工作量极大;完整性检测技术是通过检测散列值的变化作为判定恶意代码感染的依据,容易实现切保护能力较强,能发现已知或未知的病毒,但对隐蔽性恶意代码无效。
动态检测技术有:行为监控检测技术和代码仿真检测技术。行为监控检测技术是通过hook系统的敏感函数来监控、记录程序的函数调用记录,从而记录各种类型的行为,根据其对系统产生的负面影响的程度来判定其是否为恶意代码。按照其行为类型可分为网络行为分析和主机行为分析,网络行为分析是通过分析目标程序在网络中的通信行为来判定其恶意性。主机行为分析是依据恶意程序的恶意行为,如API调用序列、参数的依赖轮廓等,来对目标程序进行判定;代码仿真检测技术是在代码运行时追踪恶意代码的行为,能高效的捕捉到异常行为,如TTAnalyze仿真器。由于动态检测技术速度慢,且现在带有识别虚拟机功能的恶意文件逐渐增多,动态监测技术的有效性将面临巨大挑战。
发明内容
本发明所要解决的技术问题是,针对传统的恶意文件检测方法存在检测速度慢、多平台检测适应性弱以及变种恶意文件识别能力低的问题,提供一种基于图像纹理和BP神经网络的恶意文件检测方法。
为解决上述技术问题,本发明所采用的技术方案是:一种基于图像纹理和BP神经网络的恶意文件检测方法,包括以下步骤:
1)将任意的恶意二进制文件转换为灰度图像;
2)对所述灰度图像的纹理特征进行提取;
3)使用纹理特征作为样本集对BP神经网络进行训练,并利用训练后的BP神经网络检测待检测文件。
步骤1)的具体实现过程包括:
1)获取恶意二进制文件的大小、宽度;
2)将所述恶意二进制文件的大小除以宽度得到行信息;将恶意二进制文件的宽度除以8得到宽信息;
3)将行信息、宽信息初始化到二维数组array[rows][columns];
4)二维数组中每个字节的取值范围都在0~255,每次读取8bit无符号整数,固定的行宽为一个向量,将二进制文件转换为一个矩阵并将其赋值给array[rows][columns];
5)将二维数组的每个元素作为向量转换为灰度图像。
步骤2)中,利用灰度共生矩阵和GIST算法提取所述灰度图像的纹理特征。
所述灰度共生矩阵定义为θ方向上,相隔距离d的一对像素分别具有灰度值i和j出现的概率,记为P(i,j,d,θ);设f(x,y)为灰度图像像素坐标在(x,y)的点所对应的灰度值,L表示灰度图像灰度级,Lr、Lc分别为灰度图像行、列的维数,则像素对f(x,y)=i和f(x’,y’)=j在四个方向上的灰度共生矩阵分别定义如下:
P(i,j,d,0°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|x'-x=0,|y'-y|=d,f(x,y)=i,f(x',y')=j}
P(i,j,d,45°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|(x'-x=d,y'-y=d)
or(x'-x=-d,y'-y=-d),f(x,y)=i,f(x',y')=j}
P(i,j,d,90°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)||x'-x|=d,y'-y=0,f(x,y)=i,f(x',y')=j}
P(i,j,d,135°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|(x'-x=d,y'-y=-d)
or(x'-x=-d,y'-y=d),f(x,y)=i,f(x',y')=j};
其中,#表示在像素对集合中的元素的数目;d为像素对f(x,y)=i和f(x’,y’)=j之间的距离。
利用所述灰度共生矩阵计算下列特征:
反差
逆差距
自相关
差异性
二阶矩
其中,L表示为量化图像中不同灰度级的数量,μ表示灰度共生矩阵中有贡献的所有像素强度的均值;σ2表示灰度共生矩阵中有贡献的所有像素强度的方差。
利用GIST算法提取所述灰度图像的如下特征:
图像GIST(IG)特征:
网络块Gist(PG)特征:
全局Gist(GG)特征:
其中,cat为级联运算符,*为卷积运算符,GI的维数为nc×r×c;r×c为灰度图像f(x,y)的大小;nc=m×n,m、n分别为Gabor滤波器组的尺度数和方向数;gmn(x,y)=a-mg(x',y'),a>1,a-m为母小波膨胀的尺度因子,x'=a-m(xcosθ+ycosθ),y'=a-m(-xsinθ+ycosθ),θ=nπ/(n+1),σx和σy分别是x和y方向Gaussian因子的方差,f0是Gabor滤波器组中心频率,是谐波因子的相位差;Pi为第i个网络块,i=1,...,ng;所述灰度图像划分为np×np的规则网络;GG的维数为nc×ng;r'×c'为网络块大小,r'=r/np,c'=c/np为每个网格块各通道滤波后级联的结果。
与现有技术相比,本发明所具有的有益效果为:本发明结合图像分析技术和恶意文件检测技术,将恶意文件转换成灰阶图,使用GLCM算法和GIST算法提取纹理特征,并基于BP神经网络进行学习训练,从而快速地识别出不同平台的恶意文件。本发明能通过学习恶意文件的图片纹理特征,更快、更好地识别出恶意文件。同时能解决动态分析中虚拟机可能被感染的问题,也能很好地解决多平台下病毒的检测问题。
附图说明
图1显示了病毒样本的灰度图像;
图2显示了多层感知器结构示意图;
图3显示了MFDS-BP检测流程图;
图4显示了Android平台下实验数据;
图5显示了Windows平台下实验数据。
具体实施方式
本发明设计的基于图像纹理和BP神经网络算法的恶意文件检测方法主要分为以下三个步骤:第一步是将任意的恶意二进制文件转换为灰度图像;第二步是对灰度图像的纹理特征进行提取;第三步是使用纹理特征作为样本集对BP神经网络进行训练。
首先,将任意恶意二进制文件转换为灰度图像,主要实施过程如下:
对于任意的恶意文件,每个字节对应的范围在0~255以内。每次读取8bit无符号整数,固定的行宽为一个向量,将一个二进制文件转换为一个矩阵。矩阵中每个元素的取值范围都在0~255,该矩阵可以转换为一张灰度图像,具体转换流程如下算法所示。图1为一个Android病毒样本转换之后的灰度图像。
(1)得到文件大小、宽度;
(2)将二进制文件的大小除以宽度得到行信息;
(3)将二进制文件的宽度除以8得到宽信息;
(4)将行宽信息初始化到二维数组array[rows][columns];
(5)将二维数组循环遍历,矩阵中每个字节的取值范围都在0~255,每次读取8bit无符号整数;
(6)矩阵中的向量遍历转换为灰度图像。
其次,提取灰度图像的纹理特征,主要实施过程包含两部分,如下:
第一部分是基于灰度共生矩阵特征提取方法进行纹理分析。纹理是对图像灰度空间分布模式的描述,它能反映图像中物品的质地,包括光滑性、粗糙度、颗粒度、随机性等。本发明采用的基于灰度共生矩阵特征提取方法,是一种得以广泛应用的纹理统计分析方法和测量技术。灰度共生矩阵反映了图像分布关于方向、变化幅度和局部领域的综合信息。其定义为在θ方向上,相隔距离d的一对像素分别具有灰度值i和j出现的概率,记为P(i,j,d,θ)。可见,灰度共生矩阵本身具有方向性,从该矩阵提取的统计量只能反映某一方向的信息。为此,本文提取特征时采用4个方向,分别为0、45、90和135度。设f(x,y)为图像像素坐标在(x,y)的点所对应的灰度值,L表示图像灰度级,Lr、Lc分别为图像行、列的维数。
则像素对f(x,y)=i和f(x,y)=j在四个方向上的共生矩阵分别定义如下:
P(i,j,d,0°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|x'-x=0,|y'-y|=d,f(x,y)=i,f(x',y')=j}
P(i,j,d,45°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|(x'-x=d,y'-y=d)
or(x'-x=-d,y'-y=-d),f(x,y)=i,f(x',y')=j}
P(i,j,d,90°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)||x'-x|=d,y'-y=0,f(x,y)=i,f(x',y')=j}
P(i,j,d,135°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|(x'-x=d,y'-y=-d)
or(x'-x=-d,y'-y=d),f(x,y)=i,f(x',y')=j}
其中,#表示在该集合中的元素的数目。此外,通过P(i,j,d,θ)=P(i,j,d,θ)/R,可获得归一化共生矩阵,其中,R为归一化常数。在本发明中,选取了其中6个特征,分别为Contrast、Homogeneity、Correlation、Dissimilarity、ASM、Entropy,统称为GLCM-6。
(1)Contrast(反差)
(2)Homogeneity(逆差距)
(3)Correlation(自相关)
(4)Dissimilarity(差异性)
(5)ASM(angular second moment)(二阶矩)
(6)Entropy(熵)
第二部分是结合GIST描述灰度图像的全局特征。GIST特征是一种生物启发特征,该特征模拟人的视觉图像中粗略但简明扼要的上下文信息。场景GIST特征是通过多尺度多方向Gabor滤波器组对场景图像滤波后得到的轮廓信息。
在信号处理中1维Gabor函数被广泛使用,1985年Daugman将其扩展成2维形式,利用2维Gabor函数可以形成Gabor滤波器,其表达式为:
其中,x和y是图像像素的坐标位置,σx和σy分别是是x和y方向Gaussian因子的方差,f0是滤波器中心频率,参数φ是该谐波因子的相位差。
多尺度多方向Gabor滤波器组是在Gabor滤波器g(x,y)基础上通过尺度和旋转变换扩展而成的多通道滤波方案,即:
gmn(x,y)=a-mg(x',y'),a>1
x'=a-m(xcosθ+ycosθ)
y'=a-m(-xsinθ+ycosθ)
θ=nπ/(n+1)
式中,a-m为母小波膨胀的尺度因子,θ为旋转角度,即滤波的方向。m为Gabor滤波器组的尺度数,n为Gabor滤波器组的方向数。
一副大小为r×c的灰度图像f(x,y)用m尺度n方向的Gabor滤波器组进行过滤,即分别同nc个通道的滤波器进行卷积,其中nc=m×n,再级联卷积的结果,称为图像GIST(IG)特征,即
式中,cat为级联运算符,*为卷积运算符,GI的维数为nc×r×c。
将一副大小为r×c的灰度图像f(x,y)划分成np×np的规则网络。则网格块数为ng=np×np。各网格块按行依次记为Pi,其中i=1,...,ng。网格块大小为r'×c',其中r'=r/np,c'=c/np。分别用nc个通道的滤波器对图像进行卷积滤波,则每个网格块各通道滤波后级联的结果称为块Gist(PG)特征,即
式中,GP的维数为nc×r'×c',且GP是GI的子集。对GP各通道的滤波结果取均值后按行组合的结果成为全局Gist(GG)特征,即
式中GG的维数为nc×ng
最后,使用纹理特征作为样本集对BP神经网络进行训练,主要实施过程如下:
BP神经网络是典型的多层网络,它由一个输入层、若干个隐含层和一个输出层组成,结构如图2所示。位于同一层的单元之间没有连接,各层的单元只能向高层单元输出激活信号。其学习过程由正向和反向传播两部分组成。其中,反向传播的节点单元特征通常为
在网络训练阶段用准备好的样本数据依次通过输入层、隐含层和输出层,然后比较输出结果和期望值,若没有达到要求的误差程度或者训练次数,则通过输出层、隐含层和输入层来调节权值,以便网络成为一定适应能力的模型。
BP神经网络算法流程如下:
(1)初始化:置各权值和阈值的初始值: 为小的随机数,一般取0-1的随机数。
(2)输入样本和期望输出:提供训练样本及目标输出,对每个样本进行(3)-(5)步骤。输入的特征为训练样本,表示为:Y=(Y1,Y2,...,Yn),Yi为提供训练的每个二进制文件转换为灰度图像后使用GLCM-6算法提取的24个特征及GIST算法提取的512个特征的集合,目标输出为:X=(X1,X2,...,Xn)。
(3)计算各层输入:
x(l)=f(s(l))=f(W(l)x(l-1))
(4)计算训练误差:
输出层:
隐含层和输入层:
(5)修正权值和阈值:
(6)计算性能指标:
当样本集中所有的样本都经历了(3)-(5)步骤,即完成了一个训练周期,计算误差指标(均方误差):
其中
(7)如果误差指标满足精度要求,即E<ε,那么训练结束,否则,转到(2),继续下一个训练周期。ε是小的正数,根据实际情况选取。
本发明从VirusShare项目中随机选取5000个恶意的apk样本文件及900个Windows病毒文件,同时下载小米应用市场各个分类下下载量靠前的5000个正常的apk样本文件及金山软件管家各个分类下下载量较高的900个正常的Windows程序进行试验。本发明提出的一种更通用的恶意文件检测方法,基于GLCM-6、GIST灰度图像纹理特征和BP神经网络的恶意文件检测,检测流程如图3所示,具体实验过程如下:
(1)使用灰度图像映射算法,将存储文件样本转换成无压缩的灰度图像。
(2)通过上述介绍的灰度共生矩阵和GIST算法提取GLCM-6和GIST特征。
(3)利用高斯归一化算法对各样本灰度图像的GLCM-6和GIST特征向量归一化,特征向量提取值均在[0,1],以保证各元素具有相同的地位。
(4)使用步骤(3)建立的样本特征库对BP神经网络算法进行训练。
(5)获取待检测文件的纹理特征,使用步骤(4)中训练后的BP神经网络进行检测。
通过本发明的方法,Android平台和Windows平台下的实验数据如图4、图5所示。由图4、图5可知,当BP神经网络层数固定为3层、神经元个数增加时,不论是Windows平台还是Android平台下样本的准确率均是从低到高,然后到达550个左右神经元时,准确率开始降低,呈一个凸函数的变化过程。可以估算当BP神经网络层数固定时,在大概550个神经元时,检测准确率达到最大值。同样,把神经元个数固定在550个并增加BP神经网络层数,这时2个平台呈现不同的变化趋势,在Android平台下,经历先增加后降低的过程,而在Windows平台则相反,经历先降低后增加的额外过程。对于本发明提出的检测方法,当设置好BP神经网络层数和神经元个数时,在Android平台和Windows平台下,其准确率最高分别达91.0%和93.8%。
相对于现有的静态或动态恶意文件检测技术,本发明改进了检测速度慢、多平台检测适应性弱以及变种恶意文件识别能力低等问题,将带来以下方面的优势:
(1)引入一种基于GIST和GLCM的图像纹理的恶意代码描述方法。本发明与静态和动态监测技术机制不一样,能够克服多平台的适应问题,更具通用性。由于不是使用动态分析方法,检测时间大大减少,提高检测效率。
(2)提出了一种更通用的恶意存储文件检测方法,适用于不同类型的恶意存储文件的识别。
(3)采用基于图像纹理特征的方法,解决了部分恶意病毒识别、感染虚拟机的问题。
(4)建立了基于度图像纹理特征和BP神经网络的恶意文件检测原型系统(MFDS-BP,malicious file detection system based on texture andBPneural network),实现了基于GLCM和GIST的灰阶图象特征提取方法,并基于该方法实现了恶意文件图像纹理特征的提取,把提取的特征作为样本集使用BP神经网络算法进行学习,最后用于实际的恶意文件检测。

Claims (6)

1.一种基于图像纹理和BP神经网络的恶意文件检测方法,其特征在于,包括以下步骤:
1)将任意的恶意二进制文件转换为灰度图像;
2)提取所述灰度图像的纹理特征;
3)使用纹理特征作为样本集对BP神经网络进行训练,并利用训练后的BP神经网络检测待检测文件。
2.根据权利要求1所述的基于图像纹理和BP神经网络的恶意文件检测方法,其特征在于,步骤1)的具体实现过程包括:
1)获取恶意二进制文件的大小、宽度;
2)将所述恶意二进制文件的大小除以宽度得到行信息;将恶意二进制文件的宽度除以8得到宽信息;
3)将行信息、宽信息初始化到二维数组array[rows][columns];
4)二维数组中每个字节的取值范围都在0~255,每次读取8bit无符号整数,固定的行宽为一个向量,将二进制文件转换为一个矩阵并将其赋值给array[rows][columns];
5)将二维数组的每个元素作为向量转换为灰度图像。
3.根据权利要求1所述的基于图像纹理和BP神经网络的恶意文件检测方法,其特征在于,步骤2)中,利用灰度共生矩阵和GIST算法提取所述灰度图像的纹理特征。
4.根据权利要求3所述的基于图像纹理和BP神经网络的恶意文件检测方法,其特征在于,所述灰度共生矩阵定义为θ方向上,相隔距离d的一对像素分别具有灰度值i和j出现的概率,记为P(i,j,d,θ);设f(x,y)为灰度图像像素坐标在(x,y)的点所对应的灰度值,f(x’,y’)为灰度图像像素坐标在(x’,y’)点所对应的灰度值,L表示灰度图像灰度级,Lr、Lc分别为灰度图像行、列的维数,则像素对f(x,y)=i和f(x’,y’)=j在四个方向上的灰度共生矩阵分别定义如下:
P(i,j,d,0°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|x'-x=0,|y'-y|=d,f(x,y)=i,f(x',y')=j}
P(i,j,d,45°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|(x'-x=d,y'-y=d)
or(x′-x=-d,y′-y=-d),f(x,y)=i,f(x′,y′)=j}
P(i,j,d,90°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)||x'-x|=d,y'-y=0,f(x,y)=i,f(x',y')=j}
P(i,j,d,135°)=#{((x,y),(x',y'))∈(Lr,Lc)×(Lr,Lc)|(x'-x=d,y'-y=-d)
or(x′-x=-d,y′-y=d),f(x,y)=i,f(x′,y′)=j};
其中,#表示在像素对集合中的元素的数目;d为像素对f(x,y)=i
和f(x’,y’)=j之间的距离。
5.根据权利要求4所述的基于图像纹理和BP神经网络的恶意文件检测方法,其特征在于,利用所述灰度共生矩阵计算下列特征:
反差
逆差距
自相关
差异性
二阶矩
其中,L表示为量化图像中不同灰度级的数量,μ表示灰度共生矩阵中有贡献的所有像素强度的均值;σ2表示灰度共生矩阵中有贡献的所有像素强度的方差。
6.根据权利要求3所述的基于图像纹理和BP神经网络的恶意文件检测方法,其特征在于,利用GIST算法提取所述灰度图像的如下特征:
图像GIST(IG)特征:
网络块Gist(PG)特征:
全局Gist(GG)特征:
其中,cat为级联运算符,*为卷积运算符,GI的维数为nc×r×c;
r×c为灰度图像f(x,y)的大小;nc=m×n,m、n分别为Gabor滤波器组的尺度数和方向数;gmn(x,y)=a-mg(x',y'),a>1,a-m为母小波膨胀的尺度因子,x'=a-m(xcosθ+ycosθ),y'=a-m(-x sinθ+y cosθ),θ=nπ/(n+1),σx和σy分别是x和y方向Gaussian因子的方差,f0是Gabor滤波器组中心频率,是谐波因子的相位差;Pi为第i个网络块,i=1,...,ng;所述灰度图像划分为np×np的规则网络;GG的维数为nc×ng;r'×c'为网络块大小,r'=r/np,c'=c/np为每个网格块各通道滤波后级联的结果。
CN201711290981.8A 2017-12-08 2017-12-08 一种基于图像纹理和bp神经网络的恶意文件检测方法 Pending CN108090356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711290981.8A CN108090356A (zh) 2017-12-08 2017-12-08 一种基于图像纹理和bp神经网络的恶意文件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711290981.8A CN108090356A (zh) 2017-12-08 2017-12-08 一种基于图像纹理和bp神经网络的恶意文件检测方法

Publications (1)

Publication Number Publication Date
CN108090356A true CN108090356A (zh) 2018-05-29

Family

ID=62174374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711290981.8A Pending CN108090356A (zh) 2017-12-08 2017-12-08 一种基于图像纹理和bp神经网络的恶意文件检测方法

Country Status (1)

Country Link
CN (1) CN108090356A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992969A (zh) * 2019-03-25 2019-07-09 腾讯科技(深圳)有限公司 一种恶意文件检测方法、装置及检测平台
CN110717412A (zh) * 2019-09-23 2020-01-21 广东工业大学 一种检测恶意pdf文档的方法及系统
CN110955891A (zh) * 2018-09-26 2020-04-03 阿里巴巴集团控股有限公司 文件检测的方法、装置、系统和数据处理法的方法
CN111200575A (zh) * 2018-11-16 2020-05-26 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习的信息系统恶意行为的识别方法
CN111552963A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于结构熵序列的恶意软件分类方法
CN112989339A (zh) * 2021-02-24 2021-06-18 西安理工大学 一种基于机器学习的gcc编译器恶意代码入侵检测方法
CN113190852A (zh) * 2021-05-31 2021-07-30 贵州师范学院 一种基于轻量级深度网络模型的计算机病毒检测方法
EP3918500B1 (en) * 2019-03-05 2024-04-24 Siemens Industry Software Inc. Machine learning-based anomaly detections for embedded software applications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294676A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于gist全局特征和sift局部特征的网络图片内容重复检测方法
GB2534535A (en) * 2014-10-08 2016-08-03 Lancaster Univ Business Entpr Ltd Data structuring and searching methods and apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294676A (zh) * 2012-02-24 2013-09-11 北京明日时尚信息技术有限公司 一种基于gist全局特征和sift局部特征的网络图片内容重复检测方法
GB2534535A (en) * 2014-10-08 2016-08-03 Lancaster Univ Business Entpr Ltd Data structuring and searching methods and apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUANCHAO WEN,AT EL: "A Image Texture and BP neural network basec Malicious Files Detection Technique for Cloud Storage Systems", 《IEEE CONFERENCE ON COMPUTER COMMUNICATINOS WORKSHOPS(INFOCOM WKSHPS)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955891A (zh) * 2018-09-26 2020-04-03 阿里巴巴集团控股有限公司 文件检测的方法、装置、系统和数据处理法的方法
CN110955891B (zh) * 2018-09-26 2023-05-02 阿里巴巴集团控股有限公司 文件检测的方法、装置、系统和数据处理法的方法
CN111200575A (zh) * 2018-11-16 2020-05-26 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习的信息系统恶意行为的识别方法
CN111200575B (zh) * 2018-11-16 2023-12-01 慧盾信息安全科技(苏州)股份有限公司 一种基于机器学习的信息系统恶意行为的识别方法
EP3918500B1 (en) * 2019-03-05 2024-04-24 Siemens Industry Software Inc. Machine learning-based anomaly detections for embedded software applications
CN109992969A (zh) * 2019-03-25 2019-07-09 腾讯科技(深圳)有限公司 一种恶意文件检测方法、装置及检测平台
CN109992969B (zh) * 2019-03-25 2023-03-21 腾讯科技(深圳)有限公司 一种恶意文件检测方法、装置及检测平台
CN110717412A (zh) * 2019-09-23 2020-01-21 广东工业大学 一种检测恶意pdf文档的方法及系统
CN111552963A (zh) * 2020-04-07 2020-08-18 哈尔滨工程大学 一种基于结构熵序列的恶意软件分类方法
CN112989339A (zh) * 2021-02-24 2021-06-18 西安理工大学 一种基于机器学习的gcc编译器恶意代码入侵检测方法
CN112989339B (zh) * 2021-02-24 2023-05-02 西安理工大学 一种基于机器学习的gcc编译器恶意代码入侵检测方法
CN113190852A (zh) * 2021-05-31 2021-07-30 贵州师范学院 一种基于轻量级深度网络模型的计算机病毒检测方法

Similar Documents

Publication Publication Date Title
CN108090356A (zh) 一种基于图像纹理和bp神经网络的恶意文件检测方法
CN110826059B (zh) 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
Vasan et al. IMCFN: Image-based malware classification using fine-tuned convolutional neural network architecture
Ni et al. Malware identification using visualization images and deep learning
Li et al. Invisible backdoor attacks on deep neural networks via steganography and regularization
Warnecke et al. Evaluating explanation methods for deep learning in security
Baptista et al. A novel malware detection system based on machine learning and binary visualization
CN109829306B (zh) 一种优化特征提取的恶意软件分类方法
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
Zhao et al. A review of computer vision methods in network security
CN110704840A (zh) 一种基于卷积神经网络cnn的恶意软件检测方法
CN110765458A (zh) 一种基于深度学习的恶意软件检测方法及其装置
Shukla et al. Stealthy malware detection using rnn-based automated localized feature extraction and classifier
Nahmias et al. Trustsign: trusted malware signature generation in private clouds using deep feature transfer learning
US10783247B1 (en) Software classification using phylogenetic techniques
Bountakas et al. Defense strategies for adversarial machine learning: A survey
CN108959930A (zh) 恶意pdf检测方法、系统、数据存储设备和检测程序
Liang et al. Poisoned forgery face: Towards backdoor attacks on face forgery detection
CN116010950A (zh) 一种基于ViT孪生神经网络的恶意软件检测方法及系统
Vashishtha et al. An Ensemble approach for advance malware memory analysis using Image classification techniques
Depuru et al. Deep learning-based malware classification methodology of comprehensive study
Dey et al. Byte label malware classification using image entropy
Wen et al. A image texture and BP neural network basec malicious files detection technique for cloud storage systems
Jiang et al. A pyramid stripe pooling-based convolutional neural network for malware detection and classification
Ayeni A Supervised Machine Learning Algorithm for Detecting Malware

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180529