CN115292702A - 一种恶意代码家族的识别方法、装置、设备及存储介质 - Google Patents

一种恶意代码家族的识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115292702A
CN115292702A CN202210935099.9A CN202210935099A CN115292702A CN 115292702 A CN115292702 A CN 115292702A CN 202210935099 A CN202210935099 A CN 202210935099A CN 115292702 A CN115292702 A CN 115292702A
Authority
CN
China
Prior art keywords
malicious code
sequence
malicious
feature
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210935099.9A
Other languages
English (en)
Inventor
唐成华
周晨
杜征
胡敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210935099.9A priority Critical patent/CN115292702A/zh
Publication of CN115292702A publication Critical patent/CN115292702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Virology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种恶意代码家族的识别方法、装置、设备及存储介质。识别方法包括数据预处理,特征图像生成融合和基于微调后的卷积神经网络CNN的识别的步骤。本发明识别方法通过从多角度对恶意代码进行特征提取,提高了恶意代码识别的准确率。使用MinHash变换算法对提取到的不同长度的特征序列进行归一化并生成多通道哈希映射的特征图像,这样既保留了同家族之间的相似性和不同家族之间的差异性,又避免了特征信息丢失。基于迁移学习微调技术,采用改进的预训练网络RepVGG(微调CNN)对恶意代码家族特征图像进行分类,一方面使其符合分类任务,另一方面以提高网络的健壮性和整体性能。

Description

一种恶意代码家族的识别方法、装置、设备及存储介质
技术领域
本发明涉及互联网安全技术领域,具体涉及一种结合多通道映射特征图像与微调CNN的恶意代码家族识别方法、装置、设备及及存储介质。
背景技术
近年来,恶意代码呈现快速发展的趋势,其变种数量多、传播速度快、影响范围广,传统的恶意代码检测方法已无法满足快速高效的要求。因此,对恶意代码及其变体进行分类,对于防御日益增长的恶意软件至关重要。
在传统代码分析方面,一般来说很难获得恶意程序的源代码,恶意代码变体数量的不断增加也给提取它们的特征码和更新数据库带来了困难。虽然静态分析的代码覆盖率高,但是随着软件复杂度的提升,静态分析的效率会降低,尤其是当恶意代码存在混淆技术等情形时,对所选取的静态特征具有较大的影响。另外一种分析方法是动态分析方法,虽然动态分析方法对恶意代码有较高的识别率,但是动态分析往往会因为执行环境与真实环境之间固有的缺陷,而忽略某些类型的恶意代码或容易被恶意样本所察觉,而且在处理大数据集时耗时且效率较低。
为提升恶意代码分类效率,可以使用神经网络对恶意代码进行分析。然而深度学习技术也还面临一些挑战,首先,收集和标注足够多数据的时间和资金代价较高,如使用广泛的ImageNet图像数据集,其收集成本巨大,而且所标记的训练数据与未来的数据并不能保证有相同的特征空间,也不足以避免过拟合问题。其次,处理大量的恶意代码需要自动化的和健壮的检测方法。在大数据集下训练网络是十分耗时的,尤其是针对一个较深的网络,还可能出现由于训练方法不当导致训练不收敛的问题。第三,在恶意代码数据集中普遍存在数据不平衡的现象,恶意代码变体的数量在不同家族中有较大差距,样本较少的家族难以得到较好的分类效果。
图像化恶意代码特征分析方法已被证明有效,但是恶意代码图像化识别分类方法依然面临着一些问题,首先,如果使用诸如重采样、双三次插值等算法来压缩处理图像,可能会导致一些恶意代码的关键信息特征丢失。其次,与生活中的图像不同,恶意代码图像含有明显的噪声特征。
本发明利用同一家族恶意代码样本的共同特征对恶意代码进行检测可以加速恶意代码的分析,减少恶意代码分析数量,并且能在一定程度上减轻反恶意软件系统和恶意软件分析工作的负担。
发明内容
本发明的目的是针对现有技术的不足,而提供一种针对恶意代码家族的识别方法、装置、设备及及存储介质。本发明识别方法不仅能提升识别的准确率和模型的鲁棒性,并能极大地减轻检测过程中特征工程的开销,解决因利用传统机器学习分析和检测恶意代码存在速度和效率低问题,尤其解决了特征图像缩放可能带来特征信息丢失的问题。
实现本发明目的的技术方案如下:
第一方面,本发明提供一种恶意代码家族的识别方法,包括如下步骤:
1)数据预处理:
分析恶意代码数据集中恶意代码家族样本,对恶意代码的原始二进制文件和反汇编文件进行分析,并提取出局部特征信息2-Gram、汇编指令集信息Opcode序列和可见字符信息String序列三种不同的静态特征,通过对每一种信息分析使得每一个恶意代码都得到三种不同长度的特征序列集合;
2)特征图像生成融合:
利用MinHash变换算法将提取的三种不同长度的特征序列集合转化为含有对应三通道的RGB特征图像,以实现恶意代码特征图像的生成融合,并且能从不同角度反映恶意代码的空间特征;
3)基于微调后的卷积神经网络CNN的识别:
采用迁移学习的微调技术对RepVGG网络模型进行微调,继而优化并缩短训练时长,该微调后的网络模型通过多个卷积层来达到能自动提取恶意代码的图像特征,同时满足恶意代码家族的识别任务。
进一步地,步骤1)数据预处理中所述局部特征信息2-Gram提取,提取过程包括:
首先,依次将恶意代码.bytes文件中的每相邻两字节转换为像素点(X,Y)坐标并存放到集合W1中,该集合中没有重复的元素;
然后,记录该坐标值出现的次数N_Gram(X,Y);
其次,由于在.bytes文件中,十六进制0x00和0xCC分别表示通常用于填充或分隔不同的内容和可执行文件中的中断,所以将这两个值对应的像素点坐标值置为0,即N_Gram(0,0)=0,N_Gram(204,204)=0;
最后,得到一个将W1中所有序列进行编码后的集合W1’,该集合作为2-Gram序列的特征集合。
进一步地,步骤1)数据预处理中所述汇编指令集信息Opcode序列特征提取,根据统计的Opcode出现的频率由低到高次序依次编码为整数1到255,其余的编码为整数0,提取过程包括:
①提取:首先从恶意代码.ASM文件中提取Opcode序列;
②分割:然后使用形如“loc_XXX”的字符串对Opcode序列进行分割,分割后得到N段操作码序列,通过分割操作提取到更能准确表达出恶意代码特征的信息;
③再提取:随后将所得到的N段操作码序列分别再依次提取连续的三个Opcode存入W2中,并保证集合中的元素是唯一的;
④编码:最后,得到一个将W2中所有序列进行编码后的集合W2’,作为Opcode序列特征集合。
进一步地,步骤1)数据预处理中所述可见字符信息String序列特征提取,先制定对可见字符和不可见字符的编码规则:
数字0~9编码为十进制数48~57;大写字母A~Z编码为十进制数65~90;小写字母a~z编码为十进制数97~122;一些符号(如!,+,/,=)编码为十进制数32~47,58~64,91~96和123~126;其余不可见字符编码为十进制数0,按照以上编码规则可以得到所有可见字符的编码,记为String_encode;
String序列特征提取过程包括:
①提取:首先从恶意代码的.bytes文件中提取所有的字符序列String;
②分割:然后使用不可见字符将String分割为N组字符串序列,即一串连续的可见字符作为一组字符串序列,并将其依次存入集合W3中;
③编码:最后,将集合W3中所有字符串序列中的每个字符串依次根据String_encode进行编码得到集合W3’,即作为String序列集合。
进一步地,步骤2)所述特征图像生成融合,具体是根据定义1-5,基于MinHash的方法,根据杰卡德相似系数衡量两个集合的相似度,将W1’,W2’和W3’分别映射到签名矩阵A-Sign和变换为灰度图像,其过程如下;
2.1)首先将集合W1’,W2’和W3’依次作为输入;
2.2)对集合中的所有元素都分别进行多次哈希运算,随后对第i个元素而言取其计算得到的最小哈希值作为签名矩阵A-Sign的最终结果;
2.3)接着将得到的A-Sign中的每一个h(x)值分配给x,y,z,其中x和y作为特征图像的坐标值信息,z作为特征图像中的像素值信息;
2.4)对于2-Gram和Opcode序列集合而言,先将其对应的A-Sign中每一个值转换为二进制数,接着按二进制数每8位依次分配给x,y,z,最后进行取模运算;
2.5)对于String序列集合的A-Sign中每一个值则做三次取模运算,将余数依次分配给x,y,z;
2.6)最后得到高度和宽度都为224的三个含有恶意代码特征的灰度图像:2-Gram特征图像,Opcode特征图像和String特征图像;
2.7)将这三张灰度图像的像素值分别对应彩色图像中的R,G,B通道,以此合成为一张RGB图像,该图像作为恶意代码特征图像;
所述定义1:h(x)表示一个可以将恶意代码特征集合S中的元素x映射成一个整数的哈希函数,一个良好的哈希函数能够把不同元素变换成不同的整数;
定义2:HMin(S,x)表示恶意代码特征集合S中的元素x经过h(x)变换后,该元素具有的最小h(x)值;
定义3:恶意代码特征集合A与恶意代码特征集合B的相似度为集合A和B中的所有元素分别经HMin(S,x)处理后最小h(x)值相等的概率,表示为:
Jaccard(A,B)=P[HMin(A,x)=HMin(B,x)];
定义4.:对恶意代码特征集合中的每一个元素x都可以得到其HMin(S,x)值,给定:
hi(x)=(ax+b)%mod;
其中hi(x)表示随机生成的自定义数量的K个h(x),i∈[1,K],a和b的值在[2242,232]范围内随机产生,mod的值等于232
基于以上这K个h(x)对恶意代码特征集合中的所有元素x可以求h(x)值:
h1(xj),h2(xj),…,hK-1(xj),hK(xj);
其中j∈[1,J],J表示为恶意代码特征集合中元素的总个数,由此,对恶意代码特征集合中的每一个元素x都可以得到其HMin(S,x)值,表示为:
HMin(S,xj)=Min{h1(xj),h2(xj),…,hK(xj)};
定义5:A-Sign是一个签名矩阵,用来存储恶意代码特征集合S中所有元素的HMin(S,x)值,给定:
Figure BDA0003783174260000041
其中,
Figure BDA0003783174260000042
表示A-Sign的长度,γ表示h(x)函数的个数,ε是对A-Sign初始化为无穷大INF,恶意代码样本相同的HMin(S,x)值越多,意味着相似性越高。
进一步的,步骤3)所述基于微调后的CNN的识别过程,包括:
3.1)使用的RepVGG网络模型主干部分对恶意代码特征图像进行特征提取;
3.2)在RepVGG结构的基础上将网络的输出修改为由全连接层(FC)和ReLU激活函数组成,从而适应恶意代码家族识别任务;
3.3)随后迁移RepVGG的基本网络结构和冻结部分低层权重,对较高层进行训练,使用微调后的CNN网络模型通过执行多个非线性变换,为每个恶意代码特征图像生成抽象表示,学习样本的特征属性,自动提取恶意代码的图像特征,确定目标代码所属的恶意代码家族。
第二方面,本发明提供一种恶意代码家族的识别装置,包括:
数据预处理模块:用于数据预处理,通过分析恶意代码数据集中恶意代码家族样本,对恶意代码的原始二进制文件和反汇编文件进行分析,并提取出局部特征信息2-Gram、汇编指令集信息Opcode序列和可见字符信息String序列三种不同的静态特征,通过对每一种信息分析使得每一个恶意代码都得到三种不同长度的特征序列集合;
特征图像生成融合模块:用于特征图像生成融合,利用MinHash变换算法将提取的三种不同长度的特征序列集合转化为含有对应三通道的RGB特征图像,以实现恶意代码特征图像的生成融合,并且能从不同角度反映恶意代码的空间特征;
基于微调CNN的识别模块:用于基于微调CNN的识别,采用迁移学习的微调技术对RepVGG网络模型进行微调,继而优化并缩短训练时长,该微调后的网络模型通过多个卷积层来达到能自动提取恶意代码的图像特征,同时满足恶意代码家族的识别任务。
第三方面,本发明提供一种恶意代码家族的识别设备,包括存储器和处理器;所述存储器和所述处理器连接;
所述存储器,用于存储计算机程序;
所述处理器,包括中央处理器和图形核心处理器,用于在计算机程序被执行时,实现如上述第一方面中任一项所述的恶意代码家族的识别方法。
第四方面,本发明提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述第一方面中任一项所述的恶意代码家族的识别方法。
本发明产生的有益效果:
1、本发明识别方法通过从多角度对恶意代码进行特征提取,提高了恶意代码识别的准确率。
2、使用MinHash变换算法对提取到的不同长度的特征序列进行归一化并生成多通道哈希映射的特征图像,这样既保留了同家族之间的相似性和不同家族之间的差异性,又避免了特征信息丢失,此外基于局部敏感哈希变换解决了特征图像缩放可能带来特征信息丢失的问题。
3、基于迁移学习微调技术,采用改进的预训练网络RepVGG(微调CNN)对恶意代码特征图像进行家族分类,一方面使其符合分类任务,另一方面以提高网络的健壮性和整体性能。
附图说明
图1为实施例1提供的恶意代码家族识别方法的流程示意图;
图2为实施例1中操作指令Opcode序列特征提取过程图;
图3为实施例1中某恶意代码的部分文本序列示例;
图4为实施例1中可见字符String序列特征提取过程图;
图5为实施例2提供的恶意代码家族识别装置的结构示意图;
图6为实施例3提供的恶意代码家族识别设备的结构示意图。
具体实施例
为了使本发明实施的目的、技术方案和优点更加清楚,下面通过具体的实施例详细阐明本发明的技术方案。
实施例1
一种恶意代码家族识别方法,如图1所示,包括
1)数据预处理:
分析恶意代码数据集中恶意代码家族样本,对恶意代码的原始二进制文件和反汇编文件进行分析,并提取出局部特征信息2-Gram、汇编指令集信息Opcode序列和可见字符信息String序列三种不同的静态特征,通过对每一种信息分析使得每一个恶意代码都得到三种不同长度的特征序列集合;
2)特征图像生成融合:
利用MinHash变换算法将提取的三种不同长度的特征序列集合转化为含有对应三通道的RGB特征图像,以实现恶意代码特征图像的生成融合,并且能从不同角度反映恶意代码的空间特征;
3)基于微调后的卷积神经网络CNN的识别:
采用迁移学习的微调技术对RepVGG网络模型进行微调,继而优化并缩短训练时长,该微调后的网络模型通过多个卷积层来达到能自动提取恶意代码的图像特征,同时满足恶意代码家族的识别任务。
步骤1)数据预处理中,局部特征信息2-Gram提取:
首先,依次将恶意代码.bytes文件中的每相邻两字节转换为像素点(X,Y)坐标并存放到集合W1中,该集合中没有重复的元素;
然后,记录该坐标值出现的次数N_Gram(X,Y);
其次,由于在.bytes文件中,十六进制0x00和0xCC分别表示通常用于填充或分隔不同的内容(如资源、片段等)和可执行文件中的中断,所以将这两个值对应的像素点坐标值置为0,即N_Gram(0,0)=0,N_Gram(204,204)=0;
最后,得到一个将W1中所有序列进行编码后的集合W1’,该集合作为2-Gram序列的特征集合。
步骤1)数据预处理中,汇编指令集信息Opcode序列特征提取:在收集的Opcode中,根据其含义和使用频度选取出一共有745种类型的Opcode,如mov,push,jmp等,继而在这745种Opcode中继续筛选出使用频率较高的255种Opcode。因此,跟相对虚拟地址无关,根据统计的Opcode出现的频率由低到高次序依次编码为整数1到255,其余的编码为整数0。
一个恶意代码的Opcode序列特征提取过程,如图2所示,主要有以下四个步骤:
①提取:首先从恶意代码.ASM文件中提取Opcode序列;
②分割:然后使用形如“loc_XXX”的字符串(如“loc_10001146”)对Opcode序列进行分割,分割后得到N段操作码序列,通过分割操作提取到更能准确表达出恶意代码特征的信息;
③再提取:随后将所得到的N段操作码序列分别再依次提取连续的三个Opcode存入W2中,并保证集合中的元素是唯一的;
④编码:最后,得到一个将W2中所有序列进行编码后的集合W2’,作为Opcode序列特征集合。
步骤1)数据预处理中,可见字符信息String序列特征提取:可见字符String序列由ASCII码表中95个可见字符组成,描述了恶意代码的文本特征。为便于特征提取和集合映射,制定对可见字符和不可见字符的编码规则:数字0~9编码为十进制数48~57;大写字母A~Z编码为十进制数65~90;小写字母a~z编码为十进制数97~122;一些符号(如!,+,/,=)编码为十进制数32~47,58~64,91~96和123~126;其余不可见字符编码为十进制数0。按照以上编码规则可以得到所有可见字符的编码,记为String_encode。
实施例针对图3从某个恶意代码样本的.bytes文件中提取String序列特征如图4所示,主要有以下三个步骤:
①提取:首先从恶意代码的.bytes文件中提取所有的字符序列String;
②分割:然后使用不可见字符将String分割为N组字符串序列,即一串连续的可见字符作为一组字符串序列,并将其依次存入集合W3中;
③编码:最后,将集合W3中所有字符串序列中的每个字符串依次根据String_encode进行编码得到集合W3’,即作为String序列集合。
步骤2)所述特征图像的生成融合,根据定义1-5,使用基于MinHash的方法,根据杰卡德相似系数(Jaccard)衡量两个集合的相似度,将W1’,W2’和W3’映射到关于图像的签名矩阵,最终实现恶意代码识别过程中的特征图像生成融合。
定义1:h(x)表示一个可以将恶意代码特征集合S中的元素x映射成一个整数的哈希函数,一个良好的哈希函数能够把不同元素变换成不同的整数。
定义2:HMin(S,x)表示恶意代码特征集合S中的元素x经过h(x)变换后,该元素具有的最小h(x)值。
定义3:恶意代码特征集合A与恶意代码特征集合B的相似度为集合A和B中的所有元素分别经HMin(S,x)处理后最小h(x)值相等的概率,表示为:
Jaccard(A,B)=P[HMin(A,x)=HMin(B,x)]
定义4:对恶意代码特征集合中的每一个元素x都可以得到其HMin(S,x)值,给定:
hi(x)=(ax+b)%mod
其中hi(x)表示随机生成的自定义数量的K个h(x),i∈[1,K],a和b的值在[2242,232]范围内随机产生,mod的值等于232
基于以上这K个h(x)对恶意代码特征集合中的所有元素x可以求h(x)值:
h1(xj),h2(xj),…,hK-1(xj),hK(xj)
其中j∈[1,J],J表示为恶意代码特征集合中元素的总个数,由此,对恶意代码特征集合中的每一个元素x都可以得到其HMin(S,x)值,表示为:
HMin(S,xj)=Min{h1(xj),h2(xj),…,hK(xj)};
定义5:A-Sign是一个签名矩阵,用来存储恶意代码特征集合S中所有元素的HMin(S,x)值,给定:
Figure BDA0003783174260000081
其中,
Figure BDA0003783174260000082
表示A-Sign的长度,γ表示h(x)函数的个数,ε是对A-Sign初始化为无穷大INF。恶意代码样本相同的HMin(S,x)值越多,意味着相似性越高。
根据定义1-5,基于MinHash将W1’,W2’和W3’分别映射到签名矩阵A-Sign和变换为灰度图像的过程如下:
2.1)首先将集合W1’,W2’和W3’依次作为输入;
2.2)对集合中的所有元素都分别进行多次哈希运算,随后对第i个元素而言取其计算得到的最小hash值作为签名矩阵A-Sign的最终结果;
2.3)接着将得到的A-Sign中的每一个h(x)值分配给x,y,z,其中x和y作为特征图像的坐标值信息,z作为特征图像中的像素值信息;
2.4)对于2-Gram和Opcode序列集合而言,先将其对应的A-Sign中每一个值转换为二进制数,接着按二进制数每8位依次分配给x,y,z,最后进行取模运算;
2.5)对于String序列集合的A-Sign中每一个值则做三次取模运算,将余数依次分配给x,y,z;
2.6)最后得到高度和宽度都为224的三个含有恶意代码特征的灰度图像:2-Gram特征图像,Opcode特征图像和String特征图像;
2.7)将这三张灰度图像的像素值分别对应彩色图像中的R,G,B通道,以此合成为一张RGB图像,该图像作为恶意代码特征图像。
步骤3)所述基于微调后的CNN的识别过程,包括:
3.1)使用的RepVGG网络模型主干部分对恶意代码特征图像进行特征提取;
3.2)在RepVGG结构的基础上将网络的输出修改为由全连接层FC和ReLU激活函数组成,从而适应恶意代码家族识别任务;
3.3)随后迁移RepVGG的基本网络结构和冻结部分低层权重,对较高层进行训练。使用微调后的网络模型通过执行多个非线性变换,为每个恶意代码特征图像生成抽象表示,学习样本的特征属性,而无需手动提取特征。
实施例1恶意代码家族识别方法,从多角度对恶意代码进行特征提取,提高了恶意代码识别的准确率。
实施例2
一种恶意代码家族识别装置,如图5所示,包括
数据预处理模块:用于数据预处理,通过分析恶意代码数据集中恶意代码家族样本,对恶意代码的原始二进制文件和反汇编文件进行分析,并提取出局部特征信息2-Gram、汇编指令集信息Opcode序列和可见字符信息String序列三种不同的静态特征,通过对每一种信息分析使得每一个恶意代码都得到三种不同长度的特征序列集合;
特征图像生成融合模块:用于特征图像生成融合,利用MinHash变换算法将提取的三种不同长度的特征序列集合转化为含有对应三通道的RGB特征图像,以实现恶意代码特征图像的生成融合,并且能从不同角度反映恶意代码的空间特征;
基于微调CNN的识别模块:用于基于微调CNN的识别,采用迁移学习的微调技术对RepVGG网络模型进行微调,继而优化并缩短训练时长,该微调后的网络模型通过多个卷积层来达到能自动提取恶意代码的图像特征,同时满足恶意代码家族的识别任务。
实施例3
一种恶意代码家族的识别设备,如图6所示,包括存储器和处理器;存储器和处理器连接;
存储器,用于存储计算机程序;
处理器,包括中央处理器和图形核心处理器,用于在计算机程序被执行时,实现实施例1的恶意代码家族的识别方法。

Claims (7)

1.一种恶意代码家族的识别方法,其特征在于,包括如下步骤:
1)数据预处理:
分析恶意代码数据集中恶意代码家族样本,对恶意代码的原始二进制文件和反汇编文件进行分析,并提取出局部特征信息2-Gram、汇编指令集信息Opcode序列和可见字符信息String序列三种不同的静态特征,通过对每一种信息分析使得每一个恶意代码都得到三种不同长度的特征序列集合;
2)特征图像生成融合:
利用MinHash变换算法将提取的三种不同长度的特征序列集合转化为含有对应三通道的RGB特征图像,以实现恶意代码特征图像的生成融合,并且能从不同角度反映恶意代码的空间特征;
3)基于微调后的CNN的识别:
采用迁移学习的微调技术对RepVGG网络模型进行微调,继而优化并缩短训练时长,该微调后的网络模型通过多个卷积层来达到能自动提取恶意代码的图像特征,同时满足恶意代码家族的识别任务。
2.根据权利要求1所述的恶意代码家族的识别方法,其特征在于:步骤1)数据预处理中所述局部特征信息2-Gram提取,提取过程包括:
首先,依次将恶意代码.bytes文件中的每相邻两字节转换为像素点(X,Y)坐标并存放到集合W1中,该集合中没有重复的元素;
然后,记录该坐标值出现的次数N_Gram(X,Y);
其次,由于在.bytes文件中,十六进制0x00和0xCC分别表示通常用于填充或分隔不同的内容和可执行文件中的中断,所以将这两个值对应的像素点坐标值置为0,即N_Gram(0,0)=0,N_Gram(204,204)=0;
最后,得到一个将W1中所有序列进行编码后的集合W1’,该集合作为2-Gram序列的特征集合;
步骤1)数据预处理中所述汇编指令集信息Opcode序列特征提取,根据统计的Opcode出现的频率由低到高次序依次编码为整数1到255,其余的编码为整数0,提取过程包括:
①提取:首先从恶意代码.ASM文件中提取Opcode序列;
②分割:然后使用形如“loc_XXX”的字符串对Opcode序列进行分割,分割后得到N段操作码序列;
③再提取:随后将所得到的N段操作码序列分别再依次提取连续的三个Opcode存入W2中,并保证集合中的元素是唯一的;
④编码:最后,得到一个将W2中所有序列进行编码后的集合W2’,作为Opcode序列特征集合;
步骤1)数据预处理中所述可见字符信息String序列特征提取,先制定对可见字符和不可见字符的编码规则:数字0~9编码为十进制数48~57;大写字母A~Z编码为十进制数65~90;小写字母a~z编码为十进制数97~122;一些符号编码为十进制数32~47,58~64,91~96和123~126;其余不可见字符编码为十进制数0,按照以上编码规则可以得到所有可见字符的编码,记为String_encode;
String序列特征提取过程包括:
①提取:首先从恶意代码的.bytes文件中提取所有的字符序列String;
②分割:然后使用不可见字符将String分割为N组字符串序列,即一串连续的可见字符作为一组字符串序列,并将其依次存入集合W3中;
③编码:最后,将集合W3中所有字符串序列中的每个字符串依次根据String_encode进行编码得到集合W3’,即作为String序列集合。
3.根据权利要求2所述的恶意代码家族的识别方法,其特征在于:
步骤2)所述特征图像生成融合,具体是根据定义1-5,基于MinHash的方法,根据杰卡德相似系数衡量两个集合的相似度,将W1’,W2’和W3’分别映射到签名矩阵A-Sign和变换为灰度图像,其过程如下;
2.1)首先将集合W1’,W2’和W3’依次作为输入;
2.2)对集合中的所有元素都分别进行多次哈希运算,随后对第i个元素而言取其计算得到的最小哈希值作为签名矩阵A-Sign的最终结果;
2.3)接着将得到的A-Sign中的每一个h(x)值分配给x,y,z,其中x和y作为特征图像的坐标值信息,z作为特征图像中的像素值信息;
2.4)对于2-Gram和Opcode序列集合而言,先将其对应的A-Sign中每一个值转换为二进制数,接着按二进制数每8位依次分配给x,y,z,最后进行取模运算;
2.5)对于String序列集合的A-Sign中每一个值则做三次取模运算,将余数依次分配给x,y,z;
2.6)最后得到高度和宽度都为224的三个含有恶意代码特征的灰度图像:2-Gram特征图像,Opcode特征图像和String特征图像;
2.7)将这三张灰度图像的像素值分别对应彩色图像中的R,G,B通道,以此合成为一张RGB图像,该图像作为恶意代码特征图像;
所述定义1:h(x)表示一个可以将恶意代码特征集合S中的元素x映射成一个整数的哈希函数,一个良好的哈希函数能够把不同元素变换成不同的整数;
定义2:HMin(S,x)表示恶意代码特征集合S中的元素x经过h(x)变换后,该元素具有的最小h(x)值;
定义3:恶意代码特征集合A与恶意代码特征集合B的相似度为集合A和B中的所有元素分别经HMin(S,x)处理后最小h(x)值相等的概率,表示为:
Jaccard(A,B)=P[HMin(A,x)=HMin(B,x)];
定义4:对恶意代码特征集合中的每一个元素x都可以得到其HMin(S,x)值,给定:
hi(x)=(ax+b)%mod
其中hi(x)表示随机生成的自定义数量的K个h(x),i∈[1,K],a和b的值在[2242,232]范围内随机产生,mod的值等于232
基于以上这K个h(x)对恶意代码特征集合中的所有元素x可以求h(x)值:
h1(xj),h2(xj),…,hK-1(xj),hK(xj)
其中j∈[1,J],J表示为恶意代码特征集合中元素的总个数,由此,对恶意代码特征集合中的每一个元素x都可以得到其HMin(S,x)值,表示为:
HMin(S,xj)=Min{h1(xj),h2(xj),…,hK(xj)};
定义5:A-Sign是一个签名矩阵,用来存储恶意代码特征集合S中所有元素的HMin(S,x)值,给定:
Figure FDA0003783174250000041
其中,
Figure FDA0003783174250000042
表示A-Sign的长度,γ表示h(x)函数的个数,ε是对A-Sign初始化为无穷大INF,恶意代码样本相同的HMin(S,x)值越多,意味着相似性越高。
4.根据权利要求3所述的恶意代码家族的识别方法,其特征在于:步骤3)基于微调后的CNN的识别过程,包括:
3.1)使用的RepVGG网络模型主干部分对恶意代码特征图像进行特征提取;
3.2)在RepVGG结构的基础上将网络的输出修改为由全连接层和ReLU激活函数组成,从而适应恶意代码家族识别任务;
3.3)随后迁移RepVGG的基本网络结构和冻结部分低层权重,对较高层进行训练,使用微调后的网络模型通过执行多个非线性变换,为每个恶意代码特征图像生成抽象表示,学习样本的特征属性,自动提取恶意代码的图像特征,确定目标代码所属的恶意代码家族。
5.一种恶意代码家族的识别装置,其特征在于,包括:
数据预处理模块:用于数据预处理,通过分析恶意代码数据集中恶意代码家族样本,对恶意代码的原始二进制文件和反汇编文件进行分析,并提取出局部特征信息2-Gram、汇编指令集信息Opcode序列和可见字符信息String序列三种不同的静态特征,通过对每一种信息分析使得每一个恶意代码都得到三种不同长度的特征序列集合;
特征图像生成融合模块:用于特征图像生成融合,利用MinHash变换算法将提取的三种不同长度的特征序列集合转化为含有对应三通道的RGB特征图像,以实现恶意代码特征图像的生成融合,并且能从不同角度反映恶意代码的空间特征;
基于微调CNN的识别模块:用于基于微调CNN的识别,采用迁移学习的微调技术对RepVGG网络模型进行微调,继而优化并缩短训练时长,该微调后的网络模型通过多个卷积层来达到能自动提取恶意代码的图像特征,同时满足恶意代码家族的识别任务。
6.一种恶意代码家族的识别设备,其特征在于,包括存储器和处理器;所述存储器和所述处理器连接;
所述存储器,用于存储计算机程序;
所述处理器,包括中央处理器和图形核心处理器,用于在计算机程序被执行时,实现如上述权利要求1-4中任一项所述的恶意代码家族的识别方法。
7.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述权利要求1-4中任一项所述的恶意代码家族的识别方法。
CN202210935099.9A 2022-08-05 2022-08-05 一种恶意代码家族的识别方法、装置、设备及存储介质 Pending CN115292702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210935099.9A CN115292702A (zh) 2022-08-05 2022-08-05 一种恶意代码家族的识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210935099.9A CN115292702A (zh) 2022-08-05 2022-08-05 一种恶意代码家族的识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115292702A true CN115292702A (zh) 2022-11-04

Family

ID=83825541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210935099.9A Pending CN115292702A (zh) 2022-08-05 2022-08-05 一种恶意代码家族的识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115292702A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861431A (zh) * 2023-09-05 2023-10-10 国网山东省电力公司信息通信公司 基于多通道图像和神经网络的恶意软件分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861431A (zh) * 2023-09-05 2023-10-10 国网山东省电力公司信息通信公司 基于多通道图像和神经网络的恶意软件分类方法及系统
CN116861431B (zh) * 2023-09-05 2023-11-21 国网山东省电力公司信息通信公司 基于多通道图像和神经网络的恶意软件分类方法及系统

Similar Documents

Publication Publication Date Title
Zhao et al. A malware detection method of code texture visualization based on an improved faster RCNN combining transfer learning
TW202207077A (zh) 一種文本區域的定位方法及裝置
CN109241741B (zh) 一种基于图像纹理指纹的恶意代码分类方法
CN110472417B (zh) 基于卷积神经网络的恶意软件操作码分析方法
CN108875727B (zh) 图文标识的检测方法及装置、存储介质、处理器
CN110704649B (zh) 一种用于构建流量图像数据集的方法及系统
CN109033833B (zh) 一种基于多特征与特征选择的恶意代码分类方法
CN113221115B (zh) 基于协同学习的可视化恶意软件检测方法
CN116910752B (zh) 一种基于大数据的恶意代码检测方法
CN113569833A (zh) 基于文本文档的文字识别方法、装置、设备及存储介质
CN114120299A (zh) 信息获取方法、装置、存储介质及设备
CN115292702A (zh) 一种恶意代码家族的识别方法、装置、设备及存储介质
CN114495102A (zh) 文本识别方法、文本识别网络的训练方法及装置
CN115955513A (zh) 一种物联网数据优化传输方法
CN111241550B (zh) 基于二进制映射和深度学习的漏洞检测方法
CN116258917B (zh) 一种基于tf-idf转移熵的恶意软件分类方法及装置
CN110766708B (zh) 基于轮廓相似度的图像比较方法
CN116975864A (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN114861178B (zh) 一种基于改进b2m算法的恶意代码检测引擎设计方法
CN116595525A (zh) 一种基于软件图谱的阈值机制恶意软件检测方法及系统
CN108446558B (zh) 一种基于空间填充曲线的恶意代码可视化分析方法
CN116541841A (zh) 一种恶意软件的分类方法,分类装置以及存储介质
CN114741697B (zh) 恶意代码分类方法、装置、电子设备和介质
CN115564970A (zh) 一种网络攻击追踪溯源方法、系统及可存储介质
EP4237977B1 (en) Method for detection of malware

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination