CN116541841A - 一种恶意软件的分类方法,分类装置以及存储介质 - Google Patents
一种恶意软件的分类方法,分类装置以及存储介质 Download PDFInfo
- Publication number
- CN116541841A CN116541841A CN202310707371.2A CN202310707371A CN116541841A CN 116541841 A CN116541841 A CN 116541841A CN 202310707371 A CN202310707371 A CN 202310707371A CN 116541841 A CN116541841 A CN 116541841A
- Authority
- CN
- China
- Prior art keywords
- image
- gray
- pixel
- malicious
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 4
- 230000002085 persistent effect Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000002458 infectious effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Virology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种恶意软件的分类方法,分类装置以及存储介质,用于恶意软件分类技术领域。本申请实施例方法包括:将待分类恶意软件对应的二进制文件转换为像素点,以获取待分类恶意软件对应的灰度图像;根据灰度图像中像素区域的像素熵值构建第一灰度图像;根据灰度图像中像素区域的像素相对大小构建第二灰度图像;将第一灰度图像、第二灰度图像以及灰度图像依次作为三通道图像的三个通道,合成待分类恶意软件对应的目标三通道图像;将目标三通道图像输入预先训练完成的恶意分类模型,对待分类恶意软件进行分类。使不同恶意家族对应的三通道图像的图像特征之间的差异较为明显,在对恶意软件进行分类时有效减少分类错误。
Description
技术领域
本申请实施例涉及恶意软件分类技术领域,尤其涉及一种恶意软件的分类方法,分类装置以及存储介质。
背景技术
恶意软件是指破坏系统正常运行的软件。近年来,随着互联网和计算机技术的快速发展,各种恶意软件的出现已成为网络空间中最严重的威胁。大多数新的恶意软件变体从以前的恶意软件改变而来,且恶意软件的变种类型多、变种速度块;这些恶意软件的变体属于同一个恶意家族。
恶意软件分类是恶意软件分析的必要任务,区分了不同的恶意家族,以更好地了解来自同一恶意家族的恶意软件变体的能力,从而可以减少安全分析师的工作,并促进他们对新的恶意软件或恶意软件变体的研究。现有的恶意软件的分类技术一般为于恶意软件图像可视化,将恶意软件对应的二进制文件转换为一个像素点数据集,通过像素点数据集构建三通道图像,再使用三通道图像对恶意软件进行分类。
然而,现有的通过像素点数据集构建三通道图像时,一般像素点数据集的中每个像素点的值分别构建一个独立的三通道分量,使用所有像素点的三通道分量合并为一个三通道图像,而恶意软件存在变种时,可能属于不同恶意家族的恶意软件对应的像素点数据集中存在较多相同的像素点,相同的像素点得到的三通道分量也相同,此时,不同恶意家族的恶意软件得到的三通道图像之间的图像特征可能无明显区别,容易导致在对恶意软件进行分类时出现错误。
发明内容
本申请实施例提供了一种恶意软件的分类方法,分类装置以及存储介质,使得属于不同恶意家族的恶意软件得到的三通道图像存在较为明显的区别,在对恶意软件进行分类时有效减少分类错误。
本申请实施例还提供了一种恶意软件的分类方法,包括:
将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像;
根据所述灰度图像中像素区域的像素熵值构建第一灰度图像;
根据所述灰度图像中像素区域的像素相对大小构建第二灰度图像;
将所述第一灰度图像、所述第二灰度图像以及所述灰度图像依次作为三通道图像的三个通道,合成所述待分类恶意软件对应的目标三通道图像;
将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类,其中,所述恶意分类模型为基于预设恶意家族的恶意软件对应的三通道图像训练而成。
进一步的,所述根据所述灰度图像中像素点的像素熵值构建第一灰度图像包括:
在所述灰度图像的预设像素区域中获取像素点的灰度平均值,并将所述灰度平均值作为所述预设像素区域中像素点的灰度值;
将多个所述预设像素区域合并为所述第一灰度图像。
进一步的,所述根据所述灰度图像中像素点的像素相对大小构建第二灰度图像包括:
在所述灰度图像的预设像素区域中获取像素点的灰度中间值,并将所述预设像素区域中像素点的灰度值与所述灰度中间值进行大小比较;
根据比较结果确定所述预设像素区域中像素点的目标灰度值;
将多个所述预设像素区域合并为所述第二灰度图像。
进一步的,所述将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像包括:
将所述待分类恶意软件对应的二进制文件转换为十六进制字节,且每个十六进制字节作为一个像素点,字节的大小作为像素点的灰度值;
根据所述待分类恶意软件对应的二进制文件中二进制数字的排列情况,对像素点进行排列得到所述待分类恶意软件对应的灰度图像。
进一步的,所述对像素点进行排列得到所述待分类恶意软件对应的灰度图像包括:
在所述待分类恶意软件对应的像素点中删除文件头部分对应的像素点;
将剩余的像素点通过预设图像宽度进行排列得到所述待分类恶意软件对应的灰度图像。
进一步的,所述将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类包括:
将所述目标三通道图像输入所述恶意分类模型,提取所述目标三通道图像的图像特征;
将所述图像特征与所述恶意分类模型中目标恶意家族对应的图像特征进行匹配;
若匹配成功,则确定所述目标三通道图像属于所述目标恶意家族。
进一步的,所述方法还包括:将预设软件输入预先训练的恶意检测模型,检测所述预设软件是否为恶意软件;其中,所述恶意检测模型基于恶意软件的三通道图像训练而成;
若是,则将所述预设软件作为所述待分类恶意软件,并执行将待分类恶意软件对应的二进制文件转换为像素点的步骤。
本申请实施例还提供了一种恶意软件的分类装置,包括:
获取单元,用于将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像;
第一构建单元,用于根据所述灰度图像中像素点的像素熵值构建第一灰度图像;
第二构建单元,用于根据所述灰度图像中像素点的像素相对大小构建第二灰度图像;
合成单元,用于将所述第一灰度图像、所述第二灰度图像以及所述灰度图像依次作为三通道图像的三个通道,合成所述待分类恶意软件对应的目标三通道图像;
分类单元,用于将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类。
本申请实施例还提供了一种恶意软件的分类装置,包括:
中央处理器,存储器,输入输出接口,有线或无线网络接口,电源;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,在控制面功能实体上执行所述存储器中的指令操作以执行上述的方法。
本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如上述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,将待分类恶意软件对应的二进制文件转换为像素点,以获取待分类恶意软件对应的灰度图像;根据灰度图像中像素区域的像素熵值构建第一灰度图像;根据灰度图像中像素区域的像素相对大小构建第二灰度图像;将第一灰度图像、第二灰度图像以及灰度图像依次作为三通道图像的三个通道,合成待分类恶意软件对应的目标三通道图像;将目标三通道图像输入预先训练完成的恶意分类模型,对待分类恶意软件进行分类。通过将像素熵值构建的第一灰度图像、像素相对大小构建的第二灰度图像以及原始的灰度图像作为三通道图像的三个通道,合成的三通道图像中通过将像素熵值以及像素相对大小对应的灰度图像与原始灰度图像进行对比,提高三通道图像中像素点之间的关联性,使得属于不同恶意家族的恶意软件得到的三通道图像存在较为明显的区别,在使用三通道图像对恶意软件进行分类时有效减少分类错误。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一个恶意软件的分类流程图;
图2为本申请实施例公开的另一恶意软件的分类流程图;
图3为本申请实施例公开的一个恶意软件解析为十六进制的示意图;
图4为本申请实施例公开的一个感染型恶意软件的三通道图像;
图5为本申请实施例公开的一个广告型恶意软件的三通道图像;
图6为本申请实施例公开的一个检测分类的示意图;
图7为本申请实施例公开的一个恶意软件的分类装置图;
图8为本申请实施例公开的另一恶意软件的分类装置图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请实施例的限制。
在本申请实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请实施例中的具体含义。
现有的恶意软件分类中,将恶意软件对应的二进制文件转换为像素点数据集,基于像素点数据集构建三通道图像,再使用三通道图像对恶意软件进行分类。然而,通过像素点数据集构建三通道图像时,一般像素点数据集的中每个像素点的值分别构建一个独立的三通道分量,使用所有像素点的三通道分量合并为一个三通道图像,而恶意软件存在变种时,可能属于不同恶意家族的恶意软件对应的像素点数据集中存在较多相同的像素点,相同的像素点得到的三通道分量也相同,此时,不同恶意家族的恶意软件得到的三通道图像之间的图像特征可能无明显区别,容易导致在对恶意软件进行分类时出现错误。本申请实施例提供了一种恶意软件的分类方法,使得属于不同恶意家族的恶意软件得到的三通道图像存在较为明显的区别,在对恶意软件进行分类时有效减少分类错误,如图1所示,具体包括步骤101至步骤105.
101、将待分类恶意软件对应的二进制文件转换为像素点,以获取待分类恶意软件对应的灰度图像。
本申请实施例中,恶意软件的分类装置可以将待分类恶意软件对应的二进制文件转换为像素点,以获取待分类恶意软件对应的灰度图像。其中,该待分类恶意软件可以为病毒类软件或广告类软件,具体此处不做限定。可以通过恶意软件检测或从服务器中获取待分类恶意软件,具体此处不做限定。在计算机系统中,每个软件一般以二进制的形式保存于计算机磁盘中,当确定预设软件为恶意软件时,可以从计算机磁盘中取出恶意软件对应的二进制文件,以对该恶意软件进行分类。
在获取待分类恶意软件对应的二进制文件后,可以将二进制文件中的字节转换为像素点,且将字节大小作为对应像素点的灰度值,将像素点进行排列得到待分类恶意软件对应的灰度图像。即将待分类恶意文件转换为一个灰度图像。当来自同一恶意家族的不同恶意软件被转换为灰度图像时,同一恶意家族的恶意软件中的二进制字节相似的数量较多,对应的像素点相似的数量也较多,即同一恶意家族对应的灰度图像在纹理和布局上一般较为相似。
102、根据灰度图像中像素区域的像素熵值构建第一灰度图像。
获取待分类恶意软件对应的灰度图像后,可以根据灰度图像中像素区域的像素熵值构建第一灰度图像。可以理解的是,可以将灰度图像划分为多个像素区域,每个像素区域的大小可以相同也可以不同,具体此处不做限定。如将400x300尺寸的灰度图像划分为多个3x3或4x3尺寸的像素区域,在每个像素区域中可以使用像素点的灰度值获取该像素区域中像素熵值,可以将该像素熵值作为该像素区域中每一像素点的灰度值,替换该像素区域中像素点原有的灰度值。每个像素区域中像素点的灰度值使用像素区域的像素熵值进行替换,对灰度图像进行构建得到第一灰度图像。
103、根据灰度图像中像素区域的像素相对大小构建第二灰度图像。
获取待分类恶意软件对应的灰度图像后,可以根据灰度图像中像素区域的像素相对大小构建第二灰度图像。可以理解的是,可以将灰度图像划分为多个像素区域,每个像素区域的大小可以相同也可以不同,具体此处不做限定。在每个像素区域中可以根据像素区域中像素相对大小,重新确定像素区域中像素点的灰度值,将多个像素区域构建第二灰度图像。可以理解的是,像素区域的像素相对大小为像素区域中像素点的灰度值之间的相对大小,通过将像素区域中像素点的灰度值进行比较,重新确定该像素区域中像素点的灰度值,对所有划分的像素区域使用像素相对大小重新确定像素点的灰度值后,所有划分的像素区域合并为第二灰度图像,即构建第二灰度图像。
可以理解的是,步骤102与步骤103之间的执行先后关系此处不做限定。
104、将第一灰度图像、第二灰度图像以及灰度图像合成待分类恶意软件对应的目标三通道图像。
得到第一灰度图像以及第二灰度图像后,可以将第一灰度图像、第二灰度图像以及灰度图像合成待分类恶意软件对应的目标三通道图像。即将第一灰度图像、第二灰度图像以及灰度图像依次作为三通道图像的三个通道,合成待分类恶意软件对应的目标三通道图像。该灰度图像即为二进制文件直接进行转换获得得原始图像;该三通道图像为RGB三通道图像,即可以将第一灰度图像作为R通道的灰度图像,将第二灰度图像作为G通道的灰度图像,将原始灰度图像作为B通道的灰度图像;将R、G、B三个分量合成待分类恶意软件对应的目标三通道图像。即对待分类恶意文件对应的原始灰度图像,通过原始灰度图像中像素区域的像素熵值以及像素区域的像素相对大小,构建第一灰度图像以及第二灰度图像,将第一灰度图像、第二灰度图像以及灰度图像合成待分类恶意软件对应的目标三通道图像,提高目标三通道图像中像素点之间的关联,
105、将目标三通道图像输入预先训练完成的恶意分类模型,对待分类恶意软件进行分类。
在得到待分类恶意软件对应的目标三通道图像后,可以将目标三通道图像输入预先训练完成的恶意分类模型,对待分类恶意软件进行分类。其中,恶意分类模型为基于预设恶意家族的恶意软件对应的三通道图像训练而成。可以理解的是,可以取属于同一恶意家族的恶意软件的二进制文件,将该恶意软件的二进制文件经上述步骤101至步骤104得到对应的三通道图像,将三通道图像作为训练样本对恶意分类模型进行训练。属于同一恶意家族的恶意软件由很多拥有共同特性的恶意代码个体组成,共同特性通常包括相同的代码、图案、应用特征及相似;属于同一恶意家族的恶意软件得到的三通道图像中像素点之间的具有较强的关联性,因此,属于同一恶意家族的恶意软件得到的三通道图像的图像特征非常相似;恶意分类模型可以使用训练学习的图像特征对目标三通道图像进行分类,进而确定目标三通道图像对应的待分类恶意文件所属的恶意家族。
可见,本申请实施例中,将待分类恶意软件对应的二进制文件转换为像素点,以获取待分类恶意软件对应的灰度图像;根据灰度图像中像素区域的像素熵值构建第一灰度图像;根据灰度图像中像素区域的像素相对大小构建第二灰度图像;将第一灰度图像、第二灰度图像以及灰度图像依次作为三通道图像的三个通道,合成待分类恶意软件对应的目标三通道图像;将目标三通道图像输入预先训练完成的恶意分类模型,对待分类恶意软件进行分类。通过将像素熵值构建的第一灰度图像、像素相对大小构建的第二灰度图像以及原始的灰度图像作为三通道图像的三个通道,合成的三通道图像中通过将像素熵值以及像素相对大小对应的灰度图像与原始灰度图像进行对比,提高三通道图像中像素点之间的关联性,使得属于不同恶意家族的恶意软件得到的三通道图像存在较为明显的区别,在使用三通道图像对恶意软件进行分类时有效减少分类错误。
进一步的,下面对恶意软件的分类流程进行详细描述,如图2所示,具体包括步骤201至步骤206。
201、将预设软件输入预先训练的恶意检测模型,检测预设软件是否为恶意软件;若是,则执行步骤202。
本申请实施例中,在对恶意软件进行分类前,可以先检测预设软件是否为恶意软件;可以将预设软件输入预先训练的恶意检测模型,检测预设软件是否为恶意软件。其中,该恶意检测模型可以为卷积神经网络或全连接神经网络,具体此处不做限定。该预设软件可以为PE文件,如EXE文件或DLL文件,具体此处不做限定。该恶意检测模型基于恶意软件的三通道图像训练而成,可以将每种恶意家族的恶意软件进行图像可视化得到对应的三通道图像,将三通道图像作为训练样本,输入到恶意检测模型中训练恶意检测模型。恶意检测模型训练完成后,可以使用恶意检测模型检测预设软件是否为恶意软件。如图6所示,可以将预设软件(EXE文件)使用上述步骤101至104的方法得到对应的三通道图像(RGB图),将三通道图像输入恶意检测模型(神经网络),判断预设软件是否为恶意软件,若否,则判白并确定软件无害,若是,则判黑并将预设软件作为待分类软件。
202、将待分类恶意软件对应的二进制文件转换为十六进制字节,且每个十六进制字节作为一个像素点,得到对应的灰度图像。
本申请实施例中,将待分类恶意软件对应的二进制文件转换为灰度图像时,可以将待分类恶意软件对应的二进制文件转换为十六进制字节,且每个十六进制字节作为一个像素点,得到对应的灰度图像。可以理解的是,待分类恶意软件对应的二进制文件在解析时,计算机系统的解析器一般会按照十六进制形式展示一个软件,如图3所示。其中,软件的每个十六进制字节的大小在0-255的范围,正好对应像素点的灰度范围,即可以每个十六进制字节作为一个像素点,字节的大小作为像素点的灰度值,即将十六进制字节的大小作为像素点的灰度值,可以转化为二维数组的像素点数据集,通过像素点数据集可以得到该待分类恶意软件对应的原始灰度图像。其中,可以根据待分类恶意软件对应的二进制文件中二进制数字的排列情况,对像素点进行排列得到待分类恶意软件对应的灰度图像。
进一步的,对像素点进行排列时,因软件中文件头部分信息无有效内容,此时,可以在待分类恶意软件对应的像素点中删除文件头部分对应的像素点,保留文件的节区(指令、数据)。再将剩余的像素点通过预设图像宽度进行排列得到待分类恶意软件对应的灰度图像。可以理解的是,不同恶意软件对应的文件大小不同,因此可以采用固定图像宽度,剩余字节填充到高度的策略,以此来生成相应的灰度图像。可以理解的是,因本申请中需对恶意软件进行分类,为了图像尺寸与检测模型或分类模型均匹配,以提高分类的效率,待分类恶意软件生成的三通道图像以及用于训练的三通道图像对应的图像宽度均相同,后面不再赘述。
203、将灰度图像的预设像素区域中像素点的灰度平均值作为预设图像区域中像素点的灰度值,得到第一灰度图像。
本申请实施例中,根据灰度图像中像素点的像素熵值构建第一灰度图像具体可以为,将灰度图像的预设像素区域中像素点的灰度平均值作为预设图像区域中像素点的灰度值,得到第一灰度图像。即可以将灰度图像划分为多个像素区域,每一像素区域中包含多个像素点,可以在灰度图像的预设像素区域中获取像素点的灰度平均值,即将预设像素区域中包含的像素点的灰度值相加取平均值,并将灰度平均值作为预设像素区域中像素点的灰度值;将多个预设像素区域合并为第一灰度图像。可以理解的是,每个像素区域的区域轮廓可以为规整的多边形或不规则的形状,具体此处不做限定;每个像素区域包含的像素点可以相同也可以不同,具体此处不做限定。根据灰度图像中像素点的像素熵值构建第一灰度图像可以使第一灰度图像反映灰度图像中像素点的离散程度,使像素点之间具有关联关系。
204、将预设像素区域中像素点的灰度值与灰度中间值进行比较,根据比较结果得到第二灰度图像。
本申请实施例中,根据灰度图像中像素点的像素相对大小构建第二灰度图像可以为,将预设像素区域中像素点的灰度值与灰度中间值进行比较,根据比较结果得到第二灰度图像。即可以将灰度图像划分为多个像素区域,在灰度图像的预设像素区域中获取像素点的灰度中间值,并将预设像素区域中像素点的灰度值与灰度中间值进行大小比较;根据比较结果确定预设像素区域中像素点的目标灰度值;将多个预设像素区域合并为第二灰度图像。其中,根据比较结果确定预设像素区域中像素点的目标灰度值具体可以为,若像素点的灰度值小于等于灰度中间值,则将预设像素区域中对应的像素点的灰度值设为预设灰度值;若像素点的灰度值大于灰度中间值,则将灰度值与灰度中间值的差值作为该像素点的灰度值。进一步的,还可以为,若像素点的灰度值小于等于灰度中间值,则对应的像素点保持该灰度值,若像素点的灰度值大于灰度中间值,则将对应的像素点的灰度值设为预设灰度值。其中,该预设灰度值可以为0或1,具体此处不做限定。
205、将第一灰度图像、第二灰度图像以及灰度图像合成待分类恶意软件对应的目标三通道图像。
将第一灰度图像、第二灰度图像以及灰度图像合成待分类恶意软件对应的目标三通道图像。可以理解的是,不同恶意家族合成的目标三通道图像的图像特征具有较为明显的区别,该图像特征可以为图像纹理、图像颜色或图像结构布局,具体此处不做限定。如图4以及图5所示,图4为感染型恶意软件,图5为广告型恶意软件,两种的纹理存在明显的区别。纹理是对图像象素灰度级在空间上分布模式的描述,是图像的区域特征,反映图像中物品的质地,如粗糙度、光滑性、颗粒度、随机性和规范性等。通过纹理分析,可以获得图像中物品的重要描述信息,提取主要特征,区分不同类别。同一恶意家族的恶意软件生成的三通道图像的纹理较为类似。
206、将目标三通道图像的图像特征与目标恶意家族对应的图像特征进行匹配,对待分类恶意软件进行分类。
得到目标三通道图像后,可以将目标三通道图像的图像特征与目标恶意家族对应的图像特征进行匹配,对待分类恶意软件进行分类。具体的,可以将目标三通道图像输入恶意分类模型,提取所述目标三通道图像的图像特征;将图像特征与恶意分类模型中目标恶意家族对应的图像特征进行匹配;若匹配成功,则确定目标三通道图像属于目标恶意家族。可以理解的是,该恶意分类模型可以为k-means聚类算法,可以将属于同一恶意家族的恶意软件对应的三通道图像输入聚类算法中进行训练,在聚类算法中对学习到的图像特征赋予对应的恶意家族标签。当目标三通道图像输入聚类算法后,可以逐一使用多个恶意家族对应的图像特征与目标三通道图像的图像特征进行匹配,以确定目标三通道图像所属的恶意家族,即对目标三通道图像对应的待分类恶意软件进行分类。
本申请实施例还提供了一种恶意软件的分类装置,如图7所示,包括:
获取单元701,用于将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像;
第一构建单元702,用于根据所述灰度图像中像素点的像素熵值构建第一灰度图像;
第二构建单元703,用于根据所述灰度图像中像素点的像素相对大小构建第二灰度图像;
合成单元704,用于将所述第一灰度图像、所述第二灰度图像以及所述灰度图像依次作为三通道图像的三个通道,合成所述待分类恶意软件对应的目标三通道图像;
分类单元705,用于将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类。
本申请实施例还提供了一种恶意软件的分类装置800,如图8所示,本申请实施例的恶意软件的分类装置800可以包括一个或一个以上中央处理器CPU(CPU,centralprocessingunits)801和存储器802,该存储器802中存储有一个或一个以上的应用程序或数据。
其中,存储器802可以是易失性存储或持久存储。存储在存储器802的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器801可以设置为与存储器602通信,在恶意软件的分类装置800上执行存储器802中的一系列指令操作。
恶意软件的分类装置800还可以包括一个或一个以上电源805,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口803,和/或,一个或一个以上操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器801可以执行前述第一方面或第一方面的任一具体方法实施例所执行的操作,具体不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种恶意软件的分类方法,其特征在于,包括:
将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像;
根据所述灰度图像中像素区域的像素熵值构建第一灰度图像;
根据所述灰度图像中像素区域的像素相对大小构建第二灰度图像;
将所述第一灰度图像、所述第二灰度图像以及所述灰度图像依次作为三通道图像的三个通道,合成所述待分类恶意软件对应的目标三通道图像;
将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类,其中,所述恶意分类模型为基于预设恶意家族的恶意软件对应的三通道图像训练而成。
2.根据权利要求1所述的分类方法,其特征在于,所述根据所述灰度图像中像素点的像素熵值构建第一灰度图像包括:
在所述灰度图像的预设像素区域中获取像素点的灰度平均值,并将所述灰度平均值作为所述预设像素区域中像素点的灰度值;
将多个所述预设像素区域合并为所述第一灰度图像。
3.根据权利要求1所述的分类方法,其特征在于,所述根据所述灰度图像中像素点的像素相对大小构建第二灰度图像包括:
在所述灰度图像的预设像素区域中获取像素点的灰度中间值,并将所述预设像素区域中像素点的灰度值与所述灰度中间值进行大小比较;
根据比较结果确定所述预设像素区域中像素点的目标灰度值;
将多个所述预设像素区域合并为所述第二灰度图像。
4.根据权利要求1所述的分类方法,其特征在于,所述将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像包括:
将所述待分类恶意软件对应的二进制文件转换为十六进制字节,且每个十六进制字节作为一个像素点,字节的大小作为像素点的灰度值;
根据所述待分类恶意软件对应的二进制文件中二进制数字的排列情况,对像素点进行排列得到所述待分类恶意软件对应的灰度图像。
5.根据权利要求4所述的分类方法,其特征在于,所述对像素点进行排列得到所述待分类恶意软件对应的灰度图像包括:
在所述待分类恶意软件对应的像素点中删除文件头部分对应的像素点;
将剩余的像素点通过预设图像宽度进行排列得到所述待分类恶意软件对应的灰度图像。
6.根据权利要求1所述的分类方法,其特征在于,所述将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类包括:
将所述目标三通道图像输入所述恶意分类模型,提取所述目标三通道图像的图像特征;
将所述图像特征与所述恶意分类模型中目标恶意家族对应的图像特征进行匹配;
若匹配成功,则确定所述目标三通道图像属于所述目标恶意家族。
7.根据权利要求1所述的分类方法,其特征在于,所述方法还包括:将预设软件输入预先训练的恶意检测模型,检测所述预设软件是否为恶意软件;其中,所述恶意检测模型基于恶意软件的三通道图像训练而成;
若是,则将所述预设软件作为所述待分类恶意软件,并执行将待分类恶意软件对应的二进制文件转换为像素点的步骤。
8.一种恶意软件的分类装置,其特征在于,包括:
获取单元,用于将待分类恶意软件对应的二进制文件转换为像素点,以获取所述待分类恶意软件对应的灰度图像;
第一构建单元,用于根据所述灰度图像中像素点的像素熵值构建第一灰度图像;
第二构建单元,用于根据所述灰度图像中像素点的像素相对大小构建第二灰度图像;
合成单元,用于将所述第一灰度图像、所述第二灰度图像以及所述灰度图像依次作为三通道图像的三个通道,合成所述待分类恶意软件对应的目标三通道图像;
分类单元,用于将所述目标三通道图像输入预先训练完成的恶意分类模型,对所述待分类恶意软件进行分类。
9.一种恶意软件的分类装置,其特征在于,包括:
中央处理器,存储器,输入输出接口,有线或无线网络接口,电源;
所述存储器为短暂存储存储器或持久存储存储器;
所述中央处理器配置为与所述存储器通信,在控制面功能实体上执行所述存储器中的指令操作以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310707371.2A CN116541841A (zh) | 2023-06-14 | 2023-06-14 | 一种恶意软件的分类方法,分类装置以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310707371.2A CN116541841A (zh) | 2023-06-14 | 2023-06-14 | 一种恶意软件的分类方法,分类装置以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541841A true CN116541841A (zh) | 2023-08-04 |
Family
ID=87456197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310707371.2A Pending CN116541841A (zh) | 2023-06-14 | 2023-06-14 | 一种恶意软件的分类方法,分类装置以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541841A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910758A (zh) * | 2023-09-13 | 2023-10-20 | 中移(苏州)软件技术有限公司 | 恶意软件检测方法、装置、电子设备、芯片及存储介质 |
-
2023
- 2023-06-14 CN CN202310707371.2A patent/CN116541841A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116910758A (zh) * | 2023-09-13 | 2023-10-20 | 中移(苏州)软件技术有限公司 | 恶意软件检测方法、装置、电子设备、芯片及存储介质 |
CN116910758B (zh) * | 2023-09-13 | 2023-12-08 | 中移(苏州)软件技术有限公司 | 恶意软件检测方法、装置、电子设备、芯片及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11562585B2 (en) | Systems and methods for image preprocessing | |
Chen | Deep transfer learning for static malware classification | |
CN113159147B (zh) | 基于神经网络的图像识别方法、装置、电子设备 | |
CN110765458A (zh) | 一种基于深度学习的恶意软件检测方法及其装置 | |
CN109829306A (zh) | 一种优化特征提取的恶意软件分类方法 | |
WO2021137946A1 (en) | Forgery detection of face image | |
Chaganti et al. | Image-based malware representation approach with EfficientNet convolutional neural networks for effective malware classification | |
CN112131421A (zh) | 医学图像分类方法、装置、设备及存储介质 | |
JP2010134957A (ja) | パターン認識方法 | |
CN116541841A (zh) | 一种恶意软件的分类方法,分类装置以及存储介质 | |
CN109711442B (zh) | 无监督逐层生成对抗特征表示学习方法 | |
CN113221115B (zh) | 基于协同学习的可视化恶意软件检测方法 | |
CN113194094B (zh) | 一种基于神经网络的异常流量检测方法 | |
CN111241550B (zh) | 基于二进制映射和深度学习的漏洞检测方法 | |
Agarwal et al. | Iris sensor identification in multi-camera environment | |
CN114881698A (zh) | 广告合规审核方法、装置、电子设备及存储介质 | |
Hofmann et al. | Unsupervised segmentation of textured images by pairwise data clustering | |
CN117315377A (zh) | 基于机器视觉的图像处理方法、装置及电子设备 | |
CN108446558B (zh) | 一种基于空间填充曲线的恶意代码可视化分析方法 | |
CN115564970A (zh) | 一种网络攻击追踪溯源方法、系统及可存储介质 | |
CN115292702A (zh) | 一种恶意代码家族的识别方法、装置、设备及存储介质 | |
CN113239356A (zh) | 一种基于混合纹理特征的恶意代码分类方法及装置 | |
CN114743030A (zh) | 图像识别方法、装置、存储介质和计算机设备 | |
CN113920590A (zh) | 活体检测方法、装置、设备及可读存储介质 | |
CN110781812A (zh) | 一种基于机器学习的安检仪自动识别目标物体的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |