CN107895117A

CN107895117A - 恶意代码标注方法和装置

Info

Publication number: CN107895117A
Application number: CN201711227620.9A
Authority: CN
Inventors: 张磊; 刘嘉勇; 陈航; 陈纯; 邹晓波; 方勇
Original assignee: Sichuan Silent Information Technology Co Ltd; Sichuan University
Current assignee: Sichuan Silent Information Technology Co Ltd; Sichuan University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-04-10

Abstract

本发明提供的恶意代码标注方法和装置，涉及信息安全技术领域。其中，所述恶意代码标注方法包括：获取恶意代码的操作码文件和字节码文件；根据所述操作码文件生成文本指纹特征；根据所述操作码文件和字节码文件生成图像指纹特征；结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。通过结合恶意代码的文本指纹特征和图像指纹特征对恶意代码进行标注，可以解决现有技术中因标注特征单一而存在标注的准确性低的问题。

Description

恶意代码标注方法和装置

技术领域

本发明涉及信息安全技术领域，具体而言，涉及一种恶意代码标注方法和装置。

背景技术

随着信息技术的不断发展，应用领域的不断拓展，对信息安全的要求也越来越高。现有技术中，一般是通过对恶意代码进行检测、标注，进而实现对恶意代码的防护。其中，恶意代码的检测面临着的主要问题是需要对数量巨大的可疑文件进行检测。

经发明人研究发现，产生数量巨大的可疑文件的原因主要是恶意代码制造者为了逃避检测，通过模块化的方法使恶意代码具有多样性的特征。现有的对恶意代码进行检测、标注的方法，一般包括动态标注方法和静态标注方法。其中，静态标注方法因标注特征单一而存在标注准确性低的问题。

发明内容

有鉴于此，本发明的目的在于提供一种恶意代码标注方法和装置，以解决现有技术中因标注特征单一而存在标注的准确性低的问题。

为实现上述目的，本发明实施例采用如下技术方案：

一种恶意代码标注方法，包括：

获取恶意代码的操作码文件和字节码文件；

根据所述操作码文件生成文本指纹特征；

根据所述操作码文件和字节码文件生成图像指纹特征；

结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。

在本发明实施例较佳的选择中，在上述恶意代码标注方法中，所述获取恶意代码的操作码文件和字节码文件的步骤包括：

获取恶意代码；

通过反汇编器对所述恶意代码进行反汇编处理，得到所述恶意代码的操作码文件和字节码文件。

在本发明实施例较佳的选择中，在上述恶意代码标注方法中，所述根据所述操作码文件生成文本指纹特征的步骤包括：

获取所述操作码文件中的多个n-gram特征和多个segment特征；

通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序；

按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征，并将获取的n-gram特征和segment特征作为文本指纹特征。

在本发明实施例较佳的选择中，在上述恶意代码标注方法中，所述根据所述操作码文件和字节码文件生成图像指纹特征的步骤包括：

根据所述操作码文件和字节码文件绘制恶意代码图像，所述恶意代码图像包括操作码图像和字节码图像；

分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征，并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。

在本发明实施例较佳的选择中，在上述恶意代码标注方法中，所述结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注的步骤包括：

通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类；

通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类；

通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类；

根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。

在上述基础上，本发明实施例还提供了一种恶意代码标注装置，包括：

文件获取模块，用于获取恶意代码的操作码文件和字节码文件；

文本特征生成模块，用于根据所述操作码文件生成文本指纹特征；

图像特征生成模块，根据所述操作码文件和字节码文件生成图像指纹特征；

恶意代码标注模块，用于结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。

在本发明实施例较佳的选择中，在上述恶意代码标注装置中，所述文件获取模块包括：

恶意代码获取子模块，用于获取恶意代码；

文件获取子模块，用于通过反汇编器对所述恶意代码进行反汇编处理，得到所述恶意代码的操作码文件和字节码文件。

在本发明实施例较佳的选择中，在上述恶意代码标注装置中，所述文本特征生成模块包括：

文件特征获取子模块，用于获取所述操作码文件中的多个n-gram特征和多个segment特征；

特征排序子模块，用于通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序；

文本特征生成子模块，用于按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征，并将获取的n-gram特征和segment特征作为文本指纹特征。

在本发明实施例较佳的选择中，在上述恶意代码标注装置中，所述图像特征生成模块包括：

代码图像绘制子模块，用于根据所述操作码文件和字节码文件绘制恶意代码图像，所述恶意代码图像包括操作码图像和字节码图像；

图像特征生成子模块，用于分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征，并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。

在本发明实施例较佳的选择中，在上述恶意代码标注装置中，所述恶意代码标注模块包括：

第一分类子模块，用于通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类；

第二分类子模块，用于通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类；

第三分类子模块，用于通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类；

恶意代码标注子模块，用于根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。

本发明提供的恶意代码标注方法和装置，通过对恶意代码进行处理得到文本指纹特征和图像指纹特征，并结合文本指纹特征和图像指纹特征对恶意代码进行标注，在保证标注流程简单快速的同时，可以解决现有技术中因标注特征单一而存在标注的准确性低的问题，极大地提高了恶意代码标注方法和装置的可靠性和实用性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例提供的恶意代码标注方法的流程示意图。

图2为图1中步骤S110的流程示意图。

图3为图1中步骤S130的流程示意图。

图4为图1中步骤S150的流程示意图。

图5为图1中步骤S170的流程示意图。

图6为本发明实施例提供的恶意代码标注装置的结构框图。

图标：100-恶意代码标注装置；110-文件获取模块；130-文本特征生成模块；150-图像特征生成模块；170-恶意代码标注模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为只是或暗示相对重要性。

如图1所示，本发明实施例提供了一种恶意代码标注方法，下面将对图1所示的具体流程进行详细阐述。

步骤S110，获取恶意代码的操作码文件和字节码文件。

步骤S130，根据所述操作码文件生成文本指纹特征。

步骤S150，根据所述操作码文件和字节码文件生成图像指纹特征。

步骤S170，结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。

通过上述方法，可以对恶意代码进行处理得到文本指纹特征和图像指纹特征，并结合文本指纹特征和图像指纹特征对恶意代码进行标注，在保证标注流程简单快速的同时，可以解决现有技术中因标注特征单一而存在标注的准确性低的问题。

可选地，在步骤S110中，获取恶意代码的操作码文件和字节码文件的具体流程步骤不受限制，可以根据实际需求进行选择。在本实施例中，结合图2，步骤S110可以包括步骤S111和步骤S113，下面将对图2所示的具体流程进行详细描述。

步骤S111，获取恶意代码。

步骤S113，通过反汇编器对所述恶意代码进行反汇编处理，得到所述恶意代码的操作码文件和字节码文件。

可选地，所述反汇编器的具体类型不受限制，可以根据实际需求进行设置。在本实施例中，所述反汇编器为交互式反汇编器。通过所述交互式反汇编器带命令行参数的方法来获取所述恶意代码的操作码文件和字节码文件。

可选地，在步骤S130中，生成文本指纹特征的具体流程步骤不受限制，可以根据实际需求进行选择。在本实施例中，结合图3，步骤S130可以包括步骤S131、步骤S133和步骤S135，下面将对图3所示的具体流程进行详细描述。

步骤S131，获取所述操作码文件中的多个n-gram特征和多个segment特征。

可选地，所述多个n-gram特征的数量和所述多个segment特征的数量不受限制，可以根据实际需求进行设置。在本实施例中，分别获取71894个n-gram特征和451个segment特征。

步骤S133，通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序。

步骤S135，按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征，并将获取的n-gram特征和segment特征作为文本指纹特征。

可选地，所述预设数量个n-gram特征的具体数量和所述预设数量个segment特征的具体数量不受限制，可以根据实际需求进行设置，例如，可以根据对标注的精度要求进行设置。在本实施例中，按照重要度分别获取500个n-gram特征和100个segment特征。

可选地，在步骤S140中，生成图像指纹特征的具体流程步骤不受限制，可以根据实际需求进行选择。在本实施例中，结合图4，步骤S150可以包括步骤S151和步骤S153，下面将对图4所示的具体流程进行详细描述。

步骤S151，根据所述操作码文件和字节码文件绘制恶意代码图像，所述恶意代码图像包括操作码图像和字节码图像。

在本实施例中，分别对对所述操作码文件和所述字节码文件进行处理并根据恶意代码图像绘制方法进行分别映射为灰度图，得到所述操作码图像和所述字节码图像。

步骤S153，分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征，并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。

在本实施例中，可以通过以下步骤获取所述像素特征：将所述操作图像进行切割操作，并提取其中800个像素作为所述像素特征。

可以通过以下步骤获取所述GIST特征：利用8尺度和8方向的Gabol滤波器组对所述字节码图像进行卷积操作，通过提取该图像中的全局GIST描述子作为所述GIST特征。

可以通过以下步骤获取所述SIFT特征：使用SIFT算法将所述字节码图像划分为4*4的区域，选用4个滤波尺度和8个方向的Gabor滤波器进行卷积，以提取所述字节码图像的局部SIFT特征，并通过BoW模型选取部分所述局部SIFT特征作为所述SIFT特征。

可以通过以下步骤获取所述灰度共生矩阵特征：通过灰度共生矩阵算法从4个角度提取所述字节码图像的纹理特征，并将该特征作为所述灰度共生矩阵特征。

可选地，在步骤S170中，对恶意代码进行标注的具体流程步骤不受限制，可以根据实际需求进行选择。在本实施例中，结合图5，步骤S170可以包括步骤S171、步骤S173、步骤S175以及步骤S177，下面将对图5所示的具体流程进行详细描述。

步骤S171，通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类。

步骤S173，通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类。

步骤S175，通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类。

步骤S177，根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。

考虑到若分别根据所述GIST特征、SIFT特征、文本指纹特征、像素特征以及灰度共生矩阵特征进行分类，会极大地降低恶意代码标注方法的高效性，可以先对所述恶意代码的各特征按照提取的算法、来源以及维度进行组合，并对组合后的特征进行分类。

在本实施例中，考虑到所述GIST特征表现的是图像的全局特征、SIFT特征表现的是图像的局部特征且具有良好的扩展性，将所述GIST特征和SIFT特征进行组合，以实现对所述恶意代码全局和局部的描述，进而提高所述恶意代码标注方法的可靠性。

考虑到所述文本指纹特征和所述像素特征都是基于所述操作码文件产生，因此，在本实施例中，将所述文本指纹特征和所述像素特征进行组合后一并进行分类处理，以提高对恶意代码标注的速度。

考虑到所述灰度共生矩阵特征由于自身维度原因，难以与其它特征进行组合，因此，在本实施例中，可以单独通过所述灰度共生矩阵特征进行分类处理。

可选地，对组合后的或没有组合的各特征进行分类的方式不受限制，可以根据实际需求进行设置。由于所述GIST和所述SIFT特征的组合维度较高，在本实施例中，通过对高维度数据具有较好分类性能的随机森林分类器对组合后的所述GIST和所述SIFT特征进行分类。

进一步地，考虑到所述恶意代码的各个特征对标注该恶意代码具有的不同重要程度，因此，在本实施例中，通过各分类器对各特征进行分类处理后，可以根据分类结果和该分类结果对应的分类器在各分类器所占的权重对该恶意代码进行标注，以提高所述恶意代码标注方法的准确性和可靠性。

结合图6，本发明实施例还提供一种恶意代码标注装置100，包括文件获取模块110、文本特征生成模块130、图像特征生成模块150以及恶意代码标注模块170。

所述文件获取模块110，用于获取恶意代码的操作码文件和字节码文件。在本实施例中，图1的步骤S110可以由所述文件获取模块110执行。

进一步地，在本实施例中，所述文件获取模块110可以包括恶意代码获取子模块和文件获取子模块。所述恶意代码获取子模块，用于获取恶意代码。所述文件获取子模块，用于通过反汇编器对所述恶意代码进行反汇编处理，得到所述恶意代码的操作码文件和字节码文件。

所述文本特征生成模块130，用于根据所述操作码文件生成文本指纹特征。在本实施例中，图1的步骤S130可以由所述文本特征生成模块130执行。

进一步地，在本实施例中，所述文本特征生成模块130可以包括文件特征获取子模块、特征排序子模块以及文本特征生成子模块。所述文件特征获取子模块，用于获取所述操作码文件中的多个n-gram特征和多个segment特征。所述特征排序子模块，用于通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序。所述文本特征生成子模块，用于按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征，并将获取的n-gram特征和segment特征作为文本指纹特征。

所述图像特征生成模块150，根据所述操作码文件和字节码文件生成图像指纹特征。在本实施例中，图1的步骤S150可以由所述图像特征生成模块150执行。

进一步地，在本实施例中，所述图像特征生成模块150可以包括代码图像绘制子模块和图像特征生成子模块。所述代码图像绘制子模块，用于根据所述操作码文件和字节码文件绘制恶意代码图像，所述恶意代码图像包括操作码图像和字节码图像。所述图像特征生成子模块，用于分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征，并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。

所述恶意代码标注模块170，用于结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。在本实施例中，图1的步骤S170可以由所述恶意代码标注模块170执行。

进一步地，在本实施例中，所述恶意代码标注模块170可以包括第一分类子模块、第二分类子模块、第三分类子模块以及恶意代码标注子模块。所述第一分类子模块，用于通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类。所述第二分类子模块，用于通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类。所述第三分类子模块，用于通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类。所述恶意代码标注子模块，用于根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。

综上所述，本发明提供的恶意代码标注方法和装置，通过对恶意代码进行处理得到文本指纹特征和图像指纹特征，并结合文本指纹特征和图像指纹特征对恶意代码进行标注，在保证标注流程简单快速的同时，可以解决现有技术中因标注特征单一而存在标注的准确性低的问题，极大地提高了恶意代码标注方法和装置的可靠性和实用性。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种恶意代码标注方法，其特征在于，所述方法包括：

获取恶意代码的操作码文件和字节码文件；

根据所述操作码文件生成文本指纹特征；

根据所述操作码文件和字节码文件生成图像指纹特征；

2.根据权利要求1所述的恶意代码标注方法，其特征在于，所述获取恶意代码的操作码文件和字节码文件的步骤包括：

获取恶意代码；

3.根据权利要求1或2所述的恶意代码标注方法，其特征在于，所述根据所述操作码文件生成文本指纹特征的步骤包括：

获取所述操作码文件中的多个n-gram特征和多个segment特征；

4.根据权利要求3所述的恶意代码标注方法，其特征在于，所述根据所述操作码文件和字节码文件生成图像指纹特征的步骤包括：

5.根据权利要求4所述的恶意代码标注方法，其特征在于，所述结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注的步骤包括：

通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类；

6.一种恶意代码标注装置，其特征在于，所述装置包括：

7.根据权利要求6所述的恶意代码标注装置，其特征在于，所述文件获取模块包括：

恶意代码获取子模块，用于获取恶意代码；

8.根据权利要求6或7所述的恶意代码标注装置，其特征在于，所述文本特征生成模块包括：

9.根据权利要求8所述的恶意代码标注装置，其特征在于，所述图像特征生成模块包括：

10.根据权利要求9所述的恶意代码标注装置，其特征在于，所述恶意代码标注模块包括：