CN107895117A - 恶意代码标注方法和装置 - Google Patents

恶意代码标注方法和装置 Download PDF

Info

Publication number
CN107895117A
CN107895117A CN201711227620.9A CN201711227620A CN107895117A CN 107895117 A CN107895117 A CN 107895117A CN 201711227620 A CN201711227620 A CN 201711227620A CN 107895117 A CN107895117 A CN 107895117A
Authority
CN
China
Prior art keywords
feature
code
malicious code
image
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711227620.9A
Other languages
English (en)
Inventor
张磊
刘嘉勇
陈航
陈纯
邹晓波
方勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Silent Information Technology Co Ltd
Sichuan University
Original Assignee
Sichuan Silent Information Technology Co Ltd
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Silent Information Technology Co Ltd, Sichuan University filed Critical Sichuan Silent Information Technology Co Ltd
Priority to CN201711227620.9A priority Critical patent/CN107895117A/zh
Publication of CN107895117A publication Critical patent/CN107895117A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明提供的恶意代码标注方法和装置,涉及信息安全技术领域。其中,所述恶意代码标注方法包括:获取恶意代码的操作码文件和字节码文件;根据所述操作码文件生成文本指纹特征;根据所述操作码文件和字节码文件生成图像指纹特征;结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。通过结合恶意代码的文本指纹特征和图像指纹特征对恶意代码进行标注,可以解决现有技术中因标注特征单一而存在标注的准确性低的问题。

Description

恶意代码标注方法和装置
技术领域
本发明涉及信息安全技术领域,具体而言,涉及一种恶意代码标注方法和装置。
背景技术
随着信息技术的不断发展,应用领域的不断拓展,对信息安全的要求也越来越高。现有技术中,一般是通过对恶意代码进行检测、标注,进而实现对恶意代码的防护。其中,恶意代码的检测面临着的主要问题是需要对数量巨大的可疑文件进行检测。
经发明人研究发现,产生数量巨大的可疑文件的原因主要是恶意代码制造者为了逃避检测,通过模块化的方法使恶意代码具有多样性的特征。现有的对恶意代码进行检测、标注的方法,一般包括动态标注方法和静态标注方法。其中,静态标注方法因标注特征单一而存在标注准确性低的问题。
发明内容
有鉴于此,本发明的目的在于提供一种恶意代码标注方法和装置,以解决现有技术中因标注特征单一而存在标注的准确性低的问题。
为实现上述目的,本发明实施例采用如下技术方案:
一种恶意代码标注方法,包括:
获取恶意代码的操作码文件和字节码文件;
根据所述操作码文件生成文本指纹特征;
根据所述操作码文件和字节码文件生成图像指纹特征;
结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。
在本发明实施例较佳的选择中,在上述恶意代码标注方法中,所述获取恶意代码的操作码文件和字节码文件的步骤包括:
获取恶意代码;
通过反汇编器对所述恶意代码进行反汇编处理,得到所述恶意代码的操作码文件和字节码文件。
在本发明实施例较佳的选择中,在上述恶意代码标注方法中,所述根据所述操作码文件生成文本指纹特征的步骤包括:
获取所述操作码文件中的多个n-gram特征和多个segment特征;
通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序;
按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征,并将获取的n-gram特征和segment特征作为文本指纹特征。
在本发明实施例较佳的选择中,在上述恶意代码标注方法中,所述根据所述操作码文件和字节码文件生成图像指纹特征的步骤包括:
根据所述操作码文件和字节码文件绘制恶意代码图像,所述恶意代码图像包括操作码图像和字节码图像;
分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征,并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。
在本发明实施例较佳的选择中,在上述恶意代码标注方法中,所述结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注的步骤包括:
通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类;
通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类;
通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类;
根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。
在上述基础上,本发明实施例还提供了一种恶意代码标注装置,包括:
文件获取模块,用于获取恶意代码的操作码文件和字节码文件;
文本特征生成模块,用于根据所述操作码文件生成文本指纹特征;
图像特征生成模块,根据所述操作码文件和字节码文件生成图像指纹特征;
恶意代码标注模块,用于结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。
在本发明实施例较佳的选择中,在上述恶意代码标注装置中,所述文件获取模块包括:
恶意代码获取子模块,用于获取恶意代码;
文件获取子模块,用于通过反汇编器对所述恶意代码进行反汇编处理,得到所述恶意代码的操作码文件和字节码文件。
在本发明实施例较佳的选择中,在上述恶意代码标注装置中,所述文本特征生成模块包括:
文件特征获取子模块,用于获取所述操作码文件中的多个n-gram特征和多个segment特征;
特征排序子模块,用于通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序;
文本特征生成子模块,用于按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征,并将获取的n-gram特征和segment特征作为文本指纹特征。
在本发明实施例较佳的选择中,在上述恶意代码标注装置中,所述图像特征生成模块包括:
代码图像绘制子模块,用于根据所述操作码文件和字节码文件绘制恶意代码图像,所述恶意代码图像包括操作码图像和字节码图像;
图像特征生成子模块,用于分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征,并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。
在本发明实施例较佳的选择中,在上述恶意代码标注装置中,所述恶意代码标注模块包括:
第一分类子模块,用于通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类;
第二分类子模块,用于通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类;
第三分类子模块,用于通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类;
恶意代码标注子模块,用于根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。
本发明提供的恶意代码标注方法和装置,通过对恶意代码进行处理得到文本指纹特征和图像指纹特征,并结合文本指纹特征和图像指纹特征对恶意代码进行标注,在保证标注流程简单快速的同时,可以解决现有技术中因标注特征单一而存在标注的准确性低的问题,极大地提高了恶意代码标注方法和装置的可靠性和实用性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
图1为本发明实施例提供的恶意代码标注方法的流程示意图。
图2为图1中步骤S110的流程示意图。
图3为图1中步骤S130的流程示意图。
图4为图1中步骤S150的流程示意图。
图5为图1中步骤S170的流程示意图。
图6为本发明实施例提供的恶意代码标注装置的结构框图。
图标:100-恶意代码标注装置;110-文件获取模块;130-文本特征生成模块;150-图像特征生成模块;170-恶意代码标注模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为只是或暗示相对重要性。
如图1所示,本发明实施例提供了一种恶意代码标注方法,下面将对图1所示的具体流程进行详细阐述。
步骤S110,获取恶意代码的操作码文件和字节码文件。
步骤S130,根据所述操作码文件生成文本指纹特征。
步骤S150,根据所述操作码文件和字节码文件生成图像指纹特征。
步骤S170,结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。
通过上述方法,可以对恶意代码进行处理得到文本指纹特征和图像指纹特征,并结合文本指纹特征和图像指纹特征对恶意代码进行标注,在保证标注流程简单快速的同时,可以解决现有技术中因标注特征单一而存在标注的准确性低的问题。
可选地,在步骤S110中,获取恶意代码的操作码文件和字节码文件的具体流程步骤不受限制,可以根据实际需求进行选择。在本实施例中,结合图2,步骤S110可以包括步骤S111和步骤S113,下面将对图2所示的具体流程进行详细描述。
步骤S111,获取恶意代码。
步骤S113,通过反汇编器对所述恶意代码进行反汇编处理,得到所述恶意代码的操作码文件和字节码文件。
可选地,所述反汇编器的具体类型不受限制,可以根据实际需求进行设置。在本实施例中,所述反汇编器为交互式反汇编器。通过所述交互式反汇编器带命令行参数的方法来获取所述恶意代码的操作码文件和字节码文件。
可选地,在步骤S130中,生成文本指纹特征的具体流程步骤不受限制,可以根据实际需求进行选择。在本实施例中,结合图3,步骤S130可以包括步骤S131、步骤S133和步骤S135,下面将对图3所示的具体流程进行详细描述。
步骤S131,获取所述操作码文件中的多个n-gram特征和多个segment特征。
可选地,所述多个n-gram特征的数量和所述多个segment特征的数量不受限制,可以根据实际需求进行设置。在本实施例中,分别获取71894个n-gram特征和451个segment特征。
步骤S133,通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序。
步骤S135,按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征,并将获取的n-gram特征和segment特征作为文本指纹特征。
可选地,所述预设数量个n-gram特征的具体数量和所述预设数量个segment特征的具体数量不受限制,可以根据实际需求进行设置,例如,可以根据对标注的精度要求进行设置。在本实施例中,按照重要度分别获取500个n-gram特征和100个segment特征。
可选地,在步骤S140中,生成图像指纹特征的具体流程步骤不受限制,可以根据实际需求进行选择。在本实施例中,结合图4,步骤S150可以包括步骤S151和步骤S153,下面将对图4所示的具体流程进行详细描述。
步骤S151,根据所述操作码文件和字节码文件绘制恶意代码图像,所述恶意代码图像包括操作码图像和字节码图像。
在本实施例中,分别对对所述操作码文件和所述字节码文件进行处理并根据恶意代码图像绘制方法进行分别映射为灰度图,得到所述操作码图像和所述字节码图像。
步骤S153,分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征,并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。
在本实施例中,可以通过以下步骤获取所述像素特征:将所述操作图像进行切割操作,并提取其中800个像素作为所述像素特征。
可以通过以下步骤获取所述GIST特征:利用8尺度和8方向的Gabol滤波器组对所述字节码图像进行卷积操作,通过提取该图像中的全局GIST描述子作为所述GIST特征。
可以通过以下步骤获取所述SIFT特征:使用SIFT算法将所述字节码图像划分为4*4的区域,选用4个滤波尺度和8个方向的Gabor滤波器进行卷积,以提取所述字节码图像的局部SIFT特征,并通过BoW模型选取部分所述局部SIFT特征作为所述SIFT特征。
可以通过以下步骤获取所述灰度共生矩阵特征:通过灰度共生矩阵算法从4个角度提取所述字节码图像的纹理特征,并将该特征作为所述灰度共生矩阵特征。
可选地,在步骤S170中,对恶意代码进行标注的具体流程步骤不受限制,可以根据实际需求进行选择。在本实施例中,结合图5,步骤S170可以包括步骤S171、步骤S173、步骤S175以及步骤S177,下面将对图5所示的具体流程进行详细描述。
步骤S171,通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类。
步骤S173,通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类。
步骤S175,通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类。
步骤S177,根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。
考虑到若分别根据所述GIST特征、SIFT特征、文本指纹特征、像素特征以及灰度共生矩阵特征进行分类,会极大地降低恶意代码标注方法的高效性,可以先对所述恶意代码的各特征按照提取的算法、来源以及维度进行组合,并对组合后的特征进行分类。
在本实施例中,考虑到所述GIST特征表现的是图像的全局特征、SIFT特征表现的是图像的局部特征且具有良好的扩展性,将所述GIST特征和SIFT特征进行组合,以实现对所述恶意代码全局和局部的描述,进而提高所述恶意代码标注方法的可靠性。
考虑到所述文本指纹特征和所述像素特征都是基于所述操作码文件产生,因此,在本实施例中,将所述文本指纹特征和所述像素特征进行组合后一并进行分类处理,以提高对恶意代码标注的速度。
考虑到所述灰度共生矩阵特征由于自身维度原因,难以与其它特征进行组合,因此,在本实施例中,可以单独通过所述灰度共生矩阵特征进行分类处理。
可选地,对组合后的或没有组合的各特征进行分类的方式不受限制,可以根据实际需求进行设置。由于所述GIST和所述SIFT特征的组合维度较高,在本实施例中,通过对高维度数据具有较好分类性能的随机森林分类器对组合后的所述GIST和所述SIFT特征进行分类。
进一步地,考虑到所述恶意代码的各个特征对标注该恶意代码具有的不同重要程度,因此,在本实施例中,通过各分类器对各特征进行分类处理后,可以根据分类结果和该分类结果对应的分类器在各分类器所占的权重对该恶意代码进行标注,以提高所述恶意代码标注方法的准确性和可靠性。
结合图6,本发明实施例还提供一种恶意代码标注装置100,包括文件获取模块110、文本特征生成模块130、图像特征生成模块150以及恶意代码标注模块170。
所述文件获取模块110,用于获取恶意代码的操作码文件和字节码文件。在本实施例中,图1的步骤S110可以由所述文件获取模块110执行。
进一步地,在本实施例中,所述文件获取模块110可以包括恶意代码获取子模块和文件获取子模块。所述恶意代码获取子模块,用于获取恶意代码。所述文件获取子模块,用于通过反汇编器对所述恶意代码进行反汇编处理,得到所述恶意代码的操作码文件和字节码文件。
所述文本特征生成模块130,用于根据所述操作码文件生成文本指纹特征。在本实施例中,图1的步骤S130可以由所述文本特征生成模块130执行。
进一步地,在本实施例中,所述文本特征生成模块130可以包括文件特征获取子模块、特征排序子模块以及文本特征生成子模块。所述文件特征获取子模块,用于获取所述操作码文件中的多个n-gram特征和多个segment特征。所述特征排序子模块,用于通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序。所述文本特征生成子模块,用于按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征,并将获取的n-gram特征和segment特征作为文本指纹特征。
所述图像特征生成模块150,根据所述操作码文件和字节码文件生成图像指纹特征。在本实施例中,图1的步骤S150可以由所述图像特征生成模块150执行。
进一步地,在本实施例中,所述图像特征生成模块150可以包括代码图像绘制子模块和图像特征生成子模块。所述代码图像绘制子模块,用于根据所述操作码文件和字节码文件绘制恶意代码图像,所述恶意代码图像包括操作码图像和字节码图像。所述图像特征生成子模块,用于分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征,并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。
所述恶意代码标注模块170,用于结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。在本实施例中,图1的步骤S170可以由所述恶意代码标注模块170执行。
进一步地,在本实施例中,所述恶意代码标注模块170可以包括第一分类子模块、第二分类子模块、第三分类子模块以及恶意代码标注子模块。所述第一分类子模块,用于通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类。所述第二分类子模块,用于通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类。所述第三分类子模块,用于通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类。所述恶意代码标注子模块,用于根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。
综上所述,本发明提供的恶意代码标注方法和装置,通过对恶意代码进行处理得到文本指纹特征和图像指纹特征,并结合文本指纹特征和图像指纹特征对恶意代码进行标注,在保证标注流程简单快速的同时,可以解决现有技术中因标注特征单一而存在标注的准确性低的问题,极大地提高了恶意代码标注方法和装置的可靠性和实用性。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种恶意代码标注方法,其特征在于,所述方法包括:
获取恶意代码的操作码文件和字节码文件;
根据所述操作码文件生成文本指纹特征;
根据所述操作码文件和字节码文件生成图像指纹特征;
结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。
2.根据权利要求1所述的恶意代码标注方法,其特征在于,所述获取恶意代码的操作码文件和字节码文件的步骤包括:
获取恶意代码;
通过反汇编器对所述恶意代码进行反汇编处理,得到所述恶意代码的操作码文件和字节码文件。
3.根据权利要求1或2所述的恶意代码标注方法,其特征在于,所述根据所述操作码文件生成文本指纹特征的步骤包括:
获取所述操作码文件中的多个n-gram特征和多个segment特征;
通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序;
按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征,并将获取的n-gram特征和segment特征作为文本指纹特征。
4.根据权利要求3所述的恶意代码标注方法,其特征在于,所述根据所述操作码文件和字节码文件生成图像指纹特征的步骤包括:
根据所述操作码文件和字节码文件绘制恶意代码图像,所述恶意代码图像包括操作码图像和字节码图像;
分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征,并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。
5.根据权利要求4所述的恶意代码标注方法,其特征在于,所述结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注的步骤包括:
通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类;
通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类;
通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类;
根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。
6.一种恶意代码标注装置,其特征在于,所述装置包括:
文件获取模块,用于获取恶意代码的操作码文件和字节码文件;
文本特征生成模块,用于根据所述操作码文件生成文本指纹特征;
图像特征生成模块,根据所述操作码文件和字节码文件生成图像指纹特征;
恶意代码标注模块,用于结合所述文本指纹特征和所述图像指纹特征对所述恶意代码进行标注。
7.根据权利要求6所述的恶意代码标注装置,其特征在于,所述文件获取模块包括:
恶意代码获取子模块,用于获取恶意代码;
文件获取子模块,用于通过反汇编器对所述恶意代码进行反汇编处理,得到所述恶意代码的操作码文件和字节码文件。
8.根据权利要求6或7所述的恶意代码标注装置,其特征在于,所述文本特征生成模块包括:
文件特征获取子模块,用于获取所述操作码文件中的多个n-gram特征和多个segment特征;
特征排序子模块,用于通过随机森林算法分别对所述多个n-gram特征和所述多个segment特征按照重要度进行排序;
文本特征生成子模块,用于按照重要度分别获取预设数量个n-gram特征和预设数量个segment特征,并将获取的n-gram特征和segment特征作为文本指纹特征。
9.根据权利要求8所述的恶意代码标注装置,其特征在于,所述图像特征生成模块包括:
代码图像绘制子模块,用于根据所述操作码文件和字节码文件绘制恶意代码图像,所述恶意代码图像包括操作码图像和字节码图像;
图像特征生成子模块,用于分别获取所述操作码图像中的像素特征以及所述字节码图像中的GIST特征、SIFT特征和灰度共生矩阵特征,并将获取的像素特征、GIST特征、SIFT特征和灰度共生矩阵特征作为图像指纹特征。
10.根据权利要求9所述的恶意代码标注装置,其特征在于,所述恶意代码标注模块包括:
第一分类子模块,用于通过随机森林分类器对组合后的GIST特征和SIFT特征进行分类;
第二分类子模块,用于通过Xgboost分类器对组合后的文本指纹特征和像素特征进行分类;
第三分类子模块,用于通过OVRSVMs分类器对所述灰度共生矩阵特征进行分类;
恶意代码标注子模块,用于根据各分类器的分类结果以及该分类器在各分类器中的权重对所述恶意代码进行标注。
CN201711227620.9A 2017-11-29 2017-11-29 恶意代码标注方法和装置 Pending CN107895117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711227620.9A CN107895117A (zh) 2017-11-29 2017-11-29 恶意代码标注方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711227620.9A CN107895117A (zh) 2017-11-29 2017-11-29 恶意代码标注方法和装置

Publications (1)

Publication Number Publication Date
CN107895117A true CN107895117A (zh) 2018-04-10

Family

ID=61806681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711227620.9A Pending CN107895117A (zh) 2017-11-29 2017-11-29 恶意代码标注方法和装置

Country Status (1)

Country Link
CN (1) CN107895117A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563952A (zh) * 2018-04-24 2018-09-21 腾讯科技(深圳)有限公司 文件的病毒检测方法、装置及存储介质
CN109190371A (zh) * 2018-07-09 2019-01-11 四川大学 一种基于行为图的Android恶意软件检测方法和技术
CN109492692A (zh) * 2018-11-07 2019-03-19 北京知道创宇信息技术有限公司 一种网页后门检测方法、装置、电子设备及存储介质
CN109784050A (zh) * 2018-12-28 2019-05-21 深圳竹云科技有限公司 一种基于多特征的恶意代码家族静态标注方法
WO2020047782A1 (zh) * 2018-09-05 2020-03-12 西门子股份公司 恶意代码扫描方法、系统、计算机设备、存储介质及程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150303A (zh) * 2013-03-08 2013-06-12 北京理工大学 汉语语义格分层识别方法
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN106096411A (zh) * 2016-06-08 2016-11-09 浙江工业大学 一种基于字节码图像聚类的Android恶意代码家族分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150303A (zh) * 2013-03-08 2013-06-12 北京理工大学 汉语语义格分层识别方法
CN105138913A (zh) * 2015-07-24 2015-12-09 四川大学 一种基于多视集成学习的恶意软件检测方法
CN106096411A (zh) * 2016-06-08 2016-11-09 浙江工业大学 一种基于字节码图像聚类的Android恶意代码家族分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563952A (zh) * 2018-04-24 2018-09-21 腾讯科技(深圳)有限公司 文件的病毒检测方法、装置及存储介质
CN108563952B (zh) * 2018-04-24 2023-03-21 腾讯科技(深圳)有限公司 文件的病毒检测方法、装置及存储介质
CN109190371A (zh) * 2018-07-09 2019-01-11 四川大学 一种基于行为图的Android恶意软件检测方法和技术
WO2020047782A1 (zh) * 2018-09-05 2020-03-12 西门子股份公司 恶意代码扫描方法、系统、计算机设备、存储介质及程序
CN109492692A (zh) * 2018-11-07 2019-03-19 北京知道创宇信息技术有限公司 一种网页后门检测方法、装置、电子设备及存储介质
CN109784050A (zh) * 2018-12-28 2019-05-21 深圳竹云科技有限公司 一种基于多特征的恶意代码家族静态标注方法

Similar Documents

Publication Publication Date Title
CN107895117A (zh) 恶意代码标注方法和装置
CN104517112B (zh) 一种表格识别方法与系统
Harouni et al. Online Persian/Arabic script classification without contextual information
CN111095296A (zh) 使用机器学习对字符串进行分类
AU2009281901B2 (en) Segmenting printed media pages into articles
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
RU2760471C1 (ru) Способы и системы идентификации полей в документе
US9298685B2 (en) Automatic creation of multiple rows in a table
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN112883926B (zh) 表格类医疗影像的识别方法及装置
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
Mishchenko et al. Chart image understanding and numerical data extraction
CN112860905A (zh) 文本信息抽取方法、装置、设备及可读存储介质
Bajić et al. Chart classification using simplified VGG model
JP2019079347A (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN114708461A (zh) 基于多模态学习模型的分类方法、装置、设备及存储介质
CN114138784A (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
CN114218391A (zh) 一种基于深度学习技术的敏感信息识别方法
CN110837568A (zh) 实体对齐方法及装置、电子设备、存储介质
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN110738050A (zh) 基于分词和命名实体识别的文本重组方法及装置、介质
Aggarwal et al. Zernike moments-based Gurumukhi character recognition
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
Lee et al. Deep learning-based digitalization of a part catalog book to generate part specification by a neutral reference data dictionary

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180410