CN107169355B - 一种蠕虫同源性分析方法和装置 - Google Patents

一种蠕虫同源性分析方法和装置 Download PDF

Info

Publication number
CN107169355B
CN107169355B CN201710296409.6A CN201710296409A CN107169355B CN 107169355 B CN107169355 B CN 107169355B CN 201710296409 A CN201710296409 A CN 201710296409A CN 107169355 B CN107169355 B CN 107169355B
Authority
CN
China
Prior art keywords
worm
distribution matrix
probability distribution
homology analysis
api
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710296409.6A
Other languages
English (en)
Other versions
CN107169355A (zh
Inventor
薛静锋
王勇
王丽艳
刘振岩
张继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201710296409.6A priority Critical patent/CN107169355B/zh
Publication of CN107169355A publication Critical patent/CN107169355A/zh
Application granted granted Critical
Publication of CN107169355B publication Critical patent/CN107169355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种蠕虫同源性分析方法和装置。该方法包括:从蠕虫样本中提取静态特征和动态特征;动态特征包括:网络行为特征和应用程序编程接口API调用序列;对静态特征和网络行为特征进行预处理,得到蠕虫特征集;以及根据API调用序列构建敏感行为特征库;利用第一同源性分析算法对所述蠕虫特征集进行处理,输出第一概率分布矩阵;利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出第二概率分布矩阵;对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵;根据第三概率分布矩阵,得到同源分析结果。本发明的技术方案,提高了蠕虫同源性分析的效率和准确度。

Description

一种蠕虫同源性分析方法和装置
技术领域
本发明涉及网络信息安全技术领域,特别涉及一种蠕虫同源性分析方法和装置。
背景技术
随着互联网的普及和网络信息技术的日益发展,网民数量的急剧膨胀,致使恶意代码的传播更加便利,这也使得恶意代码的攻击行为所带来的负面影响进一步扩大。蠕虫作为恶意代码的一大家族,其显著特征是具有自我复制和快速传播能力,能够在没有人为干预行为的情况下,通过大量自我复制来实现快速传播,给网络安全乃至国家安全带来的极大的冲击,几乎每一次爆发都会带来巨大的经济损失。此外,随着国际APT(高级持续性威胁)事件的不断曝光升级,对蠕虫等恶意代码的同源性分析也逐渐成为了研究热点,但目前同源性的判定方法效率较低,不适用于大量蠕虫样本的同源性判定,实际应用价值不高。
现有的蠕虫等恶意代码的同源性分析方法主要集中在通过提取蠕虫等恶意代码静态特征和动态特征,通过计算特征距离来衡量样本相似度,再采用分类或聚类等方法来进行蠕虫等恶意代码的同源性分析。这类方法多为解决恶意代码的同源性判定问题,目前尚未提出针对蠕虫这类恶意代码的同源性分析方法。若将现有的同源性分析方法应用到蠕虫的同源性分析领域中,由于现有方法使用的特征覆盖了所有种类恶意代码通用行为结构,未能突出蠕虫在攻击传播过程中独有的特性,大量的无关特征不仅降低了相似性度量的准确性,还导致了特征库数量较为庞大,增加了特征相似度计算的时间复杂度,从而降低了蠕虫同源性分析的效率。此外,现有方法多采取单一的分析方法进行同源性分析,如针对所有已提取的特征,使用相同的方法进行样本相似度的计算,缺乏多样性。
因此,亟需开发对蠕虫进行同源性分析的解决方案。
发明内容
有鉴于此,本发明提供了一种基于蠕虫攻击传播特性的蠕虫同源性分析方法和装置,以解决对蠕虫进行同源性分析的问题。
本发明公开了一种蠕虫同源性分析方法,所述方法包括:
从蠕虫样本中提取静态特征和动态特征;所述动态特征包括:网络行为特征和应用程序编程接口API调用序列;
对静态特征和网络行为进行预处理,得到蠕虫特征集;以及根据API调用序列构建敏感行为特征库;
利用第一同源性分析算法对所述蠕虫特征集进行处理,输出预测各蠕虫样本分属于各家族的第一概率分布矩阵;
利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵;
对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵;
根据第三概率分布矩阵,得到同源分析结果。
进一步地,
所述对静态特征和网络行为特征进行预处理,得到蠕虫特征集包括:
对静态特征和网络行为特征进行特征量化与归一化处理,以及进行特征选择与降维处理,得到蠕虫特征集。
进一步地,
所述根据API调用序列构建敏感行为特征库包括:
根据API调用序列构造频繁模式树;
通过遍历所述频繁模式树得出各蠕虫家族的API调用序列频繁模式;
每条API调用序列的频繁模式构成敏感行为特征库中的一条记录。
进一步地,
所述第一同源性分析算法为随机森林算法;
所述第二同源性分析算法为敏感行为匹配算法;
进一步地,
所述利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵包括:
将所述API调用序列与所述敏感行为特征库进行匹配,计算命中率,再将命中率分布矩阵转换为蠕虫样本分属于各家族的概率分布矩阵,得到所述第二概率分布矩阵。
本发明还公开了一种蠕虫同源性分析装置,所述装置包括:
特征提取单元,用于从蠕虫样本中提取静态特征和动态特征;所述动态特征包括:网络行为特征和应用程序编程接口API调用序列;
特征预处理单元,用于对静态特征和网络行为特征进行预处理,得到蠕虫特征集;以及根据API调用序列构建敏感行为特征库;
第一同源性分析单元,用于利用第一同源性分析算法对所述蠕虫特征集进行处理,输出预测各蠕虫样本分属于各家族的第一概率分布矩阵;
第二同源性分析单元,用于利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵;
第三同源性分析单元,用于对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵;并根据第三概率分布矩阵,得到同源分析结果。
进一步地,
所述特征预处理单元,用于对静态特征和网络行为特征进行特征量化与归一化处理,以及进行特征选择与降维处理,得到蠕虫特征集。
进一步地,
所述特征预处理单元,用于根据API调用序列构造频繁模式树,以及通过遍历所述频繁模式树得出各蠕虫家族的API调用序列频繁模式;其中,每条API调用序列的频繁模式构成敏感行为特征库中的一条记录。
进一步地,
所述第一同源性分析算法为随机森林算法;
所述第二同源性分析算法为敏感行为匹配算法;
进一步地,
第二同源性分析单元,用于将所述API调用序列与所述敏感行为特征库进行匹配,计算命中率,再将命中率分布矩阵转换为蠕虫样本分属于各家族的概率分布矩阵,得到所述第二概率分布矩阵。
本发明实施例的有益效果是:本发明通过降低蠕虫特征库的规模,降低了进行样本相似度计算时的复杂度,同时还改善了样本相似性度量结果准确性,从而提高了蠕虫同源性分析的效率。此外,本发明通过结合随机森林分类算法与敏感行为匹配算法对蠕虫同源性进行分析判定,避免了分析方式的单一性,同时也提高了同源性分析结果的精确度。
附图说明
图1为本发明实施例提供的一种蠕虫同源性分析方法的流程图;
图2为本发明实施例提供的具有自我复制行为的API调用序列图;
图3为本发明实施例提供的API频繁模式树构造的流程图;
图4是本发明实施例提供的随机森林算法的流程图;
图5是本发明实施例提供的同源性分析器的主要工作流程图;
图6是本发明实施例提供的一种蠕虫同源性分析装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1为本发明实施例提供的一种蠕虫同源性分析方法的流程图。如图1所示,该方法包括:
步骤S11,从蠕虫样本中提取静态特征和动态特征。
其中,所述静态特征是指蠕虫的语义结构特征,该部分特征提取自蠕虫样本的反汇编文件,由汇编指令和可执行文件分节名称构成;
所述动态特征包括:网络行为特征和应用程序编程接口API调用序列。其中网络行为特征是从蠕虫运行过程中的网络抓包报告中提取协议名称、目标端口号和报文长度作为有效特征,以三元组<协议名称,目标端口号,报文长度>来进行标记,API调用序列为能够体现蠕虫自我复制行为的敏感API调用序列。
步骤S12,对静态特征和网络行为特征进行预处理,得到蠕虫特征集,以及根据API调用序列构建敏感行为特征库。
其中,所述对静态特征和网络行为特征进行预处理包括特征量化与归一化、特征选择与降维。
特征量化是使用词频-逆文档频率TF-IDF算法对提取到的蠕虫网络行为特征的三元组进行量化处理。归一化是使用均值-方差方法对蠕虫的语义结构特征与量化后的网络行为特征进行特征融合操作后,对合并后的特征进行归一化处理。特征选择使用递归特征消除算法,具体是通过使用一个基模型来进行多轮训练,并在每轮训练后消除若干权值系数的特征,再基于消除后的特征集进行下一轮训练,最终得到目标特征数,可消除总特征的50%;通过使用该方法,能够排除特征集中对样本区分不明显的特征,在保留样本特征发散度的同时还能有效降低特征维度。特征降维使用主成分分析法,具体是以递归特征消除算法输出的特征集合作为算法的输入,其目的是寻找特征分布的最优子空间,降掉那些噪声或冗余数据的维度。
所述根据API调用序列构建敏感行为特征库包括:根据API调用序列构造频繁模式树,通过遍历所述频繁模式树得出各蠕虫家族的API调用序列频繁模式;每条API调用序列的频繁模式构成敏感行为特征库中的一条记录。
根据API调用序列构建敏感行为特征库的核心在于API调用序列频繁模式的挖掘,在本发明中使用频繁模式增长FP-Growth(频繁模式增长)算法对API调用序列频繁模式进行充分挖掘,而频繁模式增长FP-Growth算法的核心在于频繁模式树的构造。
步骤S13,利用第一同源性分析算法对所述蠕虫特征集进行处理,输出预测各蠕虫样本分属于各家族的第一概率分布矩阵。
步骤S14,利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵。
在本发明的一个实施例中,所述第一同源性分析算法为随机森林算法,所述第二同源性分析算法为敏感行为匹配算法。
步骤S15,对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵。
步骤S16,根据第三概率分布矩阵,得到同源分析结果。
在图1所述的方法中,通过降低特征库的数据规模,在提高相似性度量结果准确性的同时降低了计算的复杂度。使用API调用序列频繁模式挖掘的方式,充分利用了蠕虫自我复制的行为特征,提高了蠕虫同源性分析的准确性。并且针对不同的特征采取不同的相似性度量方法,最后再综合不同的相似度度量方法的结果给出最后的度量结果,进而提高了度量的准确性。
在本发明的一个实施例中,步骤S14中所述利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵,具体是:
通过提取待分析蠕虫样本中的API调用序列,将API调用序列与敏感行为特征库中每个家族的频繁模式集进行匹配,计算命中率,再将命中率分布矩阵转换为蠕虫样本分属于各个家族的概率分布矩阵。
所述命中率的计算,是输入每个待匹配蠕虫样本的API调用序列,判断若输入的蠕虫样本命中了敏感行为特征库中的某一条记录,则记为1;反之,记为0,遍历敏感行为特征库中的每张表之后将命中记录加和,加和结果和敏感行为特征库中每张表的总长度的比值即为命中率。其中所述判断输入的蠕虫样本是否命中了敏感行为特征库中的某一条记录,具体是遍历敏感行为特征库中的每张表每一行,若出现某张表中某行的存储内容包含于待匹配蠕虫样本的API调用序列,则判断为输入的蠕虫样本命中了敏感行为特征库中的某一条记录;反之,则判断为没有命中。
通过公式来描述,即命中率的计算公式是:
Figure BDA0001283180110000061
其中函数
Figure BDA0001283180110000062
h是某一蠕虫样本的命中率;x表示待匹配的蠕虫样本的API调用序列,是敏感行为匹配算法的输入;χ(x)表示这个蠕虫样本是否命中敏感行为特征库的表中的其中一条记录;
Figure BDA0001283180110000063
表示频繁模式库中第m张表的第k行,m代表敏感行为特征库中表的数量(即蠕虫家族的类别数);n代表敏感行为特征库中的每张表(即每个蠕虫家族的频繁模式集)的总长度,k的取值范围为[1,n]。算法这一部分的输出是由命中率h构成的命中率分布矩阵H,H表示待匹配蠕虫样本集合命中每个家族频繁模式集的百分比。
所述将命中率分布矩阵转换为蠕虫样本分属于各个家族的概率分布矩阵,具体地,计算命中率矩阵中的某项和该项所在行所有命中率的加和的比值,并且该项所对应的蠕虫样本和家族类别即是蠕虫样本分属于各个家族的概率分布矩阵中所对应的蠕虫样本和家族类别,相应地,该比值即是蠕虫样本分属于各个家族的概率分布矩阵中的某项,对命中率矩阵中的每项进行换算,即得到蠕虫样本分属于各个家族的概率分布矩阵。
通过公式来描述,即将命中率分布矩阵转换为蠕虫样本分属各个家族的概率分布矩阵的转换需满足公式:
Figure BDA0001283180110000071
其中,Pi,j代表第i个样本属于第j个家族的概率;Hi,j代表第i个样本在第j个家族的命中率;m代表概率分布矩阵的列数,即蠕虫家族的类别数;
Figure BDA0001283180110000072
代表概率分布矩阵第i行的求和,即第i个样本命中各个家族的命中率之和。i表示该算法的第i个样本的API序列,j的取值范围为[1,m]。该公式的主要作用是使得每个蠕虫样本属于每个家族的概率之和等于1。
步骤S15中所述对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵,其中,所述权重调整是设置5组实验,分别取权重比例为0、0.25、0.5、0.75和1,进行实验,取实验结果的平均值,通过准确率、精确率、召回率、F值以及算法运行时间对实验结果进行评价,最终确定最佳权重分配比例,最佳权重分配比例为0.5,即随机森林算法输出的第一概率矩阵和敏感行为匹配算法输出的第二概率矩阵的比值为1∶1。
图2为本发明实施例提供的具有自我复制行为的API调用序列图,是对图1中步骤S11所述API调用序列的具体描述,即包括得到系统目录、设置当前目录、发现第一个文件、发现下一个文件、打开文件、书写文件和关闭文件。
图3是本发明实施例提供的API频繁模式树构造的流程图,是对图1中步骤S12所述FP-Growth算法的核心的具体描述,包括以下步骤:
步骤S31:设置最小支持度,即FP-Growth算法的输入阈值。
步骤S32:扫描蠕虫API调用序列集合,统计每个API的支持度。
步骤S33:判断每个API的支持度是否大于最小支持度,若不大于,则运行步骤S34;若大于,则运行步骤S35。
步骤S34:删除API。
步骤S35:根据API支持度逆序排列,得到L,L指将首次计算后的API序列进行筛选与降序排列之后,得到的新的API序列(也称作频繁1项集)。
步骤S36:根据L删除API序列集合中的不频繁项,并对API序列进行重新排列,形成新的API调用序列集合。
步骤S37:将集合中的API调用序列依次插入到频繁模式树分支中。
步骤S38:判断新形成的API调用序列集合中的API调用序列和频繁模式树的分支是否具有相同前缀,若是,则运行步骤S39;若否,则运行步骤S310。
步骤S39:复用节点,节点数加1。
步骤S310:创建新节点。
步骤S311:得到频繁模式树。
图4是本发明实施例提供的随机森林算法的流程图,包括以下步骤:
步骤S41:输入进行过特征选择与降维后的蠕虫特征集。
步骤S42:输出预测每个蠕虫样本的分属于各个家族的概率分布矩阵。
图5是本发明实施例提供的同源性分析器的主要工作流程图,是对图1中步骤S15和步骤S16进行的详细描述,包括以下步骤:
步骤S51:接收第一概率分布矩阵和第二概率分布矩阵,进行权重调整,得到新的家族预测概率分布矩阵:随机森林算法和敏感行为匹配算法输出的预测每个蠕虫样本的分属于各个家族的概率分布矩阵,根据预先设置的权重分配比例进行随机森林算法和敏感行为匹配算法的权重调整,得到新的家族预测概率分布矩阵。
步骤S52:进行逐行依次扫描概率分布矩阵中的概率。
步骤S53:是否是当前行的最大值:判断扫描的每项家族预测概率是否是当前行的最大值,若是,则运行步骤S54;若否,则运行步骤S52.
步骤S54:查看该项所在的列,记录该列所对应的家族类别。
步骤S55:输出同源性分析结果。
图6是本发明实施例提供的一种蠕虫同源性分析装置的示意图。如图6所示,该装置包括:特征提取单元61、特征预处理单元61、第一同源性分析单元63、第二同源性分析单元64和第三同源性分析单元65;
其中,
特征提取单元61,用于从蠕虫样本中提取静态特征和动态特征;所述动态特征包括:网络行为特征和应用程序编程接口API调用序列;
特征预处理单元62,用于对静态特征和网络行为特征进行预处理,得到蠕虫特征集;以及根据API调用序列构建敏感行为特征库;
第一同源性分析单元63,用于利用第一同源性分析算法对所述蠕虫特征集进行处理,输出预测各蠕虫样本分属于各家族的第一概率分布矩阵;
第二同源性分析单元64,用于利用第二同源性分析算法对于所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵;
第三同源性分析单元65,用于对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵;并根据第三概率分布矩阵,得到同源分析结果。
在本发明的一个实施例中,特征预处理单元62,用于对静态特征和网络行为特征进行特征量化与归一化处理,以及进行特征选择与降维处理,得到蠕虫特征集。
在本发明的一个实施例中,所述特征预处理单元62,用于根据API调用序列构造频繁模式树,以及通过遍历所述频繁模式树得出各蠕虫家族的API调用序列频繁模式;其中,每条API调用序列的频繁模式构成敏感行为特征库中的一条记录。
在本发明的一个实施例中,所述第一同源性分析算法为随机森林算法;所述第二同源性分析算法为敏感行为匹配算法。
在本发明的一个实施例中,第二同源性分析单元64,用于将所述API调用序列与所述敏感行为特征库进行匹配,计算命中率,再将命中率分布矩阵转换为蠕虫样本分属于各家族的概率分布矩阵,得到所述第二概率分布矩阵。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可,这里不再复述。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明通过提取蠕虫特征,进行特征预处理,结合两种同源性分析方法对预处理后的蠕虫特征矩阵进行同源性分析后,经过权重调整,进一步分析得到同源性分析结果,降低了蠕虫特征库的规模,降低了进行样本相似度计算时的复杂度,改善了样本相似性度量结果准确性,避免了分析方式的单一性,从而达到提高蠕虫同源性分析的效率和准确度的目的。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种蠕虫同源性分析方法,其特征在于,所述方法包括:
从蠕虫样本中提取静态特征和动态特征;所述动态特征包括:网络行为特征和应用程序编程接口API调用序列;
对静态特征和网络行为特征进行预处理,得到蠕虫特征集;以及根据API调用序列构建敏感行为特征库;
利用第一同源性分析算法对所述蠕虫特征集进行处理,输出预测各蠕虫样本分属于各家族的第一概率分布矩阵;
利用第二同源性分析算法对所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵;
对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵;
根据第三概率分布矩阵,得到同源分析结果。
2.如权利要求1所述的方法,其特征在于,对静态特征和网络行为特征进行预处理,得到蠕虫特征集包括:
对静态特征和网络行为特征进行特征量化与归一化处理,以及进行特征选择与降维处理,得到蠕虫特征集。
3.如权利要求1所述的方法,其特征在于,所述根据API调用序列构建敏感行为特征库包括:
根据API调用序列构造频繁模式树;
通过遍历所述频繁模式树得出各蠕虫家族的API调用序列频繁模式;
每条API调用序列的频繁模式构成敏感行为特征库中的一条记录。
4.如权利要求1所述的方法,其特征在于,
所述第一同源性分析算法为随机森林算法;
所述第二同源性分析算法为敏感行为匹配算法。
5.如权利要求4所述的方法,其特征在于,所述利用第二同源性分析算法对所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵包括:
将所述API调用序列与所述敏感行为特征库进行匹配,计算命中率,再将命中率分布矩阵转换为蠕虫样本分属于各家族的概率分布矩阵,得到所述第二概率分布矩阵。
6.一种蠕虫同源性分析装置,其特征在于,所述装置包括:
特征提取单元,用于从蠕虫样本中提取静态特征和动态特征;所述动态特征包括:网络行为特征和应用程序编程接口API调用序列;
特征预处理单元,用于对静态特征和网络行为特征进行预处理,得到蠕虫特征集;以及根据API调用序列构建敏感行为特征库;
第一同源性分析单元,用于利用第一同源性分析算法对所述蠕虫特征集进行处理,输出预测各蠕虫样本分属于各家族的第一概率分布矩阵;
第二同源性分析单元,用于利用第二同源性分析算法对所述API调用序列和所述敏感行为特征库进行处理,输出预测各蠕虫样本分属于各家族的第二概率分布矩阵;
第三同源性分析单元,用于对第一概率分布矩阵和第二概率分布矩阵进行权重调整,得到第三概率分布矩阵;并根据第三概率分布矩阵,得到同源分析结果。
7.如权利要求6所述的装置,其特征在于,
特征预处理单元,用于对静态特征和网络行为特征进行特征量化与归一化处理,以及进行特征选择与降维处理,得到蠕虫特征集。
8.如权利要求6所述的装置,其特征在于,
所述特征预处理单元,用于根据API调用序列构造频繁模式树,以及通过遍历所述频繁模式树得出各蠕虫家族的API调用序列频繁模式;其中,每条API调用序列的频繁模式构成敏感行为特征库中的一条记录。
9.如权利要求6所述的装置,其特征在于,
所述第一同源性分析算法为随机森林算法;
所述第二同源性分析算法为敏感行为匹配算法。
10.如权利要求9所述的装置,其特征在于,
第二同源性分析单元,用于将所述API调用序列与所述敏感行为特征库进行匹配,计算命中率,再将命中率分布矩阵转换为蠕虫样本分属于各家族的概率分布矩阵,得到所述第二概率分布矩阵。
CN201710296409.6A 2017-04-28 2017-04-28 一种蠕虫同源性分析方法和装置 Active CN107169355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710296409.6A CN107169355B (zh) 2017-04-28 2017-04-28 一种蠕虫同源性分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710296409.6A CN107169355B (zh) 2017-04-28 2017-04-28 一种蠕虫同源性分析方法和装置

Publications (2)

Publication Number Publication Date
CN107169355A CN107169355A (zh) 2017-09-15
CN107169355B true CN107169355B (zh) 2020-05-08

Family

ID=59812934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710296409.6A Active CN107169355B (zh) 2017-04-28 2017-04-28 一种蠕虫同源性分析方法和装置

Country Status (1)

Country Link
CN (1) CN107169355B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710625B (zh) * 2018-03-16 2022-03-22 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN109523296B (zh) * 2018-10-12 2023-10-27 中国平安人寿保险股份有限公司 用户行为概率分析方法及装置、电子设备、存储介质
CN109543410B (zh) * 2018-11-20 2021-05-07 北京理工大学 一种基于语义映射关联的恶意代码检测方法
CN109753800B (zh) * 2019-01-02 2023-04-07 重庆邮电大学 融合频繁项集与随机森林算法的Android恶意应用检测方法及系统
CN110198303A (zh) * 2019-04-26 2019-09-03 北京奇安信科技有限公司 威胁情报的生成方法及装置、存储介质、电子装置
CN112035836B (zh) * 2019-06-04 2023-04-14 四川大学 一种恶意代码家族api序列挖掘方法
CN111737694B (zh) * 2020-05-19 2023-04-25 华南理工大学 一种基于行为树的恶意软件同源性分析方法
CN112651024A (zh) * 2020-12-29 2021-04-13 重庆大学 用于恶意代码检测的方法及装置、设备
CN113761912B (zh) * 2021-08-09 2024-04-16 国家计算机网络与信息安全管理中心 一种对恶意软件归属攻击组织的可解释判定方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034050A (zh) * 2011-01-25 2011-04-27 四川大学 基于虚拟机和敏感Native API调用感知的恶意软件动态检测方法
CN103761475A (zh) * 2013-12-30 2014-04-30 北京奇虎科技有限公司 检测智能终端中恶意代码的方法及装置
CN104391981A (zh) * 2014-12-08 2015-03-04 北京奇虎科技有限公司 一种文本分类方法和装置
CN105550583A (zh) * 2015-12-22 2016-05-04 电子科技大学 基于随机森林分类方法的Android平台恶意应用检测方法
CN106599686A (zh) * 2016-10-12 2017-04-26 四川大学 一种基于tlsh特征表示的恶意软件聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176438B2 (en) * 2015-06-19 2019-01-08 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for data driven malware task identification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102034050A (zh) * 2011-01-25 2011-04-27 四川大学 基于虚拟机和敏感Native API调用感知的恶意软件动态检测方法
CN103761475A (zh) * 2013-12-30 2014-04-30 北京奇虎科技有限公司 检测智能终端中恶意代码的方法及装置
CN104391981A (zh) * 2014-12-08 2015-03-04 北京奇虎科技有限公司 一种文本分类方法和装置
CN105550583A (zh) * 2015-12-22 2016-05-04 电子科技大学 基于随机森林分类方法的Android平台恶意应用检测方法
CN106599686A (zh) * 2016-10-12 2017-04-26 四川大学 一种基于tlsh特征表示的恶意软件聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
How to Automatically Identify the Homology of Different Malware?;Yanchen Qiao 等;《IEEE computer society》;20161231;第929-936页 *
基于动态BP神经网络的恶意代码同源性分析;葛雨玮 等;《小型微型计算机系统》;20161231;第37卷(第11期);第2527-2531页 *
恶意代码同源性分析及家族聚类;钱雨村 等;《计算机工程与应用》;20151231;第51卷(第18期);第76-81页 *

Also Published As

Publication number Publication date
CN107169355A (zh) 2017-09-15

Similar Documents

Publication Publication Date Title
CN107169355B (zh) 一种蠕虫同源性分析方法和装置
Ektefa et al. Intrusion detection using data mining techniques
CN106899440B (zh) 一种面向云计算的网络入侵检测方法及系统
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
CN112395556B (zh) 异常用户检测模型训练方法、异常用户审核方法及装置
CN112905421A (zh) 基于注意力机制的lstm网络的容器异常行为检测方法
CN111314329B (zh) 流量入侵检测系统和方法
CN113221112B (zh) 基于弱相关集成策略的恶意行为识别方法、系统和介质
CN111045847A (zh) 事件审计方法、装置、终端设备以及存储介质
WO2016177069A1 (zh) 一种管理方法、装置、垃圾短信监控系统及计算机存储介质
CN111782644A (zh) 一种基于区块链技术的科研数据管理控制系统及方法
CN109697361A (zh) 一种基于木马特征的木马分类方法
CN113094713A (zh) 一种自适应的主机入侵检测序列特征提取方法及系统
CN112257076B (zh) 一种基于随机探测算法和信息聚合的漏洞检测方法
CN107832611B (zh) 一种动静态特征结合的僵尸程序检测与分类方法
CN112001423B (zh) Apt恶意软件组织的开集识别方法、装置、设备和介质
CN113886821A (zh) 基于孪生网络的恶意进程识别方法、装置、电子设备及存储介质
CN115242487B (zh) 一种基于元行为的apt攻击样本增强及检测方法
CN116319065A (zh) 一种应用于商业运维的威胁态势分析方法和系统
CN111930808B (zh) 一种利用键值匹配模型提高黑名单准确率的方法及系统
CN112651026B (zh) 一种具有业务安全问题的应用版本挖掘方法及装置
CN110197066B (zh) 一种云计算环境下的虚拟机监控方法及监控系统
CN111291376B (zh) 一种基于众包和机器学习的web漏洞验证方法
CN112765606A (zh) 恶意代码同源性分析方法和装置及设备
CN113312619A (zh) 基于小样本学习的恶意进程检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant