CN108804922A

CN108804922A - 一种未知代码的属性判断方法

Info

Publication number: CN108804922A
Application number: CN201810539155.0A
Authority: CN
Inventors: 张尧
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-13

Abstract

本发明实施例公开了一种未知代码的属性判断方法，基于相似性哈希算法，具体包括以下方法：搜集不同类别的恶意代码样本；对所搜集的样本进行沙盒分析，生成所搜集样本的API调用序列日志；计算所搜集样本的API调用序列日志的相似性哈希值；对未知样本进行沙盒分析，生成未知样本的API调用序列日志；计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度；实现对未知代码的分析和判定，可视化判断结果。

Description

一种未知代码的属性判断方法

技术领域

本发明涉及系统安全技术领域，具体地说是一种未知代码的属性判断方法。

背景技术

主机安全保护的关键在于对恶意代码攻击的检测与识别能力。现有的恶意代码属性判断，大多通过静态特征码匹配的方式，即使用特征库匹配后的表项标签，对未知样本进行打标。例如，Trojan/Win32.TSGeneric就标记了Windows操作系统下的一类木马软件。然而，特征库的更新速度常常落后于恶意代码爆发式的变异速度，导致对于未知代码的判定具有滞后性和高误判率。此外，不同杀毒软件厂商对同一样本的标记不仅命名格式大相径庭，分类结果也往往不尽相同；同时，随着如WannaCry等混合型攻击的出现，病毒、蠕虫、木马之间的界限已不再明显，单一的恶意代码属性标记很难准确反映或定义代码的整体行为。

发明内容

本发明实施例中提供了一种未知代码的属性判断方法，以解决现有技术对于未知代码的判定具有滞后性和高误判率，单一的恶意代码属性标记很难准确反映或定义代码的整体行为的问题

为了解决上述技术问题，本发明实施例公开了如下技术方案：

一种未知代码的属性判断方法，基于相似性哈希算法，具体包括以下方法：

对未知样本进行沙盒分析，生成未知样本的API调用序列日志；

计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度。

在第一种可能实现的方式中，在上述步骤之前还需要生成未知样本的对照标准值，具体包括以下步骤：

搜集不同类别的恶意代码样本；

对所搜集的样本进行沙盒分析，生成所搜集样本的API调用序列日志；

计算所搜集样本的API调用序列日志的相似性哈希值。

在第二种可能实现的方式中，样本的搜集包括以下方法：

在每种恶意代码下选择典型的样本N个，N为正整数；N值的选取由判断精度的本地策略决定。

在第三种可能实现的方式中，对所搜集的样本进行沙盒分析，生成所搜集样本的API调用序列日志包括以下方法：

使用开源沙盒Cuckoo环境对恶意样本进行批量化分析；

将选定样本上传至配置好的虚拟机中运行，得到样本的行为数据，样本的行为数据即API调用序列日志。

在第四种可能实现的方式中，对未知样本进行沙盒分析，生成未知样本的API调用序列日志包括以下方法：

对于选定的未知代码程序，上传至Cuckoo沙盒进行行为分析，得到未知样本的API调用序列日志。

在第五种可能实现的方式中，计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度包括以下方法：

对未知样本的行为日志文件，计算其哈希值Hash_未；

比较Hash_未与所搜集样本的API调用序列日志哈希值的相似度，得到相似度分数M，M介于0与100之间；

对于每一类恶意代码，便可以得到相似度分数M₁，M₂，…,M_N；

计算未知代码与该类恶意代码的平均相似程度A＝(M₁+M₂+…+M_N)/N。

在第六种可能实现的方式中，所述相似度分数M为0表示Hash_未与所搜集样本的API调用序列日志哈希值完全不同；

相似度分数M为100表示Hash_未与所搜集样本的API调用序列日志哈希值完全相同。

在第七种可能实现的方式中，还包括根据预设的两类威胁门限值T1、T2进行对未知样本的分析和判定，具体包括以下方法：

平均相似度低于第一类门限值T1的未知代码视作正常，平均相似度介于第一类门限值T1和第二类门限值T2之间的未知代码视作可疑，平均相似度高于第二类门限值T2的未知代码视作高危。

在第八种可能实现的方式中，还包括可视化判断结果，具体包括以下方法：以恶意代码的类别为极坐标系极轴方向，均匀划分整个二维极坐标平面，使用雷达图的方式呈现对未知代码属性判断的结果，各个极轴方向上的极径长度即为每个类别下的平均相似度分数。

由以上技术方案可见，本发明通过相似性哈希算法的未知代码属性判断方法，可以有效、快速、准确地识别和判定在主机中运行的未知代码，具有多重恶意属性的蠕虫、木马、勒索病毒等均可检测，显著提升了终端主机系统的安全性和对潜在威胁的感知能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种未知代码的属性判断方法的流程示意图；

图2为本发明实施例计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度的方法流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，一种未知代码的属性判断方法，基于相似性哈希算法，具体包括以下方法：

S1、搜集不同类别的恶意代码样本；

S2、对所搜集的样本进行沙盒分析，生成所搜集样本的API调用序列日志；

S3、计算所搜集样本的API调用序列日志的相似性哈希值；

S4、对未知样本进行沙盒分析，生成未知样本的API调用序列日志；

S5、计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度；

S6、实现对未知代码的分析和判定，可视化判断结果。

恶意代码包括勒索病毒、木马/僵尸软件、蠕虫、银行账号窃取软件、广告软件、间谍软件、钓鱼软件、漏洞利用提权软件、沙盒逃逸软件。

S1中样本的搜集包括以下方法：

在每种恶意代码下选择典型的样本N个，N为正整数；

N值的选取由判断精度的本地策略决定，N值越大，可以更准确地描述特定的恶意代码类别。

S2中对所搜集的样本进行沙盒分析，生成所搜集样本的API调用序列日志包括以下方法：

使用开源沙盒Cuckoo环境对恶意样本进行批量化分析；

S3中计算API调用序列日志的相似性哈希值包括以下方法：

使用相似性摘要哈希算法sdhash，对API调用序列日志进行哈希值的计算，并存储哈希值于本地

S4中对未知样本进行沙盒分析，生成未知样本的API调用序列日志包括以下方法：

如图2所示，S5中计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度包括以下方法：

S51、对未知样本的行为日志文件，使用sdhash计算其哈希值Hash_未；

S52、根据sdhash算法，比较Hash_未与所搜集样本的API调用序列日志哈希值的相似度，得到一个得到介于0与100之间的相似度分数M；

S53、对于每一类恶意代码，便可以得到相似度分数M₁，M₂，…,M_N；

S54、进一步计算未知代码与该类恶意代码的平均相似程度A＝(M₁+M₂+…+M_N)/N。

相似度分数M为0表示Hash_未与所搜集样本的API调用序列日志哈希值完全不同；相似度分数M为100表示Hash未与所搜集样本的API调用序列日志哈希值完全相同。

S6中实现对未知代码的分析和判定包括以下方法：

根据预设的两类威胁门限值T1、T2；

低于第一类门限值T1的平均相似度视作正常，介于第一类门限值T1和第二类门限值T2之间的相似度视作可疑，高于第二类门限值T2的相似度视作高危。

不同级别的相似度显示不同的颜色，如：对于正常级别的相似度，相应的类别名称显示为绿色；对于可疑级别的相似度，相应的类别名称显示为橙色；而对于可疑级别的相似度，相应的类别名称显示为红色。

可视化判断结果包括以下方法：以恶意代码的类别为极坐标系极轴方向，均匀划分整个二维极坐标平面，使用雷达图的方式呈现对未知代码属性判断的结果，各个极轴方向上的极径长度即为每个类别下的平均相似度分数。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种未知代码的属性判断方法，其特征是，基于相似性哈希算法，具体包括以下方法：

2.根据权利要求1所述的方法，其特征是，在上述步骤之前还需要生成未知样本的对照标准值，具体包括以下步骤：

搜集不同类别的恶意代码样本；

计算所搜集样本的API调用序列日志的相似性哈希值。

3.根据权利要求2所述的方法，其特征是，样本的搜集包括以下方法：

4.根据权利要求2所述的方法，其特征是，对所搜集的样本进行沙盒分析，生成所搜集样本的API调用序列日志包括以下方法：

使用开源沙盒Cuckoo环境对恶意样本进行批量化分析；

5.根据权利要求1所述的方法，其特征是，对未知样本进行沙盒分析，生成未知样本的API调用序列日志包括以下方法：

6.根据权利要求1所述的方法，其特征是，计算未知样本的API调用序列日志的相似性哈希值，量化与各类恶意代码的平均相似程度包括以下方法：

对未知样本的行为日志文件，计算其哈希值Hash_未；

7.根据权利要求6所述的方法，其特征是，所述相似度分数M为0表示Hash_未与所搜集样本的API调用序列日志哈希值完全不同；

8.根据权利要求1所述的方法，其特征是，还包括根据预设的两类威胁门限值T1、T2进行对未知样本的分析和判定，具体包括以下方法：

9.根据权利要求8所述的方法，其特征是，还包括可视化判断结果，具体包括以下方法：以恶意代码的类别为极坐标系极轴方向，均匀划分整个二维极坐标平面，使用雷达图的方式呈现对未知代码属性判断的结果，各个极轴方向上的极径长度即为每个类别下的平均相似度分数。