CN109460386B

CN109460386B - 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置

Info

Publication number: CN109460386B
Application number: CN201811272132.4A
Authority: CN
Inventors: 吕杰; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-01-22
Anticipated expiration: 2038-10-29
Also published as: CN109460386A

Abstract

本发明提供了一种基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置，能够在短时间内对大量的未知恶意文件样本进行同源性分析，通过对已经识别归类家族的文件进行多维度的模糊哈希特殊索引，在出现未知文件时，提取各维度的模糊哈希进行索引搜索，快速定位到相似度最高的分类家族，实现恶意文件同源性快速自动化分析。

Description

基于多维模糊哈希匹配的恶意文件同源性分析方法及装置

技术领域

本发明涉及信息安全技术领域，具体而言，涉及一种基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置。

背景技术

随着互联网的发展，网络上的威胁层出不穷，更是朝着隐蔽性更强范围更广的趋势发展。新出现的未知恶意样本不计其数，对大量的样本进行识别和分类工作就变得越来越繁复。传统特征库的方式是通过对各个分类家族的恶意文件进行特征提取，识别时将文件与特征进行匹配。这类方式通常识别精确，但随着恶意文件的特征越来越多，同时也将消耗大量的用户计算资源。云查杀是将检测对象的信息通过网络传输到云检测服务器上，来减轻用户负担。云查杀方式同时也能做到特征库的快速实时更新。特征检测方式虽是现阶段的恶意文件检测的主流，但是同样也存在自身的缺陷，比如错误的特征提取、容易规避、需要人工选取等。

同时，现有的一些匹配技术方案存在以下缺点：

1)文件进行匹配时将对服务端所有已存文件模糊哈希进行匹配，这类逐个匹配的方式是十分耗时的，也会极大占用机器计算资源。基本已经判定无法在实际中得到应用。

2)单纯仅从文件的模糊哈希入手来进行匹配，无法得到精确的结果。单一维度限定了匹配的精确度，样本中存在文件结构相似但是实际内部特殊结构大相径庭的情况。特别是很多相同编译器编译的文件，文件结构非常相似。

发明内容

针对上述现有技术中存在的问题，本发明提供了一种基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置。

第一方面，本发明实施例提供了一种基于多维度模糊哈希匹配的恶意文件同源性分析方法，所述方法包括：

获取匹配文件；

提取所述匹配文件的模糊哈希；

将所述匹配文件的模糊哈希转化为哈希数组；

将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类。

进一步的，所述预设匹配库建立方法包括：

获取基础样本，并对所述基础样本进行分类，确定所述基础样本的样本分类；

提取所述基础样本的模糊哈希；

将所述基础样本的模糊哈希转化为哈希数组；

利用所述基础样本的哈希数组建立索引，并将所述索引与所述基础样本存储入数据库，建立预设匹配库。

进一步的，利用所述基础样本的哈希数组建立索引，并将所述索引与所述基础样本存储入数据库，建立预设匹配库，包括：

设定数值n，获取所述基础样本的分片值为n的情况下的模糊哈希值h(n)以及所述基础样本的分片值为n/2的情况下的模糊哈希值h(n/2)；

对h(n)和h(n/2)进行拆分形成哈希数组，根据所述哈希数组建立索引。

进一步的，对h(n)和h(n/2)进行拆分形成哈希数组，根据所述哈希数组建立索引，包括：

对h(n)和h(n/2)进行拆分，成为哈希数组(n，a1)，(n，a2)， (n，a3)...(n/2，b1)，(n/2，b2)...，其中，a1，a2，a3…为h(n)拆分之后的数值，b1，b2，b3…为h(n/2)拆分之后的数值。

进一步的，将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类，包括：

将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，得到所述预设匹配库中与所述匹配文件的哈希数组的数值相似度最高的匹配模糊哈希值；

根据所述匹配模糊哈希值，确定所述匹配文件的同源性样本分类。

第二方面，本发明实施例还提供了一种基于多维度模糊哈希匹配的恶意文件同源性分析装置，所述装置包括：

获取模块，用于获取匹配文件；

提取模块，用于提取所述匹配文件的模糊哈希；

转化模块，用于将所述匹配文件的模糊哈希转化为哈希数组；

索引模块，用于将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类。

进一步的，所述装置还包括建立模块，

所述建立模块用于：

提取所述基础样本的模糊哈希；

将所述基础样本的模糊哈希转化为哈希数组；

进一步的，所述建立模块还用于：

设定数值n，获取所述基础样本的分片值为n的情况下的模糊哈希值h(n)以及所述基础样本的分片值为n/2的情况下的模糊哈希值 h(n/2)；

进一步的，所述建立模块还用于：

第三方面，本发明实施例提供了一种计算机存储介质，用于储存为第二方面所述的装置所用的计算机软件指令。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置，能够在短时间内对大量的未知恶意文件样本进行同源性分析，通过对已经识别归类家族的文件进行多维度的模糊哈希特殊索引，在出现未知文件时，提取各维度的模糊哈希进行索引搜索，快速定位到相似度最高的分类家族，实现恶意文件同源性快速自动化分析。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例所提供的一种基于多维度模糊哈希匹配的恶意文件同源性分析方法的流程图；

图2为本发明实施例所提供的一种预设匹配库建立方法的流程图；

图3为本发明第二实施例所提供的一种基于多维度模糊哈希匹配的恶意文件同源性分析方法的流程图；

图4为本发明第三实施例所提供的一种基于多维度模糊哈希匹配的恶意文件同源性分析装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见图1所示的一种基于多维度模糊哈希匹配的恶意文件同源性分析方法的流程图，该方法应用于具体包括如下步骤：

S101.获取匹配文件；

具体来说，获取需要分析的文件。

S102.提取所述匹配文件的模糊哈希；

对于匹配文件可以提取文件整体的模糊哈希，以及文件中所有字符串组合的模糊哈希，针对特殊文件结构，比如PE文件可以提取导入表信息的模糊哈希。

S103.将所述匹配文件的模糊哈希转化为哈希数组；

具体来说，就是对模糊哈希进行拆分，拆分成为哈希数组，其具体转化过程同步骤S13。

S104.将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类。

其中，如图2所示，所述预设匹配库建立方法包括：

S11.获取基础样本，并对所述基础样本进行分类，确定所述基础样本的样本分类；

具体来说，使用传统方式对基础样本进行同源性家族分类，可通过特征库匹配分类或者人工标识分类，确定了基础样本的样本分类。

S12.提取所述基础样本的模糊哈希；

S13.将所述基础样本的模糊哈希转化为哈希数组；

其中，ssdeep的结构形式为n:h(n):h(n/2)，设定数值n，获取所述基础样本的分片值为n的情况下的模糊哈希值h(n)以及所述基础样本的分片值为n/2的情况下的模糊哈希值h(n/2)；

具体来说，在进行两个文件模糊哈希比较时,设分片值分别为n 和m，则判断是否有n＝m,n＝2m,2n＝m三种情况，只有在分片值在三种相等情况下才有相似度，在不具有分片相等情况下被认定为不具有相似性。

S14.利用所述基础样本的哈希数组建立索引，并将所述索引与所述基础样本存储入数据库，建立预设匹配库。

进一步来说，对h(n)和h(n/2)进行拆分形成哈希数组，根据所述哈希数组建立索引，包括：

对h(n)和h(n/2)进行拆分，成为哈希数组(n，a1)，(n，a2)， (n，a3)...(n/2，b1)，(n/2，b2)...，其中，a1，a2，a3…为h(n)拆分之后的数值，b1，b2，b3…为h(n/2)拆分之后的数值。由哈希数组能够建立由分片值和与其对应的模糊哈希值组成的索引。

实施例二

参见图3所示的一种基于多维度模糊哈希匹配的恶意文件同源性分析的流程图，该方法在实施例一中提供的基于多维度模糊哈希匹配的恶意文件同源性分析方法的基础上实现，具体包括如下步骤：

S201.获取匹配文件；

S202.提取所述匹配文件的模糊哈希；

S203.将所述匹配文件的模糊哈希转化为哈希数组；

S204.将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，得到所述预设匹配库中与所述匹配文件的哈希数组的数值相似度最高的匹配模糊哈希值；

具体来说，模糊哈希中的相似度对比为现有技术，其中在ssdeep 中，采用的如下思路。假设匹配文件中哈希数组值为s1，预设匹配库中索引值为s2，将s1到s2的“加权编辑距离”作为评价其相似性的依据。

这里的加权编辑距离是指，先判断从s1变为s2，最少需要多少步操作(包括插入、删除、修改、交换)，然后对不同操作给出一个权值，将结果加起来，即得是加权编辑距离。

接下来，ssdeep将这个距离除以s1和s2的长度和，以将绝对结果变为相对结果，再映射到0-100的一个整数值上，其中，100表示两个字符串完全一致，而0表示完全不相似。

这样，最后就得到的相似程度的评分，可以用来判断S1和S2 是否有相似关系。在实践中，一般将ssdeep的结果为1或以上认为有相似性，而将结果为0认为是不相似。

S205.根据所述匹配模糊哈希值，确定所述匹配文件的同源性样本分类。

计算匹配文件中哈希数组值与预设匹配库中索引值的相似度，相似度较高的索引值对应的文件，即和匹配文件相似度较高，匹配文件的所属分类即为匹配文件的同源性样本分类。

实施例三

对于前述实施例所提供的基于多维度模糊哈希匹配的恶意文件同源性分析方法，本发明实施例提供了一种基于多维度模糊哈希匹配的恶意文件同源性分析的装置，参见图4所示的一种基于多维度模糊哈希匹配的恶意文件同源性分析的装置的结构框图，该装置包括如下部分：

获取模块31，用于获取匹配文件；

提取模块32，用于提取所述匹配文件的模糊哈希；

转化模块33，用于将所述匹配文件的模糊哈希转化为哈希数组；

索引模块34，用于将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类。

进一步的，所述装置还包括建立模块，

所述建立模块35用于：

提取所述基础样本的模糊哈希；

将所述基础样本的模糊哈希转化为哈希数组；

进一步的，所述建立模块35还用于：

本发明实施例还提供了一种计算机存储介质，用于储存为上述实施例提供的装置所用的计算机软件指令。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

需要说明的是，在本发明所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于多维度模糊哈希匹配的恶意文件同源性分析方法，其特征在于，所述方法包括：

获取匹配文件；

提取所述匹配文件的模糊哈希；其中，所述匹配文件的模糊哈希包括：所述匹配文件整体的模糊哈希，所述匹配文件中所有字符串组合的模糊哈希；若所述匹配文件为PE文件，则所述匹配文件的模糊哈希还包括：导入表信息的模糊哈希；

将所述匹配文件的模糊哈希转化为哈希数组；

将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类；

其中，所述预设匹配库建立方法包括：

提取所述基础样本的模糊哈希；

将所述基础样本的模糊哈希转化为哈希数组；

利用所述基础样本的哈希数组建立索引，并将所述索引与所述基础样本存储入数据库，建立预设匹配库；

其中，利用所述基础样本的哈希数组建立索引，并将所述索引与所述基础样本存储入数据库，建立预设匹配库，包括：

2.根据权利要求1所述的方法，其特征在于，对h(n)和h(n/2)进行拆分形成哈希数组，根据所述哈希数组建立索引，包括：

对h(n)和h(n/2)进行拆分，成为哈希数组(n，a1)，(n，a2)，(n，a3)...(n/2，b1)，(n/2，b2)...，其中，a1，a2，a3…为h(n)拆分之后的数值，b1，b2，b3…为h(n/2)拆分之后的数值。

3.根据权利要求1所述的方法，其特征在于，将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类，包括：

4.一种基于多维度模糊哈希匹配的恶意文件同源性分析装置，其特征在于，所述装置包括：

获取模块，用于获取匹配文件；

提取模块，用于提取所述匹配文件的模糊哈希；其中，所述匹配文件的模糊哈希包括：所述匹配文件整体的模糊哈希，所述匹配文件中所有字符串组合的模糊哈希；若所述匹配文件为PE文件，则所述匹配文件的模糊哈希还包括：导入表信息的模糊哈希；

索引模块，用于将所述匹配文件的哈希数组与预设匹配库中索引进行匹配查询，确定所述匹配文件的同源性样本分类；

其中，所述装置还包括建立模块，

所述建立模块用于：

提取所述基础样本的模糊哈希；

将所述基础样本的模糊哈希转化为哈希数组；

其中，所述建立模块还用于：

5.根据权利要求4所述的装置，其特征在于，所述建立模块还用于：

6.一种计算机存储介质，其特征在于，用于储存为权利要求4至5任意一项所述的装置所用的计算机软件指令。