CN104008334A

CN104008334A - 一种文件的聚类方法和设备

Info

Publication number: CN104008334A
Application number: CN201310055669.6A
Authority: CN
Inventors: 杨宜; 于涛; 陶波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-02-21
Filing date: 2013-02-21
Publication date: 2014-08-27
Anticipated expiration: 2033-02-21
Also published as: WO2014127655A1; US20150356164A1; CN104008334B

Abstract

本发明实施例公开了文件的聚类方法和设备，应用于信息处理技术领域。本发明实施例中，在对待处理文件进行聚类时，可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较，来将信息指纹相同的待处理文件作为一个聚类，实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中相似性比较，采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。

Description

一种文件的聚类方法和设备

技术领域

本发明涉及信息处理技术领域，特别涉及文件的聚类方法和设备。

背景技术

随着互联网的发展，信息爆炸式地增长，其中，计算机病毒、蠕虫、木马程序等计算机恶意程序的信息每日都危害用户设备的安全，而大部分恶意程序的文件都是可移植可执行(Portable Executable，PE)格式的文件，这些PE文件虽然数量大，但是很多都具有家族特性。这样可以对PE文件先进行聚类(Cluster)，即根据事先定义的度量将一些相似的对象组成群体，然后从聚类结果中发现新家族的PE文件，有利于病毒的分析和查杀。

目前，文件的聚类方法主要有两种，一种是传统的聚类方法，比如k均值聚类、层次聚类等，这种方法需要提取文件的特征，并通过对两个文件的特征进行相似性比较实现文件聚类；另一种是基于内容分割的分片哈希算法(Context Triggered Piecewise Hashing，CTPH)，这种方法需要将文件进行分片，然后通过对两个文件的分片进行相似性的比较实现文件聚类。但是上述现有的文件聚类方法中相似性比较的计算量比较大，且比较复杂。

发明内容

本发明实施例提供文件的聚类方法和设备，简化文件聚类的复杂度。

本发明实施例提供一种文件的聚类方法，包括：

分别对待处理文件中的多个信息块的进行特征提取；

计算提取的所述多个信息块中各个信息块的特征的信息指纹；

根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

将信息指纹相同的待处理文件作为一个聚类输出。

本发明实施例提供一种文件的聚类设备，包括：

特征提取单元，用于分别对待处理文件中的多个信息块的进行特征提取；

第一指纹计算单元，用于计算提取的所述多个信息块中各个信息块的特征的信息指纹；

第二指纹计算单元，用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

聚类输出单元，用于将信息指纹相同的待处理文件作为一个聚类输出。

本发明实施例中，在对待处理文件进行聚类时，可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较，来将信息指纹相同的待处理文件作为一个聚类，实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中相似性比较，采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文件的聚类方法流程图；

图2是本发明实施例中PE文件包含的.text节中数据的示意图；

图3是本发明实施例提供的另一种文件的聚类方法流程图；

图4是本发明实施例中一种PE文件的聚类方法流程图；

图5是本发明实施例提供的一种文件的聚类设备的示意图；

图6是本发明实施例提供的一种文件的聚类设备的示意图；

图7是本发明实施例提供的一种文件的聚类设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文件的聚类方法，比如对PE等文件的聚类主要是计算机所执行的方法，流程图如图1所示，包括：

步骤101，分别对待处理文件中的多个信息块的进行特征提取。

可以理解，每个文件都可以划分为不同的信息块，对于PE文件来说，该PE文件可以用于不同的操作系统和体系结构中，且可以封装操作系统加载可执行程序代码时所必需的信息，包括动态链接库、导入和导出表、资源管理数据和线程局部存储数据等，而大部分恶意程序都是PE文件。PE文件可以分为不同的信息块，称为节(sections)，比如.text节，.data节，.rsrc节，.reloc节等，每节中包含具有共同属性的数据，具体可以是数据0(00)到数据255(FF)之间的数据。

计算机可以对待处理文件中的全部或部分信息块进行特征提取，且在进行特征提取时，具体可以提取信息块的数据分布信息，该数据分布区信息可以指示各个数据在该信息块中分布的情况，具体可以包括部分或全部数据的频率和/或个数，比如数据1C出现的频率和个数等。例如图2所示的部分.text节的数据中，数据77出现的频率较大。

步骤102，计算步骤101中提取的多个信息块中各个信息块的特征的信息指纹，其中一个信息块的信息指纹是将该信息块加工得到的一个随机数，能作为区别其他信息块的标识，常用的信息指纹计算方法有局部敏感哈希计算等，本发明实施例中，得到的信息指纹可以标识一个信息块的特征。

步骤103，根据各个信息块的特征的信息指纹获取待处理文件的信息指纹，具体地，可以将各个信息块的特征的信息指纹拼接得到一个待处理文件的信息指纹；或可以通过其它方式得到待处理文件的信息指纹，该信息指纹中包含了该待处理文件包含步骤102中获得的各个信息块的特征的信息指纹。

步骤104，将步骤103中获得的信息指纹相同的待处理文件作为一个聚类输出。

可见，本发明实施例中，在对待处理文件进行聚类时，可以通过对待处理文件中包含的多个信息块的特征的信息指纹的比较，来将信息指纹相同的待处理文件作为一个聚类，实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中相似性比较，采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。

参考图3所示，在一个具体的实施例中，计算机在执行上述步骤102时，具体可以通过如下的步骤来实现：

步骤201，分别将步骤101中提取的多个信息块中各个信息块的特征进行归一化处理，这样可以将各个信息块的特征都统一成比较方便运算的数据。

步骤202，计算归一化处理后的各个信息块的特征的信息指纹，具体地计算机可以直接按照信息指纹的计算函数来计算，或可以通过如下步骤A和B来实现：

A：分别调整归一化处理后的所述各个信息块的特征的范围，具体可以通过核空间映射或加权等方法进行调整，从而根据实际情况缩放各个信息块的特征之间的差异，比如两个信息块的特征之间的差别为100，则通过本步骤的范围调整，使得这两个信息块的特征之间的差别缩小为20，更进一步地缩小了计算复杂度。

在通过核空间映射方法进行调整时，具体可以根据核空间的映射函数，将归一化处理后的各个信息块的特征分别映射到映射函数对应的核空间，且不同待处理文件中相同属性的信息块采用的映射函数相同，比如不同待处理的PE文件中.text节采用的映射函数相同，而一个待处理文件中不同信息块采用的映射函数可以相同，也可以不同。

通过加权方法进行调整时，计算机可以分别对归一化处理后的各个信息块的特征进行加权运算，且不同信息块对应的加权值可以不同，也可以相同。

B：计算调整范围后的各个信息块的特征的信息指纹，具体地，可以按照一定的信息指纹运算函数，来计算各个信息块的特征对应的信息指纹。

以下以一个具体的实施例来说明本发明实施例中文件的聚类方法，本实施例中，主要是计算机对十六进制的PE文件进行的聚类，流程图如图4所示，具体包括：

步骤301，判断PE文件是否加壳(Packer)，即是否是通过一系列的数学运算使得编码改变后的PE文件，如果是，执行步骤302，如果不是，则执行步骤303。

步骤302，对加壳后的PE文件进行脱壳(Unpacker)，即除掉PE文件的加壳保护，与步骤301互为逆运算，之后执行步骤303。

步骤303，分别提取PE文件中指定的m个节的数据分布信息，比如在每个节中0(00)到255(FF)之间的数据的分布频率，得到m个256维的特征向量记为H_i＝[h₀，h₁，...，h₂₅₅]，i＝1，...，m，其中h_i可以表示各个数据的分布频率。其中，如果有些PE文件中没有该指定的m个节中的某些节，这这些节对应的特征向量为0，即H_i＝[0，0，...，0]。

步骤304，对步骤303中得到的m个特征向量进行归一化处理，得到归一化后的m个特征向量，记为其中归一化处理所使用的函数为

{\overset{&OverBar;}{h}}_{i} = \frac{h_{i}}{Σ_{0 \leq i \leq 255} h_{i}}, 0 \leq i \leq 255 .

步骤305，调整归一化处理后的m个特征向量的范围，具体地，可以有但不限于如下两种方式：

(1)如果采用核空间映射方法，将特征向量之间的距离度量方式转化为核空间的距离度量方式。具体地：

计算机可以先选择一种合适的核空间，比如多项式核，径向基核函数(Radial Basis Function，RBF)核，x²核，或正交(Intersection)核等。然后采用选择的核空间的映射函数，分别得到m个特征向量在核空间中对应核空间向量i＝1，...，m。其中，核空间的映射函数可以为：

在核空间的映射函数中，j为1到2n之间的整数，计算机可以指定一个阶数n，其中阶数越高，则映射函数的项数也越多，精度越高；L＝2π/Λ，该Λ是选定周期；k_j是对应核空间的核函数签名(kernel signature)的傅里叶反变换k(ω)的窗函数截断，k_j＝t_jL(w*k)(jL)，这里*代表卷积，w是所选窗函数的频域表示；上述映射函数中的γ由所选核空间的核函数本身决定，该γ可以满足k(cx，cy)＝c^γK(x，y)，其中c为常数。

这样通过该映射函数得到的m个特征向量在核空间中对应核空间向量为：

{\tilde{H}}_{i} = [Φ_{0} ({\overset{&OverBar;}{h}}_{0}), Φ_{1} ({\overset{&OverBar;}{h}}_{0}), . . ., Φ_{2 n} ({\overset{&OverBar;}{h}}_{0}), . . ., Φ_{0} ({\overset{&OverBar;}{h}}_{255}), Φ_{1} ({\overset{&OverBar;}{h}}_{255}), . . ., Φ_{2 n} ({\overset{&OverBar;}{h}}_{255})]

，其中i＝1，...，m。

上述核函数为满足Mercer定理的函数。假设有n维空间R上的向量x，y，假设通过映射函数Φ(x)将x，y映射到m维的核空间F上，得到F上的对应向量Φ(x)，Φ(y)，则核函数K(x，y)满足K(x，y)＝<Φ(x)，Φ(y)>(符号<，>表示内积)。如果将核函数K(x，y)表示为如下形式：则η(w)就称为该核函数的核函数签名。

例如，当计算机选择Intersection核，则该核空间的核函数为选定阶段阶数n，比如n＝1等；计算近似周期Λ＝alog(n+b)+c(a，b，c可以在保证周期Λ大于0的情况下任意选择，比如a＝2.0，b＝0.99，c＝3.52)；计算Intersection核的核函数为选择矩形窗对k(叫进行截断，矩形窗的w的具体形式为：

w = \{\begin{matrix} \frac{2 \sin ωΛ / 2}{ωΛ}, ω &NotEqual; 0 \\ 1, ω = 0 \end{matrix} .

这样可以根据计算的这些参数得到选择的Intersection核的映射函数，并进行核空间的映射。

(2)如果采用加权运算方法，将特征向量之间的距离度量方式通过加权值进行缩小。具体地将归一化后的m个特征向量与加权值α相乘，即其中熵值越大，α越大。

例如，Hs是的熵值，即而加权值α可以为：

步骤306，分别计算调整范围后的m个特征向量的信息指纹sig_i，i＝1，...，m，计算机可以选择一个计算信息指纹的函数来计算，以其中一个信息指纹计算函数为例来说明，具体地，针对步骤305中采用核空间映射方法得到的调整范围后的m个特征向量

(1)计算机选取m个阈值σ₁，σ₂，...，σm和信息指纹生成位数f₁，f₂，…，f_m；

(2)从期望为0，标准差为σ_i的256(2n+1)维的高斯分布函数中抽样f_i个点Pi＝(p₀，p₁，…，p_256(2n+1)-1)；

(3)从[0，2π]上的均匀分布函数中抽样f_i个点B_i；

(4)从[-1，1]上的均匀分布函数中抽样f_i个点T_i；

(5)调整范围后的m个特征向量的信息、指纹为：

si g_{i} = [sgn (\cos (P_{1} \cdot {\tilde{H}}_{1} + B_{1}) + T_{1}, . . ., sgn (\cos (P_{f_{i}} {\tilde{H}}_{f_{i}} + B_{f_{i}}) + T_{f_{i}}]

，i＝1，...，m，其中符号·代表内积，sgn是符号函数，

sgn (x) = \{\begin{matrix} 0, x < 0 \\ 1, x &GreaterEqual; 0 \end{matrix} .

需要说明的是，如果针对采用加权方法得到调整范围后的m个特征向量在计算信息指纹时，与上述计算信息指纹的方法类似，在此不进行赘述。

步骤307，根据步骤306中计算的调整范围后的m个特征向量的信息指纹，得到待处理的PE文件的信息指纹，具体地，可以将每个调整范围后的特征向量的信息指纹进行拼接，即SIG＝[sig₁，sig₂，…，sig_m]。

步骤308，将信息指纹相同的PE文件作为一个聚类输出。

本发明实施例还提供一种文件的聚类设备，结构示意图如图5所示，包括：

特征提取单元10，用于分别对待处理文件中的多个信息块的进行特征提取，具体地，特征提取单元10可以分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数等。

第一指纹计算单元11，用于计算特征提取单元10提取的所述多个信息块中各个信息块的特征的信息指纹；

第二指纹计算单元12，用于根据所述第一指纹计算单元11计算的各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

聚类输出单元13，用于将第二指纹计算单元12计算的信息指纹相同的待处理文件作为一个聚类输出。

可见，本发明实施例的设备中，在对待处理文件进行聚类时，可以通过聚类输出单元13对待处理文件中包含的多个信息块的特征的信息指纹的比较，来将信息指纹相同的待处理文件作为一个聚类，实现了文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中相似性比较，采用本发明实施例中计算特征的标识并聚类的运算量和复杂度会很大程度的降低。

参考图6和7所示，在一个具体的实施例中，文件的聚类设备除了包括图5所示的结构外，其中的第一指纹计算单元11具体可以通过归一化单元110和第一计算单元来实现，具体地：

归一化单元110，用于分别将特征提取单元10提取的所述多个信息块中各个信息块的特征进行归一化处理。

第一计算单元111，用于计算归一化单元110进行归一化处理后的所述各个信息块的特征的信息指纹，第一计算单元111可以直接根据计算信息指纹的函数来计算，然后第二指纹计算单元会根据第一计算单元111计算的各个信息块的特征对应的信息指纹来确定待处理文件的信息指纹，或通过范围调整单元112和第二计算单元113来实现。

范围调整单元112，用于分别调整归一化单元110进行归一化处理后的所述各个信息块的特征的范围。该范围调整单元112具体可以根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待处理文件中相同属性的信息块采用的映射函数相同；和/或，该范围调整单元112具体可以分别对归一化处理后的所述各个信息块的特征进行加权运算。

第二计算单元113，用于计算范围调整单元112调整范围后的所述各个信息块的特征的信息指纹，然后第二指纹计算单元12会根据第二计算单元113计算的各个信息块的特征对应的信息指纹来确定待处理文件的信息指纹。

上述文件的聚类设备中各个单元之间可以按照上述方法进行文件的聚类。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的文件的聚类方法及设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文件的聚类方法，其特征在于，包括：

分别对待处理文件中的多个信息块的进行特征提取；

将信息指纹相同的待处理文件作为一个聚类输出。

2.如权利要求1所述的方法，其特征在于，所述分别对待处理文件中的多个信息块的进行特征提取，具体包括：

分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

3.如权利要求1或2所述的方法，其特征在于，所述分别计算提取的所述多个信息块中各个信息块的特征的信息指纹具体还包括：

分别将提取的所述多个信息块中各个信息块的特征进行归一化处理；

计算归一化处理后的所述各个信息块的特征的信息指纹。

4.如权利要求3所述的方法，其特征在于，所述计算归一化处理后的所述各个信息块的特征的信息指纹，具体包括：

分别调整归一化处理后的所述各个信息块的特征的范围；

计算调整范围后的所述各个信息块的特征的信息指纹。

5.如权利要求4所述的方法，其特征在于，所述分别调整归一化处理后的所述各个信息块的特征的范围，具体包括：

根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待处理文件中相同属性的信息块采用的映射函数相同；或，

分别对归一化处理后的所述各个信息块的特征进行加权运算。

6.一种文件的聚类设备，其特征在于，包括：

7.如权利要求6所述的设备，其特征在于，

所述特征提取单元，具体用于分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

8.如权利要求6或7所述的设备，其特征在于，所述第一指纹计算单元具体包括：

归一化单元，用于分别将提取的所述多个信息块中各个信息块的特征进行归一化处理；

第一计算单元，用于计算归一化处理后的所述各个信息块的特征的信息指纹。

9.如权利要求8所述的设备，其特征在于，所述第一计算单元包括：

范围调整单元，用于分别调整归一化处理后的所述各个信息块的特征的范围；

第二计算单元，用于计算调整范围后的所述各个信息块的特征的信息指纹。

10.如权利要求9所述的设备，其特征在于，

所述范围调整单元，具体用于根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待处理文件中相同属性的信息块采用的映射函数相同；和/或，

所述范围调整单元，具体用于分别对归一化处理后的所述各个信息块的特征进行加权运算。