CN104008333A

CN104008333A - 一种安装包的检测方法和设备

Info

Publication number: CN104008333A
Application number: CN201310055666.2A
Authority: CN
Inventors: 杨宜; 于涛; 吴家旭; 陶波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-02-21
Filing date: 2013-02-21
Publication date: 2014-08-27
Anticipated expiration: 2033-02-21
Also published as: CN104008333B

Abstract

本发明实施例公开了安装包的检测方法和设备，应用于信息处理技术领域。本发明实施例中，在对待检测文件进行检测时，可以通过对待检测文件中的多个信息块进行特征提取，然后将多个信息块的特征或将经过至少一次处理后的多个信息块的特征在分类器模型中进行识别运算，得到待检测文件是否是安装包的结果，在分类器模型中包括安装包的特征和/或非安装包的特征。这样采用分类器模型对待检测文件的多个信息块的特征进行识别运算，而分类器模型可以通过计算机对训练样本训练得到，而不用人为根据经验来得到，如果有新的安装包出现，计算机也能用预置的策略对新的安装包进行样本训练，从而使得可以方便地覆盖较大范围的安装包的检测。

Description

一种安装包的检测方法和设备

技术领域

本发明涉及信息处理技术领域，特别涉及安装包的检测方法和设备。

背景技术

随着互联网的发展，信息爆炸式地增长，其中，计算机病毒、蠕虫、木马程序等计算机恶意程序的信息每日都危害用户设备的安全，而大部分恶意程序的文件都是可移植可执行(Portable Executable，PE)格式的文件，在恶意程序的文件中有很大一部分是安装包，这类信息会将其中包含的所有文件释放到计算机的硬盘上，会给计算机造成危害，因此需要检测恶意该安装包并进行一定防护处理。

目前在进行安装包检测时，主要是通过文件格式来检测，而这些格式主要是人为根据经验分析得到并添加到计算机中的，这样对于恶意程序的覆盖面较小，尤其是对于用户自行编写的安装包，检测较为困难。

发明内容

本发明实施例提供安装包的检测方法和设备，能方便地覆盖较大范围的安装包的检测。

本发明实施例提供一种安装包的检测方法，包括：

分别对待检测文件中的多个信息块进行特征提取；

将提取的所述多个信息块的特征或将经过至少一次处理后的所述多个信息块的特征在分类器模型中进行识别运算，得到所述待检测文件是否是安装包的结果；所述分类器模型中包括安装包的特征和/或非安装包的特征。

本发明实施例提供一种安装包的检测设备，包括：

特征提取单元，用于分别对待检测文件中的多个信息块进行特征提取；

识别运算单元，用于将提取的所述多个信息块的特征或将经过至少一次处理后的所述多个信息块的特征在分类器模型中进行识别运算，得到所述待检测文件是否是安装包的结果；所述分类器模块中包括安装包的特征和/或非安装包的特征。

本发明实施例中，在对待检测文件进行检测时，可以通过对待检测文件中的多个信息块进行特征提取，然后将多个信息块的特征或将经过至少一次处理后的多个信息块的特征在分类器模型中进行识别运算，得到待检测文件是否是安装包的结果，在分类器模型中包括安装包的特征和/或非安装包的特征。这样采用分类器模型对待检测文件的多个信息块的特征进行识别运算，而分类器模型可以通过计算机对训练样本训练得到，而不用人为根据经验来得到，如果有新的安装包出现，计算机也能用预置的策略对新的安装包进行样本训练，从而使得可以方便地覆盖较大范围的安装包的检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种安装包检测方法的流程图；

图2是本发明实施例中PE文件中的.text节的示意图；

图3是本发明实施例提供的另一种安装包检测方法的流程图；

图4是本发明的应用实施例中提供的另一种安装包检测方法的流程图；

图5是本发明实施例提供的一种安装包的检测设备的结构示意图；

图6是本发明实施例提供的另一种安装包的检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种安装包的检测方法，主要是计算机对对恶意程序中的安装包进行检测的方法，流程图如图1所示，包括：

步骤101，分别对待检测文件中的多个信息块进行特征提取。

可以理解，每个文件都可以划分为不同的信息块，对于PE文件来说，该PE文件可以用于不同的操作系统和体系结构中，且可以封装操作系统加载可执行程序代码时所必需的信息，包括动态链接库、导入和导出表、资源管理数据和线程局部存储数据等，而大部分恶意程序都是PE文件。PE文件可以分为不同的信息块，称为节(sections)，比如.text节，.data节，.rsrc节，.reloc节等，每节中包含具有共同属性的数据，具体可以是数据0(00)到数据255(FF)之间的数据。

计算机可以对待检测文件中的全部或部分信息块进行特征提取，且在进行特征提取时，具体可以提取信息块的数据分布信息，该数据分布区信息可以指示各个数据在该信息块中分布的情况，具体可以包括部分或全部数据的频率和/或个数，比如数据1C出现的频率和个数等。例如图2所示的部分.text节的数据中，数据77出现的频率较大。

步骤102，将步骤101中提取的多个信息块的特征或将经过至少一次处理后的多个信息块的特征在分类器模型中进行识别运算，得到待检测文件是否是安装包(Install pack)的结果。

其中安装包是可自行解压缩的可执行文件，运行安装包可以使其中包含的文件释放到计算机硬盘上，安装包的格式较多。分类器模型中包括安装包的特征和/或非安装包的特征，具体可以为支持向量机(Support VectorMachine，SVM)分类器模型，神经网络(Artificial Neural Network，ANN)分类器模型，逻辑回归算法(logistic Regression，LR)分类器模型和隐马尔可夫模型(Hidden Markov Model，HMM)等各种识别运算的模型。

需要说明的是，上述分类器模型可以是计算机在执行步骤101之前对训练样本中的非安装包和/或安装包进行训练得到的分类器模型，分类器模型的训练是通过对已经样本的特征约束，转化为分类器目标函数的系数，对于SVM分类器模型来说，目标函数是一个线性函数，训练过程是一个解方程组的过程，具体地，可以先提取非安装包和/或安装包的特征，然后将提取的特征通过任一种分类器训练方法得到，比如通过SVM分类器的训练方法，得到的是SVM分类器模型等。且由于安装包和非安装包的训练样本是不断增加的，因此需要计算机需要根据增加的训练样本对分类器模型进行不断更新。

可见，本发明实施例中，在对待检测文件进行检测时，可以通过对待检测文件中的多个信息块进行特征提取，然后将多个信息块的特征或将经过至少一次处理后的多个信息块的特征在分类器模型中进行识别运算，得到待检测文件是否是安装包的结果，在分类器模型中包括安装包的特征和/或非安装包的特征。这样采用分类器模型对待检测文件的多个信息块的特征进行识别运算，而分类器模型可以通过计算机对训练样本训练得到，而不用人为根据经验来得到，如果有新的安装包出现，计算机也能用预置的策略对新的安装包进行样本训练，从而使得可以方便地覆盖较大范围的安装包的检测。

需要说明的是，计算机在执行完上述步骤101后，即可将多个信息块的特征在分类器模型中进行识别运算。参考图3所示，在一个具体的实施例中，为了降低安装包检测过程中的运算量，计算机在执行完上述步骤101后还可以在执行步骤103，并执行步骤102，且在执行步骤102时，是将归一化处理后的各个信息块的特征在分类器模型中进行识别运算；或计算机在执行完上述步骤101后执行步骤103和104，然后再执行步骤102，且在执行步骤102时，是将调整范围后的各个信息块的特征在分类器模型中进行识别运算。具体地：

步骤103，将步骤101中提取的多个信息块中各个信息块的特征进行归一化处理，这样可以将各个信息块的特征都统一成比较方便运算的数据。

步骤104，分别调整归一化处理后的各个信息块的特征的范围，具体地，计算可以通过核空间映射或加权等方法进行调整，从而根据实际情况缩放各个信息块的特征之间的差异，比如两个信息块的特征之间的差别为100，则通过本步骤的范围调整，使得这两个信息块的特征之间的差别缩小为20，更进一步地缩小了计算复杂度。

在通过核空间映射方法进行调整时，具体可以根据核空间的映射函数，将归一化处理后的各个信息块的特征分别映射到映射函数对应的核空间，且不同待处理文件中相同属性的信息块采用的映射函数相同，比如不同待处理的PE文件中.text节采用的映射函数相同，而一个待处理文件中不同信息块采用的映射函数可以相同，也可以不同。

通过加权方法进行调整时，计算机可以分别对归一化处理后的各个信息块的特征进行加权运算，且不同信息块对应的加权值可以不同，也可以相同。

以下以一个具体的实施例来说明本发明实施例中安装白方法，本实施例中，主要是计算机对十六进制的PE文件进行的聚类，流程图如图4所示，具体包括：

步骤201，判断PE文件是否加壳(Packer)，即是否是通过一系列的数学运算使得编码改变后的PE文件，如果是，执行步骤202，如果不是，则执行步骤203。

步骤202，对加壳后的PE文件进行脱壳(Unpacker)，即除掉PE文件的加壳保护，与步骤201互为逆运算，之后执行步骤203。

步骤203，分别提取PE文件中指定的m个节的数据分布信息，比如在每个节中0(00)到255(FF)之间的数据的分布频率，得到m个256维的特征向量记为H_i＝[h₀，h₁，...，h₂₅₅]，i＝1，...，m，其中h_i可以表示各个数据的分布频率。其中，如果有些PE文件中没有该指定的m个节中的某些节，这这些节对应的特征向量为0，即H_i＝[0，0，...，0]。

步骤204，对步骤203中得到的m个特征向量进行归一化处理，得到归一化后的m个特征向量，记为其中归一化处理所使用的函数为

{\overset{&OverBar;}{h}}_{i} = \frac{h_{i}}{Σ_{0 \leq i \leq 255} h_{i}}, 0 \leq i \leq 255 .

步骤205，调整归一化处理后的m个特征向量的范围，具体地，可以有但不限于如下两种方式：

(1)如果采用核空间映射方法，将特征向量之间的距离度量方式转化为核空间的距离度量方式。具体地：

计算机可以先选择一种合适的核空间，比如多项式核，径向基核函数(Radial Basis Function，RBF)核，x²核，或正交(Intersection)核等。然后采用选择的核空间的映射函数，分别得到m个特征向量在核空间中对应核空间向量i＝1，...，m。其中，核空间的映射函数可以为：

在核空间的映射函数中，j为1到2n之间的整数，计算机可以指定一个阶数n，其中阶数越高，则映射函数的项数也越多，精度越高；L＝2π/Λ，该Λ是选定周期；k_j是对应核空间的核函数签名(kernel signature)的傅里叶反变换k(ω)的窗函数截断，k_j＝t_jL(w*k)(jL)，这里*代表卷积，w是所选窗函数的频域表示；上述映射函数中的γ由所选核空间的核函数本身决定，该γ可以满足k(cx，cy)＝c^γK(x，y)，其中c为常数。

这样通过该映射函数得到的m个特征向量在核空间中对应核空间向量为：

{\tilde{H}}_{i} = [Φ_{0} ({\overset{&OverBar;}{h}}_{0}), Φ_{1} ({\overset{&OverBar;}{h}}_{0}), . . ., Φ_{2 n} ({\overset{&OverBar;}{h}}_{0}), . . ., Φ_{0} ({\overset{&OverBar;}{h}}_{255}), Φ_{1} ({\overset{&OverBar;}{h}}_{255}), . . ., Φ_{2 n} ({\overset{&OverBar;}{h}}_{255})]

，其中i＝1，...，m。

上述核函数为满足Mercer定理的函数。假设有n维空间R上的向量x，y，假设通过映射函数Φ(x)将x，y映射到m维的核空间F上，得到F上的对应向量Φ(x)，Φ(y)，则核函数K(x，y)满足K(x，y)＝<Φ(x)，Φ(y)>(符号<，>表示内积)。如果将核函数K(x，y)表示为如下形式：则η(w)就称为该核函数的核函数签名。

例如，当计算机选择Intersection核，则该核空间的核函数为选定阶段阶数n，比如n＝1等；计算近似周期Λ＝alog(n+b)+c(a，b，c可以在保证周期Λ大于0的情况下任意选择，比如a＝2.0，b＝0.99，c＝3.52)；计算Intersection核的核函数为选择矩形窗对k(ω)进行截断，矩形窗的w的具体形式为：

w = \{\begin{matrix} \frac{2 \sin ωΛ / 2}{ωΛ}, ω &NotEqual; 0 \\ 1, ω = 0 \end{matrix} .

这样可以根据计算的这些参数得到选择的Intersection核的映射函数，并进行核空间的映射。

(2)如果采用加权运算方法，将特征向量之间的距离度量方式通过加权值进行缩小。具体地将归一化后的m个特征向量与加权值α相乘，即其中熵值越大，α越大。

例如，Hs是的熵值，即

H_{S} = - Σ_{I = 0}^{255} {\overset{&OverBar;}{h}}_{i} \log_{2} ({\overset{&OverBar;}{h}}_{i}),

而加权值α可以为：

步骤206，将步骤205中调整范围后的m个特征向量在预置的分类器模型中进行识别运算，即可得到待检测的PE文件是否是安装包的结果。其中，预置的分类器模型中可以包括安装包的特征和/或非安装包的特征。

本发明实施例还提供一种安装包的检测设备，结构示意图如图5所示，包括：

特征提取单元10，用于分别对待检测文件中的多个信息块进行特征提取，该特征提取单元具体可以分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

识别运算单元11，用于将特征提取单元10提取的所述多个信息块的特征或将经过至少一次处理后的所述多个信息块的特征在分类器模型中进行识别运算，得到所述待检测文件是否是安装包的结果；所述分类器模块中包括安装包的特征和/或非安装包的特征。

本发明实施例中，可以通过特征提取单元10对待检测文件中的多个信息块进行特征提取，然后识别运算单元11将多个信息块的特征或将经过至少一次处理后的多个信息块的特征在分类器模型中进行识别运算，得到待检测文件是否是安装包的结果，在分类器模型中包括安装包的特征和/或非安装包的特征。这样采用分类器模型对待检测文件的多个信息块的特征进行识别运算，而分类器模型可以通过计算机对训练样本训练得到，而不用人为根据经验来得到，如果有新的安装包出现，计算机也能用预置的策略对新的安装包进行样本训练，从而使得可以方便地覆盖较大范围的安装包的检测。

参考图6所示，在一个具体的实施例中，安装包的检测设备除了可以如图5所示的结构外，还可以包括归一化单元12、范围调整单元13和训练单元14，其中：

归一化单元12，用于将特征提取单元10提取的所述多个信息块中各个信息块的特征进行归一化处理，这样可以将各个信息块的特征都统一成比较方便运算的数据。

范围调整单元13，用于分别调整所述归一化单元12归一化处理后的所述各个信息块的特征的范围，该范围调整单元13具体可以根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待检测文件中相同属性的信息块采用的映射函数相同；和/或，该范围调整单元具体可以分别对归一化处理后的所述各个信息块的特征进行加权运算。

训练单元14，用于对训练样本中的非安装包和/或安装包进行训练得到所述分类器模型，该分类器模型包括如下任一模型：支持向量机SVM分类器模型，逻辑回归算法分类器模型，隐马尔可夫模型HMM和神经网络ANN分类器模型等。该训练单元14具体可以先提取非安装包和/或安装包的特征，然后将提取的特征通过任一种分类器训练方法得到，由于非安装包和/或安装包的训练样本是不断变化的，则该训练单元14可以根据变化的训练样本对分类器模型进行不断更新。

在本发明实施例中，当特征提取单元10在提取待检测文件中多个信息块的特征后，可以由识别运算单元11将提取的多个信息块的特征进行识别运算；为了降低识别运算过程中的运算量，在特征提取单元10在提取完特征后，可以由归一化单元12对多个信息块的特征进行归一化处理，使得多个信息块的特征统一成比较方便运算的数据，然后识别运算单元11可以将归一化处理后的所述各个信息块的特征在分类器模型中进行识别运算，得到所述待检测文件是否是安装包的结果；或，在对多个信息块的特征进行归一化处理后，还可以由范围调整单元13对归一化处理后的多个信息块的特征进行范围调整，来缩放多个信息块的特征之间的差别，然后再由识别运算单元11将范围调整单元13调整范围后的所述各个信息块的特征在分类器模型中进行识别运算，这样更进一步地降低了运算量。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的安装包的检测方法和设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种安装包的检测方法，其特征在于，包括：

分别对待检测文件中的多个信息块进行特征提取；

2.如权利要求1所述的方法，其特征在于，所述分别对待检测文件中的多个信息块进行特征提取，具体包括：

分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

3.如权利要求1或2所述的方法，其特征在于，所述分别对待检测文件中的多个信息块进行特征提取之后，还包括：

将提取的所述多个信息块中各个信息块的特征进行归一化处理；

所述将经过至少一次处理后的所述多个信息块的特征在分类器模型中进行识别运算具体包括：将所述归一化处理后的所述各个信息块的特征在分类器模型中进行识别运算。

4.如权利要求1或2所述的方法，其特征在于，所述分别对待检测文件中的多个信息块进行特征提取之后，还包括：

分别调整归一化处理后的所述各个信息块的特征的范围；

所述将经过至少一次处理后的所述多个信息块的特征在分类器模型中进行识别运算具体包括：将所述调整范围后的所述各个信息块的特征在分类器模型中进行识别运算。

5.如权利要求4所述的方法，其特征在于，所述分别调整归一化处理后的所述各个信息块的特征的范围，具体包括：

根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待检测文件中相同属性的信息块采用的映射函数相同；或，

分别对归一化处理后的所述各个信息块的特征进行加权运算。

6.如权利要求1或2或5所述的方法，其特征在于，所述分别对待检测文件中的多个信息块进行特征提取之前包括：

对训练样本中的非安装包和/或安装包进行训练得到所述分类器模型；

所述分类器模型包括如下任一模型：支持向量机SVM分类器模型，逻辑回归算法分类器模型，隐马尔可夫模型HMM和神经网络ANN分类器模型。

7.一种安装包的检测设备，其特征在于，包括：

8.如权利要求7所述的设备，其特征在于，所述特征提取单元，具体用于分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

9.如权利要求7或8所述的设备，其特征在于，所述设备还包括：

归一化单元，用于将提取的所述多个信息块中各个信息块的特征进行归一化处理；

所述识别运算单元，具体用于将所述归一化单元归一化处理后的所述各个信息块的特征在分类器模型中进行识别运算，得到所述待检测文件是否是安装包的结果。

10.如权利要求9所述的设备，其特征在于，还包括：

范围调整单元，用于分别调整所述归一化单元归一化处理后的所述各个信息块的特征的范围；

所述识别运算单元，具体用于将所述范围调整单元调整范围后的所述各个信息块的特征在分类器模型中进行识别运算。

11.如权利要求10所述的设备，其特征在于，

所述范围调整单元，具体用于根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待检测文件中相同属性的信息块采用的映射函数相同；和/或，

所述范围调整单元，具体用于分别对归一化处理后的所述各个信息块的特征进行加权运算。

12.如权利要求7或8或11所述的设备，其特征在于，还包括：

训练单元，用于对训练样本中的非安装包和/或安装包进行训练得到所述分类器模型；