CN103839006B

CN103839006B - 基于机器学习的程序识别方法及装置

Info

Publication number: CN103839006B
Application number: CN201410046852.4A
Authority: CN
Inventors: 周鸿祎; 董毅; 周辉
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2010-11-29
Filing date: 2010-11-29
Publication date: 2017-07-28
Anticipated expiration: 2030-11-29
Also published as: CN103839006A

Abstract

本申请实施例公开了一种基于机器学习的程序识别方法及装置，所述方法包括：分析输入的未知程序，提取所述未知程序的特征；根据所提取的特征对所述未知程序进行分类；根据所述分类的结果，将所述未知程序输入已生成的训练模型及相应的决策机中进行判断；输出所述未知程序的识别结果，所述识别结果为恶意程序或非恶意程序。本申请采用机器学习技术，通过对大量程序样本进行分析，得到识别恶意程序的模型，通过该模型的使用可以节省大量的人力，提高对恶意程序的识别效率；并且，在基于对海量程序进行数据挖掘的基础上，可以发现程序的内在规律，对未发生的恶意程序进行预防，使得恶意程序难以被免杀。

Description

基于机器学习的程序识别方法及装置

本发明专利申请是申请日为2010年11月29日、申请号为201010565513.9、名称为“基于机器学习的程序识别方法及装置”的中国发明专利申请的分案申请。

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于机器学习的程序识别方法及装置。

背景技术

恶意程序是一类特殊的程序，它们通常在用户不知晓也未授权的情况下潜入到用户的计算机系统中，对用户系统改进型攻击。恶意程序可以包括病毒、后门程序、木马程序、宏病毒、引导区病毒、脚本病毒等。在查杀恶意病毒之前，首先要对恶意程序进行识别，以查杀病毒为例，现有技术中主要通过字符串特征码和简单的人工总结进行查杀，所查杀的病毒也均是已知的病毒，难以对新型病毒进行查杀。

发明人在对现有技术的研究过程中发现，现有技术基本上采用字符串特征码和人工规则的启发式通杀，这种识别恶意程序的方式严重依赖于病毒分析师的能力，需要分析师针对已有样本进行人工分析，找出相应的特征，因此需要大量经验丰富的人员才能满足解决问题的需求，并且由于技术复杂，人工处理的结果将导致效率低效；现有技术中只能处理已知的问题，不能对可能发生的问题进行防范，因此具有一定的滞后性；由于现有技术基于简单的特征或规则进行查杀，因此很容易被病毒作者免杀。

发明内容

本申请实施例提供了一种基于机器学习的程序识别方法及装置，以解决现有技术中在识别恶意程序时效率不高，具有滞后性的问题。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

一种基于机器学习的程序识别方法，包括：

分析输入的未知程序，提取所述未知程序的特征；

根据所提取的特征对所述未知程序进行粗分类；

根据所述粗分类的结果，将所述未知程序输入已生成的训练模型及相应的决策机中进行判断；

输出所述未知程序的识别结果，所述识别结果为恶意程序或非恶意程序。

当包括多个训练模型时，所述将未知程序输入已生成的训练模型及相应的决策机中进行判断包括：

将未知程序分别输入一个或多个已生成的训练模型及相应的决策机中进行判断；

根据预先设置的每种特征分类在每个训练模型中的权重，将每个训练模型及相应的决策机对所述未知程序进行判断的结果进行加权计算；

所述输出未知程序的识别结果具体为：根据所述加权计算的结果输出对所述未知程序的识别结果。

还包括：

输入提取到的海量程序，所述海量程序中包括恶意程序和非恶意程序；

从所输入的每个程序中提取特征，并对所提取的特征进行分类；

根据所述分类的结果，将不同类别的特征使用不同的决策机进行训练，生成用于识别恶意程序的训练模型或训练模型集合。

所述从所输入的每个程序中提取特征包括：

分析每个程序文件，从所述程序文件中抽取预先定义的特征；

根据所抽取的特征生成特征向量，以及每个特征向量的黑白属性。

所述对所提取的特征进行分类具体为：根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。

所述不同的决策机使用相同或不同的方式对特征进行训练，包括：使用支持向量机的决策机进行训练，或使用决策树的决策机进行训练。

所述训练模型为带编码的训练模型、或压缩的训练模型。

一种基于机器学习的程序识别装置，包括：

提取单元，用于分析输入的未知程序，提取所述未知程序的特征；

分类单元，用于根据所提取的特征对所述未知程序进行粗分类；

判断单元，用于根据所述粗分类的结果，将所述未知程序输入已生成的训练模型及相应的决策机中进行判断；

输出单元，用于输出所述未知程序的识别结果，所述识别结果为恶意程序或非恶意程序。

所述判断单元包括：

程序输入单元，用于当包括多个训练模型时，将未知程序分别输入多个已生成的训练模型及相应的决策机中进行判断；

加权计算单元，用于根据预先设置的每种特征分类在每个训练模型中的权重，将每个训练模型及相应的决策机对所述未知程序进行判断的结果进行加权计算；

所述输出单元，具体用于根据所述加权计算的结果输出对所述未知程序的识别结果。

还包括：

输入单元，用于输入提取到的海量程序，所述海量程序中包括恶意程序和非恶意程序；

提取单元，用于从所输入的每个程序中提取特征；

分类单元，用于对所提取的特征进行分类；

生成单元，用于根据所述分类的结果，将不同类别的特征使用不同的决策机进行训练，生成用于识别恶意程序的训练模型或训练模型集合。

所述提取单元包括：

程序文件分析单元，用于分析每个程序文件，从所述程序文件中抽取预先定义的特征；

向量属性生成单元，用于根据所抽取的特征生成特征向量，以及每个特征向量的黑白属性。

所述分类单元具体用于，根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。

由上述实施例可以看出，本申请实施例在识别未知程序的类型时，提取未知程序的特征，并根据所提取的特征对未知程序进行分类，根据分类的结果，将未知程序输入已生成的训练模型及相应的决策机中进行判断，输出未知程序的识别结果。本申请采用机器学习技术，通过对大量程序样本进行分析，得到识别恶意程序的模型，通过该模型的使用可以节省大量的人力，提高对恶意程序的识别效率；并且，在基于对海量程序进行数据挖掘的基础上，可以发现程序的内在规律，对未发生的恶意程序进行预防，使得恶意程序难以被免杀。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请生成识别程序类型的模型的第一实施例流程图；

图2A为本申请生成识别程序类型的模型的第二实施例流程图；

图2B为本申请实施例生成识别程序类型的模型应用实例示意图；

图3为本申请基于机器学习的程序识别方法的第一实施例流程图；

图4A为本申请基于机器学习的程序识别方法的第二实施例流程图；

图4B为本申请实施例对程序类型进行识别的应用实例示意图；

图5为本申请基于机器学习的程序识别装置实施例框图；

图6为本申请在生成识别程序类型的模型的装置实施例框图。

具体实施方式

本申请如下实施例提供了一种基于机器学习的程序识别方法及装置。本申请采用MLD(Machine Learning Detection机器学习识别)技术，通过对大量程序样本进行分析，得到识别恶意程序的模型，通过该模型可以提高对恶意程序的识别效率，对未发生的恶意程序进行预防，使得恶意程序难以被免杀。

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

参见图1，为本申请生成识别程序类型的模型的第一实施例流程图：

步骤101：输入提取到的海量程序，该海量程序中包括恶意程序和非恶意程序。

步骤102：从所输入的每个程序中提取特征，并对所提取的特征进行分类。

具体的，分析每个程序文件，从程序文件中抽取预先定义的特征，根据所抽取的特征生成特征向量，以及每个特征向量的黑白属性，根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。

步骤103：根据分类的结果，将不同类别的特征使用不同的决策机进行训练，生成用于识别恶意程序的训练模型或训练模型集合。

其中，不同的决策机使用相同或不同的方式对特征进行训练，包括：使用支持向量机的决策机进行训练，或使用决策树的决策机进行训练；训练模型可以为带编码的训练模型、或压缩的训练模型。

参见图2A，为本申请生成识别程序类型的模型的第二实施例流程图：

步骤201：输入提取到的海量程序，海量程序中包括恶意程序和非恶意程序。

步骤202：分析每个程序文件，从程序文件中抽取预先定义的特征。

步骤203：根据所抽取的特征生成特征向量，以及每个特征向量的黑白属性。

不同的特征分类中包含不同数量的具体特征，以特征分类是编译器为例，其中可以具体包括的编译器特征为：VC4、VC5、VC6、VC7、VC8、Delphi、BC。本申请实施例中，可以为每一个特征分类分配一个分类标识，例如，编译器的分类标识为“1”，对于具体的每个编译器特征，可以为其进一步分配特征标识，例如，VC4的特征标识为“1”、VC5的特征标识为“2”、VC6的特征标识为“3”、VC7的特征标识为“4”、VC8的特征标识为“5”、Delphi的特征标识为“6”、BC的特征标识为“7”。

则在根据所抽取的特征生成特征向量时，特征向量中的每一个特征的数组都用其分类标识和特征标识进行表征，例如，所抽取的特征为编译器特征“VC5”，则其对应的分类标识为“1”，特征标识为“2”，因此特征向量中对应该“VC5”的信息表示为“1:2”；同理，属于其它特征分类的具体特征也用上述形式表示，如下所示，为从某个程序中提取到了4个特征的特征向量示例：1:0 2:121 100:12345678 5000：365。

特征向量的黑白属性用于表示包含该特征向量中的特征的程序属于恶意程序还是非恶意程序，其中属性为“白”，则对应非恶意程序，属性为“黑”，则对应恶意程序；进一步，可以为白属性定义标识为“0”，黑属性定义标识为“1”。则在为每个程序生成特征向量后，可以根据特征向量包含的信息为其分配属性标识，例如，为上述特征向量“1:0 2:121100:12345678 5000：365”分配属性标识为白属性“0”，则相应的信息可以表示为“0 1:0 2:121 100:12345678 5000：365”。

上述表示方法也可以直接用数组表示，在数组第n个位置的值即为第n个特征的值。

步骤204：根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。

步骤205：根据分类的结果，将不同类别的向量矩阵使用预选的决策机进行训练，生成用于识别恶意程序的训练模型。

参见图2B，为本申请实施例生成识别程序类型的模型的应用实例示意图：

其中，若干PE文件即为所输入的海量可执行程序文件，包括恶意程序和非恶意程序，根据特征分类的不同包含了k个决策机，以及对应k个决策机的k个训练模型。分析可执行程序文件后，抽取相应的特征，将所抽取的特征放入一个相应的特征向量之内，根据已经抽取到的特征，进行特征分类，例如，可以依据加壳的类别将特征分成UPX、NSPack、ASPack、UPack、PECompact等，根据分类的结果，将不同类别的程序文件的特征向量和黑白属性使用不同的决策机进行训练，得到相应的训练模型。本实施例中进行分类时，根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。该分类方法速度较快，经过统计只需要反汇编16步，即可达到良好区分度，并且准确度较高，通用性好，大多数情况下不易被混淆；并且可以实现扩展。

应用该实例生成识别程序类型的模型的详细过程与图2A所述流程的描述一致，在此不再赘述。

参见图3，为本申请基于机器学习的程序识别方法的第一实施例流程图：

步骤301：分析输入的未知程序，提取未知程序的特征。

步骤302：根据所提取的特征对未知程序进行粗分类。

步骤303：根据粗分类的结果，将未知程序输入已生成的训练模型及相应的决策机中进行判断。

步骤304：输出未知程序的识别结果，该识别结果为恶意程序或非恶意程序。

参见图4A，为本申请识别程序类型的方法的第二实施例流程图，该实施例示出了当有多个训练模型时的识别过程：

步骤401：分析输入的未知程序，提取未知程序的特征。

步骤402：根据所提取的特征对未知程序进行粗分类。

步骤403：根据粗分类的结果，将未知程序分别输入多个已生成的训练模型及相应的决策机中进行判断。

步骤404：根据预先设置的每种特征分类在每个训练模型中的权重，将每个训练模型及相应的决策机对未知程序进行判断的结果进行加权计算。

步骤405：根据加权计算的结果输出对未知程序的识别结果，该识别结果为恶意程序或非恶意程序。

参见图4B，为本申请实施例对程序类型进行识别的应用实例示意图：

其中，PE文件即为所输入的未知程序文件，根据特征分类的不同包含了k个决策机，以及对应k个决策机的k个训练模型。分析PE文件后，抽取相应的特征，将所抽取的特征放入一个相应的特征向量之内，根据已经抽取到的特征，进行特征分类，例如，可以依据加壳的类别将特征分成UPX、NSPack、ASPack、UPack、PECompact等，或者，据编译器的类型可以分为VC4、VC5、VC6、VC7、VC8、Delphi、BC等，根据分类的结果，使用不同的决策机和训练模型进行相应的判断，根据相应决策机和模型得出的判断结果，依分类的权重加权得到评分结果，由评分结果确定该文件是否是恶意程序或正常程序。

例如，假设决策机一共有k个，分类一共有m种，分别为分类1,2,…,m，第i种分类预先设定的权重是(w_i1,w_i2,…,w_ik),则相应的样本类别i的决策机判别的结果是(r_i1,r_i2,…,r_ik)，由此得到的综合结果为(w_i1,w_i2,…,w_ik)*(r_i1,r_i2,…,r_ik)。可以预先设置一个结果判断阈值，当判断结果小于该阈值则确定未知程序为非恶意程序，当判断结果大于该阈值，则确定未知程序为恶意程序。

与本申请基于机器学习的程序识别方法的实施例相对应，本申请还提供了基于机器学习的程序识别装置的实施例。

参见图5，为本申请基于机器学习的程序识别装置的实施例框图：

该装置包括：提取单元510、分类单元520、判断单元530和输出单元540。

其中，提取单元510，用于分析输入的未知程序，提取所述未知程序的特征；

分类单元520，用于根据所提取的特征对所述未知程序进行粗分类；

判断单元530，用于根据所述粗分类的结果，将所述未知程序输入已生成的训练模型及相应的决策机中进行判断；

输出单元540，用于输出所述未知程序的识别结果，所述识别结果为恶意程序或非恶意程序。

具体的，判断单元530可以包括(图5中未示出)：程序输入单元，用于当包括多个训练模型时，将未知程序分别输入多个已生成的训练模型及相应的决策机中进行判断；加权计算单元，用于根据预先设置的每种特征分类在每个训练模型中的权重，将每个训练模型及相应的决策机对所述未知程序进行判断的结果进行加权计算；所述输出单元540，具体用于根据所述加权计算的结果输出对所述未知程序的识别结果。

参见图6，为本申请在生成识别程序类型的模型时的装置实施例框图：

该装置包括：输入单元610、提取单元620、分类单元630和生成单元640。

其中，输入单元610，用于输入提取到的海量程序，所述海量程序中包括恶意程序和非恶意程序；

提取单元620，用于从所输入的每个程序中提取特征；

分类单元630，用于对所提取的特征进行分类；

生成单元640，用于根据所述分类的结果，将不同类别的特征使用不同的决策机进行训练，生成用于识别恶意程序的训练模型或训练模型集合。

具体的，提取单元620可以包括(图6中未示出)：程序文件分析单元，用于分析每个程序文件，从所述程序文件中抽取预先定义的特征；向量属性生成单元，用于根据所抽取的特征生成特征向量，以及每个特征向量的黑白属性。

具体的，分类单元630用于根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。

通过对以上实施方式的描述可知，本申请实施例在识别未知程序的类型时，提取未知程序的特征，并根据所提取的特征对未知程序进行分类，根据分类的结果，将未知程序输入已生成的训练模型及相应的决策机中进行判断，输出未知程序的识别结果。本申请采用机器学习技术，通过对大量程序样本进行分析，得到识别恶意程序的模型，通过该模型的使用可以节省大量的人力，提高对恶意程序的识别效率；并且，在基于对海量程序进行数据挖掘的基础上，可以发现程序的内在规律，对未发生的恶意程序进行预防，使得恶意程序难以被免杀。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述的本申请实施方式，并不构成对本申请保护范围的限定。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器学习的程序识别方法，其特征在于，包括：

分析输入的未知程序，提取所述未知程序的特征；所述输入的未知程序为PE文件；

将所提取的特征放入一个特征向量之内对所述未知程序进行粗分类；

输出所述未知程序的识别结果，所述识别结果为恶意程序或非恶意程序；

根据所述分类的结果，将不同类别的特征使用不同的决策机进行训练，生成用于识别恶意程序的训练模型或训练模型集合；

其中，所述从所输入的每个程序中提取特征包括：

2.根据权利要求1所述的方法，其特征在于，当包括多个训练模型时，所述将未知程序输入已生成的训练模型及相应的决策机中进行判断包括：

3.根据权利要求1所述的方法，其特征在于，所述对所提取的特征进行分类具体为：根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。

4.根据权利要求1所述的方法，其特征在于，所述不同的决策机使用相同或不同的方式对特征进行训练，包括：使用支持向量机的决策机进行训练，或使用决策树的决策机进行训练。

5.根据权利要求1所述的方法，其特征在于，所述训练模型为带编码的训练模型、或压缩的训练模型。

6.一种基于机器学习的程序识别装置，其特征在于，包括：

提取单元，用于分析输入的未知程序，提取所述未知程序的特征；所述输入的未知程序为PE文件；

分类单元，用于将所提取的特征放入一个特征向量之内对所述未知程序进行粗分类；

输出单元，用于输出所述未知程序的识别结果，所述识别结果为恶意程序或非恶意程序；

提取单元，用于从所输入的每个程序中提取特征；

分类单元，用于对所提取的特征进行分类；

生成单元，用于根据所述分类的结果，将不同类别的特征使用不同的决策机进行训练，生成用于识别恶意程序的训练模型或训练模型集合；

其中，所述提取单元包括：

7.根据权利要求6所述的装置，其特征在于，所述判断单元包括：

8.根据权利要求6所述的装置，其特征在于，所述分类单元具体用于，根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。