CN109063482A

CN109063482A - 宏病毒识别方法、装置、存储介质及处理器

Info

Publication number: CN109063482A
Application number: CN201810905117.2A
Authority: CN
Inventors: 丁亢; 李小青; 谭国苹
Original assignee: BEYONDSOFT Corp
Current assignee: BEYONDSOFT Corp
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2018-12-21
Anticipated expiration: 2038-08-09
Also published as: CN109063482B

Abstract

本发明公开了一种宏病毒识别方法、装置、存储介质及处理器。其中，该方法包括：获取待检测文件的待检测宏程序；使用决策模型对待检测宏程序进行分析，识别待检测宏程序是否为病毒宏程序，其中，决策模型为使用多组训练数据通过机器学习算法训练出的，多组训练数据包括第一类数据和第二类数据，第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；在确定待检测宏程序属于病毒宏程序的情况下，确定待检测宏程序对应待检测文件为病毒文件。本发明解决了现有宏病毒识别效率低的技术问题。

Description

宏病毒识别方法、装置、存储介质及处理器

技术领域

本发明涉及网络安全领域，具体而言，涉及一种宏病毒识别方法、装置、存储介质及处理器。

背景技术

目前，在进行宏病毒查杀的过程中所使用的传统方案是，通过传统特征提取技术，提取宏病毒的特征码，并存入数据库。在病毒检测时，提取需要进行病毒检测的文件中的宏程序，并将该宏程序与数据库中的特征进行匹配，以此来判定文件中是否存在病毒。

但是，通过上述方案提取的特征，通常只能针对于特定的病毒家族，以及该病毒家族的变种，容易被病毒作者绕过。

另外，提取宏病毒的工作需要训练有素的病毒分析人员来完成，因此，传统的宏病毒查杀技术需要投入较多人力才能实现对宏病毒的识别，导致宏病毒的识别效率低，进而影响宏病毒的查杀效率。

针对上述现有宏病毒识别效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种宏病毒识别方法、装置、存储介质及处理器，以至少解决现有宏病毒识别效率低的技术问题。

根据本发明实施例的一个方面，提供了一种宏病毒识别方法，包括：获取待检测文件的待检测宏程序；使用决策模型对所述待检测宏程序进行分析，识别所述待检测宏程序是否为病毒宏程序，其中，所述决策模型为使用多组训练数据通过机器学习算法训练出的，所述多组训练数据包括第一类数据和第二类数据，所述第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；所述第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；在确定所述待检测宏程序属于病毒宏程序的情况下，确定所述待检测宏程序对应所述待检测文件为病毒文件。

进一步地，获取待检测文件的待检测宏程序包括：获取待检测文件集合，其中，所述待检测文件集合中包括至少一个文件；识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。

进一步地，获取待检测文件的待检测宏程序包括：判断每个所述待检测文件中的宏程序是否为多个；在所述待检测文件的宏程序为多个的情况下，将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。

进一步地，所述决策模型通过以下方式训练得出：从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序作为样本集数据，其中，所述样本集数据包括：训练集数据和测试集数据；使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型；使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证；在所述训练模型的验证结果为准确的情况下，确定所述训练模型为所述决策模型；在所述训练模型的验证结果为不准确的情况下，根据所述验证结果调整所述训练模型。

根据本发明实施例的另一个方面，提供了一种宏病毒识别装置，包括：获取单元，用于获取待检测文件的待检测宏程序；识别单元，用于使用决策模型对所述待检测宏程序进行分析，识别所述待检测宏程序是否为病毒宏程序，其中，所述决策模型为使用多组训练数据通过机器学习算法训练出的，所述多组训练数据包括第一类数据和第二类数据，所述第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；所述第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；确定单元，用于在确定所述待检测宏程序属于病毒宏程序的情况下，确定所述待检测宏程序对应所述待检测文件为病毒文件。

进一步地，所述获取单元包括：获取模块，用于获取待检测文件集合，其中，所述待检测文件集合中包括至少一个文件；识别模块，用于识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。

进一步地，所述获取单元包括：判断模块，用于判断每个所述待检测文件中的宏程序是否为多个；整合模块，用于在所述待检测文件的宏程序为多个的情况下，将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。

进一步地，所述决策模型通过以下方式训练得出：选取模块，用于从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序，其中，所述样本集数据包括：训练集数据和测试集数据；训练模块，用于使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型；验证模块，用于使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证；确定模块，用于在所述训练模型的验证结果为准确的情况下，确定所述训练模型为所述决策模型；调整模块，用于在所述训练模型的验证结果为不准确的情况下，根据所述验证结果调整所述训练模型。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质包括存储的程序，其中，所述程序运行时执行上述任一项所述的宏病毒识别方法。

根据本发明的又一个实施例，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任一项所述的宏病毒识别方法。

在本发明实施例中，获取待检测文件中的待检测宏程序，再使用预先通过机器学习训练出的决策模型对待检测宏程序进行识别，判断待检测宏程序是否为病毒宏程序，然后再进一步对包含病毒宏程序的待检测文件进行处理，达到了快速确定用于识别病毒的决策模型的目的，从而根据机器训练得到的决策模型可以实现快速识别病毒宏程序的技术效果，进而解决了现有宏病毒识别效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种宏病毒识别方法的示意图；

图2是根据本发明实施例的一种基于机器学习的Office宏病毒识别方法的示意图；

图3是根据本发明实施例的一种宏病毒识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种宏病毒识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种宏病毒识别方法的示意图，如图1所示，该方法包括如下步骤：

步骤S102，获取待检测文件的待检测宏程序；

步骤S104，使用决策模型对待检测宏程序进行分析，识别待检测宏程序是否为病毒宏程序，其中，决策模型为使用多组训练数据通过机器学习算法训练出的，多组训练数据包括第一类数据和第二类数据，第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；

步骤S106，在确定待检测宏程序属于病毒宏程序的情况下，确定待检测宏程序对应待检测文件为病毒文件。

通过上述步骤，获取待检测文件中的待检测宏程序，再使用预先通过机器学习训练出的决策模型对待检测宏程序进行识别，判断待检测宏程序是否为病毒宏程序，然后再进一步对包含病毒宏程序的待检测文件进行处理，达到了快速确定用于识别病毒的决策模型的目的，从而根据机器训练得到的决策模型可以实现快速识别病毒宏程序的技术效果，进而解决了现有宏病毒识别效率低的技术问题。

在上述步骤S102中，待检测文件可以是文档文件(如Office文件)，该文档文件中存在宏程序。

此处需要说明的是，上述宏文件即Office宏，用于在人们使用软件进行工作的情况下，避免一再地重复相同的动作而设计出来的一种工具，可以利用简单的语法把常用的工作写成宏。

在上述步骤S104中，病毒宏程序是指被用来实现一些恶意用途的宏程序，即宏病毒，是一种寄存在文档或模板的宏中的计算机病毒，一旦打开这样的文档，其中的宏就会被执行，于是宏病毒就会被激活。

在上述步骤S106中，若待检测宏程序属于病毒宏程序，则标记该待检测宏程序，以及该待检测宏程序对应的待检测文件。

可选地，待检测宏程序可以是同一文件中的多个宏程序的集合，也即待检测宏程序中可以包含多个宏程序，若待检测宏程序中的至少一个宏程序属于病毒宏程序，则该待检测宏程序也属于病毒宏程序。

在通过上述步骤S106确定病毒文件后，可以对病毒文件进行查杀。

此处需要说明的是，本发明上述实施例可以从待检测文件中提取待检测宏程序，然后再对提取的宏程序进行宏病毒识别。

作为一种可选的实施例，获取待检测文件的待检测宏程序包括：获取待检测文件集合，其中，待检测文件集合中包括至少一个文件；识别待检测文件集合中存在宏程序的文件为待检测文件。

可选地，待检测文件集合中包括多个需要进行宏病毒检测的多个文件，由于宏病毒是针对宏程序的病毒，因此不存在宏程序的文件中也不会存在病毒宏程序，进而可以先识别需要进行宏病毒检测的多个文件中是否存在宏程序，然后再将存在宏程序的文件作为待检测文件，进行后续病毒识别。

根据本发明上述实施例，可以先对需要进行宏病毒检测的文件进行分类，识别出存在宏程序的待检测文件，从而可以减少进行病毒检测的文件数量，提高宏病毒检测效率。

作为一种可选的实施例，获取待检测文件的待检测宏程序包括：判断每个待检测文件中的宏程序是否为多个；在待检测文件的宏程序为多个的情况下，将同一个待检测文件中的多个宏程序整合为一个待检测宏程序。

根据本发明上述实施例，若同一个待检测文件中存在多个宏程序，则可以将同一个待检测文件中的多个宏程序整合为一个待检测宏程序，然后再根据该待检测宏程序进行宏病毒检检测。

此处需要说明的是，将同一个待检测文件中的多个宏程序整合为一个待检测宏程序包括：遍历同一个待检测文件中的多个宏程序，提取多个宏程序的内容，并将多个宏程序的内容存储在同一个宏程序中，得到待检测宏程序。

可选地，可以根据各宏程序的内容大小，按照大到小的顺序依次将多个宏程序的内容存储在同一个宏程序中，实现对多个宏程序的整合。

作为一种可选的实施例，决策模型通过以下方式训练得出：从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序，其中，样本集数据包括：训练集数据和测试集数据；使用训练集数据中的多组病毒宏程序和非病毒宏程序通过机器学习得到训练模型；使用测试集数据中的多组病毒宏程序和非病毒宏程序对训练模型的准确性进行验证；在训练模型的验证结果为准确的情况下，确定训练模型为决策模型；在训练模型的验证结果为不准确的情况下，根据验证结果调整训练模型。

根据本发明上述实施例，预定病毒库中存储病毒文件和非病毒文件，其中，病毒文件中包括病毒程序，非病毒文件中包括非病毒宏程序，在预定数据库中选取存储病毒文件和非病毒文件，并从选取的病毒文件和非病毒文件中提取病毒宏程序和非病毒宏程序作为训练集数据，通过机器学习的方式得到训练模型，然后再使用预定病毒库中其他的部分病毒宏程序和非病毒宏程序作为测试集数据，对训练模型进行验证，以确定该训练模型是否准确性，并在验证结果为准确的情况下，确定训练模型为决策模型，在验证结果为不准确的情况下，根据验证结果调整训练模型，从而得到准确的决策模型。

此处需要说明的是，预定病毒库中可以存储，包含病毒宏程序的Office文件和非病毒宏程序的Office文件；还可以存储属于其他类型的病毒文件和非病毒文件。

可选地，包含宏程序的病毒文件和非病毒文件可以是Office文件，其文件格式可以包括xls，doc，ppt，docm，dotm等等。

可选地，可以使用规模较大的数据集、及较大时间空间的非相关样本进行验证，得到更加准确的决策模型，提高决策模型的使用范围。

本发明还提供了一种优选实施例，该优选实施例提供了一种基于机器学习的Office宏病毒识别方法。

本发明所提供的技术方案，可以使用机器学习的方式对病毒库存储的病毒样本进行特征训练，得到用于进行宏病毒识别的决策模型。

可选地，训练决策模型的步骤如下：

步骤S11、从病毒库中分别选取包含宏程序的一定量病毒样本和非病毒样本，得到样本集数据。

步骤S12、从给定的样本集数据中抽取部分文件，作为训练集数据，剩下的部分作为测试集数据，并应用深度学习算法，基于训练集数据生成决策模型。

步骤S13、利用决策模型对测试集数据进行测试，来验证决策模型是否准确。

可选地，在决策模型不准确的情况下，对判定有误的部分进行分析，并根据分析结果对数据进行纠错，或者对模型参数进行调整，继续训练。

步骤S13、通过对规模较大的集数据和较大时间空间的非相关样本进行验证，确认模型可推广性，若存在推广性差问题，则增加测试集中易遗漏类型的样本继续训练。

本发明所提供的技术方案，可以使用决策模型进行宏病毒识别。

图2是根据本发明实施例的一种基于机器学习的Office宏病毒识别方法的示意图，如图2所示，包括：

步骤301、将需要检测的Office文件加入扫描队列。

步骤302、检查扫描队列中的Office文件中是否包含宏程序，如果不包含，则执行步骤S307处理下一个文件。

步骤303、如果同一个Office文件中包含多个宏程序，则对这些宏程序进行整合，把整合后的宏程序当作1个宏程序进行处理。

步骤304、利用决策模型进行病毒判断，确定Office文件中的宏程序是否为病毒宏程序。

步骤305、如果Office文件中的宏程序是病毒宏程序，则把该宏程序及相应的Office文件标记为病毒，并进行查杀。

可选地，在对Office文件进行查杀后，执行步骤S307。

步骤306、如果Office文件不是病毒宏程序，则把该宏程序标记为非病毒，不对Office文件进行标记，然后执行步骤S307。

步骤307、处理下一个文件，对文件进行扫描，直到把所有队列里的文件处理完毕。

根据本发明的另一方面，本发明实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述宏病毒识别方法。

根据本发明的另一方面，本发明实施例还提供了一种处理器，该处理器用于运行程序，其中，该程序运行时执行上述宏病毒识别方法。

根据本发明实施例，还提供了一种宏病毒识别装置实施例，需要说明的是，该宏病毒识别装置可以用于执行本发明实施例中的宏病毒识别方法，本发明实施例中的宏病毒识别方法可以在该宏病毒识别装置中执行。

图3是根据本发明实施例的一种宏病毒识别装置的示意图，如图3所示，该装置可以包括：获取单元31，用于获取待检测文件的待检测宏程序；识别单元33，用于使用决策模型对待检测宏程序进行分析，识别待检测宏程序是否为病毒宏程序，其中，决策模型为使用多组训练数据通过机器学习算法训练出的，多组训练数据包括第一类数据和第二类数据，第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；确定单元35，用于在确定待检测宏程序属于病毒宏程序的情况下，确定待检测宏程序对应待检测文件为病毒文件。

需要说明的是，该实施例中的获取单元31可以用于执行本申请实施例中的步骤S102，该实施例中的识别单元33可以用于执行本申请实施例中的步骤S104，该实施例中的确定单元35可以用于执行本申请实施例中的步骤S106。上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

根据本发明上述实施例，获取待检测文件中的待检测宏程序，再使用预先通过机器学习训练出的决策模型对待检测宏程序进行识别，判断待检测宏程序是否为病毒宏程序，然后再进一步对包含病毒宏程序的待检测文件进行处理，达到了快速确定用于识别病毒的决策模型的目的，从而根据机器训练得到的决策模型可以实现快速识别病毒宏程序的技术效果，进而解决了现有宏病毒识别效率低的技术问题。

作为一种可选的实施例，获取单元包括：获取模块，用于获取待检测文件集合，其中，待检测文件集合中包括至少一个文件；识别模块，用于识别待检测文件集合中存在宏程序的文件为待检测文件。

作为一种可选的实施例，获取单元包括：判断模块，用于判断每个待检测文件中的宏程序是否为多个；整合模块，用于在待检测文件的宏程序为多个的情况下，将同一个待检测文件中的多个宏程序整合为一个待检测宏程序。

作为一种可选的实施例，决策模型通过以下方式训练得出：选取模块，用于从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序作为样本集数据，其中，样本集数据包括：训练集数据和测试集数据；训练模块，用于使用训练集数据中的多组病毒宏程序和非病毒宏程序通过机器学习得到训练模型；验证模块，用于使用测试集数据中的多组病毒宏程序和非病毒宏程序对训练模型的准确性进行验证；确定模块，用于在训练模型的验证结果为准确的情况下，确定训练模型为决策模型；调整模块，用于在训练模型的验证结果为不准确的情况下，根据验证结果调整训练模型。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种宏病毒识别方法，其特征在于，包括：

获取待检测文件的待检测宏程序；

使用决策模型对所述待检测宏程序进行分析，识别所述待检测宏程序是否为病毒宏程序，其中，所述决策模型为使用多组训练数据通过机器学习算法训练出的，所述多组训练数据包括第一类数据和第二类数据，所述第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；所述第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；

在确定所述待检测宏程序属于病毒宏程序的情况下，确定所述待检测宏程序对应所述待检测文件为病毒文件。

2.根据权利要求1所述的方法，其特征在于，获取待检测文件的待检测宏程序包括：

获取待检测文件集合，其中，所述待检测文件集合中包括至少一个文件；

识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。

3.根据权利要求1所述的方法，其特征在于，获取待检测文件的待检测宏程序包括：

判断每个所述待检测文件中的宏程序是否为多个；

在所述待检测文件的宏程序为多个的情况下，将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。

4.根据权利要求1所述的方法，其特征在于，所述决策模型通过以下方式训练得出：

从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序作为样本集数据，其中，所述样本集数据包括：训练集数据和测试集数据；

使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型；

使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证；

在所述训练模型的验证结果为准确的情况下，确定所述训练模型为所述决策模型；

在所述训练模型的验证结果为不准确的情况下，根据所述验证结果调整所述训练模型。

5.一种宏病毒识别装置，其特征在于，包括：

获取单元，用于获取待检测文件的待检测宏程序；

识别单元，用于使用决策模型对所述待检测宏程序进行分析，识别所述待检测宏程序是否为病毒宏程序，其中，所述决策模型为使用多组训练数据通过机器学习算法训练出的，所述多组训练数据包括第一类数据和第二类数据，所述第一类数据中的每组训练数据均包括：病毒宏程序和标识该宏程序为病毒的标签；所述第二类数据中的每组训练数据均包括：非病毒宏程序和标识该宏程序不为病毒的标签；

确定单元，用于在确定所述待检测宏程序属于病毒宏程序的情况下，确定所述待检测宏程序对应所述待检测文件为病毒文件。

6.根据权利要求5所述的装置，其特征在于，所述获取单元包括：

获取模块，用于获取待检测文件集合，其中，所述待检测文件集合中包括至少一个文件；

识别模块，用于识别所述待检测文件集合中存在宏程序的文件为所述待检测文件。

7.根据权利要求5所述的装置，其特征在于，所述获取单元包括：

判断模块，用于判断每个所述待检测文件中的宏程序是否为多个；

整合模块，用于在所述待检测文件的宏程序为多个的情况下，将同一个所述待检测文件中的多个宏程序整合为一个所述待检测宏程序。

8.根据权利要求5所述的装置，其特征在于，所述决策模型通过以下方式训练得出：

选取模块，用于从预定病毒库中提取病毒文件中的病毒宏程序和非病毒文件中的非病毒宏程序作为样本集数据，其中，所述样本集数据包括：训练集数据和测试集数据；

训练模块，用于使用所述训练集数据中的多组所述病毒宏程序和所述非病毒宏程序通过机器学习得到训练模型；

验证模块，用于使用所述测试集数据中的多组所述病毒宏程序和所述非病毒宏程序对所述训练模型的准确性进行验证；

确定模块，用于在所述训练模型的验证结果为准确的情况下，确定所述训练模型为所述决策模型；

调整模块，用于在所述训练模型的验证结果为不准确的情况下，根据所述验证结果调整所述训练模型。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至4中任意一项所述的宏病毒识别方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的宏病毒识别方法。