CN112818347B

CN112818347B - 一种文件标签确定方法、装置、设备及存储介质

Info

Publication number: CN112818347B
Application number: CN202110198899.2A
Authority: CN
Inventors: 曹锦新; 闫华; 位凯志
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2024-04-09
Anticipated expiration: 2041-02-22
Also published as: CN112818347A

Abstract

本申请公开一种文件标签确定方法、装置、设备及存储介质，该方法包括：对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；将每个样本文件的宏代码文件输入至预设分类模型，以便于对样本文件集进行分类，得到至少一类样本文件；其中，预设分类模型是基于哈希算法和模糊哈希算法构建；确定每类样本文件的标签信息，并将标签信息作为同类样本文件中所有样本文件的标签信息。如此，通过预设分类模型对样本文件集进行分类，后续操作者只需确定每类样本文件中任意一个样本文件的标签信息即可，减少了确定标签信息的样本文件的数量，提高了确定样本文件的标签信息的工作效率。

Description

一种文件标签确定方法、装置、设备及存储介质

技术领域

本申请涉及计算机安全技术，尤其涉及一种文件标签确定方法、装置、设备及存储介质。

背景技术

宏病毒是一种寄存在文件(如Word、Excel、PowerPoint、Outlook等)的宏中的计算机病毒，具有流行度高、传染性强和危害大等特点。携带有宏病毒的文件一旦被打开，宏病毒立即被执行，从而对计算机造成伤害。

为了避免对计算机造成伤害，通过宏病毒检测模型对即将打开的文件进行检测，若检测结果表示文件属于白文件或者非混淆文件，才可以打开文件。

由于宏病毒的种类在不断更新，为了更准确检测文件中是否存在宏病毒，宏病毒检测模型需要进行训练，具体是通过人工依次确定新增文件集中每个新增文件对应的标签信息，再利用新增文件集和每个新增文件对应的标签信息对宏病毒检测模型进行训练。

上述提及的训练方式由于需人工依次确定新增文件集中每个新增文件对应的标签信息，导致确定新增文件集对应的所有标签信息的效率降低。

发明内容

为解决上述技术问题，本申请提供一种文件标签确定方法、装置、设备及存储介质。

本申请的技术方案是这样实现的：

第一方面，提供了一种文件标签确定方法，该方法包括：

对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；

将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件；其中，所述预设分类模型是基于哈希算法和模糊哈希算法构建；

确定每类样本文件的标签信息，并将所述标签信息作为同类样本文件中所有样本文件的标签信息。

上述方案中，所述标签信息用于指示每类样本文件是混淆文件或非混淆文件。

上述方案中，所述将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件，包括：基于所述哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果；基于所述模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果；从所述第二分类结果中确定所述至少一类样本文件。

上述方案中，所述基于所述哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果，包括：利用所述哈希算法计算每个样本文件的宏代码文件对应的第一哈希值；将具有相同第一哈希值的样本文件作为同类样本文件，得到所述第一分类结果。

上述方案中，所述基于所述模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果，包括：从所述第一分类结果中每类样本文件中分别选取一个目标样本文件；基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果；根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果。

上述方案中，所述基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果，包括：利用所述模糊哈希算法计算每个目标样本文件的宏代码文件对应的第二哈希值；将每个目标样本文件的宏代码文件对应的第二哈希值作为所述处理结果。

上述方案中，所述根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果，包括：比较所述处理结果中任意两个第二哈希值是否满足预设相似条件；若满足，基于所述第一分类结果将对应的两个目标样本文件所属的不同类样本文件归为同类样本文件，得到所述第二分类结果；若不满足，将所述第一分类结果作为所述第二分类结果。

上述方案中，所述方法还包括：若不满足，将对应的两个目标样本文件所属的不同类样本文件确定为不同类样本文件。

上述方案中，所述对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件，包括：利用宏代码抽取工具在所述样本文件集中每个样本文件中逐行抽取至少一个宏代码；将每个样本文件中抽取的至少一个宏代码进行拼接，得到每个样本文件的宏代码文件。

第二方面，提供了一种宏病毒检测模型训练方法，该方法包括：

获取训练文件集；其中，所述训练文件集包括样本文件集，所述样本文件集中包括至少一个样本文件及每个样本文件的标签信息；

基于所述训练文件集及每个训练文件的标签信息对宏病毒检测模型进行训练，得到训练完成的宏病毒检测模型。

上述方案中，所述样本文件集为包括标签信息的样本文件集。

上述方案中，所述方法还包括：获取待检测文件集；其中，所述待检测文件集中包括至少一个待检测文件；所述得到训练完成的宏病毒检测模型之后，所述方法还包括：利用所述训练完成的宏病毒检测模型对所述至少一个待检测文件中目标检测文件进行检测，确定所述目标检测文件是否携带宏病毒。

第三方面，提供了一种文件标签确定装置，该装置包括：

提取单元，用于对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；

分类单元，用于将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件；其中，所述预设分类模型是基于哈希算法和模糊哈希算法构建；

确定单元，用于确定每类样本文件的标签信息，并将所述标签信息作为同类样本文件中所有样本文件的标签信息。

第四方面，提供了一种宏病毒检测模型训练装置，该装置包括：

获取单元，用于获取样本文件集；其中，所述样本文件集中包括至少一个样本文件及每个样本文件的标签信息；

训练单元，用于基于所述样本文件集及每个样本文件的标签信息对宏病毒检测模型进行训练，得到训练完成的宏病毒检测模型。

第五方面，提供了一种文件标签确定设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行文件标签确定方法的步骤。

第六方面，提供了一种宏病毒检测模型训练设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器配置为运行所述计算机程序时，执行宏病毒检测模型训练方法的步骤。

第七方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

采用上述技术方案，对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；将每个样本文件的宏代码文件输入至预设分类模型，以便于对样本文件集进行分类，得到至少一类样本文件；其中，预设分类模型是基于哈希算法和模糊哈希算法构建；确定每类样本文件的标签信息，并将标签信息作为同类样本文件中所有样本文件的标签信息。如此，通过预设分类模型对样本文件集进行分类，后续操作者只需确定每类样本文件中任意一个样本文件的标签信息即可，减少了确定标签信息的样本文件的数量，提高了确定样本文件的标签信息的工作效率。

附图说明

图1为本申请实施例中文件标签确定方法的第一流程示意图；

图2为本申请实施例中文件标签确定方法的第二流程示意图；

图3为本申请实施例中文件标签确定方法的第三流程示意图；

图4为本申请实施例中宏病毒检测模型训练方法的流程示意图；

图5为本申请实施例中文件标签确定装置组成的结构示意图；

图6为本申请实施例中宏病毒检测模型训练装置组成的结构示意图；

图7为本申请实施例中文件标签确定设备组成的结构示意图；

图8为本申请实施例中宏病毒检测模型训练设备组成的结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

本申请实施例提供了一种文件标签确定方法，图1为本申请实施例中文件标签确定方法的第一流程示意图，如图1所示，该文件标签确定方法具体可以包括：

步骤101：对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；

需要说明的是，本申请为了解决现有中确定样本文件集中每个样本文件的标签信息时，需通过宏病毒分析工具对所有样本文件依次确定标签信息，这种确定标签信息的方式导致效率降低的问题，本申请提出一种文件标签确定方法，通过对样本文件集进行分类，后续操作者只需确定每类样本文件中任意样本文件的标签信息即可，减少了确定标签信息的样本文件的数量，提高了确定样本文件的标签信息的工作效率。

需要说明的是，由于相同宏代码文件的样本文件可认为是同类样本文件，不同宏代码文件的样本文件可认为是不同类样本文件，故基于宏代码文件达到对样本文件进行分类的目的。这里，获取到样本文件后，会对样本文件进行提取宏操作，并获取包括的至少一个宏代码。其中，至少一个宏代码组成宏代码文件。

在一些实施例中，该步骤具体包括：利用宏代码抽取工具在所述样本文件集中每个样本文件中逐行抽取至少一个宏代码；将每个样本文件中抽取的至少一个宏代码进行拼接，得到每个样本文件的宏代码文件。

需要说明的是，宏代码抽取工具用于抽取文件中包含的宏代码。宏代码抽取工具可以是oletools。

具体的，利用宏代码抽取工具从任意一个样本文件中逐行抽取宏代码，若能抽取到，抽取样本文件中包含的至少一个宏代码，对至少一个宏代码进行拼接操作，得到样本文件的宏代码文件；若不能抽取到，则说明样本文件中不包含宏代码。

这里，抽取文件中宏代码文件的目的是下一步骤102可通过宏代码文件对文件进行分类，具体是相同宏代码文件的样本文件可认为是同类样本文件。对于不包含宏代码的文件不能进行分类，对于如何实现文件的分类在下一步骤中进行具体阐述。

步骤102：将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件；其中，所述预设分类模型是基于哈希算法和模糊哈希算法构建；

需要说明的是，预设分类模型是基于哈希算法和模糊哈希算法构建，用于对样本文件集中每个样本文件进行分类，将相同宏代码文件的样本文件作为同类样本文件，将不同宏代码文件的样本文件作为不同类样本文件。这里，同类样本文件具体是文件内容相似或相同的文件，对于样本文件的格式没有限定，同类样本文件对应的文件格式可以包括Word、Excel、PowerPoint、Outlook。不同类样本文件指的是文件内容不相似或不相同的文件。

需要说明的是，哈希(hash)是一种将任意长度的文件信息压缩到某一固定长度的文件信息摘要的函数，以较短的文件信息来保证文件的唯一性的标志。常用的哈希算法包括但不限于MD5、SHA1、SHA256。即利用哈希算法将每个样本文件信息压缩至预设固定长度的文件信息，再将压缩后的较短的文件信息(即下文提及的第一哈希值)相同的作为同一类样本文件。模糊哈希又叫基于内容分割的分片分片哈希算法(Context TriggeredPiecewise Hashing，CTPH)，主要用于文件的相似性比较。对于文件的部分变化(包括在多处修改、增加、删除部分内容)，使用模糊哈希均能发现与源文件的相似关系。常用的模糊哈希算法包括但不限于ssdeep。

需要说明的是，由于哈希算法对输入的文件信息的变化敏感，如多一个空格都会导致压缩后的文件信息(即哈希值)不相同，进而导致本该属于一类的文件却被分为多个类，因此，为了避免因文件信息的部分变化导致多分类，使得确定样本文件的标签信息工作量增加的情况，再次利用模糊哈希算法计算任意两个类样本文件之间是否存在相似性，若存在，将对应的两个类样本文件归为同类样本文件，进而达到减少确定样本文件的标签信息工作量的目的；若不存在，将对应的两个类样本文件归为不同类样本文件。

需要说明的是，预设分类模型还可以仅基于哈希算法构建，或者仅基于模糊哈希算法构建。由两种算法构建的预设分类模型相对于由其中一种算法构建的预设分类模型来说，由两种算法构建的预设分类模型在进行分类时的准确度更高些。

另外，利用预设分类模型对样本文件集进行分类后，将样本文件集分为至少一类样本文件，且每类样本文件中包括至少一个样本文件。

这里，由于预设分类模型的输入为样本文件中包含的宏代码文件，故在步骤101中对样本文件进行提取宏的操作。

步骤103：确定每类样本文件的标签信息，并将所述标签信息作为同类样本文件中所有样本文件的标签信息。

需要说明的是，步骤102中已对样本文件集进行了分类，那只要确定每类样本文件中任意一个样本文件的标签信息，也就确定了该类样本文件中所有样本文件的标签信息。本申请这种确定样本文件的标签信息的方式相对于现有的依次确定样本文件集中每个样本文件对应的标签信息，提高了确定样本文件的标签信息的效率。

这里，标签信息用于指示每类样本文件是混淆文件或非混淆文件，或者，黑文件或白文件。

需要说明的是，确定每类样本文件中任意样本文件的标签信息时，具体是人工将样本文件上传至宏病毒分析工具，并根据病毒分析工具分析出的结果信息判断上传的样本文件是否存在宏病毒。若样本文件存在宏病毒，说明样本文件称为黑文件或混淆文件；若样本文件不存在宏病毒，说明样本文件称为白文件或非混淆文件。

这里，步骤101至步骤103的执行主体可以为文件标签确定装置的处理器。

如此，通过预设分类模型对样本文件集进行分类，后续操作者只需确定每类样本文件中任意一个样本文件的标签信息即可，减少了确定标签信息的样本文件的数量，提高了确定样本文件的标签信息的工作效率。

在上述实施例的基础上，对本申请提出的文件标签确定方法进一步举例说明，图2为本申请实施例中文件标签确定方法的第二流程示意图，如图2所示，该文件标签确定方法具体可以包括：

步骤201：对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；

步骤202：基于哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果；

需要说明的是，第一分类结果指的是基于哈希算法对样本文件集进行第一次分类后对应的分类结果。

在一些实施例中，该步骤具体包括：利用所述哈希算法计算每个样本文件的宏代码文件对应的第一哈希值；将具有相同第一哈希值的样本文件作为同类样本文件，得到所述第一分类结果。

也就是说，将每个样本文件的宏代码文件输入至哈希算法，输出每个样本文件对应的第一哈希值，进而统计相同第一哈希值的样本文件，并将相同第一哈希值的样本文件作为同类样本文件，得到第一分类结果。

步骤203：基于模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果；

需要说明的是，由于第一分类结果中可能存在本属于同类的样本文件被误分为不同类样本文件，故基于模糊哈希算法对第一分类结果进行第二次分类后对应的分类结果，得到第二分类结果。

这里，第二分类结果中样本文件的类别数小于或者等于第一分类结果中样本文件的类别数。

在一些实施例中，该步骤具体包括：从所述第一分类结果中每类样本文件中分别选取一个目标样本文件；基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果；根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果。

需要说明的是，目标样本文件为从第一分类结果中每类样本文件中任意选择的样本文件。基于模糊哈希算法对选取的每个目标样本文件的宏代码文件进行处理，得到每个目标样本文件对应的处理结果，若存在相同的处理结果，将相同处理结果的目标样本文件归为同类样本文件，即对第一分类结果再次进行分类；若不存在相同的处理结果，则第一类分类结果即为第二分类结果。

在一些实施例中，所述基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果，包括：利用所述模糊哈希算法计算每个目标样本文件的宏代码文件对应的第二哈希值；将每个目标样本文件的宏代码文件对应的第二哈希值作为所述处理结果。

也就是说，将每个目标样本文件的宏代码文件输入至模糊哈希算法，输出每个目标样本文件对应的第二哈希值(即处理结果)。

在一些实施例中，所述根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果，包括：比较所述处理结果中任意两个第二哈希值是否满足预设相似条件；若满足，基于所述第一分类结果将对应的两个目标样本文件所属的不同类样本文件归为同类样本文件，得到所述第二分类结果；若不满足，将所述第一分类结果作为所述第二分类结果。

需要说明的是，预设相似条件为比较任意两个第二哈希值是否相似的条件。预设相似条件可以是任意两个第二哈希值之间的相似距离小于或者等于预设相似距离阈值(可根据实验获知)。具体的，计算任意两个第二哈希值之间的相似距离，若相似距离小于或者等于预设相似距离阈值，则说明对应的两个样本文件为同类样本文件；若相似距离大于预设相似距离阈值，则说明对应的两个样本文件为不同类样本文件。

需要说明的是，对样本文件集分类后，后续操作者只需确定每类样本文件集中任意样本文件的标签信息即可，相对于现有的需确定每个样本文件的标签信息，本申请减少了确定样本文件的标签信息的工作量，提高了工作效率。

步骤204：从所述第二分类结果中确定所述至少一类样本文件；

示例性地，若对样本文件集进行第一次分类后，将样本文件集分为三类，即A类样本文件集、B类样本文件集和C类样本文件集；再经过第二次分类后，计算出A类样本文件集中任意一个样本文件的第二哈希值，与B类样本文件集中任意一个样本文件的第二哈希值满足预设相似条件，故A类样本文件集和B类样本文件集为同类样本文件集，即样本文件集变为两类(即样本文件集最终的分类结果)。

步骤205：确定每类样本文件的标签信息，并将所述标签信息作为同类样本文件中所有样本文件的标签信息。

基于上述实施例，图3为本申请实施例中文件标签确定方法的第三流程示意图，如图3所示，该文件标签确定方法具体可以包括：

步骤301：获取样本文件集；

这里，样本文件集中包括多个样本文件，样本文件格式可以包括：Word、Excel、PowerPoint、Outlook。

步骤302：对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；

这里，利用宏代码抽取工具在每个样本文件中逐行抽取至少一个宏代码，再将至少一个宏代码进行拼接，得到对应样本文件的宏代码文件。

步骤303：计算宏代码文件的哈希值；

这里的哈希值同上文提及的第一哈希值。

利用哈希算法计算样本文件集中每个样本文件的宏代码文件对应的第一哈希值，并将相同第一哈希值的样本文件作为同类样本文件，完成对样本文件集的第一次分类，得到第一分类结果。

步骤304：计算宏代码文件的模糊哈希值；

这里的模糊哈希值同上文提及的第二哈希值。

从上一步骤每类样本文件中任意选取一个样本文件，利用模糊哈希算法计算选取的每个样本文件的宏代码文件对应的模糊哈希值，将满足预设相似条件的任意两个模糊哈希值的不同类样本文件归为同类样本文件，完成在第一分类结果的基础上对样本文件集再次进行分类，得到第二分类结果。若不存在满足预设相似条件的任意两个模糊哈希值，认为对应的不同类样本文件仍为不同类样本文件，即第一分类结果作为第二分类结果。

步骤305：确定样本文件的标签信息。

基于上述步骤完成对样本文件集的分类后，只要确定每类样本文件中任意样本文件的标签信息，就确定了该类样本文件中所有样本文件的标签信息。

这里，需要说明的是，步骤304利用哈希算法对样本文件集进行分类后，使得确定样本文件的标签信息时只需确定每类样本文件中任意样本文件的标签信息即可，相对于现有的确定每个样本文件的标签信息，步骤304的实现使得减少了确定标签信息的样本文件的数量。步骤304是在步骤303的基础上利用模糊哈希算法进行再次分类，即进一步减少确定标签信息的样本文件的数量，提高了工作效率。

基于上述实施例，本申请还提出一种宏病毒检测模型训练方法，图4为本申请实施例中宏病毒检测模型训练方法的流程示意图。

如图4所示，具体的，

步骤401：获取训练文件集；其中，所述训练文件集包括样本文件集，所述样本文件集中包括至少一个样本文件及每个样本文件的标签信息；

需要说明的是，训练文件集可以仅包括样本文件集，或者，包括样本文件集和之前训练宏病毒检测模型使用到的历史文件集，该历史文件集包括至少一个历史文件及每个历史文件的标签信息。

需要说明的是，样本文件集为上述文件标签确定方法中包括标签信息的样本文件集。样本文件集在基于文件标签确定方法确定对应的标签信息之前，样本文件集属于无标签信息的文件集，故样本文件集可称为新增文件集。

这里，对于文件标签确定方法可依据前三个实施例，在该步骤中不再进行具体阐述。

步骤402：基于所述训练文件集及每个训练文件的标签信息对宏病毒检测模型进行训练，得到训练完成的宏病毒检测模型。

具体的，将训练文件集输入至宏病毒检测模型，输出每个训练文件对应的预测标签信息，再与每个训练文件的真实标签信息进行比较，计算出对训练文件预测标签信息的准确率，若准确率高于或者等于设定的准确率阈值，则可以将当前训练的宏病毒检测模型确定为训练完成后的宏病毒检测模型；若准确率低于设定的准确率阈值，则需再次调整宏病毒检测模型中的参数，直至准确率高于或者等于设定的准确率阈值，则可获得训练完成后的宏病毒检测模型。

在一些实施例中，所述方法还包括：获取待检测文件集；其中，所述待检测文件集中包括至少一个待检测文件；所述得到训练完成的宏病毒检测模型之后，所述方法还包括：利用所述训练完成的宏病毒检测模型对所述至少一个待检测文件中目标检测文件进行检测，确定所述目标检测文件是否携带宏病毒。

也就是说，利用训练后的宏病毒检测模型对待检测文件进行检测，检测是否携带宏病毒。若不存在，可对该文件进行打开或者执行操作；若存在，对该文件进行强力删除操作。

如此，通过文件标签确定方法快速确定样本文件集的标签信息，后续基于样本文件集和每个样本文件的标签信息对宏病毒检测模型进行训练时，提高宏病毒检测模型训练效率。

为实现本申请实施例文件标签确定方法，基于同一发明构思，本申请实施例中还提供一种文件标签确定装置，图5为本申请实施例中文件标签确定装置组成的结构示意图，如图5所示，该文件标签确定装置包括：

提取单元501，用于对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件；

分类单元502，将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件；其中，所述预设分类模型是基于哈希算法和模糊哈希算法构建；

确定单元503，确定每类样本文件的标签信息，并将所述标签信息作为同类样本文件中所有样本文件的标签信息。

在一些实施例中，所述标签信息用于指示每类样本文件是混淆文件或非混淆文件。

在一些实施例中，所述装置包括：分类单元502，具体用于基于所述哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果；基于所述模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果；从所述第二分类结果中确定所述至少一类样本文件。

在一些实施例中，所述基于所述哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果，包括：利用所述哈希算法计算每个样本文件的宏代码文件对应的第一哈希值；将具有相同第一哈希值的样本文件作为同类样本文件，得到所述第一分类结果。

在一些实施例中，所述基于所述模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果，包括：从所述第一分类结果中每类样本文件中分别选取一个目标样本文件；基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果；根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果。

在一些实施例中，所述方法还包括：若不满足，将对应的两个目标样本文件所属的不同类样本文件确定为不同类样本文件。

在一些实施例中，所述对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件，包括：利用宏代码抽取工具在所述样本文件集中每个样本文件中逐行抽取至少一个宏代码；将每个样本文件中抽取的至少一个宏代码进行拼接，得到每个样本文件的宏代码文件。

为实现本申请实施例宏病毒检测模型训练方法，基于同一发明构思，本申请实施例中还提供一种宏病毒检测模型训练装置，图6为本申请实施例中宏病毒检测模型训练装置组成的结构示意图，如图6所示，该宏病毒检测模型训练装置包括：

获取单元601，用于获取训练文件集；其中，所述训练文件集包括样本文件集，所述样本文件集中包括至少一个样本文件及每个样本文件的标签信息；

训练单元602，用于基于所述训练文件集及每个训练文件的标签信息对宏病毒检测模型进行训练，得到训练完成的宏病毒检测模型。

在一些实施例中，所述样本文件集为文件标签确定方法中包括标签信息的样本文件集。

本申请实施例提供了一种文件标签确定设备，图7为本申请实施例中文件标签确定设备组成的结构示意图，如图7所示，该文件标签确定设备包括：处理器701和配置为存储能够在处理器上运行的计算机程序的存储器702；

其中，处理器701配置为运行计算机程序时，执行前述实施例中方法的步骤。

当然，实际应用时，如图7所示，该文件标签确定设备中的各个组件通过总线系统703耦合在一起。可理解，总线系统703用于实现这些组件之间的连接通信。总线系统703除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统703。

本申请实施例提供了一种宏病毒检测模型修正设备，图8为本申请实施例中宏病毒检测模型修正设备组成的结构示意图，如图8所示，该宏病毒检测模型修正设备包括：处理器801和配置为存储能够在处理器上运行的计算机程序的存储器802；

其中，处理器801配置为运行计算机程序时，执行前述实施例中方法的步骤。

当然，实际应用时，如图8所示，该宏病毒检测模型修正设备中的各个组件通过总线系统803耦合在一起。可理解，总线系统803用于实现这些组件之间的连接通信。总线系统803除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统803。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

本申请实施例还提供了一种计算机可读存储介质，用于存储计算机程序。

可选的，该计算机可读存储介质可应用于本申请实施例中的任意一种方法，并且该计算机程序使得计算机执行本申请实施例的各个方法中由处理器实现的相应流程，为了简洁，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文件标签确定方法，其特征在于，所述方法包括：

将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件，包括：基于哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果；基于模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果；其中，所述第二分类结果为基于所述模糊哈希算法处理所述第一分类结果中的每个目标样本文件的宏代码文件获得；从所述第二分类结果中确定所述至少一类样本文件；其中，所述预设分类模型是基于哈希算法和模糊哈希算法构建；

2.根据权利要求1所述的方法，其特征在于，所述标签信息用于指示每类样本文件是混淆文件或非混淆文件。

3.根据权利要求2所述的方法，其特征在于，所述基于所述哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果，包括：

利用所述哈希算法计算每个样本文件的宏代码文件对应的第一哈希值；

将具有相同第一哈希值的样本文件作为同类样本文件，得到所述第一分类结果。

4.根据权利要求3所述的方法，其特征在于，所述基于所述模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果，包括：

从所述第一分类结果中每类样本文件中分别选取一个目标样本文件；

基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果；

根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述模糊哈希算法处理每个目标样本文件的宏代码文件，得到处理结果，包括：

利用所述模糊哈希算法计算每个目标样本文件的宏代码文件对应的第二哈希值；

将每个目标样本文件的宏代码文件对应的第二哈希值作为所述处理结果。

6.根据权利要求5所述的方法，其特征在于，所述根据所述处理结果对所述第一分类结果进行再分类，得到所述第二分类结果，包括：

比较所述处理结果中任意两个第二哈希值是否满足预设相似条件；

若满足，基于所述第一分类结果将对应的两个目标样本文件所属的不同类样本文件归为同类样本文件，得到所述第二分类结果；

若不满足，将所述第一分类结果作为所述第二分类结果。

7.根据权利要求1所述的方法，其特征在于，所述对样本文件集进行提取宏操作，得到每个样本文件的宏代码文件，包括：

利用宏代码抽取工具在所述样本文件集中每个样本文件中逐行抽取至少一个宏代码；

将每个样本文件中抽取的至少一个宏代码进行拼接，得到每个样本文件的宏代码文件。

8.一种宏病毒检测模型训练方法，其特征在于，所述方法包括：

获取训练文件集；其中，所述训练文件集包括样本文件集，所述样本文件集中包括至少一类样本文件及每类样本文件的标签信息；

基于所述训练文件集及每个训练文件的标签信息对宏病毒检测模型进行训练，得到训练完成的宏病毒检测模型；

其中，所述至少一类样本文件是利用预设分类模型对样本文件集中的各样本文件进行分类得到的；所述至少一类样本文件中的每类样本文件中包括至少一个样本文件；所述每类样本文件中包括的各样本文件对应相同的标签信息。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

获取待检测文件集；其中，所述待检测文件集中包括至少一个待检测文件；

所述得到训练完成的宏病毒检测模型之后，所述方法还包括：

利用所述训练完成的宏病毒检测模型对所述至少一个待检测文件中目标检测文件进行检测，确定所述目标检测文件是否携带宏病毒。

10.一种文件标签确定装置，其特征在于，所述装置包括：

分类单元，用于将每个样本文件的宏代码文件输入至预设分类模型，以便于对所述样本文件集进行分类，得到至少一类样本文件，包括：基于哈希算法对每个样本文件的宏代码文件进行分类，得到第一分类结果；基于模糊哈希算法对所述第一分类结果进行再分类，得到第二分类结果；其中，所述第二分类结果为基于所述模糊哈希算法处理所述第一分类结果中的每个目标样本文件的宏代码文件获得；从所述第二分类结果中确定所述至少一类样本文件；其中，所述预设分类模型是基于哈希算法和模糊哈希算法构建；

11.一种宏病毒检测模型训练装置，其特征在于，所述装置包括：

获取单元，用于获取样本文件集；其中，所述样本文件集中包括至少一类样本文件及每类样本文件的标签信息；

训练单元，用于基于所述样本文件集及每个样本文件的标签信息对宏病毒检测模型进行训练，得到训练完成的宏病毒检测模型；

12.一种文件标签确定设备，其特征在于，所述文件标签确定设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。

13.一种宏病毒检测模型训练设备，其特征在于，所述宏病毒检测模型训练设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求8至9任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7或权利要求8至9任一项所述的方法的步骤。