CN113918942A

CN113918942A - 一种安全文件的识别方法、装置、电子设备及存储介质

Info

Publication number: CN113918942A
Application number: CN202010662962.9A
Authority: CN
Inventors: 刘彦南
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2022-01-11

Abstract

本申请公开了一种安全文件的识别方法、装置、电子设备及计算机可读存储介质，该方法包括：获取特征集，特征集能够体现关键词及关键词在文件的定义位置；检测特征集中各特征在目标文件中出现的频次；根据各特征在目标文件中出现的频次构造目标文件的文件特征向量；调用第一预设分类模型，根据目标文件的文件特征向量识别目标文件是否为安全文件；第一预设分类模型预先基于各样本文件的文件特征向量训练生成。本申请使用能够体现关键词及关键词在文件中定义位置的特征构建特征集，基于上述特征在安全文件与非安全文件中出现频次差异来进行模型训练，实现对安全文件的精确识别，有效提高了对安全文件的识别结果的精确度，保障了文件使用安全。

Description

一种安全文件的识别方法、装置、电子设备及存储介质

技术领域

本申请涉及文件安全检测技术领域，特别涉及一种安全文件的识别方法、装置、电子设备及计算机可读存储介质。

背景技术

鉴于当今的信息和网络时代面临着网络攻击等问题的严峻形势，利用安全文件的识别技术有效区分安全文件(即白文件)和非安全文件(即恶意文件)，对于维护企业利益和正常社会秩序是十分重要的。目前，一些相关技术方案通过统计文件中的字符串词频信息来实现对安全文件和非安全文件的区分。但是，其对文件字符串进行词频统计的方式相对粗略，实际所得到的识别结果往往精确度有限，存在较大的安全风险。

鉴于此，提供一种解决上述技术问题的方案，已经是本领域技术人员所亟需关注的。

发明内容

本申请的目的在于提供一种安全文件的识别方法、装置、电子设备及计算机可读存储介质，以便有效提高安全文件的识别准确度。

为解决上述技术问题，一方面，本申请公开了一种安全文件的识别方法，包括：

获取特征集，所述特征集能够体现关键词及关键词在文件的定义位置；

检测所述特征集中各特征在目标文件中出现的频次；

根据各特征在所述目标文件中出现的频次构造所述目标文件的文件特征向量；

调用第一预设分类模型，根据所述目标文件的文件特征向量识别所述目标文件是否为安全文件；所述第一预设分类模型预先基于各样本文件的文件特征向量训练生成。

可选地，所述样本文件包括安全样本文件和非安全样本文件；所述特征集包括：由第一关键词和所述第一关键词在文件的第一定义位置组合生成的第一类特征；

其中，对于每个所述第一类特征，所述第一关键词在所述安全样本文件中被定义在所述第一定义位置处的频次，相比于所述第一关键词在所述非安全样本文件中被定义在所述第一定义位置处的频次，差距大于第一预设阈值；

相应地，所述检测所述特征集中各特征在目标文件中出现的频次，包括：

对于每个所述第一类特征，检测所述第一关键词在所述目标文件中被定义在所述第一定义位置处的频次。

可选地，所述特征集还包括：由第二关键词构成的第二类特征；

其中，对于每个所述第二类特征，所述第二关键词在所述安全样本文件中出现的频次，相比于所述第二关键词在所述非安全样本文件中出现的频次，差距大于第二预设阈值；

相应地，所述检测所述特征集中各特征在目标文件中出现的频次，还包括：

对于每个所述第二类特征，检测所述第二关键词在所述目标文件中出现的频次。

可选地，所述特征集还包括：由第三定义位置构成的第三类特征；

其中，对于每个所述第三类特征，所述第三定义位置在所述安全样本文件中出现的频次，相比于所述第三定义位置在所述非安全样本文件中出现的频次，差距大于第三预设阈值；

对于每个所述第三类特征，检测所述第三定义位置在所述目标文件中出现的频次。

可选地，所述第一预设分类模型的训练过程如下：

对于每个样本文件，检测所述特征集中各特征在该样本文件中出现的频次；

根据各特征在该样本文件中出现的频次构造该样本文件的文件特征向量；

以各所述样本文件的文件特征向量为输入、以各所述样本文件已知的是否为安全文件的标签为输出，训练生成所述第一预设分类模型。

本申请还公开了另一种安全文件的识别方法，包括：

获取特征集以及所述特征集中的各特征对应的语义向量；所述特征集能够体现关键词及关键词在文件的定义位置；

在目标文件中检测该目标文件中所出现的属于所述特征集的特征，将该目标文件中出现的特征作为目标特征；

对所述目标特征对应的语义向量进行组合以计算所述目标文件的文件特征向量；

调用第二预设分类模型，根据所述目标文件的文件特征向量识别所述目标文件是否为安全文件；所述第二预设分类模型预先基于各样本文件的文件特征向量训练生成。

其中，对于每个所述第一类特征，所述第一关键词在所述安全样本文件中被定义在所述第一定义位置处的频次，相比于所述第一关键词在所述非安全样本文件中被定义在所述第一定义位置处的频次，差距大于第一预设阈值。

其中，对于每个所述第二类特征，所述第二关键词在所述安全样本文件中出现的频次，相比于所述第二关键词在所述非安全样本文件中出现的频次，差距大于第二预设阈值。

其中，对于每个所述第三类特征，所述第三定义位置在所述安全样本文件中出现的频次，相比于所述第三定义位置在所述非安全样本文件中出现的频次，差距大于第三预设阈值。

可选地，各特征对应的语义向量的生成过程包括：

统计生成样本文件关于所述特征集的频次矩阵；所述频次矩阵记录有各特征分别在各样本文件中的出现频次；

对所述频次矩阵进行语义分析以生成各特征对应的语义向量。

可选地，所述第二预设分类模型的训练过程如下：

对于每个样本文件，根据所述频次矩阵确定在该样本文件中出现的属于所述特征集的各特征；

对在该样本文件中出现的各特征的语义向量进行组合以计算该样本文件的文件特征向量；

以各所述样本文件的文件特征向量为输入、以各所述样本文件已知的是否为安全文件的标签为输出，训练生成所述第二预设分类模型。

另一方面，本申请还公开了一种安全文件的识别装置，包括：

获取模块，用于获取特征集，所述特征集能够体现关键词及关键词在文件的定义位置；

检测模块，用于检测所述特征集中各特征在目标文件中出现的频次；

计算模块，用于根据各特征在所述目标文件中出现的频次构造所述目标文件的文件特征向量；

识别模块，用于调用第一预设分类模型，根据所述目标文件的文件特征向量识别所述目标文件是否为安全文件；

训练模块，用于预先基于各样本文件的文件特征向量训练生成所述第一预设分类模型。

相应地，所述检测模块具体用于：

可选地，所述训练模块具体用于：

对于每个样本文件，检测所述特征集中各特征在该样本文件中出现的频次；根据各特征在该样本文件中出现的频次构造该样本文件的文件特征向量；以各所述样本文件的文件特征向量为输入、以各所述样本文件已知的是否为安全文件的标签为输出，训练生成所述第一预设分类模型。

本申请还公开了另一种安全文件的识别装置，包括：

获取模块，用于获取特征集以及所述特征集中的各特征对应的语义向量；所述特征集能够体现关键词及关键词在文件的定义位置；

检测模块，用于在目标文件中检测该目标文件中所出现的属于所述特征集的特征，并将该目标文件中出现的特征作为目标特征；

计算模块，用于对所述目标特征对应的语义向量进行组合以计算所述目标文件的文件特征向量；

识别模块，用于调用第二预设分类模型，根据所述目标文件的文件特征向量识别所述目标文件是否为安全文件；

训练模块，用于预先基于各样本文件的文件特征向量训练生成所述第二预设分类模型。

可选地，所述获取模块具体用于：

统计生成样本文件关于所述特征集的频次矩阵；所述频次矩阵记录有各特征分别在各样本文件中的出现频次；对所述频次矩阵进行语义分析以生成各特征对应的语义向量。

可选地，所述训练模块具体用于：

对于每个样本文件，根据所述频次矩阵确定在该样本文件中出现的属于所述特征集的各特征；对在该样本文件中出现的各特征的语义向量进行组合以计算该样本文件的文件特征向量；以各所述样本文件的文件特征向量为输入、以各所述样本文件已知的是否为安全文件的标签为输出，训练生成所述第二预设分类模型。

第三方面，本申请还公开了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上所述的任一种安全文件的识别方法的步骤。

第四方面，本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上所述的任一种安全文件的识别方法的步骤。

本申请所提供的安全文件的识别方法、装置、电子设备及计算机可读存储介质的有益效果是：本申请使用能够体现关键词及关键词在文件中定义位置的特征来构建特征集，基于上述特征在安全文件与非安全文件中出现频次的差异来进行模型训练，进而可利用训练生成的第一预设分类模型实现对安全文件的精确识别，有效提高了对安全文件的识别结果的精确度，保障了文件使用安全。

此外，本申请提供了另一种安全文件的识别方法、装置、电子设备及计算机可读存储介质的有益效果是：在前述识别方法的基础上，还基于语义分析处理得到各个特征对应的语义向量，以便基于增加了特征间联系的语义向量来得到文件特征向量，提高文件特征向量对文件特征表达的精确性和充分性，进而提高文件的识别精度。并且，语义分析处理生成语义向量的过程本身也通常是一个降维处理的过程，能够有效地简化数据量，提高安全文件识别的处理速度，并且能减少训练过程所需的样本文件数量，减轻训练过程样本文件数量的负担。

附图说明

为了更清楚地说明现有技术和本申请实施例中的技术方案，下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然，下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图，所获得的其他附图也属于本申请的保护范围。

图1为本申请实施例公开的一种安全文件的识别方法的流程图；

图2为本申请实施例公开的一种特征集的示意图；

图3为本申请实施例公开的一种训练生成第一预设分类模型的方法流程图；

图4为本申请实施例公开的另一种安全文件的识别方法的流程图；

图5为本申请实施例公开的一种训练生成第二预设分类模型的方法流程图；

图6为本申请实施例公开的一种安全文件的识别装置的结构框图；

图7为本申请实施例公开的另一种安全文件的识别装置的结构框图；

图8为本申请实施例公开的一种电子设备的结构框图。

具体实施方式

本申请的核心在于提供一种安全文件的识别方法、装置、电子设备及计算机可读存储介质，以便有效提高安全文件的识别准确度。

为了对本申请实施例中的技术方案进行更加清楚、完整地描述，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行介绍。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

当前，面对网络攻击等问题，利用安全文件的识别技术有效区分安全文件(即白文件)和非安全文件(即恶意文件)，对于维护企业利益和正常社会秩序是十分重要的。目前，一些相关技术方案通过统计文件中的字符串词频信息来实现对安全文件和非安全白文件的区分。但是，其对文件字符串进行词频统计的方式相对粗略，实际所得到的识别结果往往精确度有限，存在较大的安全风险。鉴于此，本申请提供了一种安全文件的识别方案，可有效解决上述问题。

参见图1所示，本申请实施例公开了一种安全文件的识别方法，主要包括：

S101：获取特征集，特征集能够体现关键词及关键词在文件的定义位置。

其中，特征集即由多个特征构成的集合，是本申请中用于识别安全文件与非安全文件的基础。需要强调的是，本申请中的特征集能够体现关键词及关键词在文件的定义位置，即，该特征集不仅仅包含与关键词本身有关的特征，并且还包含与关键词在文件中被定义的位置有关的特征。

需要说明的是，常见的文件一般都有对应的固定格式，包括有固定的几部分内容。例如，PE格式文件一般包括有DOS部首(DOS_HEADER，DOS stub)、块表(Section Table)、块(Section)、调试信息等不同的几个文件部位。对于同一关键词来说，其在安全文件和非安全文件中的定义位置可能并不相同，即其具体在文件中出现的文件部位可能并不相同。例如，在安全文件中，某个关键词可能会一般出现在第一个文件部位中，而在非安全文件中，该关键词很可能会一般出现在另一个文件部位中。并且，进一步地，即使出现在同样一个文件部位中，该关键词出现的频次也可能不同。

由此可见，若不区分关键词在文件中的定义位置而盲目进行识别，则很有可能会影响识别结果的准确性。如此，本申请不仅利用安全文件与非安全文件中所包含的关键词的差别来进行安全文件识别，而且还利用了关键词在安全文件与非安全文件中被定义位置的不同来进行识别，由此可有效提高安全文件的识别精确度。

为此，本申请在构建特征集时，不仅使用了能够体现关键词的特征，而且还使用了能够体现关键词在文件中的定义位置(即如上述DOS部首、块表、块等)的特征。其中，关键词可由本领域技术人员依据一定规则从大量的样本文件中提取，也可以结合实际经验采用常规设置，本申请对此并不进一步限定。

S102：检测特征集中各特征在目标文件中出现的频次。

目标文件即为待进行识别的文件。在确定目标文件后，可针对特征集中的每个特征，在目标文件中进行检测和统计，以确定特征集中的各个特征在该目标文件中出现的频次。

S103：根据各特征在目标文件中出现的频次构造目标文件的文件特征向量。

具体地，基于在目标文件中出现的特征及其频次，可构造生成该目标文件的文件特征向量，该文件特征向量体现了该目标文件与特征集之间的所有关联特征，是用于识别其是否为安全文件的特征依据。

S104：调用第一预设分类模型，根据目标文件的文件特征向量识别目标文件是否为安全文件；第一预设分类模型预先基于各样本文件的文件特征向量训练生成。

具体地，需要指出的是，本申请预先基于各个样本文件的文件特征向量训练生成有第一预设分类模型，该第一预设分类模型以输入的目标文件的文件特征向量为依据进行识别，进而输出针对于该目标文件是否为安全文件的判断结果。

容易理解的是，样本文件的数量应当足够大，且具有一般代表性。样本文件的文件类型已知，其应当包括有安全样本文件和非安全样本文件。基于安全样本文件与非安全样本文件的文件特征向量差异，对采用人工智能、机器学习等算法的分类模型进行训练，即可得到能够依据文件的文件特征向量而识别该文件是否为安全文件的第一预设分类模型。由此，本申请通过将目标文件的文件特征向量输入至第一预设分类模型中，即可得到该目标文件的安全文件识别结果。

本申请实施例所提供的安全文件的识别方法包括：获取特征集，特征集能够体现关键词及关键词在文件的定义位置；检测特征集中各特征在目标文件中出现的频次；根据各特征在目标文件中出现的频次构造目标文件的文件特征向量；调用第一预设分类模型，根据目标文件的文件特征向量识别目标文件是否为安全文件；第一预设分类模型预先基于各样本文件的文件特征向量训练生成。

可见，本申请使用能够体现关键词及关键词在文件中定义位置的特征来构建特征集，基于上述特征在安全文件与非安全文件中出现频次的差异来进行模型训练，进而可利用训练生成的第一预设分类模型实现对安全文件的精确识别，有效提高了对安全文件的识别结果的精确度，保障了文件使用安全。

作为一种具体实施例，本申请实施例所提供的安全文件的识别方法在上述内容的基础上，样本文件包括安全样本文件和非安全样本文件；特征集包括：由第一关键词和第一关键词在文件的第一定义位置组合生成的第一类特征；

其中，对于每个第一类特征，第一关键词在安全样本文件中被定义在第一定义位置处的频次，相比于第一关键词在非安全样本文件中被定义在第一定义位置处的频次，差距大于第一预设阈值；

相应地，检测特征集中各特征在目标文件中出现的频次，包括：

对于每个第一类特征，检测第一关键词在目标文件中被定义在第一定义位置处的频次。

具体地，本实施例中的第一类特征结合体现了第一关键词以及该第一关键词在文件中的第一定义位置。其中，第一关键词和其定义位置的组合方式可采用拼接、穿插糅合等方式，构成的第一类特征可具体为字符串结构。以拼接方式为例，若某个第一关键词“aaa”在非安全文件的“DOS_HEADER”中的出现频次与在安全文件相同位置中的出现频次大于第一预设阈值，则通过拼接而对应生成的一个第一类特征可记为“DOS_HEADER.aaa”。

需要说明的是，本申请中的第一关键词泛指在安全文件和非安全文件中的频次差异大于第一预设阈值的一类关键词，而非确指某一个关键词，其对应的第一定义位置也同样为泛指。其中，对于第一预设阈值的大小，本领域技术人员可自行选择设定。

第一类特征的构造过程具体可以为：首先确定所有的关键词以构成关键词词库。然后分别确定各个关键词在各个样本文件的各个文件部位中出现的频次。以所有的安全样本文件为讨论对象，统计各个关键词分别在各个文件部位中出现的频次(可具体取平均值)，得到安全样本文件的关键词空间位置信息矩阵。类似地，以所有的非安全样本文件为讨论对象，得到非安全样本文件的关键词空间位置信息矩阵。比较这两个关键词空间位置信息矩阵，可找出差值大于第一预设阈值的关键词，从而将其确定为第一关键词，进而构造出对应的第一类特征。

其中，这两个关键词空间位置信息矩阵的行用于表示不同的关键词，列用于表示关键词在安全样本文件或者非安全样本文件中的定义位置(即不同的文件部位)，矩阵中的值为对应的关键词在对应的定义位置处出现的次数平均值。

作为一种具体实施例，本申请实施例所提供的安全文件的识别方法在上述内容的基础上，特征集还包括：由第二关键词构成的第二类特征；

其中，对于每个第二类特征，第二关键词在安全样本文件中出现的频次，相比于第二关键词在非安全样本文件中出现的频次，差距大于第二预设阈值；

相应地，检测特征集中各特征在目标文件中出现的频次，还包括：

对于每个第二类特征，检测第二关键词在目标文件中出现的频次。

具体地，本实施例中的第二类特征仅体现了安全文件与非安全文件差异较大的第二关键词，即，第二类特征并未对关键词的定义位置进行限定，可从文件整体的宏观角度基于第二关键词的词频差距进行安全文件识别。

作为一种具体实施例，本申请实施例所提供的安全文件的识别方法在上述内容的基础上，特征集还包括：由第三定义位置构成的第三类特征；

其中，对于每个第三类特征，第三定义位置在安全样本文件中出现的频次，相比于第三定义位置在非安全样本文件中出现的频次，差距大于第三预设阈值；

对于每个第三类特征，检测第三定义位置在目标文件中出现的频次。

具体地，不同的文件可能包括有不同的文件部位，具有不同的定义位置。由此，本申请实施例中的第三类特征以安全文件与非安全文件在文件结构上的差异为依据，进行安全文件识别。

同样类似地，上述第二关键词、第三定义位置也均为泛指。

还需要说明的是，本申请中特征集的各个特征可以是上述三类特征的某一项或者某几项。例如，特征集中各个特征具体可以为上述第一类特征；或者，特征集的各个特征具体包括上述第一类特征+第二类特征；或者，特征集的各个特征具体包括上述第一类特征+第三类特征；或者，特征集的各个特征具体包括上述第二类特征+第三类特征；又或者，参见图2，特征集的各个特征具体包括上述第一类特征+第二类特征+第三类特征。

参见图3，图3为本申请实施例公开的一种训练生成第一预设分类模型的方法流程图。

作为一种具体实施例，如图3所示，第一预设分类模型的训练过程可具体包括如下步骤：

S201：对于每个样本文件，检测特征集中各特征在该样本文件中出现的频次。

S202：根据各特征在该样本文件中出现的频次构造该样本文件的文件特征向量。

S203：以各样本文件的文件特征向量为输入、以各样本文件已知的是否为安全文件的标签为输出，训练生成第一预设分类模型。

具体地，第一预设分类模型可基于神经网络等模型而实现。在其训练过程中，可先确定各个样本文件中出现的特征的频次，进而构造每个样本文件的文件特征向量，用于作为模型输入，并将各个样本文件是否为安全文件的标签作为模型的输出，基于大量数据的多次训练而得到第一预设分类模型。

参见图4所示，本申请实施例公开了另一种安全文件的识别方法，主要包括：

S301：获取特征集以及特征集中的各特征对应的语义向量；特征集能够体现关键词及关键词在文件的定义位置。

具体地，在前述安全文件的识别方法的基础上，本实施例所提供的安全文件的识别方法在获取特征集之后，还进一步对特征集中的各个特征进行了语义处理以获取各个特征所对应的语义向量。

由于特征集中的各个特征之间并没有记录语义信息，缺少了特征之间的关联信息，因此，本申请还具体基于语义分析处理得到各个特征对应的语义向量，以便基于增加了特征间联系的语义向量来得到文件特征向量，提高文件特征向量对文件特征表达的精确性和充分性，进而提高文件的识别精度。

并且，语义分析处理生成语义向量的过程本身也通常是一个降维处理的过程，能够有效地简化文件特征向量的数据量，提高文件识别处理速度。

并且，在进行分类模型训练时，由于每个样本文件对应的文件特征向量维度变小，因此，相应地，训练所需的样本数量也会变少，因此能减少训练过程所需的样本文件数量，减轻训练过程样本文件数量的负担。

S302：在目标文件中检测该目标文件中所出现的属于特征集的特征，将该目标文件中出现的特征作为目标特征。

S303：对目标特征对应的语义向量进行组合以计算目标文件的文件特征向量。

具体地，本实施例具体基于各目标特征的语义向量来生成目标文件的文件特征向量。

其中，可具体通过将各个目标特征的语义向量进行叠加来计算文件特征向量。如此，其计算过程可具体表示为：

其中，vector(i)为特征i的语义向量；N为目标文件中出现的特征的总数量；Vector(sample)为目标文件的文件特征向量。但本申请并不局限于叠加的组合方式，本领域技术人员可采用其他组合方式。

S304：调用第二预设分类模型，根据目标文件的文件特征向量识别目标文件是否为安全文件；第二预设分类模型预先基于各样本文件的文件特征向量训练生成。

具体地，基于通过语义分析处理得到的各个样本文件的文件特征向量，本实施例预先训练生成有第二预设分类模型，该第二预设分类模型以输入的目标文件的文件特征向量为依据进行识别，可输出针对于该目标文件是否为安全文件的判断结果。

本实施例所提供的安全文件的识别方法中与上文实施例的类似内容，可参考上文的详细记载内容，这里就不再赘述。

可见，本申请实施例使用能够体现关键词及关键词在文件中定义位置的特征来构建特征集，进而基于语义分析得到的各特征的语义向量来构造文件的文件特征向量，利用安全文件与非安全文件的文件特征向量差异来进行模型训练，进而实现对安全文件的精确识别。本申请从特征构造和语义处理两个层面上均有效提高了对安全文件的识别结果的精确度，保障了文件使用安全。

其中，对于每个第一类特征，第一关键词在安全样本文件中被定义在第一定义位置处的频次，相比于第一关键词在非安全样本文件中被定义在第一定义位置处的频次，差距大于第一预设阈值。

其中，对于每个第二类特征，第二关键词在安全样本文件中出现的频次，相比于第二关键词在非安全样本文件中出现的频次，差距大于第二预设阈值。

其中，对于每个第三类特征，第三定义位置在安全样本文件中出现的频次，相比于第三定义位置在非安全样本文件中出现的频次，差距大于第三预设阈值。

作为一种具体实施例，本申请实施例所提供的安全文件的识别方法在上述内容的基础上，各特征对应的语义向量的生成过程包括：

统计生成样本文件关于特征集的频次矩阵；频次矩阵记录有各特征分别在各样本文件中的出现频次；

对频次矩阵进行语义分析以生成各特征对应的语义向量。

具体地，频次矩阵的行表示不同的特征，频次矩阵的列表示不同的样本文件，频次矩阵中的值为对应的特征在对应的样本文件中的出现频次。其中，对于第一类特征，对应的矩阵值为该对应的第一关键词在该样本文件中被定义在第一定义位置的频次；对于第二类特征，对应的矩阵值为对应的第二关键词在该样本文件中出现的总频次；对于第三类特征，对应的矩阵值为对应的第三定义位置在该样本文件中的出现频次。

具体而言，若共有50万个特征字符串，200万个样本文件(100万个安全样本文件和100万个非安全样本文件)，则频次矩阵具体为尺寸是50万×200万的矩阵。采用语义分析算法对该频次矩阵进行语义分析，由此得到一个语义矩阵，语义矩阵中的各行分别表示对应的特征的语义向量。

其中，可采用的语义分析算法包括但不限于LSI(Latent Semantic Indexing，潜在语义索引模型)、LSA(Latent Semantic Analysis，潜在语义分析模型)、PLSA(Probabilistic Latent Semantic Analysis，概率隐性语义分析模型)、LDA(LatentDirichlet Allocation，隐狄利克雷分配模型)等。

还需进一步说明的是，如前，语义分析的过程中往往是配合使用降维算法进行处理的过程，常见的降维算法如PCA(Principal Component Analysis，主成分分析)、SVD(Singular Value Decomposition，奇异值分解)等，通过进行矩阵分解得到较低维度尺寸的语义矩阵。

例如，对于50万×200万的频次矩阵，可通过语义分析中的降维处理后，得到50万×500的低维度语义矩阵，便于后续计算过程的进行。语义向量和传统向量空间模型一样，均使用向量表示词和文档。不同的是，语义向量将词和文档映射到低维的潜在语义空间，实现样本特征维度的降低，从文本中发现潜在的语义维度，并且去除了原始向量空间中的一些“噪音”。

参见图5，图5为本申请实施例公开的一种训练生成第二预设分类模型的方法流程图。

作为一种具体实施例，参见图5，第二预设分类模型的训练过程主要包括如下步骤：

S401：对于每个样本文件，根据频次矩阵确定在该样本文件中出现的属于特征集的各特征。

S402：对在该样本文件中出现的各特征的语义向量进行组合以计算该样本文件的文件特征向量。

S403：以各样本文件的文件特征向量为输入、以各样本文件已知的是否为安全文件的标签为输出，训练生成第二预设分类模型。

容易理解的是，各个样本文件的文件特征向量与目标文件的文件特征向量的生成过程类似，可同样采用叠加的计算方式。

参见图6所示，本申请实施例公开了一种安全文件的识别装置，主要包括：

获取模块501，用于获取特征集，特征集能够体现关键词及关键词在文件的定义位置；

检测模块502，用于检测特征集中各特征在目标文件中出现的频次；

计算模块503，用于根据各特征在目标文件中出现的频次构造目标文件的文件特征向量；

识别模块504，用于调用第一预设分类模型，根据目标文件的文件特征向量识别目标文件是否为安全文件；

训练模块505，用于预先基于各样本文件的文件特征向量训练生成第一预设分类模型。

可见，本申请实施例所公开的安全文件的识别装置，使用能够体现关键词及关键词在文件中定义位置的特征来构建特征集，基于上述特征在安全文件与非安全文件中出现频次的差异来进行模型训练，进而可利用训练生成的第一预设分类模型实现对安全文件的精确识别，有效提高了对安全文件的识别结果的精确度，保障了文件使用安全。

关于上述安全文件的识别装置的具体内容，可参考前述关于安全文件的识别方法的详细介绍，这里就不再赘述。

作为一种具体实施例，本申请实施例所提供的安全文件的识别装置在上述内容的基础上，样本文件包括安全样本文件和非安全样本文件；特征集包括：由第一关键词和第一关键词在文件的第一定义位置组合生成的第一类特征；

相应地，检测模块502具体用于：

作为一种具体实施例，本申请实施例所提供的安全文件的识别装置在上述内容的基础上，特征集还包括：由第二关键词构成的第二类特征；

相应地，检测模块502具体用于：

作为一种具体实施例，本申请实施例所提供的安全文件的识别装置在上述内容的基础上，特征集还包括：由第三定义位置构成的第三类特征；

相应地，检测模块502具体用于：

作为一种具体实施例，本申请实施例所提供的安全文件的识别装置在上述内容的基础上，训练模块505具体用于：

对于每个样本文件，检测特征集中各特征在该样本文件中出现的频次；根据各特征在该样本文件中出现的频次构造该样本文件的文件特征向量；以各样本文件的文件特征向量为输入、以各样本文件已知的是否为安全文件的标签为输出，训练生成第一预设分类模型。

参见图7所示，本申请实施例还公开了另一种安全文件的识别装置，主要包括：

获取模块601，用于获取特征集以及特征集中的各特征对应的语义向量；特征集能够体现关键词及关键词在文件的定义位置；

检测模块602，用于在目标文件中检测该目标文件中所出现的属于特征集的特征，并将该目标文件中出现的特征作为目标特征；

计算模块603，用于对目标特征对应的语义向量进行组合以计算目标文件的文件特征向量；

识别模块604，用于调用第二预设分类模型，根据目标文件的文件特征向量识别目标文件是否为安全文件；

训练模块605，用于预先基于各样本文件的文件特征向量训练生成第二预设分类模型。

可见，本申请实施例所公开的安全文件的识别装置，使用能够体现关键词及关键词在文件中定义位置的特征来构建特征集，进而基于语义分析得到的各特征的语义向量来构造文件的文件特征向量，利用安全文件与非安全文件的文件特征向量差异来进行模型训练，进而实现对安全文件的精确识别。本申请从特征构造和语义处理两个层面上均有效提高了对安全文件的识别结果的精确度，保障了文件使用安全。

作为一种具体实施例，本申请实施例所提供的安全文件的识别装置在上述内容的基础上，获取模块601具体用于：

统计生成样本文件关于特征集的频次矩阵；频次矩阵记录有各特征分别在各样本文件中的出现频次；对频次矩阵进行语义分析以生成各特征对应的语义向量。

可选地，训练模块605具体用于：

对于每个样本文件，根据频次矩阵确定在该样本文件中出现的属于特征集的各特征；对在该样本文件中出现的各特征的语义向量进行组合以计算该样本文件的文件特征向量；以各样本文件的文件特征向量为输入、以各样本文件已知的是否为安全文件的标签为输出，训练生成第二预设分类模型。

参见图8所示，本申请实施例公开了一种电子设备，包括：

存储器701，用于存储计算机程序；

处理器702，用于执行所述计算机程序以实现如上所述的任一种安全文件的识别方法的步骤。

进一步地，本申请实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如上所述的任一种安全文件的识别方法的步骤。

关于上述电子设备和计算机可读存储介质的具体内容，可参考前述关于安全文件的识别方法的详细介绍，这里就不再赘述。

本申请中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需说明的是，在本申请文件中，诸如“第一”和“第二”之类的关系术语，仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。此外，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请的保护范围内。

Claims

1.一种安全文件的识别方法，其特征在于，包括：

检测所述特征集中各特征在目标文件中出现的频次；

2.如权利要求1所述的识别方法，其特征在于，所述样本文件包括安全样本文件和非安全样本文件；所述特征集包括：由第一关键词和所述第一关键词在文件的第一定义位置组合生成的第一类特征；

3.如权利要求2所述的识别方法，其特征在于，所述特征集还包括：由第二关键词构成的第二类特征；

4.如权利要求3所述的识别方法，其特征在于，所述特征集还包括：由第三定义位置构成的第三类特征；

5.如权利要求1至4任一项所述的识别方法，其特征在于，所述第一预设分类模型的训练过程如下：

6.一种安全文件的识别方法，其特征在于，包括：

7.如权利要求6所述的识别方法，其特征在于，所述样本文件包括安全样本文件和非安全样本文件；所述特征集包括：由第一关键词和所述第一关键词在文件的第一定义位置组合生成的第一类特征；

8.如权利要求7所述的识别方法，其特征在于，所述特征集还包括：由第二关键词构成的第二类特征；

9.如权利要求8所述的识别方法，其特征在于，所述特征集还包括：由第三定义位置构成的第三类特征；

10.如权利要求6至9任一项所述的识别方法，其特征在于，各特征对应的语义向量的生成过程包括：

11.如权利要求10所述的识别方法，其特征在于，所述第二预设分类模型的训练过程如下：

12.一种安全文件的识别装置，其特征在于，包括：

13.一种安全文件的识别装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至5任一项所述的识别方法，或者6至11任一项所述的识别方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如权利要求1至5任一项所述的识别方法，或者6至11任一项所述的识别方法的步骤。