CN111914257A

CN111914257A - 文档检测的方法、装置、设备、及计算机存储介质

Info

Publication number: CN111914257A
Application number: CN202010771525.0A
Authority: CN
Inventors: 崔甲; 施蕾; 胡卫华; 班晓芳
Original assignee: China Information Technology Security Evaluation Center
Current assignee: China Information Technology Security Evaluation Center
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-10

Abstract

本申请提供了一种文档检测的方法、装置、设备、及计算机存储介质，该方法包括：获取待检测文档中的每一个文件的路径特征和内容特征；将所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征；分别针对每一个待检测特征，将待检测特征输入至文档检测模型中，得到待检测特征的判断结果；其中，判断结果用于说明待检测特征对应的文件是否为恶意文件；文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到。从而达到无论恶意文件是否已知，都可以准确识别在大规模的文档中的恶意文件的目的。

Description

文档检测的方法、装置、设备、及计算机存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种文档检测的方法、装置、设备、及计算机存储介质。

背景技术

恶意文档在网络攻击中被广泛使用。在常见的攻击模式中，攻击者将恶意文档通过邮件或者网站挂载等社会工程学的手段进行传播。当用户打开恶意文档以后通常会触发恶意文档的恶意行为，一般会导致用户个人隐私以及私密信息的泄露，提供木马、病毒、蠕虫的攻击与传播载体，或者引发关键工控系统的操作故障等。

在现有技术中，对恶意文档的检测方法主要分为静态检测和动态检测两种方法。传统的静态检测主要以基于签名特征的静态匹配并结合机器学习的检测方法，能够有效检测已知的样本攻击，但是针对未知样本或者已有样本的变种的检测，无法发挥效果。而且随着样本的增加，特征数据库将变得越来越大，检测带来的开销也变得越来越大。在动态检测中，通常通过在沙盒中动态运行样本，并分析收集目标进程的相关行为信息来进行检测。目前该种方法也面临着两个重要问题，一是整个动态检测在时间和资源上开销较大，从而导致无法进行大规模检测。另外一个则是样本对环境的依赖较为严重，只有当样本在特定环境中运行后才会触发相应的恶意行为。而实际情况中要在沙箱中配置各种环境往往是不可能的，因此会导致大量的漏报。

因此，亟需一种无论恶意文件是否已知，都可以准确识别在大规模的文档中的恶意文件的方法。

发明内容

有鉴于此，本申请提供一种文档检测的方法、装置、设备、及计算机存储介质，用于无论恶意文件是否已知，都可以准确识别在大规模的文档中的恶意文件。

本申请第一方面提供了一种文档检测的方法，包括：

获取待检测文档中的每一个文件的路径特征和内容特征；

将所有的所述路径特征和所有的所述内容特征进行筛选，分别将筛选得到的每一个所述路径特征和每一个所述内容特征，作为所述待检测文档的待检测特征；

分别针对每一个所述待检测特征，将所述待检测特征输入至文档检测模型中，得到所述待检测特征的判断结果；其中，所述判断结果用于说明所述待检测特征对应的文件是否为恶意文件；所述文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到；每一个所述训练样本文档中包括多个恶意样本文件和多个良性样本文件；所述特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。

可选的，所述获取待检测文档中的每一个文件的路径特征和内容特征，包括：

对所述待检测文档进行解压缩，得到所述待检测文档对应的文件夹；

提取得到所述文件夹中每一个文件对应的路径信息，以及所述文件夹中每一个子文件夹中的每一个文件对应的路径信息；

提取得到所述文件夹中每一个文件中从开始标签到结束标签之间的所有内容信息，以及所述文件夹中每一个子文件夹中的每一个文件中从开始标签到结束标签之间的所有内容信息；

分别对每一个文件的路径信息和内容信息进行特征处理，得到每一个文件的路径特征和内容特征。

可选的，所述将所有的所述路径特征和所有的所述内容特征进行筛选，分别将筛选得到的每一个所述路径特征和每一个所述内容特征，作为所述待检测文档的待检测特征，包括：

将所述每一个路径特征分别输入至特征权重计算公式，计算得到每一个所述路径特征的权重值；

将所述每一个内容特征分别输入至特征权重计算公式，计算得到每一个所述内容特征的权重值；

对所有路径特征的权重值以及所有内容特征的权重值，从大到小进行排序，得到特征序列；

在所述特征序列中选取预设个数的路径特征和内容特征，作为待检测特征；

其中，所述特征权重计算公式为：

R_i代表特征i的权重；μ_i,p表示特征i在恶意文件中的平均值；μ_i,n是特征i 在良性文件中的平均值；σ_i,p是特征i在恶意文件中的标准差；σ_i,n是特征i在良性文件中的标准差；所述特征i为所述路径特征或所述内容特征。

可选的，所述文档检测模型的构建方法，包括：

针对每一个训练样本文档，将所述训练样本文档的特征集合中的每一个特征输入至随机森林分类器中，得到特征对应的文件的判断结果；其中，所述判断结果用于说明所述特征对应的文件是否为恶意文件；

对每一个所述训练样本文档的所述随机森林分类器输出的判断结果与实际判断结果进行对比，对所述随机森林分类器中的参数进行不断调整，直至调整后的所述随机森林分类器输出的判断结果与实际判断结果相同，将所述调整后的随机森林分类器确定为文档检测模型。

本申请第二方面提供了一种文档检测的装置，包括：

获取单元，用于获取待检测文档中的每一个文件的路径特征和内容特征；

筛选单元，用于将所有的所述路径特征和所有的所述内容特征进行筛选，分别将筛选得到的每一个所述路径特征和每一个所述内容特征，作为所述待检测文档的待检测特征；

分析单元，用于分别针对每一个所述待检测特征，将所述待检测特征输入至文档检测模型中，得到所述待检测特征的判断结果；其中，所述判断结果用于说明所述待检测特征对应的文件是否为恶意文件；所述文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到；每一个所述训练样本文档中包括多个恶意样本文件和多个良性样本文件；所述特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。

可选的，所述获取单元，包括：

解压缩单元，用于对所述待检测文档进行解压缩，得到所述待检测文档对应的文件夹；

第一提取单元，用于提取得到所述文件夹中每一个文件对应的路径信息，以及所述文件夹中每一个子文件夹中的每一个文件对应的路径信息；

第二提取单元，用于提取得到所述文件夹中每一个文件中从开始标签到结束标签之间的所有内容信息，以及所述文件夹中每一个子文件夹中的每一个文件中从开始标签到结束标签之间的所有内容信息；

特征处理单元，用于分别对每一个文件的路径信息和内容信息进行特征处理，得到每一个文件的路径特征和内容特征。

可选的，所述筛选单元，包括：

计算单元，用于将所述每一个路径特征分别输入至特征权重计算公式，计算得到每一个所述路径特征的权重值；

所述计算单元，还用于将所述每一个内容特征分别输入至特征权重计算公式，计算得到每一个所述内容特征的权重值；

排序单元，用于对所有路径特征的权重值以及所有内容特征的权重值，从大到小进行排序，得到特征序列；

选取单元，用于在所述特征序列中选取预设个数的路径特征和内容特征，作为待检测特征；

其中，所述特征权重计算公式为：

可选的，所述文档检测模型的构建单元，包括：

判断单元，用于针对每一个训练样本文档，将所述训练样本文档的特征集合中的每一个特征输入至随机森林分类器中，得到特征对应的文件的判断结果；其中，所述判断结果用于说明所述特征对应的文件是否为恶意文件；

确定单元，用于对每一个所述训练样本文档的所述随机森林分类器输出的判断结果与实际判断结果进行对比，对所述随机森林分类器中的参数进行不断调整，直至调整后的所述随机森林分类器输出的判断结果与实际判断结果相同，将所述调整后的随机森林分类器确定为文档检测模型。

本申请第三方面提供了一种设备，所述设备为服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如第一方面任意一项所述的方法。

本申请第四方面提供了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如第一方面任意一项所述的方法。

由以上方案可知，本申请提供的一种文档检测的方法、装置、设备、及计算机存储介质中，该方法包括：首先，获取待检测文档中的每一个文件的路径特征和内容特征；然后，将所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征；最后，分别针对每一个待检测特征，将待检测特征输入至文档检测模型中，得到待检测特征的判断结果；其中，判断结果用于说明待检测特征对应的文件是否为恶意文件；文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到；每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件；特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。从而达到无论恶意文件是否已知，都可以准确识别在大规模的文档中的恶意文件的目的。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种文档检测的方法的具体流程图；

图2为本申请另一实施例提供的一种文档检测的方法的具体流程图；

图3为本申请另一实施例提供的一种文档检测的方法的具体流程图；

图4为本申请另一实施例提供的一种文档检测模型的构建方法的具体流程图；

图5为本申请另一实施例提供的一种文档检测的装置的示意图；

图6为本申请另一实施例提供的一种获取单元的示意图；

图7为本申请另一实施例提供的一种筛选单元的示意图；

图8为本申请另一实施例提供的一种文档检测模型的构建单元的示意图；

图9为本申请另一实施例提供的一种执行文档检测方法的设备的示意图；

图10为本申请另一实施例提供的一种性能比较结果的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系，而术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请实施例提供了一种文档检测的方法，如图1所示，具体包括以下步骤：

S101、获取待检测文档中的每一个文件的路径特征和内容特征。

具体的，对待检测文档进行预处理，获取得到待检测文档下所有子文件的路径特征和内容特征。

可选的，在本申请的另一实施例中，步骤S101的一种实施方式，如图2 所示，包括：

S201、对待检测文档进行解压缩，得到待检测文档对应的文件夹。

具体的，对待检测文档进行解压缩，得到包含待检测文档中全部信息的文件夹。在该文件夹下可能会包含多个子文件夹，而每一个子文件夹中也会包括多个文件。

S202、提取得到文件夹中每一个文件对应的路径信息，以及文件夹中每一个子文件夹中的每一个文件对应的路径信息。

其中，路径信息用于指示文件在存储介质中的存储位置。

S203、提取得到文件夹中每一个文件中从开始标签到结束标签之间的所有内容信息，以及文件夹中每一个子文件夹中的每一个文件中从开始标签到结束标签之间的所有内容信息。

S204、分别对每一个文件的路径信息和内容信息进行特征处理，得到每一个文件的路径特征和内容特征。

S102、将所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征。

具体的，按照预设的筛选规则对所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征，从而减少不必要的特征，提高对待检测文档进行检测准确度，以及减少处理时间。

可选的，在本申请的另一实施例中，步骤S102的一种实施方式，如图3 所示，包括：

S301、将每一个路径特征分别输入至特征权重计算公式，计算得到每一个路径特征的权重值。

其中，特征权重计算公式为：

R_i代表特征i的权重；μ_i,p表示特征i在恶意文件中的平均值；μ_i,n是特征i 在良性文件中的平均值；σ_i,p是特征i在恶意文件中的标准差；σ_i,n是特征i在良性文件中的标准差；特征i为路径特征或内容特征。

S302、将每一个内容特征分别输入至特征权重计算公式，计算得到每一个内容特征的权重值。

需要说明的是，计算得到的内容特征的权重值的的计算公式与计算得到的路径特征的权重值的的计算公式一致。

S303、对所有路径特征的权重值以及所有内容特征的权重值，从大到小进行排序，得到特征序列。

具体的，按照从大到小的顺序，对得到的所有路径特征的权重值以及所有内容特征的权重值，一起进行排序，得到的特征序列。

S304、在特征序列中选取预设个数的路径特征和内容特征，作为待检测特征。

需要说明的是，在不同应用场景中，该数值会对检测速度何检测准确率产生影响，因此，在实际应用可以根据情况中对该数值进行调整和修改，此处不做限定。

还需要说明的是，在特征序列中选取预设个数的路径特征和内容特征的过程中，由于特征序列是按照从大到小的顺序，对得到的所有路径特征的权重值以及所有内容特征的权重值，一起进行排序得到的，所以有可能待检测特征中只有路径特征或只有内容特征。

S103、分别针对每一个待检测特征，将待检测特征输入至文档检测模型中，得到待检测特征的判断结果。

其中，判断结果用于说明待检测特征对应的文件是否为恶意文件；文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到；每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件；特征集合由训练样本文档中的内容特征和路径特征筛选得到。

可选的，在本申请的另一实施例中，文档检测模型的构建方法，如图4 所示，包括：

S401、针对每一个训练样本文档，将训练样本文档的特征集合中的每一个特征输入至随机森林分类器中，得到特征对应的文件的判断结果。

其中，判断结果用于说明特征对应的文件是否为恶意文件；训练样本文档可以但不限于，按照7：3的比例分成训练集和测试集，对随机森林分类器进行训，可以根据实际的情景，对比例进行设置，此处不做限定。

需要说明的是，随机森林分类器的初始参数值可以但不限于，将 N_estimator和Max_depth分别设置成100和30后进行随机森林分类器的训练。其中，N_estimator的具体意义为随机森林中决策树的个数，Max_depth的具体意义是决策树的深度。

S402、对每一个训练样本文档的随机森林分类器输出的判断结果与实际判断结果进行对比，对随机森林分类器中的参数进行不断调整，直至调整后的随机森林分类器输出的判断结果与实际判断结果相同，将调整后的随机森林分类器确定为文档检测模型。

具体的，为了进一步验证模型的有效性，将模型训练好的模型和5类杀毒软件进行的比较测试。图10是性能比较结果，实验结果显示我们申请的方法在F值上优于目前主流的杀毒软件，其F值达到97.4％；其中，F值为 F-Mearsure，ourmethod为本申请，Avast、BitDefender、Kaspersky、McAfee 和Emsisoft为现有技术常用的杀毒软件。

由以上方案可知，本申请提供的一种文档检测的方法，首先，获取待检测文档中的每一个文件的路径特征和内容特征；然后，将所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征；最后，分别针对每一个待检测特征，将待检测特征输入至文档检测模型中，得到待检测特征的判断结果；其中，判断结果用于说明待检测特征对应的文件是否为恶意文件；文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到；每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件；特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。从而达到无论恶意文件是否已知，都可以准确识别在大规模的文档中的恶意文件的目的。

本申请的另一实施例提供了一种文档检测的装置，如图5所示，包括：

获取单元501，用于获取待检测文档中的每一个文件的路径特征和内容特征。

可选的，在申请的另一实施例中，获取单元501的一种实施方式，如图6 所示，包括：

解压缩单元601，用于对待检测文档进行解压缩，得到待检测文档对应的文件夹。

第一提取单元602，用于提取得到文件夹中每一个文件对应的路径信息，以及文件夹中每一个子文件夹中的每一个文件对应的路径信息。

第二提取单元603，用于提取得到文件夹中每一个文件中从开始标签到结束标签之间的所有内容信息，以及文件夹中每一个子文件夹中的每一个文件中从开始标签到结束标签之间的所有内容信息。

特征处理单元604，用于分别对每一个文件的路径信息和内容信息进行特征处理，得到每一个文件的路径特征和内容特征。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图2所示，此处不再赘述。

筛选单元502，用于将所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征。

可选的，在本申请的另一实施例中，筛选单元502的一种实施方式，如图7所示，包括：

计算单元701，用于将每一个路径特征分别输入至特征权重计算公式，计算得到每一个路径特征的权重值。

计算单元701，还用于将每一个内容特征分别输入至特征权重计算公式，计算得到每一个内容特征的权重值。

排序单元702，用于对所有路径特征的权重值以及所有内容特征的权重值，从大到小进行排序，得到特征序列。

选取单元703，用于在特征序列中选取预设个数的路径特征和内容特征，作为待检测特征。

其中，特征权重计算公式为：

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图3所示，此处不再赘述。

分析单元503，用于分别针对每一个待检测特征，将待检测特征输入至文档检测模型中，得到待检测特征的判断结果。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图1所示，此处不再赘述。

可选的，在本申请的另一实施例中，文档检测模型的构建单元的一种实施方式，如图8所示，包括：

判断单元801，用于针对每一个训练样本文档，将训练样本文档的特征集合中的每一个特征输入至随机森林分类器中，得到特征对应的文件的判断结果。

其中，判断结果用于说明特征对应的文件是否为恶意文件。

确定单元802，用于对每一个训练样本文档的随机森林分类器输出的判断结果与实际判断结果进行对比，对随机森林分类器中的参数进行不断调整，直至调整后的随机森林分类器输出的判断结果与实际判断结果相同，将调整后的随机森林分类器确定为文档检测模型。

本申请上述实施例公开的单元的具体工作过程，可参见对应的方法实施例内容，如图4所示，此处不再赘述。

由以上方案可知，本申请提供的一种文档检测的装置，首先，获取单元 501获取待检测文档中的每一个文件的路径特征和内容特征；然后，筛选单元 502将所有的路径特征和所有的内容特征进行筛选，分别将筛选得到的每一个路径特征和每一个内容特征，作为待检测文档的待检测特征；最后，分析单元503分别针对每一个待检测特征，将待检测特征输入至文档检测模型中，得到待检测特征的判断结果；其中，判断结果用于说明待检测特征对应的文件是否为恶意文件；文档检测模型由多个训练样本文档各自对应的特征集合对随机森林分类器进行训练得到；每一个训练样本文档中包括多个恶意样本文件和多个良性样本文件；特征集合由所述训练样本文档中的内容特征和路径特征筛选得到。从而达到无论恶意文件是否已知，都可以准确识别在大规模的文档中的恶意文件的目的。

本申请另一实施例提供了一种设备，所述设备为服务器，如图9所示，包括：

一个或多个处理器901。

存储装置902，其上存储有一个或多个程序。

当所述一个或多个程序被所述一个或多个处理器901执行时，使得所述一个或多个处理器901实现如上述实施例中任意一项所述的方法。

本申请另一实施例提供了一种计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项所述的方法。

在本申请公开的上述实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本公开的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，直播设备，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文档检测的方法，其特征在于，包括：

获取待检测文档中的每一个文件的路径特征和内容特征；

2.根据权利要求1所述的方法，其特征在于，所述获取待检测文档中的每一个文件的路径特征和内容特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所有的所述路径特征和所有的所述内容特征进行筛选，分别将筛选得到的每一个所述路径特征和每一个所述内容特征，作为所述待检测文档的待检测特征，包括：

其中，所述特征权重计算公式为：

R_i代表特征i的权重；μ_i,p表示特征i在恶意文件中的平均值；μ_i,n是特征i在良性文件中的平均值；σ_i,p是特征i在恶意文件中的标准差；σ_i,n是特征i在良性文件中的标准差；所述特征i为所述路径特征或所述内容特征。

4.根据权利要求1所述的方法，其特征在于，所述文档检测模型的构建方法，包括：

5.一种文档检测的装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述获取单元，包括：

7.根据权利要求5所述的装置，其特征在于，所述筛选单元，包括：

其中，所述特征权重计算公式为：

8.根据权利要求5所述的装置，其特征在于，所述文档检测模型的构建单元，包括：

9.一种设备，其特征在于，所述设备为服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的方法。