CN113282921A

CN113282921A - 一种文件检测方法、装置、设备及存储介质

Info

Publication number: CN113282921A
Application number: CN202110657079.5A
Authority: CN
Inventors: 郭开
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-08-20

Abstract

本申请公开了一种文件检测方法、装置、设备及存储介质。该方法的步骤包括：获取待检测文件；通过文件检测模型对待检测文件执行检测操作；其中，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成；获取文件检测模型检测待检测文件得到的文件检测结果。文件检测模型将广告文件的信誉度信息，作为检测广告文件是否为恶意广告文件的维度之一，进而即使恶意广告文件中的代码发生变化，文件检测模型也能够根据其数字签名表征所对应的信誉度信息实现对恶意广告文件的识别检测，能够相对确保文件检测的准确性。此外，本申请还提供一种文件检测装置、设备及存储介质，有益效果同上所述。

Description

一种文件检测方法、装置、设备及存储介质

技术领域

本申请涉及网络安全领域，特别是涉及一种文件检测方法、装置、设备及存储介质。

背景技术

随着互联网的发展，用户对在互联网中文件的安全性的要求也越来越高。恶意广告文件往往会在客户的系统操作界面中恶意弹窗，因此需要被客户主机检测识别并禁止运行。目前，大部分的文件检测系统往往是通过恶意广告文件样本训练得到的检测模型对待检测文件进行检测，即病毒查杀，以此判定待检测广告文件是否为恶意广告文件。

然而，采用基于恶意广告文件样本训练得到的检测模型对待检测文件进行检测，一旦恶意广告文件稍微变化或者面对出现最新的恶意广告文件，文件检测系统往往会漏报，难以确保文件检测的准确性。

由此可见，提供一种文件检测方法，以相对确保文件检测的准确性，是本领域技术人员需要解决的问题。

发明内容

本申请的目的是提供一种文件检测方法、装置、设备及存储介质，以相对确保文件检测的准确性。

为解决上述技术问题，本申请提供一种文件检测方法，包括：

获取待检测文件；

通过文件检测模型对待检测文件执行检测操作，得到文件检测结果；其中，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成，所述文件检测结果用于表征所述待检测文件是否为恶意广告文件。

优选地，恶意广告文件样本的文件来源为网络来源。

优选地，文件检测模型基于恶意样本集合中的恶意广告文件样本以及恶意广告文件样本中数字签名的信誉度信息训练生成；

恶意样本集合包括：默认恶意广告文件样本、以及未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本。

优选地，相似度为未知类型样本与默认恶意广告文件样本之间的模糊哈希值的相似度。

优选地，文件检测模型具体是基于恶意广告文件样本的样本属性标签以及恶意广告文件样本中数字签名对应的信誉度信息训练生成。

此外，本申请还提供一种文件检测模型训练方法，包括：

确定恶意样本集合；

统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息；

基于恶意广告文件样本以及信誉度信息进行模型训练，得到文件检测模型。

优选地，确定恶意样本集合，包括：

获取原始恶意样本集合以及未知类型样本；其中，原始恶意样本集合中包含有默认恶意广告文件样本；

确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本；

将待扩充样本增加至原始恶意样本集合，得到恶意样本集合。

优选地，基于恶意广告文件样本以及信誉度信息进行模型训练，包括：

基于恶意广告文件样本的样本属性标签以及信誉度信息进行模型训练。

优选地，在基于恶意广告文件样本的样本属性标签以及信誉度信息进行模型训练之前，包括：

根据预设的标签标注模型确定待扩充样本的预估属性标签；

判断待扩充样本的样本属性标签是否与预估属性标签一致；

若待扩充样本的样本属性标签与预估属性标签不一致，则基于预估属性标签修改样本属性标签。

优选地，确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本，包括：

基于模糊哈希算法确定未知类型样本的第一模糊哈希值，以及默认恶意文件的第二模糊哈希值；

统计第一模糊哈希值与第二模糊哈希值的相似度；

判断相似度是否达到预设相似度标准；

若是，则将未知类型样本设置为待扩充样本。

基于恶意广告文件样本以及信誉度信息对原始检测模型执行模型重训练；其中，原始检测模型基于默认恶意广告文件样本训练生成。

此外，本申请还提供一种文件检测装置，包括：

待检测获取模块，用于获取待检测文件；

检测执行模块，用于通过文件检测模型对待检测文件执行检测操作，得到文件检测结果；其中，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成。

此外，本申请还提供一种文件检测模型训练装置，包括：

样本集合确定模块，用于确定恶意样本集合；

样本统计模块，用于统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息；

模型训练模块，用于基于恶意广告文件样本以及信誉度信息进行模型训练，得到文件检测模型。

此外，本申请还提供一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述的文件检测方法的步骤和/或实现如上述的文件检测模型训练方法的步骤。

此外，本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的文件检测方法的步骤和/或实现如上述的文件检测模型训练方法的步骤。

本申请所提供的文件检测方法，首先获取待检测文件，进而通过文件检测模型对待检测文件执行检测操作，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成，进而在通过文件检测模型对待检测文件执行检测操作之后，进一步获取文件检测模型检测待检测文件得到的文件检测结果。由于文件检测模型是基于恶意广告文件样本以及其数字签名对应的信誉度信息进行模型训练得到的，因此文件检测模型将广告文件的信誉度信息，作为检测广告文件是否为恶意广告文件的维度之一，进而即使恶意广告文件中的代码发生变化，文件检测模型也能够根据其数字签名表征所对应的信誉度信息实现对恶意广告文件的识别检测，能够相对确保文件检测的准确性。此外，本申请还提供一种文件检测装置、设备及存储介质，有益效果同上所述。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种文件检测方法的流程图；

图2为本申请实施例公开的一种文件检测模型训练方法的流程图；

图3为本申请实施例公开的一种文件检测模型训练方法的流程图；

图4为本申请实施例公开的一种文件检测装置的结构示意图；

图5为本申请实施例公开的一种文件检测模型训练装置的结构示意图；

图6为本申请实施例公开的一种计算机设备的硬件组成结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

目前，大部分的文件检测系统往往是通过恶意广告文件样本训练得到的检测模型对待检测文件进行检测，即病毒查杀，以此判定待检测广告文件是否为恶意广告文件。

为此，本申请的核心是提供一种文件检测方法，以相对确保文件检测的准确性。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

本申请技术方案所适应的场景包括但不限于云计算系统场景，云计算系统由物理的服务器设备构成，各个服务器以并行方式运行，并且在各个服务器设备中分别运行有云查杀系统的进程，各个服务器中云查杀系统的进程以并行运行的方式构成云查杀系统。在上述场景下，本申请技术方案的执行主体为构成云计算系统的服务器设备，服务器设备执行云查杀系统的进程时，拦截网络来源或获取用户上传至云查杀系统的待检测文件，并通过文件检测模型对待检测文件执行文件检测，进而生成文件检测结果并将文件检测结果上报至云查杀系统的前端平台和/或云查杀系统的后端存储系统。

如图1所示的，本申请实施例公开了一种文件检测方法，包括：

步骤S10：获取待检测文件。

需要说明的是，本步骤中指的获取待检测文件，可以是获取通过网关在网络中拦截得到的待检测文件，也可以是接收用户上传的待检测文件。获取待检测文件的目的是在后续步骤中进一步利用文件检测模型对待检测文件进行检测，以此判定待检测文件是否为恶意广告文件。

步骤S11：通过文件检测模型对待检测文件执行检测操作，得到文件检测结果。

其中，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成。

在获取到待检测文件之后，本步骤进一步通过文件检测模型对待检测文件执行检测操作，本实施例的重点在于文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成，由于恶意广告文件样本中的数字签名是由恶意广告文件的开发者利用自身的私钥进行签名加密产生的，进而数字签名能够唯一表征开发者的身份，在此基础上，由于开发者的信誉度信息表征的是开发者是否有开发恶意广告文件的意图，即开发恶意广告文件的可能性，因此基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息生成的文件检测模型，能够基于广告文件的代码特征维度以及广告文件的开发者维度综合判定广告文件是否为恶意广告文件。

文件检测结果用于表征所述待检测文件是否为恶意广告文件。需要说明的是，本申请所提到的恶意广告文件是未经用户允许自动下载并安装或与其他软件捆绑，通过弹出式广告或以其他形式进行商业广告宣传的程序，例如为广告软件(Adware)。

本申请所提供的文件检测方法，首先获取待检测文件，进而通过文件检测模型对待检测文件执行检测操作，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成，进而在通过文件检测模型对待检测文件执行检测操作之后，进一步获取文件检测模型检测待检测文件得到的文件检测结果。由于文件检测模型是基于恶意广告文件样本以及其数字签名对应的信誉度信息进行模型训练得到的，因此文件检测模型将广告文件的信誉度信息，作为检测广告文件是否为恶意广告文件的维度之一，进而即使恶意广告文件中的代码发生变化，文件检测模型也能够根据其数字签名表征所对应的信誉度信息实现对恶意广告文件的识别检测，能够相对确保文件检测的准确性。

在上述实施例的基础上，作为一种优选的实施方式，恶意广告文件样本的文件来源为网络来源。

需要说明的是，本实施方式中恶意广告文件样本的文件来源为网络来源，由于网络来源的恶意广告文件样本与实际待检测文件的真实来源相同，因此基于网络来源的恶意广告文件样本训练得到的文件检测模型能够相对准确的实现对于待检测文件的检测。

另外，在上述实施例的基础上，作为一种优选的实施方式，文件检测模型基于恶意样本集合中的恶意广告文件样本以及恶意广告文件样本中数字签名的信誉度信息训练生成；

需要说明的是，在本实施方式中，生成文件检测模型的恶意广告文件样本是基于恶意样本集合获得的，也就是说，恶意样本集合中预先存储有恶意广告文件样本，而恶意样本集合，是基于预先设置的默认恶意广告文件样本，以及未知类型样本中与默认恶意广告文件样本相似的待扩充样本整合产生的，其中，默认恶意广告文件样本指的是当前已知的具有恶意行为的恶意广告文件。本实施方式基于默认恶意广告文件样本进一步在未知类型样本中筛选与默认恶意广告文件样本相似的广告文件作为待扩充样本，并将待扩充样本与默认恶意广告文件样本一并整合为到恶意样本集合，能够相对提高恶意样本集合中恶意广告文件样本的样本数量，进而能够确保文件检测模型的准确性。

进一步的，相似度为未知类型样本与默认恶意广告文件样本之间的模糊哈希值的相似度。通过模糊哈希值作为相似度的依据，一方面计算简单，另一方面，能够确保在未知类型样本中获取的待扩充样本的准确性。

另外，在上述一系列实施例的基础上，作为一种优选的实施方式，文件检测模型具体是基于恶意广告文件样本的样本属性标签以及恶意广告文件样本中数字签名对应的信誉度信息训练生成。

需要说明的是，本实施方式中，恶意广告文件样本的样本属性标签指的是标注有恶意广告文件样本的恶意类型和/或相关特征属性的属性标签，能够具体表征恶意广告文件所具有的特征，因此基于恶意广告文件样本的样本属性标签以及数字签名的信誉度信息训练文件检测模型，能够进一步确保文件检测模型的准确性。

如图2所示的，本申请实施例公开了一种文件检测模型训练方法，包括：

步骤S20：确定恶意样本集合。

在训练文件检测模型的过程中，首先获取恶意样本集合，恶意样本集合中包含有恶意广告文件样本，以此用于在后续步骤中基于恶意广告文件样本训练生成文件检测模型。

步骤S21：统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息。

在确定恶意样本集合之后，本步骤进一步统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息。恶意广告文件样本中的数字签名是由恶意广告文件的开发者利用自身的私钥进行签名加密产生的，进而数字签名能够唯一表征开发者的身份，在此基础上，由于开发者的信誉度信息表征的是开发者是否有开发恶意广告文件的意图，即开发恶意广告文件的可能性。

信誉度信息可以根据具有相应数字签名的开发者在历史周期内是否开发有恶意广告文件，或是开发者在历史周期内开发的恶意广告文件的数量而生成。

步骤S22：基于恶意广告文件样本以及信誉度信息进行模型训练，得到文件检测模型。

在统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息之后，本实施例进一步基于恶意广告文件样本以及信誉度信息进行模型训练，得到文件检测模型，基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息生成的文件检测模型，能够基于广告文件的代码特征维度以及广告文件的开发者维度综合判定广告文件是否为恶意广告文件。

由于文件检测模型是基于恶意广告文件样本以及其数字签名对应的信誉度信息进行模型训练得到的，因此文件检测模型将广告文件的信誉度信息，作为检测广告文件是否为恶意广告文件的维度之一，进而即使恶意广告文件中的代码发生变化，文件检测模型也能够根据其数字签名表征所对应的信誉度信息实现对恶意广告文件的识别检测，能够相对确保文件检测的准确性。

如图3所示的，本申请实施例公开了一种文件检测模型训练方法，包括：

步骤S30：获取原始恶意样本集合以及未知类型样本。

其中，原始恶意样本集合中包含有默认恶意广告文件样本。

步骤S31：确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本。

步骤S32：将待扩充样本增加至原始恶意样本集合，得到恶意样本集合。

步骤S33：统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息。

步骤S34：基于恶意广告文件样本以及信誉度信息进行模型训练，得到文件检测模型。

在本实施例中，生成文件检测模型的恶意广告文件样本是基于原始恶意样本集合获得的，原始恶意样本集合中预先存储有默认恶意广告文件样本，默认恶意广告文件样本指的是当前已知的具有恶意行为的恶意广告文件。恶意样本集合，是基于原始恶意样本中预先设置的默认恶意广告文件样本，以及未知类型样本中与默认恶意广告文件样本相似的待扩充样本整合产生的，其中，本实施方式基于默认恶意广告文件样本进一步在未知类型样本中筛选与默认恶意广告文件样本相似的广告文件作为待扩充样本，并将待扩充样本与默认恶意广告文件样本一并整合为到恶意样本集合，能够相对提高恶意样本集合中恶意广告文件样本的样本数量，进而能够确保文件检测模型的准确性。

在上述实施例的基础上，作为一种优选的实施方式，基于恶意广告文件样本以及信誉度信息进行模型训练，包括：

需要说明的是，本实施方式中恶意广告文件样本的样本属性标签，指的是标注有恶意广告文件样本的恶意类型和/或相关特征属性的属性标签，能够具体表征恶意广告文件所具有的特征，因此基于恶意广告文件样本的样本属性标签以及数字签名的信誉度信息训练文件检测模型，能够进一步确保文件检测模型的准确性。

更进一步的，作为一种优选的实施方式，在基于恶意广告文件样本的样本属性标签以及信誉度信息进行模型训练之前，包括：

根据预设的标签标注模型确定待扩充样本的预估属性标签；

判断待扩充样本的样本属性标签是否与预估属性标签一致；

需要说明的是，本实施方式在基于恶意广告文件样本的样本属性标签以及信誉度信息进行模型训练之前，首先通过预设的标签标注模型生成待扩充样本的预估属性标签，即根据预设的标签标注模型生成记录有待扩充样本的恶意类型和/或相关特征属性的属性标签，在此基础上，本实施方式进一步判断待扩充样本原有的样本属性标签是否与标签标注模型生成的预估属性标签一致，如果待扩充样本原有的样本属性标签与预估属性标签不一致，则基于预估属性标签修改样本属性标签，以此实现对于待扩充样本的样本属性标签的纠正，确保恶意广告文件样本的样本属性标签的准确性，进而确保文件检测模型的准确性。

另外，在上述实施例的基础上，作为一种优选的实施方式，确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本，包括：

统计第一模糊哈希值与第二模糊哈希值的相似度；

判断相似度是否达到预设相似度标准；

若是，则将未知类型样本设置为待扩充样本。

需要说明的是，本实施方式在确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本时，首先基于模糊哈希算法确定未知类型样本的第一模糊哈希值，以及默认恶意文件的第二模糊哈希值，进而统计第一模糊哈希值与第二模糊哈希值之间的相似度，并判断相似度是否达到预设相似度标准，当第一模糊哈希值与第二模糊哈希值之间的相似度达到预设相似度标准时，即表征默认恶意文件与未知类型样本之间的相似度较高，进而将未知类型样本设置为待扩充样本。

模糊哈希算法的主要原理是，使用一个弱哈希计算文件局部内容，在特定条件下对文件进行分片，然后使用一个强哈希对文件每片计算哈希值，取这些值的一部分并连接起来，与分片条件一起构成一个模糊哈希值结果。

本实施方式通过比较未知类型样本与默认恶意文件之间的模糊哈希值的方法，确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本，能够进一步确保在未知类型样本中获取的待扩充样本的准确性。

在上述一系列实施例的基础上，作为一种优选的实施方式，基于恶意广告文件样本以及信誉度信息进行模型训练，包括：

本实施方式的重点在于基于恶意广告文件样本以及信誉度信息对原始检测模型执行模型重训练得到文件检测模型，原始检测模型基于默认恶意广告文件样本训练生成，也就是说，本实施方式预先基于默认恶意广告文件生成原始检测模型，进而利用恶意广告文件样本以及信誉度信息对原始检测模型做进一步的重训练，以此能够确保最终得到的文件检测模型的准确性。

请参见图4所示，本申请实施例公开了一种文件检测装置，包括：

待检测获取模块10，用于获取待检测文件；

检测执行模块11，用于通过文件检测模型对待检测文件执行检测操作，得到文件检测结果；其中，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成。文件检测结果用于表征待检测文件是否为恶意广告文件。

在一种具体实施方式中，恶意广告文件样本的文件来源为网络来源。

在一种具体实施方式中，文件检测模型基于恶意样本集合中的恶意广告文件样本以及恶意广告文件样本中数字签名的信誉度信息训练生成；

在一种具体实施方式中，文件检测模型基于恶意广告文件样本的样本属性标签以及恶意广告文件样本中数字签名对应的信誉度信息训练生成。

本申请所提供的文件检测装置，首先获取待检测文件，进而通过文件检测模型对待检测文件执行检测操作，文件检测模型基于恶意广告文件样本以及恶意广告文件样本中数字签名对应的信誉度信息训练生成，进而在通过文件检测模型对待检测文件执行检测操作之后，进一步获取文件检测模型检测待检测文件得到的文件检测结果。由于文件检测模型是基于恶意广告文件样本以及其数字签名对应的信誉度信息进行模型训练得到的，因此文件检测模型将广告文件的信誉度信息，作为检测广告文件是否为恶意广告文件的维度之一，进而即使恶意广告文件中的代码发生变化，文件检测模型也能够根据其数字签名表征所对应的信誉度信息实现对恶意广告文件的识别检测，能够相对确保文件检测的准确性。

请参见图5所示，本申请实施例公开了一种文件检测模型训练装置，包括：

样本集合确定模块20，用于确定恶意样本集合；

样本统计模块21，用于统计恶意样本集合中恶意广告文件样本中数字签名对应的信誉度信息；

模型训练模块22，用于基于恶意广告文件样本以及信誉度信息进行模型训练，得到文件检测模型。

在一种具体实施方式中，样本集合确定模块20，包括：

集合样本获取模块，用于获取原始恶意样本集合以及未知类型样本；其中，原始恶意样本集合中包含有默认恶意广告文件样本；

扩充样本确定模块，用于确定未知类型样本中与默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本；

恶意集合生成模块，用于将待扩充样本增加至原始恶意样本集合，得到恶意样本集合。

在一种具体实施方式中，模型训练模块22，包括：

标签训练模块，用于基于恶意广告文件样本的样本属性标签以及信誉度信息进行模型训练。

在一种具体实施方式中，装置还包括：

预估标签确定模块，用于根据预设的标签标注模型确定待扩充样本的预估属性标签；

标签一致性判断模块，用于判断待扩充样本的样本属性标签是否与预估属性标签一致，若否，则调用标签修改模块；

标签修改模块，用于基于预估属性标签修改样本属性标签。

在一种具体实施方式中，扩充样本确定模块，包括：

哈希值计算模块，用于基于模糊哈希算法确定未知类型样本的第一模糊哈希值，以及默认恶意文件的第二模糊哈希值；

相似度计算模块，用于统计第一模糊哈希值与第二模糊哈希值的相似度；

相似度判断模块，用于判断相似度是否达到预设相似度标准，若是，则调用扩充设置模块；

扩充设置模块，用于将未知类型样本设置为待扩充样本。

在一种具体实施方式中，模型训练模块22，包括：

重训练模块，用于基于恶意广告文件样本以及信誉度信息对原始检测模型执行模型重训练；其中，原始检测模型基于默认恶意广告文件样本训练生成。

由于本申请所提供的文件检测模型训练装置生成的文件检测模型是基于恶意广告文件样本以及其数字签名对应的信誉度信息进行模型训练得到的，因此文件检测模型将广告文件的信誉度信息，作为检测广告文件是否为恶意广告文件的维度之一，进而即使恶意广告文件中的代码发生变化，文件检测模型也能够根据其数字签名表征所对应的信誉度信息实现对恶意广告文件的识别检测，能够相对确保文件检测的准确性。

基于上述程序模块的硬件实现，且为了实现本申请实施例的文件检测方法和/或文件检测模型训练方法，本申请实施例还提供了一种计算机设备，运行有虚拟机且与虚拟机对应的虚拟机磁盘建立有通信连接，图6为本申请实施例计算机设备的硬件组成结构示意图，如图6所示，计算机设备包括：

通信接口1，能够与其它设备比如网络设备等进行信息交互；

处理器2，与通信接口1连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的文件检测方法和/或文件检测模型训练方法。而所述计算机程序存储在存储器3上。

当然，实际应用时，计算机设备中的各个组件通过总线系统4耦合在一起。可理解，总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统4。

本申请实施例中的存储器3用于存储各种类型的数据以支持计算机设备的操作。这些数据的示例包括：用于在计算机设备上操作的任何计算机程序。

可以理解，存储器3可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器2旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的文件检测方法和/或文件检测模型训练方法可以应用于处理器2中，或者由处理器2实现。处理器2可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述文件检测方法和/或文件检测模型训练方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各文件检测方法和/或文件检测模型训练方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的文件检测方法和/或文件检测模型训练方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器3，处理器2读取存储器3中的程序，结合其硬件完成前述文件检测方法和/或文件检测模型训练方法的步骤。

处理器2执行所述程序时实现本申请实施例的各个文件检测方法和/或文件检测模型训练方法中的相应流程，为了简洁，在此不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器3，上述计算机程序可由处理器2执行，以完成前述文件检测方法和/或文件检测模型训练方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、终端和文件检测方法和/或文件检测模型训练方法，可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述文件检测方法和/或文件检测模型训练方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述文件检测方法和/或文件检测模型训练方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例的文件检测方法和/或文件检测模型训练方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本申请实施例还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的文件检测方法的步骤和/或实现如上述的文件检测模型训练方法的步骤。

以上对本申请所提供的一种文件检测方法、装置、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种文件检测方法，其特征在于，包括：

获取待检测文件；

通过文件检测模型对所述待检测文件执行检测操作，得到文件检测结果；其中，所述文件检测模型基于恶意广告文件样本以及所述恶意广告文件样本中数字签名对应的信誉度信息训练生成，所述文件检测结果用于表征所述待检测文件是否为恶意广告文件。

2.根据权利要求1所述的文件检测方法，其特征在于，所述恶意广告文件样本的文件来源为网络来源。

3.根据权利要求1所述的文件检测方法，其特征在于，所述文件检测模型基于恶意样本集合中的所述恶意广告文件样本以及所述恶意广告文件样本中数字签名的信誉度信息训练生成；

所述恶意样本集合包括：默认恶意广告文件样本、以及未知类型样本中与所述默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本。

4.根据权利要求3所述的文件检测方法，其特征在于，所述相似度为所述未知类型样本与所述默认恶意广告文件样本之间的模糊哈希值的相似度。

5.根据权利要求1至4任意一项所述的文件检测方法，其特征在于，所述文件检测模型具体是基于恶意广告文件样本的样本属性标签以及所述恶意广告文件样本中所述数字签名对应的信誉度信息训练生成。

6.一种文件检测模型训练方法，其特征在于，包括：

确定恶意样本集合；

统计所述恶意样本集合中所述恶意广告文件样本中数字签名对应的信誉度信息；

基于所述恶意广告文件样本以及所述信誉度信息进行模型训练，得到所述文件检测模型。

7.根据权利要求6所述的文件检测模型训练方法，其特征在于，所述确定恶意样本集合，包括：

获取原始恶意样本集合以及未知类型样本；其中，所述原始恶意样本集合中包含有默认恶意广告文件样本；

确定所述未知类型样本中与所述默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本；

将所述待扩充样本增加至所述原始恶意样本集合，得到所述恶意样本集合。

8.根据权利要求7所述的文件检测模型训练方法，其特征在于，所述基于所述恶意广告文件样本以及所述信誉度信息进行模型训练，包括：

基于所述恶意广告文件样本的样本属性标签以及所述信誉度信息进行模型训练。

9.根据权利要求8所述的文件检测模型训练方法，其特征在于，在所述基于所述恶意广告文件样本的样本属性标签以及所述信誉度信息进行模型训练之前，包括：

根据预设的标签标注模型确定所述待扩充样本的预估属性标签；

判断所述待扩充样本的样本属性标签是否与所述预估属性标签一致；

若所述待扩充样本的样本属性标签与所述预估属性标签不一致，则基于所述预估属性标签修改所述样本属性标签。

10.根据权利要求7所述的文件检测模型训练方法，其特征在于，所述确定所述未知类型样本中与所述默认恶意广告文件样本的相似度达到预设相似度标准的待扩充样本，包括：

基于模糊哈希算法确定所述未知类型样本的第一模糊哈希值，以及所述默认恶意文件的第二模糊哈希值；

统计所述第一模糊哈希值与所述第二模糊哈希值的所述相似度；

判断所述相似度是否达到所述预设相似度标准；

若是，则将所述未知类型样本设置为所述待扩充样本。

11.根据权利要求6至10任意一项所述的文件检测模型训练方法，其特征在于，所述基于所述恶意广告文件样本以及所述信誉度信息进行模型训练，包括：

基于所述恶意广告文件样本以及所述信誉度信息对原始检测模型执行模型重训练；其中，所述原始检测模型基于所述默认恶意广告文件样本训练生成。

12.一种文件检测装置，其特征在于，包括：

待检测获取模块，用于获取待检测文件；

检测执行模块，用于通过文件检测模型对所述待检测文件执行检测操作，得到文件检测结果；其中，所述文件检测模型基于恶意广告文件样本以及所述恶意广告文件样本中数字签名对应的信誉度信息训练生成。

13.一种文件检测模型训练装置，其特征在于，包括：

样本集合确定模块，用于确定恶意样本集合；

样本统计模块，用于统计所述恶意样本集合中所述恶意广告文件样本中数字签名对应的信誉度信息；

模型训练模块，用于基于所述恶意广告文件样本以及所述信誉度信息进行模型训练，得到所述文件检测模型。

14.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任意一项所述的文件检测方法的步骤和/或实现如6至11任意一项所述的文件检测模型训练方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述的文件检测方法的步骤和/或实现如权利要求6至11任意一项所述的文件检测模型训练方法的步骤。