CN116881915B

CN116881915B - 文件检测方法、电子设备和存储介质

Info

Publication number: CN116881915B
Application number: CN202311142001.5A
Authority: CN
Inventors: 王星
Original assignee: Cec Cyberspace Great Wall Co ltd
Current assignee: Cec Cyberspace Great Wall Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-01-02
Anticipated expiration: 2043-09-06
Also published as: CN116881915A

Abstract

本公开提供一种文件检测方法、电子设备和存储介质，涉及文件检测技术领域。方法包括：接收客户端设备发送的待检测文件的特征数据，并将待检测文件的特征数据转换为待检测图像；基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；向客户端设备反馈检测结果，检测结果用于确定待检测文件中是否包括异常数据。通过接收客户端设备发送的待检测文件的特征数据，而非让客户端上传全部的待检测文件，能够减少客户端设备与服务器之间的传输带宽，减少资源浪费；将待检测文件的特征数据转换为待检测图像，以保证数据的安全性。

Description

文件检测方法、电子设备和存储介质

技术领域

本公开涉及文件检测技术领域，具体涉及一种文件检测方法、电子设备和存储介质。

背景技术

传统的网络安全设备（例如，基于主机的端点检测与响应（Endpoint Detectionand Response，EDR）设备、基于流量的网络威胁检测与响应（Network Detection andResponse，NDR）设备等）都是在客户端实现对恶意文件、软件漏洞、软件病毒等数据的安全检测和处置。

但是，在上述处理过程中，客户端需要将待检测的原始文件全部上传到云端服务器上进行检测分析，占用了大量的传输带宽，降低了数据的传输效率；并且，上传的待检测的原始文件中还会包括隐私信息等，降低了文件的传输安全性。

发明内容

为此，本公开提供一种文件检测方法、电子设备和存储介质，以解决如何提高数据传输的安全性并提高数据的传输效率的问题。

第一方面，本公开提供一种文件检测方法，方法包括：接收客户端设备发送的待检测文件的特征数据，并将待检测文件的特征数据转换为待检测图像；基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；向客户端设备反馈检测结果，检测结果用于确定待检测文件中是否包括异常数据。

第二方面，本公开提供一种文件检测方法，方法包括：获取待检测文件的特征数据；向云端服务器发送待检测文件的特征数据，以使云端服务器将待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对待检测图像进行分析，确定检测结果，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；响应于云端服务器反馈的检测结果，确定待检测文件中是否包括异常数据。

第三方面，本公开提供一种电子设备，包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本公开实施例中的任意一种文件检测方法。

第四方面，本公开提供一种可读存储介质，该可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本公开实施例中的任意一种文件检测方法。

本公开提供的文件检测方法、电子设备和存储介质，通过接收客户端设备发送的待检测文件的特征数据，而非让客户端上传全部的待检测文件，能够减少客户端设备与服务器之间的传输带宽，减少资源浪费；将待检测文件的特征数据转换为待检测图像，可以保证数据的安全性，避免将待检测文件的特征数据中的隐私信息泄露给其他与服务器相连接的设备；基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中的预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型，能够加快准确的获得检测结果，即待检测文件中是否包括异常数据的标识，进而将该检测结果反馈给客户端设备，以使客户端设备可以明确待检测文件中是否存在异常数据，从而降低客户端被恶意文件攻击的可能性。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中。

图1示出本公开实施例提供的一种文件检测方法的流程示意图。

图2示出本公开实施例提供的一种文件检测方法的流程示意图。

图3示出本公开实施例提供的一种云端服务器的组成方框图。

图4示出本公开实施例提供的一种客户端设备的组成方框图。

图5示出本公开实施例提供的一种文件检测系统的组成方框图。

图6示出本公开实施例提供的一种文件检测系统中的客户端设备与云端服务器之间的信息交互流程图。

图7示出能够实现根据本公开实施例的文件检测方法和装置的电子设备的示例性硬件架构的结构图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。对于本领域技术人员来说，本公开可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本公开的示例来提供对本公开更好的理解。

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

基于主机的端点检测与响应（Endpoint Detection and Response，EDR）、基于流量的网络威胁检测与响应（Network Detection and Response，NDR）等传统的网络安全检测方式，都是在客户端实现对恶意文件、软件漏洞、软件病毒等数据的安全检测和处置。其中，客户端设备承载了全部的检测及响应工作，需要消耗客户端设备大量的硬件资源（如，中央处理器（Central Processing Unit，CPU）、内存资源、以及输入/输出资源等）。

通常情况下，会采用服务器+客户端设备的部署方式，来缓解客户端设备处理大数据量的数据处理压力。但是，客户端设备仍然需要将其获取到的大量待检测的数据发送给服务器，以便于服务器能够对待检测的数据进行检测和处理，占用了服务器与客户端设备之间的传输带宽，会降低数据的传输效率；并且，上传的待检测的数据中还会包括隐私信息等，降低了数据的传输安全性。

本公开提供一种文件检测方法、电子设备和存储介质，以解决上述问题。

图1示出本公开实施例提供的一种文件检测方法的流程示意图。该方法可应用于云端服务器。如图1所示，该文件检测方法包括但不限于如下步骤。

步骤S101，接收客户端设备发送的待检测文件的特征数据，并将待检测文件的特征数据转换为待检测图像。

步骤S102，基于预设检测分析模型对待检测图像进行分析，确定检测结果。

其中，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型。检测结果用于确定待检测文件中是否包括异常数据。

步骤S103，向客户端设备反馈检测结果。

在本实施例中，通过接收客户端设备发送的待检测文件的特征数据，而非让客户端上传全部的待检测文件，能够减少客户端设备与服务器之间的传输带宽，减少资源浪费；将待检测文件的特征数据转换为待检测图像，可以保证数据的安全性，避免将待检测文件的特征数据中的隐私信息泄露给其他与服务器相连接的设备；基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中的预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型，能够加快准确的获得检测结果，即待检测文件中是否包括异常数据的标识，进而将该检测结果反馈给客户端设备，以使客户端设备可以明确待检测文件中是否存在异常数据，从而降低客户端被恶意文件攻击的可能性。

本公开实施例提供了另一种可能的实现方式，其中，步骤S101中的将待检测文件的特征数据转换为待检测图像，可以采用如下方式实现：依据待检测文件的特征数据，确定待检测像素数据；基于至少一个预设像素流长度区间，对待检测像素数据进行数据格式的转换，获得待检测图像。

其中，待检测图像包括待检测图像的宽度和待检测图像的高度，待检测图像的高度为基于待检测像素数据的长度和预设像素流长度区间对应的图像宽度确定的高度。

例如，预设像素流长度区间可以包括：0～10、10～30、30～60、60～100、100～200、200～1000、1000～1500、以及大于1500等。其中，各个数据的单位可以为像素的单位（pixel，px），也可以是二进制数据的比特（bit）数，本公开对此不做限制。

每个预设像素流长度区间对应一个待检测图像的宽度，通过确定待检测像素数据落入了哪个预设像素流长度区间内，就可以确定该待检测像素数据对应的待检测图像的宽度，然后，再结合待检测像素数据的长度，就可计算出待检测图像的高度，从而能够将一维的待检测文件的特征数据转换为二维的图像数据，便于后续采用预设检测分析模型对图像数据进行分析，提升数据的分析准确性。

在一些示例性的实施例中，基于至少一个预设像素流长度区间，对待检测像素数据进行数据格式的转换，获得待检测图像，包括：依据至少一个预设像素流长度区间，确定待检测图像的宽度；依据待检测像素数据的长度和待检测图像的宽度，确定待检测图像的高度。

其中，不同的预设像素流长度区间对应不同的图像宽度。

通过采用至少一个预设像素流长度区间，可获得至少一个待检测图像的宽度，对应的，能够将待检测像素数据转换为至少一个待检测图像，从而能够丰富待检测图像的数量。

例如，采用上述方式，将待检测像素数据转换为3个不同宽度和长度的待检测图像，能够使一个一维的待检测像素数据转换为3个不同的待检测图像，而将不同的待检测图像输入到预设检测分析模型进行分析时，可获得更丰富的识别特征，从而获得3个待检测图像对应的3个检测结果，然后，再对3个检测结果进行综合分析，提取3个检测结果中重合度最高的特征作为最终的检测结果，能够提升数据的检测准确性。

在一些示例性的实施例中，依据待检测文件的特征数据，确定待检测像素数据，包括：将待检测文件的特征数据转换为二进制码流；基于二进制码流，生成待检测像素数据。

其中，二进制码流可以表示为二进制的bit流，采用由0和1表征的数据，能够最细致的表征待检测文件的特征数据的特征；进一步地，基于二进制码流，生成待检测像素数据，该待检测像素数据是包括不同宽度和长度的二维图像数据，能够从维度上丰富数据的特征，从而使获得的待检测像素数据更符合预设检测分析模型的输入需求，获得准确的检测结果。

在一些示例性的实施例中，预设检测分析模型的训练方法，包括：获取测试集和训练集；将训练集中的多个异常训练样本图像和多个正常样本训练图像输入到预设深度神经网络中进行训练；基于多次迭代的训练结果，更新预设深度神经网络的模型参数，获得训练后的深度神经网络模型；使用测试集中的多个异常测试样本图像和/或多个正常测试样本图像分别对训练后的深度神经网络模型进行验证，获得验证结果；在确定验证结果满足预设评估条件的情况下，确定训练后的深度神经网络模型为预设检测分析模型。

其中，训练集包括多个异常训练样本图像和多个正常样本训练图像，测试集包括多个异常测试样本图像和/或多个正常测试样本图像。预设评估条件包括预设图像的分辨准确率和/或召回率。

分辨准确率为检测出异常测试样本图像（或，正常测试样本图像）的数量与检测出的文档总数的比率，用以衡量训练后的深度神经网络模型的查准率。召回率为检测出的异常测试样本图像（或，正常测试样本图像）的数量与测试集中的所有异常测试样本图像（或，正常测试样本图像）的总数的比率，用于衡量训练后的深度神经网络模型的查全率。

通过采用上述训练方式，能够充分利用深度神经网络模型的技术优势，通过采用测试集中的多个异常测试样本图像和/或多个正常测试样本图像分别对训练后的深度神经网络模型进行验证，并基于验证结果反复对深度神经网络模型的参数进行调整，以使最终获得的预设检测分析模型能够满足预设评估条件，从而使预设检测分析模型能够对待检测图像进行更准确的检测，并提升检测效率。

在一些示例性的实施例中，获取测试集和训练集，包括：获取多个样本文件的样本特征数据；分别将每个异常样本文件对应的样本特征数据转换为异常样本图像，并将每个正常样本文件对应的样本特征数据转换为正常样本图像；基于预设比例，将多个异常样本图像和多个正常样本图像划分为测试集和训练集。

其中，样本文件包括客户端设备收集到的异常样本文件和正常样本文件。预设比例可以是根据训练需求，预先设定的比例。例如，设定预设比例为8:2，则表示将多个异常样本图像和多个正常样本图像中的80%的数据作为测试集，将多个异常样本图像和多个正常样本图像中的20%的数据作为训练集。

采用预设比例，将多个异常样本图像和多个正常样本图像划分为测试集和训练集，能够采用测试集中的测试样本图像对深度神经网络模型进行训练，获得训练后的模型；然后，再使用测试集中的测试样本图像对训练后的模型进行验证，即采用交叉验证的方式，能够多次迭代的对模型的参数进行调整，以便于使最终获得预设检测分析模型可以更符合数据的验证需求，提升预设检测分析模型的检测准确性。

在一些示例性的实施例中，在执行步骤S103中的向客户端设备反馈检测结果之后，方法还包括：在确定待检测文件对应的类别为异常类别的情况下，对待检测文件进行如下操作中的至少一种：发布告警信息、对待检测文件进行隔离、删除待检测文件。

其中，发布告警信息，以使该告警信息携带有针对待检测文件的类型为异常类型的信息，向客户端设备发布警告，使客户端设备不再使用该待检测文件，从而降低客户端设备被待检测文件攻击的可能性。

通过对待检测文件进行隔离和/或删除待检测文件，能够使云端服务器可以同样减少受到待检测文件的攻击的可能性，提高对云端服务器的保护力度。

图2示出本公开实施例提供的一种文件检测方法的流程示意图。该方法可应用于客户端设备。如图2所示，该文件检测方法包括但不限于如下步骤。

步骤S201，获取待检测文件的特征数据。

步骤S202，向云端服务器发送待检测文件的特征数据，以使云端服务器将待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对待检测图像进行分析，确定检测结果。

其中，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型。

步骤S203，响应于云端服务器反馈的检测结果，确定待检测文件中是否包括异常数据。

在本实施例中，通过获取待检测文件的特征数据，以便于将减少发送给云端服务器的数据量，相较于传统的将待检测文件的全部数据上传给云端服务器而言，能够减少客户端设备与服务器之间的传输带宽，减少资源浪费；向云端服务器发送待检测文件的特征数据，以使云端服务器将待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对待检测图像进行分析，确定检测结果，能够通过云端服务器对待检测文件的特征数据进行快速准确的检测，从而获得准确的检测结果；响应于云端服务器反馈的检测结果，确定待检测文件中是否包括异常数据，降低客户端被恶意文件攻击的可能性。

在一些示例性的实施例中，步骤S201中的获取待检测文件的特征数据，可以采用如下方式实现：确定待检测文件所依赖的动态链接库；基于待检测文件所依赖的动态链接库，获取多个待使用函数以及各个待使用函数之间的调用关系信息；依据多个待使用函数以及各个待使用函数之间的调用关系信息，对待检测文件进行分析，确定待检测文件的特征数据。

其中，各个待使用函数可以采用二进制指令、汇编代码、机器码等实现。多个待使用函数包括：控制流结构函数（例如，由循环语句和/或条件语句等确定的函数）、应用程序接口函数、异常处理函数中的至少一种。待检测文件的特征数据包括但不限于如下数据：文件头信息、特定字符串信息、文件属性信息、待检测文件中包括的资源信息中的至少一种。

文件属性信息包括文件类型、文件格式、文件名称、文件的存储路径、文件的访问时间、文件的修改时间、以及文件的创建时间中的至少一种。

待检测文件中包括的资源信息包括：待检测文件中包含的图像资源（如，图像的大小、类型和格式等）、音频资源（如，音频的大小、类型和格式）、视频资源（如，视频的大小、类型和格式）中的至少一种。

特定字符串信息包括统一资源定位符(Uniform Resource Locator，URL)、互联网协议（Internet Protocol，IP）地址信息、注册表键值信息、以及待检测文件中出现的特定字符串中的至少一种。URL为用于完整地描述互联网中的网页地址和/或其他资源的地址。

通过依据多个待使用函数以及各个待使用函数之间的调用关系信息，对待检测文件进行分析，能够明确待检测文件中包括的文件头信息、特定字符串信息、文件属性信息等多个维度的特征数据，并将上述多个不同维度的特征数据提取出来，以表征待检测文件的特征，从而基于上述特征数据可以准确的对待检测文件进行识别，提升对待检测文件的识别速度。

在一些示例性的实施例中，在执行步骤S201中的获取待检测文件的特征数据之前，方法还包括：对当前设备存储的多个样本文件进行特征提取，获得多个样本文件的样本特征数据；将多个样本文件的样本特征数据上传至云端服务器。

其中，待检测文件为对样本文件进行更新的文件，或，待检测文件为与样本文件完全不同的文件。

通过将多个样本文件的样本特征数据上传至云端服务器，以便于云端服务器能够将多个样本文件的样本特征数据应用于预设检测分析模型的训练过程，丰富模型训练中的样本数据，使训练获得的预设检测分析模型更准确；并且，由于待检测文件为对样本文件进行更新的文件，或，待检测文件为与样本文件完全不同的文件，可减少对多个样本文件的重复检测的次数，从而提高文件的检测效率。

图3示出本公开实施例提供的一种云端服务器的组成方框图。如图3所示，该云端服务器300包括但不限于如下模块。

数据处理模块301，被配置为接收客户端设备发送的待检测文件的特征数据，并将待检测文件的特征数据转换为待检测图像；

分析模块302，被配置为基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；

反馈模块303，被配置为向客户端设备反馈检测结果，检测结果用于确定待检测文件中是否包括异常数据。

需要说明的是，本实施例中的云端服务器能够实现本公开中的任意一种应用于云端服务器的文件检测方法。

在本实施方式中，通过接收客户端设备发送的待检测文件的特征数据，而非让客户端上传全部的待检测文件，能够减少客户端设备与服务器之间的传输带宽，减少资源浪费；将待检测文件的特征数据转换为待检测图像，可以保证数据的安全性，避免将待检测文件的特征数据中的隐私信息泄露给其他与服务器相连接的设备；基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中的预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型，能够加快准确的获得检测结果，即待检测文件中是否包括异常数据的标识，进而将该检测结果反馈给客户端设备，以使客户端设备可以明确待检测文件中是否存在异常数据，从而降低客户端被恶意文件攻击的可能性。

图4示出本公开实施例提供的一种客户端设备的组成方框图。如图4所示，该客户端设备400包括但不限于如下模块。

获取模块401，被配置为获取待检测文件的特征数据。

发送模块402，被配置为向云端服务器发送待检测文件的特征数据，以使云端服务器将待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对待检测图像进行分析，确定检测结果，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型。

确定模块403，被配置为响应于云端服务器反馈的检测结果，确定待检测文件中是否包括异常数据。

需要说明的是，本实施例中的客户端设备能够实现本公开中的任意一种应用于客户端设备的文件检测方法。

在本实施方式中，通过获取模块获取待检测文件的特征数据，以便于将减少发送给云端服务器的数据量，相较于传统的将待检测文件的全部数据上传给云端服务器而言，能够减少客户端设备与服务器之间的传输带宽，减少资源浪费；使用发送模块向云端服务器发送待检测文件的特征数据，以使云端服务器将待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对待检测图像进行分析，确定检测结果，能够通过云端服务器对待检测文件的特征数据进行快速准确的检测，从而获得准确的检测结果；使用确定模块响应于云端服务器反馈的检测结果，确定待检测文件中是否包括异常数据，降低客户端被恶意文件攻击的可能性。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本公开的创新部分，本实施方式中并没有将与解决本公开所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

图5示出本公开实施例提供的一种文件检测系统的组成方框图。如图5所示，该文件检测系统包括但不限于如下设备：云端服务器510和客户端设备520。

其中，云端服务器510包括：模型训练模块511、预处理模块512和检测分析模块513。客户端设备520包括：文件动态检测模块521、数据采集模块522、数据上传模块523和处理响应模块524。

客户端设备520可以采用个人计算机（Personal Computer，PC）、手机、平板电脑等实现，本公开对此不做限制。

客户端设备520，用于获取待检测文件的特征数据；向云端服务器510发送待检测文件的特征数据，以使云端服务器510将待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对待检测图像进行分析，确定检测结果，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；响应于云端服务器510反馈的检测结果，确定待检测文件中是否包括异常数据。

在一些实施例中，向云端服务器510发送待检测文件的特征数据之前，还可以采用预设的加密算法或压缩方法，对待检测文件的特征数据进行处理，以保证待检测文件的特征数据在传输过程中的安全性。

其中，预设的加密算法所使用的密钥可以是客户端设备520与云端服务器510预先协商确定的，以使第三方无法获知该密钥，减少第三方截获加密后的待检测文件的特征数据的可能性。

文件动态检测模块521，用于完成对客户端设备520存储的多个样本文件进行动态检测，确定各个样本文件是否存在更新的文件；当确定存在对样本文件进行更新的文件，或，待检测文件为与样本文件完全不同的文件时，将上述有变化的文件标记为待检测文件。

需要说明的是，文件动态检测模块521只需要针对待检测文件进行检测，即，对于样本文件完全不同的文件，或，对样本文件进行更新的文件进行检测，以提高文件的检测效率。

数据采集模块522，可以对数据库中存储的多个样本文件进行特征提取，获得多个样本文件的样本特征数据；也可以针对待检测文件进行特征数据的提取，并将提取到的待检测文件的特征数据写入数据库。

例如，数据采集模块522确定待检测文件所依赖的动态链接库；基于待检测文件所依赖的动态链接库，获取多个待使用函数以及各个待使用函数之间的调用关系信息；依据多个待使用函数以及各个待使用函数之间的调用关系信息，对待检测文件进行分析，确定待检测文件的特征数据。

特定字符串信息包括URL、IP地址信息、注册表键值信息、以及待检测文件中出现的特定字符串中的至少一种。URL为用于完整地描述互联网中的网页地址和/或其他资源的地址。

数据上传模块523，用于将多个样本文件的样本特征数据上传至云端服务器510，以便于云端服务器510能够基于多个样本文件的样本特征数据对预设深度神经网络进行训练，获得预设检测分析模型。

数据上传模块523，还可以用于将检测文件的特征数据发送给云端服务器510，以供云端服务器510使用预设检测分析模型对待检测文件的特征数据进行分析，确定检测结果，该检测结果用于表征待检测文件中是否包括异常数据。

处置响应模块524，用于接收云端服务器510发送的检测结果，然后，根据该检测结果对待检测文件进行对应的处理。

云端服务器510，可以采用部署在公有云或者私有云等集群环境中的检测系统服务器来实现。

云端服务器510，用于接收客户端设备520发送的待检测文件的特征数据，并将待检测文件的特征数据转换为待检测图像；基于预设检测分析模型对待检测图像进行分析，确定检测结果，其中，预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；向客户端设备520反馈检测结果，检测结果用于确定待检测文件中是否包括异常数据。

模型训练模块511，用于完成基于多个样本文件对预设深度神经网络进行训练，以获得预设检测分析模型。

需要说明的是，上述模型的训练过程是一个迭代反复的过程，在此过程中，通过不断的调整输入参数和模型参数，以便于能够对训练后的模型进行优化，以使最终获得最优的预设检测分析模型。

其中，获取测试集和训练集，训练集包括多个异常训练样本图像和多个正常样本训练图像，测试集包括多个异常测试样本图像和/或多个正常测试样本图像；将训练集中的多个异常训练样本图像和多个正常样本训练图像输入到预设深度神经网络中进行训练；基于多次迭代的训练结果，更新预设深度神经网络的模型参数，获得训练后的深度神经网络模型；使用测试集中的多个异常测试样本图像和/或多个正常测试样本图像分别对训练后的深度神经网络模型进行验证，获得验证结果；在确定验证结果满足预设评估条件的情况下，确定训练后的深度神经网络模型为预设检测分析模型。

例如，在初始训练时，确定模型训练过程中需要的训练集、以及激活函数、损失函数等；然后，在反复的迭代训练的过程中，通过调整训练集中的多个异常训练样本图像和多个正常样本训练图像，以便于更新预设深度神经网络的模型参数、以及激活函数的参数和损失函数的参数等，从而获得训练后的深度神经网络模型。当使用测试集中的至少一个异常测试样本图像对训练后的深度神经网络模型进行验证时，若获得的验证结果满足预设评估条件，则确定该训练后的深度神经网络模型为预设检测分析模型。

预处理模块512，用于对接收到的客户端设备520发送的待检测文件的特征数据进行预处理，生成与待检测文件的特征数据对应的待检测图像。

检测分析模块513，用于基于预设检测分析模型对预处理模块512输出的待检测图像，获得检测结果，并反馈该检测结果给客户端设备520。

图6示出本公开实施例提供的一种文件检测系统中的客户端设备与云端服务器之间的信息交互流程图。如图6所示，该文件检测系统包括但不限于如下信息交互步骤。

步骤S601，客户端设备520对其内部存储的多个样本文件进行动态检测。

步骤S602，客户端设备520基于检测结果，确定待检测文件，并对待检测文件进行标记。

步骤S603，客户端设备520确定待检测文件所依赖的动态链接库；基于待检测文件所依赖的动态链接库，获取多个待使用函数以及各个待使用函数之间的调用关系信息；依据多个待使用函数以及各个待使用函数之间的调用关系信息，对待检测文件进行分析，确定待检测文件的特征数据。

步骤S604，客户端设备520向云端服务器510发送待检测文件的特征数据，以便于云端服务器510可以对待检测文件的特征数据进行分析。

步骤S605，云端服务器510将接收到的待检测文件的特征数据存储在其内部的预设数据库中。

步骤S606，云端服务器510对预设数据库中存储的待检测文件的特征数据进行预处理。

其中，将待检测文件的特征数据转化为二进制码流，然后，将该二进制码流，转换为待检测像素数据（一维数据）；然后，基于至少一个预设像素流长度区间，对待检测像素数据进行数据格式的转换，获得待检测图像。

待检测图像包括待检测图像的宽度和待检测图像的高度，待检测图像的高度为基于待检测像素数据的长度和预设像素流长度区间对应的图像宽度确定的高度。

例如，依据至少一个预设像素流长度区间，确定待检测图像的宽度，其中，不同的预设像素流长度区间对应不同的图像宽度；依据待检测像素数据的长度和待检测图像的宽度，确定待检测图像的高度。

其中，当预设像素流长度区间为0～10时，可确定待检测图像的宽度为32。当预设像素流长度区间为10～30时，可确定待检测图像的宽度为64。当预设像素流长度区间为30～60时，可确定待检测图像的宽度为128。当预设像素流长度区间为60～100时，可确定待检测图像的宽度为256。当预设像素流长度区间为100～200时，可确定待检测图像的宽度为384。当预设像素流长度区间为200～1000时，可确定待检测图像的宽度为512。当预设像素流长度区间为1000～1500时，可确定待检测图像的宽度为1024。当预设像素流长度区间为大于1500时，可确定待检测图像的宽度为2048。

通过待检测像素数据的长度处于待检测图像的宽度所获得的商值，作为待检测图像的高度。

例如，如果待检测像素数据的长度为6000，根据上述不同的预设像素流长度区间，可确定待检测图像的宽度为2048，则待检测图像的高度为6000/2014。

步骤S607，云端服务器510基于预设检测分析模型对待检测图像进行分析，确定检测结果。

例如，可采用如下方式获得预设检测分析模型：获取测试集和训练集，训练集包括多个异常训练样本图像和多个正常样本训练图像，测试集包括多个异常测试样本图像和/或多个正常测试样本图像；将训练集中的多个异常训练样本图像和多个正常样本训练图像输入到预设深度神经网络中进行训练；基于多次迭代的训练结果，更新预设深度神经网络的模型参数，获得训练后的深度神经网络模型；使用测试集中的多个异常测试样本图像和/或多个正常测试样本图像分别对训练后的深度神经网络模型进行验证，获得验证结果；在确定验证结果满足预设评估条件的情况下，确定训练后的深度神经网络模型为预设检测分析模型。

其中，预设评估条件包括预设图像的分辨准确率和/或召回率。

在一些实施例中，在确定待检测文件对应的类别为异常类别的情况下，云端服务器510对待检测文件进行如下操作中的至少一种：发布告警信息、对待检测文件进行隔离、删除待检测文件。

步骤S608，向客户端设备520反馈检测结果。

步骤S609，客户端设备520根据接收到的检测结果确定待检测文件中是否包括异常数据。

客户端设备520在确定待检测文件中包括异常数据的情况下，根据云端服务器510发布的告警信息，对待检测文件进行隔离或直接删除待检测文件。

客户端设备520在确定待检测文件中不包括异常数据的情况下，允许使用待检测文件进行对应的数据处理。

在本实施例中，架构上，客户端设备520负责提取待检测文件的特征数据，但其不会基于特征数据对待检测文件进行检测和分析，而是将待检测文件的特征数据发送给云端服务器，以使云端服务器能够对待检测文件的特征数据进行分析，能够释放客户端设备的部分数据处理压力；在客户端设备与云端服务器之间的协商过程中，由于客户端设备仅上传了待检测文件的特征数据，而非待检测文件的全部数据，能够有效降低待检测文件中的隐私信息的泄露风险，并且，还能够减少客户端设备与云端服务器之间的数据传输数量，提升数据的传输效率，缩短数据的传输延迟，以使云端服务器能够实时的接收到待检测文件的特征数据，并对其进行检测和分析，提升了文件的检测效率。

如图7所示，电子设备700包括输入设备701、输入接口702、中央处理器703、存储器704、输出接口705、以及输出设备706。其中，输入接口702、中央处理器703、存储器704、以及输出接口705通过总线707相互连接，输入设备701和输出设备706分别通过输入接口702和输出接口705与总线707连接，进而与电子设备700的其他组件连接。

具体地，输入设备701接收来自外部的输入信息，并通过输入接口702将输入信息传送到中央处理器703；中央处理器703基于存储器704中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器704中，然后通过输出接口705将输出信息传送到输出设备706；输出设备706将输出信息输出到电子设备700的外部供用户使用。

在一个实施例中，图7所示的电子设备可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的文件检测方法。

在一个实施例中，图7所示的电子设备可以被实现为一种文件检测系统，该文件检测系统可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的文件检测方法。

以上所述，仅为本公开的示例性实施例而已，并非用于限定本公开的保护范围。一般来说，本公开的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本公开不限于此。

本公开的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本公开附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器（ROM）、随机访问存储器（RAM）、光存储器装置和系统（数码多功能光碟DVD或CD光盘）等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、可编程逻辑器件（FGPA）以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本公开的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本公开的范围。因此，本公开的恰当范围将根据权利要求确定。

Claims

1.一种文件检测方法，其特征在于，所述方法包括：

接收客户端设备发送的待检测文件的特征数据，并将所述待检测文件的特征数据转换为待检测图像；

基于预设检测分析模型对所述待检测图像进行分析，确定检测结果，其中，所述预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型，所述检测结果用于确定所述待检测文件中是否包括异常数据；

向所述客户端设备反馈所述检测结果；

所述将所述待检测文件的特征数据转换为待检测图像，包括：

依据所述待检测文件的特征数据，确定待检测像素数据；

基于至少一个预设像素流长度区间，对所述待检测像素数据进行数据格式的转换，获得所述待检测图像；

其中，所述待检测图像的高度为基于所述待检测像素数据的长度和所述预设像素流长度区间对应的图像宽度确定的高度；

所述待检测文件的特征数据包括如下信息中的至少一种：文件头信息、特定字符串信息、文件属性信息、待检测文件中包括的资源信息。

2.根据权利要求1所述的方法，其特征在于，所述基于至少一个预设像素流长度区间，对所述待检测像素数据进行数据格式的转换，获得所述待检测图像，包括：

依据所述至少一个预设像素流长度区间，确定所述待检测图像的宽度，其中，不同的所述预设像素流长度区间对应不同的图像宽度；

依据所述待检测像素数据的长度和所述待检测图像的宽度，确定所述待检测图像的高度。

3.根据权利要求1所述的方法，其特征在于，所述依据所述待检测文件的特征数据，确定待检测像素数据，包括：

将所述待检测文件的特征数据转换为二进制码流；

基于所述二进制码流，生成所述待检测像素数据。

4.根据权利要求1至3中的任一项所述的方法，其特征在于，所述预设检测分析模型的训练方法，包括：

获取测试集和训练集，所述训练集包括多个异常训练样本图像和多个正常样本训练图像，所述测试集包括多个异常测试样本图像和/或多个正常测试样本图像；

将所述训练集中的多个异常训练样本图像和多个正常样本训练图像输入到预设深度神经网络中进行训练；

基于多次迭代的训练结果，更新所述预设深度神经网络的模型参数，获得训练后的深度神经网络模型；

使用所述测试集中的多个异常测试样本图像和/或多个正常测试样本图像分别对所述训练后的深度神经网络模型进行验证，获得验证结果；

在确定所述验证结果满足预设评估条件的情况下，确定所述训练后的深度神经网络模型为所述预设检测分析模型。

5.根据权利要求4所述的方法，其特征在于，所述获取测试集和训练集，包括：

获取多个样本文件的样本特征数据，其中，所述样本文件包括所述客户端设备收集到的异常样本文件和正常样本文件；

分别将每个所述异常样本文件对应的样本特征数据转换为异常样本图像，并将每个所述正常样本文件对应的样本特征数据转换为正常样本图像；

基于预设比例，将多个所述异常样本图像和多个所述正常样本图像划分为所述测试集和所述训练集。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述向所述客户端设备反馈所述检测结果之后，所述方法还包括：

在确定所述待检测文件对应的类别为异常类别的情况下，对所述待检测文件进行如下操作中的至少一种：发布告警信息、对所述待检测文件进行隔离、删除所述待检测文件。

7.一种文件检测方法，其特征在于，所述方法包括：

获取待检测文件的特征数据；

向云端服务器发送所述待检测文件的特征数据，以使所述云端服务器将所述待检测文件的特征数据转换为待检测图像，并基于预设检测分析模型对所述待检测图像进行分析，确定检测结果，所述预设检测分析模型是基于多个样本文件对预设深度神经网络进行训练获得的模型；

响应于所述云端服务器反馈的检测结果，确定所述待检测文件中是否包括异常数据；

所述云端服务器还用于：依据所述待检测文件的特征数据，确定待检测像素数据；基于至少一个预设像素流长度区间，对所述待检测像素数据进行数据格式的转换，获得所述待检测图像；

其中，所述待检测图像的高度为基于所述待检测像素数据的长度和所述预设像素流长度区间对应的图像宽度确定的高度；所述待检测文件的特征数据包括如下信息中的至少一种：文件头信息、特定字符串信息、文件属性信息、待检测文件中包括的资源信息。

8.根据权利要求7所述的方法，其特征在于，所述获取待检测文件的特征数据，包括：

确定所述待检测文件所依赖的动态链接库；

基于所述待检测文件所依赖的动态链接库，获取多个待使用函数以及各个所述待使用函数之间的调用关系信息；

依据所述多个待使用函数以及各个所述待使用函数之间的调用关系信息，对所述待检测文件进行分析，确定所述待检测文件的特征数据。

9.根据权利要求7所述的方法，其特征在于，所述获取待检测文件的特征数据之前，所述方法还包括：

对当前设备存储的多个样本文件进行特征提取，获得多个样本文件的样本特征数据；

将所述多个样本文件的样本特征数据上传至所述云端服务器；

其中，所述待检测文件为对所述样本文件进行更新的文件，或，所述待检测文件为与所述样本文件完全不同的文件。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的文件检测方法，或，如权利要求7至9中任一项所述的文件检测方法。

11.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文件检测方法，或，如权利要求7至9中任一项所述的文件检测方法。