CN113794676A

CN113794676A - 文件过滤方法、装置、电子设备、程序产品及存储介质

Info

Publication number: CN113794676A
Application number: CN202110843894.0A
Authority: CN
Inventors: 刘锦锋; 柴彦东
Original assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Current assignee: Qianxin Technology Group Co Ltd; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-12-14

Abstract

本发明提供一种文件过滤方法、装置、电子设备、程序产品及存储介质，所述方法：获取第一文件，根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件，根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。本发明提供的文件过滤方法能够避免非法用户对文件进行相应处理而绕过文件过滤策略情况的发生，保证了跨域传输文件的安全性，同时，提高文件传输的实时性和准确性，提升了用户体验。

Description

文件过滤方法、装置、电子设备、程序产品及存储介质

技术领域

本发明涉及信息技术领域，更具体地说，涉及一种文件过滤方法、装置、电子设备、程序产品及存储介质。

背景技术

基于网闸平台的业务传输过程中，应用数据有可能包含文件类数据，网闸平台需要对文件类数据进行数据检查处理，确保数据传输的安全性。

数据检查处理主要包括文件类型特征过滤与文件内容特征过滤。在现有技术中，文件类型特征过滤先针对每个待检测文件进行类型识别，将类型识别结果与类型过滤策略进行对比得出检测结论，然后将待检测文件压缩处理后再次进行文件类型特征过滤检测，会出现压缩处理后得到的检测结果与预期不一致的问题；另外，非法用户在知道跨域数据类型过滤策略的前提下，通过对非法类型文件进行压缩、打包等处理，可以绕过类型过滤策略，导致跨域数据交换的文件类型特征检测功能失效。

发明内容

本发明提供一种文件过滤方法、装置、电子设备、程序产品及存储介质，用以解决现有技术中无法防止非法用户绕过过滤策略导致检测功能失效的技术问题，以实现保证跨域传输文件安全性的同时提高网闸文件检测准确率的目的。

第一方面，本发明提供一种文件过滤方法，包括：

获取第一文件；

根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；

根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

根据本发明提供的一种文件过滤方法，所述根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件，包括：

在所述解压缩条件为不进行解压缩处理的情况下，将所述第一文件作为所述第二文件。

在所述解压缩条件为进行解压缩处理的情况下，从所述解压缩条件中获取解压层级信息，按照所述解压层级信息对所述第一文件进行解压缩处理，得到所述第二文件。

根据本发明提供的一种文件过滤方法，所述对所述第一文件进行解压缩处理，包括：

根据所述第一文件的过滤类型与随机数构造所述第一文件的解压根目录；

根据所述第一文件的每一个解压层级与该解压层级中已解压压缩包文件的数量构造所述第一文件的解压层级目录。

根据本发明提供的一种文件过滤方法，所述按照所述预设解压层级信息对所述第一文件进行解压缩处理，得到所述第二文件，包括：

当所述第一文件的解压层级小于预设解压层级时，对所述第一文件进行全部解压，确认全部解压后的文件为第二文件；

或，

当所述第一文件的解压层级大于或等于预设解压层级时，对所述第一文件递归解压到所述预设解压层级处，确认所述预设解压层级处的文件为第二文件。

根据本发明提供的一种文件过滤方法，所述预先设定的类型特征过滤条件为黑名单；

相应的，所述根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理，包括：

在所述第二文件的类型信息符合所述类型特征过滤条件的情况下，拦截所述第二文件；

或，

所述预先设定的类型特征过滤条件为白名单；

在所述第二文件的类型信息符合所述类型特征过滤条件的情况下，放行所述第二文件。

根据本发明提供的一种文件过滤方法，方法还包括：

获取第三文件；其中，所述第三文件为未经过滤处理的第一文件，或为所述第二文件经过所述类型过滤处理所得到的文件；

根据所述第三文件的模糊哈希值以及内容过滤样本文件的模糊哈希值，计算所述第三文件与所述内容过滤样本文件的相似度值；

根据所述相似度值，对所述第三文件进行内容过滤处理。

根据本发明提供的一种文件过滤方法，所述第三文件的模糊哈希值的计算方法为：

基于模糊哈希算法对所述第三文件进行弱哈希分割、强哈希求值和字符串拼接处理，得到所述第三文件的模糊哈希值。

根据本发明提供的一种文件过滤方法，所述根据所述相似度值，对所述第三文件进行内容过滤处理，包括：

将所述第三文件与所述内容过滤样本文件的相似度值与预先设定的相似度阈值进行比较；

在所述相似度值大于所述相似度阈值的情况下，确定所述第三文件与所述内容过滤样本文件为同源文件；

当所述内容过滤样本文件对应白名单时，放行所述第三文件；当所述内容过滤样本文件对应黑名单时，拦截所述第三文件。

第二方面，本发明还提供一种文件过滤装置，包括：

获取模块，用于获取第一文件；

解压缩模块，用于根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；

过滤模块，用于根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

第三方面，本发明提供一种电子设备，包括：

处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上任一所述的方法。

第四方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现如上任一项所述文件过滤方法的步骤。

第五方面，本发明还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如上任一所述的方法。

本发明提供一种文件过滤方法、装置、电子设备、程序产品及存储介质，所述方法：获取第一文件，根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件，根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。本发明提供的文件过滤方法能够防止非法用户通过对文件进行相应处理后绕过文件过滤策略完成跨域传输情况的发生，保证跨域传输网闸文件的安全性，提高文件检测的准确性，提升了用户体验。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种文件过滤方法的流程示意图；

图2为本发明提供的一种文件类型特征过滤的流程示意图；

图3为本发明提供的一种应用部署架构图的示意图；

图4为本发明提供的一种文件过滤管理流程的流程示意图；

图5为本发明提供的一种文件过滤装置的结构示意图；

图6为本发明提供的电子设备的结构示意图。

具体实施方式

图1为本发明提供的一种文件过滤方法的流程示意图。如图1所示，本发明提供的文件过滤方法，包括以下步骤：

步骤101：获取第一文件；

步骤102：根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；

步骤103：根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

具体地，解压缩条件分为需要进行解压缩处理和不需要进行解压缩处理两种情况。

其中，第一文件是待过滤检测的原始文件，第一文件可能需要解压缩处理，也可能不需要解压缩处理，如可以是7z压缩包；第二文件是解压缩处理后得到的文件，有可能是各种类型的文件，如文本类文件，也有可能是既包含各种类型的文件又包含解压缩处理后得到的压缩包。需要说明的是，第一文件和第二文件的类型可以根据实际需要进行设定，在此不作具体限定。

在本发明实施例中，当第一文件满足解压缩条件之后才对第一文件进行解压缩处理，其中，解压缩条件为对第一文件是否进行解压缩处理的规定。需要说明的是，满足解压缩条件的第一文件的压缩类型，需要属于预设的文件压缩类型范围内的压缩类型，预设的文件压缩类型如下表1所示，其中，文件压缩类型可以根据实际需要进行设定，在此不作具体限定。

在本发明实施例中，根据第二文件的类型信息以及预先设定的类型特征过滤条件，对解压缩处理后得到的第二文件进行类型特征过滤处理，得到过滤结果，其中，类型特征过滤条件是指预先设定的类型特征过滤条件，如可以是文本类文件(text)阻断，其余类文件放行，归档类文件解压，解压等级为5等。需要说明的是，类型特征过滤条件可以根据实际需要进行设定，在此不作具体限定。

本发明实施例中，通过对满足解压缩条件的第一文件进行解压缩处理，得到第二文件；根据第二文件的类型信息和预先设定的类型特征过滤条件，对第二文件进行类型过滤处理，本发明提供的方法可以避免非法用户通过压缩文件的方式绕过类型特征过滤条件完成文件跨域传输的情况发生，减少检测流程，提高网闸文件检测结果的准确率，提升用户体验。

表1文件的压缩类型

类型	注释
		gzip/gz	GZIP压缩包
lzh/lha	LZH压缩包
		tar	TAR压缩包
7-zip	7z压缩包
		jar/apk	JAR压缩包
bzip/bz	BZIP压缩包
		lz	LZ压缩包
lzma	LZMA压缩包
		xz	XZ压缩包
z	Z压缩包
		xar/pkg	XAR压缩包
zip	ZIP压缩包
		rar	RAR压缩包
cab	CAB压缩包
		cpio	CPIO归档文件
win/iso	WIN归档文件

在本发明的另一个实施例中，所述根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件，包括：

在本发明实施例中，当解压缩条件为不需要进行解压缩处理的情况下，则不需要对第一文件进行解压缩处理，直接将第一文件作为第二文件进行后续类型特征过滤处理。

其中，在确定第一文件不需要进行解压缩处理之后，第一文件作为第二文件进行类型特征过滤处理，如图2所示，需要先进行类型特征过滤条件的加载，具体通过将单一策略下的多规则以黑白名单的形式进行存储，以“策略类型+策略名称”作为键，类型特征过滤条件的黑白名单作为值，存储于哈希表中；获取第二文件的类型特征，本实施例中通过file命令相关接口获取第二文件的类型特征值，将类型特征值与存储于哈希表中的黑白名单进行对比，得到第二文件的检测结果。

本发明实施例中，不满足解压缩条件的第一文件，可能具有下述两种情况：

情况1：第一文件的类型命中类型特征过滤条件的黑名单，将第一文件视为阻断拦截类文件，直接返回检测结果。例如，网闸文件跨域数据传输的后台将类型特征过滤条件定义为：文本类文件(text)阻断拦截，其余类文件放行，归档类文件需解压缩处理，解压层级为5。如当用户将源码文件C/C++作为待检测文件进行跨域数据传输，后台针对待检测文件进行文件类型特征识别检测，得到检测结果为该待检测文件为文本类文件(text)，将待检测文件的检测结果与后台设定的类型特征过滤条件进行比对，得到待检测文件为阻断拦截类文件，后台直接返回阻断拦截形式的检测结果给用户，该待检测文件为阻断拦截类文件，无法完成跨域数据的传输。

情况2：第一文件的类型未命中类型特征过滤条件的黑名单，且按照解压缩条件不需要进行解压缩操作，直接返回检测结果。例如，网闸跨域数据传输的后台将类型特征过滤条件定义为文本类文件(text)阻断拦截，其余类文件放行，归档类文件不需解压缩处理。如当用户将包含文本类文件(例如：源码文件C/C++、源码文件GO等)的7z压缩包归档类文件进行跨域数据传输，后台对待检测文件进行文件类型特征识别检测，得到检测结果为归档类文件7z压缩包，后台识别待检测文件的类型特征过滤条件为非解压策略，直接返回放行形式的检测结果给用户，也就是说，待检测文件为放行类文件，可以正常完成跨域数据的传输。

本发明实施例中，在确定第一文件的解压缩条件为不进行解压缩处理的情况下，将第一文件作为第二文件进行类型特征过滤处理，通过这种处理方式能够保证文件跨域传输的安全性的同时提高文件检测的效率。

具体地，解压层级信息包括将文件进行解压需要的层级数信息。

在本发明实施例中，当解压缩条件为需要进行解压缩处理的情况时，对第一文件进行解压缩处理得到第二文件。需要说明的是，本发明实施例中，解压缩处理通过解压缩微服务实现，解压缩微服务通过解压逻辑控制与achive解压缩接口完成指定层级压缩包的解压功能。解压缩微服务通过检测类型特征过滤条件的配置文件，将解压策略的ID以及解压层级信息存储于对应的哈希表中，用于判断待检测文件是否满足解压逻辑，完成解压逻辑控制；通过archive对外支持的文件读取接口、压缩文件检测解压接口、打包方式检测解包接口判断待检测文件的类型，完成对待检测文件的解压操作。

本发明实施例中，在解压缩条件为进行解压缩处理的情况下，获取解压缩条件中的解压层级信息，根据解压层级信息和第一文件自身的解压层级信息，对第一文件进行解压缩处理，得到第二文件。

本发明通过多层级解压缩的方式实现对第一文件的解压缩处理，防止非正常文件通过压缩方式规避过滤策略检测的情况发生，保证了跨域传输文件的安全性，提高了文件检测的准确性和效率。

在本发明的另一个实施例中，所述对所述第一文件进行解压缩处理，包括：

在本发明实施例中，解压缩处理中可以实现目录操作功能，包括解压根目录构造、解压层级目录构造与解压目录删除，其中，可以通过过滤类型与随机数共同构造解压根目录，防止压缩包文件解压后目录冲突，导致的文件覆盖、文件混淆问题，如压缩包A.zip里面有a.txt和B.zip，其中压缩包B.zip里面有个a.txt，b.txt，可见，压缩包A.zip中的a.txt和压缩包B.zip中的a.txt是同名文件但内容不一致；因此，在多层级递归解压的时候，需要生成类似0000/A/00-1234/a.txt、0000/A/01-3456/a.txt进行区分，避免混淆同名文件；还需要通过当前解压层级与当前层级已解压压缩包文件数量构造解压层级目录，防止压缩包递归解压导致的文件覆盖问题，通过删除已检测压缩目录，降低压缩包解压目录冲突问题。举例说明，以临时目录为例，在并发场景下，实际不局限于/tmp/ram情况下，文件过滤子服务一用于过滤压缩包A.zip，将文件A.zip解压到/tmp/ram/00001-ABCD/子目录下，文件过滤子服务二用于过滤压缩包B.zip，解压到/tmp/ram/00002-EFGH/子目录下，在检查完成后删除临时目录，避免并行多个解压服务时相互冲突导致误判的情况发生。本发明实施例通过目录操作处理能够对第一文件实现多层级的解压缩，提高文件检测的精度。

在上述实施例的基础上，所述按照所述预设解压层级信息对所述第一文件进行解压缩处理，得到所述第二文件，包括：

或，

在本发明实施例中，针对网闸文件检测的特殊性，且为了满足压缩文件解压的可控性，引入解压缩策略和压缩层级检测逻辑。通过下述具体的应用场景进行详细说明。需要说明的是本实施例提供的方法可以适用于不同的应用场景中，不局限于下述两种应用场景。

应用场景1：第一文件的解压层级小于类型特征过滤条件中的预设解压层级时，对第一文件进行全部解压缩处理。例如，网闸跨域数据传输的后台可以将类型特征过滤条件定义为文本类文件(text)阻断拦截，其余类文件放行，归档类文件需解压缩处理，解压层级3。如当用户将7z压缩包归档类文件demo.7z进行跨域数据传输时，待检测文件7z压缩包的内部包含一个demo_1.tar,gz归档类文件，demo_1.tar.gz的内部包含一个文档类文件(demo.cc，源码文件C/C++)，后台对待检测文件7z压缩包进行类型特征识别检测，检测结果为7z压缩包需解压缩处理，解压层级为3，则对7z压缩包进行递归解压，获取文本类文件(demo.cc)，并对解压缩处理后得到的文本类文件进行类型特征过滤处理，由于文件类文件属于类型特征过滤条件中的阻断拦截类文件，则确定待检测文件为阻断拦截类文件，无法完成跨域数据的传输，并将检测结果返回给用户。

应用场景2：第一文件的解压层级大于类型特征过滤条件的预设解压层级时，则将第一文件递归到类型特征过滤条件中指定的解压层级，防御压缩炸弹。例如，网闸跨域数据传输的后台可以将文件类型特征过滤条件定义为文本类文件(text)阻断拦截，其余类文件放行，归档类文件需进行解压缩处理，解压层级为3。如当用户将7z压缩包归档文件demo.7z进行跨域数据传输时，待检测文件7z压缩包的内部包含一个demo_1.tar.gz归档类文件，demo_1.tar.gz文件的内部包含一个demo_2.rar归档类文件，demo_2.rar文件的内部包含一个demo_3.cab归档类文件，demo_3.cab文件的内部包含一个文档类文件(demo.cc，源码文件C/C++)，对待检测文件7z压缩包进行文件类型识别检测，后台识别待检测文件7z压缩包的类型特征过滤条件为解压，解压层级为3，并对待检测文件7z压缩包进行递归解压，由于待检测文件7z压缩包的压缩层级大于策略中设定的解压层级属性值3，因此对7z压缩包的解压只能获取到内部文件demo_3.cab，无法获取demo_3.cab文件内部的文件demo.cc，检测到解压所得到的内部文件均为放行类文件，则将待检测文件7z压缩包视为放行类文件，可以正常完成跨域数据的传输，并将该检测结果返回给用户。

本发明实施例中，在解压缩条件为进行解压缩处理的情况下，获取预设的解压层级信息，根据预设的解压层级信息和第一文件自身的解压层级信息，对第一文件进行解压缩处理，得到第二文件。本发明通过多层级解压缩的方式实现对第一文件的解压缩处理，防止非正常文件通过压缩方式规避过滤策略检测的情况发生，保证了跨域传输文件的安全性，提高了文件检测的准确性和效率。

在本发明的一个实施例中，所述预先设定的类型特征过滤条件为黑名单；

或，

所述预先设定的类型特征过滤条件为白名单；

具体地，黑名单是指与非正常文件所够成的名单，是被阻断拦截类文件所构成的名单。另外，白名单是指允许通过的文件所构成的名单。

在本发明实施例中，类型特征过滤条件可以分为黑名单和白名单两种类型，在第二文件的类型信息属于黑名单中的类型时，则阻断拦截第二文件，若属于白名单中的类型时，则放行第二文件。需要说明的是，黑名单与白名单可以根据用户的实际需要进行设定，在此不作具体限定。可以通过下述具体的例子进行详细说明。

举例说明，黑名单为文本类文件。如当网闸跨域数据传输的后台将文件类型特征过滤条件定义为文本类文件(text)阻断拦截，其余类文件放行，归档类文件需进行解压缩处理，解压等级为5。若用户将包含文本类文件(例如：源码文件C/C++、源码文件GO等)的7z压缩包归档类文件进行跨域数据传输时，后台对7z压缩包进行类型识别检测，检测结果为归档类文件，需对7z压缩包进行解压缩处理，并且根据解压策略中的解压等级信息，对7z压缩包进行解压缩处理，与此同时对解压缩处理后得到的内部文件进行类型识别以及类型特征过滤检测，检测到文本类文件属于黑名单中的类型，尽管其余文件属于白名单中的文件类型，但对7z压缩包进行阻断拦截处理，无法完成跨域数据的传输。

本发明实施例中通过将类型特征过滤条件设置为黑名单或白名单的形式，能够实现多策略分组对比的方式实现对待检测文件的全方位检测，保证检测结果的准确性。

在本发明的另一个实施例中，方法还包括：

根据所述相似度值，对所述第三文件进行内容过滤处理。

具体地，模糊哈希算法又叫基于内容分割的分片哈希算法(Context TriggeredPiecewise Hashing，简称CTPH)，通过字符串相似性对比算法获取两个模糊哈希值的相似值，判断两个文件的相似程度。

在本发明实施例中，实现文件内容特征的过滤处理。通过计算第三文件的模糊哈希值，并计算第三文件的模糊哈希值与内容过滤样本文件的模糊哈希值的相似值，根据相似值来判断第三文件是否为内容过滤样本文件的同源文件，实现对文件的内容特征过滤处理。需要说明的是，第三文件可以是未经过滤处理的文件，也可以是第二文件经过类型过滤处理后所得到的文件。

本发明实施例中，基于模糊哈希算法对第三文件进行计算，得到第三文件的模糊哈希值，并根据第三样本和内容过滤样本文件的相似度值对第三文件进行内容过滤处理。本发明能够实现对文件内容特征的过滤处理，保证文件过滤检测准确性的同时提高检测效率。

在上述实施例的基础上，所述第三文件的模糊哈希值的计算方法为：

具体地，弱哈希算法是指分析局部内容特点，得出分片条件，并进行分片处理；强哈希算法是指计算出每个分片的模糊哈希值，并连接得到整个文件的模糊哈希值。

在本发明实施例中，第三文件经过弱哈希分割、强哈希求值、字符串拼接处理后，得到第三文件的模糊哈希值，通过字符串相似性算法，将第三文件与内容过滤样本文件的模糊哈希值进行比较分析，得到两个文件的相似度值，其中，所述内容过滤样本文件属于文件内容特征过滤策略的配置文件，用户将内容过滤样本文件上传至系统，系统基于模糊哈希算法对上传的内容过滤样本文件进行模糊哈希值计算，得到内容过滤样本文件的模糊哈希值，并将内容过滤样本文件的模糊哈希值作为第三文件的文件内容特征过滤策略。

举例说明，假如用户上传一段恶意WebShel的PHP文件进行跨域数据传输时，如果该恶意文件中的片段被嵌入到asp文件或jsp文件中时，文件内容特征过滤检测引擎会获取到该特征信息，与内容过滤样本文件进行比较，确定该文件与内容过滤样本为同源文件，进行阻断拦截处理。

或者当该恶意文件被放入到一个word文档中企图绕过内容特征过滤检测时，内容特征检测引擎能够提取恶意文件的模糊哈希值，通过恶意文件的模糊哈希值与内容过滤样本文件的模糊哈希值进行比较，根据相似度判断出该恶意文件为阻断拦截类文件，进行阻断拦截操作。

本发明实施例中，通过对第三文件进行弱哈希分割、强哈希求值、字符串拼接的方法得到第三文件的模糊哈希值，并根据第三样本和内容过滤样本文件的相似度值对第三文件进行内容过滤处理。本发明能够实现对文件内容特征的过滤处理，保证文件过滤检测准确性的同时提高检测效率。

在本发明的另一个实施例中，所述根据所述相似度值，对所述第三文件进行内容过滤处理，包括：

具体地，相似度阈值是指两个文件相似程度的数值。

在本发明实施例中，根据相似度值与相似度阈值的大小关系来获取第三文件的检测结果。当第三文件与内容过滤样本文件的相似度值大于预设的相似度阈值时，确定第三文件为内容过滤样本文件的同源文件。如相似度阈值设定为80，检测得到的第三文件与内容过滤样本文件的相似度值为90，相似度值大于相似度阈值，也就是说第三文件与内容过滤样本文件为同源文件，若内容过滤样本文件对应白名单，则放行第三文件，第三文件可以实现跨域数据的传输。

若内容过滤样本文件对应黑名单时，则确定第三文件为阻断拦截类文件，无法实现跨域数据的传输。如网闸跨域数据传输的后台将内容特征过滤条件的相似度阈值设为80，内容过滤样本文件设定为攻击脚本文件。当用户对第三文件进行跨域数据传输时，系统基于模糊哈希算法对第三文件进行哈希值计算，与内容过滤样本文件的哈希值比较计算，获得第三文件与内容过滤样本文件的相似度值为90。根据内容过滤策略中内容过滤样本文件对应黑名单，则将第三文件视为阻断拦截类文件，即第三文件无法完成跨域数据的传输。

其中，若内容过滤样本文件对应黑名单时，第三文件为正常文件时，当所述相似度值小于所述相似度阈值的情况下，确定所述第三文件与所述内容过滤样本文件不为同源文件，对第三文件直接进行放行操作。如网闸跨域数据传输的后台将内容特征过滤的相似度阈值设为90，内容过滤样本文件为攻击脚本文件。当用户将正常文件进行跨域数据的传输时，对正常文件进行模糊哈希值计算，且与内容过滤样本文件的模糊哈希值进行比较，获取相似度值，经计算所得，正常文件与内容过滤样本文件的相似度值为23，小于相似度阈值，则确认第三文件为放行类文件，可以正常完成跨域数据的传输。

本发明实施例中根据将第三文件与内容过滤样本文件的相似度值与预先设定的相似度阈值进行比较的方式，对第三文件进行内容过滤处理，提高了文件内容过滤检测结果的准确率，避免了非法用户通过修改文件内容的方式规避内容过滤策略的情况发生，提升了用户体验。

在本发明的另一个实施例中，提供一种应用部署架构图，如图3所示，包括：业务逻辑层、微服务层、资源存储层和过滤服务层，其中，

业务逻辑层：处理业务逻辑，如文件协议业务、邮件业务、数据库业务，对文件数据进行缓存后，调用文件过滤接口微服务，根据返回的结果决策对文件数据进行阻断还是放行。

资源存储层：具有数据缓存功能，提供业务逻辑层的缓存功能、微服务层的访问功能，可以由文件系统、数据库或消息队列组成。

微服务层：提供服务注册、服务分配、服务调用、状态统计的功能。

过滤服务层：对待检测文件进行特定方式过滤检测处理操作，如文件类型过滤、文件内容特征过滤、解压缩处理等。

在本发明的另一个实施例中，如图4所示，文件类型特征过滤、文件内容特征过滤、解压缩作为过滤服务层的子服务，需要与服务调用器RPC协议协定进行通讯，具体通讯流程如下：

1)各个子服务首次启动时需要向微服务器管理器发送注册信令，告知服务类型和UUID；

2)应用层调用查询接口，发起特征检测的请求；

3)服务调用器检查请求类型，如果请求类型为文件类型特征过滤检测，则对待检测文件进行文件类型特征查询；如果请求类型为文件内容特征过滤检测，则直接进行内容特征查询；

4)服务调用器判断如果请求类型为文件类型特征过滤检测且文件类型为压缩包，则进行解压缩条件检测，满足解压缩条件，则根据类型特征过滤条件中的解压缩信息对压缩包进行解压，并将解压处理后的文件进行文件类型特征过滤检测；不满足解压缩条件时，则直接返回文件类型的检测结果；

5)解压缩子服务收到解压缩请求后，根据解压缩信息中的解压层级对压缩包进行解压，服务调用器对解压处理后的文件再次进行文件类型特征过滤检测，并返回检测结果；

6)内容特征过滤检测子服务收到请求后，直接进行内容特征过滤检测，服务调用器返回内容特征过滤检测结果。

本发明实施例中采用RPC技术实现对远程数据的文件类型特征过滤检测、文件内容特征过滤检测和解压缩处理，提高跨域数据传输的准确率。

图5为本发明提供的一种文件过滤装置，如图5所示，本发明提供的文件过滤装置，包括：

获取模块501，用于获取第一文件；

解压缩模块502，用于根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；

过滤模块503，用于根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

具体地，类型特征过滤条件是指预设的类型特征过滤策略。

本发明实施例中提供的文件过滤装置，其中，获取模块用于获取第一文件，解压缩模块用于根据预先设定的解压缩条件对第一文件进行解压缩处理，得到第二文件，过滤模块用于根据第二文件的类型信息和预先设定的类型特征过滤条件，对第二文件进行类型过滤处理。本发明提供的文件过滤装置能够避免非法用户对文件进行相应处理而绕过文件过滤策略情况的发生，保证了网闸文件跨域传输的安全性，提高了文件传输的实时性，提升了用户体验。

由于本发明实施例所述装置与上述实施例所述方法的原理相同，对于更加详细的解释内容在此不再赘述。

图6为本发明实施例提供的电子设备实体结构示意图，如图6所示，本发明提供一种电子设备，包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601、存储器602通过总线603完成相互间的通信；

处理器601用于调用存储器602中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取第一文件；根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

本实施例提供一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，其特征在于，所述指令在被执行时用于实现如上述各实施例任一项所述文件过滤方法的步骤，例如包括：获取第一文件；根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取第一文件；根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件；根据所述第二文件的类型信息以及预先设定的类型特征过滤条件，对所述第二文件进行类型过滤处理。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文件过滤方法，其特征在于，包括：

获取第一文件；

2.根据权利要求1所述的文件过滤方法，其特征在于，所述根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件，包括：

3.根据权利要求1所述的文件过滤方法，其特征在于，所述根据预先设定的解压缩条件对所述第一文件进行解压缩处理，得到第二文件，包括：

在所述解压缩条件为进行解压缩处理的情况下，从所述解压缩条件中获取预设解压层级信息，按照所述预设解压层级信息对所述第一文件进行解压缩处理，得到所述第二文件。

4.根据权利要求3所述的文件过滤方法，其特征在于，所述对所述第一文件进行解压缩处理，包括：

5.根据权利要求4所述的文件过滤方法，其特征在于，所述按照所述预设解压层级信息对所述第一文件进行解压缩处理，得到所述第二文件，包括：

或，

6.根据权利要求1所述的文件过滤方法，其特征在于，所述预先设定的类型特征过滤条件为黑名单；

或，

所述预先设定的类型特征过滤条件为白名单；

7.根据权利要求1至6任一项所述的文件过滤方法，其特征在于，方法还包括：

根据所述相似度值，对所述第三文件进行内容过滤处理。

8.根据权利要求7所述的文件过滤方法，其特征在于，所述第三文件的模糊哈希值的计算方法为：

9.根据权利要求7所述的文件过滤方法，其特征在于，所述根据所述相似度值，对所述第三文件进行内容过滤处理，包括：

10.一种文件过滤装置。其特征在于，包括：

获取模块，用于获取第一文件；

11.一种电子设备，其特征在于，包括：

处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至9中任一所述的方法。

12.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，其特征在于，所述指令在被执行时用于实现如权利要求1至9任一项权利要求所述文件过滤方法的步骤。

13.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至9中任一所述的方法。