CN112580092A

CN112580092A - 一种敏感文件识别方法及装置

Info

Publication number: CN112580092A
Application number: CN202011419188.5A
Authority: CN
Inventors: 王少飞; 赵晶; 王志海; 喻波; 安鹏
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-30
Anticipated expiration: 2040-12-07
Also published as: CN112580092B

Abstract

本申请公开了一种敏感文件识别方法及装置。所述方法包括：根据预先配置的文件扫描路径，扫描得到目标文件；在所述目标文件的文件大小大于设定阈值的情况下，对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块；调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列；基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块；基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级。本申请实施例降低敏感数据泄露的风险，加强对重要信息的保护。

Description

一种敏感文件识别方法及装置

技术领域

本申请涉及文件处理技术领域，特别是涉及一种敏感文件识别方法及装置。

背景技术

随着科学技术的不断发展，现如今已经全面进入信息化时代，信息安全的问题变得尤为重要。

文件作为信息的重要载体，对文件内容的采集分析就变得尤其重要，目前针对终端设备中保存的文件，通常是由业务人员手动选择文件，然后对文件进行敏感数据的分析，此种数据分析方式需要耗费大量的人力，且较为耗时。

发明内容

本申请提供了一种敏感文件识别方法及装置，以解决现有技术中由业务人员手动选择文件，然后对文件进行敏感数据的分析，此种数据分析方式需要耗费大量的人力，且较为耗时的问题。

为了解决上述问题，本申请实施例提供了一种敏感文件识别方法，包括：

根据预先配置的文件扫描路径，扫描得到目标文件；

在所述目标文件的文件大小大于设定阈值的情况下，对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块；

调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列；

基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块；

基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级。

可选地，在所述根据预先配置的文件扫描路径，扫描得到目标文件之前，还包括：

配置所述文件扫描路径、文件扫描时间、大型文件处理线程数、文件过滤规则和敏感文件识别规则；

所述文件过滤规则包括：文件大小规则、文件类型规则中的至少一种。

可选地，所述根据预先配置的文件扫描路径，扫描得到目标文件，包括：

在达到所述文件扫描时间的情况下，根据所述文件扫描路径进行文件扫描，得到所述目标文件。

可选地，所述对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块，包括：

确定所述目标文件的文件大小；

在所述文件大小大于所述设定阈值的情况下，按照设定文件大小对所述目标文件进行分块处理，得到所述目标文件对应的多个分块文件；

对每个所述分块文件进行封装处理，生成所述目标文件对应的多个文件块。

可选地，所述基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级，包括：

根据所述文件过滤规则对所述多个文件块进行过滤，得到所述目标文件对应的目标文件块；

基于所述敏感信息分析程序根据所述敏感文件识别规则，对所述目标文件块进行敏感信息的匹配，得到所述目标文件块对应的敏感信息匹配次数；

根据所述敏感信息匹配次数，确定所述目标文件对应的敏感等级。

可选地，在所述基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级之后，还包括：

根据所述敏感文件识别规则中的所述敏感等级与处理方式之间的映射关系，确定所述敏感等级对应的处理方式；

对所述目标文件执行与所述处理方式匹配的操作；

其中，所述处理方式包括：告警提示方式、日志记录方式和文件备份方式中的任一种。

为了解决上述技术问题，本申请实施例还提供了一种敏感文件识别装置，包括：

目标文件扫描模块，用于根据预先配置的文件扫描路径，扫描得到目标文件；

多个文件块获取模块，用于在所述目标文件的文件大小大于设定阈值的情况下，对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块；

多个文件块发送模块，用于调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列；

多个文件块读取模块，用于基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块；

敏感等级获取模块，用于基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级。

可选地，还包括：

规则配置模块，用于配置所述文件扫描路径、文件扫描时间、大型文件处理线程数、文件过滤规则和敏感文件识别规则；

可选地，所述目标文件扫描模块包括：

目标文件扫描单元，用于在达到所述文件扫描时间的情况下，根据所述文件扫描路径进行文件扫描，得到所述目标文件。

可选地，所述多个文件块获取模块包括：

文件大小确定单元，用于确定所述目标文件的文件大小；

多个分块文件获取单元，用于在所述文件大小大于所述设定阈值的情况下，按照设定文件大小对所述目标文件进行分块处理，得到所述目标文件对应的多个分块文件；

多个文件块生成单元，用于对每个所述分块文件进行封装处理，生成所述目标文件对应的多个文件块。

可选地，所述敏感等级获取模块包括：

目标文件块获取单元，用于根据所述文件过滤规则对所述多个文件块进行过滤，得到所述目标文件对应的目标文件块；

匹配次数获取单元，用于基于所述敏感信息分析程序根据所述敏感文件识别规则，对所述目标文件块进行敏感信息的匹配，得到所述目标文件块对应的敏感信息匹配次数；

敏感等级确定单元，用于根据所述敏感信息匹配次数，确定所述目标文件对应的敏感等级。

可选地，还包括：

处理方式确定模块，用于根据所述敏感文件识别规则中的所述敏感等级与处理方式之间的映射关系，确定所述敏感等级对应的处理方式；

匹配操作执行模块，用于对所述目标文件执行与所述处理方式匹配的操作；

与现有技术相比，本申请包括以下优点：

本申请实施例提供了一种敏感文件识别方法及装置。通过根据预先配置的文件扫描路径，扫描得到目标文件，在目标文件的文件大小大于设定阈值的情况下，对目标文件进行分块处理，得到目标文件对应的多个文件块，调用多个文件块对应的线程，将多个文件块发送至消息队列，基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块，基于敏感信息分析程序对多个文件块进行敏感信息分析，得到目标文件对应的敏感等级。本申请实施例基于敏感信息分析程序实时流数据处理，可以对大型文件进行数据采集、计算、分析，从而可以降低敏感数据泄露的风险，加强对重要信息的保护。

附图说明

图1为本申请实施例提供的一种敏感文件识别方法的步骤流程图；

图2为本申请实施例提供的另一种敏感文件识别方法的步骤流程图；

图3为本申请实施例提供的一种敏感文件识别装置的结构示意图；

图4为本申请实施例提供的另一种敏感文件识别装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

参照图1，示出了本申请实施例提供的一种敏感文件识别方法的步骤流程图，如图1所示，该敏感文件识别方法具体可以包括如下步骤：

步骤101：根据预先配置的文件扫描路径，扫描得到目标文件。

本申请实施例可以应用于通过对文件或文件夹进行扫描、内容读取，计算分析敏感数据以达到敏感数据保护、防止信息丢失、泄露的目的的场景中。

文件扫描路径是指用于扫描文件的路径，在本示例中，文件扫描路径可以是由业务人员预先设置的扫描路径，例如，在需要对某个文件夹内的文件进行敏感数据的识别时，可以由业务人员根据该文件夹中文件所处的路径设置需要扫描的文件扫描路径等。

目标文件是指根据文件扫描路径扫描得到的文件，在本示例中，目标文件可以为一个文件，也可以为多个文件，具体地，可以根据业务需求而定，本实施例对此不加以限制。

在需要对系统内的敏感数据进行识别时，可以获取由业务人员预先配置的文件扫描路径，并根据文件扫描路径扫描得到目标文件，具体地，可以通过系统内预先配置的文件扫描器等对处于文件扫描路径的文件进行扫描，以得到目标文件。

在根据预先配置的文件扫描路径扫描得到目标文件之后，执行步骤102。

步骤102：在所述目标文件的文件大小大于设定阈值的情况下，对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块。

设定阈值是指由业务人员预先设置的用于判定文件是否需要进行分块的阈值，对于设定阈值的具体数值可以根据业务需求而定，本申请实施例对此不加以限制。

文件大小是指文件所占用内存的大小。

在获取到目标文件之后，可以识别目标文件的文件大小，进而，可以判断目标文件的文件大小与设定阈值之间的大小关系。

在目标文件的文件大小小于或者等于设定阈值的情况下，目标文件不需要作处理，可以直接调用线程将目标文件发送至消息队列进行后续的处理。

在目标文件的文件大小大于设定阈值的情况下，可以对目标文件进行分块处理，以得到目标文件对应的多个文件块，具体地，可以根据设定文件大小(该设定文件大小小于设定阈值)对目标文件进行分块处理，以得到目标文件对应的多个文件块，例如，在目标文件大小100M，设定文件大小为10M时，则可以将目标文件划分为10个10M的文件块。在目标文件大小为97M，设定文件大小为10M时，则可以将该目标文件划分为10个文件块，这10个文件块可以为10个9.7M的文件块，也可以为9个10M的文件块+1个7M的文件块等。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在对目标文件进行分块处理得到目标文件对应的多个文件块之后，执行步骤103。

步骤103：调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列。

在本实施例中，可以预先配置多个处理文件块的线程，每个文件块可以由一个线程进行处理，采用多线程并行处理的方式，可以提高文件的处理效率。

消息队列是指预先建立的用于保存待处理文件的队列。

在将目标文件进行分块处理，得到目标文件对应的多个分块文件之后，可以调用多个文件块对应的线程，将多个文件块发送至消息队列。

在本实施例中，消息队列可以为Kafka队列，Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。kafka具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念，生产者往topic里写消息，消费者从读消息。为了做到水平扩展，一个topic实际是由多个partition组成的，遇到瓶颈时，可以通过增加partition的数量来进行横向扩容。单个parition内是保证消息有序。每新写一条消息，kafka就是在对应的文件append写，所以性能非常高。

在本申请实施例中，针对目标文件的多个文件块可以预先设置每个文件块对应的文件标识，例如，在目标文件为两个文件时，这两个目标文件分别为目标文件1和目标文件2，目标文件1对应的多个文件块为文件块1、文件块2和文件块3，目标文件2对应的多个文件块为文件块4、文件块5和文件块6，在将目标文件1和目标文件2的文件块保存于消息队列中时，可以分别为文件块1、文件块2和文件块3添加目标文件1对应的文件标识，用于指示文件块1、文件块2和文件块3隶属于目标文件1，并为文件块4、文件块5和文件块6添加目标文件2对应的文件标识，用于指示文件块4、文件块5和文件块6隶属于目标文件2。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本申请实施例的唯一限制。

在调用多个文件块对应的线程将多个文件块发送至消息队列之后，执行步骤104。

步骤104：基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块。

敏感信息分析程序是指用于对敏感数据信息进行分析的程序，在本示例中，敏感信息分析程序可以为Spark Streaming，Spark Streaming是一套框架,是Spark核心API的一个扩展，可以实现高吞吐量的，具备容错机制的实时流数据处理。支持Kafka、Flume、Twitter、ZeroMQ和简单的TCP(Transmission Control Protocol，传输控制协议)套接字等多种数据源获取数据，在Spark Streaming中，处理数据的单位是一批而不是单条，而数据采集却是逐条进行的，因此Spark Streaming系统需要设置间隔使得数据汇总到一定的量后再一并操作，这个间隔就是批处理间隔。批处理间隔是Spark Streaming的核心概念和关键参数，它决定了Spark Streaming提交作业的频率和数据处理的延迟，同时也影响着数据处理的吞吐量和性能。

在调用多个文件块对应的线程将多个文件块发送至消息队列之后，在需要对某个文件进行敏感信息分析时，可以通过敏感信息分析程序读取消息队列中的目标文件对应的多个文件块。

在本实施例中，在目标文件为多个文件时，可以根据每个文件对应的文件标识，获取每个目标文件所对应的文件块，例如，目标文件为两个文件，分别为目标文件1和目标文件2，目标文件1对应的文件标识为a，目标文件2对应的文件标识为b，在通过敏感信息分析程序从消息队列中读取这两个目标文件的文件块时，首先，可以从消息队列中获取文件块标识为a的文件块，即目标文件1的文件块，然后，通过敏感信息分析程序从消息队列中读取文件块标识为b的文件块，即目标文件2的文件块等。

在基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块之后，执行步骤105。

步骤105：基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级。

敏感等级是指用于结合目标文件中文件数据信息对目标文件划分的敏感等级，在本实施例中，敏感等级即指示了该目标文件容易泄露丢失的等级。

在基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块之后，可以基于敏感信息分析程序对多个文件块进行敏感信息分析，以得到目标文件对应的敏感等级，具体地，可以根据预先设置的敏感文件识别规则对多个文件块进行敏感信息分析，然后结合多个文件块的敏感信息分析结果，得出目标文件的敏感等级。

本申请实施例基于敏感信息分析程序实时流数据处理，可以对大型文件进行数据采集、计算、分析，从而可以降低敏感数据泄露的风险，加强对重要信息的保护。

本申请实施例提供的敏感文件识别方法，通过根据预先配置的文件扫描路径，扫描得到目标文件，在目标文件的文件大小大于设定阈值的情况下，对目标文件进行分块处理，得到目标文件对应的多个文件块，调用多个文件块对应的线程，将多个文件块发送至消息队列，基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块，基于敏感信息分析程序对多个文件块进行敏感信息分析，得到目标文件对应的敏感等级。本申请实施例基于敏感信息分析程序实时流数据处理，可以对大型文件进行数据采集、计算、分析，从而可以降低敏感数据泄露的风险，加强对重要信息的保护。

实施例二

参照图2，示出了本申请实施例提供的另一种敏感文件识别方法的步骤流程图，如图2所示，该敏感文件识别方法具体可以包括如下步骤：

步骤201：配置所述文件扫描路径、文件扫描时间、大型文件处理线程数、文件过滤规则和敏感文件识别规则。

在需要对系统内的文件敏感信息进行分析时，可以由业务人员预先配置文件扫描路径、文件扫描时间、大型文件处理线程数、文件过滤规则和敏感文件识别规则。

文件扫描路径是指用于扫描文件的路径，通过文件扫描路径可以获取处于该路径上的文件。

文件扫描时间是指用于扫描文件的时间，在本示例中，文件扫描时间可以为指定时间，如系统闲时时间，可以理解地，文件扫描较为耗时，通过在闲时对文件进行扫描并进行敏感分析，可以节省大量的忙时时间，提高系统的利用率，当然，文件扫描时间也可以为特定时间周期的时间等，具体地，可以根据业务需求而定，本实施例对此不加以限制。

大型文件处理线程数是指用于对文件执行分块处理、文件传输等操作的线程，在本示例中，通过设置多个线程对文件进行处理，可以提高文件处理效率。

文件过滤规则是指用于对扫描的文件进行过滤的规则，在本示例中，文件过滤规则可以为文件类型规则、文件大小规则等，具体地，可以根据业务需求而定，本实施例对此不加以限制。

敏感文件识别规则是指用于识别文件中的敏感信息的规则，在本示例中，敏感文件识别规则可以包括文件大小、文件内容、文件格式等规则，在本示例中，敏感文件识别规则支持内容、正则等匹配方式。

在配置文件扫描路径、文件扫描时间、大型文件处理线程数、文件过滤规则和敏感文件识别规则之后，执行步骤202。

步骤202：在达到所述文件扫描时间的情况下，根据所述文件扫描路径进行文件扫描，得到所述目标文件。

在本示例中，在达到文件扫描时间时，可以自动根据文件扫描路径扫描得到目标文件，具体地，可以通过系统内预先配置的文件扫描器等对处于文件扫描路径的文件进行扫描，以得到目标文件。

在根据预先配置的文件扫描路径扫描得到目标文件之后，执行步骤203。

步骤203：确定所述目标文件的文件大小。

文件大小是指目标文件所占用内存的大小。

在获取到目标文件之后，可以获取该目标文件所占用的内存，即该目标文件的文件大小。

在确定目标文件的文件大小之后，执行步骤204。

步骤204：在所述文件大小大于所述设定阈值的情况下，按照设定文件大小对所述目标文件进行分块处理，得到所述目标文件对应的多个分块文件。

分块文件是指在对目标文件进行分块处理之后，划分得到的多个文件。

在识别出目标文件的文件大小之后，可以判断目标文件的文件大小与设定阈值之间的大小关系。

在目标文件的文件大小大于设定阈值的情况下，可以对目标文件进行分块处理，以得到目标文件对应的多个分块文件，具体地，可以根据设定文件大小(该设定文件大小小于设定阈值)对目标文件进行分块处理，以得到目标文件对应的多个分块文件，例如，在目标文件大小100M，设定文件大小为10M时，则可以将目标文件划分为10个10M的分块文件。在目标文件大小为97M，设定文件大小为10M时，则可以将该目标文件划分为10个分块文件，这10个分块文件可以为10个9.7M的分块文件，也可以为9个10M的文件块+1个7M的分块文件等。

在对目标文件进行分块处理得到目标文件对应的多个分块文件之后，执行步骤205。

步骤205：对每个所述分块文件进行封装处理，生成所述目标文件对应的多个文件块。

在对目标文件进行分块处理得到目标文件对应的多个分块文件之后，可以对每个分块文件进行封装处理，以得到每个分块文件的文件块，从而可以得到目标文件对应的多个文件块。

在对每个分块文件进行封装处理生成目标文件对应的多个文件块之后，执行步骤206。

步骤206：调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列。

消息队列是指预先建立的用于保存待处理文件的队列。

在调用多个文件块对应的线程将多个文件块发送至消息队列之后，执行步骤207。

步骤207：基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块。

在基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块之后，执行步骤208。

步骤208：根据所述文件过滤规则对所述多个文件块进行过滤，得到所述目标文件对应的目标文件块。

目标文件块是指在对目标文件的多个文件块过滤之后，剩余的文件块，例如，目标文件的多个文件块包括文件块1、文件块2、文件块3、文件块4和文件块5，在获取到目标文件的这5个文件块之后，可以根据文件过滤规则对这5个文件块执行过滤处理，过滤掉了文件块2和文件块3，此时，目标文件剩余的文件块为文件块1、文件块4和文件块5，则可以将文件块1、文件块4和文件块5作为目标文件块。

在基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块之后，可以由敏感信息分析程序根据文件过滤规则对多个文件块进行过滤处理，以得到目标文件对应的目标文件块。

在根据文件过滤规则对多个文件块进行过滤得到目标文件对应的目标文件块之后，执行步骤209。

步骤209：基于所述敏感信息分析程序根据所述敏感文件识别规则，对所述目标文件块进行敏感信息的匹配，得到所述目标文件块对应的敏感信息匹配次数。

敏感信息匹配次数是指目标文件块中与敏感文件识别规则中匹配的次数，例如，敏感文件识别规则包括文件大小、文件内容、文件格式等，在得到目标文件块之后，可以将对目标文件块进行匹配，以确定目标文件块与这些规则匹配的次数，例如，在文件大小匹配时，匹配次数+1，在文件内容中匹配时，则匹配次数再+1，在文件格式匹配时，匹配次数再+1，依次类推，即可得到目标文件块对应的敏感信息匹配次数。

在得到目标文件对应的目标文件块之后，可以基于敏感信息分析程序根据敏感文件识别规则对目标文件块进行敏感信息的匹配，以得到目标文件块对应的敏感信息匹配次数。

在得到目标文件块的敏感信息匹配次数之后，执行步骤210。

步骤210：根据所述敏感信息匹配次数，确定所述目标文件对应的敏感等级。

在得到目标文件块的敏感信息匹配次数之后，可以根据目标文件块的敏感信息匹配次数确定出目标文件对应的敏感等级，例如，敏感文件识别规则为6个规则，而与目标文件块匹配的规则为3个规则时，则可以得到目标文件块的敏感等级，并结合目标文件对应的所有目标文件块得到目标文件的敏感等级。

在根据敏感信息匹配次数确定出目标文件对应的敏感等级之后，执行步骤211。

步骤211：根据所述敏感文件识别规则中的所述敏感等级与处理方式之间的映射关系，确定所述敏感等级对应的处理方式。

在本示例中，预先保存有敏感等级与响应类型之间的映射关系，例如，敏感等级可以划分为三个等级，分别为一级、二级和三级，其中，一级对应于告警提示方式，二级对应于日志记录方式，三级对应于文件备份方式等。

在根据敏感信息匹配次数确定出目标文件对应的敏感等级之后，可以根据敏感文件识别规则中的敏感等级与处理方式之间的映射关系，确定敏感等级对应的处理方式。

在确定出敏感等级对应的处理方式之后，执行步骤212。

步骤212：对所述目标文件执行与所述处理方式匹配的操作。

在确定出敏感等级对应的处理方式之后，可以对目标文件执行与处理方式匹配的操作，例如，在处理方式为告警提示方式时，则对目标文件进行报警提示；在处理方式为日志记录方式时，则记录目标文件的本次文件分析结果的日志；在处理方式为处理方式为文件备份方式时，则对目标文件目标文件的本次文件分析结果进行备份等。

本申请实施例通过敏感信息分析程序实时流数据处理，可以对大型文件进行数据采集、计算、分析，从而可以降低敏感数据泄露的风险，加强对重要信息的保护。

实施例三

参照图3，示出了本申请实施例提供的一种敏感文件识别装置的结构示意图，如图3所示，该敏感文件识别装置300具体可以包括如下模块：

目标文件扫描模块310，用于根据预先配置的文件扫描路径，扫描得到目标文件；

多个文件块获取模块320，用于在所述目标文件的文件大小大于设定阈值的情况下，对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块；

多个文件块发送模块330，用于调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列；

多个文件块读取模块340，用于基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块；

敏感等级获取模块350，用于基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级。

本申请实施例提供的敏感文件识别装置，通过根据预先配置的文件扫描路径，扫描得到目标文件，在目标文件的文件大小大于设定阈值的情况下，对目标文件进行分块处理，得到目标文件对应的多个文件块，调用多个文件块对应的线程，将多个文件块发送至消息队列，基于敏感信息分析程序读取消息队列中的目标文件对应的多个文件块，基于敏感信息分析程序对多个文件块进行敏感信息分析，得到目标文件对应的敏感等级。本申请实施例基于敏感信息分析程序实时流数据处理，可以对大型文件进行数据采集、计算、分析，从而可以降低敏感数据泄露的风险，加强对重要信息的保护。

实施例四

参照图4，示出了本申请实施例提供的另一种敏感文件识别装置的结构示意图，如图4所示，该敏感文件识别装置400具体可以包括如下模块：

规则配置模块410，用于配置所述文件扫描路径、文件扫描时间、大型文件处理线程数、文件过滤规则和敏感文件识别规则；

所述文件过滤规则包括：文件大小规则、文件类型规则中的至少一种；

目标文件扫描模块420，用于根据预先配置的文件扫描路径，扫描得到目标文件；

多个文件块获取模块430，用于在所述目标文件的文件大小大于设定阈值的情况下，对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块；

多个文件块发送模块440，用于调用所述多个文件块对应的线程，将所述多个文件块发送至消息队列；

多个文件块读取模块450，用于基于敏感信息分析程序读取所述消息队列中的所述目标文件对应的多个文件块；

敏感等级获取模块460，用于基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级；

处理方式确定模块470，用于根据所述敏感文件识别规则中的所述敏感等级与处理方式之间的映射关系，确定所述敏感等级对应的处理方式；

匹配操作执行模块480，用于对所述目标文件执行与所述处理方式匹配的操作；

可选地，所述目标文件扫描模块420包括：

目标文件扫描单元421，用于在达到所述文件扫描时间的情况下，根据所述文件扫描路径进行文件扫描，得到所述目标文件。

可选地，所述多个文件块获取模块430包括：

文件大小确定单元431，用于确定所述目标文件的文件大小；

多个分块文件获取单元432，用于在所述文件大小大于所述设定阈值的情况下，按照设定文件大小对所述目标文件进行分块处理，得到所述目标文件对应的多个分块文件；

多个文件块生成单元433，用于对每个所述分块文件进行封装处理，生成所述目标文件对应的多个文件块。

可选地，所述敏感等级获取模块460包括：

目标文件块获取单元461，用于根据所述文件过滤规则对所述多个文件块进行过滤，得到所述目标文件对应的目标文件块；

匹配次数获取单元462，用于基于所述敏感信息分析程序根据所述敏感文件识别规则，对所述目标文件块进行敏感信息的匹配，得到所述目标文件块对应的敏感信息匹配次数；

敏感等级确定单元463，用于根据所述敏感信息匹配次数，确定所述目标文件对应的敏感等级。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

另外地，本申请实施例还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述的敏感文件识别方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种敏感文件识别方法和一种敏感文件识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种敏感文件识别方法，其特征在于，包括：

根据预先配置的文件扫描路径，扫描得到目标文件；

2.根据权利要求1所述的方法，其特征在于，在所述根据预先配置的文件扫描路径，扫描得到目标文件之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预先配置的文件扫描路径，扫描得到目标文件，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述目标文件进行分块处理，得到所述目标文件对应的多个文件块，包括：

确定所述目标文件的文件大小；

5.根据权利要求2所述的方法，其特征在于，所述基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级，包括：

6.根据权利要求2所述的方法，其特征在于，在所述基于所述敏感信息分析程序对所述多个文件块进行敏感信息分析，得到所述目标文件对应的敏感等级之后，还包括：

对所述目标文件执行与所述处理方式匹配的操作；

7.一种敏感文件识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求8所述的装置，其特征在于，所述目标文件扫描模块包括：

10.根据权利要求8所述的装置，其特征在于，所述多个文件块获取模块包括：

文件大小确定单元，用于确定所述目标文件的文件大小；

11.根据权利要求8所述的装置，其特征在于，所述敏感等级获取模块包括：

12.根据权利要求8所述的装置，其特征在于，还包括：