CN107704772A

CN107704772A - 一种针对hdfs的数据窃取检测方法及装置

Info

Publication number: CN107704772A
Application number: CN201711034364.1A
Authority: CN
Inventors: 杜学绘; 李炳龙; 高远照; 杨智; 王娜; 王文娟; 任志宇; 孙奕; 曹利峰
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-02-16

Abstract

本发明公开了一种针对HDFS的数据窃取检测方法及装置，该方法包括：通过已生成的待检测文件夹的检测数据集，提取出待检测文件夹中每一个待检测文件的最近访问时间和创建时间，并通过最近访问时间、创建时间和检测时刻的关系以及最近访问时间和预设的复制结束时刻的关系，确定文件所属的类别；根据属于截止簇的文件的数量和在检测时刻待检测文件夹中所有文件的数量计算复制比例；通过复制比例与复制阈值的关系，以及在检测时刻待检测文件夹中所有文件数量与数量阈值的关系，确定文件是否存在已被复制的风险。因此，实现了对文件批量复制行为的量化检测，并且，采用MapReduce并行处理方式，提高了检测的速度。

Description

一种针对HDFS的数据窃取检测方法及装置

技术领域

本发明涉及数据安全领域，尤其涉及一种针对HDFS的数据窃取检测方法及装置。

背景技术

随着云计算的快速发展，云存储被广泛应用，但是新的安全问题也随之而来。近年来，大规模的数据泄露不断发生，而数据窃取是造成数据泄露的主要原因之一。数据窃取一般包括外部攻击和内部人员窃取，相比于外部攻击导致的数据窃取，内部人员窃取给云计算和用户造成的危害更大，在这种情况下，服务方和用户很难发现数据已经泄露。

现有技术中，存在一些针对数据窃取的检测方法，例如：通过识别用户的异常行为模式或检测异常的传输流量对数据窃取行为进行检测，但是这种方式需要用户登录到系统中，而针对于HDFS(英文全称：Hadoop Distributed File System，中文全称：Hadoop分布式文件系统)等分布式文件系统，用户数据分散存储在多个物理或者虚拟节点中，无法从单个节点中窃取数据，并且内部管理人员能过通过控制节点直接访问存储节点的数据而无需登录系统。

因此，现有技术中的方法不适用于分布式文件系统。

发明内容

有鉴于此，本发明实施例提供了一种针对HDFS的数据窃取检测方法及装置，解决了现有技术中没有针对于对分布式文件系统进行数据窃取的检测，实现了文件批量复制行为的量化检测。

本发明公开的一种针对HDFS的数据窃取检测方法，包括：

接收待检测文件夹的检测数据集，并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间；所述待检测文件夹包括至少一个待检测文件；

分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定所述每一个待检测文件的类别；

计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量；所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻，且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻；其中，所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和；

计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值，得到复制比例；

判断所述复制比例和预设的复制阈值的关系以及所述待检测文件夹中所有文件的数量和预设的数量阈值的关系；

当所述复制比例大于预设的复制阈值且在所述检测时刻所述待检测文件夹中所有文件的数量大于预设的数量阈值时，则所述待检测文件夹存在已被窃取的风险。

可选的，所述待检测文件夹包括至少一个待检测文件的检测数据项；所述检测数据项包括：待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。

可选的，所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定所述每一个待检测文件的类别，包括：

针对于每一个待检测文件，确定该待检测文件的创建时间和检测时刻的关系，并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系；

若所述待检测文件的创建时间大于等于所述检测时刻，所述待检测文件属于第一子集；

若所述待检测文件的创建时间小于所述待检测时刻，且所述待检测文件的最近访问时间小于所述检测时刻，则所述待检测文件属于第二子集；

若所述待检测文件的创建时间小于所述检测时刻，待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻，所述待检测文件属于截止簇子集；

若所述待检测文件的创建时间小于所述检测时刻，且所述待检测文件的最近访问时间大于预设的复制结束时刻，则所述待检测文件属于第三子集。

可选的，所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定每一个待检测文件的类别，包括：

通过MapReduce并行处理框架，将所述待检测文件夹中所有待检测文件划分为多个集合；

分别采用多个主机同时对多个集合进行处理，以确定每一个待检测文件的类别；

将每一个主机得到的处理结果进行汇总。

本发明还公开了一种针对HDFS的数据窃取检测装置，包括：

提取单元，用于接收待检测文件夹的检测数据集，并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间；所述待检测文件夹包括至少一个待检测文件；

类别确定单元，用于分别接收每一个待检测文件的最近访问时间、创建时间和检测时刻，确定所述每一个待检测文件的类别；

第一计算单元，用于计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量；所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻，且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻；其中，所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和；

第二计算单元，用于计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值，得到复制比例；

判断单元，用于判断所述复制比例和预设复制阈值的关系以及所述检测文件夹中所有文件的数量和预设的数量阈值的关系；

风险确定单元，用于当所述复制比例大于预设的复制阈值且所述待检测文件夹中所有文件的数量大于预设的数量阈值时，所述待检测文件夹存在已被窃取的风险。

可选的，所述类别确定单元，包括：

关系确定子单元，用于针对于每一个待检测文件，确定该待检测文件的创建时间和检测时刻的关系，并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系；

第一子集确定子单元，用于若所述待检测文件的创建时间大于等于所述检测时刻，所述待检测文件属于第一子集；

第二子集确定子单元，用于若所述待检测文件的创建时间小于所述待检测时刻，且所述待检测文件的最近访问时间小于所述检测时刻，则所述待检测文件属于第二子集；

截止簇子集确定子单元，用于若所述待检测文件的创建时间小于所述检测时刻，待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻，所述待检测文件属于截止簇子集；

第三子集确定子单元，用于若所述待检测文件的创建时间小于所述检测时刻，且所述待检测文件的最近访问时间大于预设的复制结束时刻，则所述待检测文件属于第三子集。

可选的，所述类别确定单元，包括：

文件划分子单元，用于通过MapReduce并行处理框架，将所述待检测文件夹中所有待检测文件划分为多个集合；

类别确定子单元，分别采用多个主机同时对多个集合进行处理，以确定每一个待检测文件的类别；

汇总子单元，用于将每一个主机得到的处理结果进行汇总。

本发明实施例中，接收待检测文件夹的检测数据集，并从检测数据集中提取每一个待检测文件的最近访问时间；分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定每一个待检测文件的类别；计算属于截止簇子集中文件的数量占在检测时刻待检测文件夹中所有文件数量的复制比例；并根据复制比例和预设的复制阈值的关系以及所述所有文件数量与数量阈值的关系，确定文件是否存在已被复制的风险。由此可知，实现了对文件批量复制行为的量化检测，解决了现有技术中没有针对于对分布式文件系统进行数据窃取的检测的问题。

除此之外，采用MapReduce并行处理方式，提高了检测的速度。并且，通过合理地调整复制阈值和数量阈值，能够很好地降低漏检率和误检率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的流程示意图；

图2示出了本发明实施例提供的一种基于MapReduce的文件类别确定方法的流程示意图；

图3示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的又一流程示意图；

图4示出了本发明实施例提供的一种针对HDFS的数据窃取检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的流程示意图，在本实施例中，该方法包括：

S101：接收待检测文件夹的检测数据集，并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间；

本实施例中，待检测文件夹中包括至少一个待检测文件，每个待检测文件对应于一个检测数据项，即检测数据集可以包括至少一个检测数据项，该检测数据项包括多个检测数据，分别为：待检测文件的编号、最近访问时间、创建时间以及该待检测文件的所有父文件夹的编号。其中，所有待检测文件的检测数据项组成检测数据集，即检测数据集包括至少一个检测数据项。

举例说明：检测数据项可以表示为如下的形式：

检测数据集可以包括至少一个这样的检测数据项；其中，inode_id表示待检测文件的编号，atime为待检测文件的最近访问时间，ctime为待检测文件的创建时间，为待检测文件所有父文件夹的编号。

其中，待检测文件夹的检测数据集可以是在执行S101之前生成的，具体的，还包括：

获取所述待检测文件夹中所有待检测文件的编号、最近访问时间、创建时间以及所有待检测文件的各个父文件夹的编号；

针对于每一个待检测文件，依据待检测文件的编号、最近访问时间、创建时间以及该待检测文件的各个父文件夹的编号，生成该待检测文件的检测数据项。

其中，待检测文件中的检测数据是从HDFS的元数据文件中获取的。

本实施例中，在HDFS中的元数据文件包括两种形式：FsImage和EditLog。FsImage维护着完整的HDFS元数据映像，记录着文件的MAC时间戳。EditLog是HDFS的事务日志，记录了每个MAC时间戳的变化。HDFS的检查点机制是在HDFS启动时或每经过固定周期，将最近更新的FsImage与之后所记录的事务进行合并，并创建一个新的FsImage。

申请人经研究发现，虽然FsImage的数据来源于EditLog，但由于EditLog只能记录两检查点间HDFS的变化情况，它无法反映HDFS中时间戳未发生变化的文件，不能体现某文件夹下文件的整体状态。因此，FsImage是MAC时间戳数据的主要来源。

其中，在HDFS中，MAC时间戳记录文件(或文件夹)的最近修改时间(mtime)、最近访问时间(atime)和创建时间(ctime)。

并且，申请人经研究发现，HDFS并不记录文件的ctime，本实施例中假设文件的ctime等于创建空文件时的atime。

本实施例中，在FsImage中，文件(或文件夹)以“inode”表示，每个inode具有唯一编号，并且单调递增。FsImage记录了文件内的最大inode编号。对比最近更新的FsImage和前一个检查点的FsImage，能够得出两个检查点间的新增文件。在最近的已完成EditLog中检索这些文件，能够得出它们的ctime。

S102：分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定每一个待检测文件的类别。

本实施例中，对于HDFS的文件夹，可以将文件夹中的文件划分为四个不相交的子集，分别为第一子集、第二子集、第三子集和截止簇子集；其中，第一子集中，文件的创建时间大于检测时刻，即文件在检测时刻还未创建；第二子集中，文件的创建时间小于检测时刻，且最近访问时间小于检测时刻，即文件只在检测时刻前被访问过，在检测时刻该文件不存在被复制的可能；第三子集中，文件的创建时间小于检测时刻，最近访问时间大于预设的复制结束时刻，其中该复制结束时刻为检测时刻和预设的复制时间的和；截止簇子集中，文件的创建时间小于检测时刻，最近访问时间大于等于检测时刻且小于等于预设的复制结束时刻。

举例说明：将文件夹f定义为如下的公式1)

1)D(f)＝{x|x是f中的文件}；

其中D(f)为文件夹f中所有文件的集合，x是单个文件，针对于检测时刻t，将文件夹分割成四个不相交的子集，分别为：

第一子集：Di_t(f)＝{x|x∈D(f)∧(C(x)≥t)}；

第二子集：Db_t(f)＝{x|x∈D(f)∧(A(x)＜t)∧(C(x)＜t)}；

第三子集：Da_t(f)＝{x|x∈D(f)∧(A(x)＞t+ε)∧(C(x)＜t)}；

截止簇子集：De_t(f)＝{x|x∈D(f)∧(t≤A(x)≤t+ε)∧(C(x)＜t)}；

其中，A(x)表示x的最近访问时间，C(x)表示x的创建时间。

ε为复制所需的预计时间，t+ε为预设的复制结束时刻。

由此，可以根据待检测文件的最近访问时间、创建时间和检测时刻，对待检测文件进行分类，具体的，S102包括：

举例说明：假设待检测文件夹的检测数据集由key/value对表示，针对每个数据项，把“inode_id”作为key，把数据项中其它数据作为value，包括待检测文件的最近访问时间、创建时间和该待检测文件的所有父文件夹的编号。

参考图2，对待检测文件进行检测的过程包括：

1)判断检测时刻t与创建时间ctime的关系；

若ctime≥t，则该待检测的文件属于第一子集，即，该检测文件在t时刻还未创建，无需统计在内，直接对下一个文件进行统计，即返回执行步骤1)；

若ctime<t，则执行步骤2)；

2)判断检测时刻t与最近访问时间atime的关系；

若atime<t，则该待检测文件属于集合第二子集Db_t(f)，表示该文件不存在被复制的可能，然后返回步骤1)，按照顺序检测下一个文件。

若atime≥t，执行步骤3)。

3)判断文件atime与t+ε的关系；

若atime≤t+ε，则该待检测文件属于截止簇子集，然后返回步骤1)，按照顺序检测下一个待检测文件。若atime>t+ε，执行步骤4)。

4)若待检测文件atime>t+ε，该待检测文件属于第三子集，然后返回步骤1)，按照顺序检测下一个待检测文件。

其中对于属于第三子集的文件，可能在t～t+ε之间被访问过后，又再次被访问，也可能是在t+ε之后才被访问，因此不能确定其是否在t时刻被复制过。

针对于步骤1)～步骤4)的过程，可以是按照一定的顺序对待检测文件夹中的所有待检测文件依次进行检测。本实施例中，为提高检测效率，采用MapReduce并行处理框架，将待检测文件夹中所有待检测文件并行处理，具体的采用MapReduce并行处理框架的处理过程会在下文中详细介绍，在这里不再赘述。

S103：针对存在被复制可能性的文件夹，计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量；所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻，且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻；其中，所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和；

其中，待检测文件夹中在检测时刻所有文件的数量可以理解为，在检测时刻之前，待检测文件夹中创建的所有文件。

S104：计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值，得到复制比例；

本实施例中，复制比例表示截止簇的相对大小，或者可以表示为待检测文件夹在检测时刻被复制的可能性，取值范围在0到1之间。

其中，若是复制比例越大，表示被窃取的可能性越大。

S105：判断所述复制比例和预设的复制阈值的关系以及所述待检测文件夹中所有文件的数量和预设的数量阈值的关系；

S106：当所述复制比例大于预设的复制阈值且在所述检测时刻所述待检测文件夹中所有文件的数量大于预设的数量阈值时，则所述待检测文件夹存在已被窃取的风险。

本实施例中，待检测文件夹中在检测时刻的所有文件的数量越多，用户通过常规模式更新所有文件atime的概率越小，此时，截止簇中的文件数量越多，即复制比例越大，待检测文件夹在检测时刻被复制的可信度越高。

然而，若待检测文件夹中文件的数量较少，也就是说，该待检测文件夹产生截止簇的原因，可能不是由于批量复制导致的，可能是由于在检测时刻对该待检测文件夹的频繁访问导致的。因此，若在检测时刻，待检测文件夹中所有文件的数量小于预设的数量阈值时，无法确定待检测文件夹存在被窃取的风险。

本实施例中，通过已生成的待检测文件夹的检测数据集，提取出待检测文件夹中每个一个待检测文件的最近访问时间和创建时间，并通过最近访问时间、创建时间和检测时刻的关系以及最近访问时间和预设的复制结束时刻的关系，确定文件所属的类别；根据属于截止簇的文件的数量和文件夹中在检测时刻所有文件的数量计算复制比例；通过复制比例与复制阈值的关系，以及所有文件数量与数量阈值的关系，确定文件是否存在已被复制的风险。因此，实现了对文件批量复制行为的量化检测。

除此之外，通过合理地调整复制阈值和数量阈值，能够很好地降低漏检率和误检率。

本实施例中，由于检测的数据量较大，为了提高检测效率，在采用MapReduce并行处理框架的基础上，通过不同的主机对待检测文件夹中的待检测文件进行并行检测，具体的，参考图3，示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的流程示意图：

S301：通过MapReduce并行处理框架，将所述待检测文件夹中所有的待检测文件划分为多个集合；

S302：分别采用多个主机同时对所述多个集合进行处理，以确定每一个待检测文件的类别；

S303：将每一个主机得到的处理结果进行汇总。

举例说明：若采用多个主机同时对待检测文件夹中的不同文件集合进行检测，首先每个主机采用Map函数对待检测文件夹中的文件进行检测，具体的，Map函数的执行过程包括:

1)判断检测时刻t与创建时间ctime的关系；

若ctime<t，则执行步骤2)；

2)判断检测时刻t与最近访问时间atime的关系；

若atime<t，则该待检测文件属于集合第二集合Db_t(f)。将该待检测文件的所有父文件夹的编号存入到预先生成的folder_b[]中，并将其inode_id值作为输出的key值，对应的value值中，令copy_n＝0且total_n＝0，然后返回步骤1)，按照顺序检测下一个文件。

其中，copy_n＝0表示该文件夹没有被复制，total_n＝0表示不关心该文件夹包含的文件数量。若atime≥t，执行步骤3)。

3)判断文件atime与t+ε的关系；

若atime<t+ε，则依次遍历该文件对应的所有父文件夹的inode_id，若不在数组folder_b[]中，则将该inode_id值作为输出的key值，对应的value值中，令copy_n＝1，total_n＝1，即表示该文件属于截止簇子集；然后返回步骤1)，按照顺序检测下一个待检测文件。

若atime≥t+ε，执行步骤4)。

4)若待检测文件atime≥t+ε，该待检测文件属于第三子集，然后返回步骤1)，按照顺序检测下一个待检测文件。

其中对于属于第三子集的文件，可能在t～t+ε之间被访问过后，又再次被访问，也可能是在t+ε之后才被访问，因此不能确定其是否在t时刻被复制过。因此，依次遍历其所有父文件夹的inode_id，若不在数组folder_b[]中，则将该inode_id值作为输出的key值，对应的value值中，令copy_n＝0，total_n＝1，然后按照顺序检测下一个文件。

针对于每一个主机中执行的操作，在将同一个待检测文件夹中所有文件的检测信息在Reduce函数中汇总之前，可以采用Combiner函数对每个主机中，同一个待检测文件夹中的文件的检测结果进行汇总，具体的，每一台主机中执行的汇总过程包括：

Combiner函数以Map函数的输出为输入，对于输入的某一特定key值，即inode_id相同的所有数据项，检测其所有的value值中是否存在copy_n＝0且value_n＝0；若存在，则仍以此key值作为输出key值，对应的输出value值中，令copy_n＝0，total_n＝0；若不存在，则分别计算该key值对应输入项中所有copy_n和total_n的和，以此作为输出value值中的copy_n和total_n；所有key值检测完毕后，将结果输入到Reduce函数。

当汇总的主机接收到其它主机发送的汇总结果后，采用Reduce函数执行后续的步骤，具体的包括：

对于输入的某一特定key值，检测其所有的value值中是否存在copy_n＝0且value_n＝0。若存在，则过滤此key值对应的文件夹；若不存在，则分别计算该key值对应输入项中所有copy_n和total_n的和，设为copy_sum和total_sum。然后，计算截止簇中的文件数量占t时刻文件夹内总文件数量的复制比例，即copy_sum除以total_sum的商，设为C_test。

其中，C_test为复制比例，表示截止簇的相对大小，或者还可以理解为文件夹f在时刻t被复制的可能性，取值范围在0到1之间。

最后，设C_f和M_f分别为预设的复制阈值和数量阈值，若C_test>C_f，且total_sum>M_f，则该文件夹符合我们设定的检测条件，以其inode_id作为输出key值，在对应value值中输出时刻t的截止簇文件数量copy_sum、总文件数量以及复制比例C_test。

若total_sum≤M_f，表示文件夹中文件的数量较少，也就是说，该待检测文件夹产生截止簇的原因，可能不是由于批量复制导致的，可能是由于在检测时刻t对该待检测文件夹的频繁访问导致的，因此，无法说明该文件夹存在被窃取的风险。

本实施例中，通过采用MapReduce并行框架处理方式，提高了检测的速度。

参考图4，示出了本发明实施例提供的一种数据窃取检测装置的结构示意图，在本实施例中，该装置包括：

提取单元401，用于接收待检测文件夹的检测数据集，并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间；所述待检测文件夹包括至少一个待检测文件；

类别确定单元402，用于分别接收每一个待检测文件的最近访问时间、创建时间和检测时刻，确定所述每一个待检测文件的类别；

第一计算单元403，用于计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量；所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻，且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻；其中，所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和；

第二计算单元404，用于计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值，得到复制比例；

判断单元405，用于判断所述复制比例和预设复制阈值的关系以及所述检测文件夹中所有文件的数量和预设的数量阈值的关系；

风险确定单元406，用于当所述复制比例大于预设的复制阈值且所述待检测文件夹中所有文件的数量大于预设的数量阈值时，所述待检测文件夹存在已被窃取的风险。

可选的，所述类别确定单元，包括：

汇总子单元，用于将每一个主机得到的处理结果进行汇总。

通过本实施例的装置，实现了对文件批量复制行为的量化检测，解决了现有技术中没有针对于对分布式文件系统进行数据窃取的检测的问题。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种针对HDFS的数据窃取检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待检测文件夹包括至少一个待检测文件的检测数据项；所述检测数据项包括：待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。

3.根据权利要求1所述的方法，其特征在于，所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定所述每一个待检测文件的类别，包括：

4.根据权利要求3所述的方法，其特征在于，所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻，确定每一个待检测文件的类别，包括：

将每一个主机得到的处理结果进行汇总。

5.一种针对HDFS的数据窃取检测装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述待检测文件夹包括至少一个待检测文件的检测数据项；所述检测数据项包括：待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。

7.根据权利要求5所述的装置，其特征在于，所述类别确定单元，包括：

8.根据权利要求5所述的装置，其特征在于，所述类别确定单元，包括：

汇总子单元，用于将每一个主机得到的处理结果进行汇总。