CN107704772A - 一种针对hdfs的数据窃取检测方法及装置 - Google Patents

一种针对hdfs的数据窃取检测方法及装置 Download PDF

Info

Publication number
CN107704772A
CN107704772A CN201711034364.1A CN201711034364A CN107704772A CN 107704772 A CN107704772 A CN 107704772A CN 201711034364 A CN201711034364 A CN 201711034364A CN 107704772 A CN107704772 A CN 107704772A
Authority
CN
China
Prior art keywords
file
detected
detection
time
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711034364.1A
Other languages
English (en)
Inventor
杜学绘
李炳龙
高远照
杨智
王娜
王文娟
任志宇
孙奕
曹利峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Information Engineering University
Original Assignee
PLA Information Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Information Engineering University filed Critical PLA Information Engineering University
Priority to CN201711034364.1A priority Critical patent/CN107704772A/zh
Publication of CN107704772A publication Critical patent/CN107704772A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/184Distributed file systems implemented as replicated file system
    • G06F16/1844Management specifically adapted to replicated file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1865Transactional file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对HDFS的数据窃取检测方法及装置,该方法包括:通过已生成的待检测文件夹的检测数据集,提取出待检测文件夹中每一个待检测文件的最近访问时间和创建时间,并通过最近访问时间、创建时间和检测时刻的关系以及最近访问时间和预设的复制结束时刻的关系,确定文件所属的类别;根据属于截止簇的文件的数量和在检测时刻待检测文件夹中所有文件的数量计算复制比例;通过复制比例与复制阈值的关系,以及在检测时刻待检测文件夹中所有文件数量与数量阈值的关系,确定文件是否存在已被复制的风险。因此,实现了对文件批量复制行为的量化检测,并且,采用MapReduce并行处理方式,提高了检测的速度。

Description

一种针对HDFS的数据窃取检测方法及装置
技术领域
本发明涉及数据安全领域,尤其涉及一种针对HDFS的数据窃取检测方法及装置。
背景技术
随着云计算的快速发展,云存储被广泛应用,但是新的安全问题也随之而来。近年来,大规模的数据泄露不断发生,而数据窃取是造成数据泄露的主要原因之一。数据窃取一般包括外部攻击和内部人员窃取,相比于外部攻击导致的数据窃取,内部人员窃取给云计算和用户造成的危害更大,在这种情况下,服务方和用户很难发现数据已经泄露。
现有技术中,存在一些针对数据窃取的检测方法,例如:通过识别用户的异常行为模式或检测异常的传输流量对数据窃取行为进行检测,但是这种方式需要用户登录到系统中,而针对于HDFS(英文全称:Hadoop Distributed File System,中文全称:Hadoop分布式文件系统)等分布式文件系统,用户数据分散存储在多个物理或者虚拟节点中,无法从单个节点中窃取数据,并且内部管理人员能过通过控制节点直接访问存储节点的数据而无需登录系统。
因此,现有技术中的方法不适用于分布式文件系统。
发明内容
有鉴于此,本发明实施例提供了一种针对HDFS的数据窃取检测方法及装置,解决了现有技术中没有针对于对分布式文件系统进行数据窃取的检测,实现了文件批量复制行为的量化检测。
本发明公开的一种针对HDFS的数据窃取检测方法,包括:
接收待检测文件夹的检测数据集,并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间;所述待检测文件夹包括至少一个待检测文件;
分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别;
计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量;所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻,且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻;其中,所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和;
计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值,得到复制比例;
判断所述复制比例和预设的复制阈值的关系以及所述待检测文件夹中所有文件的数量和预设的数量阈值的关系;
当所述复制比例大于预设的复制阈值且在所述检测时刻所述待检测文件夹中所有文件的数量大于预设的数量阈值时,则所述待检测文件夹存在已被窃取的风险。
可选的,所述待检测文件夹包括至少一个待检测文件的检测数据项;所述检测数据项包括:待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。
可选的,所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别,包括:
针对于每一个待检测文件,确定该待检测文件的创建时间和检测时刻的关系,并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系;
若所述待检测文件的创建时间大于等于所述检测时刻,所述待检测文件属于第一子集;
若所述待检测文件的创建时间小于所述待检测时刻,且所述待检测文件的最近访问时间小于所述检测时刻,则所述待检测文件属于第二子集;
若所述待检测文件的创建时间小于所述检测时刻,待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻,所述待检测文件属于截止簇子集;
若所述待检测文件的创建时间小于所述检测时刻,且所述待检测文件的最近访问时间大于预设的复制结束时刻,则所述待检测文件属于第三子集。
可选的,所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定每一个待检测文件的类别,包括:
通过MapReduce并行处理框架,将所述待检测文件夹中所有待检测文件划分为多个集合;
分别采用多个主机同时对多个集合进行处理,以确定每一个待检测文件的类别;
将每一个主机得到的处理结果进行汇总。
本发明还公开了一种针对HDFS的数据窃取检测装置,包括:
提取单元,用于接收待检测文件夹的检测数据集,并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间;所述待检测文件夹包括至少一个待检测文件;
类别确定单元,用于分别接收每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别;
第一计算单元,用于计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量;所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻,且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻;其中,所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和;
第二计算单元,用于计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值,得到复制比例;
判断单元,用于判断所述复制比例和预设复制阈值的关系以及所述检测文件夹中所有文件的数量和预设的数量阈值的关系;
风险确定单元,用于当所述复制比例大于预设的复制阈值且所述待检测文件夹中所有文件的数量大于预设的数量阈值时,所述待检测文件夹存在已被窃取的风险。
可选的,所述待检测文件夹包括至少一个待检测文件的检测数据项;所述检测数据项包括:待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。
可选的,所述类别确定单元,包括:
关系确定子单元,用于针对于每一个待检测文件,确定该待检测文件的创建时间和检测时刻的关系,并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系;
第一子集确定子单元,用于若所述待检测文件的创建时间大于等于所述检测时刻,所述待检测文件属于第一子集;
第二子集确定子单元,用于若所述待检测文件的创建时间小于所述待检测时刻,且所述待检测文件的最近访问时间小于所述检测时刻,则所述待检测文件属于第二子集;
截止簇子集确定子单元,用于若所述待检测文件的创建时间小于所述检测时刻,待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻,所述待检测文件属于截止簇子集;
第三子集确定子单元,用于若所述待检测文件的创建时间小于所述检测时刻,且所述待检测文件的最近访问时间大于预设的复制结束时刻,则所述待检测文件属于第三子集。
可选的,所述类别确定单元,包括:
文件划分子单元,用于通过MapReduce并行处理框架,将所述待检测文件夹中所有待检测文件划分为多个集合;
类别确定子单元,分别采用多个主机同时对多个集合进行处理,以确定每一个待检测文件的类别;
汇总子单元,用于将每一个主机得到的处理结果进行汇总。
本发明实施例中,接收待检测文件夹的检测数据集,并从检测数据集中提取每一个待检测文件的最近访问时间;分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定每一个待检测文件的类别;计算属于截止簇子集中文件的数量占在检测时刻待检测文件夹中所有文件数量的复制比例;并根据复制比例和预设的复制阈值的关系以及所述所有文件数量与数量阈值的关系,确定文件是否存在已被复制的风险。由此可知,实现了对文件批量复制行为的量化检测,解决了现有技术中没有针对于对分布式文件系统进行数据窃取的检测的问题。
除此之外,采用MapReduce并行处理方式,提高了检测的速度。并且,通过合理地调整复制阈值和数量阈值,能够很好地降低漏检率和误检率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的流程示意图;
图2示出了本发明实施例提供的一种基于MapReduce的文件类别确定方法的流程示意图;
图3示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的又一流程示意图;
图4示出了本发明实施例提供的一种针对HDFS的数据窃取检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的流程示意图,在本实施例中,该方法包括:
S101:接收待检测文件夹的检测数据集,并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间;
本实施例中,待检测文件夹中包括至少一个待检测文件,每个待检测文件对应于一个检测数据项,即检测数据集可以包括至少一个检测数据项,该检测数据项包括多个检测数据,分别为:待检测文件的编号、最近访问时间、创建时间以及该待检测文件的所有父文件夹的编号。其中,所有待检测文件的检测数据项组成检测数据集,即检测数据集包括至少一个检测数据项。
举例说明:检测数据项可以表示为如下的形式:
检测数据集可以包括至少一个这样的检测数据项;其中,inode_id表示待检测文件的编号,atime为待检测文件的最近访问时间,ctime为待检测文件的创建时间,为待检测文件所有父文件夹的编号。
其中,待检测文件夹的检测数据集可以是在执行S101之前生成的,具体的,还包括:
获取所述待检测文件夹中所有待检测文件的编号、最近访问时间、创建时间以及所有待检测文件的各个父文件夹的编号;
针对于每一个待检测文件,依据待检测文件的编号、最近访问时间、创建时间以及该待检测文件的各个父文件夹的编号,生成该待检测文件的检测数据项。
其中,待检测文件中的检测数据是从HDFS的元数据文件中获取的。
本实施例中,在HDFS中的元数据文件包括两种形式:FsImage和EditLog。FsImage维护着完整的HDFS元数据映像,记录着文件的MAC时间戳。EditLog是HDFS的事务日志,记录了每个MAC时间戳的变化。HDFS的检查点机制是在HDFS启动时或每经过固定周期,将最近更新的FsImage与之后所记录的事务进行合并,并创建一个新的FsImage。
申请人经研究发现,虽然FsImage的数据来源于EditLog,但由于EditLog只能记录两检查点间HDFS的变化情况,它无法反映HDFS中时间戳未发生变化的文件,不能体现某文件夹下文件的整体状态。因此,FsImage是MAC时间戳数据的主要来源。
其中,在HDFS中,MAC时间戳记录文件(或文件夹)的最近修改时间(mtime)、最近访问时间(atime)和创建时间(ctime)。
并且,申请人经研究发现,HDFS并不记录文件的ctime,本实施例中假设文件的ctime等于创建空文件时的atime。
本实施例中,在FsImage中,文件(或文件夹)以“inode”表示,每个inode具有唯一编号,并且单调递增。FsImage记录了文件内的最大inode编号。对比最近更新的FsImage和前一个检查点的FsImage,能够得出两个检查点间的新增文件。在最近的已完成EditLog中检索这些文件,能够得出它们的ctime。
S102:分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定每一个待检测文件的类别。
本实施例中,对于HDFS的文件夹,可以将文件夹中的文件划分为四个不相交的子集,分别为第一子集、第二子集、第三子集和截止簇子集;其中,第一子集中,文件的创建时间大于检测时刻,即文件在检测时刻还未创建;第二子集中,文件的创建时间小于检测时刻,且最近访问时间小于检测时刻,即文件只在检测时刻前被访问过,在检测时刻该文件不存在被复制的可能;第三子集中,文件的创建时间小于检测时刻,最近访问时间大于预设的复制结束时刻,其中该复制结束时刻为检测时刻和预设的复制时间的和;截止簇子集中,文件的创建时间小于检测时刻,最近访问时间大于等于检测时刻且小于等于预设的复制结束时刻。
举例说明:将文件夹f定义为如下的公式1)
1)D(f)={x|x是f中的文件};
其中D(f)为文件夹f中所有文件的集合,x是单个文件,针对于检测时刻t,将文件夹分割成四个不相交的子集,分别为:
第一子集:Dit(f)={x|x∈D(f)∧(C(x)≥t)};
第二子集:Dbt(f)={x|x∈D(f)∧(A(x)<t)∧(C(x)<t)};
第三子集:Dat(f)={x|x∈D(f)∧(A(x)>t+ε)∧(C(x)<t)};
截止簇子集:Det(f)={x|x∈D(f)∧(t≤A(x)≤t+ε)∧(C(x)<t)};
其中,A(x)表示x的最近访问时间,C(x)表示x的创建时间。
ε为复制所需的预计时间,t+ε为预设的复制结束时刻。
由此,可以根据待检测文件的最近访问时间、创建时间和检测时刻,对待检测文件进行分类,具体的,S102包括:
针对于每一个待检测文件,确定该待检测文件的创建时间和检测时刻的关系,并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系;
若所述待检测文件的创建时间大于等于所述检测时刻,所述待检测文件属于第一子集;
若所述待检测文件的创建时间小于所述待检测时刻,且所述待检测文件的最近访问时间小于所述检测时刻,则所述待检测文件属于第二子集;
若所述待检测文件的创建时间小于所述检测时刻,待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻,所述待检测文件属于截止簇子集;
若所述待检测文件的创建时间小于所述检测时刻,且所述待检测文件的最近访问时间大于预设的复制结束时刻,则所述待检测文件属于第三子集。
举例说明:假设待检测文件夹的检测数据集由key/value对表示,针对每个数据项,把“inode_id”作为key,把数据项中其它数据作为value,包括待检测文件的最近访问时间、创建时间和该待检测文件的所有父文件夹的编号。
参考图2,对待检测文件进行检测的过程包括:
1)判断检测时刻t与创建时间ctime的关系;
若ctime≥t,则该待检测的文件属于第一子集,即,该检测文件在t时刻还未创建,无需统计在内,直接对下一个文件进行统计,即返回执行步骤1);
若ctime<t,则执行步骤2);
2)判断检测时刻t与最近访问时间atime的关系;
若atime<t,则该待检测文件属于集合第二子集Dbt(f),表示该文件不存在被复制的可能,然后返回步骤1),按照顺序检测下一个文件。
若atime≥t,执行步骤3)。
3)判断文件atime与t+ε的关系;
若atime≤t+ε,则该待检测文件属于截止簇子集,然后返回步骤1),按照顺序检测下一个待检测文件。若atime>t+ε,执行步骤4)。
4)若待检测文件atime>t+ε,该待检测文件属于第三子集,然后返回步骤1),按照顺序检测下一个待检测文件。
其中对于属于第三子集的文件,可能在t~t+ε之间被访问过后,又再次被访问,也可能是在t+ε之后才被访问,因此不能确定其是否在t时刻被复制过。
针对于步骤1)~步骤4)的过程,可以是按照一定的顺序对待检测文件夹中的所有待检测文件依次进行检测。本实施例中,为提高检测效率,采用MapReduce并行处理框架,将待检测文件夹中所有待检测文件并行处理,具体的采用MapReduce并行处理框架的处理过程会在下文中详细介绍,在这里不再赘述。
S103:针对存在被复制可能性的文件夹,计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量;所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻,且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻;其中,所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和;
其中,待检测文件夹中在检测时刻所有文件的数量可以理解为,在检测时刻之前,待检测文件夹中创建的所有文件。
S104:计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值,得到复制比例;
本实施例中,复制比例表示截止簇的相对大小,或者可以表示为待检测文件夹在检测时刻被复制的可能性,取值范围在0到1之间。
其中,若是复制比例越大,表示被窃取的可能性越大。
S105:判断所述复制比例和预设的复制阈值的关系以及所述待检测文件夹中所有文件的数量和预设的数量阈值的关系;
S106:当所述复制比例大于预设的复制阈值且在所述检测时刻所述待检测文件夹中所有文件的数量大于预设的数量阈值时,则所述待检测文件夹存在已被窃取的风险。
本实施例中,待检测文件夹中在检测时刻的所有文件的数量越多,用户通过常规模式更新所有文件atime的概率越小,此时,截止簇中的文件数量越多,即复制比例越大,待检测文件夹在检测时刻被复制的可信度越高。
然而,若待检测文件夹中文件的数量较少,也就是说,该待检测文件夹产生截止簇的原因,可能不是由于批量复制导致的,可能是由于在检测时刻对该待检测文件夹的频繁访问导致的。因此,若在检测时刻,待检测文件夹中所有文件的数量小于预设的数量阈值时,无法确定待检测文件夹存在被窃取的风险。
本实施例中,通过已生成的待检测文件夹的检测数据集,提取出待检测文件夹中每个一个待检测文件的最近访问时间和创建时间,并通过最近访问时间、创建时间和检测时刻的关系以及最近访问时间和预设的复制结束时刻的关系,确定文件所属的类别;根据属于截止簇的文件的数量和文件夹中在检测时刻所有文件的数量计算复制比例;通过复制比例与复制阈值的关系,以及所有文件数量与数量阈值的关系,确定文件是否存在已被复制的风险。因此,实现了对文件批量复制行为的量化检测。
除此之外,通过合理地调整复制阈值和数量阈值,能够很好地降低漏检率和误检率。
本实施例中,由于检测的数据量较大,为了提高检测效率,在采用MapReduce并行处理框架的基础上,通过不同的主机对待检测文件夹中的待检测文件进行并行检测,具体的,参考图3,示出了本发明实施例提供的一种针对HDFS的数据窃取检测方法的流程示意图:
S301:通过MapReduce并行处理框架,将所述待检测文件夹中所有的待检测文件划分为多个集合;
S302:分别采用多个主机同时对所述多个集合进行处理,以确定每一个待检测文件的类别;
S303:将每一个主机得到的处理结果进行汇总。
举例说明:若采用多个主机同时对待检测文件夹中的不同文件集合进行检测,首先每个主机采用Map函数对待检测文件夹中的文件进行检测,具体的,Map函数的执行过程包括:
1)判断检测时刻t与创建时间ctime的关系;
若ctime≥t,则该待检测的文件属于第一子集,即,该检测文件在t时刻还未创建,无需统计在内,直接对下一个文件进行统计,即返回执行步骤1);
若ctime<t,则执行步骤2);
2)判断检测时刻t与最近访问时间atime的关系;
若atime<t,则该待检测文件属于集合第二集合Dbt(f)。将该待检测文件的所有父文件夹的编号存入到预先生成的folder_b[]中,并将其inode_id值作为输出的key值,对应的value值中,令copy_n=0且total_n=0,然后返回步骤1),按照顺序检测下一个文件。
其中,copy_n=0表示该文件夹没有被复制,total_n=0表示不关心该文件夹包含的文件数量。若atime≥t,执行步骤3)。
3)判断文件atime与t+ε的关系;
若atime<t+ε,则依次遍历该文件对应的所有父文件夹的inode_id,若不在数组folder_b[]中,则将该inode_id值作为输出的key值,对应的value值中,令copy_n=1,total_n=1,即表示该文件属于截止簇子集;然后返回步骤1),按照顺序检测下一个待检测文件。
若atime≥t+ε,执行步骤4)。
4)若待检测文件atime≥t+ε,该待检测文件属于第三子集,然后返回步骤1),按照顺序检测下一个待检测文件。
其中对于属于第三子集的文件,可能在t~t+ε之间被访问过后,又再次被访问,也可能是在t+ε之后才被访问,因此不能确定其是否在t时刻被复制过。因此,依次遍历其所有父文件夹的inode_id,若不在数组folder_b[]中,则将该inode_id值作为输出的key值,对应的value值中,令copy_n=0,total_n=1,然后按照顺序检测下一个文件。
针对于每一个主机中执行的操作,在将同一个待检测文件夹中所有文件的检测信息在Reduce函数中汇总之前,可以采用Combiner函数对每个主机中,同一个待检测文件夹中的文件的检测结果进行汇总,具体的,每一台主机中执行的汇总过程包括:
Combiner函数以Map函数的输出为输入,对于输入的某一特定key值,即inode_id相同的所有数据项,检测其所有的value值中是否存在copy_n=0且value_n=0;若存在,则仍以此key值作为输出key值,对应的输出value值中,令copy_n=0,total_n=0;若不存在,则分别计算该key值对应输入项中所有copy_n和total_n的和,以此作为输出value值中的copy_n和total_n;所有key值检测完毕后,将结果输入到Reduce函数。
当汇总的主机接收到其它主机发送的汇总结果后,采用Reduce函数执行后续的步骤,具体的包括:
对于输入的某一特定key值,检测其所有的value值中是否存在copy_n=0且value_n=0。若存在,则过滤此key值对应的文件夹;若不存在,则分别计算该key值对应输入项中所有copy_n和total_n的和,设为copy_sum和total_sum。然后,计算截止簇中的文件数量占t时刻文件夹内总文件数量的复制比例,即copy_sum除以total_sum的商,设为C_test。
其中,C_test为复制比例,表示截止簇的相对大小,或者还可以理解为文件夹f在时刻t被复制的可能性,取值范围在0到1之间。
最后,设Cf和Mf分别为预设的复制阈值和数量阈值,若C_test>Cf,且total_sum>Mf,则该文件夹符合我们设定的检测条件,以其inode_id作为输出key值,在对应value值中输出时刻t的截止簇文件数量copy_sum、总文件数量以及复制比例C_test。
若total_sum≤Mf,表示文件夹中文件的数量较少,也就是说,该待检测文件夹产生截止簇的原因,可能不是由于批量复制导致的,可能是由于在检测时刻t对该待检测文件夹的频繁访问导致的,因此,无法说明该文件夹存在被窃取的风险。
本实施例中,通过采用MapReduce并行框架处理方式,提高了检测的速度。
参考图4,示出了本发明实施例提供的一种数据窃取检测装置的结构示意图,在本实施例中,该装置包括:
提取单元401,用于接收待检测文件夹的检测数据集,并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间;所述待检测文件夹包括至少一个待检测文件;
类别确定单元402,用于分别接收每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别;
第一计算单元403,用于计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量;所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻,且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻;其中,所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和;
第二计算单元404,用于计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值,得到复制比例;
判断单元405,用于判断所述复制比例和预设复制阈值的关系以及所述检测文件夹中所有文件的数量和预设的数量阈值的关系;
风险确定单元406,用于当所述复制比例大于预设的复制阈值且所述待检测文件夹中所有文件的数量大于预设的数量阈值时,所述待检测文件夹存在已被窃取的风险。
可选的,所述待检测文件夹包括至少一个待检测文件的检测数据项;所述检测数据项包括:待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。
可选的,所述类别确定单元,包括:
关系确定子单元,用于针对于每一个待检测文件,确定该待检测文件的创建时间和检测时刻的关系,并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系;
第一子集确定子单元,用于若所述待检测文件的创建时间大于等于所述检测时刻,所述待检测文件属于第一子集;
第二子集确定子单元,用于若所述待检测文件的创建时间小于所述待检测时刻,且所述待检测文件的最近访问时间小于所述检测时刻,则所述待检测文件属于第二子集;
截止簇子集确定子单元,用于若所述待检测文件的创建时间小于所述检测时刻,待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻,所述待检测文件属于截止簇子集;
第三子集确定子单元,用于若所述待检测文件的创建时间小于所述检测时刻,且所述待检测文件的最近访问时间大于预设的复制结束时刻,则所述待检测文件属于第三子集。
可选的,所述类别确定单元,包括:
文件划分子单元,用于通过MapReduce并行处理框架,将所述待检测文件夹中所有待检测文件划分为多个集合;
类别确定子单元,分别采用多个主机同时对多个集合进行处理,以确定每一个待检测文件的类别;
汇总子单元,用于将每一个主机得到的处理结果进行汇总。
通过本实施例的装置,实现了对文件批量复制行为的量化检测,解决了现有技术中没有针对于对分布式文件系统进行数据窃取的检测的问题。
除此之外,采用MapReduce并行处理方式,提高了检测的速度。并且,通过合理地调整复制阈值和数量阈值,能够很好地降低漏检率和误检率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种针对HDFS的数据窃取检测方法,其特征在于,包括:
接收待检测文件夹的检测数据集,并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间;所述待检测文件夹包括至少一个待检测文件;
分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别;
计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量;所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻,且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻;其中,所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和;
计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值,得到复制比例;
判断所述复制比例和预设的复制阈值的关系以及所述待检测文件夹中所有文件的数量和预设的数量阈值的关系;
当所述复制比例大于预设的复制阈值且在所述检测时刻所述待检测文件夹中所有文件的数量大于预设的数量阈值时,则所述待检测文件夹存在已被窃取的风险。
2.根据权利要求1所述的方法,其特征在于,所述待检测文件夹包括至少一个待检测文件的检测数据项;所述检测数据项包括:待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。
3.根据权利要求1所述的方法,其特征在于,所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别,包括:
针对于每一个待检测文件,确定该待检测文件的创建时间和检测时刻的关系,并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系;
若所述待检测文件的创建时间大于等于所述检测时刻,所述待检测文件属于第一子集;
若所述待检测文件的创建时间小于所述待检测时刻,且所述待检测文件的最近访问时间小于所述检测时刻,则所述待检测文件属于第二子集;
若所述待检测文件的创建时间小于所述检测时刻,待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻,所述待检测文件属于截止簇子集;
若所述待检测文件的创建时间小于所述检测时刻,且所述待检测文件的最近访问时间大于预设的复制结束时刻,则所述待检测文件属于第三子集。
4.根据权利要求3所述的方法,其特征在于,所述分别依据每一个待检测文件的最近访问时间、创建时间和检测时刻,确定每一个待检测文件的类别,包括:
通过MapReduce并行处理框架,将所述待检测文件夹中所有待检测文件划分为多个集合;
分别采用多个主机同时对多个集合进行处理,以确定每一个待检测文件的类别;
将每一个主机得到的处理结果进行汇总。
5.一种针对HDFS的数据窃取检测装置,其特征在于,包括:
提取单元,用于接收待检测文件夹的检测数据集,并从所述检测数据集中提取每一个待检测文件的最近访问时间和创建时间;所述待检测文件夹包括至少一个待检测文件;
类别确定单元,用于分别接收每一个待检测文件的最近访问时间、创建时间和检测时刻,确定所述每一个待检测文件的类别;
第一计算单元,用于计算属于截止簇子集中文件的数量以及在所述检测时刻所述待检测文件夹中所有文件的数量;所述属于截止簇子集的待检测文件的创建时间小于所述检测时刻,且最近访问时间大于等于所述检测时刻并小于等于预设的复制结束时刻;其中,所述预设的复制结束时刻为所述检测时刻和预设的复制时间的和;
第二计算单元,用于计算属于所述截止簇子集中文件的数量和在所述检测时刻所述待检测文件夹中所有文件的数量的比值,得到复制比例;
判断单元,用于判断所述复制比例和预设复制阈值的关系以及所述检测文件夹中所有文件的数量和预设的数量阈值的关系;
风险确定单元,用于当所述复制比例大于预设的复制阈值且所述待检测文件夹中所有文件的数量大于预设的数量阈值时,所述待检测文件夹存在已被窃取的风险。
6.根据权利要求5所述的装置,其特征在于,所述待检测文件夹包括至少一个待检测文件的检测数据项;所述检测数据项包括:待检测文件的编号、最近访问时间、创建时间和待检测文件的所有父文件夹的编号。
7.根据权利要求5所述的装置,其特征在于,所述类别确定单元,包括:
关系确定子单元,用于针对于每一个待检测文件,确定该待检测文件的创建时间和检测时刻的关系,并分别确定该待检测文件的最近访问时间和检测时刻以及所述最近访问时间和预设的复制结束时刻的关系;
第一子集确定子单元,用于若所述待检测文件的创建时间大于等于所述检测时刻,所述待检测文件属于第一子集;
第二子集确定子单元,用于若所述待检测文件的创建时间小于所述待检测时刻,且所述待检测文件的最近访问时间小于所述检测时刻,则所述待检测文件属于第二子集;
截止簇子集确定子单元,用于若所述待检测文件的创建时间小于所述检测时刻,待检测文件的最近访问时间大于等于所述检测时刻且小于等于预设的复制结束时刻,所述待检测文件属于截止簇子集;
第三子集确定子单元,用于若所述待检测文件的创建时间小于所述检测时刻,且所述待检测文件的最近访问时间大于预设的复制结束时刻,则所述待检测文件属于第三子集。
8.根据权利要求5所述的装置,其特征在于,所述类别确定单元,包括:
文件划分子单元,用于通过MapReduce并行处理框架,将所述待检测文件夹中所有待检测文件划分为多个集合;
类别确定子单元,分别采用多个主机同时对多个集合进行处理,以确定每一个待检测文件的类别;
汇总子单元,用于将每一个主机得到的处理结果进行汇总。
CN201711034364.1A 2017-10-30 2017-10-30 一种针对hdfs的数据窃取检测方法及装置 Pending CN107704772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711034364.1A CN107704772A (zh) 2017-10-30 2017-10-30 一种针对hdfs的数据窃取检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711034364.1A CN107704772A (zh) 2017-10-30 2017-10-30 一种针对hdfs的数据窃取检测方法及装置

Publications (1)

Publication Number Publication Date
CN107704772A true CN107704772A (zh) 2018-02-16

Family

ID=61176922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711034364.1A Pending CN107704772A (zh) 2017-10-30 2017-10-30 一种针对hdfs的数据窃取检测方法及装置

Country Status (1)

Country Link
CN (1) CN107704772A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282902A1 (en) * 2005-06-10 2006-12-14 Hisashi Matsushita Security device and method for information processing apparatus
CN103294591A (zh) * 2012-03-05 2013-09-11 中国人民解放军91655部队 一种移动存储设备交叉使用的检测方法
CN106790056A (zh) * 2016-12-20 2017-05-31 中国科学院苏州生物医学工程技术研究所 降低数据银行的数据窃取风险的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282902A1 (en) * 2005-06-10 2006-12-14 Hisashi Matsushita Security device and method for information processing apparatus
CN103294591A (zh) * 2012-03-05 2013-09-11 中国人民解放军91655部队 一种移动存储设备交叉使用的检测方法
CN106790056A (zh) * 2016-12-20 2017-05-31 中国科学院苏州生物医学工程技术研究所 降低数据银行的数据窃取风险的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JONATHAN GRIER: "Detecting data theft using stochastic forensics", 《DIGITAL INVESTIGATION》 *

Similar Documents

Publication Publication Date Title
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
CN104731879B (zh) 一种高速公路车辆逃费行为数据分析方法
KR101559206B1 (ko) 로그 데이터 처리 방법 및 이를 수행하는 시스템
CN106339274A (zh) 一种数据快照获取的方法及系统
CN103838847B (zh) 一种面向海云协同网络计算环境的数据组织方法
CN103139256B (zh) 一种多租户网络舆情监控方法及系统
CN108595517A (zh) 一种大规模文档相似性检测方法
CN105224593B (zh) 一种短暂上网事务中频繁共现账号挖掘方法
CN105718590A (zh) 面向多租户的SaaS舆情监控系统及方法
CN103824069A (zh) 一种基于多主机日志关联的入侵检测方法
CN103970722A (zh) 一种文本内容去重的方法
CN106992886A (zh) 一种基于分布式存储的日志分析方法及装置
CN111046022A (zh) 一种基于大数据技术的数据库审计方法
CN110262949A (zh) 智能设备日志处理系统及方法
CN109615015A (zh) 一种基于区块链智能合约与机器学习的数据预处理方法
CN104809252A (zh) 互联网数据提取系统
CN108255966A (zh) 一种数据迁移方法及存储介质
CN110377680A (zh) 基于网络爬虫和语义识别的山洪灾害数据库构建及更新的方法
GB2601938A (en) Automatic ransomware detection with an on-demand file system lock down and automatic repair function
CN107070897A (zh) 入侵检测系统中基于多属性哈希去重的网络日志存储方法
Nagdive et al. Overview on performance testing approach in big data
CN109947935A (zh) 新闻事件的生成方法及装置
CN109947730A (zh) 元数据恢复方法、装置、分布式文件系统及可读存储介质
CN109656929A (zh) 一种雕复关系型数据库文件的方法及装置
CN103198146A (zh) 面向网络流式数据的事件实时过滤方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Du Xuehui

Inventor after: Li Binglong

Inventor after: Gao Yuanzhao

Inventor after: Yang Zhi

Inventor after: Wang Na

Inventor after: Wang Wenjuan

Inventor after: Ren Zhiyu

Inventor after: Sun Yi

Inventor after: Cao Lifeng

Inventor before: Du Xuehui

Inventor before: Li Binglong

Inventor before: Gao Yuanzhao

Inventor before: Yang Zhi

Inventor before: Wang Na

Inventor before: Wang Wenjuan

Inventor before: Ren Zhiyu

Inventor before: Sun Yi

Inventor before: Cao Lifeng

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 450001 Zhengzhou science and Technology Development Zone, Henan, No. 62

Applicant after: Chinese people's Liberation Army Strategic Support Force Information Engineering University

Address before: 450002 science and technology zone, Zhengzhou, Henan, No. 62

Applicant before: P.L.A Univ. of Information Engineering

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180216