CN111143156B

CN111143156B - 大数据平台垃圾任务采集系统、方法及计算机系统

Info

Publication number: CN111143156B
Application number: CN201911166542.5A
Authority: CN
Inventors: 郭小龙; 郑尧峰; 桑强; 赵云
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-06-30
Anticipated expiration: 2039-11-25
Also published as: CN111143156A

Abstract

本发明公开了一种大数据平台垃圾任务采集系统、方法及计算机系统，采集系统包括：审计日志加载模块，用于加载所述大数据平台在数据处理过程中生成的审计日志；数据处理模块，连接所述审计日志加载模块，用于对所述审计日志进行数据处理；临时表注册模块，连接所述数据处理模块，用于将经数据处理后的所述审计日志注册为对应的临时表并存储；数据分组聚合模块，连接所述临时表注册模块，用于对所述临时表中的数据进行分组聚合，得到一分组聚合结果；数据存储模块，连接所述数据分组聚合模块，用于存储所述数据分组聚合结果，本发明能够自动识别大数据平台执行的垃圾任务，释放了存储资源，降低了计算成本。

Description

大数据平台垃圾任务采集系统、方法及计算机系统

技术领域

本发明具体涉及计算机技术领域，尤其涉及一种大数据平台垃圾任务采集系统、方法及计算机系统。

背景技术

大数据平台集群机器规模巨大，每天执行的任务数几百万个，并且呈现持续增加的趋势。随着业务快速发展，产品的迭代更新，数据结构的不断调整，几百万个任务中，部分已经成为没有执行价值的垃圾任务，但是如果不对这些垃圾任务进行及时情况，垃圾任务仍然会占用计算和存储资源，如何在数百万个任务中识别出垃圾任务以降低存储和计算成本成为当前迫切需要解决的技术问题。

发明内容

本发明的目的在于提供一种大数据平台垃圾任务采集系统、方法及计算机系统，以解决上述技术问题。

本发明第一方面提供一种大数据平台垃圾任务采集系统，用于识别并采集大数据平台在数据处理过程中产生的垃圾任务，所述大数据平台垃圾任务采集系统通信连接所述大数据平台，所述大数据平台垃圾任务采集系统包括：

审计日志加载模块，用于加载所述大数据平台在数据处理过程中生成的Hdfs审计日志；

数据处理模块，连接所述审计日志加载模块，用于对所述Hdfs审计日志进行数据处理，得到经数据处理后的所述Hdfs审计日志；

临时表注册模块，连接所述数据处理模块，用于将经数据处理后的所述Hdfs审计日志注册为对应的临时表并存储；

数据分组聚合模块，连接所述临时表注册模块，用于对所述临时表中的数据进行分组聚合，得到一分组聚合结果；

数据存储模块，连接所述数据分组聚合模块，用于存储所述数据分组聚合结果。

作为本发明的一种优选方案，所述审计日志加载模块中具体包括：

审计日志加载单元，用于加载所述大数据平台在数据处理过程中生成的Hdfs审计日志；

审计日志转换单元，连接所述审计日志加载单元，用于将所述Hdfs审计日志转换为弹性分布式数据集RDD；

审计日志数据过滤单元，连接所述审计日志转换单元，用于对所述弹性分布式数据集RDD进行数据过滤，得到经数据过滤后的所述弹性分布式数据集RDD并输出。

作为本发明的一种优选方案，所述数据处理模块中具体包括：

目录类型识别单元，用于对经数据过滤后的所述弹性分布式数据集RDD进行目录类型识别，识别得到存在于所述弹性分布式数据集RDD中的源表目录和目标目录表并标识；

操作类型识别单元，连接所述目录类型识别单元，用于识别所述大数据平台对所述源表目录以及对所述目标目录表所作的操作类型并标识；

目录表格式化单元，连接所述目录类型识别单元，用于对识别得到的所述源表目录和所述目标目录表进行格式化处理，得到保留表名称的所述源表目录和所述目标目录表；

日期格式化单元，连接所述目录表格式化单元，用于对经目录表格式化处理后的所述源表目录和所述目标目录表进行操作日期格式化处理，以将所述大数据平台对所述源表目录和所述目标目录表的操作时间进行统一标识。

作为本发明的一种优选方案，所述临时表注册模块中具体包括：

临时表架构构建单元，用于根据经数据处理后的所述弹性分布式数据集RDD的数据架构构建临时表数据架构；

临时表生成单元，连接临时表架构构建单元，用于根据所构建的所述临时表数据架构，将经数据处理后的所述弹性分布式数据集RDD注册为临时表。

作为本发明的一种优选方案，所述数据分组聚合模块中具体包括：

第一数据分组单元，用于将所述临时表中的标识的所述源表目录归类为对应的第一数据组；

第二数据分组单元，用于将所述临时表中的标识的所述目标目录表归类为对应的第二数据组；

操作类型分组单元，用于根据所述大数据平台对所述源表目录、所述目标目录表标识的操作类型，将所述临时表中的同一操作类型下的所述源表目录、和/或所述目标目录表归类为对应的第三数据组；

操作时间获取单元，用于获取所标识的所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的所述操作时间并存储；

操作次数计算单元，连接所述操作时间获取单元，用于根据所获取的所述操作时间，计算所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作次数并存储；

数据聚合单元，分别连接所述第一数据分组单元、所述第二数据分组单元、所述操作类型分组单元、所述操作时间获取单元和所述操作次数计算单元，用于根据数据分组结果、操作时间获取结果和操作次数计算结果对所述大数据平台对所述Hdfs审计日志的访问情况进行数据聚合，形成对应的所述分组聚合结果并存储；

聚合结果展示单元，连接所述数据聚合单元，用于将所述分组聚合结果展示给用户。

作为本发明的一种优选方案，所述大数据平台垃圾任务采集系统通过sparkSQL分组聚合方法对所述临时表中的数据进行分组聚合，得到所述分组聚合结果。

作为本发明的一种优选方案，所述数据存储模块为分布式数据分析引擎ElasticSearch。

本发明另一方面还提供了一种大数据平台垃圾任务采集方法，通过应用所述大数据平台垃圾任务采集系统实现，包括如下步骤：

步骤S1，所述大数据平台垃圾任务采集系统加载所述大数据平台在数据处理过程中生成的Hdfs审计日志；

步骤S2，所述大数据平台垃圾任务采集系统对所述Hdfs审计日志进行数据处理，得到经数据处理后的所述Hdfs审计日志；

步骤S3，所述大数据平台垃圾任务采集系统将经数据处理后的所述Hdfs审计日志注册为对应的临时表并存储；

步骤S4，所述大数据平台垃圾任务采集系统对所述临时表中的数据进行分组聚合，得到一分组聚合结果并存储。

作为本发明的一种优选方案，所述步骤S1中还包括一数据过滤过程，所述步骤S1中具体包括如下步骤：

步骤S11，所述大数据平台垃圾任务采集系统加载所述大数据平台在数据处理过程中生成的所述Hdfs审计日志；

步骤S12，所述大数据平台垃圾任务采集系统将所述Hdfs审计日志转换为弹性分布式数据集RDD；

步骤S13，所述大数据平台垃圾任务采集系统对所述弹性分布式数据集RDD进行数据过滤，得到经数据过滤后的所述弹性分布式数据集RDD并输出。

作为本发明的一种优选方案，所述步骤S2中，所述大数据平台垃圾任务采集系统对所述Hdfs审计日志进行数据处理的方法过程具体如下：

步骤S21，所述大数据平台垃圾任务采集系统对经数据过滤后的所述弹性分布式数据集RDD进行目录类型识别，识别得到存在于所述弹性分布式数据集RDD中的源表目录和目标目录表并标识；

步骤S22，所述大数据平台垃圾任务采集系统识别所述大数据平台对所述源表目录以及对所述目标目录表所作的操作类型并标识；

步骤S23，所述大数据平台垃圾任务采集系统对识别得到的所述源表目录和所述目标目录表进行格式化处理，得到保留表名称的所述源表目录和所述目标目录表；

步骤S24，所述大数据平台垃圾任务采集系统对经目录表格式化处理后的所述源表目录和所述目标目录表进行操作日期格式化处理，以将所述大数据平台对所述源表目录和所述目标目录表的操作时间进行统一标识。

作为本发明的一种优选方案，所述步骤S3中，所述大数据平台垃圾任务采集系统将经数据处理后的所述Hdfs审计日志注册为对应的所述临时表的方法步骤具体如下：

步骤S31，所述大数据平台垃圾任务采集系统根据经数据处理后的所述弹性分布式数据集RDD的数据架构构建临时表数据架构；

步骤S32，所述大数据平台垃圾任务采集系统根据所构造的所述临时表数据架构，将经数据处理后的所述弹性分布式数据集RDD注册为临时表。

作为本发明的一种优选方案，所述步骤S4中，所述大数据平台垃圾任务采集系统对所述临时表中的数据进行分组聚合的具体方法包括如下步骤：

步骤S41，所述大数据平台垃圾任务采集系统根据表类型将所述临时表中的所述源表目录和所述目标目录表分为对应的数据组，并将所述临时表中的同一所述操作类型下的所述源表目标和/或所述目标目录表分为对应的数据组；

步骤S42，所述大数据平台垃圾任务采集系统获取所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作时间并存储；

步骤S43，所述大数据平台垃圾任务采集系统根据所获取的所述操作时间，计算所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作次数并存储；

步骤S44，所述大数据平台垃圾任务采集系统根据所述步骤S41得到的数据分组结果、所述步骤S42得到的操作时间获取结果和所述步骤S43得到的操作次数计算结果，对所述大数据平台对所述Hdfs审计日志的访问情况进行数据聚合，形成对应的所述分组聚合结果并存储。

本发明再一方面提供了一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上所述的方法。

本发明有益效果：

本发明通过加载审计日志并处理，能够自动采集大数据平台的垃圾任务，方便后续进行垃圾任务自动识别，相比现有技术释放了存储资源，降低了计算成本。

附图说明

图1是本发明实施例提供的大数据平台垃圾任务采集系统的结构示意图；

图2是本发明实施例提供的大数据平台垃圾任务采集系统中的审计日志加载模块的结构示意图；

图3是本发明实施例提供的大数据平台垃圾任务采集系统中的数据处理模块的结构示意图；

图4是本发明实施例提供的大数据平台垃圾任务采集系统中的临时表注册模块的结构示意图；

图5是本发明实施例提供的大数据平台垃圾任务采集系统中的数据分组聚合模块的结构示意图；

图6是本发明提供的大数据平台垃圾任务采集方法的方法步骤图；

图7是本发明提供的大数据平台垃圾任务采集方法中的步骤S1的分步骤图；

图8是本发明提供的大数据平台垃圾任务采集方法中的步骤S2的分步骤图；

图9是本发明提供的大数据平台垃圾任务采集方法中的步骤S3的分步骤图；

图10是本发明提供的大数据平台垃圾任务采集方法中的步骤S4的分步骤图；

图11是本发明计算机系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明实施例提供的大数据平台垃圾任务采集系统，用于识别并采集大数据平台在数据处理过程中产生的垃圾任务，大数据平台垃圾任务采集系统通信连接大数据平台，请参照图1，大数据平台垃圾任务采集系统包括：

审计日志加载模块1，用于加载大数据平台在数据处理过程中生成的Hdfs审计日志；

数据处理模块2，连接审计日志加载模块1，用于对Hdfs审计日志进行数据处理，得到经数据处理后的Hdfs审计日志；

临时表注册模块3，连接数据处理模块2，用于将经数据处理后的Hdfs审计日志注册为对应的临时表并存储；

数据分组聚合模块4，连接临时表注册模块3，用于对临时表中的数据进行聚合，得到一分组聚合结果；

数据存储模块5，连接数据分组聚合模块4，用于存储数据分组聚合结果。

上述技术方案中，审计日志也可以是其它类型日志。本发明以Hdfs为例进行说明。Hdfs审计日志是hadoop(分布式系统基础架构)开源框架的功能，记录涉及到大数据平台进行Hdfs操作的行为日志。一条Hdfs审计日志通常包含以下几个字段的内容：日志写入时间、日志级别、Hdfs操作类、ugi、ip、cmd(命令提示符)、src(操作源目录)、dst(操作目标目录)、perm和proto。

cmd命令包括对Hdfs审计日志执行以下命令：open(打开)、read(读)、rename(重命名)、create(创建)、setPermission(权限集设置)、mkdirs、delete(删除)、setReplication(复制集设置)、append(增补)、setAcl(注册表设置)、setTimes(时间设置)、setOwner(窗口设置)、completeFile。

请继续参照图2，优选地，审计日志加载模块1中具体包括：

审计日志加载单元11，用于加载大数据平台在数据处理过程中生成的Hdfs审计日志；

审计日志转换单元12，连接审计日志加载单元11，用于将Hdfs审计日志转换为弹性分布式数据集RDD；

审计日志数据过滤单元13，连接审计日志转换单元12，用于对弹性分布式数据集RDD进行数据过滤，得到经数据过滤后的弹性分布式数据集RDD并输出。

上述技术方案中，对于Hdfs审计日志的加载方法以及将Hdfs审计日志转换为弹性分布式数据集RDD的方法均有现有的技术方法，而且上述的加载方法和转换方法也并非本发明要求权利保护的范围，所以加载方法的具体过程和转换方法的具体过程在此不作阐述。

需要说明的是，大数据平台垃圾任务采集系统对弹性分布式数据集RDD进行数据过滤包括过滤掉src＝不存在的情况，截取src＝源目录，然后过滤掉不需要进行垃圾任务处理的目录，比如staging.sparkStaging_temporary storm checkpoint目录。另外，系统还将过滤掉非hive(基于Hadoop的一个数据仓库工作)表访问路径的命令，比如getfileinfo getAclStatus listStatus contentSummary命令。

请继续参照图3，数据处理模块2中具体包括：

目录类型识别单元21，用于对经数据过滤后的弹性分布式数据集RDD进行目录类型识别，识别得到存在于弹性分布式数据集RDD中的源表目录和目标目录表并将源表目录和目标目录表进行分开标识；

操作类型识别单元22，连接目录类型识别单元21，用于识别大数据平台对源表目录以及对目标目录表所作的操作类型并标识；

目录表格式化单元23，连接目录类型识别单元21，用于对识别得到的源表目录和目标目录表进行格式化处理，得到保留表名称的源表目录和目标目录表；

日期格式化单元24，连接目录表格式化单元23，用于对经目录表格式化处理后的源表目录和目标目录表进行操作日期格式化处理，以将大数据平台对源表目录和目标目录表的操作时间进行统一标识。

上述技术方案中，系统识别并标识目录类型的过程简述如下：

系统识别出Hdfs审计日志中的src字段，将src字段所在的目录标识为源表目录，然后对源表目录进行格式化处理，数据保留到表名称这一级。

系统识别出Hdfs审计日志中的dst字段，将dst字段所在的目录标识为目标目录表，然后对目标目录表进行格式化处理，数据保留到表名称这一级。

系统识别并标识源表目录或目标目录表的操作类型的过程简述如下：

系统识别出Hdfs审计日志中的cmd字段，通过匹配命令匹配出大数据平台对Hdfs审计日志中的源表目录或目标目录表的操作类型，操作类型包括三类，第一类是对源表目录的read(读)操作；第二类是对源表目录的write(写)操作；第三类是对目标目录表的write(写)操作，最后对关联源表目录或目标目录表的操作类型进行标识。

系统对经目录表格式化处理后的源表目录和目标目录表进行操作日期格式化处理的过程简述如下：

系统识别出记载于Hdfs审计日志中的详细日志时间如2018-10-1816:18:24,563，系统按照yyyy-MM-dd年月日将详细日志时间统一格式化为2018-10-18。

请继续参照图4，临时表注册模块3中具体包括：

临时表架构构建单元31，用于根据经数据处理后的弹性分布式数据集RDD的数据架构构建临时表数据架构；

临时表生成单元32，连接临时表架构构建单元31，用于根据所构建的临时表数据架构，将经数据处理后的弹性分布式数据集RDD注册为临时表。

上述技术方案中，系统所构建临时表数据架构(schema)包括三个字段，分别为目录、日志时间和操作类型，目录包括经格式化处理后的源表目录和目标目录表，日志时间为格式化后统一标识的操作时间，操作类型为对源表目录和/或目标目录表的读写操作。

请继续参照图5，数据分组聚合模块4中具体包括：

第一数据分组单元41，用于将临时表中的标识的源表目录归类为对应的第一数据组；

第二数据分组单元42，用于将临时表中的标识的目标目录表归类为对应的第二数据组；

操作类型分组单元43，用于根据大数据平台对源表目录、目标目录表标识的操作类型，将临时表中的同一操作类型下的源表目录、和/或目标目录表归类为对应的第三数据组；

操作时间获取单元44，用于获取所标识的所述大数据平台在不同的所述操作类型下对所述源表目录、和/或目标目录表的操作时间并存储；

操作次数计算单元45，连接操作时间获取单元44，用于根据所获取的操作时间，计算大数据平台在不同的操作类型下对源表目录、和/或目标目录表的操作次数并存储；

数据聚合单元46，分别连接第一数据分组单元41、第二数据分组单元42、操作类型分组单元43、操作时间获取单元44和操作次数计算单元45，用于根据数据分组结果、操作时间获取结果和操作次数计算结果对大数据平台对Hdfs审计日志的访问情况进行数据聚合，形成对应的分组聚合结果并存储；

聚合结果展示单元47，连接数据聚合单元46，用于将分组聚合结果展示给用户。

对于上述的数据聚合过程，举例而言，系统可统计大数据平台对第一数据组中的源表目录的读写操作的次数作为聚合结果输出，也可以统计大数据平台在某个特定日内对第二数据组中的目标目录表的最大操作时间或最小操作时间作为聚合结果输出。

上述技术方案中，优选地，大数据平台垃圾任务采集系统通过sparkSQL分组聚类方法对临时表中的数据进行分组聚合，得到分组聚合结果。

优选地，大数据平台垃圾任务采集系统将分组聚合结果存储于分布式数据分析引擎ElasticSearch中，以便于后续对分组聚合结果的进一步分析、处理。

本发明还提供了一种大数据平台垃圾任务采集方法，通过应用上述的大数据平台垃圾任务采集系统实现，请参照图6，包括如下步骤：

步骤S1，大数据平台垃圾任务采集系统加载大数据平台在数据处理过程中生成的Hdfs审计日志；

步骤S2，大数据平台垃圾任务采集系统对Hdfs审计日志进行数据处理，得到经数据处理后的Hdfs审计日志；

步骤S3，大数据平台垃圾任务采集系统将经数据处理后的Hdfs审计日志注册为对应的临时表并存储；

步骤S4，大数据平台垃圾任务采集系统对临时表中的数据进行分组聚合，得到一分组聚合结果并存储。

优选地，步骤S1中还包括一数据过滤过程，请参照图7，所述步骤S1中具体包括如下步骤：

步骤S11，大数据平台垃圾任务采集系统加载大数据平台在数据处理过程中生成的Hdfs审计日志；

步骤S12，大数据平台垃圾任务采集系统将Hdfs审计日志转换为弹性分布式数据集RDD；

步骤S13，大数据平台垃圾任务采集系统对弹性分布式数据集RDD进行数据过滤，得到经数据过滤后的弹性分布式数据集RDD并输出。

请参照图8，优选地，步骤S2中，大数据平台垃圾任务采集系统对Hdfs审计日志进行数据处理的方法过程具体如下：

步骤S21，大数据平台垃圾任务采集系统对经数据过滤后的弹性分布式数据集RDD进行目录类型识别，识别得到存在于弹性分布式数据集RDD中的源表目录和目标目录表并标识；

步骤S22，大数据平台垃圾任务采集系统识别大数据平台对源表目录以及对目标目录表所作的操作类型并标识；

步骤S23，大数据平台垃圾任务采集系统对识别得到的源表目录和目标目录表进行格式化处理，得到保留表名称的源表目录和目标目录表；

步骤S24，大数据平台垃圾任务采集系统对经目录表格式化处理后的源表目录和目标目录表进行操作日期格式化处理，以将大数据平台对源表目录和目标目录表的操作时间进行统一标识；

请参照图9，优选地，步骤S3中，大数据平台垃圾任务采集系统将经数据处理后的Hdfs审计日志注册为对应的临时表的方法步骤具体如下：

步骤S31，大数据平台垃圾任务采集系统根据经数据处理后的弹性分布式数据集RDD的数据架构构建临时表数据架构；

步骤S32，大数据平台垃圾任务采集系统根据所构造的临时表数据架构，将经数据处理后的弹性分布式数据集RDD注册为临时表。

请参照图10，优选地，步骤S4中，大数据平台垃圾任务采集系统对临时表中的数据进行分组聚合的具体方法包括如下步骤：

步骤S41，大数据平台垃圾任务采集系统根据表类型将临时表中的源表目录和目标目录表分为对应的数据组，并将临时表中的同一操作类型下的源表目标和/或目标目录表分为对应的数据组；

步骤S42，大数据平台垃圾任务采集系统获取大数据平台在不同的操作类型下对源表目录、和/或目标目录表的操作时间并存储；

步骤S43，大数据平台垃圾任务采集系统根据所获取的操作时间，计算大数据平台在不同的操作类型下对源表目录、和/或目标目录表的操作次数并存储；

步骤S44，大数据平台垃圾任务采集系统根据步骤S41得到的数据分组结果、步骤S42得到的操作时间获取结果和步骤S43得到的操作次数计算结果，对大数据平台对Hdfs审计日志的访问情况进行数据聚合，形成对应的分组聚合结果并存储。

本发明还提供了一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述方法实施例的操作，具体包括:

加载所述大数据平台在数据处理过程中生成的审计日志；

对所述审计日志进行数据处理，得到经数据处理后的所述审计日志；

将经数据处理后的所述审计日志注册为对应的临时表并存储；

对所述临时表中的数据进行分组聚合，得到一分组聚合结果并存储。

其中，图11示例性的展示出了计算机系统的架构，具体可以包括处理器1510，视频显示适配器1511，磁盘驱动器1512，输入/输出接口1513，网络接口1514，以及存储器1520。上述处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520之间可以通过通信总线1530进行通信连接。

其中，处理器1510可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1520可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1520可以存储用于控制计算机系统1500运行的操作系统1521，用于控制计算机系统1500的低级别操作的基本输入输出系统(B I OS)。另外，还可以存储网页浏览器1523，数据存储管理系统1524，以及图标字体处理系统1525等等。上述图标字体处理系统1525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1520中，并由处理器1510来调用执行。

输入/输出接口1513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1530包括一通路，在设备的各个组件(例如处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，与存储器1520)之间传输信息。

另外，该计算机系统1500还可以从虚拟资源对象领取条件信息数据库1541中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1510、视频显示适配器1511、磁盘驱动器1512、输入/输出接口1513、网络接口1514，存储器1520，总线1530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的大数据平台垃圾任务采集系统及方法，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种大数据平台垃圾任务采集系统，其特征在于，包括：

审计日志加载模块，用于加载所述大数据平台在数据处理过程中生成的审计日志；

数据处理模块，连接所述审计日志加载模块，用于对所述审计日志进行数据处理，得到经数据处理后的所述审计日志；

临时表注册模块，连接所述数据处理模块，用于将经数据处理后的所述审计日志注册为对应的临时表并存储；

数据存储模块，连接所述数据分组聚合模块，用于存储所述分组聚合结果；

所述审计日志加载模块具体包括：

审计日志数据过滤单元，连接所述审计日志转换单元，用于对所述弹性分布式数据集RDD进行数据过滤，得到经数据过滤后的所述弹性分布式数据集RDD并输出；

所述数据处理模块具体包括：

目录类型识别单元，用于对经数据过滤后的所述弹性分布式数据集RDD进行目录类型识别，得到存在于所述弹性分布式数据集RDD中的源表目录和目标目录表并标识；

2.如权利要求1所述的大数据平台垃圾任务采集系统，其特征在于，所述临时表注册模块具体包括：

3.如权利要求2所述的大数据平台垃圾任务采集系统，其特征在于，所述数据分组聚合模块具体包括：

4.一种大数据平台垃圾任务采集方法，通过应用如权利要求1-3任意一项的所述大数据平台垃圾任务采集系统实现，其特征在于，所述方法包括如下步骤：

步骤S1，加载所述大数据平台在数据处理过程中生成的审计日志；

步骤S2，对所述审计日志进行数据处理，得到经数据处理后的所述审计日志；

步骤S3，将经数据处理后的所述审计日志注册为对应的临时表并存储；

步骤S4，对所述临时表中的数据进行分组聚合，得到一分组聚合结果并存储；

其中，所述步骤S1包括：

步骤S11，加载所述大数据平台在数据处理过程中生成的所述Hdfs审计日志；

步骤S12，将所述Hdfs审计日志转换为弹性分布式数据集RDD；

步骤S13，对所述弹性分布式数据集RDD进行数据过滤，得到经数据过滤后的所述弹性分布式数据集RDD并输出；

所述步骤S2包括：

步骤S21，对经数据过滤后的所述弹性分布式数据集RDD进行目录类型识别，识别得到存在于所述弹性分布式数据集RDD中的源表目录和目标目录表并标识；

步骤S22，识别所述大数据平台对所述源表目录以及对所述目标目录表所作的操作类型并标识；

步骤S23，对识别得到的所述源表目录和所述目标目录表进行格式化处理，得到保留表名称的所述源表目录和所述目标目录表；

步骤S24，对经目录表格式化处理后的所述源表目录和所述目标目录表进行操作日期格式化处理，以将所述大数据平台对所述源表目录和所述目标目录表的操作时间进行统一标识。

5.如权利要求4所述的大数据平台垃圾任务采集方法，其特征在于，所述步骤S3包括：

步骤S31，根据经数据处理后的所述弹性分布式数据集RDD的数据架构构建临时表数据架构；

步骤S32，根据所构造的所述临时表数据架构，将经数据处理后的所述弹性分布式数据集RDD注册为临时表。

6.如权利要求5所述的大数据平台垃圾任务采集方法，其特征在于，所述步骤S4包括：

步骤S41，根据表类型将所述临时表中的所述源表目录和所述目标目录表分为对应的数据组，并将所述临时表中的同一所述操作类型下的所述源表目标和/或所述目标目录表分为对应的数据组；

步骤S42，获取所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作时间并存储；

步骤S43，根据所获取的所述操作时间，计算所述大数据平台在不同的所述操作类型下对所述源表目录、和/或所述目标目录表的操作次数并存储；

步骤S44，根据所述步骤S41得到的数据分组结果、所述步骤S42得到的操作时间获取结果和所述步骤S43得到的操作次数计算结果，对所述大数据平台对所述Hdfs审计日志的访问情况进行数据聚合，形成对应的所述分组聚合结果并存储。

7.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求4-6任意一项所述的方法。