CN111078769A

CN111078769A - 一种元数据的抓取方法和系统

Info

Publication number: CN111078769A
Application number: CN201911173916.6A
Authority: CN
Inventors: 袁洪军; 桑强; 赵云
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-04-28

Abstract

本发明实施例公开了一种元数据的抓取方法和系统，所述方法包括以下步骤：先通过连接到Hive平台执行元数据生成操作，通过实时抓取方案和非实时抓取方案分别对不同类型的元数据进行处理；将处理完成的元数据通过数据抓取系统导入到Mysql数据库中，对抓取后的所述元数据进行调配。通过两条不同的方案对元数据的抓取，弥补了当前市面上对元数据信息抓取方案的不足，而且自动化程度高，操作方便简易，大大节省了人力，物力，财力成本。所述系统不仅增加了自己独有的权限控制和界面的友好展示，能够完成对数据的分析、统计和计算，其结果对业务的发展趋势有一定的数据预测和指导作用，能对上层决策或者其他系统提供数据支撑和服务。

Description

一种元数据的抓取方法和系统

技术领域

本发明涉及大数据领域，具体涉及一种元数据的抓取方法和系统。

背景技术

对于大数据的利用，不同的企业采用了不同的手段，目前市场上对于Hive元数据的信息应用主要有如下方式：有些企业对于Hive数据库中的元数据并不关心，也不利用；还有些企业直接读取hive_metastore数据库中的信息；第三种对于元数据的直接采用人工手动维护。

但是，第一种方式无疑会造成物力和财力的极大浪费，因为不知道目前有多少元数据信息，也不知道这些数据的增长速率，以及什么时候需要进行机器磁盘的扩展和升级，只有等到机器自身报错才能感知，无法做到提前预测和规划，不利于企业未来的发展。第二种直接读取的方式虽然解决了第一种方式的痛点，对数据进行了简单的管理，但由于hive_metastore数据库中的数据对于真实的人来说较为晦涩难懂，在维护过程中稍有不慎，就可能使得最终结果大相径庭，这在无形中就提高了维护的成本，对维护人员的技术能力有很大的要求和考验。第三种人工维护的方式在递增数据量少，操作流程规范且严谨的情况下对元数据的管理较好，但此方法需要在一开始就已经明确元数据的地位并作出合理的规划，且递增数据量比较稳定，不会出现或者连续出现较大的增幅。由此可以看出，此方法不适合每日数据量激增的互联网公司。如何对于元数据进行更好的、更符合业务逻辑的使用需要进一步的技术创新。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种元数据的抓取方法和系统，能够很大程度上减少物力财力人力等资源投入的同时，更好的、更符合业务逻辑的使用元数据。

为解决上述技术问题，本发明采用的技术方案是：

第一方面，本发明实施例提供了一种元数据的抓取方法，包括以下步骤：

连接到Hive平台执行元数据生成操作，通过实时抓取方案和非实时抓取方案分别对不同类型的元数据进行处理；

将处理完成的元数据通过数据抓取系统导入到Mysql数据库中，对抓取后的所述元数据进行调配。

进一步的，所述实时抓取方案对所述元数据的处理包括以下步骤：

通过Hook埋点确定所述不同类型的元数据的操作方式；

根据所述操作方式对所述元数据的进行封装，将封装完成的所述元数据推送到实时操作Kafka平台进行解耦。

进一步的，所述非实时抓取方案对所述元数据的处理包括以下步骤：

对所述Hive平台中既有数据或者所述实时抓取方案中抓取失败的所述元数据进行定时扫描；

根据待抓取的所述元数据的时间戳或者Schema信息确定抓取范围，将符合非实时抓取要求的所述元数据进行封装。

进一步的，所述不同类型的元数据至少包括：库、表、分区、字段和权限，所述操作方式至少包括建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限。

进一步的，对封装完成的所述元数据推送到实时操作Kafka平台时，当推送失败后，进行所述元数据的失败日志记录和重新推送，并设置重新推送失败的报警阈值。

另一方面，本发明实施例还提供了一种元数据的抓取系统，包括：

数据生成模块，用于连接到Hive平台执行元数据生成操作；

数据抓取调配模块，用于通过实时抓取方案和非实时抓取方案分别对不同类型的元数据进行处理，再将处理完成的元数据导入到Mysql数据库中，对抓取后的所述元数据进行调配。

进一步的，所述数据抓取调配模块包括有实时抓取单元，用于通过Hook埋点确定所述不同类型的元数据的操作方式；

进一步的，所述数据抓取调配模块还包括有非实时抓取单元，用于对所述Hive平台中既有数据或者所述实时抓取方案中抓取失败的所述元数据进行定时扫描；

进一步的，所述实时抓取单元对封装完成的所述元数据推送到实时操作Kafka平台时，当推送失败后，进行所述元数据的失败日志记录和重新推送，并设置重新推送失败的报警阈值。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例公开的元数据的抓取方法和系统，其中，在对元数据的抓取过程中，先通过连接到Hive平台执行元数据生成操作，通过实时抓取方案和非实时抓取方案分别对不同类型的元数据进行处理；将处理完成的元数据通过数据抓取系统导入到Mysql数据库中，对抓取后的所述元数据进行调配。通过两条不同的方案对元数据的抓取，弥补了当前市面上对元数据信息抓取方案的不足，而且自动化程度高，操作方便简易，大大节省了人力，物力，财力成本。本发明实施例公开元数据的抓取系统，不仅增加了自己独有的权限控制和界面的友好展示，而且能够完成对数据的分析、统计和计算，其结果对业务的发展趋势有一定的数据预测和指导作用，能对上层决策或者其他系统提供数据支撑和服务。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的元数据的抓取方法的流程图；

图2是本发明实施例公开的元数据的实时抓取过程中的逻辑示意图；

图3是本发明实施例公开的元数据的非实时抓取过程中的逻辑示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，本实施例提供了一种元数据的抓取方法，包括以下步骤：

S1：连接到Hive平台执行元数据生成操作，通过实时抓取方案和非实时抓取方案分别对不同类型的元数据进行处理；

S2：将处理完成的元数据通过数据抓取系统导入到Mysql数据库中，对抓取后的所述元数据进行调配。

优选地，通过两条不同的方案对元数据的抓取，弥补了当前市面上对元数据信息抓取方案的不足，而且自动化程度高，操作方便简易，大大节省了人力，物力，财力成本。本实施例公开元数据的抓取方法，不仅增加了自己独有的权限控制和界面的友好展示，而且能够完成对数据的分析、统计和计算，其结果对业务的发展趋势有一定的数据预测和指导作用，能对上层决策或者其他系统提供数据支撑和服务。

优选地，所述实时抓取方案对所述元数据的处理包括以下步骤：

通过Hook埋点确定所述不同类型的元数据的操作方式；根据所述操作方式对所述元数据的进行封装，将封装完成的所述元数据推送到实时操作Kafka平台进行解耦。通过Hook埋点可以对元数据的操作方式加以识别和，提高后续的抓取效率。

优选地，所述不同类型的元数据至少包括：库、表、分区、字段和权限，所述操作方式至少包括建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限。进一步的，对封装完成的所述元数据推送到实时操作Kafka平台时，当推送失败后，进行所述元数据的失败日志记录和重新推送，并设置重新推送失败的报警阈值。其中实时操作Kafka平台作为中间的媒介，对于大流量的元数据抓取过程中减小了堵塞的几率，同时通过实时操作Kafka平台的解耦，方便将元数据实时交互到Mysql数据库中。

具体地，如图2所示，在对元数据进行实时抓取过程中，实时抓取方案使用到的是Hive Hook技术，通过在Hive源码中的埋点来是实现数据的抓取。通过以下具体的步骤来进一步介绍非实时抓取过程：

步骤S101：用户通过任意一种方式连接到Hive，并执行Hive操作。该步骤的操作主要包含建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限等。

步骤S102：在步骤S101之前通过Hook埋点，获取到操作方式，并对操作的结果进行封装处理。比如对表信息的封装，表信息中不仅包含表名，库名，字段名，还包含表的序列化方式，创建时间，修改时间以及存储类型，所属系统等信息，这些信息封装完成后方可。

步骤S103：将封装完成后的数据推送到实时操作Kafka平台，等待消费。推送kafka步骤时不影响Hive自身功能，即如果推送到实时操作Kafka平台失败，表依然可以创建成功，随后做日志记录和重推操作，重推N次(可定制)后依然不成功告警通知。

步骤S201：抓取系统监测获取实时操作Kafka平台的数据并处理。为了防止实时操作Kafka平台的阻塞，抓取系统会将实时操作Kafka平台信息获取并缓存到Mysql数据库中，此时标记实时操作Kafka平台消费成功，然后在对数据进行处理，处理完成后删除Mysql数据库中的数据，当处理失败时，进行尝试，N次后告警，可以手动拉起再次处理，也可以定时统一处理。

优选地，所述非实时抓取方案对所述元数据的处理包括以下步骤：

对所述Hive平台中既有数据或者所述实时抓取方案中抓取失败的所述元数据进行定时扫描；根据待抓取的所述元数据的时间戳或者Schema信息确定抓取范围，将符合非实时抓取要求的所述元数据进行封装。

如图3所示，非实时抓取方案主要是通过定时扫描的方式增量(或全量或单表)抓取Hive_metastore中的数据并对其进行封装处理，主要解决如下两类问题：1、已经上线使用了很久的大数据功能，但以前一直没有很好的管理hive元数据，亟需管理；2、在实时抓取过程中可能出现数的据遗漏问题(在推送实时操作Kafka平台时就失败)或对实时抓取的数据做一次校验操作。具体来说通过非实时抓取方案进行的抓取过程可以分为两个步骤，首先，通过时间戳或表的schema信息判断抓取范围；通过设置的时间戳(可为-1，表示全量)或表的schema信息以及分批数量到hive_metastore中查找符合要求的元数据信息并进行数据的拼装。

然后，对拼装的数据进行入库操作，在数据入库的同时，可能会遇到实时抓取过程也在推送数据，因此采用的插入或者更新的方式导入到Mysql数据库，若遇到某一批次数据抓取失败，则整个程序异常退出并告警提示，若数据正确导入Mysql数据库，则更新该批次中最大的时间戳入库，以便下次抓取时使用。

实施例二：

本实施例提供了一种元数据的抓取系统，包括：

数据生成模块，用于连接到Hive平台执行元数据生成操作；

优选地，通过数据生成模块和数据抓取调配模块完成对元数据的抓取过程，弥补了当前市面上对元数据信息抓取方案的不足，而且所述系统自动化程度高，操作方便简易，大大节省了人力，物力，财力成本。本实施例公开元数据的抓取系统，不仅增加了自己独有的权限控制和界面的友好展示，而且能够完成对数据的分析、统计和计算，其结果对业务的发展趋势有一定的数据预测和指导作用，能对上层决策或者其他系统提供数据支撑和服务。

优选地，所述数据抓取调配模块包括有实时抓取单元，用于通过Hook埋点确定所述不同类型的元数据的操作方式；根据所述操作方式对所述元数据的进行封装，将封装完成的所述元数据推送到实时操作Kafka平台进行解耦。进一步的，所述不同类型的元数据至少包括：库、表、分区、字段和权限，所述操作方式至少包括建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限。

优选地，所述实时抓取单元对封装完成的所述元数据推送到实时操作Kafka平台时，当推送失败后，进行所述元数据的失败日志记录和重新推送，并设置重新推送失败的报警阈值。其中实时操作Kafka平台作为中间的媒介，对于大流量的元数据抓取过程中减小了堵塞的几率，同时通过实时操作Kafka平台的解耦，方便将元数据实时交互到Mysql数据库中。

具体的，通过实时抓取单元对元数据的抓取分为以下几步，首先用户通过任意一种方式连接到Hive，并执行Hive操作。该步骤的操作主要包含建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限等；然后通过获取元数据的操作方式，并对操作的结果进行封装处理。比如对表信息的封装，表信息中不仅包含表名，库名，字段名，还包含表的序列化方式，创建时间，修改时间以及存储类型，所属系统等信息，这些信息封装完成后方可。在数据抓取调配模块的处理过程中，将封装完成后的数据推送到实时操作Kafka平台，等待消费。推送kafka步骤时不影响Hive自身功能，即如果推送到实时操作Kafka平台失败，表依然可以创建成功，随后做日志记录和重推操作，重推N次(可定制)后依然不成功告警通知，最后，抓取系统监测获取实时操作Kafka平台的数据并处理。为了防止实时操作Kafka平台的阻塞，抓取系统会将实时操作Kafka平台信息获取并缓存到Mysql数据库中，此时标记实时操作Kafka平台消费成功，然后在对数据进行处理，处理完成后删除Mysql数据库中的数据，当处理失败时，进行尝试，N次后告警，可以手动拉起再次处理，也可以定时统一处理，进而完成一次实时元数据的抓取过程。

优选地，所述数据抓取调配模块还包括有非实时抓取单元，用于对所述Hive平台中既有数据或者所述实时抓取方案中抓取失败的所述元数据进行定时扫描；根据待抓取的所述元数据的时间戳或者Schema信息确定抓取范围，将符合非实时抓取要求的所述元数据进行封装。通过非实时抓取单元主要解决如下两类问题：1、已经上线使用了很久的大数据功能，但以前一直没有很好的管理hive元数据，亟需管理；2、在实时抓取过程中可能出现数的据遗漏问题(在推送实时操作Kafka平台时就失败)或对实时抓取的数据做一次校验操作。具体来说通过非实时抓取方案进行的抓取过程可以分为两个步骤，首先，通过时间戳或表的schema信息判断抓取范围；通过设置的时间戳(可为-1，表示全量)或表的schema信息以及分批数量到hive_metastore中查找符合要求的元数据信息并进行数据的拼装。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的元数据的抓取系统在抓取元数据的过程时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将元数据的抓取系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的元数据的抓取系统与元数据的抓取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种元数据的抓取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的元数据的抓取方法，其特征在于，所述实时抓取方案对所述元数据的处理包括以下步骤：

通过Hook埋点确定所述不同类型的元数据的操作方式；

3.根据权利要求1所述的元数据的抓取方法，其特征在于，所述非实时抓取方案对所述元数据的处理包括以下步骤：

4.根据权利要求2所述的元数据的抓取方法，其特征在于，所述不同类型的元数据至少包括：库、表、分区、字段和权限，所述操作方式至少包括建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限。

5.根据权利要求2所述的元数据的抓取方法，其特征在于，对封装完成的所述元数据推送到实时操作Kafka平台时，当推送失败后，进行所述元数据的失败日志记录和重新推送，并设置重新推送失败的报警阈值。

6.一种元数据的抓取系统，其特征在于，包括：

数据生成模块，用于连接到Hive平台执行元数据生成操作；

7.根据权利要求6所述的元数据的抓取系统，其特征在于，所述数据抓取调配模块包括有实时抓取单元，用于通过Hook埋点确定所述不同类型的元数据的操作方式；

8.根据权利要求6所述的元数据的抓取系统，其特征在于，所述数据抓取调配模块还包括有非实时抓取单元，用于对所述Hive平台中既有数据或者所述实时抓取方案中抓取失败的所述元数据进行定时扫描；

9.根据权利要求7所述的元数据的抓取系统，其特征在于，所述不同类型的元数据至少包括：库、表、分区、字段和权限，所述操作方式至少包括建库，建表，删库，删表，修改表名，修改字段，新增分区，删除分区，更新分区，重命名分区，新增表权限，新增库权限，删除表权限，删除字段权限。

10.根据权利要求7所述的元数据的抓取系统，其特征在于，所述实时抓取单元对封装完成的所述元数据推送到实时操作Kafka平台时，当推送失败后，进行所述元数据的失败日志记录和重新推送，并设置重新推送失败的报警阈值。