CN112632133A

CN112632133A - 一种数据链路查询方法及装置

Info

Publication number: CN112632133A
Application number: CN202011637254.6A
Authority: CN
Inventors: 常青; 冯建
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-09
Anticipated expiration: 2040-12-31
Also published as: CN112632133B

Abstract

本发明提供一种数据链路查询方法及装置，包括：获取N层信息，N为大于1的正整数，每一层信息的数量为多个；根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将N层信息拼接在一起，形成数据模型；在数据模型中输入检索信息，并从数据模型中查询检索信息的数据链路信息。这样，通过同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系将N层信息拼接在一起，形成能够展示数据信息的全貌的数据模型。而后，在数据模型中能够获得检索信息的上层数据信息以及下层数据信息，从而获得检索信息的整个流动关系，全面展示检索信息的流动关系，为数据开发、分析等提供参考依据。

Description

一种数据链路查询方法及装置

技术领域

本发明涉及大数据技术领域，特别涉及一种数据链路查询方法及装置。

背景技术

随着大数据技术的发展，数据平台处理数据内容繁多，数据类型多样，目前缺乏能够分析和展示数据流动关系全貌的方法，如模型设计时不了解现有的数据覆盖范围是否已足够，数据分析时无法直观了解数据的加工脉落等，从而给数据开发、分析、运维各个环节带来一些困难。

发明内容

有鉴于此，本发明的目的在于提供一种数据链路查询方法及装置，以展示数据流动关系的全貌。

为实现上述目的，本发明有如下技术方案：

一种数据链路查询方法，包括：获取N层信息，所述N为大于1的正整数，每一层信息的数量为多个；

根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将所述N层信息拼接在一起，形成数据模型；

在所述数据模型中输入检索信息，并从所述数据模型中查询所述检索信息的数据链路信息。

可选的，所述N为3，所述获取N层信息，包括：

获取第一层信息，所述第一层包括数据交换平台、预处理平台、大数据平台主库以及数据集市；所述数据交换平台包括第一交换和第二交换；所述预处理平台包括Hadoop数据、数据加载、创建索引、预处理、输出索引以及文件生成；所述大数据平台主库包括基础数据层、共性加工层以及接口层；所述数据集市包括：操作数据层、基础数据层、缓冲层、中间层以及应用层；

将所述第一交换和第二交换，所述Hadoop数据、数据加载、创建索引、预处理、输出索引、CTL生成，所述基础数据层、共性加工层以及接口层以及所述操作数据层、基础数据层、缓冲层、中间层、应用层作为第二层信息；所述第二层信息包括文件和/或作业；

将所述文件和/或作业作为第三层信息。

可选的，所述作业包括：起始作业、任意作业和末尾作业，所述起始作业和所述任意作业具有对应关系，所述末尾作业和所述任意作业具有对应关系；

当所述文件和作业作为第三层信息时，建立所述文件和作业的第一对应关系包括：

建立第一文件和所述起始作业的对应关系以及第二文件和所述末尾作业的对应关系；

所述建立第一文件和所述起始作业的对应关系包括：

从所述第一文件中提取信息，所述信息包括文件系统名、文件表名、省市代码以及增全量标志；

根据所述省市代码以及增全量标志验证配置文件是否匹配；

若匹配，则根据所述配置文件将所述文件系统名转换为Hadoop系统名，将文件表名转换为Hadoop表名；

将所述Hadoop系统名以及Hadoop表名拼接形成调度参数；

利用所述调度参数以及Hadoop操作数据层应用、操作数据层节点，确定所述起始作业；

建立第二文件和所述末尾作业的对应关系包括：

从所述第二文件中提取导出语句，将所述导出语句转换为脚本名称参数，根据所述脚本名称参数确定所述末尾作业。

可选的，所述在所述数据模型中输入检索信息，并从所述数据模型中查询所述检索信息的数据链路信息，包括：

向所述任意作业输入检索信息，根据所述任意作业与所述起始作业的对应关系获取所述检索信息对应的起始作业，根据所述任意作业与末尾作业的对应关系获取所述检索信息对应的末尾作业；

从所述起始作业中抽取信息，所述信息包括：调度参数、应用名称以及节点名称；

通过所述应用名称和所述节点名称验证配置文件是否匹配；

若匹配，则将所述调度参数拆分为Hadoop系统名和Hadoop表名，并根据所述配置文件将Hadoop系统名转换为文件系统名，将Hadoop表名转换为文件表名；

根据所述文件系统名和所述文件表名确定所述起始作业对应的第一文件；

从所述末尾作业获取脚本名称参数，将所述脚本名称参数转换为导出语句，根据所述导出语句确定所述第二文件。

可选的，所述增全量标志为增量标志或全量标志；

还包括：

当所述增全量标志为增强标志时，按照预设周期将增量变化数据发送至元数据管理系统；

当所述增全量标志为全量标志时，按照所述预设周期将全量配置文件数据发送至所述元数据管理系统。

一种数据链路查询装置，包括：

获取单元，用于获取N层信息，所述N为大于1的正整数，每一层信息的数量为多个；

拼接单元，用于根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将所述N层信息拼接在一起，形成数据模型；

查询单元，用于在所述数据模型中输入检索信息，并从所述数据模型中查询所述检索信息的数据链路信息。

可选的，所述N为3，所述获取单元具体用于，

将所述文件和/或作业作为第三层信息。

当所述文件和作业作为第三层信息时，还包括：建立单元，用于建立第一文件和所述起始作业的对应关系以及第二文件和所述末尾作业的对应关系；

所述建立单元具体用于，

根据所述省市代码以及增全量标志验证配置文件是否匹配；

将所述Hadoop系统名以及Hadoop表名拼接形成调度参数；

可选的，所述查询单元具体用于，

通过所述应用名称和所述节点名称验证配置文件是否匹配；

可选的，所述增全量标志为增量标志或全量标志；

还包括：

发送单元，用于当所述增全量标志为增强标志时，按照预设周期将增量变化数据发送至元数据管理系统；

本发明实施例提供的一种数据链路查询方法，包括：获取N层信息，N为大于1的正整数，每一层信息的数量为多个；根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将N层信息拼接在一起，形成数据模型；在数据模型中输入检索信息，并从数据模型中查询检索信息的数据链路信息。这样，通过同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系将N层信息拼接在一起，形成能够展示数据信息的全貌的数据模型。而后，在数据模型中能够获得检索信息的上层数据信息以及下层数据信息，从而获得检索信息的整个流动关系，全面展示检索信息的流动关系，为数据开发、分析等提供参考依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明实施例一种数据链路查询方法的流程示意图；

图2示出了根据本发明实施例一种数据链路查询装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

正如背景技术的描述，随着大数据技术的发展，数据平台处理数据内容繁多，数据类型多样，目前缺乏能够分析和展示数据流动关系全貌的方法，如模型设计时不了解现有的数据覆盖范围是否已足够，数据分析时无法直观了解数据的加工脉落等，从而给数据开发、分析、运维各个环节带来一些困难。

为此，本申请实施例提供一种数据链路查询方法，包括：获取N层信息，N为大于1的正整数，每一层信息的数量为多个；根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将N层信息拼接在一起，形成数据模型；在数据模型中输入检索信息，并从数据模型中查询检索信息的数据链路信息。这样，通过同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系将N层信息拼接在一起，形成能够展示数据信息的全貌的数据模型。而后，在数据模型中能够获得检索信息的上层数据信息以及下层数据信息，从而获得检索信息的整个流动关系，全面展示检索信息的流动关系，为数据开发、分析等提供参考依据。

为了便于理解本申请的技术方案和技术效果，以下将结合附图对具体的实施例进行详细的说明。

参考图1所示，在步骤S01中，获取N层信息，所述N为大于1的正整数，每一层信息的数量为多个。

本实施例中，获取N层信息，N的数量例如为3。首先，获取第一层信息，第一层包括数据交换平台、预处理平台、大数据平台主库以及数据集市，第一层涉及系统层面，展示数据链路最远延伸的范围。数据交换平台包括第一交换和第二交换；预处理平台包括Hadoop数据、数据加载、创建索引、预处理、输出索引以及文件生成；大数据平台主库包括基础数据层(Basic Data Store，BDS)、共性加工层(General Data Section，GDS)以及接口层。基础数据层基于事实与维度建模方法，按客户、产品、合约、存款、贷款等业务主题对数据进行拼接与整合，形成企业级的统一数据视图；同时保留详细的历史数据，用于支持各类整合型的分析型应用。共性加工数据层由基础数据区数据进行预关联、预汇总和预加工形成标准统一、口径一致、可复用的公共数据，兼顾业务需求和数据处理性能，有多种数据粒度和数据保留周期。数据集市包括：操作数据层、基础数据层、缓冲层、中间层以及应用层；将第一交换和第二交换，Hadoop数据、数据加载、创建索引、预处理、输出索引、CTL生成，基础数据层、共性加工层以及接口层以及操作数据层、基础数据层、缓冲层、中间层、应用层作为第二层信息。第二层涉及系统分层，为广泛认可的处理层次。第二层信息包括文件和/或作业(脚本)，将文件和/或作业作为第三层信息，文件对名称、来源系统、增全量进行说明，作业对应用、作业链、执行频度进行说明。还可以包括第四层，第四层包括文件转发以及脚本加工逻辑，文件转发对到达时间、发出时间、目的地、转发通道进行描述，脚本加工逻辑根据步骤对输入表、输出表、用时等信息进行描述。

具体的，数据集市例如为对公客户数据集市、分行数据集市、审计内控数据集市、风险管理数据集市、运营数据集市。对公客户数据集市包括缓冲层、中间层以及应用层，缓冲层对应的作业链为DMS_CDM/CDM_HCC，中间层对应的作业链为CDM_XXX_ZJC，应用层对应的作业链为DMS_CDM/CDM_YYC。分行数据集市包括ODS(Operation Data Store，操作数据层)、基础数据层、缓冲层、应用层。操作数据层尽量保持业务数据原貌，保留源系统的原始和历史数据，操作数据层层保存时间相对较短的历史数据，能够方便且快速地支持需要按源系统数据结构进行数据加工的分析型应用。操作数据层对应的作业链为DMS_BDM_ODS，基础数据层对应的作业链为DMS_BDM_BDS，缓冲层对应的作业链为DMS_BDM_CACHE，中间层对应的作业链为DMS_BDM_MD，应用层对应的作业链为DMS_BDMHUN，DMS_BDMJS，DMS_BDMSD。审计内控数据集市包括缓冲层、中间层以及应用层，缓冲层对应的作业链为DMS_ACDM/ACDM_HCC_XXX，中间层对应的作业链为DMS_ACDM/ACDM_ZJC_XXX，应用层对应的作业链为DMS_ACDM/ACDM_YYC_XXX。风险管理数据集市包括缓冲层、中间层以及应用层，缓冲层对应的作业链为DMS_EADM_CACHE，中间层对应的作业链为DMS_EADM_MD，应用层对应的作业链为DMS_EADM_AP。运营数据集市包括BDS、中间层、应用层，BDS对应的作业链为ORDM_BDS，中间层对应的作业链为ORDM_GDS，应用层对应的作业链为ORDM_OUT。个人客户关系管理数据集市包括缓冲层、中间层以及应用层，缓冲层对应的作业链为DMS_PDM_CACHE，中间层对应的作业链为DMS_PDM_MD，应用层对应的作业链为DMS_PDM_AP。

在步骤S02中，根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将所述N层信息拼接在一起，形成数据模型。

同一层的信息之间具有第一对应关系，不同层的信息之间具有第二对应关系，根据第一对应关系以及第二对应关系将多层信息拼接在一起，形成数据模型。数据模型能够展示数据流动关系的全貌，覆盖文件、作业、脚本、物理表的部分内容。

本实施例中，作业包括：起始作业、任意作业和末尾作业，起始作业和任意作业具有对应关系，末尾作业和任意作业具有对应关系，因而根据任意作业可以获得对应的起始作业和末尾作业。当文件和作业作为第三层信息时，建立文件和作业的第一对应关系包括：建立第一文件和起始作业的对应关系以及第二文件和末尾作业的对应关系。具体的，建立第一文件和起始作业的对应关系包括：从第一文件中提取信息，信息包括文件系统名、文件表名、省市代码以及增全量标志，而后根据省市代码以及增全量标志验证配置文件是否匹配；当配置文件匹配时，根据配置文件将文件系统名转换为Hadoop系统名，将文件表名转换为Hadoop表名，将Hadoop系统名以及Hadoop表名拼接形成调度参数，利用调度参数以及Hadoop操作数据层应用、操作数据层节点，确定起始作业。建立第二文件和末尾作业的对应关系具体为，从第二文件中提取导出语句，将导出语句转换为脚本名称参数，根据脚本名称参数确定末尾作业。

在步骤S03中，在所述数据模型中输入检索信息，并从所述数据模型中查询所述检索信息的数据链路信息。

在数据模型中输入检索信息，由于数据模型展示数据流动的全貌，从而能够从数据模型中获取检索信息的上游数据信息以及下游数据信息，从而获得检索信息的整个链路流动。

本实施例中，向任意作业输入检索信息，根据任意作业与起始作业的对应关系获取检索信息对应的起始作业，根据任意作业与末尾作业的对应关系获取检索信息对应的末尾作业。而后，从起始作业中抽取信息，信息包括：调度参数、应用名称以及节点名称，通过应用名称和节点名称验证配置文件是否匹配，当配置文件匹配时，将调度参数拆分为Hadoop系统名和Hadoop表名，并根据配置文件将Hadoop系统名转换为文件系统名，将Hadoop表名转换为文件表名，从而根据文件系统名和文件表名确定起始作业对应的第一文件。而后，从末尾作业获取脚本名称参数，将脚本名称参数转换为导出语句，根据导出语句确定所述第二文件。还可以从导出语句中提取系统名称以及发送目录，根据系统名称以及发送目录查询GTP转发任务，而后从GTP转发任务中获取下游系统名称。

在具体的应用中，增全量标志可以为增量标志或全量标志，当增全量标志为增强标志时，按照预设周期将增量变化数据发送至元数据管理系统；当增全量标志为全量标志时，按照所述预设周期将全量配置文件数据发送至元数据管理系统。

以上对本申请实施例提供的一种数据链路查询方法进行了详细的描述，本申请实施例还提供一种数据链路查询装置，参考图2所示，包括：

获取单元201，用于获取N层信息，所述N为大于1的正整数，每一层信息的数量为多个；

拼接单元202，用于根据同一层信息之间的第一对应关系以及不同层信息之间的第二对应关系，将所述N层信息拼接在一起，形成数据模型；

查询单元203，用于在所述数据模型中输入检索信息，并从所述数据模型中查询所述检索信息的数据链路信息。

本实施例中，所述N为3，所述获取单元201具体用于，获取第一层信息，所述第一层包括数据交换平台、预处理平台、大数据平台主库以及数据集市；所述数据交换平台包括第一交换和第二交换；所述预处理平台包括Hadoop数据、数据加载、创建索引、预处理、输出索引以及文件生成；所述大数据平台主库包括基础数据层、共性加工层以及接口层；所述数据集市包括：操作数据层、基础数据层、缓冲层、中间层以及应用层；

将所述文件和/或作业作为第三层信息。

本实施例中，所述作业包括：起始作业、任意作业和末尾作业，所述起始作业和所述任意作业具有对应关系，所述末尾作业和所述任意作业具有对应关系；

所述建立单元具体用于，从所述第一文件中提取信息，所述信息包括文件系统名、文件表名、省市代码以及增全量标志；

根据所述省市代码以及增全量标志验证配置文件是否匹配；

将所述Hadoop系统名以及Hadoop表名拼接形成调度参数；

本实施例中，所述查询单元203具体用于，向所述任意作业输入检索信息，根据所述任意作业与所述起始作业的对应关系获取所述检索信息对应的起始作业，根据所述任意作业与末尾作业的对应关系获取所述检索信息对应的末尾作业；

通过所述应用名称和所述节点名称验证配置文件是否匹配；

本实施例中，所述增全量标志为增量标志或全量标志；

还包括：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种数据链路查询方法，其特征在于，包括：

获取N层信息，所述N为大于1的正整数，每一层信息的数量为多个；

2.根据权利要求1所述的方法，其特征在于，所述N为3，所述获取N层信息，包括：

将所述文件和/或作业作为第三层信息。

3.根据权利要求2所述的方法，其特征在于，所述作业包括：起始作业、任意作业和末尾作业，所述起始作业和所述任意作业具有对应关系，所述末尾作业和所述任意作业具有对应关系；

所述建立第一文件和所述起始作业的对应关系包括：

根据所述省市代码以及增全量标志验证配置文件是否匹配；

将所述Hadoop系统名以及Hadoop表名拼接形成调度参数；

建立第二文件和所述末尾作业的对应关系包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述数据模型中输入检索信息，并从所述数据模型中查询所述检索信息的数据链路信息，包括：

通过所述应用名称和所述节点名称验证配置文件是否匹配；

5.根据权利要求2-4任意一项所述的方法，其特征在于，所述增全量标志为增量标志或全量标志；

还包括：

6.一种数据链路查询装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述N为3，所述获取单元具体用于，

将所述文件和/或作业作为第三层信息。

8.根据权利要求7所述的装置，其特征在于，所述作业包括：起始作业、任意作业和末尾作业，所述起始作业和所述任意作业具有对应关系，所述末尾作业和所述任意作业具有对应关系；

所述建立单元具体用于，

根据所述省市代码以及增全量标志验证配置文件是否匹配；

将所述Hadoop系统名以及Hadoop表名拼接形成调度参数；

9.根据权利要求8所述的装置，其特征在于，所述查询单元具体用于，

通过所述应用名称和所述节点名称验证配置文件是否匹配；

10.根据权利要求7-9任意一项所述的方法，其特征在于，所述增全量标志为增量标志或全量标志；

还包括：