CN112732662A

CN112732662A - 一种NiFi同步数据量统计方法

Info

Publication number: CN112732662A
Application number: CN202110001764.2A
Authority: CN
Inventors: 翟建峰; 胡清; 李国涛
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-30
Anticipated expiration: 2041-01-04
Also published as: CN112732662B

Abstract

本发明特别涉及一种NiFi同步数据量统计方法。该NiFi同步数据量统计方法，基于NiFi数据文件批次标识，数据文件编码以及数据文件数据量标识属性实现对同步数量的统计。该NiFi同步数据量统计方法，不仅能够在使用NiFi进行大数据量数据同步操作时对同步数据量进行统计，而且易于实现，开发成本低，灵活多样，具有很高的可扩展性，具有广泛的适用场景，适于推广应用。

Description

一种NiFi同步数据量统计方法

技术领域

本发明涉及数据统计技术领域，特别涉及一种NiFi同步数据量统计方法。

背景技术

现代社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。大数据是如此重要，以至于其数据采集、储存、搜索、共享、分析，乃至可视化地呈现，都成为了当前重要的研究课题，而数据采集是一切大数据应用的开始和前提。

在很多项目开发和实施过程中，客户与研发人员开始往往更关注数据的治理、挖掘与分析应用等，但在随着项目的实施，技术人员发现数据采集才是最大的难点和最耗时耗力的工作。能够及时、快速、准确、完整的将外部数据抽取到大数据平台是很多开发人员面临的难题。

基于此，本发明提出了一种NiFi同步数据量统计方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的NiFi同步数据量统计方法。

本发明是通过如下技术方案实现的：

一种NiFi同步数据量统计方法，其特征在于：基于NiFi数据文件批次标识，数据文件编码以及数据文件数据量标识属性实现对同步数量的统计；

具体包括以下步骤：

第一步，生成NiFi数据文件批次标识；

第二步，对数据文件进行编码，并生成数据文件数据量标识属性；

第三步，将数据文件进行分块处理

当数据进入到NiFi集群后存在数据处理场景(比如过滤空值，行列拆分等)时，在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件；

第四步，将数据文件进行重新排序；

第五步，数据入库

根据数据类型和目标库不同，选用不同的数据加载组件，对数据进行加载；

第六步，数据完整性判断及数据量统计

判断同一批次的所有数据文件是否全部接收完毕，若全部接收完毕，则统计数据该批次同步数据文件的数量。

所述第一步中，通过StartFlow(起始流动节点)组件来生成NiFi数据文件批次标识；所述NiFi数据文件批次标识对应的数据文件属性为flowFlag(流动标志)，相同的批次标识对应同一个批次的NiFi数据文件。

所述第二步中，具体获取数据的组件对每个批次的所有数据文件都进行编码，并将每个数据文件都增加current.index和next.index属性，从而生成数据文件序号标识，用于标识数据文件的顺序，以便在多线程并发处理后重新排序。

所述第二步中，根据数据的类别不同添加不同的属性，生成所述数据文件数据量标识属性，用于标识数据文件中数据的量。

数据量结构化数据添加resultCount属性，二进制数据，如文件，则添加file.size属性。

所述第三步中，在数据文件中增加拆分序号标识FragmentNumber(分块序号)和NextFragmentNumber(下一个分块序号)，并更新数据文件FlowFile(数据文件)的数据量标识属性resultCount。

数据文件经过并发处理或者进行分块之后，数据文件FlowFile顺序会有变动，所述第四步中，针对对数据顺序敏感的增量数据流程，需要将乱序的FlowFile数据文件根据数据文件序号标识和分块标识值进行重新排序。

所述第六步中，使用BitMap(位映射)方式存储同一批次数据文件所有接收到的FlowFile Index(数据文件顺序索引)和Fragment(分块)相关属性值；

根据同一批次数据文件的flowFlag标识值，判断该批次的所有数据文件是否全部接收完毕；

若全部接收完毕，则利用EndFlow(流动末端节点)组件统计数据该批次同步数据文件的数量。

本发明的有益效果是：该NiFi同步数据量统计方法，不仅能够在使用NiFi进行大数据量数据同步操作时对同步数据量进行统计，而且易于实现，开发成本低，灵活多样，具有很高的可扩展性，具有广泛的适用场景，适于推广应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明StartFlow组件配置示意图。

附图2为本发明数据文件属性flowFlag示意图。

附图3为本发明数据文件序号标识属性示意图。

附图4为本发明数据文件数据量标识属性示意图。

附图5为本发明数据文件分块顺序标识属性示意图。

附图6为本发明数据文件重排序组件配置示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚，完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

当前，在数据采集、同步过程中，存在各种问题。比如由于数据量大，数据会被分成多个批次进行采集和同步，每个批次同步结果如何，数据量有多少都需要单独统计。此外，对于同一个批次，可能会因为业务需要对数据进行进一步分块细分，同一个批次的不同分块数据是否全部同步成功，以及同步的数据量的总数为多少等等，这些问题都是必须要考虑和解决的。

该NiFi同步数据量统计方法，基于NiFi数据文件批次标识，数据文件编码以及数据文件数据量标识属性实现对同步数量的统计；

具体包括以下步骤：

第一步，生成NiFi数据文件批次标识；

第三步，将数据文件进行分块处理

第四步，将数据文件进行重新排序；

第五步，数据入库

第六步，数据完整性判断及数据量统计

所述第三步中，在数据文件中增加拆分序号标识FragmentNumber(分块序号)和NextFragmentNumber(下一个分块序号)，并更新数据文件FlowFile(数据文件)的数据量标识属性resultCount(结果计数)。

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种NiFi同步数据量统计方法，其特征在于：基于NiFi数据文件批次标识，数据文件编码以及数据文件数据量标识属性实现对同步数量的统计；

具体包括以下步骤：

第一步，生成NiFi数据文件批次标识；

第三步，将数据文件进行分块处理

当数据进入到NiFi集群后存在数据处理场景时，在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件；

第四步，将数据文件进行重新排序；

第五步，数据入库

第六步，数据完整性判断及数据量统计

2.根据权利要求1所述的NiFi同步数据量统计方法，其特征在于：所述第一步中，通过StartFlow组件来生成NiFi数据文件批次标识；所述NiFi数据文件批次标识对应的数据文件属性为flowFlag，相同的批次标识对应同一个批次的NiFi数据文件。

3.根据权利要求1所述的NiFi同步数据量统计方法，其特征在于：所述第二步中，具体获取数据的组件对每个批次的所有数据文件都进行编码，并将每个数据文件都增加current.index和next.index属性，从而生成数据文件序号标识，用于标识数据文件的顺序，以便在多线程并发处理后重新排序。

4.根据权利要求3所述的NiFi同步数据量统计方法，其特征在于：所述第二步中，根据数据的类别不同添加不同的属性，生成所述数据文件数据量标识属性，用于标识数据文件中数据的量。

5.根据权利要求4所述的NiFi同步数据量统计方法，其特征在于：数据量结构化数据添加resultCount属性，二进制数据则添加file.size属性。

6.根据权利要求1所述的NiFi同步数据量统计方法，其特征在于：所述第三步中，在数据文件中增加拆分序号标识FragmentNumber和NextFragmentNumber，并更新数据文件FlowFile的数据量标识属性resultCount。

7.根据权利要求1所述的NiFi同步数据量统计方法，其特征在于：数据文件经过并发处理或者进行分块之后，数据文件FlowFile顺序会有变动，所述第四步中，针对对数据顺序敏感的增量数据流程，需要将乱序的FlowFile数据文件根据数据文件序号标识和分块标识值进行重新排序。

8.根据权利要求1～7任意一项所述的NiFi同步数据量统计方法，其特征在于：所述第六步中，使用BitMap方式存储同一批次数据文件所有接收到的FlowFile Index和Fragment相关属性值；根据同一批次数据文件的flowFlag标识值，判断该批次的所有数据文件是否全部接收完毕；若全部接收完毕，则利用EndFlow组件统计数据该批次同步数据文件的数量。