CN112732662A - 一种NiFi同步数据量统计方法 - Google Patents

一种NiFi同步数据量统计方法 Download PDF

Info

Publication number
CN112732662A
CN112732662A CN202110001764.2A CN202110001764A CN112732662A CN 112732662 A CN112732662 A CN 112732662A CN 202110001764 A CN202110001764 A CN 202110001764A CN 112732662 A CN112732662 A CN 112732662A
Authority
CN
China
Prior art keywords
data
nifi
synchronous
file
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110001764.2A
Other languages
English (en)
Other versions
CN112732662B (zh
Inventor
翟建峰
胡清
李国涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110001764.2A priority Critical patent/CN112732662B/zh
Publication of CN112732662A publication Critical patent/CN112732662A/zh
Application granted granted Critical
Publication of CN112732662B publication Critical patent/CN112732662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明特别涉及一种NiFi同步数据量统计方法。该NiFi同步数据量统计方法,基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计。该NiFi同步数据量统计方法,不仅能够在使用NiFi进行大数据量数据同步操作时对同步数据量进行统计,而且易于实现,开发成本低,灵活多样,具有很高的可扩展性,具有广泛的适用场景,适于推广应用。

Description

一种NiFi同步数据量统计方法
技术领域
本发明涉及数据统计技术领域,特别涉及一种NiFi同步数据量统计方法。
背景技术
现代社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据是如此重要,以至于其数据采集、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题,而数据采集是一切大数据应用的开始和前提。
在很多项目开发和实施过程中,客户与研发人员开始往往更关注数据的治理、挖掘与分析应用等,但在随着项目的实施,技术人员发现数据采集才是最大的难点和最耗时耗力的工作。能够及时、快速、准确、完整的将外部数据抽取到大数据平台是很多开发人员面临的难题。
基于此,本发明提出了一种NiFi同步数据量统计方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的NiFi同步数据量统计方法。
本发明是通过如下技术方案实现的:
一种NiFi同步数据量统计方法,其特征在于:基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;
具体包括以下步骤:
第一步,生成NiFi数据文件批次标识;
第二步,对数据文件进行编码,并生成数据文件数据量标识属性;
第三步,将数据文件进行分块处理
当数据进入到NiFi集群后存在数据处理场景(比如过滤空值,行列拆分等)时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;
第四步,将数据文件进行重新排序;
第五步,数据入库
根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;
第六步,数据完整性判断及数据量统计
判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。
所述第一步中,通过StartFlow(起始流动节点)组件来生成NiFi数据文件批次标识;所述NiFi数据文件批次标识对应的数据文件属性为flowFlag(流动标志),相同的批次标识对应同一个批次的NiFi数据文件。
所述第二步中,具体获取数据的组件对每个批次的所有数据文件都进行编码,并将每个数据文件都增加current.index和next.index属性,从而生成数据文件序号标识,用于标识数据文件的顺序,以便在多线程并发处理后重新排序。
所述第二步中,根据数据的类别不同添加不同的属性,生成所述数据文件数据量标识属性,用于标识数据文件中数据的量。
数据量结构化数据添加resultCount属性,二进制数据,如文件,则添加file.size属性。
所述第三步中,在数据文件中增加拆分序号标识FragmentNumber(分块序号)和NextFragmentNumber(下一个分块序号),并更新数据文件FlowFile(数据文件)的数据量标识属性resultCount。
数据文件经过并发处理或者进行分块之后,数据文件FlowFile顺序会有变动,所述第四步中,针对对数据顺序敏感的增量数据流程,需要将乱序的FlowFile数据文件根据数据文件序号标识和分块标识值进行重新排序。
所述第六步中,使用BitMap(位映射)方式存储同一批次数据文件所有接收到的FlowFile Index(数据文件顺序索引)和Fragment(分块)相关属性值;
根据同一批次数据文件的flowFlag标识值,判断该批次的所有数据文件是否全部接收完毕;
若全部接收完毕,则利用EndFlow(流动末端节点)组件统计数据该批次同步数据文件的数量。
本发明的有益效果是:该NiFi同步数据量统计方法,不仅能够在使用NiFi进行大数据量数据同步操作时对同步数据量进行统计,而且易于实现,开发成本低,灵活多样,具有很高的可扩展性,具有广泛的适用场景,适于推广应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1为本发明StartFlow组件配置示意图。
附图2为本发明数据文件属性flowFlag示意图。
附图3为本发明数据文件序号标识属性示意图。
附图4为本发明数据文件数据量标识属性示意图。
附图5为本发明数据文件分块顺序标识属性示意图。
附图6为本发明数据文件重排序组件配置示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明中的技术方案,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚,完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
当前,在数据采集、同步过程中,存在各种问题。比如由于数据量大,数据会被分成多个批次进行采集和同步,每个批次同步结果如何,数据量有多少都需要单独统计。此外,对于同一个批次,可能会因为业务需要对数据进行进一步分块细分,同一个批次的不同分块数据是否全部同步成功,以及同步的数据量的总数为多少等等,这些问题都是必须要考虑和解决的。
该NiFi同步数据量统计方法,基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;
具体包括以下步骤:
第一步,生成NiFi数据文件批次标识;
第二步,对数据文件进行编码,并生成数据文件数据量标识属性;
第三步,将数据文件进行分块处理
当数据进入到NiFi集群后存在数据处理场景(比如过滤空值,行列拆分等)时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;
第四步,将数据文件进行重新排序;
第五步,数据入库
根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;
第六步,数据完整性判断及数据量统计
判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。
所述第一步中,通过StartFlow(起始流动节点)组件来生成NiFi数据文件批次标识;所述NiFi数据文件批次标识对应的数据文件属性为flowFlag(流动标志),相同的批次标识对应同一个批次的NiFi数据文件。
所述第二步中,具体获取数据的组件对每个批次的所有数据文件都进行编码,并将每个数据文件都增加current.index和next.index属性,从而生成数据文件序号标识,用于标识数据文件的顺序,以便在多线程并发处理后重新排序。
所述第二步中,根据数据的类别不同添加不同的属性,生成所述数据文件数据量标识属性,用于标识数据文件中数据的量。
数据量结构化数据添加resultCount属性,二进制数据,如文件,则添加file.size属性。
所述第三步中,在数据文件中增加拆分序号标识FragmentNumber(分块序号)和NextFragmentNumber(下一个分块序号),并更新数据文件FlowFile(数据文件)的数据量标识属性resultCount(结果计数)。
数据文件经过并发处理或者进行分块之后,数据文件FlowFile顺序会有变动,所述第四步中,针对对数据顺序敏感的增量数据流程,需要将乱序的FlowFile数据文件根据数据文件序号标识和分块标识值进行重新排序。
所述第六步中,使用BitMap(位映射)方式存储同一批次数据文件所有接收到的FlowFile Index(数据文件顺序索引)和Fragment(分块)相关属性值;
根据同一批次数据文件的flowFlag标识值,判断该批次的所有数据文件是否全部接收完毕;
若全部接收完毕,则利用EndFlow(流动末端节点)组件统计数据该批次同步数据文件的数量。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种NiFi同步数据量统计方法,其特征在于:基于NiFi数据文件批次标识,数据文件编码以及数据文件数据量标识属性实现对同步数量的统计;
具体包括以下步骤:
第一步,生成NiFi数据文件批次标识;
第二步,对数据文件进行编码,并生成数据文件数据量标识属性;
第三步,将数据文件进行分块处理
当数据进入到NiFi集群后存在数据处理场景时,在数据处理过程中将一个带有current.index变量的数据文件拆分成多个数据文件;
第四步,将数据文件进行重新排序;
第五步,数据入库
根据数据类型和目标库不同,选用不同的数据加载组件,对数据进行加载;
第六步,数据完整性判断及数据量统计
判断同一批次的所有数据文件是否全部接收完毕,若全部接收完毕,则统计数据该批次同步数据文件的数量。
2.根据权利要求1所述的NiFi同步数据量统计方法,其特征在于:所述第一步中,通过StartFlow组件来生成NiFi数据文件批次标识;所述NiFi数据文件批次标识对应的数据文件属性为flowFlag,相同的批次标识对应同一个批次的NiFi数据文件。
3.根据权利要求1所述的NiFi同步数据量统计方法,其特征在于:所述第二步中,具体获取数据的组件对每个批次的所有数据文件都进行编码,并将每个数据文件都增加current.index和next.index属性,从而生成数据文件序号标识,用于标识数据文件的顺序,以便在多线程并发处理后重新排序。
4.根据权利要求3所述的NiFi同步数据量统计方法,其特征在于:所述第二步中,根据数据的类别不同添加不同的属性,生成所述数据文件数据量标识属性,用于标识数据文件中数据的量。
5.根据权利要求4所述的NiFi同步数据量统计方法,其特征在于:数据量结构化数据添加resultCount属性,二进制数据则添加file.size属性。
6.根据权利要求1所述的NiFi同步数据量统计方法,其特征在于:所述第三步中,在数据文件中增加拆分序号标识FragmentNumber和NextFragmentNumber,并更新数据文件FlowFile的数据量标识属性resultCount。
7.根据权利要求1所述的NiFi同步数据量统计方法,其特征在于:数据文件经过并发处理或者进行分块之后,数据文件FlowFile顺序会有变动,所述第四步中,针对对数据顺序敏感的增量数据流程,需要将乱序的FlowFile数据文件根据数据文件序号标识和分块标识值进行重新排序。
8.根据权利要求1~7任意一项所述的NiFi同步数据量统计方法,其特征在于:所述第六步中,使用BitMap方式存储同一批次数据文件所有接收到的FlowFile Index和Fragment相关属性值;根据同一批次数据文件的flowFlag标识值,判断该批次的所有数据文件是否全部接收完毕;若全部接收完毕,则利用EndFlow组件统计数据该批次同步数据文件的数量。
CN202110001764.2A 2021-01-04 2021-01-04 一种NiFi同步数据量统计方法 Active CN112732662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110001764.2A CN112732662B (zh) 2021-01-04 2021-01-04 一种NiFi同步数据量统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001764.2A CN112732662B (zh) 2021-01-04 2021-01-04 一种NiFi同步数据量统计方法

Publications (2)

Publication Number Publication Date
CN112732662A true CN112732662A (zh) 2021-04-30
CN112732662B CN112732662B (zh) 2023-03-28

Family

ID=75609487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001764.2A Active CN112732662B (zh) 2021-01-04 2021-01-04 一种NiFi同步数据量统计方法

Country Status (1)

Country Link
CN (1) CN112732662B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376196A (zh) * 2018-09-25 2019-02-22 浪潮软件集团有限公司 一种redo日志批量同步方法及装置
CN110647548A (zh) * 2019-09-23 2020-01-03 浪潮软件股份有限公司 一种基于NiFi及其状态值的流式数据转批量方法及系统
CN110674080A (zh) * 2019-09-23 2020-01-10 浪潮软件股份有限公司 一种基于NiFi的大数据量非结构文件采集方法及系统
US20200026710A1 (en) * 2018-07-19 2020-01-23 Bank Of Montreal Systems and methods for data storage and processing
CN110727684A (zh) * 2019-10-08 2020-01-24 浪潮软件股份有限公司 一种用于大数据统计分析的增量数据同步的方法
CN111131379A (zh) * 2019-11-08 2020-05-08 西安电子科技大学 一种分布式流量采集系统和边缘计算方法
CN111209344A (zh) * 2020-02-07 2020-05-29 浪潮软件股份有限公司 数据同步方法及装置
CN111858534A (zh) * 2020-07-27 2020-10-30 浪潮云信息技术股份公司 一种增加日志大数据量排序方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026710A1 (en) * 2018-07-19 2020-01-23 Bank Of Montreal Systems and methods for data storage and processing
CN109376196A (zh) * 2018-09-25 2019-02-22 浪潮软件集团有限公司 一种redo日志批量同步方法及装置
CN110647548A (zh) * 2019-09-23 2020-01-03 浪潮软件股份有限公司 一种基于NiFi及其状态值的流式数据转批量方法及系统
CN110674080A (zh) * 2019-09-23 2020-01-10 浪潮软件股份有限公司 一种基于NiFi的大数据量非结构文件采集方法及系统
CN110727684A (zh) * 2019-10-08 2020-01-24 浪潮软件股份有限公司 一种用于大数据统计分析的增量数据同步的方法
CN111131379A (zh) * 2019-11-08 2020-05-08 西安电子科技大学 一种分布式流量采集系统和边缘计算方法
CN111209344A (zh) * 2020-02-07 2020-05-29 浪潮软件股份有限公司 数据同步方法及装置
CN111858534A (zh) * 2020-07-27 2020-10-30 浪潮云信息技术股份公司 一种增加日志大数据量排序方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IJOKURUMAWAK: "How to wait for all fragments to be processed then do something", 《HTTPS://IJOKARUMAWAK.GITHUB.IO》 *
吴永峰: "基于容器云的流数据处理平台服务的研究与实现", 《信息科技辑》 *

Also Published As

Publication number Publication date
CN112732662B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US6831575B2 (en) Word aligned bitmap compression method, data structure, and apparatus
CN111339103B (zh) 一种基于全量分片和增量日志解析的数据交换方法及系统
CN112307037A (zh) 一种数据同步方法和装置
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
CN111061758B (zh) 数据存储方法、装置及存储介质
CN101963977A (zh) 无城市搜索方法及移动终端
CN113010484A (zh) 日志文件管理方法及装置
CN111274454B (zh) 时空数据的处理方法、装置、电子设备和存储介质
CN104881475A (zh) 一种用于大数据随机抽样的方法和系统
CN112732662B (zh) 一种NiFi同步数据量统计方法
CN115033646B (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN106599113B (zh) 用于网管系统海量性能数据的数据库读写方法
CN112596851A (zh) 仿真平台的多源异构数据批量抽取方法和分析方法
CN111625617A (zh) 一种数据索引方法、装置及计算机可读存储介质
CN115454353B (zh) 一种面向空间应用数据的高速写入及查询方法
CN116842012A (zh) 一种Redis集群的分片存储方法、装置、设备及存储介质
US20220199202A1 (en) Method and apparatus for compressing fastq data through character frequency-based sequence reordering
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
Wandelt et al. Column-wise compression of open relational data
CN113836157A (zh) 获取数据库增量数据的方法和装置
CN111538730A (zh) 一种基于哈希桶算法的数据统计的方法及其系统
CN112752165A (zh) 字幕处理方法、装置、服务器及计算机可读存储介质
CN117194355B (zh) 基于数据库的数据处理方法、装置和电子设备
CN115454356B (zh) 基于识别和聚合算法的数据文件处理方法、装置和设备
CN117331513B (zh) 基于Hadoop架构的数据精简方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant