CN110647548A - 一种基于NiFi及其状态值的流式数据转批量方法及系统 - Google Patents

一种基于NiFi及其状态值的流式数据转批量方法及系统 Download PDF

Info

Publication number
CN110647548A
CN110647548A CN201910899884.1A CN201910899884A CN110647548A CN 110647548 A CN110647548 A CN 110647548A CN 201910899884 A CN201910899884 A CN 201910899884A CN 110647548 A CN110647548 A CN 110647548A
Authority
CN
China
Prior art keywords
data
batch
streaming
nifi
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910899884.1A
Other languages
English (en)
Other versions
CN110647548B (zh
Inventor
王庆明
胡清
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201910899884.1A priority Critical patent/CN110647548B/zh
Publication of CN110647548A publication Critical patent/CN110647548A/zh
Application granted granted Critical
Publication of CN110647548B publication Critical patent/CN110647548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于NiFi及其状态值的流式数据转批量方法及系统,属于计算机技术领域。本发明的基于NiFi及其状态值的流式数据转批量方包括以下步骤:S1、数据抽取:首先将数据进行分组拆分,再分批查询数据;S2、数据存储,将数据存储到存储系统;S3、流式转批量,将流式的流程转换成批量的业务;S4、汇总计算,根据需求对数据进行相应的统计。该发明的基于NiFi及其状态值的流式数据转批量方法技术实施简单,难点低,开发工作少,易于实施与应用,性能快速稳定,并能够满足某些业务场景下的特定需求,具有很好的推广应用价值。

Description

一种基于NiFi及其状态值的流式数据转批量方法及系统
技术领域
本发明涉及计算机技术领域,具体提供一种基于NiFi及其状态值的流式数据转批量方法及系统。
背景技术
随着社会的不断进步,社会的各项技术也飞速发展。现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据是如此重要,以至于其数据采集、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题,而数据采集是一切大数据应用的开始和前提。在很多项目开发和实施过程中,客户与研发人员开始往往更关注数据的治理、挖掘与分析应用等,但后期才发现数据采集可能才是最大的难点和最耗时耗力的工作。能够及时、快速、准确、完整的将外部数据抽取到大数据平台是很多开发人员面临的难题。
结构化、半结构化、非结构化数据的采集有很多技术实现方案或产品。但在生产环境中,数据采集面临着很多影响因素,网络就是其中最重要的因素之一。网络的带宽、稳定性,尤其是网络拓扑结构限制着数据采集方案。
NiFi是一个易用、强大、可靠的流式的数据处理与分发系统。然后,其基于流式思想开发的工具,在某些场景下,需要将流式任务转换成批量任务。比如,每次文件采集后,发送一个邮件通知或者每次同步完成一次数据后,进行一次统计任务等。Nifi流式的设计,却很难完成这样的工作。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种技术实施简单,难点低,开发工作少,易于实施与应用,性能快速稳定,并能够满足某些业务场景下的特定需求的基于NiFi及其状态值的流式数据转批量方法。
本发明进一步的技术任务是提供一种基于NiFi及其状态值的流式数据转批量系统。
为实现上述目的,本发明提供了如下技术方案:
一种基于NiFi及其状态值的流式数据转批量方法,该方法包括以下步骤:
S1、数据抽取:首先将数据进行分组拆分,再分批查询数据;
S2、数据存储,将数据存储到存储系统;
S3、流式转批量,将流式的流程转换成批量的业务;
S4、汇总计算,根据需求对数据进行相应的统计。
作为优选,数据抽取中,数据进行分组拆分,生成分组查询语句,同时为数据添加统一的分组标识与总数信息-分组序号。
作为优选,分批查询数据过程中,会携带生成的分组标识与总数信息-分组序号。
作为优选,数据存储为在数据抽取完成后,将数据存储到存储系统中,存储系统为数据库、文件系统。
作为优选,流式转批量过程中,读取dataGroupFlag标识,若该标识相同,则表示数据属于同一批操作,同时读取currentIndex数据,该字段中含有数据与当前数据索引号,若所有的索引号的条数与总数相同,则该批数据抽取完成,向下游节点发送数据出发后续操作。否则不进行任意操作。所有已经读取的状态数据将会缓存到状态管理器中,如果达到条件了,则会删除。
作为优选,汇总计算时,收到上游节点发送的数据后,则该节点被出发执行,根据需求进行相应的统计工作。
该基于NiFi及其状态值的流式数据转批量方法易于实现、开发成本低、灵活多样,高可扩展,具有广泛的适用场景。
一种基于NiFi及其状态值的流式数据转批量系统,该系统包括数据抽取模块、数据存储模块、流式转批量模块和汇总计算模块:
数据抽取模块负责将数据进行分组拆分,再分批查询数据;
数据存储模块负责将数据存储到存储系统;
流式转批量模块负责将流式的流程转换成批量的业务;
汇总计算模块负责根据需求对数据进行相应的统计。
作为优选,数据抽取模块在数据抽取中,数据进行分组拆分,生成分组查询语句,同时为数据添加统一的分组标识与总数信息-分组序号;在分批查询数据过程中,会携带生成的分组标识与总数信息-分组序号。
作为优选,流式转批量模块在流式转批量过程中,读取dataGroupFlag标识,若该标识相同,则表示数据属于同一批操作,同时读取currentIndex数据,该字段中含有数据与当前数据索引号,若所有的索引号的条数与总数相同,则该批数据抽取完成,向下游节点发送数据出发后续操作。
作为优选,所述汇总计算模块汇总计算时,收到上游节点发送的数据后,则该节点被出发执行,根据需求进行相应的统计工作。
与现有技术相比,本发明的基于NiFi及其状态值的流式数据转批量方法具有以下突出的有益效果:基于NiFi及其状态值的流式数据转批量方法技术实施简单,难点低,开发工作少,开发成本低,灵活多样,高扩展性,易于实施与应用,性能快速稳定,并能够满足某些业务场景下的特定需求,具有良好的推广应用价值。
附图说明
图1是本发明所述基于NiFi及其状态值的流式数据转批量方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的基于NiFi及其状态值的流式数据转批量方法及系统作进一步详细说明。
实施例
如图1所示,本发明的基于NiFi及其状态值的流式数据转批量方法包括以下步骤:
S1、数据抽取:首先将数据进行分组拆分,再分批查询数据。
数据抽取中,数据进行分组拆分,生成分组查询语句,同时为数据添加统一的分组标识与总数信息-分组序号。
分批查询数据过程中,会携带生成的分组标识与总数信息-分组序号。
S2、数据存储,将数据存储到存储系统。
数据存储为在数据抽取完成后,将数据存储到存储系统中,存储系统为数据库、文件系统。
S3、流式转批量,将流式的流程转换成批量的业务。
流式转批量过程中,读取dataGroupFlag标识,若该标识相同,则表示数据属于同一批操作,同时读取currentIndex数据,该字段中含有数据与当前数据索引号,比如5-0,5-1…5-4。任意时候,若所有的索引号的条数与总数相同,则该批数据抽取完成,向下游节点发送数据出发后续操作。否则不进行任意操作。所有已经读取的状态数据将会缓存到状态管理器中,如果达到条件了,则会删除。
S4、汇总计算,根据需求对数据进行相应的统计。
汇总计算时,收到上游节点发送的数据后,则该节点被出发执行,根据需求进行相应的统计工作。
通过本发明的基于NiFi及其状态值的流式数据转批量方法完成了数据库中的表,同步中到另外一张mysql表,同步完成后,执行统计工作的流程设计。而对于其他的采集、存储等工作,均可以参数该流程设计;完成之后,将流式转换成批量,之后的任务可以是发送一封通知邮件、短信,或者是执行一次统计工作等工作。也可以根据实际需求,开发自己的接口,进行自定义设计。
本发明的基于NiFi及其状态值的流式数据转批量系统,该系统包括数据抽取模块、数据存储模块、流式转批量模块和汇总计算模块。
数据抽取模块负责将数据进行分组拆分,再分批查询数据。
数据抽取模块在数据抽取中,数据进行分组拆分,生成分组查询语句,同时为数据添加统一的分组标识与总数信息-分组序号;在分批查询数据过程中,会携带生成的分组标识与总数信息-分组序号。
数据存储模块负责将数据存储到存储系统。
数据存储为在数据抽取完成后,将数据存储到存储系统中,存储系统为数据库、文件系统。
流式转批量模块负责将流式的流程转换成批量的业务。
流式转批量模块在流式转批量过程中,读取dataGroupFlag标识,若该标识相同,则表示数据属于同一批操作,同时读取currentIndex数据,该字段中含有数据与当前数据索引号,若所有的索引号的条数与总数相同,则该批数据抽取完成,向下游节点发送数据出发后续操作。
汇总计算模块负责根据需求对数据进行相应的统计。
汇总计算模块汇总计算时,收到上游节点发送的数据后,则该节点被出发执行,根据需求进行相应的统计工作。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (10)

1.一种基于NiFi及其状态值的流式数据转批量方法,其特征在于:该方法包括以下步骤:
S1、数据抽取:首先将数据进行分组拆分,再分批查询数据;
S2、数据存储,将数据存储到存储系统;
S3、流式转批量,将流式的流程转换成批量的业务;
S4、汇总计算,根据需求对数据进行相应的统计。
2.根据权利要求1所述的基于NiFi及其状态值的流式数据转批量方法,其特征在于:数据抽取中,数据进行分组拆分,生成分组查询语句,同时为数据添加统一的分组标识与总数信息-分组序号。
3.根据权利要求2所述的基于NiFi及其状态值的流式数据转批量方法,其特征在于:分批查询数据过程中,会携带生成的分组标识与总数信息-分组序号。
4.根据权利要求3所述的基于NiFi及其状态值的流式数据转批量方法,其特征在于:数据存储为在数据抽取完成后,将数据存储到存储系统中,数据系统为数据库、文件系统。
5.根据权利要求4所述的基于NiFi及其状态值的流式数据转批量方法,其特征在于:流式转批量过程中,读取dataGroupFlag标识,若该标识相同,则表示数据属于同一批操作,同时读取currentIndex数据,该字段中含有数据与当前数据索引号,若所有的索引号的条数与总数相同,则该批数据抽取完成,向下游节点发送数据出发后续操作。
6.根据权利要求5所述的基于NiFi及其状态值的流式数据转批量方法,其特征在于:汇总计算时,收到上游节点发送的数据后,则该节点被出发执行,根据需求进行相应的统计工作。
7.一种基于NiFi及其状态值的流式数据转批量系统,其特征在于:该系统包括数据抽取模块、数据存储模块、流式转批量模块和汇总计算模块:
数据抽取模块负责将数据进行分组拆分,再分批查询数据;
数据存储模块负责将数据存储到存储系统;
流式转批量模块负责将流式的流程转换成批量的业务;
汇总计算模块负责根据需求对数据进行相应的统计。
8.根据权利要求7所述的基于NiFi及其状态值的流式数据转批量系统,其特征在于:数据抽取模块在数据抽取中,数据进行分组拆分,生成分组查询语句,同时为数据添加统一的分组标识与总数信息-分组序号;在分批查询数据过程中,会携带生成的分组标识与总数信息-分组序号。
9.根据权利要求8所述的基于NiFi及其状态值的流式数据转批量系统,其特征在于:流式转批量模块在流式转批量过程中,读取dataGroupFlag标识,若该标识相同,则表示数据属于同一批操作,同时读取currentIndex数据,该字段中含有数据与当前数据索引号,若所有的索引号的条数与总数相同,则该批数据抽取完成,向下游节点发送数据出发后续操作。
10.根据权利要求9所述的基于NiFi及其状态值的流式数据转批量系统,其特征在于:所述汇总计算模块汇总计算时,收到上游节点发送的数据后,则该节点被出发执行,根据需求进行相应的统计工作。
CN201910899884.1A 2019-09-23 2019-09-23 一种基于NiFi及其状态值的流式数据转批量方法及系统 Active CN110647548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899884.1A CN110647548B (zh) 2019-09-23 2019-09-23 一种基于NiFi及其状态值的流式数据转批量方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899884.1A CN110647548B (zh) 2019-09-23 2019-09-23 一种基于NiFi及其状态值的流式数据转批量方法及系统

Publications (2)

Publication Number Publication Date
CN110647548A true CN110647548A (zh) 2020-01-03
CN110647548B CN110647548B (zh) 2023-03-21

Family

ID=69011055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899884.1A Active CN110647548B (zh) 2019-09-23 2019-09-23 一种基于NiFi及其状态值的流式数据转批量方法及系统

Country Status (1)

Country Link
CN (1) CN110647548B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597242A (zh) * 2020-12-16 2021-04-02 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112732662A (zh) * 2021-01-04 2021-04-30 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070248029A1 (en) * 2004-12-23 2007-10-25 Merkey Jeffrey V Method and Apparatus for Network Packet Capture Distributed Storage System
CN108664616A (zh) * 2018-05-14 2018-10-16 浪潮软件集团有限公司 一种基于ROWID的Oracle数据批量采集方法
WO2018234741A1 (en) * 2017-06-23 2018-12-27 Qio Technologies Ltd SYSTEMS AND METHODS FOR INTELLIGENCE OF INDUSTRIAL ASSETS BY DISTRIBUTED SYSTEMIC ANTICIPATION
CN109376196A (zh) * 2018-09-25 2019-02-22 浪潮软件集团有限公司 一种redo日志批量同步方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070248029A1 (en) * 2004-12-23 2007-10-25 Merkey Jeffrey V Method and Apparatus for Network Packet Capture Distributed Storage System
WO2018234741A1 (en) * 2017-06-23 2018-12-27 Qio Technologies Ltd SYSTEMS AND METHODS FOR INTELLIGENCE OF INDUSTRIAL ASSETS BY DISTRIBUTED SYSTEMIC ANTICIPATION
CN108664616A (zh) * 2018-05-14 2018-10-16 浪潮软件集团有限公司 一种基于ROWID的Oracle数据批量采集方法
CN109376196A (zh) * 2018-09-25 2019-02-22 浪潮软件集团有限公司 一种redo日志批量同步方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李圣等: "大数据流式计算系统研究综述", 《信息工程大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597242A (zh) * 2020-12-16 2021-04-02 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112597242B (zh) * 2020-12-16 2023-06-06 四川新网银行股份有限公司 一种基于涉及批量任务的应用系统数据切片的抽取方法
CN112732662A (zh) * 2021-01-04 2021-04-30 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法

Also Published As

Publication number Publication date
CN110647548B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN110647548B (zh) 一种基于NiFi及其状态值的流式数据转批量方法及系统
CN111339103B (zh) 一种基于全量分片和增量日志解析的数据交换方法及系统
CN110209674A (zh) 一种工业环境粉尘监控微信小程序的云端数据库统计方法及装置
CN110674152B (zh) 数据同步方法与装置、存储介质、电子设备
CN115033646A (zh) 一种基于Flink&Doris构建实时数仓系统的方法
CN113157904A (zh) 基于dfa算法的敏感词过滤方法及系统
CN116579300A (zh) 多源异构数据的自动化转换方法和装置
CN113297274B (zh) 一种签收数据查询方法和系统
CN111625573A (zh) 一种大数据分析系统
CN116383207A (zh) 一种数据标签管理方法、装置、电子设备和存储介质
CN116303761A (zh) 一种分布式入库的方法、装置、电子设备及存储介质
CN115422275A (zh) 一种数据处理方法、装置、设备及存储介质
CN113239039A (zh) 动态数据的存储方法、查询方法、管理方法及管理系统
CN111563123A (zh) 一种hive仓库元数据实时同步方法
CN112052341A (zh) 知识图谱剪枝方法及装置
CN112506919A (zh) 一种结构化的icd生成方法
CN112035416A (zh) 数据血缘分析方法、装置、电子设备及存储介质
CN110765236A (zh) 一种非结构化海量数据的预处理方法及系统
CN112732662B (zh) 一种NiFi同步数据量统计方法
CN113687895B (zh) 一种设备信息的展示方法及装置
CN113434523B (zh) 基于大数据的业务数据更新方法、装置、设备及存储介质
CN111522871B (zh) 订单数据的归集方法、装置及存储介质
CN116186019B (zh) 应用于民机航电系统下的功能一体化智能分析方法及装置
CN117009342A (zh) 数据处理方法、装置、设备、介质和计算机程序产品
CN112685419B (zh) 一种可保持janusGraph数据一致性的分布式高效并行加载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province

Applicant after: INSPUR SOFTWARE Co.,Ltd.

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Applicant before: INSPUR SOFTWARE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant