CN110674080A - 一种基于NiFi的大数据量非结构文件采集方法及系统 - Google Patents

一种基于NiFi的大数据量非结构文件采集方法及系统 Download PDF

Info

Publication number
CN110674080A
CN110674080A CN201910899907.9A CN201910899907A CN110674080A CN 110674080 A CN110674080 A CN 110674080A CN 201910899907 A CN201910899907 A CN 201910899907A CN 110674080 A CN110674080 A CN 110674080A
Authority
CN
China
Prior art keywords
data
nifi
unstructured
file
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910899907.9A
Other languages
English (en)
Other versions
CN110674080B (zh
Inventor
翟建峰
胡清
王建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201910899907.9A priority Critical patent/CN110674080B/zh
Publication of CN110674080A publication Critical patent/CN110674080A/zh
Application granted granted Critical
Publication of CN110674080B publication Critical patent/CN110674080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于NiFi的大数据量非结构文件采集方法及系统,属于计算机技术领域。本发明的基于NiFi的大数据量非结构文件采集方法在数据中心部署大数据平台和NiFi集群,在数据采集和数据传输节点部署NiFi单例或NiFi集群,由NiFi负责数据采集、数据传输及数据存储。该发明的基于NiFi的大数据量非结构文件采集方法技术简单、难点低、开发工作少,易于实施与应用,并且性能快速稳定,具有很好的推广应用价值。

Description

一种基于NiFi的大数据量非结构文件采集方法及系统
技术领域
本发明涉及计算机技术领域,具体提供一种基于NiFi的大数据量非结构文件采集方法及系统。
背景技术
随着社会的不断进步,社会的各项技术也飞速发展。现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据是如此重要,以至于其数据采集、储存、搜索、共享、分析,乃至可视化地呈现,都成为了当前重要的研究课题,而数据采集是一切大数据应用的开始和前提。在很多项目开发和实施过程中,客户与研发人员开始往往更关注数据的治理、挖掘与分析应用等,但后期才发现数据采集可能才是最大的难点和最耗时耗力的工作。能够及时、快速、准确、完整的将外部数据抽取到大数据平台是很多开发人员面临的难题。
结构化、半结构化、非结构化数据的采集有很多技术实现方案或产品。但在生产环境中,数据采集面临着很多影响因素,网络就是其中最重要的因素之一。网络的带宽、稳定性,尤其是网络拓扑结构限制着数据采集方案。政府、公安、医院、银行等行业都是使用自己的专有网络,基于安全等因素的考虑,网络间的访问是受限的。例如区县级医院的网络能够和地市医院网络通信,地市医院网络可以和省级医院网络通信,而区县和省级之间是无法直接访问的。这些条件限制了我们的数据采集和传输必须是逐级进行的,而在省数据中心又需要能够监控整个数据采集系统的运行状态。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种技术简单、难点低、开发工作少,易于实施与应用,并且性能快速稳定的基于NiFi的大数据量非结构文件采集方法。
本发明进一步的技术任务是提供一种基于NiFi的大数据量非结构文件采集系统。
为实现上述目的,本发明提供了如下技术方案:
一种基于NiFi的大数据量非结构文件采集方法,该方法在数据中心部署大数据平台和NiFi集群,在数据采集和数据传输节点部署NiFi单例或NiFi集群,由NiFi负责数据采集、数据传输及数据存储。
作为优选,该方法具体包括以下步骤:
S1、配置非结构化文件存储服务:在数据中心部署大数据平台和NiFi集群;
S2、数据采集:配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据;
S3、数据传输:在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心;
S4、数据存储:通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
该基于NiFi的大数据量非结构文件采集方法通过基于NiFi的大数据量非结构文件采集系统,该系统包括非结构化文件存储服务配置模块、数据采集模块、数据传输模块和数据存储模块:非结构化文件存储服务配置模块负责在数据中心部署大数据平台和NiFi集群;数据采集模块负责配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据;数据传输模块负责在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心;数据存储模块负责通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
作为优选,所述大数据平台包括多台服务器、单台服务器或单台PC机,配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务,可通过客户端、程序代码进行安全连接。
多台服务器、单台服务器或单台PC机的操作系统可选择windows或Linux操作系统。
作为优选,所述数据采集线程需要配置主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
作为优选,数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用于流式计算,写入Elasticsearch用于检索。
一种基于NiFi的大数据量非结构文件采集系统,该系统包括非结构化文件存储服务配置模块、数据采集模块、数据传输模块和数据存储模块:
非结构化文件存储服务配置模块负责在数据中心部署大数据平台和NiFi集群;
数据采集模块负责配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据;
数据传输模块负责在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心;
数据存储模块负责通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
作为优选,非结构化文件存储服务配置模块中,大数据平台包括多台服务器、单台服务器或单台PC机,配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务。
作为优选,所述数据采集模块中的数据采集线程需要配置主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
作为优选,所述数据存储模块在数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用于流式计算,写入Elasticsearch用于检索。
与现有技术相比,本发明的基于NiFi的大数据量非结构文件采集方法具有以下突出的有益效果:基于NiFi的大数据量非结构文件采集方法涉及了从数据采集、传输及存储的完整流程,易于实现,开发成本低,灵活多样,并具有高扩展性,适用场景广泛,具有良好的推广应用价值。
附图说明
图1是本发明所述基于NiFi的大数据量非结构文件采集方法的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的基于NiFi的大数据量非结构文件采集方法及系统作进一步详细说明。
实施例
本发明的基于NiFi的大数据量非结构文件采集方法,在数据中心部署大数据平台和NiFi集群,在数据采集和数据传输节点部署NiFi单例或NiFi集群,由NiFi负责数据采集、数据传输及数据存储。
如图1所述,该方法具体包括以下步骤:
S1、配置非结构化文件存储服务:在数据中心部署大数据平台和NiFi集群。
大数据平台包括多台服务器、单台服务器或单台PC机,多台服务器、单台服务器或单台PC机的操作系统可选择windows或Linux操作系统。配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务,可通过客户端、程序代码进行安全连接。
S2、数据采集:配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据。
数据采集线程需要主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
S3、数据传输:在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心。
S4、数据存储:通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用于流式计算,写入Elasticsearch用于检索。
本发明的基于NiFi的大数据量非结构文件采集系统,该系统包括非结构化文件存储服务配置模块、数据采集模块、数据传输模块和数据存储模块。
非结构化文件存储服务配置模块负责在数据中心部署大数据平台和NiFi集群。非结构化文件存储服务配置模块中,大数据平台包括多台服务器、单台服务器或单台PC机,配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务。
数据采集模块负责配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据。
数据采集模块中的数据采集线程需要配置主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
数据传输模块负责在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心。
数据存储模块负责通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。数据存储模块在数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用于流式计算,写入Elasticsearch用于检索。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种基于NiFi的大数据量非结构文件采集方法,其特征在于:该方法在数据中心部署大数据平台和NiFi集群,在数据采集和数据传输节点部署NiFi单例或NiFi集群,由NiFi负责数据采集、数据传输及数据存储。
2.根据权利要求1所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:该方法具体包括以下步骤:
S1、配置非结构化文件存储服务:在数据中心部署大数据平台和NiFi集群;
S2、数据采集:配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据;
S3、数据传输:在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心;
S4、数据存储:通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
3.根据权利要求2所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:所述大数据平台包括多台服务器、单台服务器或单台PC机,配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务。
4.根据权利要求3所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:所述数据采集线程需要配置主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
5.根据权利要求4所述的基于NiFi的大数据量非结构文件采集方法,其特征在于:数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用于流式计算,写入Elasticsearch用于检索。
6.一种基于NiFi的大数据量非结构文件采集系统,其特征在于:该系统包括非结构化文件存储服务配置模块、数据采集模块、数据传输模块和数据存储模块:
非结构化文件存储服务配置模块负责在数据中心部署大数据平台和NiFi集群;
数据采集模块负责配置数据采集线程和数据采集服务,实现在指定文件服务器中规定路径下进行非结构化文件采集,包括业务数据、状态数据;
数据传输模块负责在各数据中心部署数据上传入口,将采集的数据通过数据上传入口上传至相应数据中心;
数据存储模块负责通过NiFi单例或NiFi集群将数据写入配置的非结构化文件存储服务完成数据存储。
7.根据权利要求6所述的基于NiFi的大数据量非结构文件采集系统,其特征在于:非结构化文件存储服务配置模块中,大数据平台包括多台服务器、单台服务器或单台PC机,配置的非结构化文件存储服务包括FTP、SFTP、HDFS服务。
8.根据权利要求7所述的基于NiFi的大数据量非结构文件采集系统,其特征在于:所述数据采集模块中的数据采集线程需要配置主机服务、读取路径,数据采集服务需要配置主机名称、用户名和认证密码。
9.根据权利要求7所述的基于NiFi的大数据量非结构文件采集系统,其特征在于:所述数据存储模块在数据存储过程中,通过NiFi单例或NiFi集群将数据写入HDFS、HBase完成持久化存储,写入Hive用于统计分析,写入Kafka用于流式计算,写入Elasticsearch用于检索。
CN201910899907.9A 2019-09-23 2019-09-23 一种基于NiFi的大数据量非结构文件采集方法及系统 Active CN110674080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910899907.9A CN110674080B (zh) 2019-09-23 2019-09-23 一种基于NiFi的大数据量非结构文件采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910899907.9A CN110674080B (zh) 2019-09-23 2019-09-23 一种基于NiFi的大数据量非结构文件采集方法及系统

Publications (2)

Publication Number Publication Date
CN110674080A true CN110674080A (zh) 2020-01-10
CN110674080B CN110674080B (zh) 2023-04-28

Family

ID=69077301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910899907.9A Active CN110674080B (zh) 2019-09-23 2019-09-23 一种基于NiFi的大数据量非结构文件采集方法及系统

Country Status (1)

Country Link
CN (1) CN110674080B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732662A (zh) * 2021-01-04 2021-04-30 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法
CN115883547A (zh) * 2022-11-15 2023-03-31 浪潮云信息技术股份公司 一种基于DRBD的NiFi高可用部署方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法
WO2016161857A1 (zh) * 2015-04-09 2016-10-13 北京易掌云峰科技有限公司 一种多租户高并发的即时通讯云平台
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN109753502A (zh) * 2018-12-29 2019-05-14 山东浪潮商用系统有限公司 一种基于NiFi的数据采集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955509A (zh) * 2014-04-30 2014-07-30 广西电网公司电力科学研究院 一种海量电力计量数据的快速检索方法
WO2016161857A1 (zh) * 2015-04-09 2016-10-13 北京易掌云峰科技有限公司 一种多租户高并发的即时通讯云平台
CN106709003A (zh) * 2016-12-23 2017-05-24 长沙理工大学 基于Hadoop的海量日志数据处理方法
CN109753502A (zh) * 2018-12-29 2019-05-14 山东浪潮商用系统有限公司 一种基于NiFi的数据采集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗学礼等: "企业非结构化数据管理平台研究", 《云南电力技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732662A (zh) * 2021-01-04 2021-04-30 浪潮云信息技术股份公司 一种NiFi同步数据量统计方法
CN115883547A (zh) * 2022-11-15 2023-03-31 浪潮云信息技术股份公司 一种基于DRBD的NiFi高可用部署方法及系统

Also Published As

Publication number Publication date
CN110674080B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN109564568B (zh) 用于分布式数据集索引的装置、方法和机器可读存储介质
Das et al. Big data analytics: A framework for unstructured data analysis
US10129118B1 (en) Real time anomaly detection for data streams
Tian et al. Optimized cloud resource management and scheduling: theories and practices
DE112019000841T5 (de) Handhaben von E/A-Operationen in einem cloudbasierten Speichersystem
Yang et al. On construction of an energy monitoring service using big data technology for the smart campus
Lai et al. Towards a framework for large-scale multimedia data storage and processing on Hadoop platform
CN104283959B (zh) 一种适用于云平台的基于性能分级的存储机制
CN108021809A (zh) 一种数据处理方法及系统
CN104113605A (zh) 一种企业云应用开发的监控处理方法
US10182104B1 (en) Automatic propagation of resource attributes in a provider network according to propagation criteria
CN104657435A (zh) 一种应用数据的存储管理方法和网络管理系统
CN111258978A (zh) 一种数据存储的方法
CN110674080A (zh) 一种基于NiFi的大数据量非结构文件采集方法及系统
CN105554132A (zh) 一种Hadoop在线扩容的方法
CN116166191A (zh) 湖仓一体系统
CN111813332A (zh) 一种高性能、高扩展和高安全的智能分布式存储系统
Farhan et al. A study and performance comparison of mapreduce and apache spark on Twitter data on hadoop cluster
Lee et al. A big data management system for energy consumption prediction models
US20160112274A1 (en) Real time simulation monitoring
CN111723063A (zh) 一种离线日志数据处理的方法和装置
CN105975375A (zh) 一种基于cacti的服务器状态监控方法
CN106341402A (zh) 基于多架构分布式缓存的处理方法和装置
CN111858260A (zh) 信息显示方法、装置、设备及介质
CN115840951B (zh) 一种网络安全基于全流量资产发现的实现方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 271000 Langchao science and Technology Park, 527 Dongyue street, Tai'an City, Shandong Province

Applicant after: INSPUR SOFTWARE Co.,Ltd.

Address before: No. 1036, Shandong high tech Zone wave road, Ji'nan, Shandong

Applicant before: INSPUR SOFTWARE Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant