CN110609819A - 基于hdfs的数据处理方法 - Google Patents

基于hdfs的数据处理方法 Download PDF

Info

Publication number
CN110609819A
CN110609819A CN201910721098.2A CN201910721098A CN110609819A CN 110609819 A CN110609819 A CN 110609819A CN 201910721098 A CN201910721098 A CN 201910721098A CN 110609819 A CN110609819 A CN 110609819A
Authority
CN
China
Prior art keywords
data
hdfs
processing method
processing
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910721098.2A
Other languages
English (en)
Inventor
孙立华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Original Assignee
Nari Information and Communication Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Information and Communication Technology Co filed Critical Nari Information and Communication Technology Co
Priority to CN201910721098.2A priority Critical patent/CN110609819A/zh
Publication of CN110609819A publication Critical patent/CN110609819A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了基于HDFS的数据处理方法,包括以下步骤:步骤一、将数据导入到HDFS中来创建数据源;步骤二,用户对步骤一中创建的数据源中的数据进行处理,检测所述数据的变化并同时将数据进行分区处理,按预设规则在分区后的数据中抽取目标数据;步骤三、并将目标数据通过显示屏页面显示或将处理结果指定到指定路径下的输出文件。预设规则的设定,即能够迅速锁定常规需要展示的数据,并形成目标数据,该数据区别于其他数据,在后台处理完毕。

Description

基于HDFS的数据处理方法
技术领域
本发明涉及数据处理领域,具体涉及基于HDFS的数据处理方法。
背景技术
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失。
传统的网络文件系统(NFS)虽然也称为分布式文件系统,但是其存在一些限制。由于NFS中,文件是存储在单机上,因此无法提供可靠性保证,当很多客户端同时访问NFSServer时,很容易造成服务器压力,造成性能瓶颈。另外如果要对NFS中的文件进行操作,需要首先同步到本地,这些修改在同步到服务端之前,其他客户端是不可见的。某种程度上,NFS不是一种典型的分布式系统,虽然它的文件的确放在远端(单一)的服务器上面。
发明内容
本发明要解决的技术问题是提供基于HDFS的数据处理方法,其中HDFS,是HadoopDistributed File System的简称,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议(webhsfs)来操作。HDFS的文件分布在集群机器上,同时提供副本进行容错及可靠性保证。例如客户端写入读取文件的直接操作都是分布在集群各个机器上的,没有单点性能压力。
HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
为达到上述目的,本发明的技术方案如下:
基于HDFS的数据处理方法,包括以下步骤:
步骤一、将数据导入到HDFS中来创建数据源;
步骤二,用户对步骤一中创建的数据源中的数据进行处理,检测所述数据的变化并同时将数据进行分区处理,按预设规则在分区后的数据中抽取目标数据;
步骤三、并将目标数据通过显示屏页面显示或将处理结果指定到指定路径下的输出文件。
预设规则的设定,即能够迅速锁定常规需要展示的数据,并形成目标数据,该数据区别于其他数据,在后台处理完毕;
对多个异构数据源中的批量数据及流数据进行处理并调用相应的预设数据库,以构建业务应用,将应用中数据进行展示。
在本发明的一个优选实施例中,所述HDFS的数据分区被拆分成block-sized的chunk,chunk作为独立单元存储。
数据分区便于快速锁定需要的数据,且数据存储独立进行,与其他数据不进行关联。
在本发明的一个优选实施例中,步骤一与步骤二之间还包括对异常数据进行筛选和剔除步骤:
采用Spark离线并行计算方式进行数据的甄别,采用基于HDFS的分布式运行数据存储方式对数据进行存储。
离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,且在解决一个问题后就要立即得出结果的前提下进行的计算;根据计算结果,与上述的分区管理进行匹配。
在本发明的一个优选实施例中,所述筛选和剔除步骤之前还包括预处理步骤:空值处理、数据正确性验证、字段完整性处理和规范化数据格式。
预处理步骤中的下述几个处理方式可以采用现有技术的实施方式,更为方便,快速。
在本发明的一个优选实施例中,所述步骤一数据来源包括但不限于:
从网站直接爬取下来的数据;以及内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上。
数据源包括常规的两种形态,其中网站爬取能够获得目前与数据相关的分类原则等,用于对后续的数据处理参考用;
内部数据存储,属于比较正常的方式,且采用sqoop命令将关系型数据库便于操作。
在本发明的一个优选实施例中,所述两个获得的数据互相备份共享。备份共享,使得数据存储的安全性。
在本发明的一个优选实施例中,所述步骤一数据包括电网业务数据,所述电网业务数据至少包括:用电信息数据、电网网架数据、系统运维数据和电网运行数据。
在本发明的一个优选实施例中,还包括步骤四,用户处理步骤;
当接收到验证指令时,所述操作指令包括携带所述用户组信息和所述验证通过标识;
上述验证指令通过后,进行操作指令,操作请求获取数据文件的一个以上密钥和数据文件的一个以上解密算法,并能对数据源中的数据人为干预。
本方式中用户操作分为两个大类进行实现,验证指令以及操作指令,该两个指令依次进行,保证了数据干预的准确性和安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的工作原理步骤图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
实施例1:
基于HDFS的数据处理方法,包括以下步骤:
步骤一、将数据导入到HDFS中来创建数据源;
步骤二,用户对步骤一中创建的数据源中的数据进行处理,检测所述数据的变化并同时将数据进行分区处理,按预设规则在分区后的数据中抽取目标数据;
步骤三、并将目标数据通过显示屏页面显示或将处理结果指定到指定路径下的输出文件。
预设规则的设定,即能够迅速锁定常规需要展示的数据,并形成目标数据,该数据区别于其他数据,在后台处理完毕;
对多个异构数据源中的批量数据及流数据进行处理并调用相应的预设数据库,以构建业务应用,将应用中数据进行展示。
本方案中的HDFS具有以下功能:
存储非常大的文件:这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。
根据Hadoop官网,Yahoo!的Hadoop集群约有10万颗CPU,运行在4万个机器节点上。
采用流式的数据访问方式: HDFS基于这样的一个假设:最有效的数据处理模式是一次写入、多次读取数据集经常从数据源生成或者拷贝一次,然后在其上做很多分析工作
分析工作经常读取其中的大部分数据,即使不是全部。因此读取整个数据集所需时间比读取第一条记录的延时更重要。
运行于商业硬件上: Hadoop不需要特别贵的、reliable的(可靠的)机器,可运行于普通商用机器(可以从多家供应商采购),商用机器不代表低端机器。在集群中(尤其是大的集群),节点失败率是比较高的HDFS的目标是确保集群在节点失败的时候不会让用户感觉到明显的中断。
具体地在使用场景下, HDFS的数据分区被拆分成block-sized的chunk,chunk作为独立单元存储。数据分区便于快速锁定需要的数据,且数据存储独立进行,与其他数据不进行关联。
步骤一数据来源包括但不限于:从网站直接爬取下来的数据;以及内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上。
数据源包括常规的两种形态,其中网站爬取能够获得目前与数据相关的分类原则等,用于对后续的数据处理参考用;
内部数据存储,属于比较正常的方式,且采用sqoop命令将关系型数据库便于操作。
其中两个获得的数据互相备份共享。备份共享,使得数据存储的安全性。
而步骤一数据包括电网业务数据,所述电网业务数据至少包括:用电信息数据、电网网架数据、系统运维数据和电网运行数据。将本方案应用于电力系统中,更具有广泛的应用基础,能迅速获知漏电等数据。
实施例2:
除了上述实施例1给出的方案外,步骤一与步骤二之间还包括对异常数据进行筛选和剔除步骤:采用Spark离线并行计算方式进行数据的甄别,采用基于HDFS的分布式运行数据存储方式对数据进行存储。
离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,且在解决一个问题后就要立即得出结果的前提下进行的计算;根据计算结果,与上述的分区管理进行匹配。
更进一步地,筛选和剔除步骤之前还包括预处理步骤:空值处理、数据正确性验证、字段完整性处理和规范化数据格式。预处理步骤中的下述几个处理方式可以采用现有技术的实施方式,更为方便,快速。
除了实施例1给出的三个步骤外,还包括步骤四,用户处理步骤;当接收到验证指令时,所述操作指令包括携带所述用户组信息和所述验证通过标识;
上述验证指令通过后,进行操作指令,操作请求获取数据文件的一个以上密钥和数据文件的一个以上解密算法,并能对数据源中的数据人为干预。
本方式中用户操作分为两个大类进行实现,验证指令以及操作指令,该两个指令依次进行,保证了数据干预的准确性和安全性。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.基于HDFS的数据处理方法,其特征在于,包括以下步骤:
步骤一、将数据导入到HDFS中来创建数据源;
步骤二,用户对步骤一中创建的数据源中的数据进行处理,检测所述数据的变化并同时将数据进行分区处理,按预设规则在分区后的数据中抽取目标数据;
步骤三、并将目标数据通过显示屏页面显示或将处理结果指定到指定路径下的输出文件。
2.根据权利要求1所述的基于HDFS的数据处理方法,其特征在于,所述HDFS的数据分区被拆分成block-sized的chunk,chunk作为独立单元存储。
3.根据权利要求1所述的基于HDFS的数据处理方法,其特征在于,步骤一与步骤二之间还包括对异常数据进行筛选和剔除步骤:
采用Spark离线并行计算方式进行数据的甄别;采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。
4.根据权利要求3所述的基于HDFS的数据处理方法,其特征在于,所述筛选和剔除步骤之前还包括预处理步骤:空值处理、数据正确性验证、字段完整性处理和规范化数据格式。
5.根据权利要求1所述的基于HDFS的数据处理方法,其特征在于,所述步骤一数据来源包括但不限于:
从网站直接爬取下来的数据;以及内部数据存储,即通过sqoop命令将关系型数据库导入到HDFS上。
6.根据权利要求5所述的基于HDFS的数据处理方法,其特征在于,所述两个获得的数据互相备份共享。
7.根据权利要求1-6之一所述的基于HDFS的数据处理方法,其特征在于,所述步骤一数据包括电网业务数据,所述电网业务数据至少包括:用电信息数据、电网网架数据、系统运维数据和电网运行数据。
8.根据权利要求7所述的基于HDFS的数据处理方法,其特征在于,还包括步骤四,用户处理步骤;
当接收到验证指令时,所述操作指令包括携带所述用户组信息和所述验证通过标识;
上述验证指令通过后,进行操作指令,操作请求获取数据文件的一个以上密钥和数据文件的一个以上解密算法,并能对数据源中的数据人为干预。
CN201910721098.2A 2019-08-06 2019-08-06 基于hdfs的数据处理方法 Pending CN110609819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910721098.2A CN110609819A (zh) 2019-08-06 2019-08-06 基于hdfs的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910721098.2A CN110609819A (zh) 2019-08-06 2019-08-06 基于hdfs的数据处理方法

Publications (1)

Publication Number Publication Date
CN110609819A true CN110609819A (zh) 2019-12-24

Family

ID=68890512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910721098.2A Pending CN110609819A (zh) 2019-08-06 2019-08-06 基于hdfs的数据处理方法

Country Status (1)

Country Link
CN (1) CN110609819A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217175A (zh) * 2014-09-05 2014-12-17 北京邮电大学 一种数据读写方法和装置
CN106354876A (zh) * 2016-09-22 2017-01-25 珠海格力电器股份有限公司 一种数据处理系统和方法
CN109857817A (zh) * 2019-01-18 2019-06-07 国网江苏省电力有限公司电力科学研究院 全网域电子式互感器高频度计量数据甄别及数据处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217175A (zh) * 2014-09-05 2014-12-17 北京邮电大学 一种数据读写方法和装置
CN106354876A (zh) * 2016-09-22 2017-01-25 珠海格力电器股份有限公司 一种数据处理系统和方法
CN109857817A (zh) * 2019-01-18 2019-06-07 国网江苏省电力有限公司电力科学研究院 全网域电子式互感器高频度计量数据甄别及数据处理方法

Similar Documents

Publication Publication Date Title
CN111327681A (zh) 一种基于Kubernetes的云计算数据平台构建方法
CN104537076B (zh) 一种文件读写方法及装置
CN106649676B (zh) 一种基于hdfs存储文件的去重方法及装置
CN112654978B (zh) 分布式异构存储系统中数据一致性实时检查的方法、设备和系统
US9992269B1 (en) Distributed complex event processing
CN113254466A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN103166785A (zh) 基于Hadoop的分布式日志分析系统
CN111708794B (zh) 基于大数据平台的数据比对方法、装置和计算机设备
CN105045917A (zh) 一种基于实例的分布式数据恢复方法和装置
CN107133231B (zh) 一种数据获取方法和装置
CN111198914A (zh) 基于oracle数据库归档日志的整库实时数据采集方法
CN108255994A (zh) 一种基于数据库快照的数据库版本管理方法
CN103716384A (zh) 跨数据中心实现云存储数据同步的方法和装置
Thanekar et al. Big Data and MapReduce Challenges, Opportunities and Trends.
CN113760847A (zh) 日志数据处理方法、装置、设备及存储介质
US10162830B2 (en) Systems and methods for dynamic partitioning in distributed environments
CN111680017A (zh) 一种数据同步的方法及装置
US20210365300A9 (en) Systems and methods for dynamic partitioning in distributed environments
CN116383189A (zh) 业务数据的处理方法、装置、计算机设备、存储介质
CN113687964A (zh) 数据处理方法、装置、电子设备、存储介质及程序产品
CN115858322A (zh) 日志数据处理方法、装置和计算机设备
CN111651302A (zh) 分布式数据库备份方法,装置及系统
CN107566341B (zh) 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统
CN116303789A (zh) 多分片多副本数据库并行同步方法、装置及可读介质
CN110609819A (zh) 基于hdfs的数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191224