CN105786864A - 一种实现海量数据离线分析的方法 - Google Patents

一种实现海量数据离线分析的方法 Download PDF

Info

Publication number
CN105786864A
CN105786864A CN201410814611.XA CN201410814611A CN105786864A CN 105786864 A CN105786864 A CN 105786864A CN 201410814611 A CN201410814611 A CN 201410814611A CN 105786864 A CN105786864 A CN 105786864A
Authority
CN
China
Prior art keywords
data
analysis
line
mining
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410814611.XA
Other languages
English (en)
Inventor
潘森
周爱华
朱力鹏
饶伟
黄进
蔡皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shandong Electric Power Co Ltd
Smart Grid Research Institute of SGCC
Original Assignee
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201410814611.XA priority Critical patent/CN105786864A/zh
Publication of CN105786864A publication Critical patent/CN105786864A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种实现海量数据离线分析的方法,所述方法包括(1)采集海量电力数据;(2)对海量电力数据预处理;(3)离线分析海量电力数据;(4)分析结果展示。通过本发明海量数据离线分析方法,可实现不同时空、不同业务、不同场景的电力数据资源的集中存储,统一管理,共享共用;通过对所存储的海量历史数据的分析和挖掘为管理层进行电力决策提供科学合理的依据。

Description

一种实现海量数据离线分析的方法
技术领域
本发明涉及一种离线分析的方法,具体讲涉及一种实现海量数据离线分析的方法。
背景技术
电力信息技术正向数据信息应用的智能融合方向发展,其运行模式将迈向为以服务为中心的新阶段,同时,企业数据资产的价值不断被发掘,信息化条件下的企业生产和决策将更加智能化。大数据正是新形势下技术融合型发展和应用智能化理念的集中体现,具有应对数据体量巨大、数据类型繁多、价值密度低和处理速度快等数据特征的技术架构,及以行业内外高附加值的内容增值服务为目标的应用模式,其核心就是信息资源的开发利用。
随着智能电网建设的不断深入和推进,电网运行和设备检/监测产生的数据量呈指数级增长,尤其是配电网规划、运行过程中产生的海量异构、多态的数据,逐渐构成了当今信息学界所关注的大数据。这些数据具有多时空、多来源、混杂和不确定性的特点。这些数据大多都存储在和业务紧密结合的Oracle系统,如何能够有效地分析利用这些数据,增加数据的鲁棒性和洁净度是配电网数据分析面临的问题和挑战。
发明内容
针对现有技术的不足,本发明提供一种实现海量数据离线分析的方法,包括数据采集部分、数据预处理部分、数据存储部分、离线数据分析处理部分和分析结果展示部分。
数据采集部分基于Sqoop数据交换工具和Hadoop文件传输指令实现,并可同时进行初步的数据预处理,数据采集完成后,为进一步的数据预处理提供源数据;数据预处理部分基于ETL工具和自定义数据预处理模块,对数据进行过滤、清洗、转换等处理,为数据存储提供有效的数据;数据存储部分基于HDFS分布式文件存储系统和内存存储,实现海量电力数据进行分布式快速存储,为数据分析处理提供支持;离线数据分析处理部分包括数据统计分析和数据挖掘,基于MapReduce和Spark计算框架,结合R语言挖掘平台,实现海量电力数据的统计分析和数据挖掘处理,并为数据展示提供数据支撑;分析结果展示部分基于基本图表、HTML5和D3控件,实现数据分析结果的交互式展现,为管理层进行电力决策提供直观的数据支持。
本发明的目的是采用下述技术方案实现的:
一种实现海量数据离线分析的方法,其改进之处在于,所述方法包括
(1)采集海量电力数据;
(2)对海量电力数据预处理;
(3)离线分析海量电力数据;
(4)分析结果展示。
优选的,所述步骤(1)包括采集电力离线数据,其包括Sqoop采集部分和Put采集部分;所述Sqoop采集部分运用Sqoop文件交换技术,采集各种形式的数据库表,直接将数据表存储到HDFS文件系统中,也可以Hive或HBase数据表的形式进行存储;所述Put采集部分直接将各种格式的数据文件或文件目录直接上传到HDFS文件系统中。
优选的,所述步骤(1)中对于流式数据,可采用Kafka采集工具,将流式数据汇聚到Kafka集群,由HBase进行存储处理;针对大数据文件,可采用FTP协议或本地化上传的方式导入到Hadoop中。
进一步地,所述HDFS以数据块的形式进行存储,每块数据块默认存储三份,设置数据块大小为128M,采用默认的存储份数;内存数据库将数据文件直接存储到内存中。
优选的,所述步骤(2)包括通过ETL工具和自定义代码模块进行数据清洗和处理,清除无效数据,过滤异常值和无意义的值,提高离线数据的质量。
优选的,所述步骤(3)包括统计分析和数据挖掘;所述统计分析基于Hive和HBase工具,通过Spark和MapReduce计算框架,构建统计分析平台,提供对离线数据的查询检索分析功能;所述数据挖掘是通过集成RStudio页面IDE,提供基于Spark计算框架的R语言运行和开发环境,并集成基本的挖掘算法,支持自定义挖掘算法,提供对离线数据的挖掘分析。
优选的,所述步骤(4)包括静态展示和交互式动态展示;所述静态展示主要以图表、文字形式对分析结果进行说明展示;所述交互式动态展示基于动态展示技术,提供与用户间的交互,以动画、3D、动态图形式,实现对离线数据的分析结果的可视化。
与现有技术比,本发明的有益效果为:
数据采集通过Kafka采集工具,很好地解决了流式数据采集的高延时问题以及采集数据量的瓶颈;利用Sqoop工具,基于MapReduce分布式处理框架,极大地提高了数据的采集效率;数据预处理通过数据清洗模块和ETL工具,提高了数据的采集质量。数据存储采用HDFS分布式文件系统,解决了海量数据存储的容量瓶颈,同时保证了数据的安全性;部分数据表采用内存存储,极大地提高了数据的存储和读取速度。数据分析利用MapReduce和Spark计算框架分布式并行计算的优点,分析速度大幅度提高;基于R的数据挖掘模块,简化了数据挖掘的流程,提高了数据挖掘的效率。数据展示以静态和动态结合的形式对数据分析结果加以展示,可与用户进行交互式展示。
通过所述海量数据离线分析方法,可实现不同时空、不同业务、不同场景的电力数据资源的集中存储,统一管理,共享共用;通过对所存储的海量历史数据的分析和挖掘为管理层进行电力决策提供科学合理的依据。
附图说明
图1为本发明提供的一种实现海量数据离线分析的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明一种实现海量数据离线分析的方法,包括海量电力数据的采集、海量电力数据的预处理、海量电力数据的离线分析、分析结果展示,实现了基于Hadoop和Spark框架的离线数据分析模型。。
其中,Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,它用于支持分布式应用程序,能够使用服务器集群分析超大型数据,然后将其转换为更易于这些应用程序使用的形式。程序员可以利用这个框架编写程序,实现对海量数据的计算和处理。此外,Hadoop还提供了分布式文件系统(HDFS)及分布式数据库(HBase)用来管理节点上的分布式数据。利用Hadoop框架及MapReduce编程思想来实现海量数据的计算和存储,并且将HDFS分布式文件系统和HBase分布式数据库很好的融入到分布式计算系统中,从而实现海量数据处理的并行性和高效性,并且得以实现很好的处理大规模数据的能力。
HDFS分布式文件系统。HDFS是HadoopDistributedFileSystem的缩写,即:Hadoop分布式文件系统,它为分布式计算存储提供底层支持。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。
HDFS能够通过将数据分解为数据块,并将数据块散布于大量工作节点中,实现容错和高性能。HDFS集群是由单独的Namenode联合若干的Datanode组成。HDFS采用master/slave架构。Namenode维护整个系统的文件系统。Datanode每个系统集群单独配置,处理节点上的系统存储单元。在内部,一个文件以block进行划分,每个Datanode集合管理若干个block。
Map/Reduce计算框架。Map/Reduce框架由一个单独的Master和集群节点Slave共同组成。Master负责调度构成一个作业的所有任务,这些任务分布在不同的Slave上,Master监控它们的执行,重新执行已经失败的任务。而Slave仅负责执行由Master指派的任务。
Map/Reduce作为一种高效的任务调度模型,它将一个任务分成很多更细粒度的子任务,这些子任务能够在空闲的处理节点之间调度,使处理速度越快的节点处理越多的任务,从而避免处理速度慢的节点延长整个任务的完成时间。执行一个Map/Reduce操作需要8个步骤:作业提交,任务指派,任务数据读取,执行Map任务,本地写中间文件,远程读中间文件,执行Reduce任务,输出结果。
Spark计算框架。Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
本发明种一种实现海量数据离线分析的方法,具体流程如下:
数据采集部分负责电力离线数据的采集,包括Sqoop采集部分、Put采集部分。
Sqoop采集部分运用Sqoop文件交换技术,采集各种形式的数据库表,如Oracle、Mysql等,可直接将数据表存储到HDFS文件系统中,也可以以Hive或HBase数据表的形式进行存储。Put采集部分可直接将各种格式的数据文件或文件目录直接上传到HDFS文件系统中,供进一步的处理。
数据预处理部分。
通过ETL工具和自定义代码模块进行数据清洗和处理,清除无效数据,过滤异常值和无意义的值,提高离线数据的质量。
数据分析部分,包括统计分析和数据挖掘。
统计分析基于Hive和HBase工具,通过Spark和MapReduce计算框架,构建统计分析平台,提供对离线数据的查询检索分析等功能。数据挖掘是通过集成RStudio页面IDE,提供基于Spark计算框架的R语言运行和开发环境,并集成基本的挖掘算法,支持自定义挖掘算法,提供对离线数据的挖掘分析。
数据展示部分,包括静态展示和交互式动态展示。
静态展示主要以图表、文字等形式对分析结果进行说明展示。交互式动态展示基于动态展示技术,提供与用户间的交互,以动画、3D、动态图等形式,实现对离线数据的分析结果的可视化。
该方法在电力大数据的应用过程中,可简化电力大数据离线分析的流程,提高了离线数据的处理速度和效率,可更形象地向用户展示分析结果信息,进一步推动电力大数据的应用。
其中,Hadoop作为著名开源组织Apache旗下专注于分布式存储和计算的开源项目,越来越收到重视,它可以大规模集中处理和分析展现数据系统式,统筹规划庞大的数据,实现海量数据的高效处理,现在广泛应用于分布式存储、网页搜索、日志分析、广告计算、分布式计算、数据挖掘等领域。
实施例
本发明利用Hadoop平台集群海量数据的分布式存储和高效快速的并行计算能力,具体为:
数据采集和预处理。对于不同的电力大数据类型,可采用多样化的数据采集模式。针对于流式数据,采用Kafka采集工具,将流式数据汇聚到Kafka集群,再由HBase进行存储处理。针对关系数据库,采用Sqoop数据交换工具,并结合可自定义配置的数据清洗模块,通过Map-Reduce分布式计算框架,实现关系型数据到HDFS或HBase分布式导入。同时,Sqoop提供了数据的增量导入功能。针对大数据文件,则需要采用FTP协议或本地化上传的方式导入到Hadoop中。电力大数据存放到HDFS后,可通过ETL工具进行数据的清洗、转换、过滤等预处理工作。
数据存储。以Hadoop的HDFS分布式存储系统为主要的存储介质,同时提供内存数据库的存储模式。对于大数据文件,直接以HDFS的形式进行存储;对于结构化的数据,可通过HBase或Hive数据表保存在HDFS中,也可以Hive数据表的形式,存储在内存中,形成内存数据库。HDFS以数据块的形式进行存储,每块数据块默认存储三份,本方法设置的数据块大小为128M,采用默认的存储份数;内存数据库是将数据文件直接存储到内存中,提高数据的读取速度,进而提高数据的处理速度。
数据分析。数据分布包括统计分析和数据挖掘两部分,统计分析基于MapReduce和Spark计算框架实现,数据挖掘基于R语言和Spark计算框架实现。统计分析通过HBase或Hive数据表提供的统计检索功能,执行时调用MapReduce(HBase)或Spark(Hive)分布式计算,对于Hive来说,通过Spark计算框架和内存数据库,大大提高计算速度。数据挖掘模块提供了页面式数据挖掘平台,只需使用者选定挖掘方法,如Kmeans聚类算法、Bayes分类算法等,选择HDFS分布式文件系统上的数据集或Hive数据表,即可执行数据挖掘任务。
可视化展示。可视化展示利用基本图表、HTML5和D3进行静态和动态结合的交互式展示。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (7)

1.一种实现海量数据离线分析的方法,其特征在于,所述方法包括
(1)采集海量电力数据;
(2)对海量电力数据预处理;
(3)离线分析海量电力数据;
(4)分析结果展示。
2.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步骤(1)包括采集电力离线数据,其包括Sqoop采集部分和Put采集部分;所述Sqoop采集部分运用Sqoop文件交换技术,采集各种形式的数据库表,直接将数据表存储到HDFS文件系统中,也可以Hive或HBase数据表的形式进行存储;所述Put采集部分直接将各种格式的数据文件或文件目录直接上传到HDFS文件系统中。
3.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步骤(1)中对于流式数据,可采用Kafka采集工具,将流式数据汇聚到Kafka集群,由HBase进行存储处理;针对大数据文件,可采用FTP协议或本地化上传的方式导入到Hadoop中。
4.如权利要求2所述的一种实现海量数据离线分析的方法,其特征在于,所述HDFS以数据块的形式进行存储,每块数据块默认存储三份,设置数据块大小为128M,采用默认的存储份数;内存数据库将数据文件直接存储到内存中。
5.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步骤(2)包括通过ETL工具和自定义代码模块进行数据清洗和处理,清除无效数据,过滤异常值和无意义的值,提高离线数据的质量。
6.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步骤(3)包括统计分析和数据挖掘;所述统计分析基于Hive和HBase工具,通过Spark和MapReduce计算框架,构建统计分析平台,提供对离线数据的查询检索分析功能;所述数据挖掘是通过集成RStudio页面IDE,提供基于Spark计算框架的R语言运行和开发环境,并集成基本的挖掘算法,支持自定义挖掘算法,提供对离线数据的挖掘分析。
7.如权利要求1所述的一种实现海量数据离线分析的方法,其特征在于,所述步骤(4)包括静态展示和交互式动态展示;所述静态展示主要以图表、文字形式对分析结果进行说明展示;所述交互式动态展示基于动态展示技术,提供与用户间的交互,以动画、3D、动态图形式,实现对离线数据的分析结果的可视化。
CN201410814611.XA 2014-12-24 2014-12-24 一种实现海量数据离线分析的方法 Pending CN105786864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410814611.XA CN105786864A (zh) 2014-12-24 2014-12-24 一种实现海量数据离线分析的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410814611.XA CN105786864A (zh) 2014-12-24 2014-12-24 一种实现海量数据离线分析的方法

Publications (1)

Publication Number Publication Date
CN105786864A true CN105786864A (zh) 2016-07-20

Family

ID=56377349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410814611.XA Pending CN105786864A (zh) 2014-12-24 2014-12-24 一种实现海量数据离线分析的方法

Country Status (1)

Country Link
CN (1) CN105786864A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294822A (zh) * 2016-08-17 2017-01-04 国网上海市电力公司 一种电力数据可视化系统
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106709035A (zh) * 2016-12-29 2017-05-24 贵州电网有限责任公司电力科学研究院 一种电力多维全景数据的预处理系统
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN106844782A (zh) * 2017-03-10 2017-06-13 山东省科学院情报研究所 一种面向网络的多通道大数据采集系统及方法
CN106844546A (zh) * 2016-12-30 2017-06-13 江苏号百信息服务有限公司 基于Spark集群的多数据源位置信息融合方法及系统
CN106919697A (zh) * 2017-03-07 2017-07-04 郑州云海信息技术有限公司 一种将数据同时导入多个Hadoop组件的方法
CN107153709A (zh) * 2017-05-17 2017-09-12 郑州云海信息技术有限公司 一种数据导入方法及装置
CN107391752A (zh) * 2017-08-16 2017-11-24 四川长虹电器股份有限公司 一种基于hadoop平台构建用户标签信息的方法
CN107463610A (zh) * 2017-06-27 2017-12-12 北京小度信息科技有限公司 一种数据入库方法及装置
CN107465574A (zh) * 2017-08-07 2017-12-12 南京华盾电力信息安全测评有限公司 互联网网站群平台系统及其并行隔离流式计算方法
CN107704487A (zh) * 2017-08-15 2018-02-16 北京新能源汽车股份有限公司 基于车联网的数据分析平台和方法
CN107766147A (zh) * 2016-08-23 2018-03-06 上海宝信软件股份有限公司 分布式的数据分析任务调度系统
CN107807983A (zh) * 2017-10-30 2018-03-16 辽宁大学 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN107959697A (zh) * 2016-10-17 2018-04-24 腾讯科技(深圳)有限公司 大数据离线计算中的源数据采集方法和系统
CN108021607A (zh) * 2017-10-31 2018-05-11 安徽四创电子股份有限公司 一种基于大数据平台的无线城市审计数据离线分析方法
CN108052574A (zh) * 2017-12-08 2018-05-18 南京中新赛克科技有限责任公司 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法
CN108109075A (zh) * 2017-12-04 2018-06-01 广东电网有限责任公司电力科学研究院 一种基于分布式技术的离线计算平台
CN108563568A (zh) * 2018-04-11 2018-09-21 苏州龙游山海网络科技有限公司 一种基于聚类分析的应用性能瓶颈检测与诊断方法
CN108595480A (zh) * 2018-03-13 2018-09-28 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN108804601A (zh) * 2018-05-29 2018-11-13 国网浙江省电力有限公司 电网运营监测大数据主动式分析方法及装置
CN109067837A (zh) * 2018-07-03 2018-12-21 沈阳电电科技有限公司 配电设备物联与信息采集平台
CN109271581A (zh) * 2018-08-02 2019-01-25 北京天元创新科技有限公司 一种基于Dashboard的大数据快速呈现方法
CN109766373A (zh) * 2018-11-30 2019-05-17 厦门亿力吉奥信息科技有限公司 电网数据展示方法及计算机可读存储介质
CN109800782A (zh) * 2018-12-11 2019-05-24 国网甘肃省电力公司金昌供电公司 一种基于模糊knn算法的电网故障检测方法及装置
CN110019453A (zh) * 2017-10-19 2019-07-16 航天信息股份有限公司 一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统
CN110188093A (zh) * 2019-05-21 2019-08-30 江苏锐天信息科技有限公司 一种基于大数据平台针对ais信息源的数据挖掘系统
CN110413622A (zh) * 2019-08-01 2019-11-05 国网内蒙古东部电力有限公司信息通信分公司 一种基于电力大数据平台的数据处理方法
CN110781235A (zh) * 2019-10-24 2020-02-11 珠海格力电器股份有限公司 基于大数据的采购数据处理方法、装置、终端及存储介质
CN112148747A (zh) * 2020-09-08 2020-12-29 银清科技有限公司 一种基于r语言的交易系统日志分析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011185A1 (en) * 2003-08-29 2007-01-11 Robinson John Apparatus and method for data analysis
CN104156810A (zh) * 2014-07-31 2014-11-19 国网山东省电力公司 一种基于云计算的电力调度生产管理系统及其实现方法
CN104462314A (zh) * 2014-11-28 2015-03-25 国家电网公司 电网数据处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011185A1 (en) * 2003-08-29 2007-01-11 Robinson John Apparatus and method for data analysis
CN104156810A (zh) * 2014-07-31 2014-11-19 国网山东省电力公司 一种基于云计算的电力调度生产管理系统及其实现方法
CN104462314A (zh) * 2014-11-28 2015-03-25 国家电网公司 电网数据处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈宗海: "《系统仿真技术及其应用》", 30 September 2014 *
黄迪明: "《软件技术基础》", 30 June 2014 *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294822A (zh) * 2016-08-17 2017-01-04 国网上海市电力公司 一种电力数据可视化系统
CN107766147A (zh) * 2016-08-23 2018-03-06 上海宝信软件股份有限公司 分布式的数据分析任务调度系统
CN106484877A (zh) * 2016-10-14 2017-03-08 东北大学 一种基于hdfs的文件检索系统
CN106484877B (zh) * 2016-10-14 2019-04-26 东北大学 一种基于hdfs的文件检索系统
CN107959697B (zh) * 2016-10-17 2019-12-06 腾讯科技(深圳)有限公司 大数据离线计算中的源数据采集方法和系统
CN107959697A (zh) * 2016-10-17 2018-04-24 腾讯科技(深圳)有限公司 大数据离线计算中的源数据采集方法和系统
CN106484914A (zh) * 2016-10-26 2017-03-08 国云科技股份有限公司 一种快速实现数据挖掘分析的模块组件化方法
CN106528865A (zh) * 2016-12-02 2017-03-22 航天科工智慧产业发展有限公司 一种快速精准的交通大数据清洗方法
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN106709035A (zh) * 2016-12-29 2017-05-24 贵州电网有限责任公司电力科学研究院 一种电力多维全景数据的预处理系统
CN106709035B (zh) * 2016-12-29 2019-11-26 贵州电网有限责任公司电力科学研究院 一种电力多维全景数据的预处理系统
CN106844546A (zh) * 2016-12-30 2017-06-13 江苏号百信息服务有限公司 基于Spark集群的多数据源位置信息融合方法及系统
CN106919697B (zh) * 2017-03-07 2020-09-25 浪潮云信息技术股份公司 一种将数据同时导入多个Hadoop组件的方法
CN106919697A (zh) * 2017-03-07 2017-07-04 郑州云海信息技术有限公司 一种将数据同时导入多个Hadoop组件的方法
CN106844782A (zh) * 2017-03-10 2017-06-13 山东省科学院情报研究所 一种面向网络的多通道大数据采集系统及方法
CN106844782B (zh) * 2017-03-10 2020-03-20 山东省科学院情报研究所 一种面向网络的多通道大数据采集系统及方法
CN107153709A (zh) * 2017-05-17 2017-09-12 郑州云海信息技术有限公司 一种数据导入方法及装置
CN107153709B (zh) * 2017-05-17 2020-09-04 浪潮云信息技术股份公司 一种数据导入方法及装置
CN107463610A (zh) * 2017-06-27 2017-12-12 北京小度信息科技有限公司 一种数据入库方法及装置
CN107463610B (zh) * 2017-06-27 2021-01-26 北京星选科技有限公司 一种数据入库方法及装置
CN107465574B (zh) * 2017-08-07 2020-11-10 南京华盾电力信息安全测评有限公司 互联网网站群平台系统及其并行隔离流式计算方法
CN107465574A (zh) * 2017-08-07 2017-12-12 南京华盾电力信息安全测评有限公司 互联网网站群平台系统及其并行隔离流式计算方法
CN107704487A (zh) * 2017-08-15 2018-02-16 北京新能源汽车股份有限公司 基于车联网的数据分析平台和方法
CN107391752A (zh) * 2017-08-16 2017-11-24 四川长虹电器股份有限公司 一种基于hadoop平台构建用户标签信息的方法
CN110019453A (zh) * 2017-10-19 2019-07-16 航天信息股份有限公司 一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统
CN107807983A (zh) * 2017-10-30 2018-03-16 辽宁大学 一种支持大规模动态图数据查询的并行处理框架及设计方法
CN108021607A (zh) * 2017-10-31 2018-05-11 安徽四创电子股份有限公司 一种基于大数据平台的无线城市审计数据离线分析方法
CN108109075A (zh) * 2017-12-04 2018-06-01 广东电网有限责任公司电力科学研究院 一种基于分布式技术的离线计算平台
CN108052574A (zh) * 2017-12-08 2018-05-18 南京中新赛克科技有限责任公司 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法
CN108595480A (zh) * 2018-03-13 2018-09-28 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN108595480B (zh) * 2018-03-13 2022-01-21 广州市优普科技有限公司 一种基于云计算的大数据etl工具系统及应用方法
CN108563568A (zh) * 2018-04-11 2018-09-21 苏州龙游山海网络科技有限公司 一种基于聚类分析的应用性能瓶颈检测与诊断方法
CN108804601A (zh) * 2018-05-29 2018-11-13 国网浙江省电力有限公司 电网运营监测大数据主动式分析方法及装置
CN109067837A (zh) * 2018-07-03 2018-12-21 沈阳电电科技有限公司 配电设备物联与信息采集平台
CN109271581A (zh) * 2018-08-02 2019-01-25 北京天元创新科技有限公司 一种基于Dashboard的大数据快速呈现方法
CN109766373A (zh) * 2018-11-30 2019-05-17 厦门亿力吉奥信息科技有限公司 电网数据展示方法及计算机可读存储介质
CN109800782A (zh) * 2018-12-11 2019-05-24 国网甘肃省电力公司金昌供电公司 一种基于模糊knn算法的电网故障检测方法及装置
CN110188093A (zh) * 2019-05-21 2019-08-30 江苏锐天信息科技有限公司 一种基于大数据平台针对ais信息源的数据挖掘系统
CN110413622A (zh) * 2019-08-01 2019-11-05 国网内蒙古东部电力有限公司信息通信分公司 一种基于电力大数据平台的数据处理方法
CN110413622B (zh) * 2019-08-01 2023-01-24 国家电网有限公司 一种基于电力大数据平台的数据处理方法
CN110781235A (zh) * 2019-10-24 2020-02-11 珠海格力电器股份有限公司 基于大数据的采购数据处理方法、装置、终端及存储介质
CN112148747A (zh) * 2020-09-08 2020-12-29 银清科技有限公司 一种基于r语言的交易系统日志分析方法及装置

Similar Documents

Publication Publication Date Title
CN105786864A (zh) 一种实现海量数据离线分析的方法
Belcastro et al. Programming models and systems for big data analysis
Al-Jumaili et al. Big data analytics using cloud computing based frameworks for power management systems: Status, constraints, and future recommendations
Bhardwaj et al. Big data emerging technologies: A CaseStudy with analyzing twitter data using apache hive
Samadi et al. Comparative study between Hadoop and Spark based on Hibench benchmarks
CN108804630B (zh) 一种面向行业应用的大数据智能分析服务系统
Zhu et al. A framework-based approach to utility big data analytics
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
CN103399887A (zh) 一种海量日志的查询与统计分析系统
CN102799622A (zh) 基于MapReduce扩展框架的分布式SQL查询方法
CN104239144A (zh) 一种多级分布式任务处理系统
CN103514205A (zh) 海量数据处理方法和系统
CN106371924B (zh) 一种最小化MapReduce集群能耗的任务调度方法
CN106780149A (zh) 一种基于定时任务调度的设备实时监测系统
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN106097161A (zh) 水务管理系统及其数据处理方法
CN112214541A (zh) 一种电力监测数据的深度解耦与数据协同方法
CN105468756A (zh) 一种海量数据处理系统的设计和实现方法
Benlachmi et al. Big data and spark: Comparison with hadoop
Luo et al. Configuration optimization method of Hadoop system performance based on genetic simulated annealing algorithm
Mao et al. An optimal distributed K-Means clustering algorithm based on cloudstack
CN115439015B (zh) 基于数据中台的局域电网数据管理方法、装置及设备
Moguel et al. Multilayer big data architecture for remote sensing in Eolic parks
CN116661753A (zh) 一种基于逻辑图组态的用户自定义逻辑计算方法及系统
Cai et al. A recommendation-based parameter tuning approach for Hadoop

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20171016

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: State Grid Smart Grid Institute

Applicant after: State Grid Shandong Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: State Grid Shandong Electric Power Company

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: China Electric Power Research Institute

Applicant after: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE

Applicant after: State Grid Shandong Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: China Electric Power Research Institute

Applicant before: State Grid Smart Grid Institute

Applicant before: State Grid Shandong Electric Power Company

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720