CN110119421A - 一种基于Spark流式分类的电力窃电用户识别方法 - Google Patents

一种基于Spark流式分类的电力窃电用户识别方法 Download PDF

Info

Publication number
CN110119421A
CN110119421A CN201910265689.3A CN201910265689A CN110119421A CN 110119421 A CN110119421 A CN 110119421A CN 201910265689 A CN201910265689 A CN 201910265689A CN 110119421 A CN110119421 A CN 110119421A
Authority
CN
China
Prior art keywords
data
spark
nginx
cluster
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910265689.3A
Other languages
English (en)
Inventor
吴晟
舒珏淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910265689.3A priority Critical patent/CN110119421A/zh
Publication of CN110119421A publication Critical patent/CN110119421A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于Spark流式分类的电力窃电用户识别方法。本发明利用Nginx实时收集来自电力系统的用户数据,并把全部数据传输至kafka集群队列。Spark Streaming会实时消费kafka集群队列里的数据,将数据读取出进行数据的预处理,并用Spark机器学习库MLlib实现决策树算法对窃电用户数据进行自动识别。经过Spark Streaming实时计算程序分析,将结果写入到Hbase数据库,可以实时获取窃电用户。本发明能够实时的处理来自电力系统的大量用户数据,具有高强度的容错性和实时性,并通过Spark MLlib库的决策树模型准确实时的识别出窃电用户。

Description

一种基于Spark流式分类的电力窃电用户识别方法
技术领域
本发明涉及一种基于Spark流式分类的电力窃电用户识别方法,主要针对物联网传来的海量电力用户数据进行实时处理,提高效率,属于基于云计算平台下的大数据处理技术领域。
背景技术
物联网技术和信息技术的飞速发展导致了信息资源的急剧增长,数据源产生的数据越来越多,处理数据的实时性需求越来越大,比如,早期的在网上产生的股市震荡数据或者地震预测消息是有价值的,时间长了价值就降低了。再比如,淘宝购物,系统会根据买家的日常购买信息,综合分析买家消费习性进行实时推荐,以促进消费。如何从海量的数据挖掘中挖掘出隐含的有用的信息并进行实时的分析统计引起人们越来越多的关注。目前最常用的大数据流的并行处理系统有Spark,Storm,Samza和Flink,这些系统都可以用于接收和处理实时的数据流。
Spark,是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。
Spark包含常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,SparkGraphX用于图计算。
Hadoop的核心组件为HDFS和Mapreduce,HDFS以不同机器作为数据存储节点,Mapreduce以分而治之思想作为计算引擎,同时Mapreduce组件是以非内存和离线分析为主的计算处理,无法满足大规模的数据的实时分析和统计要求。
Storm是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,但是它是针对每条记录的流式实时计算框架,由于每条数据都进行处理,所以吞吐量不高。
发明内容
本发明提供了一种基于Spark流式分类的电力窃电用户识别方法,本发明能够实时的处理来自电力系统的大量用户数据,具有高强度的容错性和实时性,并通过SparkMLlib库的决策树模型准确实时的识别出窃电用户。
本发明利用了Nginx把收集到的电力用户数据导入Kafka集群,通过SparkStreaming的高并发特性以direct方式和kakfa集群进行整合并对数据进行预处理,利用Spark MLlib库对数据进行分类模型计算,通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分析统计,分类并且识别窃电用户。
本发明的技术方案是:一种基于Spark流式分类的电力窃电用户识别方法,通过Nginx集群作为数据采集系统,不断的接收来自电力系统的用户数据流,利用Kafka集群作为消息缓存队列服务器,接收Nginx传过来的用户数据流,通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里,并在间隔时间内对内存中的数据块进行批处理,Spark通过算子对离散流进行数据的预处理,并把分析处理结果写入到Hbase数据库里,利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模,识别出窃电用户,并通过echarts进行可视化。
进一步地,所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下:
Step1、搭建Nginx集群采集数据,代替flume监听log文件夹,直接把数据导入kafka集群;具体包括:
Step1.1、上传Nginx压缩包到Linux集群,并解压;进入Nginx源码目录安装gcc编译器进行预编译;
Step1.2、编译安装Nginx,启动Nginx,查看Nginx的进程,验证是否开启;
为Nginx集群安装nginx-kafka插件,根据kafka的配置文件,修改Nginx.conf文件,使Nginx集群与kafka集群进行结合;
Step2、初始化创建SteamingContext对象,该对象中的参数包括:SparkContext和批处理时间,同时对批处理时间间隔进行参数的设置,从而找到批处理时间;
Step3、利用direct方式接收kafka集群的用户数据源,并存储在Spark Executor的内存中,之后SparkStreaming启动job对数据进行预处理,把处理之后的用户数据实时存入Hbase数据库里;
Step4、使用基于Hadoop平台的Spark MLlib库对传感器数据进行分类模型计算,通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分类分析,分类并且识别窃电用户的用电数据;
Step5、使用创建的HTable对象中的put()函数将获取到的窃电用户数据存入到Hbase数据库,并用echarts进行可视化展示。
Spark Streaming的容错机制是基于RDD的容错机制,分别为基于血统(lineage)的高度容错机制和检查点机制。血统的高度容错机制是每个RDD都是一个弹性分布式数据集,对RDD的操作产生新的RDD都会通过lineage来表达依赖关系,只要源数据丢失或者失真,或者任意一个RDD出错不可用,都可以通过原始数据进行操作计算而重新算出。检查点机制是由于lineage生命线很长,执行失败的恢复成本比较高,于是Spark Streaming周期性地把应用数据存储到诸如HDFS或Amazon S3这样的可靠存储系统中以供恢复时使用的机制叫做检查点机制。
使用HBase对海量实时数据进行存储。HBase的LSM树型存储结构使其具有实时读写数据的功能。Spark Streaming向HBase写入数据时对每一条数据执行插入操作,采用输出方法foreachRDD(func),将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集)。在进行数据写入时对数据流执行foreachRDD与foreachPartition操作,为每个分区创建一个cTable对象,提高数据读写效率。使用Spark机器学习中的Spark MLlib库对Hbase数据进行分类模型计算,流式决策分类算法包含训练以及预测两个部分,核心思想是先根据已经积累的历史数据训练出模型,然后根据历史数据推导的模型对新到的实时监测数据进行识别。通过使用MLlib算法组件,在Spark平台中实现决策树分类流程如下:(1)特征选取,即从众多特征中选择出一个作为当前节点的分类标准。(2)决策树生成,从上到下构建节点,形成一棵倒立的树。(3)剪枝,消除过拟合,需要对决策树剪枝。
本发明的有益效果是:本发明能够实时的处理来自电力系统的大量用户数据,具有高强度的容错性和实时性,并通过Spark MLlib库的决策树模型准确实时的识别出窃电用户。
附图说明
图1是本发明集群系统架构图。
图2是本发明所述的系统原理流程图。
图3是本发明所述的Spark Streaming写入Hbase工作流程图。
图4是SparkML决策树分类算法流程图。
具体实施方式
实施例1:如图1-4所示,一种基于Spark流式分类的电力窃电用户识别方法,通过Nginx集群作为数据采集系统,不断的接收来自电力系统的用户数据流,利用Kafka集群作为消息缓存队列服务器,接收Nginx传过来的用户数据流,通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里,并在间隔时间内对内存中的数据块进行批处理,Spark通过算子对离散流进行数据的预处理,并把分析处理结果写入到Hbase数据库里,利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模,识别出窃电用户,并通过echarts进行可视化。
进一步地,所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下:
Step1、搭建Nginx集群采集数据,代替flume监听log文件夹,直接把数据导入kafka集群;具体包括:
Step1.1、上传Nginx压缩包到Linux集群,并解压;进入Nginx源码目录安装gcc编译器进行预编译;
Step1.2、编译安装Nginx,启动Nginx,查看Nginx的进程,验证是否开启;
为Nginx集群安装nginx-kafka插件,根据kafka的配置文件,修改Nginx.conf文件,使Nginx集群与kafka集群进行结合;
Step2、初始化创建SteamingContext对象,该对象中的参数包括:SparkContext和批处理时间,同时对批处理时间间隔进行参数的设置,从而找到批处理时间;
Step3、利用direct方式接收kafka集群的用户数据源,并存储在Spark Executor的内存中,之后SparkStreaming启动job对数据进行预处理,把处理之后的用户数据实时存入Hbase数据库里;
Step4、使用基于Hadoop平台的Spark MLlib库对传感器数据进行分类模型计算,通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分类分析,分类并且识别窃电用户的用电数据;
Step5、使用创建的HTable对象中的put()函数将获取到的窃电用户数据存入到Hbase数据库,并用echarts进行可视化展示。
实施例2:如图1-4所示,一种基于Spark流式分类的电力窃电用户识别方法,所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下:
Step1、搭建Nginx集群采集数据,代替flume监听log文件夹,直接把数据导入kafka集群;具体包括:
Step1.1、上传Nginx压缩包到Linux集群,并解压;进入Nginx源码目录安装gcc编译器进行预编译;
Step1.2、编译安装Nginx,启动Nginx,查看Nginx的进程,验证是否开启;
为Nginx集群安装nginx-kafka插件,根据kafka的配置文件,修改Nginx.conf文件,使Nginx集群与kafka集群进行结合;
Step2、初始化创建SteamingContext对象,该对象中的参数包括:SparkContext和批处理时间,同时对批处理时间间隔进行参数的设置,从而找到批处理时间;
Step3、利用direct方式接收kafka集群的用户数据源,并存储在Spark Executor的内存中,之后SparkStreaming启动job对数据进行预处理,把处理之后的用户数据实时存入Hbase数据库里;
Step4、使用基于Hadoop平台的Spark MLlib库对传感器数据进行分类模型计算,通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分类分析,分类并且识别窃电用户的用电数据;
Step5、使用创建的HTable对象中的put()函数将获取到的窃电用户数据存入到Hbase数据库,并用echarts进行可视化展示。
本发明采用Spark Streaming是因为该数据处理引擎具有高可靠、数据实时分析延迟低、处理数据能力强等优点,达到实时对数据进行处理,避免了数据堆积。
kafka是一个分布式、高吞吐量、易于扩展的基于主题发布/订阅的消息系统,作为消息队列,kafka由于拥有高吞吐量,并且内置消息主题分区、备份、容错等特性,更适合使用在大规模,高强度的消息数据处理的系统中。
数据处理引擎Spark Streaming,它把数据流分成数据块存放在数据块队列中,然后在一定的批处理间隔对数据队列中的数据块进行统一处理,并可以通过调整批处理间隔从而达到对高速数据流和低速数据流的实时处理。
对海量实时数据进行处理与存储,必然会产生大量的数据。采用HBase的LSM树型存储结构存储传感器族群采集到的海量传感数据,使其具有实时读写数据的功能。
使用基于Spark框架的流式决策树分类方法,通过机器学习方式,将采集的数据进行分类分析,识别窃电用户。
Nginx集群不间断采集的电力用户数据,经过分析处理后传输至HBase非关系型数据库,通过MLlib对HBase中存储的电力用户数据进行决策树分类识别,并把分析结果通过echarts进行可视化。
使用HBase作为Spark Streaming中间数据的存储数据库可大为提高数据存取的效率。Spark Streaming向HBase写入数据时需要对每一条数据执行插入操作,采用输出方法foreachRDD(func),将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集),可以显著地提高数据存取效率。
MLlib是建立在Spark上的分布式机器学习库,MLlib支持分类、聚类、降维等主要机器学习算法。机器学习算法包含训练以及预测两个部分,首先根据已有的数据训练出模型,然后根据模型对待检测样本进行预测。决策树是使用最为广泛的分类算法之一,通过使用MLlib算法组件,在Spark平台中实现决策树分类。决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。在算法的实现上首先就是对特征的选取,从根节点开始,对实例的某一个特征进行测试,根据测试结果,将实例分配到其子节点。每一个子节点对应着该特征的一个值,如此递归向下移动,直至达到叶节点,最后将实例分配到叶节点的类中。
建立决策树算法的关键,即在当前状态下选择哪个特征作为分类依据。特征选择的标准是找出局部最优的特征,判断一个特征对于当前数据集的分类效果,即按照此特征进行分类后,不同分类的数据是否能被尽量分开。在算法中采用的是特征的信息增益大小作为特征选择的依据。
当数据到达流中时,需要动态地估计集群,更新它们作为新的数据到达。通过Spark.mllib实现流决策树分类,用参数来控制衰减。使用一个概括的小型批量决策树更新规则。对于每一批数据,特征各有不同,动态的根据信息增益计算选择特征作为根节点,依次进行划分。
通过对HBase中存储的电力用户数据进行决策树分类。将数据分为训练数据和预测数据。先将训练数据有监督的分为二类:将其分别标记:正常用电用户标记为1,窃电用户标记为0,从而得到决策树模型,之后利用此模型对预测数据进行分类达到自动识别窃电用户。
流式分类决策树算法采用如下算法实现:
输入:训练数据集D,特征集A,阈值ε。
输出:决策树T。
(1)若D中所有实例属于同一类,则决策树T为单节点树,并将该类作为该节点的类标记,返回T。
(2)若特征集为空,则决策树T为单节点树,并将训练数据集中实例最大的类作为该节点的标记,返回T。
(3)否则计算特征集A中各特征对训练集D的信息增益,选择信息增益最大的特征。
g(D,A)=H(D)-H(D|A)
g(D,A)为特征A对训练数据集D的信息增,H(D)为训练数据集D的经验熵,H(D|A)为特征A给定条件下D的经验条件熵。根据信息增益准则的特征选择方法是:对训练数据集(或子集)计算其每个特征的信息增益,选择信息增益最大的特征Ag
(4)如果选择的根特征Ag的信息增益小于阈值ε,则决策树为单节点树,并将训练数据集D中实例最大的类作为该节点的类标记,返回T。
(5)否则,对Ag的每一可能值ai,依据Ag=ai将D分割为若干非空子集Di,将Di中实例数最大的类作为标记,构建子结点,由结点及其子结点构成树T,返回T。
(6)对第i个子结点,以Di为训练集,以A-{Ag}为特征集,递归的调用步(1)~步(5),得到子树Ti,返回Ti
通过对HBase中存储的电力用户数据进行决策树分类。将数据分为训练数据和预测数据。先将训练数据有监督的分为二类:将其分别标记:正常用电用户标记为1,窃电用户标记为0,从而得到决策树模型,之后利用此模型对预测数据进行分类达到自动识别窃电用户。
Nginx集群不间断采集的电力用户数据,传输至Spark Streaming计算中心对数据进行预处理并储存入HBase数据库,基于MLlib库对HBase中存储积累的电力用户数据进行流式决策树分类,使用训练数据训练得出的决策树分类模型对新数据进行自动识别,判断是否窃电用户,并通过echarts进行可视化展示。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种基于Spark流式分类的电力窃电用户识别方法,其特征在于:通过Nginx集群作为数据采集系统,不断的接收来自电力系统的用户数据流,利用Kafka集群作为消息缓存队列服务器,接收Nginx传过来的用户数据流,通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里,并在间隔时间内对内存中的数据块进行批处理,Spark通过算子对离散流进行数据的预处理,并把分析处理结果写入到Hbase数据库里,利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模,识别出窃电用户,并通过echarts进行可视化。
2.根据权利要求1所述的基于Spark流式分类的电力窃电用户识别方法,其特征在于:所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下:
Step1、搭建Nginx集群采集数据,代替flume监听log文件夹,直接把数据导入kafka集群;具体包括:
Step1.1、上传Nginx压缩包到Linux集群,并解压;进入Nginx源码目录安装gcc编译器进行预编译;
Step1.2、编译安装Nginx,启动Nginx,查看Nginx的进程,验证是否开启;
为Nginx集群安装nginx-kafka插件,根据kafka的配置文件,修改Nginx.conf文件,使Nginx集群与kafka集群进行结合;
Step2、初始化创建SteamingContext对象,该对象中的参数包括:SparkContext和批处理时间,同时对批处理时间间隔进行参数的设置,从而找到批处理时间;
Step3、利用direct方式接收kafka集群的用户数据源,并存储在Spark Executor的内存中,之后SparkStreaming启动job对数据进行预处理,把处理之后的用户数据实时存入Hbase数据库里;
Step4、使用基于Hadoop平台的Spark MLlib库对传感器数据进行分类模型计算,通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分类分析,分类并且识别窃电用户的用电数据;
Step5、使用创建的HTable对象中的put()函数将获取到的窃电用户数据存入到Hbase数据库,并用echarts进行可视化展示。
CN201910265689.3A 2019-04-03 2019-04-03 一种基于Spark流式分类的电力窃电用户识别方法 Pending CN110119421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910265689.3A CN110119421A (zh) 2019-04-03 2019-04-03 一种基于Spark流式分类的电力窃电用户识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910265689.3A CN110119421A (zh) 2019-04-03 2019-04-03 一种基于Spark流式分类的电力窃电用户识别方法

Publications (1)

Publication Number Publication Date
CN110119421A true CN110119421A (zh) 2019-08-13

Family

ID=67520776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910265689.3A Pending CN110119421A (zh) 2019-04-03 2019-04-03 一种基于Spark流式分类的电力窃电用户识别方法

Country Status (1)

Country Link
CN (1) CN110119421A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570097A (zh) * 2019-08-15 2019-12-13 中国平安人寿保险股份有限公司 基于大数据的业务人员风险识别方法、装置及存储介质
CN111143314A (zh) * 2019-12-26 2020-05-12 厦门服云信息科技有限公司 一种基于高速流式处理技术的日志解析方法及系统
CN111200637A (zh) * 2019-12-20 2020-05-26 新浪网技术(中国)有限公司 一种缓存的处理方法及装置
CN111930508A (zh) * 2020-08-18 2020-11-13 上海浦东发展银行股份有限公司 基于行为数据的用户行为分析平台系统、方法及存储介质
CN112149884A (zh) * 2020-09-07 2020-12-29 南京莱斯网信技术研究院有限公司 一种面向大规模学员的学业预警监测方法
CN112485491A (zh) * 2020-11-23 2021-03-12 国网北京市电力公司 电力窃取的识别方法及装置
CN112860687A (zh) * 2019-11-27 2021-05-28 埃尔西斯株式会社 能源数据预处理系统
CN112925798A (zh) * 2019-12-06 2021-06-08 上海梅山钢铁股份有限公司 一种一键刷新自动获取带钢数据方法
CN113239081A (zh) * 2021-05-21 2021-08-10 瀚云科技有限公司 一种流式数据计算方法
CN113268505A (zh) * 2021-04-29 2021-08-17 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778033A (zh) * 2017-01-10 2017-05-31 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN107742127A (zh) * 2017-10-19 2018-02-27 国网辽宁省电力有限公司 一种改进的防窃电智能预警系统及方法
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN107968840A (zh) * 2017-12-15 2018-04-27 华北电力大学(保定) 一种大规模电力设备监测报警数据实时处理方法及系统
CN108062555A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于Spark流式聚类的监测数据预警系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062555A (zh) * 2016-11-08 2018-05-22 南京理工大学 基于Spark流式聚类的监测数据预警系统
CN106778033A (zh) * 2017-01-10 2017-05-31 南京邮电大学 一种基于Spark平台的Spark Streaming异常温度数据报警方法
CN107742127A (zh) * 2017-10-19 2018-02-27 国网辽宁省电力有限公司 一种改进的防窃电智能预警系统及方法
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN107968840A (zh) * 2017-12-15 2018-04-27 华北电力大学(保定) 一种大规模电力设备监测报警数据实时处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LU_XIAO_YUE: "kafka直接对接nginx", 《HTTPS://BLOG.CSDN.NET/LU_XIAO_YUE/ARTICLE/DETAILS/85208542》, 22 December 2018 (2018-12-22), pages 1 - 3 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110570097A (zh) * 2019-08-15 2019-12-13 中国平安人寿保险股份有限公司 基于大数据的业务人员风险识别方法、装置及存储介质
CN112860687A (zh) * 2019-11-27 2021-05-28 埃尔西斯株式会社 能源数据预处理系统
CN112925798A (zh) * 2019-12-06 2021-06-08 上海梅山钢铁股份有限公司 一种一键刷新自动获取带钢数据方法
CN111200637A (zh) * 2019-12-20 2020-05-26 新浪网技术(中国)有限公司 一种缓存的处理方法及装置
CN111200637B (zh) * 2019-12-20 2022-07-08 新浪网技术(中国)有限公司 一种缓存的处理方法及装置
CN111143314A (zh) * 2019-12-26 2020-05-12 厦门服云信息科技有限公司 一种基于高速流式处理技术的日志解析方法及系统
CN111930508A (zh) * 2020-08-18 2020-11-13 上海浦东发展银行股份有限公司 基于行为数据的用户行为分析平台系统、方法及存储介质
CN111930508B (zh) * 2020-08-18 2022-08-12 上海浦东发展银行股份有限公司 基于行为数据的用户行为分析平台系统、方法及存储介质
CN112149884A (zh) * 2020-09-07 2020-12-29 南京莱斯网信技术研究院有限公司 一种面向大规模学员的学业预警监测方法
CN112485491A (zh) * 2020-11-23 2021-03-12 国网北京市电力公司 电力窃取的识别方法及装置
CN113268505A (zh) * 2021-04-29 2021-08-17 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN113268505B (zh) * 2021-04-29 2021-11-30 广东海洋大学 一种多源多模态海洋大数据的离线批处理方法及系统
CN113239081A (zh) * 2021-05-21 2021-08-10 瀚云科技有限公司 一种流式数据计算方法

Similar Documents

Publication Publication Date Title
CN110119421A (zh) 一种基于Spark流式分类的电力窃电用户识别方法
CN105069703B (zh) 一种电网海量数据管理方法
CN107766929B (zh) 模型分析方法及装置
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN106777703A (zh) 一种公交乘客实时分析系统及其构建方法
CN103257921A (zh) 一种基于改进随机森林算法的软件故障预测系统及其方法
KR102236298B1 (ko) 빅데이터 기반의 인공지능 통합 플랫폼 시스템
CN109213752A (zh) 一种基于cim的数据清洗转换方法
CN110930198A (zh) 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备
US20170262773A1 (en) Method and system for generating a training model for fabricating synthetic data and for fabricating synthetic data
CN110188919A (zh) 一种基于长短期记忆网络的负荷预测方法
CN104036029A (zh) 大数据一致性对比方法和系统
Vu et al. Distributed adaptive model rules for mining big data streams
CN106649527A (zh) 基于Spark Streaming的广告点击异常检测系统及检测方法
CN109308290A (zh) 一种基于cim的高效数据清洗转换方法
CN109635104A (zh) 数据分类标识方法、装置、计算机设备及可读存储介质
CN110389932A (zh) 电力文件自动分类方法及装置
CN114297290A (zh) 一种电力营销数据共享应用平台
CN113705215A (zh) 一种基于元学习的大规模多标签文本分类方法
CN108563720A (zh) 基于ai的大数据推荐学习系统及推荐方法
CN106452829B (zh) 一种基于bcc-knn的云计算中心智能运维方法及系统
CN111988412A (zh) 一种多租户服务资源需求智能预测系统及方法
CN110287114A (zh) 一种数据库脚本性能测试的方法及装置
Li et al. A study on customer churn of commercial banks based on learning from label proportions
Genkin Zero-shot machine learning technique for classification of multi-user big data workloads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190813