CN110019106A - 一种智能电网的电力营销海量数据处理方法及系统 - Google Patents
一种智能电网的电力营销海量数据处理方法及系统 Download PDFInfo
- Publication number
- CN110019106A CN110019106A CN201910215137.1A CN201910215137A CN110019106A CN 110019106 A CN110019106 A CN 110019106A CN 201910215137 A CN201910215137 A CN 201910215137A CN 110019106 A CN110019106 A CN 110019106A
- Authority
- CN
- China
- Prior art keywords
- data
- marketing
- distributed
- electric power
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000003066 decision tree Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 30
- 238000007726 management method Methods 0.000 claims abstract description 12
- 230000000712 assembly Effects 0.000 claims abstract description 11
- 238000000429 assembly Methods 0.000 claims abstract description 11
- 238000009825 accumulation Methods 0.000 claims abstract description 10
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000003672 processing method Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000009966 trimming Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000013517 stratification Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000013079 data visualisation Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000012432 intermediate storage Methods 0.000 claims description 2
- 230000005611 electricity Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种智能电网的电力营销海量数据处理方法,先对数据源层中营销数据进行数据抽取、转换、修正和加载等集成处理操作,在分布式集群中搭建基于Hadoop的分布式文件系统,分布式文件系统用于转存中间计算结果,并安装配置Spark计算框架,Spark计算框架中包含用于实时计算的流处理模块和用于离线分析的批处理模块;通过营销数据决策树算法对电力营销数据进行分类,依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析,挖掘电力营销数据的潜藏价值,从数据层面为电力企业高层管理人员提供决策分析功能。本发明满足电力企业应用场合下的实际处理需求,提升电力企业营销系统的处理效率与业务扩展性。
Description
技术领域
本发明涉及数据处理相关技术领域,具体是一种智能电网的电力营销海量数据处理方法及系统。
背景技术
由于近些年我国电力企业的快速发展,电力行业进入到市场化改革的关键时段,在电力企业内部以营销为重点、以客户服务为基础,对电力企业提出了更高的要求,需要应对不断变化的环境及不同的客户做出迅速的高效的应对方案。在这个数据时代,信息通信系统与智能电网的结合,已经成为电力系统高效运行管理的必要途径。在智能电网中,打通数据之间的链接,使之成为一个整体,才能体现出数据的价值。可是现有电力营销系统的计算平台在面对海量数据的交换、处理、存储及应用这几个方面都表现的十分吃力。此外,昂贵的电力营销信息系统平台还存在成本过高,性能不达标等问题,通过简单的设备升级已经跟不上数据增长速度,进而要求计算平台兼具处理效率与扩展性。
以Hadoop为代表的批处理框架经过十余年的发展已经趋近成熟,凭借其高可靠性、高扩展性和高容错性等优点,批处理计算模式在智能电网大数据处理领域已经得到了初步的应用。然而,批处理框架更加适用于大规模的离线数据处理,受限于自身计算模型,其数据处理的实时性和吞吐率越来越难以满足当今电力企业营销系统需求。随着电力营销数据量的积累,将会对电网运行监控设备、数据传输和存储系统造成巨大负担,危及智能电网的安全运行。
Spark计算框架被称为下一代大数据处理引擎,在极短的时间里崭露头角,并以燎原之势席卷业界。Spark对曾经引爆大数据产业革命的Hadoop计算平台的改进主要体现在以下几个方面:Spark处理速度更快,吞吐量更大,能胜任电力营销数据流处理任务;Spark丰富的扩展接口带来了更强大的易用性,Spark不单单支持传统批处理应用,更支持交互式查询、流式计算、机器学习、图计算等多种应用,满足电力企业营销的业务扩展需求和智能化要求。
对于智能电网来说,数据处理速度至关重要,数据量越大,数据处理时间越长,假如超出当前计算平台的承受范围,将会对智能电网的运行造成不良影响,甚至造成电网局部瘫痪。另外,结合智能电网中多源异构电力营销海量数据的应用需求,需要基于已有大数据处理平台上构建各类电力营销大数据应用,为数据集成、数据存储、数据处理及数据分析等服务提供坚强的基础平台和支撑技术。为此提出一种电力营销海量数据的快速并行处理新方法,该方法将电力营销数据进行集成化处理后,通过分布式发布订阅消息中间件,将数据传输给以Spark为计算核心、Hadoop为存储底层的融合计算平台进行处理,计算结果经集中分类后存储至分布式文件系统或分布式数据库,有效提高数据处理效率,满足电力企业多样化的应用需求,深层次挖掘电力营销数据潜藏价值。
发明内容
本发明的目的在于针对现有技术存在的不足,提供能够提升电力营销系统的处理效率和扩展性的一种智能电网的电力营销海量数据处理方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种智能电网的电力营销海量数据处理方法,其特征在于:具体步骤如下:
(1)电力营销系统海量数据集成化接入:
将多源异构的原始电力营销数据提取到系统后,先对数据源层中传输的营销数据进行数据抽取、转换、修正和加载等一系列集成处理操作,完成电力企业外部数据和内部累积数据的整合,并在数据集成层末端引入了分布式发布订阅消息中间件,将电力营销海量数据快速高效地接入分布式集群中;
(2)营销数据实时计算与离线分析:
在分布式集群中搭建基于Hadoop的分布式文件系统,所述分布式文件系统用于转存中间计算结果,并安装配置Spark计算框架,所述Spark计算框架中包含用于实时计算的流处理模块和用于离线分析的批处理模块;实时计算模式下,在流处理模块中配置连接分布式发布订阅消息中间件的数据接口,电力营销海量数据经分布式发布订阅消息中间件,被直接传输到流处理模块中进行实时计算,其计算结果可以转存到分布式文件系统中,方便后续计算再次调用,或者直接将其计算结果存储至分布式数据库中;离线分析模式下,在分布式文件系统中配置连接分布式发布订阅消息中间件的数据接口,先由分布式发布订阅消息中间件将电力营销数据传输至分布式文件系统中进行中间存储,再由批处理模块对中间存储数据进行提取,在完成营销数据离线分析后,计算结果可以继续保存在分布式文件系统中用于后续计算调用,或存储至分布式数据库中;
(3)营销数据存储管理:
在进行计算结果的集中存储前,通过采用改进后的营销数据决策树算法对电力营销数据进行指定分类,经过选择营销数据特征、生成营销数据决策树、修剪营销数据决策树三个步骤,实现存储操作前的数据合理分类,并配置已搭建的分布式数据库,在分布式数据库中建立面向列族的可无限扩张的数据存储表,用于分别存储经实时计算和离线分析后的电力营销海量数据,当计算结果传输至分布式数据库中,将会调用集群中多台数据库服务器进行数据保存,实现电力营销海量数据的分布式列族可靠存储;
(4)营销数据上层应用:
数据应用层主要包括营销数据挖掘、多维度数据分析、数据可视化,即依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析,深层次挖掘电力营销数据的潜藏价值,从数据层面为电力企业高层管理人员提供辅助决策分析功能。
进一步地,所述步骤(3)中所述改进后的营销数据决策树算法包括:
a、选择营销数据特征:
为了衡量节点营销数据集的有序性高低,定义基尼系数作为判断标准,定义公式如下:
其中,fi是第i个属性标签在某数据分区内的频率,D是该分区的总类别数,由于基尼系数是类别的概率乘以分错类别的概率,因此可以度量类别被分错的可能性;
b、生成营销数据决策树:
在每次需要进行决策树生成时,先计算出每个属性的基尼系数,并选择具有最大基尼系数的属性进行生成分裂,令输入为营销数据集C、特征集S、阈值ε,输出为营销决策树T,若营销数据集中所有元素属于同一类别Dk,则该营销决策树为单节点树,并将此类别Dk作为该节点的类标签,返回营销决策树T;若S=∅,则T为单节点树,并将C中元素数最大的类别Dk作为该节点的类标签,返回营销决策树T;
c、修剪营销数据决策树:
生成后的营销数据决策树准确度很高,但存在过分拟合的情况,所以最后还需要对决策树进行修剪,定义极小化损失系数为修剪标准,定义公式如下:
Lα(T)=L(T)+α|T|,
其中,T表示营销数据决策树的叶节点个数,α是调节参数,α越小表示决策树越复杂,拟合度越高。决策树的修剪是从叶节点往上进行回溯,若修剪某叶节点后的极小化损失系数变小,则确认对该叶节点进行修剪。
本发明还提供了一种智能电网的电力营销海量数据处理方法的系统,包括:
数据源层,用于获取多源异构的电力营销数据,包括结构化数据、半结构化数据、非结构话数据;
数据集成层,用于对数据源层中传输的营销数据进行集成处理操作,完成电力企业外部数据和内部累积数据的整合,并引入分布式发布订阅消息中间件将电力营销海量数据快速高效地接入分布式集群中;
存储管理层,用于转存中间计算结果以及在进行计算结果的集中存储前进行指定分类;
数据计算层,用于对电力营销数据流进行实时计算、离线分析;
应用层,用于依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析,深层次挖掘电力营销数据的潜藏价值,从数据层面为电力企业高层管理人员提供辅助决策分析功能。
与现有技术相比,本发明的有益效果是:本发明采用分布式发布订阅消息中间件、Spark计算框架和分布式数据库相结合的云计算技术处理电力营销数据,在执行电力营销海量数据处理任务时,先对多源异构电力营销数据进行集成处理操作,通过分布式发布订阅消息中间件将电力营销海量数据快速高效地接入分布式集群中,可解决分布式集群环境下多源异构数据的资源共享问题,提高电力营销系统的协同工作效率,并根据计算需求选择性地对数据进行实时计算与离线分析,计算结果经改进后的营销数据决策树算法集中分类后再存储至分布式数据库中,满足电力企业各种应用场合下的实际处理需求,提升电力企业营销系统的处理效率与业务扩展性。
附图说明
图1为本发明的系统技术构架图,
图2为本发明方法的融合处理流程示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明的技术方案,下面结合具体实施方式对本发明的技术方案作进一步详细地说明。
请参阅图1,图2,一种智能电网的电力营销海量数据处理方法及系统,具体步骤如下:
(1)电力营销系统海量数据集成化接入:
将多源异构的原始电力营销数据提取到系统后,先对数据源层中传输的营销数据进行数据抽取、数据转换、数据修正和数据加载等一系列集成处理操作,完成电力企业外部数据和内部累积数据的整合,并在数据集成层末端引入分布式发布订阅消息中间件(如Kafka、MetaQ等)并配置好相应的系统环境变量,再将电力营销海量数据快速高效地接入分布式集群中。分布式发布订阅消息中间件的数据传输速度、吞吐量和容错性能优于传统的套接字方式,并具有高实时性和支持多种语言开发的特点,当两个系统处于隔绝状态无法通信的时候,分布式发布订阅消息中间件的发布订阅消息处理机制可实现生产者和消费者之间的无缝对接,达到跨平台数据实时传输的目的,依靠其高效可靠、高吞吐的跨平台数据传输优势,可解决分布式集群环境下多源异构数据的资源共享问题,提高电力营销系统的协同工作效率。
(2)营销数据实时计算与离线分析:
在分布式集群中搭建基于Hadoop的HDFS分布式文件系统,该文件系统用于转存中间计算结果,并安装配置Spark计算框架,该框架中包含用于实时计算的Spark Streaming流处理模块和用于离线分析的Map Reduce批处理模块。
实时计算模式下,在流处理模块中配置连接分布式发布订阅消息中间件的数据接口,电力营销海量数据经分布式发布订阅消息中间件,被直接传输到流处理模块中进行实时计算,根据已设置的流处理间隔,流处理模块将输入的电力营销数据分成一段一段的离散数据队列,然后每一段离散数据都被转换成Spark计算框架中的弹性分布式数据集,这样,实时流处理模块对电力营销数据流的处理就转变成了对Spark计算框架的弹性分布式数据集的处理,其计算结果可以转存到分布式文件系统中,方便后续计算再次调用,或者直接将其计算结果存储至分布式数据库中。
离线分析模式下,在分布式文件系统中配置连接分布式发布订阅消息中间件的数据接口,先由分布式发布订阅消息中间件将电力营销数据传输至分布式文件系统中进行中间存储,再由批处理模块对中间存储数据进行提取,在完成营销数据离线分析后,计算结果可以继续保存在分布式文件系统中用于后续计算调用,或存储至分布式数据库中。
(3)营销数据存储管理:
在进行计算结果的集中存储前,先调用Spark计算框架中内置的MLlib机器学习模块对计算结果进行分类,该模块支持的分类算法有逻辑回归、支持向量机、朴素贝叶斯、决策树等算法,由于Spark基于内存的计算模型天生就擅长迭代计算,多个计算步骤直接在内存中完成,能省下大量的I/O和CPU消耗,在对电力营销数据进行指定分类算法处理后再进行存储,能够达到节约集群资源、提高存储效率的目的。本发明结合智能电网电力营销数据的体量巨大、多源异构等特点,对MLlib自带的分类算法进行针对性改进,改进后的营销数据决策树算法原理如下:
分类算法的本质是从节点数据集合中归纳出具体的分类规则,本发明通过采用启发式的方法获取局部最优解,分为选择数据特征、生成营销数据决策树、修剪营销数据决策树三个步骤:
1、选择营销数据特征
为了衡量节点营销数据集的有序性高低,定义基尼系数作为判断标准,定义公式如下:
其中,fi是第i个属性标签在某数据分区内的频率,D是该分区的总类别数,由于基尼系数是类别的概率乘以分错类别的概率,因此可以度量类别被分错的可能性。
2、生成营销数据决策树
在每次需要进行决策树生成时,先计算出每个属性的基尼系数,并选择具有最大基尼系数的属性进行生成分裂,令输入为营销数据集C、特征集S、阈值ε,输出为营销决策树T,若营销数据集中所有元素属于同一类别Dk,则该营销决策树为单节点树,并将此类别Dk作为该节点的类标签,返回营销决策树T;若S=∅,则T为单节点树,并将C中元素数最大的类别Dk作为该节点的类标签,返回营销决策树T。
3、修剪营销数据决策树
生成后的营销数据决策树准确度很高,但存在过分拟合的情况,所以最后还需要对决策树进行修剪,定义极小化损失系数为修剪标准,定义公式如下:
其中,T表示营销数据决策树的叶节点个数,α是调节参数,α越小表示决策树越复杂,拟合度越高。决策树的修剪是从叶节点往上进行回溯,若修剪某叶节点后的极小化损失系数变小,则确认对该叶节点进行修剪。
另外,配置已搭建的分布式数据库(如HBase等),在分布式数据库中建立面向列族的可无限扩张的数据存储表,用于分别存储经决策树算法分类后的电力营销海量数据。以某用户为例,在表的精简结构形式中,设计行键为用户号属性,再设计三个列族,分别为用户名称属性、用电地址属性与用电类别属性,其中第一个列族为用户名称,另外两个列族分别为用户档案中查询到的用电地址和用电类别,若要应对电力营销系统的更大规模数据存储,分布式数据库逻辑表可根据实际需求动态增加对应用户的列族数量。此外,当计算结果传输至分布式数据库中,将会调用集群中多台数据库服务器进行数据保存,实现电力营销海量数据的分布式列族可靠存储。
(4)营销数据上层应用:
数据应用层主要包括营销数据挖掘、多维度数据分析、数据可视化等多样化上层应用,即依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析,深层次挖掘电力营销数据的潜藏价值,从数据层面为电力企业高层管理人员提供辅助决策分析功能。Spark是一种高效快速、兼容性强的开放式计算框架,支持多种编程语言和高级算法,使电力企业可以快速构建不同的应用,得益于Spark优秀的通用性,不同类型的处理方式如批处理、交互式查询、实时流处理、机器学习和图计算都可以在同一应用中无缝使用,本发明能减少电力企业开发和维护的人力成本及部署平台的物力成本,满足电力企业在上层应用方面的业务扩展性需求。
上面对本发明的较佳实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种智能电网的电力营销海量数据处理方法,其特征在于:具体步骤如下:
(1)电力营销系统海量数据集成化接入:
将多源异构的原始电力营销数据提取到系统后,先对数据源层中传输的营销数据进行数据抽取、转换、修正和加载等一系列集成处理操作,完成电力企业外部数据和内部累积数据的整合,并在数据集成层末端引入了分布式发布订阅消息中间件,将电力营销海量数据快速高效地接入分布式集群中;
(2)营销数据实时计算与离线分析:
在分布式集群中搭建基于Hadoop的分布式文件系统,所述分布式文件系统用于转存中间计算结果,并安装配置Spark计算框架,所述Spark计算框架中包含用于实时计算的流处理模块和用于离线分析的批处理模块;实时计算模式下,在流处理模块中配置连接分布式发布订阅消息中间件的数据接口,电力营销海量数据经分布式发布订阅消息中间件,被直接传输到流处理模块中进行实时计算,其计算结果可以转存到分布式文件系统中,方便后续计算再次调用,或者直接将其计算结果存储至分布式数据库中;离线分析模式下,在分布式文件系统中配置连接分布式发布订阅消息中间件的数据接口,先由分布式发布订阅消息中间件将电力营销数据传输至分布式文件系统中进行中间存储,再由批处理模块对中间存储数据进行提取,在完成营销数据离线分析后,计算结果可以继续保存在分布式文件系统中用于后续计算调用,或存储至分布式数据库中;
(3)营销数据存储管理:
在进行计算结果的集中存储前,通过采用改进后的营销数据决策树算法对电力营销数据进行指定分类,经过选择营销数据特征、生成营销数据决策树、修剪营销数据决策树三个步骤,实现存储操作前的数据合理分类,并配置已搭建的分布式数据库,在分布式数据库中建立面向列族的可无限扩张的数据存储表,用于分别存储经实时计算和离线分析后的电力营销海量数据,当计算结果传输至分布式数据库中,将会调用集群中多台数据库服务器进行数据保存,实现电力营销海量数据的分布式列族可靠存储;
(4)营销数据上层应用:
数据应用层主要包括营销数据挖掘、多维度数据分析、数据可视化,即依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析,深层次挖掘电力营销数据的潜藏价值,从数据层面为电力企业高层管理人员提供辅助决策分析功能。
2.根据权利要求1所述的一种智能电网的电力营销海量数据处理方法,其特征在于:所述步骤(3)中所述改进后的营销数据决策树算法包括:
a、选择营销数据特征:
为了衡量节点营销数据集的有序性高低,定义基尼系数作为判断标准,定义公式如下:
其中,fi是第i个属性标签在某数据分区内的频率,D是该分区的总类别数,由于基尼系数是类别的概率乘以分错类别的概率,因此可以度量类别被分错的可能性;
b、生成营销数据决策树:
在每次需要进行决策树生成时,先计算出每个属性的基尼系数,并选择具有最大基尼系数的属性进行生成分裂,令输入为营销数据集C、特征集S、阈值ε,输出为营销决策树T,若营销数据集中所有元素属于同一类别Dk,则该营销决策树为单节点树,并将此类别Dk作为该节点的类标签,返回营销决策树T;若则T为单节点树,并将C中元素数最大的类别Dk作为该节点的类标签,返回营销决策树T;
c、修剪营销数据决策树:
生成后的营销数据决策树准确度很高,但存在过分拟合的情况,所以最后还需要对决策树进行修剪,定义极小化损失系数为修剪标准,定义公式如下:
Lα(T)=L(T)+α|T|,
其中,T表示营销数据决策树的叶节点个数,α是调节参数,α越小表示决策树越复杂,拟合度越高。决策树的修剪是从叶节点往上进行回溯,若修剪某叶节点后的极小化损失系数变小,则确认对该叶节点进行修剪。
3.根据权利要求1所述的一种智能电网的电力营销海量数据处理方法的系统,其特征在于:包括:
数据源层,用于获取多源异构的电力营销数据,包括结构化数据、半结构化数据、非结构话数据;
数据集成层,用于对数据源层中传输的营销数据进行集成处理操作,完成电力企业外部数据和内部累积数据的整合,并引入分布式发布订阅消息中间件将电力营销海量数据快速高效地接入分布式集群中;
存储管理层,用于转存中间计算结果以及在进行计算结果的集中存储前进行指定分类;
数据计算层,用于对电力营销数据流进行实时计算、离线分析;
应用层,用于依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析,深层次挖掘电力营销数据的潜藏价值,从数据层面为电力企业高层管理人员提供辅助决策分析功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910215137.1A CN110019106A (zh) | 2019-03-21 | 2019-03-21 | 一种智能电网的电力营销海量数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910215137.1A CN110019106A (zh) | 2019-03-21 | 2019-03-21 | 一种智能电网的电力营销海量数据处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110019106A true CN110019106A (zh) | 2019-07-16 |
Family
ID=67189696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910215137.1A Pending CN110019106A (zh) | 2019-03-21 | 2019-03-21 | 一种智能电网的电力营销海量数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019106A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717509A (zh) * | 2019-09-03 | 2020-01-21 | 中国平安人寿保险股份有限公司 | 基于树分裂算法的数据样本分析方法及装置 |
CN111815064A (zh) * | 2020-07-21 | 2020-10-23 | 上海数鸣人工智能科技有限公司 | 一种针对用户金融产品需求进行分类和预测的方法 |
CN111817859A (zh) * | 2020-07-30 | 2020-10-23 | 深圳壹账通智能科技有限公司 | 基于零知识证明的数据共享方法、装置、设备及存储介质 |
CN112116463A (zh) * | 2020-05-20 | 2020-12-22 | 上海金融期货信息技术有限公司 | 一种基于Spark引擎的智能分析系统 |
CN112150248A (zh) * | 2020-09-30 | 2020-12-29 | 欧冶云商股份有限公司 | 一种基于批流融合的挂货量统计方法、系统、装置 |
CN112365355A (zh) * | 2020-12-10 | 2021-02-12 | 深圳迅策科技有限公司 | 实时计算基金估值和风险指标的方法、装置及可读介质 |
CN112380205A (zh) * | 2020-11-17 | 2021-02-19 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和系统 |
CN112381583A (zh) * | 2020-11-19 | 2021-02-19 | 深圳供电局有限公司 | 一种基于分布式内存计算技术的电力量费计算方法及装置 |
CN112988858A (zh) * | 2019-12-17 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置及设备和存储介质 |
CN113177698A (zh) * | 2021-04-12 | 2021-07-27 | 北京科技大学 | 一种工业大数据分析辅助决策平台系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105323111A (zh) * | 2015-11-17 | 2016-02-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
CN106547882A (zh) * | 2016-11-03 | 2017-03-29 | 国网重庆市电力公司电力科学研究院 | 一种智能电网中营销大数据的实时处理方法及系统 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
US20170206557A1 (en) * | 2014-06-23 | 2017-07-20 | The Board Of Regents Of The University Of Texas System | Real-time, stream data information integration and analytics system |
US20170286526A1 (en) * | 2015-12-22 | 2017-10-05 | Opera Solutions Usa, Llc | System and Method for Optimized Query Execution in Computerized Data Modeling and Analysis |
CN107561997A (zh) * | 2017-08-22 | 2018-01-09 | 电子科技大学 | 一种基于大数据决策树的电力设备状态监测方法 |
CN107993139A (zh) * | 2017-11-15 | 2018-05-04 | 华融融通(北京)科技有限公司 | 一种基于动态规则库的消费金融反欺诈系统与方法 |
CN108226395A (zh) * | 2017-12-28 | 2018-06-29 | 广东中联兴环保科技有限公司 | 工业园区大气环境突发性预警阈值确定方法及装置 |
CN109408574A (zh) * | 2018-10-18 | 2019-03-01 | 国网山东省电力公司电力科学研究院 | 基于文本挖掘技术的投诉责任认定系统 |
CN109460004A (zh) * | 2018-10-26 | 2019-03-12 | 国网天津市电力公司 | 基于大数据的配电网故障预测方法及系统 |
-
2019
- 2019-03-21 CN CN201910215137.1A patent/CN110019106A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206557A1 (en) * | 2014-06-23 | 2017-07-20 | The Board Of Regents Of The University Of Texas System | Real-time, stream data information integration and analytics system |
CN105323111A (zh) * | 2015-11-17 | 2016-02-10 | 南京南瑞集团公司 | 一种运维自动化系统及方法 |
US20170286526A1 (en) * | 2015-12-22 | 2017-10-05 | Opera Solutions Usa, Llc | System and Method for Optimized Query Execution in Computerized Data Modeling and Analysis |
CN106250461A (zh) * | 2016-07-28 | 2016-12-21 | 北京北信源软件股份有限公司 | 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法 |
CN106547882A (zh) * | 2016-11-03 | 2017-03-29 | 国网重庆市电力公司电力科学研究院 | 一种智能电网中营销大数据的实时处理方法及系统 |
CN106815338A (zh) * | 2016-12-25 | 2017-06-09 | 北京中海投资管理有限公司 | 一种大数据的实时存储、处理和查询系统 |
CN107561997A (zh) * | 2017-08-22 | 2018-01-09 | 电子科技大学 | 一种基于大数据决策树的电力设备状态监测方法 |
CN107993139A (zh) * | 2017-11-15 | 2018-05-04 | 华融融通(北京)科技有限公司 | 一种基于动态规则库的消费金融反欺诈系统与方法 |
CN108226395A (zh) * | 2017-12-28 | 2018-06-29 | 广东中联兴环保科技有限公司 | 工业园区大气环境突发性预警阈值确定方法及装置 |
CN109408574A (zh) * | 2018-10-18 | 2019-03-01 | 国网山东省电力公司电力科学研究院 | 基于文本挖掘技术的投诉责任认定系统 |
CN109460004A (zh) * | 2018-10-26 | 2019-03-12 | 国网天津市电力公司 | 基于大数据的配电网故障预测方法及系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110717509B (zh) * | 2019-09-03 | 2024-04-05 | 中国平安人寿保险股份有限公司 | 基于树分裂算法的数据样本分析方法及装置 |
CN110717509A (zh) * | 2019-09-03 | 2020-01-21 | 中国平安人寿保险股份有限公司 | 基于树分裂算法的数据样本分析方法及装置 |
CN112988858A (zh) * | 2019-12-17 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置及设备和存储介质 |
CN112116463A (zh) * | 2020-05-20 | 2020-12-22 | 上海金融期货信息技术有限公司 | 一种基于Spark引擎的智能分析系统 |
CN111815064A (zh) * | 2020-07-21 | 2020-10-23 | 上海数鸣人工智能科技有限公司 | 一种针对用户金融产品需求进行分类和预测的方法 |
CN111817859A (zh) * | 2020-07-30 | 2020-10-23 | 深圳壹账通智能科技有限公司 | 基于零知识证明的数据共享方法、装置、设备及存储介质 |
CN112150248A (zh) * | 2020-09-30 | 2020-12-29 | 欧冶云商股份有限公司 | 一种基于批流融合的挂货量统计方法、系统、装置 |
CN112150248B (zh) * | 2020-09-30 | 2021-08-03 | 欧冶云商股份有限公司 | 一种基于批流融合的挂货量统计方法、系统、装置 |
CN112380205A (zh) * | 2020-11-17 | 2021-02-19 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和系统 |
CN112380205B (zh) * | 2020-11-17 | 2024-04-02 | 北京融七牛信息技术有限公司 | 一种分布式架构的特征自动生成方法和系统 |
CN112381583A (zh) * | 2020-11-19 | 2021-02-19 | 深圳供电局有限公司 | 一种基于分布式内存计算技术的电力量费计算方法及装置 |
CN112365355B (zh) * | 2020-12-10 | 2023-12-26 | 深圳迅策科技有限公司 | 实时计算基金估值和风险指标的方法、装置及可读介质 |
CN112365355A (zh) * | 2020-12-10 | 2021-02-12 | 深圳迅策科技有限公司 | 实时计算基金估值和风险指标的方法、装置及可读介质 |
CN113177698A (zh) * | 2021-04-12 | 2021-07-27 | 北京科技大学 | 一种工业大数据分析辅助决策平台系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019106A (zh) | 一种智能电网的电力营销海量数据处理方法及系统 | |
CN107704545A (zh) | 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法 | |
CN110134833A (zh) | 面向电网拓扑管理的图数据建模系统及方法 | |
CN106339509A (zh) | 一种基于大数据技术的电网运营数据共享系统 | |
CN106951552A (zh) | 一种基于Hadoop的用户行为数据处理方法 | |
Guo et al. | Optimization technology in cloud manufacturing | |
CN106850249A (zh) | 基于大数据分析的通信网络预警分析系统 | |
CN109885584A (zh) | 分布式数据分析平台的实现方法及终端设备 | |
CN108829704A (zh) | 一种大数据分布式挖掘分析服务技术 | |
CN109977125A (zh) | 一种基于网络安全的大数据安全分析平台系统 | |
CN109492055B (zh) | 一种基于cim模型建立电网大数据仓库的方法 | |
CN117453937B (zh) | 一种电网图数据模型自动生成方法及装置 | |
Fang | [Retracted] An Effective Hybrid Multiobjective Flexible Job Shop Scheduling Problem Based on Improved Genetic Algorithm | |
CN107153889A (zh) | 水质采样巡航船路径规划最优化方法 | |
CN108471355A (zh) | 一种基于海云计算架构的物联网信息互操作方法 | |
CN113075995A (zh) | 基于混合群智能的虚拟机节能整合方法、系统和存储介质 | |
Zhang et al. | Research on deployment method of edge computing gateway based on microservice architecture | |
CN116708294A (zh) | 基于apn6网络实现智能应用感知及报文转发的方法 | |
Ying et al. | A nonlinear service composition method based on the skyline operator | |
CN106874108A (zh) | 移动云计算中最小化微云使用个数技术 | |
CN115879742A (zh) | 配电网改造方法、系统、电子设备及存储介质 | |
CN107911763B (zh) | 一种基于QoS的智能配用电通信网EPON网络规划方法 | |
CN112529419B (zh) | 一种基于相关性分析的电网数据透明应用方法及系统 | |
Nan et al. | An Efficient Data-driven Traffic Prediction Framework for Network Digital Twin | |
CN115906605A (zh) | 一种分布式信息能源系统多智能体模型构建方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190716 |
|
WD01 | Invention patent application deemed withdrawn after publication |