CN111241056B - 一种基于决策树模型的电力用能数据存储优化方法 - Google Patents

一种基于决策树模型的电力用能数据存储优化方法 Download PDF

Info

Publication number
CN111241056B
CN111241056B CN201911410184.8A CN201911410184A CN111241056B CN 111241056 B CN111241056 B CN 111241056B CN 201911410184 A CN201911410184 A CN 201911410184A CN 111241056 B CN111241056 B CN 111241056B
Authority
CN
China
Prior art keywords
data
storage
decision tree
tree model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911410184.8A
Other languages
English (en)
Other versions
CN111241056A (zh
Inventor
王伟峰
姜驰
严华江
孙剑桥
沈曙明
韩霄汉
潘巍巍
窦健
麻吕斌
郁春雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
Zhejiang Huayun Information Technology Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
Zhejiang Huayun Information Technology Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, China Electric Power Research Institute Co Ltd CEPRI, Zhejiang Huayun Information Technology Co Ltd, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911410184.8A priority Critical patent/CN111241056B/zh
Publication of CN111241056A publication Critical patent/CN111241056A/zh
Application granted granted Critical
Publication of CN111241056B publication Critical patent/CN111241056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于决策树模型的电力用能数据存储优化方法,涉及一种电力数据存储领域,对于高频采集、低实时性业务场景的数据,已有的高效存储方法不能满足要求。本发明基于适应于HBase多存储格式进行特点分析,将采集实际应用场景划分,通过决策树模型选择合适的数据存储格式,选出最优的HBase存储方式,以此来优化高频采集数据存储空间。本技术方案采用多种格式的数据存储方式,根据不同的情况择优进行存储,弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性;解决电力用能数据存储问题,为电力用能提供一个规范的HBase存储优化方法,具有易实现的、高效的特点。

Description

一种基于决策树模型的电力用能数据存储优化方法
技术领域
本发明涉及一种电力数据存储领域,尤其涉及一种基于决策树模型的电力用能数据存储优化方法。
背景技术
随着大数据技术在用电采集系统中运用的不断成熟,越来越多的数业务迁移至用电采集大数据平台(以下简称:用采大数据平台),井喷式电力用能数据使采大数据平台的存储空间面临着存不足以及数据存储效率低下两大方面的问题。现有用采大数据平台的电力用能数据主要存至HBase中,为了解决用能数据存储问题,急需解决HBase存储优化。
现有的HBase存储优化主要有:一、按列、按区、按列、区混合等数据压缩策略只是应用于这些处理方法只适用于一次写入表HBase表,例如档案数据表;二、缓存加载方式及批量加载方式在一定程度上降低了HBase I/O开销,适用于对延时容忍较高的场景,例如异构数据迁移。对于高频采集、低实时性业务场景的数据,呈现出高频增长,延时容忍低等特点,已有的高效存储方法不能满足要求。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于决策树模型的电力用能数据存储优化方法,以达到弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性能的目的。为此,本发明采取以下技术方案。
一种基于决策树模型的电力用能数据存储优化方法,包括以下步骤:
1)获取需存储的数据业务需求;
2)根据业务需求判断获取的数据是否为迁移数据,若是则进入步骤3);若否,则进入步骤4);
3)进行数据特征的提取,将特征属性输入迁移存储决策树模型中,获得存储方案;
4)进行数据特征的提取,将特征属性输入Kafka数据源决策树模型中,获得存储方案;
5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1;若否,此方案为最优存储方案,否则进入下一步骤;
6)判断是否为日增长数据;若是则进入步骤7),若否则进入步骤8);
7)根据日增长数据,通过轻存储最优模型获得各存储方案的权重;
8)根据存储量,通过易操作最优模型获得各存储方案的权重;
9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重,得到最优存储方案。
本技术方案采用多种格式的数据存储方式,根据不同的情况择优进行存储,弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性;解决电力用能数据存储问题,为电力用能提供一个规范的HBase存储优化方法,具有易实现的、高效的特点,方便平台存储格式选择的规范化操作,便于后期平台存储资源的管理。
作为优选技术手段:迁移存储决策树模型、Kafka数据源决策树模型均通过ID3算法训练得出;ID3算法将给定的样本计集合作为根结点,以信息增益率为标准确定最佳分组和最佳分割点;分别计算当前样本集合里的每个特征属性的信息增益,并从信息增益集合中选取信息增益最大的作为根结点,然后根据该属性值进行分支。
作为优选技术手段:ID3算法步骤包括:
d)信息熵,假设数据集合为D,样本的个数为K,则数据集D的经验熵表示为:
其中Ck是样本集合D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示元素集合的元素个数。
e)信息熵,某个特征A对于数据集D的经验条件熵H(D|A)为
其中,Di表示D中特征A取第i个值的样本子集。
f)信息增益,信息增益的衡量标准,就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要;
g(D,A)=H(D)-H(D|A) (3-3)。
作为优选技术手段:迁移存储决策树模型、Kafka数据源决策树模型输出的存储方案为Protobuf、Json、Normal中的一个或多个。
作为优选技术手段:轻存储最优模型、易操作最优模型中的各存储方案的权重根据存储大小、读写性能计算获得。
作为优选技术手段:轻存储最优模型中存储不同范围的日增长量及与之对应的各存储方案的权重值,以根据实际的日增长量规模查询轻存储最优模型获得Normal、Json、Protobuf三种存储格式的权重。
作为优选技术手段:易操作最优模型中存储不同范围的存储量及与之对应的各存储方案的权重值,以根据实际的存储量规模查询易操作最优模型获得Normal、Json、Protobuf三种存储格式的权重。
作为优选技术手段:在步骤3)中,迁移数据是将关系型数据库中的档案表、结果表、统计表等数据同步到HBase中,此类数据结构固定,为结构化数据,结合业务场景和需求,决策树属性集合选用:{数据类型,字段嵌套,读表形式,是否过滤};其中
数据类型:是根据数据来源进行具体分类,分为档案数据、结构数据、统计数据;
字段嵌套:根据业务场景需求,存储是否是嵌套式;
读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取;
是否过滤:业务场景中按条件与表的交互方式,分为是和否。
作为优选技术手段:在步骤4)中,Kafka数据源决策模型数据来源是Kafka,通常是通过前置机采集上送的数据,数据结构无规则,具有:结构化、半结构化、非结构化特征,选用的数据特征在异构数据迁移特征基础之上增加结构化数据特征,具体的特征包含:{数据类型,字段嵌套,数据结构,读表形式,是否过滤},其中:
数据类型:是根据数据来源进行具体分类,分为采集数据(前置机推送的采集数据)、异常日志、操作日志、原始报文;
字段嵌套:根据业务场景需求,存储是否是嵌套式;
数据结构:存储数据的结构,分为结构化、半结构化、非结构化;
读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取;
是否过滤:业务场景中按条件与表的交互方式,分为是和否。
有益效果:
1、基于决策树模型的提出的优化方案,存储方式选择更加规范和科学,便于实现平台存储资源的管理,为后期存储选择提供参考依据。
2、引入轻量级存储方式,能够实现实时入库数据存储优化,解决了实时采集数据表不易操作,低延时入库需求的难题。
3、结合多存储格式的各自特点,根据业务场景和需求,制定三种数据格式存储方式,具有如下几个方面的优点:
(1)从业务场景和需求角度出发的定制的存储方式,不仅实现了合理规划平台存储空间利用率,还能满足后期业务场景需求;
(2)不同于传统的优化模型,需要对数据进行逐条或是逐批进行计算处理,合理的数据格式存储选取,降低了传统优化模型的时间成本和计算资源。
附图说明
图1是本发明的流程图。
图2、3是本发明的决策树图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明包括以下步骤:
一种基于决策树模型的电力用能数据存储优化方法,包括以下步骤:
1)获取需存储的数据业务需求;
2)根据业务需求判断获取的数据是否为迁移数据,若是则进入步骤3);若否,则进入步骤4);
3)进行数据特征的提取,将特征属性输入迁移存储决策树模型中,获得存储方案;
4)进行数据特征的提取,将特征属性输入Kafka数据源决策树模型中,获得存储方案;
5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1;若否,此方案为最优存储方案,否则进入下一步骤;
6)判断是否为日增长数据;若是则进入步骤7),若否则进入步骤8);
7)根据日增长数据,通过轻存储最优模型获得各存储方案的权重;
8)根据存储量,通过易操作最优模型获得各存储方案的权重;
9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重,得到最优存储方案。
本技术方案采用多种格式的数据存储方式,根据不同的情况择优进行存储,弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性;解决电力用能数据存储问题,为电力用能提供一个规范的HBase存储优化方法,具有易实现的、高效的特点,方便平台存储格式选择的规范化操作,便于后期平台存储资源的管理。
为了简化决策树的模型,在本技术方案中,将决策树模型分为迁移存储决策树模型、Kafka数据源决策树模型两种,迁移存储决策树模型、Kafka数据源决策树模型均通过ID3算法训练得出;ID3算法将给定的样本计集合作为根结点,以信息增益率为标准确定最佳分组和最佳分割点;分别计算当前样本集合里的每个特征属性的信息增益,并从信息增益集合中选取信息增益最大的作为根结点,然后根据该属性值进行分支。
ID3算法步骤包括:
g)信息熵,假设数据集合为D,样本的个数为K,则数据集D的经验熵表示为:
其中Ck是样本集合D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示元素集合的元素个数。
h)信息熵,某个特征A对于数据集D的经验条件熵H(D|A)为
其中,Di表示D中特征A取第i个值的样本子集。
i)信息增益,信息增益的衡量标准,就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要;
g(D,A)=H(D)-H(D|A) (3-3)。
本技术方案集合Normal、Json、Protobuf三种格式的优点,扬长避短;Normal、Json、Protobuf三种格式在实际应用场景中都有着很强的适应性,当需求,环境等因素发生变化时,虽灵活度有差别但都可应对;此外,它们对操作数据而言是安全的。以下总结为,使用不同格式对业务处理的大致存储效率和它们彼此的特点与优劣,各存储的格式特点具体如下表所示:
三种数据格式性能对比
本技术方案充分利用了Normal、Json、Protobuf三种格式的长处,对于日增长数据量很大的数据源,如:{采集数据,原始报文,操作日志,结果数据},这类数据对存储空间需求大,且对表操作频率不多,采用“轻存储,易操作”原则,这类数据存储的优先级可为:Normal>Json>Protobuf;对于日增量不大的微增长数据源,如:{档案数据,统计数据,异常日志},这类数据对存储空间需求小,且对表操作频率高,灵活性要求高,采用“易操作,轻存储”原则,这类数据存储的优先级可为:Protobuf>Json>Normal。
以下就具体实施例对部分内容说进一步的说明:
基于决策树模型的HBase存储优化方法,是将用电采集系统中多业务场景分类下,对数据存储和操作的不同需求进行划分,并且这些影响存储格式选择的属性集合,提取成特征集合,并且建立成对应的特征属性表,为后期平台的HBase存储提供参考依据。
1.1决策树模型建立
用采大数据平台的数据来源主要分为两类,一、通过前置机及日志等方式推送的Kafka数据源采集数据;二、通过Hive数据仓库、Oracle/MySQL数据库异构迁移数据。由于异构迁移数据是从关系型数据库中迁移而来,数据存储的结构相对稳定为结构化数据;而Kafka数据源采集数据结构多样化,具有:结构化、半结构化、非结构化特征。基于以上三种存储格式的适应分析中,Protobuf存储格式不适用于半结构化和非结构化数据。因此,为了简化决策树模型,本研究根据数据源不同,将决策树分为Kafka数据源决策模型和异构数据源决策模型。
1.1.1 Kafka数据源决策模型
Kafka数据源决策模型数据来源是Kafka,通常是通过前置机采集上送的数据,数据结构无规则,具有:结构化、半结构化、非结构化特征,选用的数据特征在异构数据迁移特征基础之上增加结构化数据特征,具体的特征包含:{数据类型,字段嵌套,数据结构,读表形式,是否过滤},其中:
数据类型:是根据数据来源进行具体分类,分为采集数据(前置机推送的采集数据)、异常日志、操作日志、原始报文
字段嵌套:根据业务场景需求,存储是否是嵌套式
数据结构:存储数据的结构,分为结构化、半结构化、非结构化
读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取
是否过滤:业务场景中按条件与表的交互方式,分为是和否
例如:现有业务,需要计算用采大数据平台的抄表采集成率。
分析过程:1、数据类型:用采大数据平台的数据是通过前置机获取的采集数据;
2、字段嵌套:存储不需嵌套;
3、数据结构:采集数据为前置机统一配置的模板,结构稳定为结构化数据;
4、读表形式:采集成功率为批量侧离线处理方式,需要全行读取;
5、是否过滤:采集成功率是计算实采点数/应采点数,取表方式无需过滤
6、存储格式:根据以上分析存储格式的适应性分析可知,存储格式选择为Protobuf。
现将用采大数据平台Kafka数据源决策树模型按照分析过程建立表1-1所示模型数据集合,为后期的决策数建立依据;
表1-1 Kafka数据源属性集合
根据表1-1所示Kafka数据源属性集合,建立的决策树图如图2所示;
1.1.2迁移存储决策树模型
异构数据迁移通常是将关系型数据库中的档案表、结果表、统计表等数据同步到HBase中,此类数据结构固定,为结构化数据,结合业务场景和需求,决策树属性集合选用:{数据类型,字段嵌套,读表形式,是否过滤}。其中
数据类型:是根据数据来源进行具体分类,分为档案数据、结构数据、统计数据
字段嵌套:根据业务场景需求,存储是否是嵌套式
读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取
是否过滤:业务场景中按条件与表的交互方式,分为是和否
例如:现有实时抄表异常清洗业务,需要读取上报表计表获取接线方式以此来判断计量异常。
分析过程:1、数据类型:用采大数据平台的数据是通过前置机获取的采集数据;
2、字段嵌套:存储不需嵌套;
3、数据结构:采集数据为前置机统一配置的模板,结构稳定为结构化数据;
4、读表形式:采集成功率为批量侧离线处理方式,需要全行读取;
5、是否过滤:采集成功率是计算实采点数/应采点数,取表方式无需过滤
6、存储格式:根据以上分析存储格式的适应性分析可知,存储格式选择为Protobuf。
现将用采大数据平台迁移存储决策树模型按照分析过程建立表2-1所示模型数据集合,为后期的决策数建立依据;
表2-1异构数据源属性集合
根据表2-1所示Kafka数据源属性集合,建立的决策树图如图3所示。
1.2最优化存储模型
实际应用中,应用场景及需求情况复杂通常会出现一表多需求的情况,多格式的存储结果。对于日增长数据量很大的数据源,如:{采集数据,原始报文,操作日志,结果数据},这类数据对存储空间需求大,且对表操作频率不多,采用“轻存储,易操作”原则;对于日增量不大的微增长数据源,如:{档案数据,统计数据,异常日志},这类数据对存储空间需求小,且对表操作频率高,灵活性要求高,采用“易操作,轻存储”原则。
对于增长频率规律的日增长数据,根据“轻存储,易操作”,以及增长量(增长记录数),定价的权重如下表所示:
日增长数据存储格式权重表
对于数据量增长无规律且增长量不大的数据,根据“易操作,轻存储”,以及存储量(记录数),定价的权重如下表所示:
微增长数据存储格式权重表
结合实际场景需求,对Json、Normal、Protobuf分别赋予权重,当出现多格式存储时,按权重大小排序,以权重值最大的存储为准。
1.3模型验证
1.3.1迁移存储决策模型
异构数据迁移验证数据表计档案低压表迁移至HBase中,其数据量为5100W+记录。
a)验证方法
结合Strom实时抄表的实时交互、负荷清洗档案查询业务、前端页面实时展示业务等实时交互场景及各场景的属性如下所示:
b)验证结果
通过决策树模型,得到的存储结果集为场景一:Normal;场景二:Json;场景三:Normal;属于一对多表的形式,将存储格式结果集最优化存储模型中,根据微增长数据源数据量5100W+条记录,选中权重集合ω’2,Protobuf=0.2,Json=0.3,Normal=0.5,此时Normal(0.5)>Json(0.3),根据权重最大化选取原则,最优的存储格式为Normal。
C)验证结论
通过最优存储优化方法模型在多业务场景需求下,最终表计档案低压表选择的存储格式是Normal与轻量级存储格式Json相比较,其在存储占用和读取效率如下表所示:
异构迁移表计档案低压测试结果表
从上表可知,通过最优化存储资源模型策略,在读取效率上Normal优于Json格式,满足“易操作,轻存储”原则。
1.3.2 Kafka数据源决策模型
Kafka数据源通常是通过前置机采集上送的数据,数据结构无规则,具有:结构化、半结构化、非结构化特征,选用的数据特征在异构数据迁移特征基础之上增加结构化数据特征,具体的特征包含:{数据类型,字段嵌套,数据结构,读表形式,是否过滤}。
本研究若将kafka消息队列日增长量为5.3亿+条记录的高频负荷采集数据存储至HBase作为数据源验证基于决策模型的HBase存储资源最优化方法的可靠性。
a)验证方法
结合前端页面展示、采集成功计算、历史数据清洗补全等业务场景及各场景的属性如下所示:
b)验证结果
将场景输入决策树模型中,输入存储结果为场景一:Json;场景二:Json;场景三:Normal;属于一对多表的形式,将存储格式结果集输入最优模型中,根据日增长数据量5.3亿+条记录,选中权重集合ω3,Protobuf=0.5,Json=0.3,Normal=0.2,此时Json(0.3)>Normal(0.2),根据权重最大化选取原则,最优的存储格式为Json。
C)验证结论
通过最优存储优化方法模型在多业务场景需求下,最终低压负荷数据选择的存储格式是Json与传统的Noraml相比较,其在存储占用和读取效率如下表所示:
低压负荷实时实时入库测试结果表
从上表可知,通过最优化存储资源模型策略,在对于日增长大的存储需求,选用Json存储格式在读取效率及存储上明显优于Normal格式,满足“轻存储,易操作”原则。
总结:本技术方案通过对用电信息采集系统多业务需求现状进行分析,对交互需求特征进行了提炼,并基于决策树模型的HBase存储资源优化的存储选择方法,提出电力用能数据基于HBase存储优化标准。电力用能数据基于HBase存储根据业务场景的存储格式的交叉性分为:单存储规范和多存储优化规范,其中:
单存储规范:是指根据交叉业务场景需求和数据规模,经过决策树分类算法的HBase存储格式是一致的,其最优化存储格式依照决策模型的存储格式定义。
多存储优化规范:是指交叉业务场景需求和数据规模,经过决策树分类算法的HBase存储格式不同出现一对多表的情况,此时需要根据存储最优化模型,进行进一步的优化选择。其选择的原则是根据存储格式权重最大化原则进行选取。
通过基于决策树模型的HBase存储最优化模型,合理的存储格式制定,将有助于更便捷为需求方提供交互服务,将节省大量电力用能数据的存储资源,提高用采大数据平台资源利用率,提高整个平台的读写效率。有助于为后期用采大数据平台的存储格规范选择上,提供标准化参考依据。
以上图1所示的一种基于决策树模型的电力用能数据存储优化方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。

Claims (8)

1.一种基于决策树模型的电力用能数据存储优化方法,其特征在于包括以下步骤:
1)获取需存储的数据业务需求;
2)根据业务需求判断获取的数据是否为迁移数据,若是则进入步骤3);若否,则进入步骤4);
3)进行数据特征的提取,将特征属性输入迁移存储决策树模型中,获得存储方案;
4)进行数据特征的提取,将特征属性输入Kafka数据源决策树模型中,获得存储方案;
5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1;若否,此方案为最优存储方案,否则进入下一步骤;
6)判断是否为日增长数据;若是则进入步骤7),若否则进入步骤8);
7)根据日增长数据,通过轻存储最优模型获得各存储方案的权重;
8)根据存储量,通过易操作最优模型获得各存储方案的权重;
9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重,得到最优存储方案;
在步骤3)中,迁移数据是将关系型数据库中的档案表、结果表、统计表等数据同步到HBase中,此类数据结构固定,为结构化数据,结合业务场景和需求,决策树属性集合包括:数据类型、字段嵌套、读表形式、是否过滤;其中
数据类型:是根据数据来源进行具体分类,分为档案数据、结构数据、统计数据;
字段嵌套:根据业务场景需求,存储是否是嵌套式;
读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取;
是否过滤:业务场景中按条件与表的交互方式,分为是和否。
2.根据权利要求1所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:迁移存储决策树模型、Kafka数据源决策树模型均通过ID3算法训练得出;ID3算法将给定的样本计集合作为根结点,以信息增益率为标准确定最佳分组和最佳分割点;分别计算当前样本集合里的每个特征属性的信息增益,并从信息增益集合中选取信息增益最大的作为根结点,然后根据该属性值进行分支。
3.根据权利要求2所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:ID3算法步骤包括:
a)信息熵,假设数据集合为D,样本的个数为K,则数据集D的经验熵表示为:
(3-1)
其中Ck是样本集合D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示元素集合的元素个数;
b)信息熵,某个特征A对于数据集D的经验条件熵H(D|A)为
(3-2)
其中,Di表示D中特征A取第i个值的样本子集;
c)信息增益,信息增益的衡量标准,就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要;
(3-3)。
4.根据权利要求3所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:迁移存储决策树模型、Kafka数据源决策树模型输出的存储方案为Protobuf、Json、Normal中的一个或多个。
5.根据权利要求4所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:轻存储最优模型、易操作最优模型中的各存储方案的权重根据存储大小、读写性能计算获得。
6.根据权利要求5所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:轻存储最优模型中存储不同范围的日增长量及与之对应的各存储方案的权重值,以根据实际的日增长量规模查询轻存储最优模型获得Normal、Json、Protobuf三种存储格式的权重。
7.根据权利要求5所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:易操作最优模型中存储不同范围的存储量及与之对应的各存储方案的权重值,以根据实际的存储量规模查询易操作最优模型获得Normal、Json、Protobuf三种存储格式的权重。
8.根据权利要求1所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:在步骤4)中,Kafka数据源决策模型数据来源是Kafka,通过前置机采集上送的数据,数据结构无规则,具有:结构化、半结构化、非结构化特征,选用的数据特征在异构数据迁移特征基础之上增加结构化数据特征,所述结构化数据特征包含:数据类型、字段嵌套、数据结构、读表形式、是否过滤,其中:
数据类型:是根据数据来源进行具体分类,分为采集数据、异常日志、操作日志、原始报文;
字段嵌套:根据业务场景需求,存储是否是嵌套式;
数据结构:存储数据的结构,分为结构化、半结构化、非结构化;
读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取;
是否过滤:业务场景中按条件与表的交互方式,分为是和否。
CN201911410184.8A 2019-12-31 2019-12-31 一种基于决策树模型的电力用能数据存储优化方法 Active CN111241056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911410184.8A CN111241056B (zh) 2019-12-31 2019-12-31 一种基于决策树模型的电力用能数据存储优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911410184.8A CN111241056B (zh) 2019-12-31 2019-12-31 一种基于决策树模型的电力用能数据存储优化方法

Publications (2)

Publication Number Publication Date
CN111241056A CN111241056A (zh) 2020-06-05
CN111241056B true CN111241056B (zh) 2024-03-01

Family

ID=70869016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911410184.8A Active CN111241056B (zh) 2019-12-31 2019-12-31 一种基于决策树模型的电力用能数据存储优化方法

Country Status (1)

Country Link
CN (1) CN111241056B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181951B (zh) * 2020-10-20 2022-03-25 新华三大数据技术有限公司 一种异构数据库数据迁移方法、装置及设备
CN112686342B (zh) * 2021-03-12 2021-06-18 北京大学 Svm模型的训练方法、装置、设备和计算机可读存储介质
CN113127464B (zh) * 2021-03-24 2022-11-18 防城港市动物疫病预防控制中心 农业大数据环境特征处理方法、装置及电子设备
CN113673229B (zh) * 2021-08-23 2024-04-05 广东电网有限责任公司 一种电力营销数据交互方法、系统及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001095044A2 (en) * 2000-06-05 2001-12-13 Ag-Chem Equipment Company, Inc. System/method analyzing data in database
US6442561B1 (en) * 1998-12-18 2002-08-27 Wisconsin Alumni Research Foundation Method of constructing binary decision trees with reduced memory access
CN102262667A (zh) * 2011-07-27 2011-11-30 北京航空航天大学 一种本源xml数据库中xml文档的访问控制方法
AU2014218527A1 (en) * 2013-02-25 2015-09-24 Margot STUBBS A control system
CN106611283A (zh) * 2016-06-16 2017-05-03 四川用联信息技术有限公司 一种基于决策树算法的制造业材料采购分析方法
CN106775464A (zh) * 2016-12-02 2017-05-31 郑州云海信息技术有限公司 一种数据分层存储系统及方法
CN107918657A (zh) * 2017-11-20 2018-04-17 腾讯科技(深圳)有限公司 一种数据源的匹配方法和装置
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
CN109522957A (zh) * 2018-11-16 2019-03-26 上海海事大学 基于决策树算法的港口岸桥机械工作状态故障分类的方法
CN109582667A (zh) * 2018-10-16 2019-04-05 中国电力科学研究院有限公司 一种基于电力调控大数据的多数据库混合存储方法及系统
CN109635069A (zh) * 2018-12-21 2019-04-16 北京航天泰坦科技股份有限公司 一种基于信息熵的地理空间数据自组织方法
CN109857991A (zh) * 2018-12-25 2019-06-07 北京像素软件科技股份有限公司 数据存储方法、装置及电子设备
CN109886017A (zh) * 2019-01-24 2019-06-14 国网浙江省电力有限公司电力科学研究院 一种基于c4.5决策树的手机特征检测优化改进算法
CN109919184A (zh) * 2019-01-28 2019-06-21 中国石油大学(北京) 一种基于测井数据的多井复杂岩性智能识别方法及系统
CN110490329A (zh) * 2019-07-05 2019-11-22 国网浙江省电力有限公司电力科学研究院 一种基于机器学习的大规模电力异常数据检测方法及系统
CN110555058A (zh) * 2019-09-06 2019-12-10 国网江苏省电力公司信息通信分公司 基于改进决策树的电力通信设备状态的预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2882171A1 (fr) * 2005-02-14 2006-08-18 France Telecom Procede et dispositif de generation d'un arbre de classification permettant d'unifier les approches supervisees et non supervisees, produit programme d'ordinateur et moyen de stockage correspondants
WO2009153793A1 (en) * 2008-06-20 2009-12-23 Technion Research & Development Foundation Ltd. Incremental clustering of indexed xml data
US8732213B2 (en) * 2011-12-23 2014-05-20 Amiato, Inc. Scalable analysis platform for semi-structured data

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442561B1 (en) * 1998-12-18 2002-08-27 Wisconsin Alumni Research Foundation Method of constructing binary decision trees with reduced memory access
WO2001095044A2 (en) * 2000-06-05 2001-12-13 Ag-Chem Equipment Company, Inc. System/method analyzing data in database
CN102262667A (zh) * 2011-07-27 2011-11-30 北京航空航天大学 一种本源xml数据库中xml文档的访问控制方法
AU2014218527A1 (en) * 2013-02-25 2015-09-24 Margot STUBBS A control system
CN106611283A (zh) * 2016-06-16 2017-05-03 四川用联信息技术有限公司 一种基于决策树算法的制造业材料采购分析方法
CN106775464A (zh) * 2016-12-02 2017-05-31 郑州云海信息技术有限公司 一种数据分层存储系统及方法
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
CN107918657A (zh) * 2017-11-20 2018-04-17 腾讯科技(深圳)有限公司 一种数据源的匹配方法和装置
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法
CN109582667A (zh) * 2018-10-16 2019-04-05 中国电力科学研究院有限公司 一种基于电力调控大数据的多数据库混合存储方法及系统
CN109522957A (zh) * 2018-11-16 2019-03-26 上海海事大学 基于决策树算法的港口岸桥机械工作状态故障分类的方法
CN109635069A (zh) * 2018-12-21 2019-04-16 北京航天泰坦科技股份有限公司 一种基于信息熵的地理空间数据自组织方法
CN109857991A (zh) * 2018-12-25 2019-06-07 北京像素软件科技股份有限公司 数据存储方法、装置及电子设备
CN109886017A (zh) * 2019-01-24 2019-06-14 国网浙江省电力有限公司电力科学研究院 一种基于c4.5决策树的手机特征检测优化改进算法
CN109919184A (zh) * 2019-01-28 2019-06-21 中国石油大学(北京) 一种基于测井数据的多井复杂岩性智能识别方法及系统
CN110490329A (zh) * 2019-07-05 2019-11-22 国网浙江省电力有限公司电力科学研究院 一种基于机器学习的大规模电力异常数据检测方法及系统
CN110555058A (zh) * 2019-09-06 2019-12-10 国网江苏省电力公司信息通信分公司 基于改进决策树的电力通信设备状态的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ID3决策树算法的改进;刘利;何先平;;池州学院学报(第05期);全文 *
决策树算法的研究及优化;王静红, 王熙照, 邵艳华, 王伍伶;微机发展(第09期);全文 *

Also Published As

Publication number Publication date
CN111241056A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111241056B (zh) 一种基于决策树模型的电力用能数据存储优化方法
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN109669934B (zh) 一种切合电力客服业务的数据仓库系统及其构建方法
CN106709035B (zh) 一种电力多维全景数据的预处理系统
CN101211355B (zh) 一种基于聚类的图像查询方法
CN102270232B (zh) 一种存储优化的语义数据查询系统
CN113064866B (zh) 一种电力业务数据整合系统
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN102662988B (zh) 一种用于rfid中间件的冗余数据过滤方法
CN106599052A (zh) 一种基于ApacheKylin的数据查询系统及其方法
CN104298736A (zh) 数据集合连接方法、装置及数据库系统
CN111008726B (zh) 一种电力负荷预测中类图片转换方法
CN116777284A (zh) 一种空间及属性数据一体化质检方法
CN108460052B (zh) 一种自动创建索引的方法、装置及数据库系统
CN104573002A (zh) 基于人、事、物分类建档的数据组织模型
CN105631583A (zh) 一种电网省地一体化调度报表的数据采集处理方法
CN112801343A (zh) 一种计及多气象场景适应成本的储能系统容量规划方法
CN111556108A (zh) 基于云平台的电力大数据采集系统和方法
CN109447453B (zh) 一种多阶段网络数据包络分析模型评估包装绿色度的方法
CN106408182A (zh) 一种核电设计项目工作量统计系统和方法
CN114676931B (zh) 一种基于数据中台技术的电量预测系统
CN115510055A (zh) 基于聚合处理的时序数据存储管理方法、介质及集中器
CN113537758A (zh) 基于大数据技术的制造业高质量发展综合评价方法和系统
CN114971380A (zh) 一种共享储能电站商业化运营模式的评价方法及系统
CN106227857A (zh) 数据推送和加载方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210210

Address after: 311100 Building 5, 138 Yunlian Road, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Marketing service center of State Grid Zhejiang Electric Power Co.,Ltd.

Applicant after: STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Applicant after: CHINA ELECTRIC POWER RESEARCH INSTITUTE Co.,Ltd.

Applicant after: ZHEJIANG HUAYUN INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Address before: The eight district of Hangzhou city in Zhejiang province 310014 Huadian Zhaohui under No. 1 Lane

Applicant before: STATE GRID ZHEJIANG ELECTRIC POWER COMPANY LIMITED ELECTRIC POWER Research Institute

Applicant before: STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Applicant before: CHINA ELECTRIC POWER RESEARCH INSTITUTE Co.,Ltd.

Applicant before: ZHEJIANG HUAYUN INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant