CN113609177A - 一种园区级数据增值服务的场景构建及评价方法 - Google Patents
一种园区级数据增值服务的场景构建及评价方法 Download PDFInfo
- Publication number
- CN113609177A CN113609177A CN202110913933.XA CN202110913933A CN113609177A CN 113609177 A CN113609177 A CN 113609177A CN 202110913933 A CN202110913933 A CN 202110913933A CN 113609177 A CN113609177 A CN 113609177A
- Authority
- CN
- China
- Prior art keywords
- data
- added service
- data value
- value
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 44
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 238000010801 machine learning Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012795 verification Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012958 reprocessing Methods 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000011161 development Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 5
- 238000011049 filling Methods 0.000 claims description 5
- 238000007418 data mining Methods 0.000 claims description 4
- 238000009434 installation Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000012854 evaluation process Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 3
- 238000005065 mining Methods 0.000 abstract description 6
- 230000002265 prevention Effects 0.000 abstract description 4
- 238000013468 resource allocation Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000005611 electricity Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000011475 Accrington brick Substances 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 102100040653 Tryptophan 2,3-dioxygenase Human genes 0.000 description 1
- 101710136122 Tryptophan 2,3-dioxygenase Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及能源数据增值服务技术领域,尤其是一种园区级数据增值服务的场景构建及评价方法,现提出如下方案,其包括如下步骤:明确园区级的数据增值服务,制定每种数据增值服务的策略及措施,选定适合服务对象的需求的数据增值服务;根据数据增值服务的应用场景,分析应用场景的数据需求并采集数据信息,进行预处理得到第一数据集;构建应用场景的场景模型,对第一数据集提取特征向量并进行再加工,建立训练集和验证集,训练和验证机器学习模型,制定评价指标分别对数据增值服务和机器学习模型进行综合评估。本发明有助于深入挖掘能源大数据价值,实现数据增值服务应用变现落地工作,更好地支撑资源调配、业务协同和风险防控。
Description
技术领域
本发明涉及能源数据增值服务技术领域,尤其是一种园区级数据增值服务的场景构建及评价方法。
背景技术
目前,电网大数据资源已经全面覆盖发、输、变、配和用等电力系统各个环节,包括电网生产运营产生的海量能量数据、控制数据、用户数据和公共数据等类型,覆盖各类时间尺度,涵盖电力生产、电网运行、企业管理及营销服务等业务领域,具有可信度高、时效性强、连续性好、多源异构、覆盖面广等特点,再接入气、热、煤、油和充换电等其它能源数据,就可以充分利用这些能源大数据深入挖掘数据资产价值、强化数据共享应用,可以更好地支撑资源调配、业务协同和风险防控,不断提高效率效益,为政府、企业和社会提供更加有价值的数据信息。
如今,能源大数据进一步助力政府科学决策、企业融资及智慧运营和服务居民用能等数据增值服务的快速拓展,在数据增值服务对应产品开发前,对海量原始数据进行预处理,把来源于不同业务系统的数据按照分析应用主题,依托多元化可视化建模、完整的数据处理流程等功能特性,对多源数据进行整合,完成规划业务数据不同主题的综合查询与分析展现,为进一步高效分析数据打下基础,能源数据增值服务应用场景的构建及评价是一个重要的研究问题,而现有的研究多为从各个角度独立进行分析,没有进行多角度的全流程的整合与分析,所以设计适用于多种园区级大数据增值服务的应用场景构建及评价方法是十分有必要的,为此,本发明提出了一种园区级数据增值服务的场景构建及评价方法。
发明内容
为解决现有技术中的问题,本发明提出了一种园区级数据增值服务的场景构建及评价方法。
为了实现上述目的,本发明采用了如下技术方案:
一种园区级数据增值服务的场景构建及评价方法,包括如下步骤:
S1,明确园区级的至少一种数据增值服务,制定每种数据增值服务的策略及措施,选定适合服务对象的需求的数据增值服务;
S2,根据所述数据增值服务的应用场景,分析所述应用场景的数据需求,根据数据需求采集数据信息,对数据信息进行预处理得到第一数据集;
S3,构建所述应用场景的场景模型,选定应用场景中的大数据挖掘算法对第一数据集提取特征向量并对特征向量进行再加工得到第二数据集,利用第二数据集建立训练集和验证集,利用训练集训练机器学习模型,利用验证集验证机器学习模型的学习结果;
S4,确定数据增值服务和机器学习模型的评价指标,根据评价指标分别对数据增值服务和机器学习模型进行综合评估。
进一步地,所述S1包括:根据各园区级的生态系统的不同阶段信息流的差别得到数据增值服务的业务类型;
将园区级的生态系统划分为不同的主体,明确各主体的需求,形成数据增值服务的清单,以确定各数据增值服务的策略及措施。
进一步地,所述数据信息包括电力数据和社会各行业数据,所述社会各行业数据包括经济发展数据、公共部门数据和/或气象数据;
所述S2包括分析应用场景所需数据的数据颗粒度、数据时隙、数据类型及数据规模;
根据数据需求设计数据采集方案,所述数据采集方案包括定义所需数据的数据级别,根据数据级别和数据采集方案中的采集对象、采集工具和采集装置的安装位置采集数据信息。
进一步地,所述预处理包括对数据信息进行多源数据的融合,通过预先的配置各类数据耦合规则,自动对数据进行匹配,形成基础的数据库。
进一步地,所述步骤包括对基础数据库中的数据进行缺失值的填补、异常值的修正和数据归一化以得到第一数据集。
进一步地,所述对第一数据集提取特征向量并对特征向量进行再加工包括进行数据分析,确定自变量和因变量,找出因变量与自变量的相关性,确定相关系数;
筛选自变量,将不同类型的特征向量进行归一化和标准化处理,选择特征子集;
对选择的特征子集进行再加工,增强特征子集的表示能力,得到第二数据集。
进一步地,所述训练机器学习模型和验证机器学习模型的学习结果包括根据不同的机器学习模型对不同数据的敏感程度,使用单个机器学习模型或者混合模型,所述混合模型包括通过结合每一个机器学习模型的判别结果得到的综合模型。
进一步地,所述验证机器学习模型的学习结果包括将第二数据按照交易拆分、按人拆分或按照时间拆分为训练集和验证集进行交叉验证并预测未知的数据。
进一步地,对增值服务和机器学习模型进行综合评估包括训练完成之后,通过拆分出的训练集和验证集来对机器学习模型进行评估,通过将验证集的验证结果和预测的未知数据进行对比来判定机器学习模型的准确性。
进一步地,在完成机器学习模型评估后,调整机器学习模型参数,重复训练和评估的过程;
从包括经济效益或环境的维度对数据增值服务的应用场景进行综合评估。
本发明的有益效果:
1、本发明提供的方法构建了完整的适用于园区级大数据增值服务的应用场景构建及评价方法,包括数据增值服务清单的明确及客户需求的挖掘、能源数据需求分析及数据采集与预处理、机器学习算法的选定及场景模型的构建、数据增值服务算法与场景的评价指标选取与综合评估;
2、采用本发明方法的大数据增值服务的场景构建及评价方法,具备全面性、独立性、灵活性和实用性,有助于深入挖掘能源大数据价值,实现数据增值服务应用变现落地工作,更好地支撑资源调配、业务协同和风险防控,不断提高效率效益,为政府、企业和社会提供更加有价值的数据信息,同时也可以形成数据增值服务产品,以真实可靠的数据分析辅助客户开展对应的产品优化,提升产品质量,促进电网安全、稳定运行。
附图说明
图1为实施例中适用于多种园区级大数据增值服务的应用场景构建及评价方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种园区级数据增值服务的场景构建及评价方法,包括如下步骤:
S1,明确园区级的至少一种数据增值服务,例如,可将多种数据增值服务列成服务清单,确定每种增值服务策略及措施,根据需要提供数据增值服务的客户清单,明确服务对象,分析客户的购买潜力,深入挖掘客户的需求,选定增值服务:
在园区级生态系统中根据园区的主要功能对各园区分类,例如,可以分为工业园区、农业园区、科技园区及居民社区;
根据各园区级的生态系统的不同阶段信息流的差别得到数据增值服务的业务类型;将园区级的生态系统划分为不同的主体,明确各主体的需求,形成数据增值服务的清单,以确定各数据增值服务的策略及措施;
例如,在多种园区级中,根据园区级生态系统不同阶段信息流的差别,得到能源大数据+金融、能源大数据+辅助决策、能源大数据+ 政府服务、能源大数据+交易、能源大数据+多能互补、能源大数据+ 用能管理和能源大数据+设备等七大园区能源增值服务业务类型;
例如,可将园区主体划分为园区管委会、园区企业、设备厂家、金融服务商和能源服务商,明确不同种园区级能源数据增值服务的主体需求,确定服务策略,形成服务策略清单;
(1)明确增值服务清单,可通过如下方式:一是直接获得,对供电公司目前能够提供的增值服务进行梳理汇总,并制定增值服务策略和具体措施;
二是间接获取,通过客户调研、数据分析等方式获取用户需求,制定对应的增值服务策略,具体从用户非常关注、实现价值高且还未满足的需求点来挖掘增值服务潜能,在现有业务服务情况基础上,以该增值业务服务流程的关键技术环节作为切入点,从服务拓展和服务优化两方面入手,制定增值服务策略;
(2)确定增值服务策略及措施,综合上述两个来源,确定增值服务策略及具体措施,如多能互补、需量节费、非侵入式负荷监测、负荷及电量预测和电能质量保障等;
(3)增值服务选定,可通过如下方式,例如,一是以电力客户作为研究对象,对照梳理的增值服务策略清单,选定抽取的样本客户的属性特征字段主要有行业类别、客户类型、年度电费、用电性质、新增报装容量、电压等级、合同容量、运行容量等指标;
二是结合样本客户的属性特征,为客户选定增值服务策略。
S2,根据所述数据增值服务的应用场景,分析所述应用场景的数据需求,根据数据需求采集数据信息,对数据信息进行预处理得到第一数据集;
所述数据信息包括电力数据和社会各行业数据,所述社会各行业数据包括经济发展数据、公共部门数据和/或气象数据;
例如,分析该数据增值服务应用场景的数据需求即数据颗粒度、数据时隙、数据类型及数据规模,根据数据需求设计数据采集方案进行数据信息的采集,通过各业务系统、相关网站及现场调研等方式获取用电及社会各行业相关数据,并进行数据挖掘前的业务贯通及多业务系统数据的融合,形成基础数据库并对基础数据库中的数据进行数据质量核查,对基础数据库中的数据进行缺失值和异常值的处理并归一化:
(1)分析该数据增值服务的数据需求,分析该场景所需数据的数据颗粒度、数据时隙、数据类型及数据规模。根据数据需求设计数据采集方案进行数据信息的采集,为有效采集客户的用能数据,对监测数据项按照空间拓扑结构多层次进行分类;
根据定义的数据级别和数据采集方案中的采集对象、采集工具、采集装置的安装位置进行所需数据的采集,数据主要有生产营销管理三大类电力系统内部数据和电力系统外部数据。
1)营销数据包括营销基础数据如客户档案、业扩报装、用户用电量、应收/实收电费、营销财务、计量设备等,数据更新频率以收费周期而定,一般为2min;用电信息采集数据如台区及低压用户的计量点、运行表、户-站-线-变关系等基础数据,以及有功、无功、功率因数、电流和电压等负荷数据,数据更新频率为15min(台区)、 1d(低压用户);客户服务信息采集如电话语音、客服受理数据、客户档案信息等。
2)生产数据包括生产实时监测类①调度自动化数据如开关电流、电压、有功、无功,各主变高低压侧有功、无功、档位,母线电压、相角、频率,各站出线有功和无功等,数据频率为实时;
②TMR关口数据如城市区域内所有220kV变电站的关口电量,数据频率为5min;
③输变电设备状态监测数据如输电线路微气象、覆冰、污闪、舞动、倾斜等;变电设备油色谱、SF6、电缆连接处温度等,数据频率为30min(输电)、5min(变电);GIS类①GIS如地理相关信息,定期更新;
电网拓扑如输配电线路及设备拓扑结构,以及供电范围等衍生数据,定期更新;配网抢修类①中、低压配电网故障报修、抢修等,根据故障更新数据。
3)管理数据包括电网设备台账数据如设备的出厂、投运信息、生产计划管理数据,数据频率为定期更新;电网设备运维信息如输电、变电、配电设备的缺陷记录、故障记录、检修数据、巡视管理数据、安检管理以及状态评价数据等,数据频率为定期更新;电网工程建设数据如大修项目计划、进度管控、物料规模、工程评估等数据,数据频率为定期更新。
4)电力系统外部数据包括经济发展数据如总体、各行业、各地区经济发展状况,按月、季、年更新;公共部门数据如人口数据、电价政策、城市发展规划等,按年更新;气象数据如温度、降雨、风速、雷电等,按小时更新。
(2)进行多源数据的融合,电力数据来自多个业务系统,采用分散放置、分布式管理模式,分析挖掘前需进行业务贯通及数据融合。通过预先的配置各类数据耦合规则,自动对数据进行匹配。常用的数据融合方法有估计理论和识别技术;
数据融合技术需要将电网不同部门、不同系统的台账数据、用户数据、运行数据以及地理信息等数据进行融合,在进行电网参数融合时,需采用横向、纵向融合两步保证数据融合的有机进行;
纵向参数融合是指消除同一部门专业(自动化、运行方式、继电保护)在不同级别的电网调度中心设备上的参数差异;
不同部门专业通过各自不同级别的纵向融合实现参数的纵向统一;
具体步骤包括:1)参数获取。通过统一的Web Service接口获取各个来源的电网参数;
2)专业参数匹配与参数差异分析。通过参数中的对象名称进行匹配,实现不同专业设备与各自参数的匹配,采用纵向参数差异度Dv,i来衡量不同级别相同专业的参数差异性;
横向参数融合与纵向融合类似同样包括两个步骤,与纵向参数融合不同的是横向数据融合是指对于同一级别调度中心不同专业部门之间的参数融合,接着进行专业参数匹配与参数差异分析;
(3)形成基础数据库并对基础数据库中的数据进行数据质量核查,对基础数据库中的数据进行缺失值和异常值的处理并归一化:
1)电力负荷缺失值处理:基于年周期填补电力负荷缺失值,或基于周周期填补电力负荷缺失值,或采用以上两种方法分别计算出负荷缺失值并取两者平均值作为最终的电力负荷缺失值进行填补;
2)电力负荷异常值处理:计算任意两个紧邻的负荷数据差值,当差值的绝对值超过设定的负荷数据变化阈值时,认定此时的负荷数据为异常值,需要对其进行修正处理,处理方法如下:
①异常值的识别
②异常值的修正
首先,求取Pt紧邻的五个负荷数据的平均值AVG1:
然后,求取Pt紧邻的三个负荷数据的平均值AVG2:
其次,求取Pt紧邻的两个负荷数据的平均值AVG3:
最后,通过加权求得修正后的电力负荷值Pt′:
Pt′=ω1·AVG1+ω2·AVG2+ω3·AVG3
其中,ω为加权的权值;
3)数据归一化:将输入数据进行归一化处理,按比例缩小,使之映射到一个较小的范围;归一化后数据不存在量纲,且取值范围在 [0,1]之间。
归一化处理的公式为:
其中,x为输入数据,xmax为输入数据中最大值,xmin为输入数据中最小值,xnor为归一化后的输入数据。
S3,构建所述应用场景的场景模型,选定应用场景中的大数据挖掘算法对第一数据集提取特征向量并对特征向量进行再加工得到第二数据集,利用第二数据集建立训练集和验证集,利用训练集训练机器学习模型,利用验证集验证机器学习模型的学习结果;
例如,(1)算法选定,数据增值服务场景构建中的算法部分是整个场景模型的核心,在实际应用中,首先应该对具体问题进行分析,清楚需要分析的数据规模、预期目标以及期望得出的结果,然后确定选用的具体机器学习算法。通过测试不同算法,交叉验证来选择表现最好的算法;
经典机器学习通常分为有监督学习和无监督学习。有监督学习分为分类和回归。分类基于事先知道的一种属性对物体划分类别,常用算法有朴素贝叶斯、决策树、Logistic回归、K近邻和支持向量机等。回归算法预测数值,常见的回归算法有线性回归和多项式回归;
无监督学习常用于探索性数据分析,分为聚类、降维、关联规则学习;
聚类是在没有事先标注类别的前提下来进行划分,试图基于某些特征找出相似的对象并将它们聚集成簇,常见算法有K均值聚类、 Mean-Shift和DBSCAN等;
常见的降维算法有主成分分析、奇异值分解、潜在语义分析和 t-SNE等。常见的关联规则学习算法有Apriori、Euclat、FP-growth 等;
深度学习建立模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,训练的模型在输入和输出之间具有多个隐藏层;
典型的算法有卷积神经网络CNN、循环神经网络RNN、生成对抗网络GANs和深度强化学习RL;
集成学习将几种机器学习技术按策略组合以达到减小方差 (bagging)、偏差(boosting)或改进预测(stacking)的效果,结合策略主要有平均法、投票法和学习法等;
目前集成学习的主流方法有Boosting方法和Bagging方法, Boosting方法包括Adaboosting、提升树和XGBoost等;Bagging典型方法有随机森林等;
强化学习依据智能体动作选取方式分为基于价值(value-base d)、基于策略(policy-based)和结合价值与策略(actor-critic)三类;
基于价值类的代表算法有Q-learning、SARSA及DQN系列等;基于策略类的代表性算法有REINFORCE、TRPO、PPO等;结合价值与策略类的代表性算法有AC、A3C、DPG、DDPG、TD3、SAC等。
(2)进行数据分析,主要是数据发现,如找出每列的最大值、最小值、平均值、方差、中位数、某些特定值所占比例或分布规律等,并确定自变量x1…xn和因变量y,找出因变量与自变量的相关性,确定相关系数;
(3)进行特征选择,并对特征提取结果再加工;
1)特征选择:特征总体分为数值型、类别型、时间型、文本型等几个类型,将这些类型的特征进行归一化、标准化等处理,从最初的大量特征里选择特征子集,将上一步骤确定的自变量进行筛选,筛选有人工选择和模型选择等方法,选择合适的特征,对变量进行命名以便更好地标记;
在特征选择算法里,有经典的基于模拟退火和遗传算法、基于进化算法(如粒子群优化、蚁群优化)和随机方法(如蒙特卡洛)的方法;
2)加工特征提取结果,增强特征的表示能力,防止模型过于复杂和学习困难,比如对连续的特征值进行离散化,label值映射成枚举值,用数字进行标识等,或者利用PCA主成分分析、LDA线性判别分析、MDS多维尺度分析来降低特征矩阵维度;
(4)建立训练集和验证集:将数据分为两部分训练集和测试集,第一部分用于训练模型,第二部分用于评估训练模型的表现,例如,通常以8:2或者7:3进行训练集和数据集的划分;
(5)训练机器学习的模型:不同的模型对于不同数据的敏感程度及处理能力各有所长,可以使用单个模型或者混合模型即通过结合每一个子模型的判别结果,得到一个较为全面的综合模型;
若使用混合模型需要各个子模型各自针对特征工程基于训练数据生成的特征及对应类别标签进行训练,并将每个子模型的参数调优,保存为记录模型对于特征数据学习状况的模型文件,在进行判别时,每个子模型根据输入的特征,给出对应的概率输出,最终得到混合模型的输出;
不同算法需要调节的参数不同,在设定算法参数时,对每个参数选定一个范围和变化步长。算法的参数可分为模型参数与超参数两类,模型参数指的是使用的模型根据训练数据学习所得的参数,无需提前给定,而超参数是在训练过程之前设定的参数,超参数对模型的学习性能及最终效果有极大的影响,需要对超参数进行优化,尽可能找到最优超参数以提升模型的训练质量;
常用的超参数选取的方法有随机搜索、网格搜索和贝叶斯优化三种,网格搜索按照步长依次查找划定的搜索范围内的所有点,最终确定最优值;
随机搜索则并未尝试解空间内的所有点,而是对搜索范围进行有限次的随机取样;
贝叶斯优化基于数据使用贝叶斯定理估计目标函数的后验分布,然后再依照分布选择下一个釆样的超参数组合;
(6)验证机器学习的结果:交叉验证是把集合拆成5份,取4份做训练集,1份做测试集,并且每次选择不同的一份做测试集,最后测出5个做平均,是按照交易或者按人拆分;若是拿过去的训练预测未来的更合适的方法是按照时间拆分,比如评估的时候选取一个时间点,用在这个时间点之前的数据做训练,预测在这个时间点之后的,更接近真实应用场景的评估结果,例如风险、营销或者反欺诈等;
S4,确定数据增值服务和机器学习模型的评价指标,根据评价指标分别对数据增值服务和机器学习模型进行综合评估;
训练完成之后,通过拆分出来的训练的数据来对模型进行评估,通过真实数据和预测数据进行对比,来判定模型的好坏;
评估分类模型性能的常用指标包括混淆矩阵Confusion Matrix、准确率Ac、灵敏度Sn、特异性Sp、马太相关系数MCC、ROC曲线和 AUC值等;
评估回归模型性能的常用指标是确定系数R 2,此外,平均绝对误差MAE、均方误差MSE、均方根误差RMSE也是衡量残差或预测误差的常用指标;
在完成模型评估后,通过调整模型参数改善训练,重复训练和评估的过程;
(2)根据确定的场景评估指标对场景效果进行评估。
本发明提供的方法构建了完整的适用于园区级大数据增值服务的应用场景构建及评价方法,包括数据增值服务清单的明确及客户需求的挖掘、能源数据需求分析及数据采集与预处理、机器学习算法的选定及场景模型的构建、数据增值服务算法与场景的评价指标选取与综合评估;
采用本发明方法的大数据增值服务的场景构建及评价方法,具备全面性、独立性、灵活性和实用性,有助于深入挖掘能源大数据价值,实现数据增值服务应用变现落地工作,更好地支撑资源调配、业务协同和风险防控,不断提高效率效益,为政府、企业和社会提供更加有价值的数据信息,同时也可以形成数据增值服务产品,以真实可靠的数据分析辅助客户开展对应的产品优化,提升产品质量,促进电网安全、稳定运行。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种园区级数据增值服务的场景构建及评价方法,其特征在于,包括如下步骤:
S1,明确园区级的至少一种数据增值服务,制定每种数据增值服务的策略及措施,选定适合服务对象的需求的数据增值服务;
S2,根据所述数据增值服务的应用场景,分析所述应用场景的数据需求,根据数据需求采集数据信息,对数据信息进行预处理得到第一数据集;
S3,构建所述应用场景的场景模型,选定应用场景中的大数据挖掘算法对第一数据集提取特征向量并对特征向量进行再加工得到第二数据集,利用第二数据集建立训练集和验证集,利用训练集训练机器学习模型,利用验证集验证机器学习模型的学习结果;
S4,确定数据增值服务和机器学习模型的评价指标,根据评价指标分别对数据增值服务和机器学习模型进行综合评估。
2.根据权利要求1所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述S1包括:
根据各园区级的生态系统的不同阶段信息流的差别得到数据增值服务的业务类型;
将园区级的生态系统划分为不同的主体,明确各主体的需求,形成数据增值服务的清单,以确定各数据增值服务的策略及措施。
3.根据权利要求1所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述数据信息包括电力数据和社会各行业数据,所述社会各行业数据包括经济发展数据、公共部门数据和/或气象数据;
所述S2包括分析应用场景所需数据的数据颗粒度、数据时隙、数据类型及数据规模;
根据数据需求设计数据采集方案,所述数据采集方案包括定义所需数据的数据级别,根据数据级别和数据采集方案中的采集对象、采集工具和采集装置的安装位置采集数据信息。
4.根据权利要求3所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述预处理包括对数据信息进行多源数据的融合,通过预先的配置各类数据耦合规则,自动对数据进行匹配,形成基础的数据库。
5.根据权利要求4所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述步骤包括对基础数据库中的数据进行缺失值的填补、异常值的修正和数据归一化以得到第一数据集。
6.根据权利要求1所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述对第一数据集提取特征向量并对特征向量进行再加工包括进行数据分析,确定自变量和因变量,找出因变量与自变量的相关性,确定相关系数;
筛选自变量,将不同类型的特征向量进行归一化和标准化处理,选择特征子集;
对选择的特征子集进行再加工,增强特征子集的表示能力,得到第二数据集。
7.根据权利要求1所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述训练机器学习模型和验证机器学习模型的学习结果包括根据不同的机器学习模型对不同数据的敏感程度,使用单个机器学习模型或者混合模型,所述混合模型包括通过结合每一个机器学习模型的判别结果得到的综合模型。
8.根据权利要求7所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,所述验证机器学习模型的学习结果包括将第二数据按照交易拆分、按人拆分或按照时间拆分为训练集和验证集进行交叉验证并预测未知的数据。
9.根据权利要求8所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,对增值服务和机器学习模型进行综合评估包括训练完成之后,通过拆分出的训练集和验证集来对机器学习模型进行评估,通过将验证集的验证结果和预测的未知数据进行对比来判定机器学习模型的准确性。
10.根据权利要求9所述的一种园区级数据增值服务的场景构建及评价方法,其特征在于,在完成机器学习模型评估后,调整机器学习模型参数,重复训练和评估的过程;
从包括经济效益或环境的维度对数据增值服务的应用场景进行综合评估。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913933.XA CN113609177A (zh) | 2021-08-10 | 2021-08-10 | 一种园区级数据增值服务的场景构建及评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110913933.XA CN113609177A (zh) | 2021-08-10 | 2021-08-10 | 一种园区级数据增值服务的场景构建及评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609177A true CN113609177A (zh) | 2021-11-05 |
Family
ID=78307956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110913933.XA Pending CN113609177A (zh) | 2021-08-10 | 2021-08-10 | 一种园区级数据增值服务的场景构建及评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609177A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
CN109712023A (zh) * | 2018-12-26 | 2019-05-03 | 国网河南省电力公司经济技术研究院 | 一种区域售电市场价值评估方法 |
CN112085259A (zh) * | 2020-08-13 | 2020-12-15 | 国网上海市电力公司 | 一种新能源接入与综合能源服务潜力关联预测方法 |
-
2021
- 2021-08-10 CN CN202110913933.XA patent/CN113609177A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523316A (zh) * | 2018-11-16 | 2019-03-26 | 杭州珞珈数据科技有限公司 | 商业服务模型的自动化建模方法 |
CN109712023A (zh) * | 2018-12-26 | 2019-05-03 | 国网河南省电力公司经济技术研究院 | 一种区域售电市场价值评估方法 |
CN112085259A (zh) * | 2020-08-13 | 2020-12-15 | 国网上海市电力公司 | 一种新能源接入与综合能源服务潜力关联预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | An intuitionistic fuzzy multi-criteria framework for large-scale rooftop PV project portfolio selection: Case study in Zhejiang, China | |
CN108491969B (zh) | 基于大数据的空间负荷预测模型构建方法 | |
Azeem et al. | Electrical load forecasting models for different generation modalities: a review | |
CN110097297B (zh) | 一种多维度窃电态势智能感知方法、系统、设备及介质 | |
CN111091143B (zh) | 基于深度信念网络和K-means聚类的配变重过载预警方法 | |
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
Ahmad et al. | Review of various modeling techniques for the detection of electricity theft in smart grid environment | |
Hong et al. | Probabilistic electric load forecasting: A tutorial review | |
Dat et al. | A new integrated fuzzy QFD approach for market segments evaluation and selection | |
Wu et al. | Risk assessment of wind-photovoltaic-hydrogen storage projects using an improved fuzzy synthetic evaluation approach based on cloud model: A case study in China | |
Li et al. | A meta-learning based distribution system load forecasting model selection framework | |
CN101728868A (zh) | 遥测电力负荷特性的分类和预测方法 | |
CN104022552A (zh) | 一种用于电动汽车充电控制的智能检测方法 | |
CN108171369A (zh) | 基于客户用电差异化特性的短期负荷组合预测方法 | |
CN110675020A (zh) | 一种基于大数据的高价低接用户识别方法 | |
CN115905319B (zh) | 一种海量用户电费异常的自动识别方法及系统 | |
CN112949207A (zh) | 一种基于改进最小二乘支持向量机的短期负荷预测方法 | |
Gutierrez-Rojas et al. | Weather-driven predictive control of a battery storage for improved microgrid resilience | |
Rathod et al. | Design of electricity tariff plans using gap statistic for K-means clustering based on consumers monthly electricity consumption data | |
CN114219225A (zh) | 基于多源数据的电网投资效益评估系统及评估方法 | |
Makanju et al. | Machine Learning Approaches for Power System Parameters Prediction: A Systematic Review | |
Bezerra et al. | A PCA-based variable ranking and selection approach for electric energy load forecasting | |
Colley et al. | Queensland load profiling by using clustering techniques | |
CN113537607B (zh) | 停电预测方法 | |
CN113609177A (zh) | 一种园区级数据增值服务的场景构建及评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |