CN112785029B - 一种基于深度聚类模型的充电站用电量预测方法 - Google Patents
一种基于深度聚类模型的充电站用电量预测方法 Download PDFInfo
- Publication number
- CN112785029B CN112785029B CN202011221935.4A CN202011221935A CN112785029B CN 112785029 B CN112785029 B CN 112785029B CN 202011221935 A CN202011221935 A CN 202011221935A CN 112785029 B CN112785029 B CN 112785029B
- Authority
- CN
- China
- Prior art keywords
- charging station
- data
- clustering
- cluster
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000005611 electricity Effects 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 80
- 230000009193 crawling Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 241000251468 Actinopterygii Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000002537 cosmetic Substances 0.000 claims description 3
- 241000238631 Hexapoda Species 0.000 claims description 2
- 238000003064 k means clustering Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000010276 construction Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于深度聚类模型的充电站用电量预测方法,包括:充电站数据的增强及预处理;基于深度聚类模型的特征映射,充电站所属簇的确定;基于最近邻算法的充电站电量预测。本发明方法使用深度神经网络同时学习充电站数据的特征表示和簇的分配,通过将数据映射到隐层特征空间,迭代地优化聚类目标和重构损失,减少了误差传播的可能性;进一步使用最近邻算法对充电站用电量进行预测。本方法相比于以往的充电站用电预测方法,能够挖掘到数据的隐含特征,缩小搜索空间,具有更高的预测精度。
Description
技术领域
本发明属于深度学习领域,具体涉及一种基于深度聚类模型的充电站用电量预测方法。
背景技术
目前国内外针对电动汽车充电设施的数量需求研究的成果较多集中在通过预测电动汽车 保有量而预测充电设施数量和用电量,也有部分研究者通过研究电动汽车充电特性来确定充 电设施数量。
当前充电站规划研究已经积累了较为丰富的经验,部分研究者们考虑到电动汽车产业正 处于起步阶段,电动汽车充电设施建设经验较少,而加油站的建设已经较为成熟,因此通过 调研加油站需求量的预测方法,可以为电动汽车充电站的需求预测提供参考。现行加油站需 求预测方法主要有:依据规范推算法和工程类比法。规范推算法依据规范中提出的“城市公 共加油站的服务半径宜为0.9km-1.2km,即服务区域面积为2.54km2-4.53km2”的要求建 立加油站;工程类比法是指以机动车保有量为基准对加油站需求总量进行简单估算的方法, 一般电动汽车站的需求预测大多考虑采用此种方法。
有研究者提出对单个充电站容量需求的预测方法,认为由于电动汽车充电站的建设规模 与其能提供的配电系统直接相关,充电站的需求电量不能完全反应充电站的规模建设,在实 际的充电站建设中,不同配电功率的充电设备对应不同的供电需求。将不同配电功率的充电 设备进行等级匹配,可以满足绝大部分的电动汽车需求,同时直接影响了充电站的规模。此 外,综合考虑电动汽车保有量、单次充电续驶里程数、充电次数、每公里耗电量、平均充电 时间以及日平均行驶里程等因素都对电动汽车充电站配电功率需求有重要影响,通过确定充 电站配电功率需求,进而确定充电站建设规模。
整体来看,上述方法通过提前划定服务半径、以机动车保有量为基准或者以电动汽车指 标为参考,间接对充电站的数量和用电量进行预测,但是,先前研究没有直接考虑目前已有 的充电站用电量数据,从而忽略了充电站在实际使用过程中的用电量、使用频率等信息,所 得结论较为宏观,难以体现城市各个区域中充电设施数量的真实需求。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于深度聚类模型的充电 站用电量预测方法,该方法基于充电站的位置进行信息扩充,采用堆叠去噪自编码器提取充 电站数据的特征,进一步使用深度聚类模型对充电站进行分类,最后基于充电站所属簇在隐 特征空间中使用K近邻算法对用电量进行预测。
技术方案:为了实现上述目的,本发明采用的技术方案为:
一种基于深度聚类模型的充电站用电量预测方法,其特征在于,包括如下步骤:
(1)训练样本获取步骤:采集各充电站原始训练数据,爬取充电站所在城市的POI数据;
(2)训练样本生成步骤:根据POI数据对各充电站原始训练数据进行数据属性增强和数 据预处理,构造充电站增强训练数据集;
(3)模型预训练步骤:在步骤(2)构造的充电站增强训练数据集上采用堆叠去噪自编 码器提取充电站训练数据的隐特征表示,对编码器和解码器参数进行预训练,其中编码器的 输入为各充电站增强训练数据,编码器的输出为各充电站训练数据的初始隐特征表示;
(4)模型训练步骤:基于深度聚类模型采用聚类损失和重构损失对充电站增强训练数据 集进行迭代学习,利用步骤(3)得到的编码器获得各充电站训练数据的初始隐特征表示,对 初始隐特征表示使用K均值聚类算法,计算得到K个初始聚类中心,根据各充电站训练数据 的隐特征表示和聚类中心之间的相似度构建充电站训练数据的软聚类标签分布,通过优化软 聚类标签分布和辅助目标分布之间的KL散度对编码器参数和聚类中心进行迭代更新,通过 优化重构损失对编码器参数和解码器参数进行迭代更新,直至模型收敛,得到充电站训练数 据所属的簇和充电站训练数据的隐特征表示;
(5)充电站用电量预测步骤:对于每个待预测充电站的原始测试数据,通过POI数据对 其进行数据属性增强和数据预处理,得到每个待预测充电站的增强测试数据集,并输入步骤 (4)得到的模型判断其所属的簇,基于所属簇的充电站训练数据的隐特征表示,使用K近 邻算法对待预测充电站的用电量进行预测。
作为优选,步骤(1)中所述爬取充电站所在城市的POI数据;具体包括:
通过分析充电站原始数据中的经纬度数据得到充电站分布的城市,通过高德地图API对 该城市的所有地区进行POI数据爬取,爬取的POI数据分为五大类型,包括“高等院校”,“住 宅区”,“加油站”,“餐饮服务”和“购物服务”,每个大类型包括多个小类型,其中,“住宅 区”包括“住宅区”、“别墅”、“住宅小区”、“宿舍”和“社区中心”,“餐饮服务”包括“餐饮相关场所”、“中餐厅”、“外国餐厅”、“快餐厅”、“咖啡厅”和“休闲餐饮场所”,“购物服 务”包括“购物相关场所”、“商场”、“便民商店”、“家电电子卖场”、“超级市场”、“花鸟鱼 虫市场”、“综合市场”、“体育用品店”、“特色商业街”、“专卖店”和“化妆品店”;爬取POI 数据的属性包括:经度、维度、所在区和名字;爬取完成后,将所有小类型数据分别合并到 各自所属的大类型中。
作为优选,步骤(2)中所述根据POI数据对各充电站原始训练数据进行数据属性增强和 数据预处理;具体方法包括:
设置阈值σ,根据充电站和POI数据的经纬度之间的欧氏距离计算第m个充电站与第n条 POI数据之间的距离dmn,如果dmn<σ,则判定第n条POI数据点在第m个充电站附近,对于每一个充电站,统计其附近不同类型的POI数据点的个数,并将该数据作为特征与充电站原始数据数属性进行拼接,
在对所有充电站数据进行属性扩充后,将数据归一化到[0,1]区间内。
作为优选,步骤(3)中所述采用堆叠去噪自编码器提取充电站训练数据的隐特征表示; 具体方法包括:
堆叠去噪自编码器包含编码器和解码器两个非线性映射单元,编码器的输入为信息扩充 后的充电站增强训练数据D=[d1,d2,...,dN],N表示充电站增强训练数据总数,输出为充电 站训练数据的隐特征表示Z=[z1,z2,...,zN],编码器和解码器具有对称的结构,均由多层感 知机与非线性激活函数组成。
作为优选,步骤(4)中所述基于深度聚类模型采用聚类损失和重构损失对充电站增强训 练数据集进行迭代学习;具体方法包括:
a)对步骤(3)获得的各充电站训练数据的初始隐特征表示采用k-means算法得到聚类中 心μj的初始化,j表示第j个聚类中心,聚类中心总数为J;将步骤(3)获得的模型作为堆叠 去噪自编码器的初始化;
b)利用堆叠去噪自编码器得到第i条充电站数据di的隐特征表示zi;
c)针对充电站数据di,使用学生t-分布衡量隐特征表示zi和聚类中心μj之间的相似度, 表示数据di属于聚类中心μj的概率,1≤j≤J;进一步计算充电站数据di与所有聚类中心的 相似度,即获得充电站数据di的软聚类标签分布qi=[qi,1,qi,2,...,qi,J],qi中最大值表示第i条 充电站数据所属的簇:
其中,qi,j表示第i条充电站数据属于第j个聚类中心的概率;α表示学生t-分布的自由度参数; ∑j′(·)表示对第i条充电站数据属于所有聚类中心的概率求和,1≤j′≤J;
d)对所有的充电站数据执行步骤b)、c),计算得到所有充电站数据的软聚类标签分布 Q=[q1,q2,...,qN],N表示充电站数据总数;
e)根据不同簇的分配频率对软聚类标签分布进行规范化,得到第i条充电站数据di的辅助目标分布pi=[pi,1,pi,2,...,pi,J],并进一步得到所有充电站数据的辅助目标分布P=[p1,p2,...,pN]:
其中,pi,j表示第i条充电站数据di属于第j个聚类中心的参考概率;pi表示第i条充电站数据di属于所有聚类中心的辅助目标分布;fj表示不同簇分布的分配频率,1≤j′≤J;
f)计算软聚类标签分布qi和辅助目标分布pi之间的KL散度作为聚类损失:
其中,P表示所有充电站数据的软聚类标签分布,Q表示所有充电站数据的辅助目标分布;
g)计算堆叠去噪自编码器的重构损失:
模型对聚类损失和重构损失进行联合优化,最终所优化的损失函数为:
L=Lc+γLr
其中,γ为超参数,决定两个损失所占的权重。
h)使用随机梯度下降优化上述损失函数,若迭代次数为1或者达到辅助目标函数的更新 步数,则重复步骤d)、e)、f)、g),否则,重复步骤d)、f)、g),更新模型参数直至收敛,输 出所有充电站数据的隐特征表示和所属的簇。
作为优选,步骤(5)中所述待预测充电站用电量预测;具体方法包括:
对于每个待预测充电站的原始测试数据,通过POI数据对其进行数据属性增强和数据预 处理,得到每个待预测充电站的增强测试数据集,使用步骤(4)中训练好的模型计算待预测 充电站数据的隐特征表示以及所属的簇C,从所有的充电站训练数据中获取簇C内充电站训练 数据的隐特征表示,对待预测充电站数据的隐特征表示使用K近邻算法计算出距离最近的v个 数据,进一步对待预测充电站用电量进行预测:
有益效果:本发明提供的一种基于深度聚类模型的充电站用电量预测方法,是一种基于 深度学习的预测方法,旨在充电站数据有限的条件下扩充数据信息,使用深度学习的方式对 充电站进行聚类,缩小搜索空间;利用神经网络强大的表示能力,通过编码器-解码器模型, 能够在对充电站进行聚类的同时抽取出充电站数据的隐特征;基于充电站所属簇的搜索空间, 针对充电站的隐特征表示,使用K近邻算法定点定时地预测出充电站的用电量。本方法采用 的是深度学习的方式,模型结构简单,速度快。
附图说明
图1是本发明实施例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于 限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改 均落于本申请所附权利要求所限定的范围。
一种基于深度聚类模型的充电站用电量预测方法,如图1所示,该方法包含如下几个步 骤:1)对充电站原始数据进行数据属性增强和数据预处理,获得充电站增强训练数据;2) 提取充电站训练数据的隐特征表示,通过堆叠去噪自编码器提取充电站训练数据的隐特征表 示;3)对充电站增强训练数据进行聚类,通过最小化软聚类标签分布和辅助目标分布之间的 KL散度以获取最优的聚类结果,同时最小化重构损失来优化隐空间结构;4)模型训练。5) 使用K近邻算法对待预测充电站的用电量进行预测。下面详细介绍每一个步骤。
问题可以描述如下:用X=[x1,x2,...,xN]表示已有充电站的数据,其中充电站数据xi包括 充电站的经度、纬度和月份,用Y={y1,y2,...,yT}表示已有充电站的用电量,其中yi表示充电 站数据xi对应的用电量。用W表示待预测充电站数据,数据包括经度、纬度和月份,充电站 用电量预测的任务是基于已有充电站的数据X和充电量Y,对充电站W的用电量进行预测。
1)对充电站原始数据进行数据属性增强和数据预处理,获得充电站增强训练数据:
步骤1,爬取充电站所在城市的POI数据,具体为:通过分析充电站集合O的经纬度数据 得到充电站所分布的城市,通过高德地图API对该城市的每一个区进行POI数据爬取。爬取 的POI数据分为五大类型,包括“高等院校”,“住宅区”,“加油站”,“餐饮服务”和“购物服务”,每个大簇包括多个小类型,其中,“住宅区”包括“住宅区”、“别墅”、“住宅小区”、 “宿舍”和“社区中心”,“餐饮服务”包括“餐饮相关场所”、“中餐厅”、“外国餐厅”、“快 餐厅”、“咖啡厅”和“休闲餐饮场所”,“购物服务”包括“购物相关场所”、“商场”、“便民 商店”、“家电电子卖场”、“超级市场”、“花鸟鱼虫市场”、“综合市场”、“体育用品店”、“特 色商业街”、“专卖店”和“化妆品店”。爬取POI数据的属性包括:经度、维度、所在区和名 字。爬取完成后,将所有小类型数据分别合并到各自所属的大类型中。
步骤2,根据POI数据对充电站原始数据进行数据属性增强和数据预处理,构造充电站增 强训练数据;具体为:设置阈值σ,σ一般根据已有充电站的用电量与模型预测用电量之间的 均方根误差作为指标进行取值,本实施例中,σ取0.5,通过充电站和POI数据的经纬度之间 的欧氏距离计算充电站数据xm与第n条POI数据之间的距离dmn,如果dmn<σ,认为第n条 POI数据点在充电站xm附近。对于每一个充电站数据xi,统计其附近不同类型的POI数据点 个数,得到环境向量Si=[s1,s2,...,sM],其中M表示POI数据的大类型总数,将环境向量Si与 充电站原始数据进行拼接,构建充电站增强训练数据;
在对所有充电站数据进行属性补充后,将数据归一化到[0,1]区间内,得到充电站增强训 练数据集D=[d1,d2,...,dN]。
2)提取充电站训练数据的隐特征表示:
步骤3,采用堆叠去噪自编码器提取充电站训练数据的隐特征表示z=[z1,z2,...,zN];所 述堆叠去噪自编码器包含编码器和解码器两个非线性映射单元,编码器的输入为信息扩充后 的充电站增强训练数据D=[d1,d2,...,dN],N表示充电站增强训练数据总数,输出为充电站 训练数据的隐特征表示Z=[z1,z2,...,zN],编码器和解码器具有对称的结构,均由多层感知 机与非线性激活函数组成。
3)对充电站增强训练数据进行聚类:
步骤4,使用k-means算法对获得的充电站训练数据的隐特征表示Z进行聚类中心μj的初 始化,j表示第j个聚类中心,聚类中心总数为J;将步骤3获得的预训练模型作为深度聚类模 型的初始化。针对充电站数据di,使用学生t-分布衡量隐特征表示zi和聚类中心μj之间的相 似度,表示数据di属于聚类中心μj的概率,1≤j≤J;进一步计算充电站数据di与所有聚类 中心的相似度,即充电站数据di的软聚类标签分布qi=[qi,1,qi,2,...,qi,J],qi中最大值表示第i 条充电站数据所属的簇。
其中,qi,j表示第i条充电站数据属于第j个聚类中心的概率;α表示学生t-分布的自由度参数, 在实验中全都设置为固定值1;∑j′(·)表示对第i条充电站数据属于所有聚类中心的概率求和, 1≤j′≤J。
对所有的充电站增强训练数据执行步骤4中上述方法,计算得到所有充电站数据的软聚 类标签分布Q=[q1,q2,...,qN],N表示充电站数据总数。根据不同簇的分配频率对软聚类标 签分布进行规范化,得到第i条充电站数据di的辅助目标分布pi=[pi,1,pi,2,...,pi,J],并进一步 得到所有充电站数据的辅助目标分布P=[p1,p2,...,pN]。
其中,pi,j表示第i条充电站数据属于第j个聚类中心的参考概率;pi表示第i条充电站数据属于 所有聚类中心的辅助目标分布;fj表示不同簇分布的分配频率,1≤j′≤J。
计算软聚类标签分布qi和辅助目标分布pi之间的KL散度,利用KL散度不断迭代细化聚 类,提高聚类分配的置信度:
其中,P表示所有充电站数据的软聚类标签分布,Q表示所有充电站数据的辅助目标分布。
为了尽可能在特征空间中保留数据的局部结构信息,在优化qi和pi之间KL散度的同时, 联合优化去噪自编码器的重构损失Lr:
模型对聚类损失和重构损失进行联合优化,最终所优化的损失函数为
L=Lc+γLr
其中,γ为超参数,决定两个损失所占的权重。
4)模型训练
步骤5,首先使用数据集D预训练堆叠去噪自编码器,然后用去噪自编码器初始化模型参 数的每一层。在初始化完之后,使用数据集D微调该堆叠去噪自编码器。进一步联合聚类损 失和重构损失用来迭代改善聚类中心μj,这种方法能够在辅助信息的帮助下改善聚类中心。 本发明实施例使用带动量的随机梯度下降(SGD)算法来优化上述损失函数,重复步骤3和 步骤4,更新模型参数直至收敛,保存模型。
5)、使用K近邻算法预测充电站的用电量
步骤6,基于待预测充电站数据所属簇,在隐特征空间中使用K近邻算法预测其用电量, 具体为:使用训练好的模型计算并保存所有充电站训练数据的隐特征表示以及所属的簇;对 于待预测充电站数据,首先按照步骤2对其进行属性增强,然后通过模型的编码器部分获得 待预测充电站数据的隐特征表示,通过深度聚类模型判断其所属的簇,从保存的充电站训练 数据中获取该簇中数据的隐特征表示,对待预测充电站数据的隐特征表示使用K近邻算法计 算出距离最近的v个数据,对待预测充电站用电量进行预测:
一种基于深度聚类模型的充电站用电量预测方法流程如下:
本发明提出的基于深度聚类模型的充电站用电量预测方法,能够在充电站属性有限的条 件下补充环境信息;基于编码器-解码器模型,利用神经网络强大的表示能力,能够在对充电 站进行聚类的同时抽取出充电站数据的隐特征表示,并根据聚类结果缩小搜索空间。本发明 使用的基于深度聚类模型预测用电量的方法,预测结果的均方根误差RMSE为455kW,小于 基准模型的540kW,平均绝对误差MAE为254kW,小于基准模型的258kW。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说, 在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发 明的保护范围。
Claims (6)
1.一种基于深度聚类模型的充电站用电量预测方法,其特征在于,包括如下步骤:
(1)训练样本获取步骤:采集各充电站原始训练数据,爬取充电站所在城市的POI数据;
(2)训练样本生成步骤:根据POI数据对各充电站原始训练数据进行数据属性增强和数据预处理,构造充电站增强训练数据集;
(3)模型预训练步骤:在步骤(2)构造的充电站增强训练数据集上采用堆叠去噪自编码器提取充电站训练数据的隐特征表示,对编码器和解码器参数进行预训练,其中编码器的输入为各充电站增强训练数据,编码器的输出为各充电站训练数据的初始隐特征表示;
(4)模型训练步骤:基于深度聚类模型采用聚类损失和重构损失对充电站增强训练数据集进行迭代学习,利用步骤(3)得到的编码器获得各充电站训练数据的初始隐特征表示,对初始隐特征表示使用K均值聚类算法,计算得到K个初始聚类中心,根据各充电站训练数据的隐特征表示和聚类中心之间的相似度构建充电站训练数据的软聚类标签分布,通过优化软聚类标签分布和辅助目标分布之间的KL散度对编码器参数和聚类中心进行迭代更新,通过优化重构损失对编码器参数和解码器参数进行迭代更新,直至模型收敛,得到充电站训练数据所属的簇和充电站训练数据的隐特征表示;
(5)充电站用电量预测步骤:对于每个待预测充电站的原始测试数据,通过POI数据对其进行数据属性增强和数据预处理,得到每个待预测充电站的增强测试数据集,并输入步骤(4)得到的模型判断其所属的簇,基于所属簇的充电站训练数据的隐特征表示,使用K近邻算法对待预测充电站的用电量进行预测。
2.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法,其特征在于,步骤(1)中所述爬取充电站所在城市的POI数据;具体包括:
通过分析充电站原始数据中的经纬度数据得到充电站分布的城市,通过高德地图API对该城市的所有地区进行POI数据爬取,爬取的POI数据分为五大类型,包括“高等院校”,“住宅区”,“加油站”,“餐饮服务”和“购物服务”,每个大类型包括多个小类型,其中,“住宅区”包括“住宅区”、“别墅”、“住宅小区”、“宿舍”和“社区中心”,“餐饮服务”包括“餐饮相关场所”、“中餐厅”、“外国餐厅”、“快餐厅”、“咖啡厅”和“休闲餐饮场所”,“购物服务”包括“购物相关场所”、“商场”、“便民商店”、“家电电子卖场”、“超级市场”、“花鸟鱼虫市场”、“综合市场”、“体育用品店”、“特色商业街”、“专卖店”和“化妆品店”;爬取POI数据的属性包括:经度、维度、所在区和名字;爬取完成后,将所有小类型数据分别合并到各自所属的大类型中。
3.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法,其特征在于,步骤(2)中所述根据POI数据对各充电站原始训练数据进行数据属性增强和数据预处理;具体方法包括:
设置阈值σ,根据充电站和POI数据的经纬度之间的欧氏距离计算第m个充电站与第n条POI数据之间的距离dmn,如果dmn<σ,则判定第n条POI数据点在第m个充电站附近,对于每一个充电站,统计其附近不同类型的POI数据点的个数,并将该数据作为特征与充电站原始数据数属性进行拼接,
在对所有充电站数据进行属性扩充后,将数据归一化到[0,1]区间内。
4.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法,其特征在于,步骤(3)中所述采用堆叠去噪自编码器提取充电站训练数据的隐特征表示;具体方法包括:
堆叠去噪自编码器包含编码器和解码器两个非线性映射单元,编码器的输入为信息扩充后的充电站增强训练数据D=[d1,d2,...,dN],N表示充电站增强训练数据总数,输出为充电站训练数据的隐特征表示Z=[z1,z2,...,zN],编码器和解码器具有对称的结构,均由多层感知机与非线性激活函数组成。
5.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法,其特征在于,步骤(4)中所述基于深度聚类模型采用聚类损失和重构损失对充电站增强训练数据集进行迭代学习;具体方法包括:
a)对步骤(3)获得的各充电站训练数据的初始隐特征表示采用k-means算法得到聚类中心μj的初始化,j表示第j个聚类中心,聚类中心总数为J;将步骤(3)获得的模型作为堆叠去噪自编码器的初始化;
b)利用堆叠去噪自编码器得到第i条充电站数据di的隐特征表示zi;
c)针对充电站数据di,使用学生t-分布衡量隐特征表示zi和聚类中心μj之间的相似度,表示数据di属于聚类中心μj的概率,1≤j≤J;进一步计算充电站数据di与所有聚类中心的相似度,即获得充电站数据di的软聚类标签分布qi=[qi,1,qi,2,...,qi,J],qi中最大值表示第i条充电站数据所属的簇:
其中,qi,j表示第i条充电站数据属于第j个聚类中心的概率;α表示学生t-分布的自由度参数;∑j′(·)表示对第i条充电站数据属于所有聚类中心的概率求和,1≤j′≤J;
d)对所有的充电站数据执行步骤b)、c),计算得到所有充电站数据的软聚类标签分布Q=[q1,q2,...,qN],N表示充电站数据总数;
e)根据不同簇的分配频率对软聚类标签分布进行规范化,得到第i条充电站数据di的辅助目标分布pi=[pi,1,pi,2,...,pi,J],并进一步得到所有充电站数据的辅助目标分布P=[p1,p2,...,pN]:
其中,pi,j表示第i条充电站数据di属于第j个聚类中心的参考概率;pi表示第i条充电站数据di属于所有聚类中心的辅助目标分布;fj表示不同簇分布的分配频率,1≤j′≤J;
f)计算软聚类标签分布qi和辅助目标分布pi之间的KL散度作为聚类损失:
其中,P表示所有充电站数据的软聚类标签分布,Q表示所有充电站数据的辅助目标分布;
g)计算堆叠去噪自编码器的重构损失:
模型对聚类损失和重构损失进行联合优化,最终所优化的损失函数为:
L=Lc+γLr
其中,γ为超参数,决定两个损失所占的权重;
h)使用随机梯度下降优化上述损失函数,若迭代次数为1或者达到辅助目标函数的更新步数,则重复步骤d)、e)、f)、g),否则,重复步骤d)、f)、g),更新模型参数直至收敛,输出所有充电站数据的隐特征表示和所属的簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011221935.4A CN112785029B (zh) | 2020-11-05 | 2020-11-05 | 一种基于深度聚类模型的充电站用电量预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011221935.4A CN112785029B (zh) | 2020-11-05 | 2020-11-05 | 一种基于深度聚类模型的充电站用电量预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112785029A CN112785029A (zh) | 2021-05-11 |
CN112785029B true CN112785029B (zh) | 2022-07-08 |
Family
ID=75750357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011221935.4A Active CN112785029B (zh) | 2020-11-05 | 2020-11-05 | 一种基于深度聚类模型的充电站用电量预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785029B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326883B (zh) * | 2021-06-03 | 2022-08-30 | 中创三优(北京)科技有限公司 | 充电站功率利用率预测模型的训练方法、装置及介质 |
CN113568307B (zh) * | 2021-07-02 | 2022-04-01 | 福建时代星云科技有限公司 | 一种储充站的控制策略优化方法及终端 |
CN115310879B (zh) * | 2022-10-11 | 2022-12-16 | 浙江浙石油综合能源销售有限公司 | 一种基于半监督聚类算法的多加油站用电量能耗管控方法 |
CN117493878A (zh) * | 2023-10-09 | 2024-02-02 | 华中科技大学 | 电动汽车充电站的功率预测数据增强方法及功率预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190244108A1 (en) * | 2018-02-08 | 2019-08-08 | Cognizant Technology Solutions U.S. Corporation | System and Method For Pseudo-Task Augmentation in Deep Multitask Learning |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
CN110728421B (zh) * | 2019-08-30 | 2024-04-19 | 山东理工大学 | 一种基于充电需求大数据的路网充电优化方法 |
CN111259979B (zh) * | 2020-02-10 | 2022-11-18 | 大连理工大学 | 一种基于标签自适应策略的深度半监督图像聚类方法 |
-
2020
- 2020-11-05 CN CN202011221935.4A patent/CN112785029B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112785029A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112785029B (zh) | 一种基于深度聚类模型的充电站用电量预测方法 | |
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
CN106910199B (zh) | 面向城市空间信息采集的车联网众包方法 | |
CN108133302B (zh) | 一种基于大数据的公共自行车潜在需求预测方法 | |
CN113902011A (zh) | 基于循环神经网络的城市轨道交通短时客流预测方法 | |
CN109034448A (zh) | 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法 | |
CN108417029A (zh) | 基于自适应多任务深度学习的城市路网行程时间估计方法 | |
CN110503104B (zh) | 一种基于卷积神经网络的短时剩余车位数量预测方法 | |
CN111582559B (zh) | 一种到达时间的预估方法及装置 | |
CN109151995A (zh) | 一种基于信号强度的深度学习回归融合定位方法 | |
CN103123665A (zh) | 基于模糊聚类相似日的短期电力负荷预测方法 | |
Iban | An explainable model for the mass appraisal of residences: The application of tree-based Machine Learning algorithms and interpretation of value determinants | |
CN112258251B (zh) | 基于灰色关联的电动汽车换电需求的集成学习预测方法及系统 | |
CN112598165B (zh) | 基于私家车数据的城市功能区转移流量预测方法及装置 | |
CN110164129A (zh) | 基于gernn的单交叉口多车道交通流量预测方法 | |
CN112419131A (zh) | 交通起讫点需求估算方法 | |
CN112487281A (zh) | 一种立体车库推荐方法 | |
CN114092176A (zh) | 一种基于公交车的城市通勤班车规划方法 | |
CN115034429A (zh) | 基于深度图神经网络的城市出租车接客点推荐方法 | |
CN114579892A (zh) | 一种基于跨城市兴趣点匹配的用户异地访问位置预测方法 | |
CN112085236B (zh) | 基于网约车订单数据的城市热点poi探测方法及装置 | |
CN113642757A (zh) | 一种基于人工智能的物联网充电桩建设规划的方法及系统 | |
Wu et al. | Hybrid genetic-based support vector regression with feng shui theory for appraising real estate price | |
CN117217779A (zh) | 预测模型的训练方法、装置及信息预测方法、装置 | |
CN108668254B (zh) | 基于改进BP神经网络的WiFi信号特征的区域定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |