CN112785029B

CN112785029B - 一种基于深度聚类模型的充电站用电量预测方法

Info

Publication number: CN112785029B
Application number: CN202011221935.4A
Authority: CN
Inventors: 马吉科; 祝永晋; 谢林枫; 季聪; 李剑; 李昆明; 葛崇慧; 王松云; 王江辉; 李同哲; 司加胜; 周德宇
Original assignee: Southeast University; Jiangsu Fangtian Power Technology Co Ltd
Current assignee: Southeast University; Jiangsu Fangtian Power Technology Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-07-08
Anticipated expiration: 2040-11-05
Also published as: CN112785029A

Abstract

本发明公开了一种基于深度聚类模型的充电站用电量预测方法，包括：充电站数据的增强及预处理；基于深度聚类模型的特征映射，充电站所属簇的确定；基于最近邻算法的充电站电量预测。本发明方法使用深度神经网络同时学习充电站数据的特征表示和簇的分配，通过将数据映射到隐层特征空间，迭代地优化聚类目标和重构损失，减少了误差传播的可能性；进一步使用最近邻算法对充电站用电量进行预测。本方法相比于以往的充电站用电预测方法，能够挖掘到数据的隐含特征，缩小搜索空间，具有更高的预测精度。

Description

一种基于深度聚类模型的充电站用电量预测方法

技术领域

本发明属于深度学习领域，具体涉及一种基于深度聚类模型的充电站用电量预测方法。

背景技术

目前国内外针对电动汽车充电设施的数量需求研究的成果较多集中在通过预测电动汽车保有量而预测充电设施数量和用电量，也有部分研究者通过研究电动汽车充电特性来确定充电设施数量。

当前充电站规划研究已经积累了较为丰富的经验，部分研究者们考虑到电动汽车产业正处于起步阶段，电动汽车充电设施建设经验较少，而加油站的建设已经较为成熟，因此通过调研加油站需求量的预测方法，可以为电动汽车充电站的需求预测提供参考。现行加油站需求预测方法主要有：依据规范推算法和工程类比法。规范推算法依据规范中提出的“城市公共加油站的服务半径宜为0.9km-1.2km，即服务区域面积为2.54km²-4.53km²”的要求建立加油站；工程类比法是指以机动车保有量为基准对加油站需求总量进行简单估算的方法，一般电动汽车站的需求预测大多考虑采用此种方法。

有研究者提出对单个充电站容量需求的预测方法，认为由于电动汽车充电站的建设规模与其能提供的配电系统直接相关，充电站的需求电量不能完全反应充电站的规模建设，在实际的充电站建设中，不同配电功率的充电设备对应不同的供电需求。将不同配电功率的充电设备进行等级匹配，可以满足绝大部分的电动汽车需求，同时直接影响了充电站的规模。此外，综合考虑电动汽车保有量、单次充电续驶里程数、充电次数、每公里耗电量、平均充电时间以及日平均行驶里程等因素都对电动汽车充电站配电功率需求有重要影响，通过确定充电站配电功率需求，进而确定充电站建设规模。

整体来看，上述方法通过提前划定服务半径、以机动车保有量为基准或者以电动汽车指标为参考，间接对充电站的数量和用电量进行预测，但是，先前研究没有直接考虑目前已有的充电站用电量数据，从而忽略了充电站在实际使用过程中的用电量、使用频率等信息，所得结论较为宏观，难以体现城市各个区域中充电设施数量的真实需求。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于深度聚类模型的充电站用电量预测方法，该方法基于充电站的位置进行信息扩充，采用堆叠去噪自编码器提取充电站数据的特征，进一步使用深度聚类模型对充电站进行分类，最后基于充电站所属簇在隐特征空间中使用K近邻算法对用电量进行预测。

技术方案：为了实现上述目的，本发明采用的技术方案为：

一种基于深度聚类模型的充电站用电量预测方法，其特征在于，包括如下步骤：

(1)训练样本获取步骤：采集各充电站原始训练数据，爬取充电站所在城市的POI数据；

(2)训练样本生成步骤：根据POI数据对各充电站原始训练数据进行数据属性增强和数据预处理，构造充电站增强训练数据集；

(3)模型预训练步骤：在步骤(2)构造的充电站增强训练数据集上采用堆叠去噪自编码器提取充电站训练数据的隐特征表示，对编码器和解码器参数进行预训练，其中编码器的输入为各充电站增强训练数据，编码器的输出为各充电站训练数据的初始隐特征表示；

(4)模型训练步骤：基于深度聚类模型采用聚类损失和重构损失对充电站增强训练数据集进行迭代学习，利用步骤(3)得到的编码器获得各充电站训练数据的初始隐特征表示，对初始隐特征表示使用K均值聚类算法，计算得到K个初始聚类中心，根据各充电站训练数据的隐特征表示和聚类中心之间的相似度构建充电站训练数据的软聚类标签分布，通过优化软聚类标签分布和辅助目标分布之间的KL散度对编码器参数和聚类中心进行迭代更新，通过优化重构损失对编码器参数和解码器参数进行迭代更新，直至模型收敛，得到充电站训练数据所属的簇和充电站训练数据的隐特征表示；

(5)充电站用电量预测步骤：对于每个待预测充电站的原始测试数据，通过POI数据对其进行数据属性增强和数据预处理，得到每个待预测充电站的增强测试数据集，并输入步骤 (4)得到的模型判断其所属的簇，基于所属簇的充电站训练数据的隐特征表示，使用K近邻算法对待预测充电站的用电量进行预测。

作为优选，步骤(1)中所述爬取充电站所在城市的POI数据；具体包括：

通过分析充电站原始数据中的经纬度数据得到充电站分布的城市，通过高德地图API对该城市的所有地区进行POI数据爬取，爬取的POI数据分为五大类型，包括“高等院校”，“住宅区”，“加油站”，“餐饮服务”和“购物服务”，每个大类型包括多个小类型，其中，“住宅区”包括“住宅区”、“别墅”、“住宅小区”、“宿舍”和“社区中心”，“餐饮服务”包括“餐饮相关场所”、“中餐厅”、“外国餐厅”、“快餐厅”、“咖啡厅”和“休闲餐饮场所”，“购物服务”包括“购物相关场所”、“商场”、“便民商店”、“家电电子卖场”、“超级市场”、“花鸟鱼虫市场”、“综合市场”、“体育用品店”、“特色商业街”、“专卖店”和“化妆品店”；爬取POI 数据的属性包括：经度、维度、所在区和名字；爬取完成后，将所有小类型数据分别合并到各自所属的大类型中。

作为优选，步骤(2)中所述根据POI数据对各充电站原始训练数据进行数据属性增强和数据预处理；具体方法包括：

设置阈值σ，根据充电站和POI数据的经纬度之间的欧氏距离计算第m个充电站与第n条 POI数据之间的距离d_mn，如果d_mn＜σ，则判定第n条POI数据点在第m个充电站附近，对于每一个充电站，统计其附近不同类型的POI数据点的个数，并将该数据作为特征与充电站原始数据数属性进行拼接，

在对所有充电站数据进行属性扩充后，将数据归一化到[0，1]区间内。

作为优选，步骤(3)中所述采用堆叠去噪自编码器提取充电站训练数据的隐特征表示；具体方法包括：

堆叠去噪自编码器包含编码器和解码器两个非线性映射单元，编码器的输入为信息扩充后的充电站增强训练数据D＝[d₁，d₂，...，d_N]，N表示充电站增强训练数据总数，输出为充电站训练数据的隐特征表示Z＝[z₁，z₂，...，z_N]，编码器和解码器具有对称的结构，均由多层感知机与非线性激活函数组成。

作为优选，步骤(4)中所述基于深度聚类模型采用聚类损失和重构损失对充电站增强训练数据集进行迭代学习；具体方法包括：

a)对步骤(3)获得的各充电站训练数据的初始隐特征表示采用k-means算法得到聚类中心μ_j的初始化，j表示第j个聚类中心，聚类中心总数为J；将步骤(3)获得的模型作为堆叠去噪自编码器的初始化；

b)利用堆叠去噪自编码器得到第i条充电站数据d_i的隐特征表示z_i；

c)针对充电站数据d_i，使用学生t-分布衡量隐特征表示z_i和聚类中心μ_j之间的相似度，表示数据d_i属于聚类中心μ_j的概率，1≤j≤J；进一步计算充电站数据d_i与所有聚类中心的相似度，即获得充电站数据d_i的软聚类标签分布q_i＝[q_i，1，q_i，2，...，q_i，J]，q_i中最大值表示第i条充电站数据所属的簇：

其中，q_i，j表示第i条充电站数据属于第j个聚类中心的概率；α表示学生t-分布的自由度参数； ∑_j′(·)表示对第i条充电站数据属于所有聚类中心的概率求和，1≤j′≤J；

d)对所有的充电站数据执行步骤b)、c)，计算得到所有充电站数据的软聚类标签分布 Q＝[q₁，q₂，...，q_N]，N表示充电站数据总数；

e)根据不同簇的分配频率对软聚类标签分布进行规范化，得到第i条充电站数据d_i的辅助目标分布p_i＝[p_i，1，p_i，2，...，p_i，J]，并进一步得到所有充电站数据的辅助目标分布P＝[p₁，p₂，...，p_N]：

其中，p_i，j表示第i条充电站数据d_i属于第j个聚类中心的参考概率；p_i表示第i条充电站数据d_i属于所有聚类中心的辅助目标分布；f_j表示不同簇分布的分配频率，1≤j′≤J；

f)计算软聚类标签分布q_i和辅助目标分布p_i之间的KL散度作为聚类损失：

其中，P表示所有充电站数据的软聚类标签分布，Q表示所有充电站数据的辅助目标分布；

g)计算堆叠去噪自编码器的重构损失：

其中，d_i表示第i个充电站的数据；

表示堆叠去噪自编码器输出；

模型对聚类损失和重构损失进行联合优化，最终所优化的损失函数为：

L＝L_c+γL_r

其中，γ为超参数，决定两个损失所占的权重。

h)使用随机梯度下降优化上述损失函数，若迭代次数为1或者达到辅助目标函数的更新步数，则重复步骤d)、e)、f)、g)，否则，重复步骤d)、f)、g)，更新模型参数直至收敛，输出所有充电站数据的隐特征表示和所属的簇。

作为优选，步骤(5)中所述待预测充电站用电量预测；具体方法包括：

对于每个待预测充电站的原始测试数据，通过POI数据对其进行数据属性增强和数据预处理，得到每个待预测充电站的增强测试数据集，使用步骤(4)中训练好的模型计算待预测充电站数据的隐特征表示以及所属的簇C，从所有的充电站训练数据中获取簇C内充电站训练数据的隐特征表示，对待预测充电站数据的隐特征表示使用K近邻算法计算出距离最近的v个数据，进一步对待预测充电站用电量进行预测：

其中，

表示待预测充电站用电量；

表示簇C中第i个充电站的用电量。

有益效果：本发明提供的一种基于深度聚类模型的充电站用电量预测方法，是一种基于深度学习的预测方法，旨在充电站数据有限的条件下扩充数据信息，使用深度学习的方式对充电站进行聚类，缩小搜索空间；利用神经网络强大的表示能力，通过编码器-解码器模型，能够在对充电站进行聚类的同时抽取出充电站数据的隐特征；基于充电站所属簇的搜索空间，针对充电站的隐特征表示，使用K近邻算法定点定时地预测出充电站的用电量。本方法采用的是深度学习的方式，模型结构简单，速度快。

附图说明

图1是本发明实施例的方法流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种基于深度聚类模型的充电站用电量预测方法，如图1所示，该方法包含如下几个步骤：1)对充电站原始数据进行数据属性增强和数据预处理，获得充电站增强训练数据；2) 提取充电站训练数据的隐特征表示，通过堆叠去噪自编码器提取充电站训练数据的隐特征表示；3)对充电站增强训练数据进行聚类，通过最小化软聚类标签分布和辅助目标分布之间的 KL散度以获取最优的聚类结果，同时最小化重构损失来优化隐空间结构；4)模型训练。5) 使用K近邻算法对待预测充电站的用电量进行预测。下面详细介绍每一个步骤。

问题可以描述如下：用X＝[x₁，x₂，...，x_N]表示已有充电站的数据，其中充电站数据x_i包括充电站的经度、纬度和月份，用Y＝{y₁，y₂，...，y_T}表示已有充电站的用电量，其中y_i表示充电站数据x_i对应的用电量。用W表示待预测充电站数据，数据包括经度、纬度和月份，充电站用电量预测的任务是基于已有充电站的数据X和充电量Y，对充电站W的用电量进行预测。

1)对充电站原始数据进行数据属性增强和数据预处理，获得充电站增强训练数据：

步骤1，爬取充电站所在城市的POI数据，具体为：通过分析充电站集合O的经纬度数据得到充电站所分布的城市，通过高德地图API对该城市的每一个区进行POI数据爬取。爬取的POI数据分为五大类型，包括“高等院校”，“住宅区”，“加油站”，“餐饮服务”和“购物服务”，每个大簇包括多个小类型，其中，“住宅区”包括“住宅区”、“别墅”、“住宅小区”、 “宿舍”和“社区中心”，“餐饮服务”包括“餐饮相关场所”、“中餐厅”、“外国餐厅”、“快餐厅”、“咖啡厅”和“休闲餐饮场所”，“购物服务”包括“购物相关场所”、“商场”、“便民商店”、“家电电子卖场”、“超级市场”、“花鸟鱼虫市场”、“综合市场”、“体育用品店”、“特色商业街”、“专卖店”和“化妆品店”。爬取POI数据的属性包括：经度、维度、所在区和名字。爬取完成后，将所有小类型数据分别合并到各自所属的大类型中。

步骤2，根据POI数据对充电站原始数据进行数据属性增强和数据预处理，构造充电站增强训练数据；具体为：设置阈值σ，σ一般根据已有充电站的用电量与模型预测用电量之间的均方根误差作为指标进行取值，本实施例中，σ取0.5，通过充电站和POI数据的经纬度之间的欧氏距离计算充电站数据x_m与第n条POI数据之间的距离d_mn，如果d_mn＜σ，认为第n条 POI数据点在充电站x_m附近。对于每一个充电站数据x_i，统计其附近不同类型的POI数据点个数，得到环境向量S_i＝[s₁，s₂，...，s_M]，其中M表示POI数据的大类型总数，将环境向量S_i与充电站原始数据进行拼接，构建充电站增强训练数据；

在对所有充电站数据进行属性补充后，将数据归一化到[0，1]区间内，得到充电站增强训练数据集D＝[d₁，d₂，...，d_N]。

2)提取充电站训练数据的隐特征表示：

步骤3，采用堆叠去噪自编码器提取充电站训练数据的隐特征表示z＝[z₁，z₂，...，z_N]；所述堆叠去噪自编码器包含编码器和解码器两个非线性映射单元，编码器的输入为信息扩充后的充电站增强训练数据D＝[d₁，d₂，...，d_N]，N表示充电站增强训练数据总数，输出为充电站训练数据的隐特征表示Z＝[z₁，z₂，...，z_N]，编码器和解码器具有对称的结构，均由多层感知机与非线性激活函数组成。

3)对充电站增强训练数据进行聚类：

步骤4，使用k-means算法对获得的充电站训练数据的隐特征表示Z进行聚类中心μ_j的初始化，j表示第j个聚类中心，聚类中心总数为J；将步骤3获得的预训练模型作为深度聚类模型的初始化。针对充电站数据d_i，使用学生t-分布衡量隐特征表示z_i和聚类中心μ_j之间的相似度，表示数据d_i属于聚类中心μ_j的概率，1≤j≤J；进一步计算充电站数据d_i与所有聚类中心的相似度，即充电站数据d_i的软聚类标签分布q_i＝[q_i，1，q_i，2，...，q_i，J]，q_i中最大值表示第i 条充电站数据所属的簇。

其中，q_i，j表示第i条充电站数据属于第j个聚类中心的概率；α表示学生t-分布的自由度参数，在实验中全都设置为固定值1；∑_j′(·)表示对第i条充电站数据属于所有聚类中心的概率求和， 1≤j′≤J。

对所有的充电站增强训练数据执行步骤4中上述方法，计算得到所有充电站数据的软聚类标签分布Q＝[q₁，q₂，...，q_N]，N表示充电站数据总数。根据不同簇的分配频率对软聚类标签分布进行规范化，得到第i条充电站数据d_i的辅助目标分布p_i＝[p_i，1，p_i，2，...，p_i，J]，并进一步得到所有充电站数据的辅助目标分布P＝[p₁，p₂，...，p_N]。

其中，p_i，j表示第i条充电站数据属于第j个聚类中心的参考概率；p_i表示第i条充电站数据属于所有聚类中心的辅助目标分布；f_j表示不同簇分布的分配频率，1≤j′≤J。

计算软聚类标签分布q_i和辅助目标分布p_i之间的KL散度，利用KL散度不断迭代细化聚类，提高聚类分配的置信度：

其中，P表示所有充电站数据的软聚类标签分布，Q表示所有充电站数据的辅助目标分布。

为了尽可能在特征空间中保留数据的局部结构信息，在优化q_i和p_i之间KL散度的同时，联合优化去噪自编码器的重构损失L_r：

其中，d_i表示第i个充电站的数据；

表示堆叠去噪自编码器输出；

模型对聚类损失和重构损失进行联合优化，最终所优化的损失函数为

L＝L_c+γL_r

其中，γ为超参数，决定两个损失所占的权重。

4)模型训练

步骤5，首先使用数据集D预训练堆叠去噪自编码器，然后用去噪自编码器初始化模型参数的每一层。在初始化完之后，使用数据集D微调该堆叠去噪自编码器。进一步联合聚类损失和重构损失用来迭代改善聚类中心μ_j，这种方法能够在辅助信息的帮助下改善聚类中心。本发明实施例使用带动量的随机梯度下降(SGD)算法来优化上述损失函数，重复步骤3和步骤4，更新模型参数直至收敛，保存模型。

5)、使用K近邻算法预测充电站的用电量

步骤6，基于待预测充电站数据所属簇，在隐特征空间中使用K近邻算法预测其用电量，具体为：使用训练好的模型计算并保存所有充电站训练数据的隐特征表示以及所属的簇；对于待预测充电站数据，首先按照步骤2对其进行属性增强，然后通过模型的编码器部分获得待预测充电站数据的隐特征表示，通过深度聚类模型判断其所属的簇，从保存的充电站训练数据中获取该簇中数据的隐特征表示，对待预测充电站数据的隐特征表示使用K近邻算法计算出距离最近的v个数据，对待预测充电站用电量进行预测：

其中，

表示待预测充电站用电量；

表示簇C中第i个充电站训练数据的用电量。

一种基于深度聚类模型的充电站用电量预测方法流程如下：

本发明提出的基于深度聚类模型的充电站用电量预测方法，能够在充电站属性有限的条件下补充环境信息；基于编码器-解码器模型，利用神经网络强大的表示能力，能够在对充电站进行聚类的同时抽取出充电站数据的隐特征表示，并根据聚类结果缩小搜索空间。本发明使用的基于深度聚类模型预测用电量的方法，预测结果的均方根误差RMSE为455kW，小于基准模型的540kW，平均绝对误差MAE为254kW，小于基准模型的258kW。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度聚类模型的充电站用电量预测方法，其特征在于，包括如下步骤：

(5)充电站用电量预测步骤：对于每个待预测充电站的原始测试数据，通过POI数据对其进行数据属性增强和数据预处理，得到每个待预测充电站的增强测试数据集，并输入步骤(4)得到的模型判断其所属的簇，基于所属簇的充电站训练数据的隐特征表示，使用K近邻算法对待预测充电站的用电量进行预测。

2.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法，其特征在于，步骤(1)中所述爬取充电站所在城市的POI数据；具体包括：

通过分析充电站原始数据中的经纬度数据得到充电站分布的城市，通过高德地图API对该城市的所有地区进行POI数据爬取，爬取的POI数据分为五大类型，包括“高等院校”，“住宅区”，“加油站”，“餐饮服务”和“购物服务”，每个大类型包括多个小类型，其中，“住宅区”包括“住宅区”、“别墅”、“住宅小区”、“宿舍”和“社区中心”，“餐饮服务”包括“餐饮相关场所”、“中餐厅”、“外国餐厅”、“快餐厅”、“咖啡厅”和“休闲餐饮场所”，“购物服务”包括“购物相关场所”、“商场”、“便民商店”、“家电电子卖场”、“超级市场”、“花鸟鱼虫市场”、“综合市场”、“体育用品店”、“特色商业街”、“专卖店”和“化妆品店”；爬取POI数据的属性包括：经度、维度、所在区和名字；爬取完成后，将所有小类型数据分别合并到各自所属的大类型中。

3.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法，其特征在于，步骤(2)中所述根据POI数据对各充电站原始训练数据进行数据属性增强和数据预处理；具体方法包括：

设置阈值σ，根据充电站和POI数据的经纬度之间的欧氏距离计算第m个充电站与第n条POI数据之间的距离d_mn，如果d_mn＜σ，则判定第n条POI数据点在第m个充电站附近，对于每一个充电站，统计其附近不同类型的POI数据点的个数，并将该数据作为特征与充电站原始数据数属性进行拼接，

4.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法，其特征在于，步骤(3)中所述采用堆叠去噪自编码器提取充电站训练数据的隐特征表示；具体方法包括：

5.根据权利要求1所述的一种基于深度聚类模型的充电站用电量预测方法，其特征在于，步骤(4)中所述基于深度聚类模型采用聚类损失和重构损失对充电站增强训练数据集进行迭代学习；具体方法包括：

其中，q_i，j表示第i条充电站数据属于第j个聚类中心的概率；α表示学生t-分布的自由度参数；∑_j′(·)表示对第i条充电站数据属于所有聚类中心的概率求和，1≤j′≤J；

d)对所有的充电站数据执行步骤b)、c)，计算得到所有充电站数据的软聚类标签分布Q＝[q₁，q₂，...，q_N]，N表示充电站数据总数；

g)计算堆叠去噪自编码器的重构损失：

其中，d_i表示第i个充电站的数据；

表示堆叠去噪自编码器输出；

L＝L_c+γL_r

其中，γ为超参数，决定两个损失所占的权重；

6.根据权利要求5所述的一种基于深度聚类模型的充电站用电量预测方法，其特征在于，步骤(5)中所述待预测充电站用电量预测；具体方法包括：

其中，

表示待预测充电站用电量；

表示簇C中第i个充电站的用电量。