CN113988358A - 基于迁移强化学习的碳排放指数预测与治理方法 - Google Patents
基于迁移强化学习的碳排放指数预测与治理方法 Download PDFInfo
- Publication number
- CN113988358A CN113988358A CN202111047552.4A CN202111047552A CN113988358A CN 113988358 A CN113988358 A CN 113988358A CN 202111047552 A CN202111047552 A CN 202111047552A CN 113988358 A CN113988358 A CN 113988358A
- Authority
- CN
- China
- Prior art keywords
- carbon emission
- learning
- dimensional
- reinforcement learning
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 87
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000002787 reinforcement Effects 0.000 title claims abstract description 44
- 238000012546 transfer Methods 0.000 title claims description 8
- 230000006870 function Effects 0.000 claims abstract description 52
- 238000013508 migration Methods 0.000 claims abstract description 16
- 230000005012 migration Effects 0.000 claims abstract description 16
- 230000009471 action Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 238000013526 transfer learning Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims description 38
- 230000009467 reduction Effects 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000006399 behavior Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/80—Management or planning
- Y02P90/84—Greenhouse gas [GHG] management systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于迁移强化学习的碳排放指数预测与治理方法,是针对现有同类技术中碳排放指数迁移强化学习和预测治理方法较难准确精准预测,以及较难最大化治理的技术问题。其要点是该预测方法通过迁移学习方法对具有相似特征区域的碳排放模型进行迁移,共享碳排放指数预测的信息;将迁移学习预测到的碳排放指数作为强化学习状态的输入,结合强化学习MDP进行碳排放治理建模,构建奖赏函数,运用强化学习算法实现预测。该治理方法利用MDP构建大规模自适应动态治理工具选择和组合,并利用强化学习的方法进行最优化策略求解,这个最优策略将引导整个治理工具组合过程达到最终目标,最优的工具组合方案即为MDP最优策略所对应的动作序列。
Description
技术领域
本发明涉及碳排放指数预测与治理的方法,是一种基于迁移强化学习的碳排放指数预测与治理方法。
背景技术
目前,由于电力行业的碳排放指数是结合电力碳排放总量指标、电力排放强度指标和零碳电能占比三个指标构成的,三个指标具有相互侧重又相互支撑。因此电力碳排放充电行业碳排放指数涉及时域、地域和成分(即电力碳排放总量指标、电力排放强度指标和零碳电能占比)三个维度来刻画。现有一些碳排放方法涉及电力系统,如中国专利文献中披露的申请号202010242390.9,申请公布日2020.08.11,发明名称“一种电力系统碳排放风险控制优化方法”;另一些通过碳排放来约束电动汽车的保有量,如中国专利文献中披露的申请号 202010002492.3,申请公布日2020.04.03,发明名称“一种基于碳排放约束的电动汽车保有量预测方法及系统”。但从一个地区对碳排放指数构建碳排放的预测模型,直接使用很难适用于其他区域,除此之外,碳排放指数跟时间有关系,不同时间尺度下,碳排放的趋势和特征也是不同的,因此传统的机器学习模型用于不同区域的碳排放指数预测,其预测准确性和性能将会大打折扣。上述预测方法的传统机器学习模型用于不同区域的碳排放指数预测,其预测准确性和性能将会大打折扣;对应的治理方法在治理质量和组合效率上较难最大化满足治理的需求,并且没有考虑组合方案的适应性和面对大规模治理工具组合场景的可扩展性问题。
发明内容
为克服上述不足,本发明的目的是向本领域提供一种基于迁移强化学习的碳排放指数预测与治理方法,使其主要解决现有同类技术中碳排放指数迁移强化学习和预测治理方法较难准确精准预测,以及较难最大化治理的技术问题。其目的是通过如下技术方案实现的。
一种基于迁移强化学习的碳排放指数预测方法,该预测方法由基于迁移学习的碳排放指数预测和基于强化学习的碳排放治理行为建模两个部分组成;其特征在于该预测方法通过迁移学习方法对具有相似特征区域的碳排放模型进行迁移,共享碳排放指数预测的信息;再此基础上,将迁移学习预测到的碳排放指数作为强化学习状态的输入,结合强化学习MDP进行碳排放治理建模,构建奖赏函数,运用强化学习算法实现碳排放治理效果的预测,提高碳排放治理行为预测的精度。
该预测方法的具体步骤如下:步骤一,对某一个区域的历史数据进行建模,生成碳排放指数预测器;步骤二,找到相似特征的样本,以现有的预测器为基准,辅助其他区域生成满足自身分布的预测器;步骤三,在线更新初始预测器,采用集成权重调正算法生成一个最终的预测器;步骤四,采用强化学习对碳排放治理行为的效果进行控制。
所述步骤一的具体步骤如下:1、借助历史数据信息,把每一个监测点采集回来的数据按照时间序列进行排序,为提取历史数据的时空特征提供数据基础;2、采用深度学习对历史数据的时空信息进行提取,卷积层为分别是3×3,4×3,5×3,步长为2,对历史数据进行多尺度高层次时空特征提取;3、采用流形学习,对多尺度高层次时空特征进行降维,并以降维后的特征作为神经网络的输入层,经过神经网络隐含层,最后得到神经网络的输出——未来一个时间段该区域的碳排放指数预测值,生成一个预测器。
所述步骤二的具体步骤如下:
1、对每一个区域的历史数据采用深度学习,实现多尺度高层次时空特征提取;
2、采用流形学习,对多尺度高层次时空特征进行降维,具体流程为:
假设某个地区i的多尺度高层次时空特征XT={x1,x2,...xT}N∈RN,T表示每一个预测周期,每一个预测周期的碳排放指数为Y={I1,I2,...,IT}NI∈RNI;采用流形学习——LE算法实现高维到低维的映射;
3、LE算法侧重于保持局部领域结构,其认为,高维空间数据近邻点经过降维在低维空间的投影也应该是近邻的;以特征映射的方式实现了高维数据的降维,得到的低维数据的结构特征具有投影不变形的特征;加入高维数据的两个样本点具有近邻的特征,xi与xj为近邻点,对邻域内所有点计算两两距离并结合权重形成邻域图;在此基础上,构建邻域权重矩阵;在保持邻域图结构不变性的基础上,通过投影实现高维数据的降维;
目标函数为:
qi与qj是高维数据xi与xj的低维映射位置;
根据LE算法,建立邻域图G,V表示XT={x1,x2,...xT}N多尺度高层次时空特征数据,E表示多尺度高层次时空特征数据之间的邻近关系,然后采用(LE算法)流形学习算法实现低维空间qi与碳排放指数yi的最小值拟合;根据上述思路,建立目标函数:
其中,q=min{q1,q2,...,qT}d∈Rd,是通过上一步的LE算法求解出来的低维映射;
5、在获得低维空间qi后,采用相似性对多尺度高层次时空的低维映射特征进行相似性判断;
如果低维映射特征的相似性大于设定的阈值,那么将其作为一组,否则归为不同一组;
6、多任务学习——基于聚类的多任务学习,每个聚类都生成一个预测器,形成每一个区域的初始预测器。
所述步骤二的目标函数求解,对数据进行如下处理:
1)选择合适的邻域并构造邻域图;在选取邻域点之后,将数据X与邻域点进行连接,构造邻域图G=(V,E),V代表邻域图中的节点集合,E代表邻域图的边集合;
2)选择权重,权重选择有两种方式,第一种是无差异的权重,如果e(i,j)∈E,代表邻域图节点xi与节点xj是直接相连,那么权重为1,否则为0;第二种是根据两点之间的距离计算权重,采取第二种方法计算两点之间的权重;采用高斯核函数表示邻域图节点之间的权重,具体表示为:
由公式2可知,两点的距离越小,那么权重越大;
3)特征映射,获得权重后,目标函数简化为:
为了保证低维空间的维度不小于d-1维,在高维到低维空间映射过程中引入一个任意比例因子,表示的约束条件qTDq=1;采用拉格朗日乘数对约束条件进行求导,得到:
Lq=λDq(公式5)
式4改写为:
由Rayleittz-Riz定理可知,将高维空间与流形进行对齐,低维空间的映射结果就是L 的d+1维向量v2,v3,v4,...,vd+1,最后得到低维嵌入结果q=[v2,v3,v4,...,vd+1]T。
该治理方法利用MDP构建大规模自适应动态治理工具选择和组合,并利用强化学习的方法进行最优化策略求解,这个最优策略将引导整个治理工具组合过程达到最终目标,最优的工具组合方案即为MDP最优策略所对应的动作序列;其特征在于该治理方法的步骤具体如下:
1、首先,该方法需要对大规模自适应的治理工具组合问题建模,一个MDP建模的治理工具组合用一个六组表示MDP-WSC=<S,s0,Sr,A(.),P,R>;
其中,S表示环境中的状态集,s0∈S是治理工具组合执行的环境初始状态,表示治理工具组合执行的终止状态集,只要达到Sr达到任何一个状态,治理工具更新就终止;A(.) 表示可调用的动作集合,也就是所有状态下可调用的治理工具集合,A(s)表示在状态s下可调用的治理工具集合,同一状态下可调用的治理工具一般具有相似的功能,但各种工具的效用值是不同的;P表示一个状态转移函数,P(s'|s,a)表示在状态s下调用治理工具集合后,转移到状态s’;R是回报函数,R(s'|s,a)表示在状态s下调用治理工具集合后,转移到状态s’的回报值;状态转移函数P和回报值函数R唯一确定一个MDP模型,因此,评价MDP策略的优略是无限适于的折扣累计回报值;在上述场景设定下,MDP确定性的最优策略π*是根据贪婪算法有折扣累计的回报值V*表征;也就是最优策略π*下的最优状态函数V*,满足以下条件:
2、接着,基于强化学习的MDP求解,基于核的非参数核函数逼近器对最优服务组合方案进行求解;所谓非参数核函数逼近技术就是无需事先确定函数的形式核参数个数,直接通过观察到的碳排放指数状态转移的回报值自动调整得出,更适合在线学习;并采用高斯核函数,采用Q-learning的方法实现MDP求解;
所述算法的流程如下:
2)重复:学习每一个在线片段,采用贪婪算法选择服务aτ,观察回报值RT,sT+1,令zT=<sτ,aτ>;是观察到的效用值向量对应于状态动作对的样本集合;给定一些数据点对应于输入域Z,期望在新的输入点zτ+1预测Q值函数yτ+ 1的值;假设K(Z,Z)为核矩阵,则对应的Kl,m=k(zl,zm)表示状态动作对zl和zm之间的协方差;K(Z,zτ+1)表示核向量对应于τ+1次评估;表示评估的不确定性;得出Q值得评估值和协方差为:
采用Q-learning算法更新Q函数值,公式为:
本发明的碳排放指数建模方式科学,模型自学习能力强,用于预测精确度高,实现了最大化治理;其适合用于电力行业中碳排放指数的预测和治理,及其同类方法的技术改进。
附图说明
图1是本发明的预测方法建模工作原理流程方框图。
图2是图1的初始预测器工作原理流程方框图。
图3是图2的预测器中降维工作原理流程方框图。
图4是图2的多层预测器神经网络工作原理流程方框图。
图5是图2的更新一个区域预测器工作原理流程方框图。
具体实施方式
现结合附图,对本发明的具体实施步骤进行进一步的具体描述。
该碳排放指数预测方法具体步骤如下:
步骤一,对某一个区域的历史数据进行建模,生成碳排放指数预测器。如图1所示,具体步骤如下:
1、借助历史数据信息,把每一个监测点采集回来的数据按照时间序列进行排序,为提取历史数据的时空特征提供数据基础;
2、采用深度学习对历史数据的时空信息进行提取,卷积层为分别是3×3,4×3,5×3,步长为2,对历史数据进行多尺度高层次时空特征提取;
3、采用流形学习,对多尺度高层次时空特征进行降维,并以降维后的特征作为神经网络的输入层,经过神经网络隐含层,最后得到神经网络的输出——未来一个时间段该区域的碳排放指数预测值。至此,生成一个预测器。
步骤二,找到相似特征的样本,以现有的预测器为基准,辅助其他区域生成满足自身分布的预测器。预测器假定训练域与测试域独立同分布,将训练数据得到的预测模型,直接用于测试数据。但是在实际中,训练域和测试域的分布存在差异,如果将不同分布的数据放进模型中,则学习性能将会大打折扣,为了应对这个问题,采用领域自适应学习来实现不同地区的碳排放指数的预测问题。如图2所示,具体步骤如下:
1、对每一个区域的历史数据采用深度学习,实现多尺度高层次时空特征提取;
2、采用流形学习,对多尺度高层次时空特征进行降维,如图3所示,具体流程为:
假设某个地区i的多尺度高层次时空特征XT={x1,x2,...xT}N∈RN,T表示每一个预测周期,每一个预测周期的碳排放指数为采用流形学习——LE算法(拉普拉斯映射算法)实现高维到低维的映射。下面先介绍LE算法的原理,再说明如何将LE算法进行特征的降维的。
3、LE算法侧重于保持局部领域结构,其认为,高维空间数据近邻点经过降维在低维空间的投影也应该是近邻的。以特征映射的方式实现了高维数据的降维,得到的低维数据的结构特征具有投影不变形的特征。加入高维数据的两个样本点具有近邻的特征,xi与xj为近邻点,对邻域内所有点计算两两距离并结合权重形成邻域图。在此基础上,构建邻域权重矩阵。在保持邻域图结构不变性的基础上,通过投影实现高维数据的降维。
目标函数为:
qi与qj是高维数据xi与xj的低维映射位置。
为了求解目标函数,对数据进行如下处理:
1)选择合适的邻域并构造邻域图。在选取邻域点之后,将数据X与邻域点进行连接,构造邻域图G=(V,E),V代表邻域图中的节点集合,E代表邻域图的边集合。
2)选择权重,权重选择有两种方式,第一种是无差异的权重,如果e(i,j)∈E,代表邻域图节点xi与节点xj是直接相连,那么权重为1,否则为0;第二种是根据两点之间的距离计算权重,采取第二种方法计算两点之间的权重。采用高斯核函数表示邻域图节点之间的权重,具体表示为:
由公式2可知,两点的距离越小,那么权重越大。
3)特征映射,获得权重后,目标函数简化为:
为了保证低维空间的维度不小于d-1维,在高维到低维空间映射过程中引入一个任意比例因子,表示的约束条件qTDq=1;采用拉格朗日乘数对约束条件进行求导,得到:
Lq=λDq(公式5)
式4改写为:
由Rayleittz-Riz定理可知,将高维空间与流形进行对齐,低维空间的映射结果就是L 的d+1维向量v2,v3,v4,...,vd+1,最后得到低维嵌入结果q=[v2,v3,v4,...,vd+1]T。
根据LE算法,建立邻域图G,V表示XT={x1,x2,...xT}N多尺度高层次时空特征数据,E 表示多尺度高层次时空特征数据之间的邻近关系,然后采用(LE算法)流形学习算法实现低维空间qi与碳排放指数yi的最小值拟合。根据上述思路,建立目标函数:
其中,q=min{q1,q2,...,qT}d∈Rd,是通过上一步的LE算法求解出来的低维映射。
5、在获得低维空间qi后,采用相似性对多尺度高层次时空的低维映射特征进行相似性判断。
如果低维映射特征的相似性大于设定的阈值,那么将其作为一组,否则归为不同一组。
6、多任务学习——基于聚类的多任务学习,每个聚类都生成一个预测器,形成每一个区域的初始预测器。
从而对上述的每一个聚类组数据的多尺度高层次时空特征放进去神经网络,每一个聚类都生成一个预测器,并采用集成学习,采用对预测器进行合并,形成每一个区域的初始的预测器,下图展现多聚类的多任务学习。上面是监测点的初始预测器,这里是一个区域初始的预测器形成,如图4所示。
步骤三,在线更新初始预测器,采用集成权重调正算法生成一个最终的预测器。由于碳排放数据是持续更新的,因此对新的一批数据进行训练,生成一个新的预测器,并对比区域初始预测器的性能,对预测器进行权重更新,基于更新后的权重,采用加权平均的方法调整每一个预测器的权重,形成一个在线更新预测器的过程;最后,基于更新的预测器,得到该区域的碳排放指数预测值,如图5所示。
步骤四,采用强化学习对碳排放治理行为的效果进行控制。碳排放治理行为理解为:一个具有m个治理手段的系统,每个抽选治理手段有n个候选治理工具组合,就会有mn组合治理方式;碳排放治理效果是从相互独立的候选治理工具选取n个治理工具,根据给定的效用函数,把不同治理工具的属性值映射成单个效用值,然后选择具有最大效用值的工具组合。
根据上述预测方法在治理质量和组合效率上需要最大化满足治理的需求,但是还需要考虑组合方案的适应性和面对大规模治理工具组合场景的可扩展性问题。因此,该治理方法基于组合治理行为质量和强化学习方法的内在自适应性的考虑,找到基于强化学习的治理效用的治理工具组合优化方案,改善上述基于治理效用的治理工具组合方法在大规模治理和治理行为自适应方面的缺陷,以及自适应治理工具组合在大规模和动态性上的限制,优化的治理工具组合方法既能提供一个高质量的治理手段,又能适应治理工具组合内外部环境的动态变化,而且能够在大规模的治理工具组合场景下达到具有竞争性的效率。
该治理方法的治理工具自适应组合的目标是,面对大量抽象治理工具、候选治理工具和动态变化的环境,寻找最优的组合方案以最大程度满足碳排放指数降低的要求,实现组合的自适应性,可扩展性,并具有竞争性的计算效率。因此,该治理方法把强化学习的方法和基于治理效用的治理工具组合方法整合起来,寻找在大规模治理工具组合场景下组合效率、自适应性、可扩展性更加优化的治理工具组合方案。该治理方法利用MDP构建大规模自适应动态治理工具选择和组合,并利用强化学习的方法进行最优化策略求解,这个最优策略将引导整个治理工具组合过程达到最终目标,最优的工具组合方案即为MDP最优策略所对应的动作序列。
该治理方法的具体步骤如下:
1、首先,该方法需要对大规模自适应的治理工具组合问题建模,一个MDP建模的治理工具组合用一个六组表示MDP-WSC=<S,s0,Sr,A(.),P,R>。
其中,S表示环境中的状态集,s0∈S是治理工具组合执行的环境初始状态,表示治理工具组合执行的终止状态集,只要达到Sr达到任何一个状态,治理工具更新就终止;A(.) 表示可调用的动作集合,也就是所有状态下可调用的治理工具集合,A(s)表示在状态s下可调用的治理工具集合,同一状态下可调用的治理工具一般具有相似的功能,但各种工具的效用值是不同的。P表示一个状态转移函数,P(s'|s,a)表示在状态s下调用治理工具集合后,转移到状态s’。R是回报函数,R(s'|s,a)表示在状态s下调用治理工具集合后,转移到状态s’的回报值。状态转移函数P和回报值函数R唯一确定一个MDP模型,因此,评价MDP策略的优略是无限适于的折扣累计回报值。在上述场景设定下,MDP确定性的最优策略π*是根据贪婪算法有折扣累计的回报值V*表征。也就是最优策略π*下的最优状态函数V*,满足以下条件:
2、接着,基于强化学习的MDP求解,基于核的非参数核函数逼近器对最优服务组合方案进行求解。所谓非参数核函数逼近技术就是无需事先确定函数的形式核参数个数,直接通过观察到的碳排放指数状态转移的回报值自动调整得出,更适合在线学习;并采用高斯核函数,采用Q-learning的方法实现MDP求解;算法的流程如下:
2)重复:学习每一个在线片段,采用贪婪算法选择服务aτ,观察回报值RT,sT+1,令zT=<sτ,aτ>;是观察到的效用值向量对应于状态动作对的样本集合;给定一些数据点对应于输入域Z,期望在新的输入点zτ+1预测Q值函数yτ+ 1的值。假设K(Z,Z)为核矩阵,则对应的Kl,m=k(zl,zm)表示状态动作对zl和zm之间的协方差。K(Z,zτ+1)表示核向量对应于τ+1次评估。表示评估的不确定性。得出Q值得评估值和协方差为:
采用Q-learning算法更新Q函数值,公式为:
3)最后,找到最优评估Q*,找到目标状态sτ+1,治理工具更新就终止。
综上所述,该方法提出了一种基于迁移强化学习的碳排放指数预测与治理方法,并且该方法基于迁移学习的碳排放指数预测和基于强化学习的碳排放治理行为建模。该方法的创新点具体如下:1、针对碳排放数据涉及时域、地域和成分多维度刻画问题,采用深度学习实现时空特征的提取,并流形降维的基础上,采用聚类的多任务学习的方法构建初始预测器,能够最大程度上提升迁移学习的性能;再获得初始预测器的基础上,结合集成学习的方法实现在线数据的学习,实现预测器的定期更新,提升预测器的可用性和时效性。2、构建强化学习的碳排放治理行为模型,该模型能够很好地模拟治理工具选择组合流程的环境,并把治理效用值集成到模型中,针对该模型采用Q-learning求解,实现对治理工具组合质量、组合自适应性和组合效率的多重考虑。3、在强化学习方法求解中,对大规模工具组合场景,提出根据组合模型,利用强化学习的方法求解,并且奸对大规模的服务组合场景,提出高斯噪音正则化项,收敛速度快,提高了强化求解效率。
Claims (6)
1.一种基于迁移强化学习的碳排放指数预测方法,该预测方法由基于迁移学习的碳排放指数预测和基于强化学习的碳排放治理行为建模两个部分组成;其特征在于该预测方法通过迁移学习方法对具有相似特征区域的碳排放模型进行迁移,共享碳排放指数预测的信息;再此基础上,将迁移学习预测到的碳排放指数作为强化学习状态的输入,结合强化学习MDP进行碳排放治理建模,构建奖赏函数,运用强化学习算法实现碳排放治理效果的预测,提高碳排放治理行为预测的精度。
2.根据权利要求1所述的基于迁移强化学习的碳排放指数预测方法,其特征在于该预测方法的具体步骤如下:步骤一,对某一个区域的历史数据进行建模,生成碳排放指数预测器;步骤二,找到相似特征的样本,以现有的预测器为基准,辅助其他区域生成满足自身分布的预测器;步骤三,在线更新初始预测器,采用集成权重调正算法生成一个最终的预测器;步骤四,采用强化学习对碳排放治理行为的效果进行控制。
3.根据权利要求2所述的基于迁移强化学习的碳排放指数预测方法,其特征在于所述步骤一的具体步骤如下:1、借助历史数据信息,把每一个监测点采集回来的数据按照时间序列进行排序,为提取历史数据的时空特征提供数据基础;2、采用深度学习对历史数据的时空信息进行提取,卷积层为分别是3×3,4×3,5×3,步长为2,对历史数据进行多尺度高层次时空特征提取;3、采用流形学习,对多尺度高层次时空特征进行降维,并以降维后的特征作为神经网络的输入层,经过神经网络隐含层,最后得到神经网络的输出——未来一个时间段该区域的碳排放指数预测值,生成一个预测器。
4.根据权利要求2所述的基于迁移强化学习的碳排放指数预测方法,其特征在于所述步骤二的具体步骤如下:
1、对每一个区域的历史数据采用深度学习,实现多尺度高层次时空特征提取;
2、采用流形学习,对多尺度高层次时空特征进行降维,具体流程为:
3、LE算法侧重于保持局部领域结构,其认为,高维空间数据近邻点经过降维在低维空间的投影也应该是近邻的;以特征映射的方式实现了高维数据的降维,得到的低维数据的结构特征具有投影不变形的特征;加入高维数据的两个样本点具有近邻的特征,xi与xj为近邻点,对邻域内所有点计算两两距离并结合权重形成邻域图;在此基础上,构建邻域权重矩阵;在保持邻域图结构不变性的基础上,通过投影实现高维数据的降维;
目标函数为:
qi与qj是高维数据xi与xj的低维映射位置;
根据LE算法,建立邻域图G,V表示XT={x1,x2,...xT}N多尺度高层次时空特征数据,E表示多尺度高层次时空特征数据之间的邻近关系,然后采用(LE算法)流形学习算法实现低维空间qi与碳排放指数yi的最小值拟合;根据上述思路,建立目标函数:
其中,q=min{q1,q2,...,qT}d∈Rd,是通过上一步的LE算法求解出来的低维映射;
5、在获得低维空间qi后,采用相似性对多尺度高层次时空的低维映射特征进行相似性判断;
如果低维映射特征的相似性大于设定的阈值,那么将其作为一组,否则归为不同一组;
6、多任务学习——基于聚类的多任务学习,每个聚类都生成一个预测器,形成每一个区域的初始预测器。
5.根据权利要求4所述的基于迁移强化学习的碳排放指数预测方法,其特征在于所述步骤二的目标函数求解,对数据进行如下处理:
1)选择合适的邻域并构造邻域图;在选取邻域点之后,将数据X与邻域点进行连接,构造邻域图G=(V,E),V代表邻域图中的节点集合,E代表邻域图的边集合;
2)选择权重,权重选择有两种方式,第一种是无差异的权重,如果e(i,j)∈E,代表邻域图节点xi与节点xj是直接相连,那么权重为1,否则为0;第二种是根据两点之间的距离计算权重,采取第二种方法计算两点之间的权重;采用高斯核函数表示邻域图节点之间的权重,具体表示为:
由公式2可知,两点的距离越小,那么权重越大;
3)特征映射,获得权重后,目标函数简化为:
为了保证低维空间的维度不小于d-1维,在高维到低维空间映射过程中引入一个任意比例因子,表示的约束条件qTDq=1;采用拉格朗日乘数对约束条件进行求导,得到:
Lq=λDq (公式5)
由Rayleittz-Riz定理可知,将高维空间与流形进行对齐,低维空间的映射结果就是L的d+1维向量v2,v3,v4,...,vd+1,最后得到低维嵌入结果q=[v2,v3,v4,...,vd+1]T。
6.根据权利要求2所述的基于迁移强化学习的碳排放指数治理方法,其特征在于该治理方法利用MDP构建大规模自适应动态治理工具选择和组合,并利用强化学习的方法进行最优化策略求解,这个最优策略将引导整个治理工具组合过程达到最终目标,最优的工具组合方案即为MDP最优策略所对应的动作序列;其特征在于该治理方法的步骤具体如下:
1、首先,该方法需要对大规模自适应的治理工具组合问题建模,一个MDP建模的治理工具组合用一个六组表示MDP-WSC=<S,s0,Sr,A(.),P,R>;
其中,S表示环境中的状态集,s0∈S是治理工具组合执行的环境初始状态,表示治理工具组合执行的终止状态集,只要达到Sr达到任何一个状态,治理工具更新就终止;A(.)表示可调用的动作集合,也就是所有状态下可调用的治理工具集合,A(s)表示在状态s下可调用的治理工具集合,同一状态下可调用的治理工具一般具有相似的功能,但各种工具的效用值是不同的;P表示一个状态转移函数,P(s'|s,a)表示在状态s下调用治理工具集合后,转移到状态s’;R是回报函数,R(s'|s,a)表示在状态s下调用治理工具集合后,转移到状态s’的回报值;状态转移函数P和回报值函数R唯一确定一个MDP模型,因此,评价MDP策略的优略是无限适于的折扣累计回报值;在上述场景设定下,MDP确定性的最优策略π*是根据贪婪算法有折扣累计的回报值V*表征;也就是最优策略π*下的最优状态函数V*,满足以下条件:
2、接着,基于强化学习的MDP求解,基于核的非参数核函数逼近器对最优服务组合方案进行求解;所谓非参数核函数逼近技术就是无需事先确定函数的形式核参数个数,直接通过观察到的碳排放指数状态转移的回报值自动调整得出,更适合在线学习;并采用高斯核函数,采用Q-learning的方法实现MDP求解;
所述算法的流程如下:
2)重复:学习每一个在线片段,采用贪婪算法选择服务aτ,观察回报值RT,sT+1,令zT=<sτ,aτ>;是观察到的效用值向量对应于状态动作对的样本集合;给定一些数据点对应于输入域Z,期望在新的输入点zτ+1预测Q值函数yτ+1的值;假设K(Z,Z)为核矩阵,则对应的Kl,m=k(zl,zm)表示状态动作对zl和zm之间的协方差;K(Z,zτ+1)表示核向量对应于τ+1次评估;表示评估的不确定性;得出Q值得评估值和协方差为:
采用Q-learning算法更新Q函数值,公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047552.4A CN113988358A (zh) | 2021-09-07 | 2021-09-07 | 基于迁移强化学习的碳排放指数预测与治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047552.4A CN113988358A (zh) | 2021-09-07 | 2021-09-07 | 基于迁移强化学习的碳排放指数预测与治理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988358A true CN113988358A (zh) | 2022-01-28 |
Family
ID=79735424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111047552.4A Pending CN113988358A (zh) | 2021-09-07 | 2021-09-07 | 基于迁移强化学习的碳排放指数预测与治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988358A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114371145A (zh) * | 2022-03-21 | 2022-04-19 | 武汉工程大学 | 奶油混合色素的检测方法、装置、电子设备及存储介质 |
CN114997841A (zh) * | 2022-07-18 | 2022-09-02 | 成都信通信息技术有限公司 | 一种基于区块链的低碳行为数据管理系统 |
CN116934117A (zh) * | 2023-07-20 | 2023-10-24 | 杭州超腾能源技术股份有限公司 | 一种碳排放峰值预测方法及系统 |
-
2021
- 2021-09-07 CN CN202111047552.4A patent/CN113988358A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114371145A (zh) * | 2022-03-21 | 2022-04-19 | 武汉工程大学 | 奶油混合色素的检测方法、装置、电子设备及存储介质 |
CN114997841A (zh) * | 2022-07-18 | 2022-09-02 | 成都信通信息技术有限公司 | 一种基于区块链的低碳行为数据管理系统 |
CN114997841B (zh) * | 2022-07-18 | 2022-10-21 | 成都信通信息技术有限公司 | 一种基于区块链的低碳行为数据管理系统 |
CN116934117A (zh) * | 2023-07-20 | 2023-10-24 | 杭州超腾能源技术股份有限公司 | 一种碳排放峰值预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | A fast dynamic evolutionary multiobjective algorithm via manifold transfer learning | |
CN113988358A (zh) | 基于迁移强化学习的碳排放指数预测与治理方法 | |
CN111814626B (zh) | 一种基于自注意力机制的动态手势识别方法和系统 | |
Yu et al. | Error correction method based on data transformational GM (1, 1) and application on tax forecasting | |
He et al. | Feature selection for stock market analysis | |
CN110837915B (zh) | 一种基于混合集成深度学习的电力系统低压负荷点预测及概率预测方法 | |
CN110533484A (zh) | 一种基于pca和改进bp神经网络的产品销量预测方法 | |
CN115470704B (zh) | 一种动态多目标优化方法、装置、设备和计算机可读介质 | |
CN111460001B (zh) | 一种配电网理论线损率评估方法及系统 | |
Qiao et al. | A self-organizing RBF neural network based on distance concentration immune algorithm | |
Mishra et al. | Short term load forecasting using neural network trained with genetic algorithm & particle swarm optimization | |
CN110895772A (zh) | 基于灰色关联分析与SA-PSO-Elman算法结合的售电量预测方法 | |
Li et al. | Short term prediction of photovoltaic power based on FCM and CG-DBN combination | |
Shi et al. | Handling uncertainty in financial decision making: a clustering estimation of distribution algorithm with simplified simulation | |
CN112149896A (zh) | 一种基于注意力机制的机械设备多工况故障预测方法 | |
CN117313795A (zh) | 一种基于改进dbo-lstm的智慧楼宇能耗预测方法 | |
CN115629576A (zh) | 非侵入式柔性负荷聚合特性辨识与优化方法、装置及设备 | |
CN118316033A (zh) | 基于cnn-gru与arima模型的电力负荷预测方法 | |
CN110880044A (zh) | 一种基于马尔科夫链的负荷预测方法 | |
Wang et al. | A dynamic multiobjective evolutionary algorithm based on fine prediction strategy and nondominated solutions-guided evolution | |
CN113762370A (zh) | 一种结合高斯随机场的深度网络集合生成方法 | |
CN113408622A (zh) | 计及特征量信息表达差异的非侵入式负荷辨识方法及系统 | |
CN113033898A (zh) | 基于k均值聚类与bi-lstm神经网络的电负荷预测方法及系统 | |
CN117035549A (zh) | 一种评估城市供水管网方案的造价算法的方法 | |
CN113763710B (zh) | 一种基于非线性自适应系统的短期交通流预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |