CN116204792B - 一种生成因果解释模型的训练方法 - Google Patents

一种生成因果解释模型的训练方法 Download PDF

Info

Publication number
CN116204792B
CN116204792B CN202310473305.3A CN202310473305A CN116204792B CN 116204792 B CN116204792 B CN 116204792B CN 202310473305 A CN202310473305 A CN 202310473305A CN 116204792 B CN116204792 B CN 116204792B
Authority
CN
China
Prior art keywords
causal
space
time
region
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310473305.3A
Other languages
English (en)
Other versions
CN116204792A (zh
Inventor
邓攀
赵宇
闫洁
刘俊廷
汪慕澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau
Beihang University
Original Assignee
Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau, Beihang University filed Critical Xicheng District Bureau Of Science Technology And Information Technology Of Beijing Municipality Beijing Xicheng District Big Data Management Bureau
Priority to CN202310473305.3A priority Critical patent/CN116204792B/zh
Publication of CN116204792A publication Critical patent/CN116204792A/zh
Application granted granted Critical
Publication of CN116204792B publication Critical patent/CN116204792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于基于特定计算模型的机器学习技术领域,具体为一种生成因果解释模型的训练方法,包括构建生成因果解释模型,利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练,本发明基于生成因果解释模型GCIM的可识别条件,提出了一种基于变分推断的生成因果解释模型学习框架,进一步了提升模型的可解释性,提升整体的泛化能力。

Description

一种生成因果解释模型的训练方法
技术领域
本发明属于基于特定计算模型的机器学习技术领域,尤其是涉及城市复杂系统中时空数据挖掘和预测用模型训练,具体为一种生成因果解释模型的训练方法。
背景技术
城市级电力时空数据是城市复杂系统的一种表现形式,反映了城市用电现象的演化规律和动力学过程。城市级复杂系统可以表示为一个复杂图网络,其中空间节点表示为城市中某个区域,节点属性表示为区域随时间演化的可观测时间序列,节点之间的连接表示区域间的相互作用或交互关系。复杂系统在宏观层面上的可观测现象由中观区域间的相互作用涌现而出。但目前大多数方法停滞于研究区域间显式的相关关系,而忽略了影响区域观测生成原理的隐式因果关系,这不利于真实场景的推广和应用。
因果关系被认为是刻画观测现象生成规则的基本公理,在机器学习的背景下,正确地建模和推断因果变量和因果机制可以诱导出更稳健的特征表示,这有助于解释观测数据的生成原理。因而,采用生成因果解释模型对城市复杂系统(如电力或太阳能系统)进行建模并进而利用其对城市数据(如未来用电量或太阳能)进行预测是一种很好的解决思路。
然而,为了能使生成因果解释模型对城市复杂系统进行有效预测,需要对构建的模型进行很好的训练和学习,如CN108320026B公开了一种机器学习模型训练方法和装置,包括获取在本轮清洗脏样本数据前已有纯净样本数据;根据已有纯净样本数据和机器学习模型的当前模型参数,确定该模型的损失函数的第一二阶平均梯度;根据本轮从脏样本数据中取部分脏样本数据清洗后得到的纯净样本数据和当前模型参数,确定损失函数的第二二阶平均梯度;根据第一二阶平均梯度和第二二阶平均梯度,获得损失函数的整体二阶平均梯度;根据整体二阶平均梯度调整当前模型参数;若调整后的模型参数不满足训练结束条件,将下一轮作为本轮,返回获取在本轮清洗脏样本数据前已有纯净样本数据的步骤继续训练,直至满足训练结束条件。US11334818B2公开了一种用于实时机器学习的系统和方法,包括接口设备和处理设备,以响应于接收文档,识别与文档相关联的文档对象模型(DOM)树中的令牌,呈现在接口的用户界面上设备,文档,包括标识的标记,标签,基于用户界面上的用户操作,DOM 树中的一个或多个标记,作为强正、强负或弱正或弱之一负标记,并提供包含标记的 DOM 树来训练机器学习模型。
然而,针对城市复杂系统进行预测的生成因果解释模型有其自身的特点,包括外生变量、时空条件父变量、受控因果转移函数和时空混合函数等构成部分,现有的模型训练方法对生成因果解释模型缺乏针对性,难以其进行有效训练和学习。
发明内容
针对现有技术的问题,本发明提供了一种生成因果解释模型的训练方法。
本发明完整的技术方案包括:
一种生成因果解释模型的训练方法,包括如下步骤:
步骤(1)构建生成因果解释模型,所述生成因果解释模型具体为:
Figure SMS_1
式中,
Figure SMS_9
表示/>
Figure SMS_7
时刻各区域的观测数据,/>
Figure SMS_17
表示/>
Figure SMS_6
时刻各区域的因果描述子集合,所述因果描述子为采用神经网络进行生成因果解释模型学习过程的因果隐变量;/>
Figure SMS_16
为时空混合函数;/>
Figure SMS_10
为/>
Figure SMS_19
中的元素,/>
Figure SMS_13
表示第i个区域内在第/>
Figure SMS_20
时刻的第/>
Figure SMS_2
个因果描述子;/>
Figure SMS_14
为受控因果转移函数,/>
Figure SMS_11
表示/>
Figure SMS_18
所对应的外生变量,/>
Figure SMS_5
为受控因果转移函数/>
Figure SMS_15
的条件参数;/>
Figure SMS_3
是在特征维度上参数无关的多层感知机函数,/>
Figure SMS_22
表示对/>
Figure SMS_12
具有直接因果效应的时空条件父变量;/>
Figure SMS_24
为域信息集合/>
Figure SMS_4
的元素,表示第i个区域属于第r个域,
Figure SMS_23
表示/>
Figure SMS_8
影响下的第i个区域内k个外生变量/>
Figure SMS_21
的分布;
步骤(2)利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练,所述训练过程至少包括对时空混合函数和受控因果转换函数进行拟合。
进一步的,所述可识别性条件包括观测等价性,所述观测等价性为令所有时刻各区域的观测数据是通过真实的潜在时空因果机制
Figure SMS_25
生成的可观测时空序列变量,所述真实的潜在时空因果机制包括真实的时空混合函数、真实的受控因果转移函数、真实的条件参数和真实的外生变量,并通过观测数据学习得到估计模型/>
Figure SMS_26
,所述估计模型包括估计的时空混合函数、估计的受控因果转移函数、估计的条件参数和估计的外生变量;并使估计模型得到的数据分布和真实的数据分布处处相匹配。
进一步的,所述可识别性条件包括:真实的时空混合函数和估计的时空混合函数之间可以通过置换操作
Figure SMS_27
和逐分量可逆转换/>
Figure SMS_28
相互变换。
进一步的,所述可识别性条件包括:时空混合函数可逆且处处可微,受控因果转移函数可逆且二次可微。
进一步的,所述可识别性条件包括:外生变量分布
Figure SMS_29
的变化受域信息集合/>
Figure SMS_30
的控制,给定域信息集合/>
Figure SMS_31
后,外生变量之间相互独立。
进一步的,所述可识别性条件包括:所述域信息的数量为2K+1,K为因果描述子数量。
进一步的,所述步骤(2)具体包括:
步骤2.1:使用变分自动编码器框架来建模因果描述子的推断过程和观测数据的生成过程。GraphGRU被用作编码器和解码器,以同时处理空间和时间维度,编码器用以拟合时空混合函数,从观测数据中利用编码器推断因果描述子的后验分布,该后验分布是一个各向同性的高斯分布,编码器输出该高斯分布的均值和方差。编码器用以逼近时空混合函数的逆函数,以重参数化的方式从后验分布中采样估计的因果描述子和时空混合函数,并使用解码器从估计的因果描述子中生成各节点的重构数据。
步骤2.2:采用域适配器来从观测数据中捕获潜在的域信息,并使用GumbelSoftmax方法来确保每个节点的观测仅属于某个域。并在域信息集合的基础上确定外生变量分布。
步骤2.3:采用条件生成模块(CGM)捕捉时空因果结构。所述条件生成模块将时空因果结构分解为区域内因果关系和区域间因果关系,并使用可学习的参数矩阵对区域内因果关系和区域间因果关系进行建模。
通过
Figure SMS_32
将时空因果结构得到的父变量转化为因果转移函数的条件参数,/>
Figure SMS_33
是在特征维度上参数无关的多层感知机函数。
步骤2.4:采用因果解释模块,因果解释模块基于因果转换函数
Figure SMS_34
对因果描述子的先验分布进行建模,本发明使用可逆的神经样条流网络来拟合因果转换函数。
步骤2.5:设域信息在短时间内不发生变化,因此可以从外生变量分布中采样当前区域下一时刻的外生变量,其次利用条件生成模块CGM,根据前一时刻因果描述子的时空条件父变量生成受控因果转移函数的条件参数;然后利用因果解释模块CIM,在条件参数的影响下将外生变量映射到当前区域下一时刻的因果描述子;最后利用变分自编码器中的解码器,对因果描述子进行非线性混合,生成当前区域下一时刻的时空数据。
进一步的,还包括步骤(3):利用训练好的生成因果解释模型,根据城市不同区域内各子区域历史的用电量,预测每个区域的下一时段用电量。
本发明相对于现有技术的优点在于:
(1)本发明利用神经网络搭建生成因果解释模型的训练框架,并在理论层面上提出了生成因果解释模型GCIM的可识别条件,将其作为神经网络的约束条件,确保估计模型可以从观测数据中准确推断出因果描述子,进一步提升模型的可解释性,提升整体的泛化能力,提高了训练效果。
(2)本发明的训练框架包含了域信息,采用域适配器从观测数据中自动挖掘当前区域的域信息,有助于捕捉时间和空间因果关系,最大程度恢复城市复杂系统的时空动力学。
(3)本发明从时空数据生成原理的角度,提出的生成因果解释的数学模型来建模微观层面因果描述子的时空因果结构和因果机制,并模拟时空数据的生成过程。可以提升模型整体的鲁棒性和适用性,使得预测结果更加符合城市复杂系统运行情况。
附图说明
图1为本发明训练方法的流程图。
具体实施方式
下面结合本发明的附图,对本发明的技术方案进行进一步的详细说明,显然,所描述的实施例仅作为例示,并非用于限制本次申请。
如图1所示,本发明公开了生成因果解释模型的训练方法,所述生成因果解释模型可以对城市复杂系统的时空数据挖掘和预测。
步骤(1)首先构建生成因果解释模型,所述构建生成因果解释模型(GenerativeCausal Interpretation Model,GCIM),通过数学建模对城市复杂系统的观测生成过程进行分析,该模型中包含外生变量、时空条件父变量、受控因果转移函数、时空混合函数,具体形式如下:
Figure SMS_35
(1)
其中
Figure SMS_36
表示/>
Figure SMS_37
时刻各区域的观测数据,N表示复杂系统中的区域个数,D表示观测数据维度;/>
Figure SMS_38
为时空混合函数。
Figure SMS_39
表示/>
Figure SMS_40
时刻各区域的因果描述子集合,K表示区域内因果描述子个数。
Figure SMS_41
为/>
Figure SMS_42
时刻各区域的因果描述子集合/>
Figure SMS_43
中的元素,/>
Figure SMS_44
表示第i个区域内在第/>
Figure SMS_45
时刻的第/>
Figure SMS_46
个因果描述子。
Figure SMS_47
为受控因果转移函数,/>
Figure SMS_48
表示因果描述子/>
Figure SMS_49
所对应的外生变量,/>
Figure SMS_50
为受控因果转移函数的条件参数;/>
Figure SMS_51
是在特征维度上参数无关的多层感知机函数。
Figure SMS_52
表示对因果描述子/>
Figure SMS_53
具有直接因果效应的时空条件父变量。
Figure SMS_54
表示域信息集合,R表示域的数量;其中/>
Figure SMS_55
的元素/>
Figure SMS_56
表示第i个区域属于第r个域中,/>
Figure SMS_57
表示域信息/>
Figure SMS_58
影响下的第i个区域内k个外生变量/>
Figure SMS_59
的分布;
外生变量
Figure SMS_60
由复杂系统外部状态决定,通常外生变量的非平稳性是由域引起的。
Figure SMS_61
表示第i个区域内在第t时刻的第k个外生变量。外生变量的分布在每个域中是一致的,但在不同域中是不同的。因此,在给定域信息/>
Figure SMS_62
的条件下,外生变量/>
Figure SMS_63
之间相互独立。
外生变量是一种固有属性,其刻画了某个物理概念(如区域属性、天气情况),因此它对因果描述子有直接影响。外生变量的非平稳性也直接导致了因果描述子的分布具有非平稳性。
时空条件父变量
Figure SMS_64
时间和空间维度分别刻画因果结构,明确了因果传播路径,定义如下:
Figure SMS_65
其中
Figure SMS_66
为哈达玛积,/>
Figure SMS_67
表示t-1时刻区域i内部的因果描述子集合,/>
Figure SMS_68
表示同一个区域内,第k个因果描述子在前一时刻的区域内因果关系图。
Figure SMS_69
是由邻接关系决定区域i的局部邻域集合,
Figure SMS_70
表示t-1时刻区域i局部邻域内所有因果描述子集合,/>
Figure SMS_71
表示第i个区域中第k个因果描述子在前一时刻的区域间因果关系。
由于不同区域的局部邻域带来的因果影响不同,因此存在N个不同的区域间因果关系图。在因果充分系统中,在给定时空条件父变量的条件下,因果描述子之间相互独立,因此我们将
Figure SMS_72
视为受控因果转移函数的条件参数/>
Figure SMS_73
,控制着方程具体形式,其中
Figure SMS_74
是在特征维度上参数无关的多层感知机函数。
受控因果转移函数
Figure SMS_75
刻画了因果描述子的因果传播机制,其在条件父变量的影响下,将在外生变量映射到具有物理意义的因果描述子。给定条件参数/>
Figure SMS_76
,/>
Figure SMS_77
是全局共享的且稳定的,并且它的实现形式直接影响因果描述子的可识别性。
时空混合函数
Figure SMS_78
解释了因果描述子生成观测的过程,其形式全局共享且稳定,可以是任意复杂非线性但可逆的函数。
以下就以本实施方式具体涉及到的城市电力复杂系统,对上述模型进行进一步说明,针对区域属性作为系统的外生变量,可能随时间动态变化,导致非平稳的时空观测序列的问题,本发明将区域属性定义为一种域信息。针对多区域用电量时空数据预测,因果描述子是影响区域用电量不可观测的隐变量,本发明利用深度学习技术挖掘该隐变量来建模并解释城市复杂系统中用电量的生成过程。城市复杂系统中各区域用电量的因果描述子可能包括但不限于下列几种情况(人口密度、建筑密度、经济活动强度、交通状况等难以收集等数据),本发明目的是从可观测的城市中各区域用电量数据,推断出可能影响区域内用电量的因果描述子,并建立各个因果描述子之间的因果关系,进而建模并解释城市复杂系统中各区域用电量的生成规律和因果机制。
1.人口密度:人口密度是一个重要的空间特征,因为人口密度高的地区往往需要更多的电力供应,以满足人们的生活和商业需求。比如,大城市的用电量通常比农村地区的用电量高,因为城市有更多的人和商业活动。
2.建筑密度:建筑密度也是一个重要的空间特征,因为建筑密度高的地区需要更多的电力供应,以满足建筑物的照明、空调、电梯等用电需求。比如,商业区的用电量通常比住宅区的用电量高,因为商业区的建筑密度更高。
3.经济活动强度:经济活动强度也是一个影响用电量的重要因素。发达地区往往需要更多的电力供应,以满足更高的生产和消费需求。比如,一个工业化程度较高的地区的用电量可能会比一个农业化程度较高的地区的用电量更高。
4.交通状况:交通状况也可能影响用电量,因为交通状况影响了人们的出行和物流需求。比如,交通状况糟糕的城市可能需要更多的照明和信号灯,以保障交通安全,从而增加用电量。
此外,本发明将区域自身属性、天气状况和区域性聚集活动等变量作为系统之外未知的外生变量,并将各区域用电量的时间序列模式归纳为一种域信息,例如,各区域用电量的时间序列模式具有周期性、趋势性、季节性和突发性,当由于天气等外生变量发生改变时,该区域的用电量时间序列模式也会因此发生变化,同时,突发的区域性聚集活动也会导致区域用电量模式发生动态变化,因此,因果描述子的时空转移过程也受到非平稳外生变量的调节。
步骤(2)利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练。
其中生成因果解释模型GCIM的可识别条件,具体如下:
定义1(观测等价性):令
Figure SMS_79
是通过真实的潜在时空因果机制/>
Figure SMS_80
生成的可观测时空序列变量,其中/>
Figure SMS_81
在公式中给出定义,/>
Figure SMS_82
为时空混合函数、/>
Figure SMS_83
为所有因果描述子的受控因果转移函数集合、/>
Figure SMS_84
为由时空条件父变量生成的条件参数集合、
Figure SMS_85
为受域影响下的外生变量分布。
通过观测数据可以学习得到估计模型
Figure SMS_86
,/>
Figure SMS_87
表示从观测数据中估计的时空混合函数、/>
Figure SMS_88
表示从观测数据中估计的受控因果转移函数集合、/>
Figure SMS_89
表示从观测数据中估计的条件参数集合、/>
Figure SMS_90
表示从观测数据中估计的外生变量分布。
如果通过估计模型得到的数据分布
Figure SMS_91
真实的数据分布
Figure SMS_92
处相匹配,则称通过观测数据可以学习得到估计模型/>
Figure SMS_93
真实的潜在时空因果机制/>
Figure SMS_94
是观测等价的。
定义2(逐分量可识别性):在观测等价性的基础上,真实的时空混合函数
Figure SMS_95
和从观测数据中估计的时空混合函数/>
Figure SMS_96
之间可以通过置换操作/>
Figure SMS_97
和逐分量可逆转换/>
Figure SMS_98
相互变换,形式化描述如下:
Figure SMS_99
则称真实的潜在时空因果机制是逐分量可识别的,即模型
Figure SMS_100
所描述的因果描述子可以通过观测数据学习得到,使得真实的因果描述子集合/>
Figure SMS_101
和估计的因果描述子集合/>
Figure SMS_102
之间可以通过置换操作/>
Figure SMS_103
和逐分量可逆转换/>
Figure SMS_104
相互变换。
此外,如果从观测数据中估计的因果描述子可以达到逐分量可识别的程度,则潜在时空因果结构也具有可识别性,因为在因果充分系统的城市复杂系统中,因果描述子的条件独立性可以完全表征系统内时空因果结构,置换操作和逐分量可逆操作不会破坏因果描述子之间的条件独立性。
在定义1和定义2的保证下,本发明提出使生成因果解释模型GCIM具备可识别性的条件,具体定理如下:
定理1(生成因果解释模型GCIM的可识别性条件):如果生成因果解释模型GCIM的训练框架满足下述条件:
(1)时空混合函数
Figure SMS_105
可逆且处处可微,同时受控因果转移函数/>
Figure SMS_106
可逆且二次可微;
(2)外生变量分布
Figure SMS_107
的变化受域信息集合/>
Figure SMS_108
的控制,给定域信息集合/>
Figure SMS_109
,外生变量之间相互独立。
(3)对于任意的第i个区域的因果描述子集合
Figure SMS_110
,都存在/>
Figure SMS_111
个不同的域信息/>
Figure SMS_112
,使得同一区域内的因果描述子/>
Figure SMS_113
在不同域信息/>
Figure SMS_114
的影响下具有较大的差异。
则称生成因果解释模型GCIM具有可识别性,可以从观测数据中学习到真实的潜在时空因果机制和时空因果结构。
在上述可识别性条件约束下搭建一种基于变分推断的生成因果解释模型GCIM训练框架,采集不同时刻各区域的观测数据,以此从观测数据中学习估计模型,推断因果描述子,并估计潜在的时空因果结构和机制,从而对生成因果解释模型进行训练。
所述的训练框架由四个组件组成:变分自编码器、域适配器、条件生成模块(Condition Generation Module,CGM)和因果解释模块(Causal InterpretationModule,CIM),变分自编码器结构确保时空混合函数
Figure SMS_115
的可逆性并满足条件(1),编码器从观测数据中推断因果描述子,解码器对因果描述子进行非线性混合,生成区域的时空数据;其次,为了建模受外生变量影响下的非平稳性并满足条件(2)和条件(3),域适配器将一定时间段内的观测数据分配到对应的域,在同一个域内的外生变量分布一致,在不同域之间的外生变量分布不同;然后,为了捕获时空因果结构,条件生成模块(Condition GenerationModule,CGM),通过将区域间的邻接关系作为归纳偏置,捕捉区域内和区域间的因果关系,生成时空条件父变量,并将时空条件父变量转化为因果转移函数的条件参数,控制因果转移函数的具体形式;最后,为了满足受控因果转移函数/>
Figure SMS_116
的可逆性并满足条件(1),因果解释模块(Causal Interpretation Module,CIM),通过利用可逆的神经样条流网络实现因果转移函数,并在条件参数的影响下将外生变量映射到具有物理意义的因果描述子。在应用阶段:首先从外生变量分布中采样当前区域当前时刻下的外生变量;其次利用条件生成模块CGM,根据前一时刻因果描述子的时空条件父变量生成受控因果转移函数的条件参数;然后利用因果解释模块CIM,在条件参数的影响下将外生变量映射到当前区域当前时刻下因果描述子;最后利用变分自编码器中的解码器,对因果描述子进行非线性混合,生成当前区域当前时刻下的时空数据。
具体步骤包括:
步骤(1):根据城市复杂系统内部的时空因果关系,从微观因果描述子层面上定义观测数据的生成过程,建立因果解释模型GCIM的数学原理;同时采集研究区域的多模态数据,将数据量化,构造城市多模态数据,得到各区域分时段数据,作为生成因果解释模型GCIM训练框架的输入。
步骤(2):利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练。
其中所述训练过程至少包括从当前系统的观测数据中推断因果描述子,以及对时空混合函数和受控因果转换函数进行拟合以估计潜在的时空因果结构和时空因果机制,本步骤包含如下步骤2.1-步骤2.5。
步骤2.1:为了满足条件(1)中时空混合函数
Figure SMS_117
的可逆性,使用变分自动编码器(VariationalAuto Encoder,VAE)框架来建模因果描述子的推断过程和观测数据的生成过程。GraphGRU被用作编码器和解码器,以同时处理空间和时间维度,其定义如下:
Figure SMS_118
其中,
Figure SMS_121
是中间变量,无实际物理意义,/>
Figure SMS_124
表示特征拼接操作。/>
Figure SMS_126
是sigmoid的函数,/>
Figure SMS_120
表示双曲正切函数,/>
Figure SMS_123
是t时刻各个区域的观测数据,
Figure SMS_125
均是图卷积参数,/>
Figure SMS_127
是由GraphGRU输出的当前t时刻的因果描述子,
Figure SMS_119
是t-1时刻的因果描述子,/>
Figure SMS_122
表示图卷积操作,具体定义如下,
Figure SMS_128
其中
Figure SMS_129
表示预定义的区域间邻接关系,/>
Figure SMS_130
,/>
Figure SMS_131
是复杂系统中的区域个数。
Figure SMS_132
和/>
Figure SMS_133
为图卷积参数,/>
Figure SMS_134
为图卷积输入,/>
Figure SMS_135
为单位矩阵。
预定义邻接关系定义如下:
Figure SMS_136
其中,
Figure SMS_137
是区域/>
Figure SMS_138
和区域/>
Figure SMS_139
之间的距离,根据区域中心的纬度和经度计算,/>
Figure SMS_140
表示距离阈值,并根据实际情况设置为2公里,/>
Figure SMS_141
是距离矩阵的方差,用于控制矩阵的分布和稀疏性。
编码阶段的目的是拟合时空混合函数
Figure SMS_143
,本发明从观测数据中/>
Figure SMS_146
利用编码器推断因果描述子的后验分布/>
Figure SMS_148
,该后验分布是一个各向同性的高斯分布,编码器输出该高斯分布的均值和方差。解码阶段目的是逼近时空混合函数的逆函数/>
Figure SMS_144
,本发明以重参数化的方式从后验分布/>
Figure SMS_145
中采样估计的因果描述子/>
Figure SMS_147
,并使用解码器从估计的因果描述子/>
Figure SMS_149
中生成各节点的重构数据/>
Figure SMS_142
步骤2.2:在大多数情况下,尽管由于域的影响,观测数据表现出非平稳性,但域信息通常是未知的。为了满足条件(2)和条件(3)的约束,本发明提出了一种域适配器来从观测数据中捕获潜在的域信息,并使用Gumbel Softmax方法来确保每个节点的观测仅属于某个域,定义如下:
Figure SMS_150
其中
Figure SMS_151
是在输入为时间窗口P的观测数据的情况下,估计的域信息集合,MLP是多层感知机,/>
Figure SMS_152
是温度变量,/>
Figure SMS_153
为从/>
Figure SMS_154
分布独立采样的随机噪声,
Figure SMS_155
表示时间窗口P内的观测数据。
根据假设(3),如果因果描述子的数量为
Figure SMS_156
,则域的数量需要为/>
Figure SMS_157
。在域信息的基础上,我们可以定义外生变量的分布,并根据条件独立性进一步分解步骤1中所定义的外生变量的分布/>
Figure SMS_158
Figure SMS_159
Figure SMS_160
其中,
Figure SMS_163
表示在t时刻估计的外生变量集合,/>
Figure SMS_165
表示在输入为时间窗口P的观测数据的情况下,估计的域信息集合,/>
Figure SMS_167
是/>
Figure SMS_162
中的元素,表示第i个区域在第t时刻的第k个估计外生变量,/>
Figure SMS_166
是/>
Figure SMS_168
中的元素,表示第i个区域估计的域信息类别是r。/>
Figure SMS_169
和/>
Figure SMS_161
表示利用MLP求得高斯分布的均值和方差,/>
Figure SMS_164
表示高斯分布。
步骤2.3:为了充分捕捉时空因果结构,我们提出了条件生成模块(CGM)。我们将时空因果结构分解为区域内因果关系
Figure SMS_171
和区域间因果关系
Figure SMS_174
,并使用可学习的参数矩阵对它们进行建模。/>
Figure SMS_179
Figure SMS_172
,分别表示/>
Figure SMS_177
到/>
Figure SMS_181
和/>
Figure SMS_183
到/>
Figure SMS_170
具有因果连边。邻接关系/>
Figure SMS_175
作为节点间因果关系的归纳偏差,可以将参数矩阵/>
Figure SMS_178
从/>
Figure SMS_182
压缩到
Figure SMS_173
,其中/>
Figure SMS_176
,/>
Figure SMS_180
表示空间复杂度,这大大减少了可学习参数并提高了可识别性。
根据因果描述子的条件独立性,本发明通过
Figure SMS_184
将时空因果结构得到的父变量转化为因果转移函数的条件参数/>
Figure SMS_185
,/>
Figure SMS_186
是在特征维度上参数无关的多层感知机函数:
Figure SMS_187
步骤2.4:先前基于VAE的时间序列表征学习方法使用标准的多元高斯先验正则化隐变量的后验,这极大地限制了模型的表达能力。为此,本发明提出了一个因果解释模块,其目的是基于因果转换函数
Figure SMS_188
对因果描述子的先验分布/>
Figure SMS_189
进行建模。此外,本发明将条件(2)和条件(3)注入到因果描述子生成的先验规则中,并使用可逆的神经样条流网络来拟合/>
Figure SMS_190
,/>
Figure SMS_191
表示为/>
Figure SMS_192
的逆函数。
首先,使用变元定理将先验分布转换到外生变量分布,定义如下:
Figure SMS_193
其中外生变量
Figure SMS_194
和时空条件父变量/>
Figure SMS_195
是相互独立的,且/>
Figure SMS_196
和/>
Figure SMS_197
是一一对应的关系,这使得Jacobian是三角矩阵,上述公式可以进一步推导成如下形式:
Figure SMS_198
CIM解释了因果描述子的内在因果机制,并用可学习的先验分布逼近复杂系统内部真实的潜在因果机制,从而规范了因果描述子后验分布,提高了模型的可识别性。
步骤2.5:基于估计的因果描述子预测系统的未来状态是生成模型的一项重要功能。本发明假设域信息在短时间内不发生变化,因此可以从外生变量分布中采样当前区域下一时刻的外生变量,其次利用条件生成模块CGM,根据前一时刻因果描述子的时空条件父变量生成受控因果转移函数的条件参数;然后利用因果解释模块CIM,在条件参数的影响下将外生变量映射到当前区域下一时刻的因果描述子;最后利用变分自编码器中的解码器,对因果描述子进行非线性混合,生成当前区域下一时刻的时空数据,其形式化定义如下:
Figure SMS_199
重构过程:由于后验分部把当前时刻的观测数据作为输入,因此从后验分布
Figure SMS_200
采样因果描述子,在利用解码器生成时空数据时,输出结果是重构结构。
预测过程:先验分布
Figure SMS_201
只通过域信息和时空条件父变量控制,不涉及当前时刻的观测数据,因此从外生变量分布中采样外生变量,并按照前述公式生成的时空数据时,输出预测结果。
给定城市复杂系统数据集,本发明使用证据最小下界(Evidence LowerBound,ELBO)和预测损失函数学习生成因果解释模型,然后利用训练好的生成因果解释模型对研究区域内各子区域的数据进行预测。从后验分布采样因果描述子,分别计算采样得到因果描述子在后验分布和先验分布中的对数概率,并对两者差值求期望。另外,我们使用均方误差(Mean-Squared Error,MSE)作为预测损失,得到最终的损失函数。
采集研究场景中的历史数据,利用训练框架对所述的生成因果解释模型进行训练,将训练好的模型部署在城市系统上,根据研究区域内各子区域历史的用电量,预测每个区域各自未来的用电量,城市电力系统可以根据实际情况来规划和管理发电、输电、配电等方面的资源,从而优化电力系统的运行效率和可靠性。
以上申请的仅为本申请的一些实施方式。对于本领域的普通技术人员来说,在不脱离本申请创造构思的前提下,还可以做出若干变型和改进,这些都属于本申请的保护范围。

Claims (1)

1.一种生成因果解释模型的训练方法,其特征在于,包括如下步骤:
步骤(1)构建生成因果解释模型,所述生成因果解释模型具体为:
Figure QLYQS_1
式中,
Figure QLYQS_9
表示/>
Figure QLYQS_13
时刻各区域的观测数据,/>
Figure QLYQS_24
表示/>
Figure QLYQS_7
时刻各区域的因果描述子集合,所述因果描述子为采用神经网络进行生成因果解释模型学习过程的因果隐变量;/>
Figure QLYQS_20
为时空混合函数;/>
Figure QLYQS_12
为/>
Figure QLYQS_22
中的元素,/>
Figure QLYQS_4
表示第i个区域内在第/>
Figure QLYQS_15
时刻的第/>
Figure QLYQS_2
个因果描述子;/>
Figure QLYQS_14
为受控因果转移函数,/>
Figure QLYQS_6
表示/>
Figure QLYQS_16
所对应的外生变量,/>
Figure QLYQS_11
为受控因果转移函数/>
Figure QLYQS_21
的条件参数;
Figure QLYQS_5
是在特征维度上参数无关的多层感知机函数,/>
Figure QLYQS_17
表示对/>
Figure QLYQS_8
具有直接因果效应的时空条件父变量;/>
Figure QLYQS_19
为域信息集合/>
Figure QLYQS_3
的元素,表示第i个区域属于第r个域,
Figure QLYQS_18
表示在/>
Figure QLYQS_10
影响下的第i个区域内的k个/>
Figure QLYQS_23
的外生变量分布;
步骤(2)利用神经网络搭建生成因果解释模型的训练框架,并将生成因果解释模型的可识别性条件作为神经网络的约束条件,采集不同时刻各区域的观测数据,对生成因果解释模型进行训练,所述训练过程至少包括对时空混合函数和受控因果转换函数进行拟合;
所述可识别性条件包括:观测等价性,所述观测等价性为令所有时刻各区域的观测数据是通过真实的潜在时空因果机制
Figure QLYQS_25
生成的可观测时空序列变量,所述真实的潜在时空因果机制包括真实的时空混合函数、真实的受控因果转移函数、真实的条件参数和真实的外生变量,并通过观测数据学习得到估计模型/>
Figure QLYQS_26
,所述估计模型包括估计的时空混合函数、估计的受控因果转移函数、估计的条件参数和估计的外生变量;并使估计模型得到的数据分布和真实的数据分布处处相匹配;
所述可识别性条件包括:真实的时空混合函数和估计的时空混合函数之间能够通过置换操作
Figure QLYQS_27
和逐分量可逆转换/>
Figure QLYQS_28
相互变换;
所述可识别性条件包括:时空混合函数可逆且处处可微,受控因果转移函数可逆且二次可微;
所述可识别性条件包括:外生变量分布的变化受域信息集合的控制,给定域信息集合后,外生变量之间相互独立;
所述可识别性条件包括:域信息的数量为2K+1,K为因果描述子数量;
步骤(3):利用训练好的生成因果解释模型,根据城市不同区域内各子区域的历史用电量,预测每个区域的下一时段用电量。
CN202310473305.3A 2023-04-28 2023-04-28 一种生成因果解释模型的训练方法 Active CN116204792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310473305.3A CN116204792B (zh) 2023-04-28 2023-04-28 一种生成因果解释模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310473305.3A CN116204792B (zh) 2023-04-28 2023-04-28 一种生成因果解释模型的训练方法

Publications (2)

Publication Number Publication Date
CN116204792A CN116204792A (zh) 2023-06-02
CN116204792B true CN116204792B (zh) 2023-07-14

Family

ID=86509800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310473305.3A Active CN116204792B (zh) 2023-04-28 2023-04-28 一种生成因果解释模型的训练方法

Country Status (1)

Country Link
CN (1) CN116204792B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358247A (zh) * 2021-12-28 2022-04-15 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于因果关系推断的智能体行为解释方法
CN114819372A (zh) * 2022-05-09 2022-07-29 广东工业大学 一种基于神经网络的电力消费概率预测方法
CN114970997A (zh) * 2022-05-17 2022-08-30 华能国际电力股份有限公司上海石洞口第一电厂 一种区域电力负荷的短期预测方法
CN115577754A (zh) * 2022-10-31 2023-01-06 北京交通大学 一种基于事理图谱的电力负荷预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6916773B2 (ja) * 2018-12-17 2021-08-11 株式会社日立製作所 因果関係表示システム及び方法
US11568281B2 (en) * 2019-11-13 2023-01-31 International Business Machines Corporation Causal reasoning for explanation of model predictions
US11455576B2 (en) * 2020-11-12 2022-09-27 UMNAI Limited Architecture for explainable reinforcement learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358247A (zh) * 2021-12-28 2022-04-15 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种基于因果关系推断的智能体行为解释方法
CN114819372A (zh) * 2022-05-09 2022-07-29 广东工业大学 一种基于神经网络的电力消费概率预测方法
CN114970997A (zh) * 2022-05-17 2022-08-30 华能国际电力股份有限公司上海石洞口第一电厂 一种区域电力负荷的短期预测方法
CN115577754A (zh) * 2022-10-31 2023-01-06 北京交通大学 一种基于事理图谱的电力负荷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
考虑时空相关性的新能源电站出力时序建模方法研究;徐沈智;中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)(第6期);C042-242 *

Also Published As

Publication number Publication date
CN116204792A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Dubey et al. Study and analysis of SARIMA and LSTM in forecasting time series data
Himeur et al. Next-generation energy systems for sustainable smart cities: Roles of transfer learning
CN110969854A (zh) 一种交通流量的预测方法、系统及终端设备
Wang et al. A deep generative model for non-intrusive identification of EV charging profiles
CN114220271A (zh) 基于动态时空图卷积循环网络的交通流预测方法、设备及存储介质
Khodayar et al. Deep learning for pattern recognition of photovoltaic energy generation
González-Vidal et al. Missing data imputation with bayesian maximum entropy for internet of things applications
CN113673769A (zh) 基于多元时间序列插补的图神经网络交通流预测方法
US20210256358A1 (en) Systems and methods for modeling continuous stochastic processes with dynamic normalizing flows
Konstantakopoulos et al. Design, benchmarking and explainability analysis of a game-theoretic framework towards energy efficiency in smart infrastructure
CN113112791A (zh) 一种基于滑动窗口长短时记忆网络的交通流量预测方法
Huang et al. Origin-destination flow prediction with vehicle trajectory data and semi-supervised recurrent neural network
CN114943365A (zh) 融合多源数据的降水估测模型建立方法及降水估测方法
Liu et al. The attention-assisted ordinary differential equation networks for short-term probabilistic wind power predictions
CN115691137A (zh) 一种基于因果马尔科夫模型的多模态数据预测方法
Wang et al. A novel wind power prediction model improved with feature enhancement and autoregressive error compensation
CN116204792B (zh) 一种生成因果解释模型的训练方法
Li et al. PV resource evaluation based on Xception and VGG19 two-layer network algorithm
CN116205384B (zh) 一种基于生成因果解释模型的城市数据预测方法
CN116227756B (zh) 一种城市时空数据预测因果模型的评价方法
CN116401949A (zh) 分布式光伏资源出力曲线推演方法、系统、设备及介质
CN116680635A (zh) 电力网故障位置推断法方法及系统
Xu et al. Interpretable transformer-based model for probabilistic short-term forecasting of residential net load
Zhang et al. Granger causal inference for interpretable traffic prediction
Tian et al. Non-intrusive load monitoring using inception structure deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant