CN115841158A

CN115841158A - 一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法

Info

Publication number: CN115841158A
Application number: CN202211723861.3A
Authority: CN
Inventors: 郑会; 李鹏; 陈静; 徐鹤; 王汝传
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-03-24

Abstract

一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，首先研究基于自动驾驶语义的适应度函数与奖励函数强化过程，然后研究基于格兰杰因果关系的模糊关联分析方法，再根据强化学习结果，进行格兰杰因果分析的转化，最后提出基于格兰杰因果关系的强化学习的自动驾驶风险预测模型，同时实现基于时间序列数据的风险因素追溯。通过本发明提出方法，自动驾驶车辆可以在较少的人为干预帮助下进行自我路况检测与简单风险规避。

Description

一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法

技术领域

本发明属于人工智能领域，具体涉及一种基于强化学习的不确定性因果推理的自动驾驶风险关联发现方法。

背景技术

智能体问题通常需要在所有参与者之间进行利益权衡和积极或消极影响跟踪。需要进行有效的调整以使当前的交通状况受益，事故因素跟踪对于维护所有参与者的安全也很有价值。自动驾驶汽车为了避免障碍物和车祸，需要计算所有参与者及其条件，包括自动驾驶机动车辆的速度变化、行人的突然出现以及意外的交通信号灯损坏等。多智能体强化学习可以在多参与者环境中有效地工作。它可以通过特定的奖励评分策略找到精心设计的策略来为决策做出贡献。偶然关联发现有助于识别因果对和基本因素。然后，可以同时优化和跟踪多智能体问题。

因果关系在自动驾驶技术中已经成为极为重要的一部分。如果可以预测车祸的起因，就可以采取预防措施进行辅助驾驶建议，从而提高自动驾驶安全。已经有不少国内外科学家致力于发现这种关系。例如，Judea Pearl教授进行因果推理的研究，汪培庄教授也应用模糊集构建因子空间来寻找因果关系的促成因素。此外，还有学者引入了一些关联挖掘方法来获取潜在的因果关系，用具有完整因果因素空间的合成数据进行实验。

作为一种重复的自学习方法，强化学习(Reinforcement Learning RL)RL可以自动找出低驾驶风险对应的操作。通过强化学习进行自动驾驶风险预测面临着两个技术问题：一是RL通常需要对自动驾驶机动车辆的各种操作进行多次比较才能选择最合适的动作。为了实现自主学，需要建立一个行动奖励策略，还需要找出基于自动驾驶行动的奖励函数。由于目前奖励函数通常很少考虑人为因素，这就使得其缺乏相应的用户参与度，也就降低了其适用性。二是自动驾驶过程中RL过程缺乏可解释性。现有的RL方法很少能解释为什么所选动作可以促成最佳结果。当RL过程没有达到预期的低风险目标时，这些方法通常无法追踪出了哪个风险因素出现了问题。

发明内容

本发明为了克服上述针对强化学习RL的两个问题，研究强化学习RL的可解释性，并进行因果验证。本发明从一个基本但非常典型的案例开始研究可解释性：时间数据的自动驾驶风险强化学习，其关于机动车辆的操作状态演变是可动态学习的。研究目标是提高对以下指导的可解释性：(1)提出行动奖励策略；(2)评估决策的有效性；(3)根据基于自动驾驶风险的时间序列数据，预测其风险水平并对当前驾驶行为进行辅助决策与分析。本发明应用于自动驾驶的风险预测与风险因素分析。本发明提出的方法可以指示潜在路况风险，规划当前车辆的行驶路程，避免前方潜在风险。通过本发明提出方法，自动驾驶车辆可以在较少的人为干预帮助下进行自我路况检测与简单风险规避。

一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，首先研究基于自动驾驶语义的适应度函数与奖励函数强化过程，然后研究基于格兰杰因果关系的模糊关联分析方法，再根据强化学习结果，进行格兰杰因果分析的转化，最后提出基于格兰杰因果关系的强化学习的自动驾驶风险预测模型，同时实现基于时间序列数据的风险因素追溯；具体是：

一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，应用于机动车自动驾驶，包括以下步骤：

S1、针对自动驾驶风险数据进行语义分析，通过基于语料库的语义分析之后，使用模糊集合表示用户自定义目标，并将目标进行初步量化，得到基于模糊集的驾驶风险适应度函数；

S2、根据步骤S1得到的所述基于模糊集的驾驶风险适应度函数，结合机动车辆智能体与策略集合π的关系，将其转化为强化学习中与其对应的风险相关奖励函数R(s,a)，其中，

s为车辆驾驶状态集合S中的一个变量，s∈S，

a为驾驶动作集合A中的一个变量，a∈A；

对最终的风险相关奖励函数R(s,a)来说，其函数值越高，当前车辆的状态与动作越安全；反之，则当前驾驶状态越危险；

S3、通过基于模糊集合的理论进行基于奖励函数的自动驾驶因素空间构建，将驾驶风险因素保存在潜在的原因集合中，得到初始驾驶风险潜在原因集合X＝{x₁,x₂,…,x_m}，其中，m为初始的潜在原因总数；

S4、跟据步骤S3得到的所述初始驾驶风险潜在原因集合X，通过基于时间序列的驾驶风险模糊关联分析方法，用户自定义模糊支持度与隶属度，通过格兰杰因果假设检验方法，得到初步筛选后的驾驶风险潜在原因集合X′＝{x′₁,x′₂,…,x′_m′}，其中，m′为初步筛选后驾驶风险潜在的原因总数；

S5、根据路况上每个机动车辆智能体的驾驶行为策略导致环境正的奖赏，找出初始的风险相关奖励函数R(s,a)，该规则需满足：如果某个驾驶行为策略导致低风险环境正的奖赏，那么机动车辆Agent以后产生这个行为策略的趋势便会加强，机动车辆Agent的目标是在每个离散状态发现最优策略以使自动驾驶风险更小；

S6、根据步骤S5构建的所述初始的风险相关奖励函数R(s,a)与步骤S4得到的所述初步筛选后的驾驶风险潜在原因X′＝{x′₁,x′₂,…,x′_m′}，初步构建自动驾驶风险预测强化学习模型；

S7、根据步骤S6构建的所述自动驾驶风险预测强化学习模型，根据初始的风险相关奖励函数R(s,a)与适应度函数驾驶风险Y的关系，匹配所述初步筛选后的驾驶风险潜在原因X′与适应度函数驾驶风险Y，结合初步筛选后的驾驶风险潜在原因X′＝{x′₁,x′₂,…,x′_m′}，构建基于潜在自动驾驶风险因素的格兰杰因果关系的强化学习模型；

S8、根据强化学习得到的格兰杰因果关系，在时间序列数据集合上进行格兰杰因果判定，并找出有利于适应度函数驾驶风险Y的自动驾驶风险的格兰杰原因X”；

S9、根据步骤S8找到的所述自动驾驶风险的格兰杰原因X”，对适应度函数驾驶风险Y进行预测，并通过增加格兰杰原因X”里面因素的比重，引导并辅助当前机动车辆作出最安全的驾驶行为。

步骤S7中，基于潜在自动驾驶风险因素的格兰杰因果关系的强化学习模型的具体的实施步骤如下：

S7a：根据格兰杰原因因素库筛选强化学习输入特征纬度；

S7b：根据当前状态与策略π，计算出每个状态的价值函数v；

S7c：根据优化算法找出当前最优策略，更新策略π；

S7d：迭代策略评估过程，重复步骤S7b-步骤S7c,在此过程中当前状态的价值函数v已证实可以迭代到收敛，迭代终止条件为满足某用户自定义的价值函数差值，或者策略函数无变化；

步骤S7e：结合基于格兰杰因果关系的模糊关联分析模型得到的关联规则与强化学习的优化策略，对强化学习结果进行对应的解析；

步骤S7f：根据强化学习的解析进行基于时间序列数据的辅助决策。

步骤S7d中，所述用户自定义的价值函数差值设为[0.01-0.001]。

步骤S7c中所述优化算法为贪心算法。

本发明一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，找到其对应格兰杰风险因素，突破黑盒方法，提出一种可能的解释，并在短期内预测路况风险，从而大大降低路况风险。该方法主要具有以下优点：

首先，本发明可以帮助找到自动驾驶中不确定的驾驶行动和基于驾驶风险的奖励函数，根据驾驶的不确定性时间序列数据，寻找基于模糊集合表示的奖励函数，其可以根据每个优化步骤随时进行调整。由于其具有一定的通用性与动态性，使得其更快收敛到符合低路况风险这一目标。

然后，本发明计划通过驾驶风险关联发现方法为强化学习找到一种解释。提出的方法可以适用于可以将适应度函数量化的强化学习和深度学习方法，该发明的对自动驾驶风险预测的时间序列数据，特别是对数据分布较稳定且符合线性关系的数据有较强的适用性，其可以初步解决强化学习的可解释性问题，并在格兰杰筛选的过程中提高算法效率。

(1)高效性：通过格兰杰因果分析方法，可以在保证一定准确率的前提下进行基于格兰杰因果的关联规则挖掘。该方法可在进行驾驶风险强化学习前进行初步输入特征筛选，降低强化学习模型训练纬度，提高算法效率。

(2)实时性：用来训练模型的时间序列数据可实时更新，根据格兰杰时间序列数据假设检验方法，基于时间的自动驾驶数据可以随时进行模型更新，从而挖掘出更准确更有效的的风险预测强化模型，从而辅助实现低路况风险，甚至零风险的自动驾驶。

(3)可行性：提出的基于格兰杰因果分析的自动驾驶风险预测强化模型构建方法，整体算法的解释性通过关联规则实现，其可靠性可通过格兰杰因果假设检验进一步测试，因此，其具有良好的可行性。

本驾驶风险强化学习方法中，利用模糊集合协助语义分析，找出基于格兰杰因果关系的关联规则，并构建对应的强化学习模型，即实现基于格兰杰因果关系的自动驾驶风险强化学习模型构建。

附图说明

图1是本发明实施例中所述基于格兰杰因果关系检验的可解释强化学习的风险预测方法的工作流程图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，基于以下两点：首先研究基于自动驾驶语义的适应度函数与奖励函数强化过程，然后研究基于格兰杰因果关系的模糊关联分析方法，再根据自动驾驶风险预测强化学习结果，进行格兰杰因果分析的转化，最后提出基于格兰杰因果关系的驾驶风险预测强化模型的算法，实现低风险，甚至零风险自动驾驶技术。

本发明利用基于格兰杰因果分析的关联规则方法来解决强化学习算法上的不可解释的局限性，并根据挖掘出得格兰杰因果关系进行辅助决策，从而得到更有利于用户预定义目标的结果。因为强化学习过程的可解释性可以大大提高算法的适用范围；其奖励函数也具有难以定义的问题，因此，本发明在探索适用于寻求强化学习过程不可解释，时间序列数据辅助决策的不确定性，奖励函数的量化，以及如何针对黑盒算法进行进一步溯源等问题上具有重要价值。

本发明利用时间序列数据的时间顺序，结合格兰杰因果分析的假设检验方法，处理具有可量化目标的时间序列数据，通过假设检验确定潜在因素集合与目标的因果关系，解决了强化学习溯源难问题，实现基于时间序列数据可解释的强化学习模型的建立。

强化学习建模方法能够快速有效的根据用户定义目标与量化后的奖励函数，建立实现目标优化的模型，为预测未来可能决策结果做了准备，再结合格兰杰因果分析的结果，进行输入因素的调整，就可以在保证决策结果优势情况下，找出与决策结果密切相关的格兰杰原因。

综上，可以利用基于格兰杰因果分析的关联规则方法与强化学习过程进行自动驾驶风险预测建模分析。

下面说明格兰杰因果分析的关联规则方法建模过程，即如何在格兰杰因果假设的基础上，根据基于目标的关联规则进一步筛选格兰杰原因集合，具体如下。

根据潜在原因设X＝{x₁,x₂,…,x_m}与量化目标Y。假设，

其中，

与/>

相互独立。

这时，分别进行两个零假设H₀:α₁＝α₂＝…＝α_q＝0与H′₀:δ₁＝δ₂＝…＝δ_q＝0。

然后，将y的所有时间序列前的变量做回归，计算其残差平方和(Residual Sum ofSquares)RSS_y；同样地，将x对应的平方差记为RSS_x。

通过F检验，其中

这里n为样本总数，q为回归训练(待评估)的个数，k为对应y的回归训练(待评估)个数。

此时，如果F>F(q,(n-k))，则拒绝零假设，此时可说明x是y的格兰杰原因。注意，格兰杰原因不一定是强因果关系。

本发明的分析方法流程如下：

1.构建适应度函数与奖励函数。用户自定义目标进行语义分析，对时间序列数据进行模糊化与量化处理，得到适应度函数驾驶风险Y与风险相关奖励函数R(s,a)，并找出其对应关系。

2.建立基于格兰杰因果关系的模糊关联分析模型。通过基于时间序列的模糊关联分析方法，构建基于格兰杰因果分析的关联模型，筛选目标成因备选库，并建立因素与目标关系。

3.构建基于格兰杰因果关系的强化学习模型。构建初步关联规则挖掘模型。对多源数据进行分别处理，分别计算其数据分布，进而构建初步关联规则挖掘模型。

其中进行基于格兰杰因果关系的自动驾驶风险预测强化学习模型的具体的实施步骤如下：

步骤a：根据格兰杰原因因素库筛选强化学习输入特征纬度。

步骤b：根据当前状态与策略π，计算出每个状态的价值函数v。

步骤c：根据贪心算法找出当前最优策略，更新π。

步骤d：迭代策略评估过程，重复步骤b-步骤c,在此过程中当前状态的价值函数v已证实可以迭代到收敛。迭代终止条件为满足一定小的价值函数差值，或者策略函数无变化。

步骤e：结合基于格兰杰因果关系的模糊关联分析模型得到的关联规则与强化学习的优化策略，对强化学习结果进行对应的解析。

步骤f：根据强化学习的解析进行基于时间序列数据的辅助决策。

本发明提出的一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，首先研究基于语义的适应度函数与奖励函数强化过程，然后研究基于格兰杰因果关系的模糊关联分析方法，再根据强化学习结果，进行格兰杰因果分析的转化，最后提出基于格兰杰因果关系的强化学习模型的算法，来实现时间序列数据的辅助决策。具体的：

(1)针对强化学习过程中适应度函数与奖励函数转化的不确定性，研究支持语义模糊与目标不确定情况下的适应度函数与奖励函数转化方法，使之可以根据实际需求在保留更多已知信息的基础上找出最接近实际目标及其需求的适应度函数与奖励函数。通过模糊集合的量化转化过程，解决强化学习中目标与奖励函数的不确定性问题。

(2)针对强化学习解析难的特点，增加关联规则发现过程，使得可以通过已有关联规则，结合强化学习结果，进行反向解释的可行性。这种方法使得强化学习的解释变得更为简单，同时突出了模糊集合语义解析的优势。

(3)针对强化学习解析的因果性需求，增加格兰杰因果假设检验过程，对所有潜在解析原因提前进行格兰杰因果分析，同时根据分析结果进一步筛选强化学些输入特征范围，降低强化学习纬度，从而在提高学习效率的基础，对其可解析行增加了理论支持。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，应用于机动车自动驾驶，其特征在于，包括以下步骤：

s为车辆驾驶状态集合S中的一个变量，s∈S，

a为驾驶动作集合A中的一个变量，a∈A；

S6、根据步骤S5构建的所述初始的风险相关奖励函数R(s,a)与步骤S4得到的所述初步筛选后的驾驶风险潜在原因X′＝

{x′₁,x′₂,…,x′_m′}，初步构建自动驾驶风险预测强化学习模型；

S7、根据步骤S6构建的所述自动驾驶风险预测强化学习模型，根据初始的风险相关奖励函数R(s,a)与适应度函数驾驶风险Y的关系，匹配所述初步筛选后的驾驶风险潜在原因X′与适应度函数驾驶风险Y，结合初步筛选后的驾驶风险潜在原因X^′＝

{x^′ ₁,x^′ ₂,…,x^′ _m′}，构建基于潜在自动驾驶风险因素的格兰杰因果关系的强化学习模型；

2.根据权利要求1所述的一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，其特征在于：

S7a：根据格兰杰原因因素库筛选强化学习输入特征纬度；

S7b：根据当前状态与策略π，计算出每个状态的价值函数v；

S7c：根据优化算法找出当前最优策略，更新策略π；

3.根据权利要求2所述一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，其特征在于：

步骤S7d中，所述用户自定义的价值函数差值设为[0.01-0.001]。

4.根据权利要求2所述的一种基于格兰杰因果关系检验的可解释强化学习的风险预测方法，其特征在于：步骤S7c中所述优化算法为贪心算法。