CN114023063B

CN114023063B - 一种基于认知网络的智能交通系统协同决策方法

Info

Publication number: CN114023063B
Application number: CN202111288152.2A
Authority: CN
Inventors: 林恺; 高建; 周东生; 陈炳才; 赵楠; 张强
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-10-21
Anticipated expiration: 2041-11-02
Also published as: CN114023063A

Abstract

本发明属于智能交通实时决策技术领域，涉及一种基于认知网络的智能交通系统协同决策方法。本发明致力于解决智能交通系统中多任务并行协同决策实时性不足的问题，充分考虑来自任务多样性与环境多变性带来的挑战，利用粒计算对模糊环境的表达能力构建多任务并行的层次化相容粒度空间模型并基于此设计了多任务协同实时决策算法。本发明方法能够第一时间响应任务和环境的变化，保证了时间敏感场景下的多任务协同实时决策。

Description

一种基于认知网络的智能交通系统协同决策方法

技术领域

本发明属于智能交通实时决策技术领域，涉及一种基于认知网络的智能交通系统协同决策方法。

背景技术

随着智能交通系统的飞速发展，车辆的大规模协同决策的实时性受到了广泛关注。同时，在动态环境下及时分配资源对于满足决策目标至关重要。虽然结合了6G新的通信技术等，进一步保证性能智能交通系统中的协同决策，多个共存决策任务给响应时间和决策的准确性带来巨大的挑战。尤其是在智能交通系统的动态和复杂环境中，车辆只能获取信息通过局部观察进行决策，数据的模糊性严重影响协同决策的准确性和响应时间。

粒度分解在特征提取和不确定信息的描述方面有明显的优势，引入到认知网络驱动的智能交通系统的粒度计算可以加强不确定性知识发现能力决策过程中的数据。

另一方面，作为可以应对复杂动态环境的先进技术，认知网络带来了可能智能交通吸引的高效并行决策能力。Zhao等人设计了信息中心网络结合认知网络并应用于智能交通系统中的规划决策问题，它使用分析网络实现主动认知访问的能力到交通数据。这些研究分别满足执行不同的决策任务，但它们不支持多任务并行决策的执行制作。粒计算结合粗糙集理论进行粒化不同角度的信息来源，形成一个决策数据的多视图多层次表达，根据粒度和它们之间的关系，有助于在智能交通系统中用于处理决策的执行在复杂的环境中完成任务。Lyu等人提议驾驶员状态的长期多粒度深度框架为智能交通系统提供安全驾驶保障功能。Javier等人提出了估计缺失值的细粒度算法，在模糊偏好关系中的信息缺乏条件下提高群体决策信息能力。

发明内容

为了克服现有技术的不足，本发明的目的在于面向智能交通领域任务多变和环境复杂的特点提供一种基于认知网络的智能交通协同决策方法，本发明构建了层次化相容粒度空间模型，以增强信息粒的认知不完全或者遗漏识别理解能力，通过构建多粒度信息结构来提高决策过程的知识发现能力。基于该模型结合序贯决策理论设计一种多任务协同实时决策算法，实现任务间的多粒度的信息匹配和知识迁移，进而提升多任务并行的智能交通系统协同实时决策效率。

本发明的主要技术包括两个部分：

(1)构建了层次化相容粒度空间模型，在智能交通系统中部分任务的数据来源是模糊的，信息的不确定性导致数据无法直接作为决策过程的输入，首先需要对数据进行粒化，针对模糊数据与决策目标间内在影响进行抽象概括，构建一种面向多个交通任务并行的层次化相容粒度空间模型，通过将各个任务的决策信息源转化为层次化的信息粒结构以加强对任务间联系的认知，并设计自适应调整功能，使相容粒度空间的结构应随任务集动态变化而进行调整，以满足任务各自的执行特点与任务间的协作需求，为智能交通系统中数据模糊环境下的多任务协同实时决策算法提供基础。

(2)设计基于深度Q学习的多任务协同实时决策算法，该算法基于上述层次化相容粒度空间模型建立，结合深度神经网络与强化学习的深度Q学习设计多任务协同实时决策算法，以适应决策时产生的庞大且交错的状态空间和实时动态更新的决策数据，从而实现动态实时协同决策。由于多粒度实时决策模型底层权重确定是根据相容信息粒度空间的，高层胶囊权重同时也可由基于低层获得，为了跟踪及确定每一层的最优权重以及训练状态，该算法使用ε-greedy策略来决定采取的动作，依据奖励选择最佳动作并循环该过程直到奖励增加不明显未知，从而通过深度Q学习获得最优决策。

为了达到上述目的，本发明采用的技术方案如下：

一种基于认知网络的智能交通协同决策方法，步骤如下：

步骤(1)多任务并行下的层次化相容粒度空间模型构建

(1.1)首先针对各交通任务建立各自的粗糙集。对于智能交通系统中的并行任务集合M＝{m₁,m₂,...,m_n}中的任意一个任务，用二元组K_i＝＜U_i,R_i＞表示其粗糙集对应的近似空间，其中U_i＝{u₁,u₂,...,u_l}指的是任务m_i对应的论域，是通过不同角度对交通任务m_i进行描述的非空有限集，而R_i＝{r₁,r₂,...,r_c}是描述各u_a间等价关系的集合。通过近似关系获取道路模糊信息u_a的边界域为

R _i(u_a)和

分别表示下近似集合和下近似集合，计算方式如公式(1)所示：

其次要精确衡量论域间的相似程度，从计算不同论域间知识的相关程度出发。并行任务集合M定义三元组P_M＝＜U,R,δ＞表示任务并行下的近似空间，其中U表示并行任务下的总论域，δ＝{δ₁,δ₂,...,δ_σ}表示不同论域间信息粒的等价关系的集合，对于任意两个任务m_i,m_j分别产生的论域U_i,U_j中的任意两个元素u_a和u_b，用公式(2)中的参数z_ab描述两元素的相似程度：

其中

表示信息粒u_a与u_b在并行任务下的下近似粗糙集。

为满足相容粒度空间的结构随车辆任务集变化而改变，根据公式(2)设计相容参数ρ敏感的诱导相容函数τ^ρ，使其满足相容粒度空间的自适应调整功能：

其中ρ表示相容参数，依据论域间相似程度结果z_ab定义的阈值。它的取值随实际任务的属性和状态改变而变化，能够一定程度上保证决策结果的准确性。

基于公式(3)得到的诱导相容函数τ^ρ，定义T时间段内并行的任务集合M^T对应的相容粒度空间模型：

＜M^T,U,τ^ρ＞ (4)

公式(4)中U表示M^T对应的论域集合，τ^ρ表示M^T对应的诱导相容函数，用来支持相容信息粒度空间内部结构的自适应调整。

(1.2)将步骤(1.1)获得的相容粒度空间模型依据车辆任务的决策属性进行分类和分层，由粗到细的粒层次结构更加有利于多任务并行决策。对于任意任务都拥有自己独立一组分层规则。为了量化分层规则对任务信息粒的严格程度，利用向量形式表示分层规则，严格程度则由向量的模长决定。分层规则如下定义：

公式(5)中

V_i是各决策属性下对应的值域，d表示对应的决策属性，α∈B表示任意条件属性子集，任何属性η其决策后值域为V_i ^η，{*}表示与当前规则无关的相应属性值，向量的模长由非*属性值的数量||χ||决定，即相关属性值越多代表该向量越大，同时也代表在该规则下信息粒越细。

根据公式(5)的对相容粒度空间的分层规则定义，层次化相容粒度空间完成最终定义：

Sp_i＝{U_i,B_i,D_i,V_i,f_i,L_i} (6)

公式(6)中U_i表示m_i对应的整个信息粒空间，即对应论域，B_i是条件属性集，D_i表示决策属性集，V_i是各决策属性下对应的值域，即对于任何属性η∈D_iη∈D_i，其决策后值域为V_i ^η，f_i表示决策函数集，每个属性都有其对应决策函数，即f_i:U_i×D_i→V_i，L_i为当前任务对应论域与其它任务中的相似信息粒集合。

步骤(2)基于深度Q学习的多任务协同实时决策算法设计

利用深度Q学习的经验回放机制，以步骤(1)构造的层次化相容粒度空间模型为基础，设计了一种在此决策模型下运行的基于深度Q学习的多任务协同实时决策算法，以确保交通任务的实时性能。在该算法分为两个部分，分别服务于各阶段的胶囊网络中和整个序贯决策阶段，该算法相关描述如下：

多任务协同实时决策依赖胶囊神经网络和长短期记忆网络结合的多任务学习网络，分别服务于各阶段的胶囊网络中和整个序贯决策阶段。

单阶段胶囊网络最底层的胶囊权重由信息粒在当前任务下的层级确定即可由公式(7)得到，胶囊的层间转化公式如下表示：

squash(·)函数表示一种挤压函数，

表示当前层的胶囊集合，当h＝0时，即阶段β的初始底层胶囊为Sp^β和基于Nd^β产生新信息粒的相容空间中的信息粒，任务m_i处于β阶段时的初始权重集合为

单个阶段初始状态

即为相容粒度空间中各粒度对应的胶囊的状态，执行的动作a则对应如何得到特征最清晰的高层胶囊，即获取最大的Q值，每层都根据当前层输出结果Q(ζ,a,θ)进行下一步的决策，其中θ表示网络学习参数。公式(8)为任务m_c和m_d在单阶段内的损失函数l(θ)：

其中p和q分别为常量，公式(9)参数的更新方式：

其中

为参数θ的更新梯度，当Q值趋于稳定时输出最新的状态。

在整体序贯决策过程，结合序贯决策理论进行的训练与推理，对于第β阶段来说，其输入来源为前一阶段的输出O^β-1、阶段内胶囊神经网络部分的决策结果

以及新加入的数据Nd^β。模型中每个阶段的输入包括子任务集合，对应相容粒度空间，各任务的历史决策结果以及新加入的决策数据，阶段β的输入可由下述公式描述：

I^β＝[M^β,Sp^β,O^β-1,Nd^β] (10)

将上述输入来源抽象为多维向量并作为当前层的初始状态

进行训练，反复迭代直至Q值不随动作的变化而变化为止。

由于不同任务间的迭代次数会产生分歧，有部分任务已经完成，只要有一个任务还在决策过程中，合成的状态还会不断更新，而实际上已经完成的任务无需再跟随整体决策过程继续计算，会耗费多余的时间和资源。为解决上述问题，针对任务m_i用变量

进行标记，当任务m_i结束时也就意味着Q值趋于稳定，既

反之记为1。以任务m_c和m_d并行为例，公式(11)为整体序贯决策过程的损失函数：

参数

的更新方式如公式(9)通过更新梯度进行计算。

当其中一个任务提前结束时，其对应的Q值将不再影响损失函数的变化，同时也不会再影响后续其他任务进行的状态。因为标记

存在的原因，可以及时分离并结束Q值已经趋于平稳的任务，最大限度削减决策成本的同时也保证了任务的实时性能。

本发明的有益效果：

1.高效利用智能交通系统中的模糊信息。普通的交通系统信息处理方法，无法有效利用模糊信息，更无法挖掘到模糊信息中的潜在知识。本方法构建相应关系的粗糙集，提高信息利用率，进而提高决策准确率。

2.解决任务协同低效和实时性不足的问题。由于任务多样性与环境复杂性，不同任务间互相制约决策过程，消耗大量决策成本，本方法对不同任务的信息粒建立层次化的相容粒度空间，且结合序贯决策理论进行深度学习算法，最大限度削减决策成本的同时也保证了任务的实时性能。

附图说明

图1为本发明的智能交通系统的协同决策整体框架。

图2为本发明的决策任务执行过程示意图。

图3为本发明的两个任务并行层次化相容粒度空间形成过程示意图。

图4为本发明的两任务并行的多粒度协同决策模型训练过程示意图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

本发明可用于智能交通系统中的实时协同决策任务，本发明的智能交通系统的协同决策整体框架如图1所示，这里以路径规划和紧急避碰两个任务为例，决策任务执行过程如图2所示，两个任务并行层次化相容粒度空间形成过程如图3所示，两任务并行的多粒度协同决策算法训练过程如图4所示。

本实施例应用到了基于认知网络的智能交通协同决策任务，所论述的具体实施方案仅用于说明本发明的实现方式，而不限制本发明的范围。

下面主要针对智能交通系统下路径规划和紧急避碰两个任务的协同决策情况对本发明的实施方案进行详细说明，主要分为层次化相容粒度空间模型的构建和多任务协同实时决策算法的训练：

(1)层次化相容粒度空间模型的构建：

首先将路径规划和紧急避碰任务中的模糊信息根据公式(1)建立相应的粗糙集，基于公式(2)得到论域中各元素的相关程度衡量进而得出两个任务间的相似程度，根据任一时刻任务间的具体相容程度进行判断和计算。由于智能交通系统的高度动态性，依据公式(3)计算能满足自适应调整的诱导相容函数，结合公式(2)和公式(3)得到路径规划和紧急避碰两个任务融合的相容粒度空间表示。按照公式(5)定义分层规则，确定规划与避碰任务中未相容的信息粒的粗细程度和全部信息粒的层次划分，进而得到能将信息里精准分层的层次化相容粒度空间。

(2)多任务协同实时决策算法的训练：

结合公式(6)已构建的层次化相容粒度空间模型，对规划与避碰任务进行分阶段学习网络训练，首先针对单阶段中的胶囊神经网络，它的底层权重根据相容信息粒度空间确定，高层胶囊权重根据公式(7)由基于低层获得，并公式(8)-(9)可得到单个阶段内胶囊神经网络的损失函数，贪婪地选择最少损失地训练方式直到训练到达最后一层获取最优决策结论。对于整体序贯决策过程，按照公式(10)得到各阶段间的输入表示，通过长短期记忆网络的输出门和tanh函数的激励得到该阶段的最终的阶段性决策输出。根据公式(11)得到的整体决策过程损失函数，使用更新梯度进行计算其对应的Q值将不再影响损失函数的变化，最终路径规划和紧急避碰两个任务及时分离并得到各自的最佳决策结果。

Claims

1.一种基于认知网络的智能交通协同决策方法，其特征在于，步骤如下：

步骤(1)层次化相容粒度空间模型构建

(1.1)首先针对各交通任务建立各自的粗糙集；对于智能交通系统中的并行任务集合M＝{m₁,m₂,...,m_n}中的任意一个任务，用二元组K_i＝＜U_i,R_i＞表示其粗糙集对应的近似空间，其中U_i＝{u₁,u₂,...,u_l}指的是任务m_i对应的论域，是通过不同角度对交通任务m_i进行描述的非空有限集，而R_i＝{r₁,r₂,...,r_c}是描述各u_a间等价关系的集合；通过近似关系获取道路模糊信息u_a的边界域为

R _i(u_a)和

分别表示下近似集合和上近似集合，计算方式如公式(1)所示：

其次要精确衡量论域间的相似程度，从计算不同论域间知识的相关程度出发；并行任务集合M定义三元组P_M＝＜U,R,δ＞表示任务并行下的近似空间，其中U表示并行任务下的总论域，δ＝{δ₁,δ₂,...,δ_σ}表示不同论域间信息粒的等价关系的集合，对于任意两个任务m_i,m_j分别产生的论域U_i,U_j中的任意两个元素u_a和u_b，用公式(2)中的参数z_ab描述两元素的相似程度：

其中

表示信息粒u_a与u_b在并行任务下的下近似粗糙集；

其中ρ表示相容参数，依据论域间相似程度结果z_ab定义的阈值；

＜M^T,U,τ^ρ＞ (4)

公式(4)中U表示M^T对应的论域集合，τ^ρ表示M^T对应的诱导相容函数，用来支持相容信息粒度空间内部结构的自适应调整；

(1.2)将步骤(1.1)获得的相容粒度空间模型依据车辆任务的决策属性进行分类和分层，由粗到细的粒层次结构更加有利于多任务并行决策；对于任意任务都拥有自己独立一组分层规则；为了量化分层规则对任务信息粒的严格程度，利用向量形式表示分层规则，严格程度则由向量的模长决定；分层规则如下定义：

公式(5)中

V_i是各决策属性下对应的值域，d表示对应的决策属性，α∈B表示任意条件属性子集，任何属性η其决策后值域为V_i ^η，{*}表示与当前规则无关的相应属性值，向量的模长由非*属性值的数量||χ||决定，即相关属性值越多代表该向量越大，同时也代表在该规则下信息粒越细；

Sp_i＝{U_i,B_i,D_i,V_i,f_i,L_i} (6)

公式(6)中U_i表示m_i对应的整个信息粒空间，即对应论域，B_i是条件属性集，D_i表示决策属性集，V_i是各决策属性下对应的值域，即对于任何属性η∈D_i，其决策后值域为V_i ^η，f_i表示决策函数集，每个属性都有其对应决策函数，即f_i:U_i×D_i→V_i，L_i为当前任务对应论域与其它任务中的相似信息粒集合；

步骤(2)基于深度Q学习的多任务协同实时决策算法，

利用深度Q学习的经验回放机制，以步骤(1)构造的层次化相容粒度空间模型为基础，设计在模型下运行的基于深度Q学习的多任务协同实时决策算法，以确保交通任务的实时性能；多任务协同实时决策依赖胶囊神经网络和长短期记忆网络结合的多任务学习网络，分别服务于各阶段的胶囊网络中和整个序贯决策阶段；

单阶段胶囊网络最底层的胶囊权重由信息粒在当前任务下的层级确定即可由公式(7)得到，定义任务m_i处于β阶段时的初始权重集合为