CN117709602B

CN117709602B - 一种基于社会价值取向的城市智能车辆拟人化决策方法

Info

Publication number: CN117709602B
Application number: CN202410162274.4A
Authority: CN
Inventors: 沈传亮; 张龙旭; 马骁远; 童言; 李熠; 李同济; 胡宏宇; 高镇海
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-05-17
Anticipated expiration: 2044-02-05
Also published as: CN117709602A

Abstract

本发明公开了一种基于社会价值取向的城市智能车辆拟人化决策方法，包括：步骤一、采集车辆的运动几帧位图；步骤二、构建CNN‑LSTM混合网络并将所述CNN‑LSTM混合网络的输出进行特征融合，将所述车辆的运动几帧位图输入所述CNN‑LSTM混合网络获得不同目标的预测SVO值，以反映其社会价值取向，包括自身利益、他人利益和合作倾向；步骤三、基于SACER建立城市工况下的智能车辆决策模型，生成预测的驾驶员行为，包括加速、减速、变道等行为，以在交通中更好地与其他车辆互动。本发明具有提高拟人性和安全性的特点。

Description

一种基于社会价值取向的城市智能车辆拟人化决策方法

技术领域

本发明涉及自动驾驶技术领域，更具体的是，本发明涉及一种基于社会价值取向的城市智能车辆拟人化决策方法。

背景技术

目前，自动驾驶技术正在迅速发展，但城市道路交通中的自动驾驶车辆仍然面临许多问题。其中最主要的问题之一是在城市环境中与其他人类驾驶员和行人互动时的社交适应性不足，传统的自动驾驶系统通常依赖于传感器数据和路标等信息来做出决策，但它们往往无法模拟人类驾驶员的社交行为和决策，这可能导致交通混乱和事故风险增加。

该问题的主要原因在于现有自动驾驶系统缺乏对驾驶员社会价值取向（SVO）的考虑，SVO可以量化为驾驶员对他人利益的偏好程度，这将对其交通行为产生深远影响，然而，目前的自动驾驶系统未能有效地集成SVO概念，导致它们无法在交通互动中适当地模拟人类驾驶员的行为。

近年来，一些研究尝试了将SVO概念引入自动驾驶系统，以实现更智能化的交通行为，然而，这些成果仍然局限于理论和实验阶段，尚未在实际城市交通环境中得到广泛应用。

中国专利文献CN114446049A提出了一种利用博弈论和社会价值取向来捕获交通流中车辆个体之间动态交互的方法，量化了驾驶车辆的自私性和利他性，并将这些参数融入到交通流预测中，以帮助预测驾驶车辆的行为。本发明有助于更稳定和有效地预测驾驶行为，同时考虑了驾驶员的社会价值取向。

中国专利文献CN115100866B提出了一种基于分层强化学习的车路协同自动驾驶决策方法，这个方法包括了通信消息生成器和解码器，以及基于通行子目标的协同规划和单车决策，在车辆与边缘设备之间的通信阶段，它使用自编码器来生成和解码消息，边缘计算节点整合来自所有车辆的消息，并形成共识，将短期通行任务分配给各个车辆，每辆车使用车载智能控制自己的驾驶动作，以完成边缘计算节点提供的短期通行目标。这种分层结构有助于实现多车协同驾驶决策，提高了解释性和协同效率。

中国专利文献CN115027461A公开了一种基于车联网的智能车辆无保护左转控制系统，该系统包括路端采集与输出模块、车载地图、数据接收模块、数据处理模块、智能控制模块以及车外预警模块，通过使用车联网技术，该系统实现了无保护左转，以防止碰撞并减少智能驾驶的成本，此外，还提供了一种基于车联网的智能车辆无保护左转控制方法，该方法根据道路结构划分左转区域，计算左转车辆通过这些区域所需的时间，并与对向来车到达停止线所需的时间进行比较，从而采取不同的控制措施，以预防左转碰撞的发生。

中国专利文献CN116300944A公开了一种基于改进Double DQN的自动驾驶决策方法，这个方法包括环境信息采集与预处理、仿真环境搭建、改进DoubleDQN神经网络的训练等步骤，通过这个方法，可以实时采集自动驾驶车辆周围的环境信息，对其进行预处理，然后在仿真环境中构建改进Double DQN神经网络，用于决策自动驾驶车辆的最优动作。这个方法通过引入目标网络组、采用双更新机制，改进了传统算法中因目标网络计算动作价值函数时可能出现的过估计问题，并提高了深度强化学习网络参数的更新效率。

现有技术在解决城市智能车辆社交适应性问题上存在一些问题。首先，现有方法往往只关注了部分SVO因素，没有充分考虑到驾驶员多样性；其次，目前的自动驾驶系统还不够智能化，无法在复杂城市交通场景中实现高度的社交适应性，此外，现有技术在交互优先级评价和碰撞安全性等方面仍有改进空间。

解决上述问题的难度在于需要开发一种综合性的系统，能够全面考虑驾驶员的SVO，并在实时交通场景中进行智能决策。

发明内容

本发明的目的是设计开发了一种基于社会价值取向的城市智能车辆拟人化决策方法，构建基于SVO的城市智能车辆拟人化决策系统，实现在不同城市交通情境下的社交适应性和安全性。

本发明提供的技术方案为：

一种基于社会价值取向的城市智能车辆拟人化决策方法，包括如下步骤：

步骤一、采集车辆的运动几帧位图；

步骤二、构建CNN-LSTM混合网络并将所述CNN-LSTM混合网络的输出进行特征融合，将所述车辆的运动几帧位图输入所述CNN-LSTM混合网络获得不同目标的预测SVO值；

步骤三、基于SACER建立城市工况下的智能车辆决策模型，生成预测的驾驶员行为；

所述城市工况下的智能车辆决策模型的输出为：

；

式中，表示在/>时刻的状态/>下采取的行动，/>表示策略网络/>在给定当前时刻状态/>的条件下选择动作/>的概率，/>表示动作采样的概率分布的均值，/>表示动作采样的概率分布的方差。

优选的是，所述CNN-LSTM混合网络包括一个CNN网路和一个LSTM网络。

优选的是，所述CNN网络包括依次连接的第一卷积层、第一激活函数层、第一最大池化层、第二卷积层、第二激活函数层、第二最大池化层、第三卷积层、第三激活函数层和第三最大池化层，且第一卷积层为32个过滤器，第二卷积层为64个过滤器，第三卷积层为128个过滤器，所述第一卷积层、第二卷积层和第三卷积层的过滤器尺寸均为3×3，所述第一激活函数层、第二激活函数层和第三激活函数层均为ReLU激活函数，所述第一最大池化层、第二最大池化层和第三最大池化层的窗口大小为2×2。

优选的是，所述LSTM网络包含256个单元。

优选的是，所述特征融合为全连接层，且所述全连接层包含512个神经元。

优选的是，所述LSTM网络还包括注意力机制；

所述注意力机制满足：

；

式中，为加权的特征表示，/>为注意力权重，/>为每个时间步的输出。

优选的是，所述CNN-LSTM混合网络的训练过程包括如下步骤：

步骤1、对数据集中的样本点进行预处理并对齐车辆的时间戳；

步骤2、计算不同样本点的实际SVO值：

；

式中，为实际SVO值，/>为他车的速度，/>为他车到冲突点的距离，/>为自车的速度，/>为自车到冲突点的距离；

步骤3、将样本点及其实际SVO值输入CNN-LSTM混合网络中，获得样本点的预测SVO值，将样本点的预测SVO值和实际SVO值进行对比，优化CNN-LSTM混合网络。

优选的是，所述城市工况下的智能车辆决策模型包括SAC网络和回合奖励重放。

优选的是，所述SAC网络的状态空间为车辆数据及道路状况；

所述SAC网络的动作空间为车辆的动作；

所述SAC网络的期望累计奖励函数满足：

；

式中，是不同奖励项的权重，/>，/>表示基于SVO值的奖励，/>表示速度奖励，/>表示决策时间奖励，/>表示碰撞奖励，这些奖励项共同构成了车辆决策的优化目标；

所述SAC网络的Q值网络损失函数满足：

；

式中，为第/>个Q值网络的损失函数，/>为/>时刻的每个元组目标值，/>为经验回放池中的抽样分组数，/>为在当前状态/>下执行动作/>的Q值，/>为Q值分类，；

Q值网络的更新满足：

；

式中，为第一Q值网络/>的损失函数，/>为第二Q值网络/>的损失函数，/>为Q值网络的学习率，/>是神经网络的参数；

所述SAC网络的策略网络损失函数满足：

；

式中，是策略网络的损失函数，/>是神经网络的参数，/>是策略网络的学习率，/>为神经网络的参数的导数；

所述策略网络的熵正则化系数满足：

；

式中，为依赖熵正则化系数的损失函数，/>为期望操作符，/>表示状态是从经验回放池/>中采样得到的，/>表示动作/>是根据当前策略网络/>和给定状态/>的概率分布采样得到的，/>为熵正则化项系数，H₀是目标熵。

优选的是，所述基于SVO值的奖励计算公式为：

；

式中，为下一时间步的SVO值，即预测的/>时刻的SVO值（由CNN-LSTM混合网络输出），/>为整合后的SVO序列，/>为轨迹的总时间步数。

本发明所述的有益效果：

（1）、本发明设计开发的一种基于社会价值取向的城市智能车辆拟人化决策方法，采用深度强化学习和传感器技术，构建基于SVO的城市智能车辆拟人化决策系统，实现在不同城市交通情境下的社交适应性和安全性，为城市智能车辆的发展提供创新解决方案，以应对现有技术的问题和缺陷。

（2）、本发明设计开发的基于社会价值取向的城市智能车辆拟人化决策方法，采用CNN检测图像或空间数据中的局部特征，并结合LSTM允许网络更好地处理SVO数据的时序性，从而使混合网络具有更强的预测和理解能力。

附图说明

图1为本发明所述基于社会价值取向的城市智能车辆拟人化决策方法的结构示意图。

图2为本发明所述社会价值取向的取向示意图。

图3为本发明所述SAC原理示意图。

图4为本发明所述城市工况下的智能车辆决策模型的参数。

图5为本发明所述的决策方法和现有决策方法的仿真测试对比数据。

具体实施方式

下面结合对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供的一种基于社会价值取向的城市智能车辆拟人化决策方法包括：

步骤一、采集车辆的运动几帧位图；

在本实施例中，通过车载传感器和通信设备收集城市交通环境的信息，包括道路状况、其他车辆位置和速度等；

步骤二、构建CNN-LSTM混合网络并将所述CNN-LSTM混合网络的输出进行特征融合，将所述车辆的运动几帧位图作为所述CNN-LSTM混合网络的输入，输出不同目标的预测SVO值，以反映其社会价值取向，包括自身利益、他人利益和合作倾向；

所述CNN-LSTM混合网络包括一个CNN用于空间特征提取和一个LSTM用于时间序列分析；

所述卷积神经网络（CNN）由三个卷积层构成，且在每个卷积层后接ReLU激活函数和2x2最大池化层，三个卷积层分别有32、64和128个过滤器，过滤器大小为3x3，三个卷积层负责检测图像或空间数据中的局部特征，例如自车位置、他车相对位置、交互方式、道路情况等，进行滑动窗口的计算，通过滤波器和池化层（Max Pooling）来提取出图像的特征，将其整合到高级特征映射中。

所述长短期记忆网络（LSTM）包含256个单元，处理位置和速度随时间的变化；

所述特征融合是通过一个全连接层完成，集成了CNN和LSTM的输出，该层拥有512个神经元，通过这一步将图像特征和时序特征整合，以使网络能够综合学习与SVO值相关的信息，这种融合提高了网络对数据的理解能力。

并且，在特征融合后引入注意力机制，通过注意力机制在不同时间步或空间位置上调整注意力权重，使网络更加关注与SVO值相关的重要信息。增强网络对数据的理解能力并提高SVO值的输出精度，具体来说，对LSTM输出的每个时间步进行注意力权重的计算，使用可学习的权重参数。将计算得到的注意力权重应用于LSTM输出，得到加权的特征表示。表示在预测SVO值时每个时间步的重要性，然后，网络根据这些权重将更多的“注意力”放在更重要的时间步上，这样可以使模型更关注于影响SVO预测的关键时刻，比如两车接近交叉点的瞬间。

具体的：

首先，通过一个全连接层或类似的结构对LSTM的每个时间步输出进行转换，得到一个中间表示/>；

然后，计算注意力权重，通常是通过/>与一个可学习的上下文向量/>的点积，然后应用softmax函数进行归一化：

；

式中，是求和符号的索引，代表所有可能的时间步，在分母中，对所有时间步/>的中间表示/>，与权重向量/>的点积的指数求和，以便对权重进行归一化；/>是指数函数，用于计算e（自然对数的底数，大约等于2.71828）的指数幂，在此公式中，它被用来对中间表示和上下文向量的点积/>进行非线性映射，/>是转置操作符，它表示当计算点积时，/>是一个列向量，而/>是其转置，即行向量。

最后，加权的特征表示是通过将每个时间步的输出/>与其对应的注意力权重/>相乘并求和得到：

。

其中，对所述CNN-LSTM混合网络进行训练：

以INTERACTION Dataset作为模型训练的数据集，从INTERACTION Dataset导入的原始数据包含各种车辆的运动参数，选取与智能决策相关的特征，并对特征数据进行预处理，筛选出车辆交互数据获取目前城市交通流数据。

其中，所述与智能决策相关的特征为车辆的位置坐标、速度和航向角，所述预处理是对数据进行清洗，去除异常值和不完整记录，并对缺失的数据进行插值或剔除，然后，确定交互场景特别是在未信号控制的交叉口，并通过车辆轨迹与交叉点的相对位置识别潜在的冲突点，确保数据集中的交互行为代表了真实的交通情况，最后，对齐数据集中两辆车的时间戳，以便为后续的行为分析和模型训练准备同步的数据序列。

在本实施例中，所述异常值是指数据波动较大，一般情况下以波动值在20%以外的均属于数据波动较大。

对预处理后的数据匹配价值取向标签，所述价值取向标签是通过分析车辆在交叉口的实际行为来完成的，即价值取向标签为实际SVO值，利他行为（如减速让行）或自利行为（如保持或增加速度）通过车辆对冲突点反应来分析并确定，计算实际SVO值的公式为：

；

通过这种方式，每个样本点都被赋予了一个准确的实际SVO值，作为混合网络训练的目标输出，用于评估和调整混合网络。

在训练过程中，采用监督学习方法，使用交叉验证来评估模型的泛化能力。

CNN-LSTM混合网络的输出是基于输入特征对车辆行为的预测，特别是预测的SVO值，它代表车辆在特定场景下的交互行为倾向，这个预测结果随后用于指导车辆的实际驾驶决策，例如调整车辆的速度以避免冲突；而CNN-LSTM混合网络的评估是通过将预测SVO值与真实的行为数据（实际SVO值）进行比较来完成的，同时也在多种不同的交通场景中测试模型的准确性和稳健性，确保其具有良好的泛化能力，通过这一系列的评估，可以持续优化和校准CNN-LSTM混合网络，以提高其在实际应用中的性能。

其中，对CNN-LSTM混合网络的优化主要是优化学习率、网络宽度和长度。

一般情况下，SVO值在[-π, π]的整个区间内，但考虑到一些SVO值可能与一般的驾驶任务不一致，因此在本实施例中对SVO的取值范围进行了限制，将其限定在[0, π/2]的区间内，如图2以圆形的一部分来展示SVO的取值范围，不同的SVO取值对应不同的社会行为：

当预测SVO值= 0时，代表个体主义者，只关注自身的结果，即按照本车驾驶员意图进行车辆行驶；

当预测SVO值= π/4时，代表合作主义者，同时考虑自身和他人的结果，即在本车基础上结合他车的驾驶情况进行车辆驾驶；

当预测SVO值= π/2时，代表利他主义者，只关注他人的结果，即只考虑他车的驾驶情况进行车辆驾驶；

但是在表示个体主义者、合作主义者和利他主义者的定值之间为渐变制，即一旦预测SVO值并不是代表具体含义的定值时，相较于其他值，偏向于哪个值即认定预测SVO值代表哪种行为。

SVO值被用作中间变量，以反映数据驱动的学习过程中的人类互动行为，在下述的奖励函数的一部分与SVO相关，用于惩罚车辆的SVO与自然驾驶数据集中相同时间步的SVO之间的误差，这有助于引导车辆实现类似于人类的互动行为。

步骤三、基于Soft Actor-Critic with Episode-replay Reward（SACER）建立城市工况下的智能车辆决策模型，生成预测的驾驶员行为，包括加速、减速、变道等行为，以在交通中更好地与其他车辆互动；

为了训练智能车辆决策策略，首先需要定义状态空间和动作空间，状态空间包括了车辆当前的状态，如位置、速度、周围车辆的信息等；动作空间包括了车辆可以采取的行动，例如加速、减速、转向等，这些空间的定义考虑了城市交通环境的复杂性。

具体的，状态空间根据不同目标的预测SVO值和环境数据构建，所述环境数据通过车辆的几帧位图获得，主要包括：道路状况和其他车辆数据等。

SACER算法具体包括：

在SAC（软演员评论家，Soft Actor-Critic）网络的基础上引入“Episode-replayReward”方法，SAC网络采用了一个四层的多层感知器（MLP）结构，每层有256个神经元，其中每一层后都跟随着非线性激活函数，由于可能会有负值因此使用的是LeakyReLU，以增加模型的表达能力，通过这样的设计，SAC网络能够学习复杂的功能映射，从而为智能车辆决策提供足够的模型复杂性和灵活性，对于SAC算法本身，它是一种基于演员-评论家框架的强化学习方法，旨在通过最大化预期奖励同时增加策略的熵来平衡探索与利用，SAC算法通过引入熵正则化项来鼓励策略多样性，即它不仅奖励高效能的行动，还奖励不确定性较高的行动，以此来探索更多可能的策略空间，从而在学习过程中避免过早收敛到局部最优解。

SAC网络被用于策略网络和Q值网络，所述策略网络采用了深度神经网络（DNN）结构，策略网络的输入是当前的状态，输出是根据预测SVO值生成的相应行动，具体而言，策略网络的输出是车辆在给定状态下采取各种行动的概率分布，这可以使用高斯分布参数化，其中均值和方差由网络输出，公式如下：

；

式中，表示在/>时刻的状态/>下采取的行动，/>表示策略网络/>在给定当前时刻状态/>的条件下选择动作/>的概率，/>表示动作采样的概率分布的均值，/>表示动作采样的概率分布的方差，它们由策略网络的输出确定。

策略网络通过与状态和SVO值相关的输入来学习生成适当的行动，以最大化期望累积奖励函数，在训练过程中，策略网络的参数/>通过反向传播逐渐调整，以提高策略在不同SVO值情况下的性能，这使得智能车辆可以根据当前的SVO值生成拟人化的决策策略，以应对不同的交通情况。

奖励信号是根据当前的SVO值以及车辆的行为生成，以鼓励车辆采取与SVO值一致的行动，奖励函数由多个部分组成，包括基于SVO的奖励、速度奖励和决策时间奖励等，具体的，所述期望累计奖励函数计算公式为：

；

式中，是不同奖励项的权重，初始值为经验值，其后在0-1之间优化调节，/>表示基于SVO值的奖励，/>表示速度奖励，/>表示决策时间奖励，/>表示碰撞奖励，这些奖励项共同构成了车辆决策的优化目标；

其中，基于SVO值的奖励计算公式为：

；

在SAC网路中使用两个Q值网络，分别记为和/>，从D（经验回放池）中抽样N个元组，对每个元组，计算计算目标值：

；

式中，为/>时刻的目标值，/>为折扣率，/>为熵正则化系数，/>为两个Q值网络对下一时间步/>的状态/>和动作/>的估计的最小值，为了减少估计的过度乐观；

计算损失函数：

；

式中，为第/>个Q值网络的损失函数，/>；

这两个网络的更新是通过以下的公式进行的：

；

式中，和/>分别是第一Q值网络/>和第二Q值网络/>的损失函数，/>为Q-Value网络的学习率，/>是神经网络的参数，/>为对第一Q值网络损失函数/>关于参数/>的梯度，/>为对第二Q值网络损失函数/>关于参数/>的梯度；

通过最小化这两个损失函数来更新Q-Value网络，从而更准确地估计动作的价值。

基于Q值网络，对策略网络进行优化，使用一个策略网络来输出智能车辆的动作，策略网络的更新通过以下公式进行：

；

式中，是策略网络的损失函数，/>是神经网络的参数，/>是策略网络的学习率，/>为神经网络的参数的导数，通过最大化这个损失函数来更新策略网络，以使智能车辆的策略更加优化。

优化策略网络的最后一步是更新熵正则化系数，使用了熵正则化来增加策略的探索性，熵正则化系数通过以下公式进行自动调整：

；

式中，为熵正则化系数/>的损失函数，/>为期望操作符，表示在给定的状态分布和策略下，随机变量的期望值，/>表示状态/>是从经验回放池/>中采样得到的，其包含有之前处理并存储的元组，/>表示动作/>是根据当前策略网络/>和给定状态/>的概率分布采样得到的，/>为策略网络/>在给定当前时刻状态/>的条件下选择动作/>的对数概率，/>是目标熵，通过最小化/>来自动调整/>的值，以控制策略的探索性，/>是熵正则化项系数学习率，用于控制/>更新的步长，/>是损失函数关于/>梯度，指示如何调整以/>最小化损失。

通过以上的步骤，在SACER算法中同时优化了Q-Value网络、策略网络和熵正则化系数，以使智能车辆的决策策略更加准确和高效，这些优化步骤的目标是最大化累积奖励，从而使策略网络能够学习到最优的决策策略。

以奖励函数来引导模型学习适当的驾驶决策，根据价值取向修正奖励函数，从而得到目前最优的决策。

在训练智能车辆的决策策略时，为了使模型更好地学习交互行为，引入了“Episode-replay Reward”方法（回合奖励重放方法），这个方法的目标是在整个交互过程结束后，重新评估每个时间步的奖励，以更好地指导模型的学习。

具体来说，这个方法在每个交互过程的结束时，建立一个单独的“Episode-replayReward”来存储整个过程中的状态转移元组，这种方法是经验回放池的升级版，将每次从环境中采样得到的四元组数据（状态、动作、奖励、下一状态）存储到回放缓冲区中，训练网络的时候再从回放缓冲区中随机采样若干数据来进行训练，这么做可以起到以下两个作用：使样本满足独立假设，在 MDP 中交互采样得到的数据本身不满足独立假设，因为这一时刻的状态和上一时刻的状态有关，非独立同分布的数据对训练神经网络有很大的影响，会使神经网络拟合到最近训练的数据上，采用经验回放可以打破样本之间的相关性，让其满足独立假设；二是提高样本效率，每一个样本可以被使用多次，十分适合深度神经网络的梯度学习，每当与环境交互时，新的状态转移元组都会被添加到这个缓冲区中，当一个交互过程结束后，可以获取整个过程的长期信息，然后可以重新计算“Episode-replay Reward”中每个时间步的奖励，新的奖励值将根据长期信息重新计算，并生成新的状态转移元组，然后将这些新的状态转移元组添加到整个RL框架的回放缓冲区中，当回放缓冲区中的元组数量超过最小值时，可以从中随机抽样一小批元组进行策略学习，一旦回放缓冲区达到最大容量，将采用先进先出策略来删除先前存储的元组。

即针对每个时间步，在Episode-replay Reward中，首先将与当前时间步/>对应的交互过程的最终信息（如交互的持续时间、冲突点等）获取并考虑，然后使用这些信息重新计算每个时间步/>的奖励/>、/>、/>和/>。这些奖励与交互行为的特征有关，包括交互的优先级、速度等，最后将重新计算的奖励与智能车辆在当前时间步/>的状态/>、动作/>、下一个状态/>一起存储在回放缓冲区中，用于策略网络的更新，这个过程的目标是更好地校正每个时间步的奖励，使其更符合实际交互过程的情况，从而提高策略网络的训练效果。

通过这种方式，智能车辆可以根据SVO值生成拟人化的决策策略，使其行为更符合实际交互过程的情况，从而提高策略网络的训练效果。

在实时决策过程中，策略网络被用来生成智能车辆的动作，策略网络的输入是当前状态/>，根据策略网络生成的动作/>来决定智能车辆的行为，在每个时间步/>，策略网络根据当前状态/>输出一个动作分布，通常建模为一个高斯分布，具有均值和方差，智能车辆根据生成的动作分布随机采样出一个动作，然后执行该动作，从而实现实时决策，这个过程通过策略网络实现，使智能车辆能够在每个时间步根据当前情况灵活地做出决策。

通过上述的方式，SACER算法实现了智能车辆的实时决策，确保了智能车辆能够根据交互过程中的具体情况在每个时间步做出适当的决策。这有助于提高智能车辆的社交互动行为的拟人性和安全性。

通过训练，策略网络逐渐优化，使智能车辆的行为逐渐接近SVO值所反映的人类驾驶员行为，优化后的策略网络可以根据不同的SVO值生成不同的拟人化策略，以应对不同的交通情况，一旦策略网络训练完成，智能车辆可以根据当前的状态和SVO实时生成拟人化的决策，包括加速、减速、转弯等，以适应城市交通环境的变化。

如图3所示，结构图描述了系统内部组件之间的信息流和相互作用，本发明所述的城市工况下的智能车辆决策模型的交互过程主要包括三个主要组件：环境、学习、和策略网络，系统首先通过环境来获取当前状态，然后在交互子系统中选择动作/>并获得奖励/>，随后，系统更新策略网络/>以生成更好的决策策略，同时还更新Q值网络/>和/>以更好地估计每个状态-动作对的价值，策略网络和Q值网络之间的互动通过梯度下降来实现，以优化策略和提高决策的性能，此外，系统还根据奖励信号来更新策略网络和Q值网络之间的熵正则化参数/>，以平衡探索和利用，并且每个状态都有一个关联的下一个状态/>，这些不同的/>代表了在不同时间步骤上的状态转换，智能体根据当前状态/>和所选择的动作/>来观察到不同的下一个状态/>，这些状态转换是强化学习算法的核心，用于学习智能体的策略和价值函数。

在智能车辆决策模型的部署阶段，对交互优先级进行评价，验证模型的性能，包括位置误差计算等，在本实施例中，在仿真测试平台（Highway-env 1.6）上使用优先级准确率、轨迹长度误差、碰撞次数进行判断，最后收集实际执行决策策略的结果和交互信息，将这些信息反馈到系统中，用于训练模型的不断优化和改进。

结合具体数据对本发明的效果作进一步说明：

现有自动驾驶方案往往采取非常保守的策略，主要考虑碰撞回避和遵守交通规则，这可能导致车辆采取过于谨慎的行为，从而导致交通堵塞或交通效率低下；通过SVO模型，自动驾驶车辆可以更好地理解其他驾驶者的价值观和意图，这意味着在某些情况下，车辆可以采取更主动的行动，如加速、避让或合作，以提高交通流畅性和减少交通拥堵，这种拟人化的决策可能会更好地模仿人类驾驶者的行为，从而改善城市交通的效率和安全性。

为了验证本发明提出的决策方法，在INTERACTION数据集中测试了算法的决策能力，场景选为十字路口右转情况，利用数据集提供的相关车辆的轨迹数据，设定城市工况下的智能车辆决策模型的参数如图4所示，用于调优和指导智能车辆决策模型的学习过程。策略网络的学习率设定为0.0001，用于控制策略网络权重更新的速率；Q值网络的学习率设定为0.001，这决定了价值网络在学习过程中更新的速度；熵正则化系数的学习率设定为0.0001，用于调整策略的探索程度；折扣率设定为0.99，用于计算未来奖励的当前价值；软更新参数设定为0.005，控制目标网络参数更新的速率；目标熵H0设定为-2，这是熵正则化中期望策略熵的值，这个值一般为动作空间的负数；训练的总回合数设定为35000，确保有足够的学习周期来优化策略；缓冲区大小设置为100000，用来存储经验回放中的转换；缓冲区最小大小设置为1000，这是开始学习前缓冲区中需要的最小样本数；批处理大小设定为512，这是每次学习更新中使用的样本数量；模拟频率和策略频率都设定为10，分别指每秒钟的模拟次数和策略更新频率。

将本发明提出的基于SVO的决策方法与基本的决策方法进行对比，如图5所示。

图5显示了不同模型在训练和测试阶段的性能比较，三种模型分别是BC（基于监督学习的模型），SACER-V（将SVO奖励替换为速度偏差的模型）和SACER-SVO（使用SVO来引导策略的模型），表格中的指标包括优先级准确度（Priority Accuracy），剧集长度误差（Episode Length Error）以及碰撞次数（Collision Times）。

从表格可以看出，在训练阶段，SACER-SVO模型在优先级准确度方面表现最佳，达到了83.86%，远高于BC和SACER-V；此外，SACER-SVO模型在剧集长度误差方面也表现良好，相对较低，与BC和SACER-V相比，它的性能更接近于实际情况；在训练阶段，SACER-SVO模型只发生了1次碰撞，与BC相比具有更好的安全性。

在测试阶段，SACER-SVO模型同样表现出色，其优先级准确度和剧集长度误差仍然优于其他模型，而且，SACER-SVO和SACER-V在测试阶段都只发生了1次碰撞，而BC则没有发生碰撞，然而，需要注意的是SACER-SVO模型在测试阶段的优先级准确度达到了96.12%，这是最高的，说明它在模拟人类交互行为方面表现出色。因此，这个表格清楚地表明，使用SVO的SACER-SVO模型在模拟智能车辆决策中的人类社交行为时具有更出色的性能。

本发明设计开发的一种基于社会价值取向的城市智能车辆拟人化决策方法，考虑交通安全、效率和社会价值等因素，与其他车辆协调行动，确保了智能车辆能够根据交互过程中的具体情况在每个时间步做出适当的决策，这有助于提高智能车辆的社交互动行为的拟人性和安全性，以实现更人性化的交通行为。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的实施例。

Claims

1.一种基于社会价值取向的城市智能车辆拟人化决策方法，其特征在于，包括如下步骤：

步骤一、采集车辆的运动几帧位图；

所述CNN-LSTM混合网络包括一个CNN网络和一个LSTM网络；

所述CNN网络包括依次连接的第一卷积层、第一激活函数层、第一最大池化层、第二卷积层、第二激活函数层、第二最大池化层、第三卷积层、第三激活函数层和第三最大池化层，且第一卷积层为32个过滤器，第二卷积层为64个过滤器，第三卷积层为128个过滤器，所述第一卷积层、第二卷积层和第三卷积层的过滤器尺寸均为3×3，所述第一激活函数层、第二激活函数层和第三激活函数层均为ReLU激活函数，所述第一最大池化层、第二最大池化层和第三最大池化层的窗口大小为2×2；

所述CNN-LSTM混合网络的训练过程包括如下步骤：

步骤2、计算不同样本点的实际SVO值：

；

步骤3、将样本点及其实际SVO值输入CNN-LSTM混合网络中，获得样本点的预测SVO值，将样本点的预测SVO值和实际SVO值进行对比，优化CNN-LSTM混合网络；

所述城市工况下的智能车辆决策模型的输出为：

；

式中，表示在/>时刻的状态/>下采取的行动，/>表示策略网络/>在给定当前时刻状态/>的条件下选择动作/>的概率，/>表示动作采样的概率分布的均值，/>表示动作采样的概率分布的方差；

所述城市工况下的智能车辆决策模型包括SAC网络和回合奖励重放；

所述SAC网络的状态空间为车辆数据及道路状况；

所述SAC网络的动作空间为车辆的动作；

所述SAC网络的期望累计奖励函数满足：

；

所述SAC网络的Q值网络损失函数满足：

；

式中，为第/>个Q值网络的损失函数，/>为/>时刻的每个元组目标值，/>为经验回放池中的抽样分组数，/>为在当前状态/>下执行动作/>的Q值，/>为Q值分类，/>；

Q值网络的更新满足：

；

式中，为第一Q值网络/>的损失函数，/>为第二Q值网络/>的损失函数，/>为Q值网络的学习率，/>是神经网络的参数，/>为对第一Q值网络损失函数/>关于参数/>的梯度，/>为对第二Q值网络损失函数/>关于参数/>的梯度；

所述SAC网络的策略网络损失函数满足：

；

所述策略网络的熵正则化系数满足：

；

式中，为依赖熵正则化系数的损失函数，/>为期望操作符，/>表示状态/>是从经验回放池/>中采样得到的，/>表示动作/>是根据当前策略网络/>和给定状态/>的概率分布采样得到的，/>为熵正则化项系数，H₀是目标熵。

2.如权利要求1所述的基于社会价值取向的城市智能车辆拟人化决策方法，其特征在于，所述LSTM网络包含256个单元。

3.如权利要求2所述的基于社会价值取向的城市智能车辆拟人化决策方法，其特征在于，所述特征融合为全连接层，且所述全连接层包含512个神经元。

4.如权利要求3所述的基于社会价值取向的城市智能车辆拟人化决策方法，其特征在于，所述LSTM网络还包括注意力机制；

所述注意力机制满足：

；

5.如权利要求4所述的基于社会价值取向的城市智能车辆拟人化决策方法，其特征在于，所述基于SVO值的奖励计算公式为：

；

式中，为下一时间步的SVO值，即预测的/>时刻的SVO值，/>为整合后的SVO序列，/>为轨迹的总时间步数。