CN113609777A

CN113609777A - 一种基于车载感知设备的车辆行为分析方法与装置

Info

Publication number: CN113609777A
Application number: CN202110916270.7A
Authority: CN
Inventors: 李贺; 余荣; 谭北海; 韩晓岚; 黄泽茵; 李培春
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-05
Anticipated expiration: 2041-08-11
Also published as: CN113609777B

Abstract

本发明公开了一种基于车载感知设备的车辆行为分析方法，通过联合训练方法设计车辆行为分析算法，将算法嵌入到车载感知设备中，从而实现车辆行为分析。联合训练的行为分析算法设计为通过联邦学习在多场景下进行端到端的深度强化学习训练，学习自动驾驶策略，可使驾驶评估结果更为综合全面，避免构建模型时需要大量数据迭代的问题以及驾驶信息的泄露；本方法提出了基于安全度、舒适性和经济开销的多维度行为分析算法，通过该分析算法可以对车辆的行为进行分析，实现驾驶行为评估与安全预警。

Description

一种基于车载感知设备的车辆行为分析方法与装置

技术领域

本发明涉及深度学习和车辆安全领域，具体涉及一种基于车载感知设备的车辆行为分析方法与装置。

背景技术

随着交通网络的日益拓展和汽车产品的普及，城市道路交通安全问题也愈加突出。同时，近年来车联网技术的飞速发展为驾驶行为评估的研究领域提供了新的机遇和解决方案。车联网技术的目的是建立一个包含道路上车辆、基础设施和行人等要素的网络，因此需要对司机的驾驶行为进行识别，从而对驾驶好坏进行评估，提高交通安全性。

驾驶行为的识别一般分为两种模式，一种是人工分析判别，另一种是驾驶行为的智能分析。现有的驾驶行为识别评估方法主要是基于大量驾驶数据建立驾驶行为模型，将实时驾驶信息输入到模型中进行分析以获得分析结果。而这需要收集大量驾驶行为、驾驶环境数据作分析，以实现对驾驶行为及环境的感知，目前驾驶行为分析的数据来源主要分为以下三种：

一是在车载摄像头采集的视频流中捕获图像，并对图像进行变换预处理，从而获取必要的道路状况、驾驶行为车速以及加速度等数据信息。二是通过传感器测量车辆的三轴加速度、速度、转向曲径等用于分析司机驾驶方式。三是基于CAN总线获取车辆速度、转向幅度、加速度、油耗、刹车力度、GPS定位等车辆运行信息数据。然而，此类方法只考虑相关速度变化率等因素，通过车辆内部信息分析，缺少当前环境、交通安全及行人等因素，评估考虑不全面，应用高价值低。

目前对行车进行分析的主要方案为收集到相关的驾驶行为数据后，使用神经网络(例如，径向基函数)，采集实际车辆测试数据，为每个要评估的驾驶员建立个性化驾驶模型，并将驾驶员的驾驶行为分为冲动、温和、保守三种类型。然后，用建立的驾驶模型来执行模拟标准驾驶的循环测试，提取各个驾驶员的驾驶特征，分析评估驾驶风格。同时，也有一种基于大数据技术的驾驶行为分析和评估方法，利用逻辑回归分析大量驾驶数据，运用层次分析法和熵权分析技术来评估驾驶数据，并使用输出分数来表示驾驶模式水平的好坏，可以根据驾驶行为得分来调整估计车辆轨迹并预测。然而，现有方法模型训练的过程要用大量数据迭代，训练出一个正确的驾驶模型需要耗费较大的资源成本。

同时，现有的驾驶行为评估算法与司机行为、驾驶习惯等信息紧密联系，根据这些信息可以很容易地推断出用户的位置信息、交通信息、机动车信息、环境信息等，这引起了严重敏感的个人隐私问题，但目前缺少能够提供有效保护措施的技术解决方案。

发明内容

本发明的目的是提供一种基于车载感知设备的车辆行为分析方法与装置，用以克服现有评估方法不够全面、大量数据迭代以及隐私安全等问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于车载感知设备的车辆行为分析方法，包括：

步骤1，对驾驶策略模型进行初始化；所述驾驶策略模型为建立在不同客户端中的神经网络模型，并对各客户端进行分组编号；

步骤2，各客户端在各自的驾驶环境中通过强化学习算法进行驾驶策略模型的训练，每训练设定的轮次后，将模型的参数更新返回服务器；客户端更新迭代的方式如下：

其中，k为客户端编号、η为学习率、w^k为第k个驾驶策略模型的权重参数，

是第k个驾驶策略模型的参数梯度；

步骤3，服务器对所有客户端返回的模型参数进行加权平均，得到聚合后的参数：

其中，n为参数总数，n_k为第k个客户端的参数总数，K为客户端的数量；

步骤4，将聚合后的参数下发给各个客户端，循环步骤2-3，直至训练结束，获得联合训练驾驶策略模型；

步骤5，将联合训练的驾驶策略模型，作为行为分析基准；基于该基准，从车辆中获取驾驶数据，并对数据进行分析处理，将车辆当前的数据与设定的基准数据从安全度、舒适度、经济开销三个维度全面分析车辆的行为，得到车辆行为分析打分，从而分析评估车辆行为；其中：

安全度评估公式如下：

其中，s_s为安全度评估分数，L_P为车辆到路边基线的距离，L_R为路面的宽度，θ_b为驾驶基准车辆的前向速度与道路中轴线的夹角，θ为被评估车辆的前向速度与道路中轴线的夹角，V_bx为评估车辆的前向行驶速度，V_max为车辆最高限速，V_x表示驾驶基准车辆的前向行驶速度，

φ为评分权重；

车辆舒适度评估公式如下：

Z＝|V_bz-V_z|

其中，V_bz为驾驶基准车辆垂直地面方向的行驶速度，V_z被评估车辆垂直地面方向的行驶速度，S_C为舒适度评估分，e为自然对数底数，A_acct为被评估车辆的当前加速度，A_bacct为驾驶基准车辆的当前加速度，A_max为车辆最大加速度，k为比例系数；

燃油经济评估公式如下：

Y＝|V_by-V_y|

其中，S_P为经济开销评估分，V_by为驾驶基准车辆横向行驶速度，V_y为被评估车辆横向行驶速度，ξ为比例系数，用来表示各部分占的评估分数比值；

则最终被评估车辆行为分析打分S如下：

S＝100*(αS_s+βS_c+(1-α-β)S_p)

其中，α、β为设定的比例系数。

进一步地，所述通过强化学习算法进行驾驶策略模型的训练的过程如下：

2.1通过预设的权重初始化当前策略网络与目标策略网络、当前评论网络与目标评论网络以及经验回放池；其中，经验回放池初始化置空；

2.2根据当前策略网络选择动作

选择动作的是策略网络，根据当前环境状态产生动作：

a_t＝μ(s_t|θ^μ+N_t)

其中，a_t为输出动作、μ为权重、s_t为环境状态、N_t为噪声；

2.3保存经验到回放池。

将当前训练的(s_t，a_t，r_t，s_t+1)保存到经验回放池R，供后续的随机采样；其中，s_t为当前状态、a_t为动作、r_t为获得奖励、s_t+1为终结信号；

从经验回放池R中随即采集样本R_i(s_i，a_i，r_i，s_i+1)，设置：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中，y_i为输出、r_i为获得奖励、γ为更新参数、Q′为目标策略网络、s_i+1为下一个状态、μ′为目标评论网络、θ^μ′、θ^Q′为目标评论网络、目标策略网络的权重参数；

2.4更新当前评论网络

更新当前评论网络的目的是失损失最小，更新公式为：

其中，L为损失值、N为数量、y_i为输出、Q为当前策略网络、s_i为状态、a_i为动作、θ^Q为预设权重参数；

2.5更新目标网络

采取缓慢更新的方式，按照如下公式进行参数更新：

w′←τs+(1-τ)w′

θ′←τθ+(1-τ)θ′

其中，w′、w分别为目标评论网络、当前评论网络的权重参数，τ为网络更新参数，θ′、θ为目标策略网络、当前策略网络的学习参数；

2.6重复步骤2.2-2.5，直至训练完毕。

进一步地，所述基准数据通过驾驶基准车辆进行获取。

进一步地，燃油经济评估中，主要考虑两大因素，一是车辆的行驶距离应选择更短的路程，其次是应尽该减少车辆急加速、急减速的行为。

进一步地，得到最总的分析打分S后，通过设定不同的打分区间来判断被评估车辆当前的驾驶风格，以实现驾驶行为评估与安全预警。

一种基于车载感知设备的车辆行为分析装置，包括：

初始化模块，用于对驾驶策略模型进行初始化；所述驾驶策略模型为建立在不同客户端中的神经网络模型，并对各客户端进行分组编号；

训练模块，用于各客户端在各自的驾驶环境中通过强化学习算法进行驾驶策略模型的训练，每训练设定的轮次后，将模型的参数更新返回服务器；

聚合模块，用于使服务器对所有客户端返回的模型参数进行加权平均，得到聚合后的参数；

模型生成模块，用于将聚合后的参数下发给各个客户端，循环训练模块和聚合模块中的过程，直至训练结束，获得联合训练驾驶策略模型；

分析评估模块，用于将联合训练的驾驶策略模型，作为行为分析基准；基于该基准，从车辆中获取驾驶数据，并对数据进行分析处理，将车辆当前的数据与设定的基准数据从安全度、舒适度、经济开销三个维度全面分析车辆的行为，得到车辆行为分析打分，从而分析评估车辆行为。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现前述基于车载感知设备的车辆行为分析方法的步骤。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现前述基于车载感知设备的车辆行为分析方法的步骤。

与现有技术相比，本发明具有以下技术特点：

本方法主要采用深度强化学习来训练自动驾驶策略模型，以此作为本方法最终的驾驶行为评估基准模型，在该过程中会使用联邦学习在多种环境下联合生成泛化性以及适用性极强的驾驶行为分析模型。同时创新性地提出驾驶安全度、舒适性、经济开销三个方面多维度评估算法分析司机驾驶行为，最后将以联合强化学习增强的驾驶基准与司机实际驾驶行为进行比对分析。

与现有技术相比，本发明具有以下技术特点：

本方法使用端到端的模型训练方法。该模型可以直接将现实状态下的车辆周围状况输入端到端模型中得到正确的应该采取的驾驶动作，使模型建立无需依赖于大量数据计算，大大降低了定义一个正确的驾驶策略模型需要花费大量的人力资源成本。

本设计采取联邦学习算法对模型进行联合训练。得到适应性和泛化性极强的驾驶基准模型，并取得了较好的驾驶效果，为驾驶评估提供可靠的评估标准。同时能够避免驾驶员信息、驾驶习惯等的泄露。

本设计提出多维度的驾驶行为评估算法。从安全度、舒适度、经济开销三个维度对驾驶行为进行评估，在驾驶行为的评估中考虑更多因素。与现有的仅仅通过加速度变化率来分析驾驶好坏的方法相比，评估结果更具有客观性和完整性。

附图说明

图1为联邦学习的流程示意图；

图2为DDPG—Actor-Critic简图。

具体实施方式

本发明意在从多维度对驾驶行为进行评估，分别定义了安全度、舒适度、经济开销三个维度作为驾驶好坏的评估标准，可使驾驶评估结果更为综合全面；运用基于端到端的模型训练方法，可避免构建模型时需要大量数据迭代的问题；采取联邦学习算法对模型进行联合训练，可在训练适用多种环境模型的同时，有效避免驾驶信息的泄露，保护用户行车隐私安全。

本方法首先使用了联合强化学习训练得到一种正确的行车策略，然后基于该策略制定了多维度行车分析算法，可对司机驾驶行为进行评估分析。本方法的主要步骤为借助联邦学习方法，在多种场景下进行驾驶策略模型的联合训练。其中在每种场景中都各自进行深度强化学习训练，经过训练迭代优化，得到优化后的驾驶策略模型，实现了多个智能体在多种环境中进行端到端训练的同时，借助联邦平均算法对多场景模型进行聚合，多次迭代训练获得适用于多种场景的驾驶策略模型；最后本方法设计了多维度的行为分析算法，基于该算法在实际应用中可以将特定场景下司机的驾驶策略与以上训练的模型的驾驶策略进行对比分析，评估驾驶行为。该方法主要解决两方面问题：一、如何评价司机驾驶行为的重要性；二、如何将模型适应在多场景下。使用该方法增强的驾驶基准模型在多种道路模型中进行测试，取得了较好的驾驶效果，模型适应性和泛化性强。

参见附图，本发明的一种基于车载感知设备的车辆行为分析方法，包括以下步骤：

步骤1，对驾驶策略模型进行初始化；所述驾驶策略模型为建立在不同客户端中的神经网络模型，并对各客户端进行分组编号。

在本方法中，各个客户端分别初始化驾驶策略模型，每个客户端拥有相同的初始化模型。

步骤2，各客户端在各自的驾驶环境中通过强化学习算法进行驾驶策略模型的训练，每训练设定的轮次后，将模型的参数更新返回服务器；在本方法中，客户端更新迭代的方式如下：

其中，k为客户端个数及其编号、η为学习率、w^k为第k个驾驶策略模型的权重参数，

是第k个驾驶策略模型的参数梯度。

该步骤采用深度强化学习实现了端到端的驾驶策略模型训练，可以直接将现实状态下的车辆周围状况输入到训练得到的端到端模型中，模型直接得到输出给出下一步驾驶措施，即正确的应该采取的驾驶动作，无需收集大量数据即可对驾驶行为进行有效评估分析。

其中，通过强化学习算法进行驾驶策略模型的训练的过程如下：

2.1初始化当前策略网络与目标策略网络、当前评论网络与目标评论网络以及经验回放池。

首先通过预设权重θ^Q、θ^μ随机初始化当前策略网络Q和当前评论网络μ，然后初始化目标策略网络Q′和目标评论网络μ′，经验回放池初始化置空。

2.2根据当前策略网络选择动作。

在本方法中，选择动作的是策略网络，根据当前环境状态产生动作：

a_t＝μ(s_t|θ^μ+N_t)

其中，a_t为输出动作、μ为权重、s_t为环境状态、N_t为噪声。

2.3保存经验到回放池。

在本方法中，特别地设计了一个经验回放池，将当前训练的(s_t，a_t，r_t，s_t+1)(s_t为当前状态、a_t为动作、r_t为获得奖励、s_t+1为终结信号)保存到经验回放池R，供后续的随机采样。该方法避免了训练过程中数据直接时序依赖的问题，保证训练最优化。

从经验回放池R中随即采集样本R_i(s_i，a_i，r_i，s_i+1)，样本中各参数含义为当前状态、动作、获得奖励、终结信号；设置：

y_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)

其中，y_i为输出、r_i为获得奖励、γ为更新参数、Q′为目标策略网络、s_i+1为下一个状态、μ′为目标评论网络、θ^μ′、θ^Q′为目标评论网络、目标策略网络的权重参数。

该步骤中设计了一种基于经验回放池的联邦学习，在智能体每执行一个动作后，都会将当前状态、采取动作、获得奖励、仿真器终止信号、下一状态存放进回放池，在每次训练时会从回放池中随机取出部分数据进行训练。借助于该经验回放池，我们在训练中将多种场景下的数据全部存储到一个经验回放池，供其他场景进行采样学习，最终达到联合学习的效果。

2.4更新当前评论网络。

更新当前评论网络的目的是失损失最小，当前评论网络更新方法可展开为：

其中，L为损失值、N为数量、y_i为输出、Q为当前策略网络、s_i为状态、a_i为动作、θ^Q为预设权重参数。

2.5更新目标网络。

在本方法中，采取缓慢更新的方式，即按照如下公式进行参数更新：

w′←τw+(1-τ)w′

θ′←τθ+(1-τ)θ′

其中，w′、w分别为目标评论网络、当前评论网络的权重参数，τ为网络更新参数，θ′、θ为目标策略网络、当前策略网络的学习参数。

2.6重复步骤2.2-2.5，直至训练完毕。

步骤3，服务器对所有客户端返回的模型参数进行加权平均，得到聚合后的参数；在本方法中，加权平均参考联邦平均算法进行参数聚合：

其中，n为参数总数，n_k为第k个客户端的参数总数，K为客户端的数量。

本发明中使用联邦平均算法对多种环境下训练的模型进行聚合，使用该方法对驾驶策略模型进行联合训练，可以获得适应性和泛化性更强的模型。同时，训练过程中充分借助联邦学习算法的隐私保护特性保证训练过程中各环境下用户的隐私不被泄露。

步骤4，将聚合后的参数下发给各个客户端，循环步骤2-3，直至训练结束，获得联合训练驾驶策略模型；具体流程图附录图1所示。

步骤5，将联合训练的驾驶策略模型，作为本方法的行为分析基准；基于该基准，从车辆中获取多种驾驶数据，并对数据进行分析处理，将车辆当前的数据与设定的基准数据从安全度、舒适度、经济开销三个维度全面分析车辆的行为，得到车辆行为分析打分，从而评估车辆行为。其中，所述基准数据通过驾驶基准车辆进行获取；三大维度的评估算法如下：

安全度评估公式如下：

φ为评分权重。

车辆舒适度评估公式如下：

Z＝|V_bz-V_z|

其中，V_bz为驾驶基准车辆垂直地面方向的行驶速度，V_z被评估车辆垂直地面方向的行驶速度，S_C为舒适度评估分，e为自然对数底数，A_acct为被评估车辆的当前加速度，A_bacct为驾驶基准车辆的当前加速度，A_max为车辆最大加速度，k为比例系数，用于决定两部分的评估分数占比。

燃油经济评估中，主要考虑两大因素，一是车辆的行驶距离应选择更短的路程，其次是应尽该减少车辆急加速、急减速的行为；燃油经济评估公式如下：

Y＝|V_by-V_y|

其中，S_P为经济开销评估分，V_by为驾驶基准车辆横向行驶速度，V_y为被评估车辆横向行驶速度，ξ为比例系数，用来表示各部分占的评估分数比值；其余参数含义同前。

则最终被评估车辆行为分析打分S如下：

S＝100*(αS_s+βS_c+(1-α-β)S_p)

其中，α、β为设定的比例系数，用来控制三个维度得分占的权重。

得到最总的分析打分S后，可通过设定不同的打分区间来判断被评估车辆当前的驾驶风格，例如冲动、温和、保守等，以实现驾驶行为评估与安全预警。

该步骤中，分别定义了安全度、舒适度、经济开销三个维度的评估分数计算方法并作为驾驶行为评估标准，对驾驶行为各维度的表现进行综合考虑。

根据本发明的另一方面，提供了一种基于车载感知设备的车辆行为分析装置，包括：

需要说明的是，上述各个模块的具体功能和相关解释参见前述方法实施例中对应的步骤1至步骤5，在此不赘述。

本申请实施例进一步提供一种终端设备，该终端设备可以为计算机、服务器；包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于车载感知设备的车辆行为分析方法的步骤，例如，前述的步骤1至步骤5。

计算机程序也可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程，例如，计算机程序可以被分割为初始化模块、训练模块、聚合模块、模型生成模块和分析评估模块，各模块的功能参见前述装置中的描述，不再赘述。

本申请的实施提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述基于车载感知设备的车辆行为分析方法的步骤，例如，前述的步骤1至步骤5。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。