CN112733818B

CN112733818B - 基于注意力机制的车灯状态识别方法、装置、终端和介质

Info

Publication number: CN112733818B
Application number: CN202110337076.3A
Authority: CN
Inventors: 程飞洋; 郑伟; 杨广; 刘国清
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co.,Ltd.
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-08-13
Anticipated expiration: 2041-03-30
Also published as: CN112733818A

Abstract

本申请涉及智能驾驶技术领域，提供了一种基于注意力机制的车灯状态识别方法、装置、终端和介质。本申请能够精确预测图像序列整体表征的车灯状态。方法包括：通过车灯状态识别模型的第一编码器提取图像序列中每相邻两帧所表征的帧间图像编码特征，基于局部空间注意力对各编码特征分别进行加权后分别拆分成两部分编码特征，通过模型的第二编码器获取两部分各自的全局编码特征，将该两部分各自的全局编码特征融合为与车灯状态类别相适配的基础全局特征，基于全局空间注意力对各基础全局特征进行加权后再基于时间注意力对各空间加权的基础全局特征进行加权，将各时空加权的基础全局特征依序拼接后输入相应车灯状态分类器得到图像序列表征的车灯状态。

Description

基于注意力机制的车灯状态识别方法、装置、终端和介质

技术领域

本申请涉及智能驾驶技术领域，特别是涉及一种基于注意力机制的车灯状态识别方法、装置、车载终端和存储介质。

背景技术

车灯状态能够反映包括前方车辆和周边车道车辆的行驶状态，例如：前方车辆的刹车灯亮起时需及时采取减速措施避免追尾、周边车道车辆发出转向灯信号时需注意减速让其顺利变道、前方车辆因发生故障而打开应急闪光灯时需注意减速绕行等。

在具体应用中，例如在开发高级辅助驾驶系统以及更高级的自动驾驶系统的过程中，自适应巡航控制（Adaptive Cruise Control，ACC）功能须具备识别车灯状态的能力，从而在周边车辆通过车灯发出减速、变道或故障信号时，能够及时采取措施以避免交通事故的发生，使开发的智能驾驶系统具备适应复杂多变的道路驾驶环境的能力。

传统技术所提供的车灯状态识别方案需先进行车灯定位再根据车灯的亮灭状态分类分析车灯状态。然而，这种方式通常难以适应复杂多变的道路驾驶环境，且车灯设计形式层出不穷，导致其对车灯区域分割定位极其困难，存在对车灯状态识别的准确度低的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于注意力机制的车灯状态识别方法、装置、车载终端和存储介质。

一种基于注意力机制的车灯状态识别方法，所述方法包括：

获取包含待识别车辆的图像序列；

通过预先构建的车灯状态识别模型中的第一编码器获取由所述图像序列中每相邻两帧图像表征的帧间图像编码特征；

利用对各帧间图像编码特征进行局部空间注意力计算得到的局部空间注意力计算结果对所述各帧间图像编码特征进行加权；

针对由各加权帧间图像编码特征拆分的第一组成部分编码特征和第二组成部分编码特征，通过所述车灯状态识别模型中的第二编码器获取对应组成部分的全局编码特征，得到所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征；

将所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征融合为与车灯状态类别相适配的基础全局特征；

利用对各基础全局特征进行全局空间注意力计算得到的全局空间注意力计算结果对所述各基础全局特征进行加权，得到各空间加权的基础全局特征；

利用对所述各空间加权的基础全局特征进行时间注意力计算得到的时间注意力计算结果对所述各空间加权的基础全局特征进行加权，得到各时空加权的基础全局特征；

将所述各时空加权的基础全局特征依序拼接后输入至所述车灯状态识别模型中的与所述车灯状态类别相对应的车灯状态分类器，得到所述车灯状态分类器输出的由所述图像序列表征的所述待识别车辆的车灯状态。

一种基于注意力机制的车灯状态识别装置，包括：

图像序列获取模块，用于获取包含待识别车辆的图像序列；

帧间特征获取模块，用于通过预先构建的车灯状态识别模型中的第一编码器获取由所述图像序列中每相邻两帧图像表征的帧间图像编码特征；

局部加权处理模块，用于利用对各帧间图像编码特征进行局部空间注意力计算得到的局部空间注意力计算结果对所述各帧间图像编码特征进行加权；

组分特征获取模块，用于针对由各加权帧间图像编码特征拆分的第一组成部分编码特征和第二组成部分编码特征，通过所述车灯状态识别模型中的第二编码器获取对应组成部分的全局编码特征，得到所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征；

组分特征融合模块，用于将所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征融合为与车灯状态类别相适配的基础全局特征；

全局加权处理模块，用于利用对各基础全局特征进行全局空间注意力计算得到的全局空间注意力计算结果对所述各基础全局特征进行加权，得到各空间加权的基础全局特征；

时间加权处理模块，用于利用对所述各空间加权的基础全局特征进行时间注意力计算得到的时间注意力计算结果对所述各空间加权的基础全局特征进行加权，得到各时空加权的基础全局特征；

分类器识别模块，用于将所述各时空加权的基础全局特征依序拼接后输入至所述车灯状态识别模型中的与所述车灯状态类别相对应的车灯状态分类器，得到所述车灯状态分类器输出的由所述图像序列表征的所述待识别车辆的车灯状态。

一种车载终端，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含待识别车辆的图像序列；通过预先构建的车灯状态识别模型中的第一编码器获取由所述图像序列中每相邻两帧图像表征的帧间图像编码特征；利用对各帧间图像编码特征进行局部空间注意力计算得到的局部空间注意力计算结果对所述各帧间图像编码特征进行加权；针对由各加权帧间图像编码特征拆分的第一组成部分编码特征和第二组成部分编码特征，通过所述车灯状态识别模型中的第二编码器获取对应组成部分的全局编码特征，得到所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征；将所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征融合为与车灯状态类别相适配的基础全局特征；利用对各基础全局特征进行全局空间注意力计算得到的全局空间注意力计算结果对所述各基础全局特征进行加权，得到各空间加权的基础全局特征；利用对所述各空间加权的基础全局特征进行时间注意力计算得到的时间注意力计算结果对所述各空间加权的基础全局特征进行加权，得到各时空加权的基础全局特征；将所述各时空加权的基础全局特征依序拼接后输入至所述车灯状态识别模型中的与所述车灯状态类别相对应的车灯状态分类器，得到所述车灯状态分类器输出的由所述图像序列表征的所述待识别车辆的车灯状态。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于注意力机制的车灯状态识别方法、装置、终端和介质，基于图像序列对车灯状态进行识别，通过车灯状态识别模型的第一编码器提取图像序列中每相邻两帧所表征的帧间图像编码特征，基于局部空间注意力对各帧间图像编码特征分别进行加权处理，然后分别拆分成两部分编码特征，通过车灯状态识别模型的第二编码器获取两部分各自对应的全局编码特征，将该两部分各自对应的全局编码特征融合为与车灯状态类别相适配的基础全局特征，可得到各帧间图像编码特征对应的基础全局特征，接着基于全局空间注意力对各基础全局特征进行加权，然后基于时间注意力对各空间加权的基础全局特征进行加权得到各时空加权的基础全局特征，最后将各时空加权的基础全局特征依序进行拼接后，输入到与车灯状态类别相对应的车灯状态分类器，得到车灯状态分类器输出的由图像序列表征的待识别车辆的车灯状态。该方案能够在基于图像序列识别车灯状态的基础上，在图像序列特征处理的相应阶段结合空间和时间注意力机制完成对图像序列的特征融合处理，一方面能够避免传统技术中基于单帧图像预测车灯状态存在的鲁棒性差的问题，另一方面可直接且更精确地预测出该图像序列整体所表征的车灯状态，从而克服传统技术中先定位车灯再识别状态带来的步骤繁琐和准确度低的问题。

附图说明

图1为一个实施例中基于注意力机制的车灯状态识别方法的应用环境图；

图2为一个实施例中基于注意力机制的车灯状态识别方法的流程示意图；

图3为一个实施例中模型识别车灯状态的原理示意图；

图4为一个实施例中时间注意力计算的原理示意图；

图5（a）为一个实施例中转向灯序列以及注意力机制说明的示意图；

图5（b）为一个实施例中刹车灯序列以及注意力机制说明的示意图；

图5（c）为一个实施例中应急双闪灯序列以及注意力机制说明的示意图；

图6（a）为一个实施例中转向灯的局部空间注意力结果的示意图；

图6（b）为一个实施例中刹车灯的局部空间注意力结果的示意图；

图6（c）为一个实施例中应急双闪灯的局部空间注意力结果的示意图；

图7（a）为一个实施例中转向灯的全局空间注意力结果的示意图；

图7（b）为一个实施例中刹车灯全局空间注意力结果的示意图；

图7（c）为一个实施例中应急双闪灯全局空间注意力结果的示意图；

图8为一个实施例中时间注意力表示的示意图；

图9（a）为一个实施例中转向灯的时间注意力结果的示意图；

图9（b）为一个实施例中刹车灯的时间注意力结果的示意图；

图9（c）为一个实施例中应急双闪灯的时间注意力结果的示意图；

图10为一个实施例中基于注意力机制的车灯状态识别装置的结构框图；

图11为一个实施例中车载终端的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于注意力机制的车灯状态识别方法，可以应用于如图1所示的应用环境中，该应用环境可包括通信连接的图像采集设备和车载终端，图像采集设备和车载终端可安装在当前车辆上，在当前车辆行驶过程中由图像采集设备采集图像序列如拍摄行车视频，车载终端可利用图像采集设备采集的图像序列识别前方或周围其他车辆的车灯状态，其中，该前方或周围其他车辆中的一个或多个均可作为待识别车辆。本申请提供的方案能够由车载终端基于图像采集设备所采集的图像序列，精确地预测出该图像序列整体所表征的车灯状态。本申请的方案在整体上能够完成包括转向灯状态、刹车灯状态和应急双闪灯状态的识别，具备功能完善、计算消耗小和实际应用性强的特点。

以下结合实施例和相应附图对本申请提供的基于注意力机制的车灯状态识别方法做具体说明。

在一个实施例中，提供了一种基于注意力机制的车灯状态识别方法，以该方法应用于图1中的车载终端为例并结合图2和图3进行说明，该方法主要包括以下步骤：

步骤S201，获取包含待识别车辆的图像序列；

本步骤中，车载终端可通过图像采集设备实时获取包含待识别车辆的图像序列，该待识别车辆可以是当前车辆前方或周围的其他车辆中的一个或者多个。具体的，车载终端可通过摄像头获取驾驶场景的图像序列，并通过车辆检测和跟踪确定其中待识别车辆在每相邻两帧图像中的位置，截取得到包含待识别车辆的尾部的图像序列，也即本申请所处理的包含待识别车辆的图像序列具体可以是包含待识别车辆的尾部的图像序列。

步骤S202，通过预先构建的车灯状态识别模型中的第一编码器获取由图像序列中每相邻两帧图像表征的帧间图像编码特征。

由于前后帧的亮度变化对图像序列中有效特征的提取比较重要，所以本步骤通过预先构建的车灯状态识别模型中的第一编码器提取图像序列的图像特征，该图像序列的图像特征是第一编码器依据每相邻两帧图像得到的，其中，该车灯状态识别模型可以采用卷积神经网络构建。具体的，将图像序列中每相邻两帧图像（如前一帧图像P0和后一帧图像P1）作为一组输入到第一编码器，第一编码器可根据该组相邻两帧图像输出作为后一帧图像P1对应的帧间图像编码特征，由此对于包含N帧图像的图像序列，第一编码器可输出N-1帧图像对应的帧间图像编码特征，形成帧间图像编码特征序列。在实际应用中，图像序列中各图像的长和宽尺寸为W和H，第一编码器提取的帧间图像编码特征的尺寸可以是例如H/4×W/4×C，C是指特征维度。

步骤S203，利用对各帧间图像编码特征进行局部空间注意力计算得到的局部空间注意力计算结果对所述各帧间图像编码特征进行加权。

在得到N-1帧的帧间图像编码特征后，对N-1帧的帧间图像编码特征分别进行局部空间注意力计算，利用局部空间注意力计算结果对各帧间图像编码特征进行加权。具体的，在提取的帧间图像编码特征的基础上，可通过一层卷积和Sigmoid层进行局部空间注意力计算，然后针对N-1帧中每一帧的帧间图像编码特征，将相应的局部空间注意力计算结果乘以相应的帧间图像编码特征，得到每一帧的加权帧间图像编码特征，从而达到利用局部空间注意力压制各帧图像中非感兴趣区域特征和有效保留感兴趣区域特征的目的。

步骤S204，针对由各加权帧间图像编码特征拆分的第一组成部分编码特征和第二组成部分编码特征，通过车灯状态识别模型中的第二编码器获取对应组成部分的全局编码特征，得到各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征。

本步骤可以包括编码特征分部拆分和提取全局编码特征两个过程。

对于编码特征分部拆分的过程，经由步骤S203得到各加权帧间图像编码特征后，可将每一加权帧间图像编码特征采用同种拆分方式进行拆分。具体的，针对每一加权帧间图像编码特征，将加权帧间图像编码特征拆分为对应于第一组成部分的编码特征（称为第一组成部分编码特征）和对应于第二组成部分的编码特征（称为第二组成部分编码特征），其中，第一组成部分可以对应于图像的左半部分，第二组成部分可以对应于图像的右半部分，也可将此过程称为将加权帧间图像编码特征进行左右拆分，从而得到第一组成部分编码特征和第二组成部分编码特征。由于每一加权帧间图像编码特征均经过如上方式拆分，所以可得到每一加权帧间图像编码特征各自对应的第一组成部分编码特征和第二组成部分编码特征。

接着是提取全局编码特征的过程，在获得每一加权帧间图像编码特征各自对应的第一组成部分编码特征和第二组成部分编码特征后，针对每一加权帧间图像编码特征各自对应的第一、第二组成部分编码特征，将第一、第二组成部分编码特征作为第二编码器的输入，由第二编码器输出前述第一、第二组成部分（即图像的左、右半部分）分别对应的C维的全局编码特征，也即可以得到第一组成部分对应的全局编码特征（称为第一组成部分全局编码特征），以及第二组成部分对应的全局编码特征（称为第二组成部分全局编码特征）。由于每一加权帧间图像编码特征均经过如上方式进行分部分的全局编码特征提取，所以可得到每一加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征。

步骤S205，将各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征融合为与车灯状态类别相适配的基础全局特征。

本步骤主要是在获得每一加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征后，将两部分的全局编码特征进行融合处理，由此得到N-1帧中每一帧对应的基础全局特征，该基础全局特征将应用于后续步骤中识别相应的车灯状态。

具体的，对前述两部分的全局编码特征进行融合处理，需依据所需识别的不同车灯状态类别而采取不同的融合方式。在实际应用中，车灯状态类别主要包括转向灯状态、刹车灯状态和应急双闪灯状态。

在其中一些实施例中，对于车灯状态类别包括转向灯状态的情况，步骤S205具体包括：

将第一组成部分全局编码特征与第二组成部分全局编码特征相减，得到与转向灯状态相适配的基础全局特征。

也即，对于转向灯状态识别的基础全局特征的获取，可以将左右两个组成部分的全局编码特征进行相减，从而融合成用于判断转向灯状态的基础全局特征。

在另外一些实施例中，对于车灯状态类别包括刹车灯状态和/或应急双闪灯状态的情况，步骤S205具体包括：

将第一组成部分全局编码特征与第二组成部分全局编码特征相拼接，得到与刹车灯状态和/或应急双闪灯状态相适配的基础全局特征。

也即，对于刹车灯状态和/或应急双闪灯状态识别的基础全局特征的获取，可以将左右两个组成部分的全局编码特征进行拼接，从而融合成用于判断刹车灯状态和/或应急双闪灯状态的基础全局特征。

步骤S206，利用对各基础全局特征进行全局空间注意力计算得到的全局空间注意力计算结果对各基础全局特征进行加权，得到各空间加权的基础全局特征。

在得到N-1帧的基础全局特征后，对N-1帧的基础全局特征分别进行全局空间注意力计算，利用全局空间注意力计算结果对各基础全局特征进行加权，从而得到各空间加权的基础全局特征。

具体的，对于转向灯状态识别，可以在基础全局特征的基础上通过一层卷积和Sigmoid层获取各基础全局特征的全局空间注意力权重SALR(spatial attention left-right)，对相应的基础全局特征进行加权，表示各帧的基础全局特征在判断图像序列的转向灯状态时的重要程度。

对于刹车灯状态和/或应急双闪灯状态识别，可以在基础全局特征的基础上通过一层卷积和Sigmoid层获取各基础全局特征的全局空间注意力权重SAGL(spatialattention global)，对相应的基础全局特征进行加权，以表示各基础全局特征在判断图像序列在例如转向灯状态、刹车灯状态和应急双闪灯状态时的重要程度。

由于N-1帧的基础全局特征均会进行全局空间加权处理，所以可以得到N-1帧的空间加权的基础全局特征。

步骤S207，利用对各空间加权的基础全局特征进行时间注意力计算得到的时间注意力计算结果对各空间加权的基础全局特征进行加权，得到各时空加权的基础全局特征。

在获得各空间加权的基础全局特征后，还需对其进行时间注意力加权处理。本步骤中，在经由步骤S206获得的各空间加权的基础全局特征的基础上，获取该N-1帧的空间加权的基础全局特征两两之间的注意力权重并据此进行图像序列的时间维度上的特征融合，可得到N-1帧的时空加权的基础全局特征。

具体的，时间注意力具体的学习方式可参考图4，对于每一空间加权的基础全局特征f，学习三个输出：查询值q(query)，匹配值k(key)，特征值v(value)：

；

对于第i个空间加权的基础全局特征，与所有的空间加权的特征j经过时间注意力加权融合后的时空加权的基础全局特征为：

。

在实际应用中，对于转向灯状态的识别，本步骤可以学习时间注意力TALR（temporal attention left-right）对相应的空间加权的基础全局特征进行时间维度上的特征融合，对于刹车灯状态和应急双闪灯状态的识别，本步骤可以学习时间注意力TAGL（temporal attention global）对相应的空间加权的基础全局特征进行时间维度上的特征融合。

步骤S208，将各时空加权的基础全局特征依序拼接后输入至车灯状态识别模型中的与车灯状态类别相对应的车灯状态分类器，得到车灯状态分类器输出的由图像序列表征的待识别车辆的车灯状态。

获得N-1帧的时空加权的基础全局特征后可依照其在图像序列中对应的次序进行拼接，将拼接形成的拼接结果输入到相应的车灯状态分类器即可获得由相应的车灯状态分类器输出的待识别车辆的车灯状态。

在实际应用中，车灯状态分类器可以包括转向灯状态分类器、刹车灯分类器和应急双闪灯分类器。其中，转向灯状态分类器用以对待识别车辆处于左转向、右转向或无转向的状态识别；刹车灯分类器用以对待识别车辆处于无刹车、刹车灯亮起或刹车灯熄灭的状态识别；应急双闪灯分类器用以对待识别车辆处于无应急双闪灯或有应急双闪灯的状态识别。其中，对于转向灯状态分类器、刹车灯分类器和应急双闪灯分类器可以基于三个独立的全连接层构建，将拼接形成的拼接结果输出到相应的全连接层，输出得到该三种类别的车灯状态的识别结果。

具体的，在其中一些实施例中，对于车灯状态分类器包括转向灯状态分类器的情况，步骤S208具体包括：

将各时空加权的基础全局特征依序拼接，得到用于识别转向灯状态的时空加权特征拼接结果，将该用于识别转向灯状态的时空加权特征拼接结果输入至转向灯状态分类器，以使该转向灯状态分类器输出待识别车辆的转向灯状态；其中，该待识别车辆的转向灯状态可以为左转向、右转向或无转向。

在其中一些实施例中，对于车灯状态分类器包括刹车灯分类器的情况，步骤S207具体包括：

将各时空加权的基础全局特征依序拼接，得到用于识别刹车灯状态的时空加权特征拼接结果，将该用于识别刹车灯状态的时空加权特征拼接结果输入至刹车灯分类器，以使该刹车灯分类器输出待识别车辆的刹车灯状态；其中，该待识别车辆的刹车灯状态可以为无刹车、刹车灯亮起或刹车灯熄灭。

在另外一些实施例中，对于车灯状态分类器包括应急双闪灯分类器的情况，步骤S208具体包括：

将各时空加权的基础全局特征依序拼接，得到用于识别应急双闪灯状态的时空加权特征拼接结果，将该用于识别应急双闪灯状态的时空加权特征拼接结果输入至应急双闪灯分类器，以使该应急双闪灯分类器输出待识别车辆的应急双闪灯状态；其中，该待识别车辆的应急双闪灯状态为无应急双闪灯或有应急双闪灯。

通过上述各实施例提供的方案，可获得待识别车辆的在包括转向灯、刹车灯和应急双闪灯等类别上的车灯状态，可以理解的是，待识别车辆可能同时存在多种车灯状态，例如刹车灯亮起、应急双闪灯闪烁同时存在等。

上述基于注意力机制的车灯状态识别方法，基于图像序列对车灯状态进行识别，通过车灯状态识别模型的第一编码器提取图像序列中每相邻两帧所表征的帧间图像编码特征，基于局部空间注意力对各帧间图像编码特征分别进行加权处理，然后分别拆分成两部分编码特征，通过车灯状态识别模型的第二编码器获取两部分各自对应的全局编码特征，将该两部分各自对应的全局编码特征融合为与车灯状态类别相适配的基础全局特征，可得到各帧间图像编码特征对应的基础全局特征，接着基于全局空间注意力对各基础全局特征进行加权，然后基于时间注意力对各空间加权的基础全局特征进行加权得到各时空加权的基础全局特征，最后将各时空加权的基础全局特征依序进行拼接后，输入到与车灯状态类别相对应的车灯状态分类器，得到车灯状态分类器输出的由图像序列表征的待识别车辆的车灯状态。该方案能够在基于图像序列识别车灯状态的基础上，在图像序列特征处理的相应阶段结合空间和时间注意力机制完成对图像序列的特征融合处理，一方面能够避免传统技术中基于单帧图像预测车灯状态存在的鲁棒性差的问题，另一方面可直接且更精确地预测出该图像序列整体所表征的车灯状态，从而克服传统技术中先定位车灯再识别状态带来的步骤繁琐和准确度低的问题。

在一个实施例中，上述方法还可以包括如下步骤：

获取多组包含待识别车辆的图像序列各自表征的待识别车辆的车灯状态，基于对各组图像序列各自表征的待识别车辆的车灯状态的统计，确定待识别车辆的车灯状态。

本实施例主要是车载终端为进一步提高对车灯状态识别的准确度，可依赖于对多组图像序列对待识别车辆的车灯状态的识别结果进行统计，综合多组图像序列预测的车灯状态识别结果，最终确定出待识别车辆的车灯状态。

进一步的，上述实施例中的基于对各组图像序列各自表征的待识别车辆的车灯状态的统计，确定待识别车辆的车灯状态，可以包括：

将被各组图像序列表征的次数大于或者等于次数阈值的车灯状态，作为各组图像序列共同表征的待识别车辆的车灯状态。

具体的，由于例如转向灯、刹车灯和应急双闪灯信号出现后都会持续一段时间，为了提高车灯状态预测的准确性和稳定性，可根据多组图像序列预测的结果，通过统计分析判断待识别车辆的车灯在由该多组图像序列对应的预测时间段内所输出的各种车灯状态的次数，依据该各种车灯状态被该多组图像序列表征的次数与次数阈值之间的比对结果，最终确定由该多组图像序列共同表征的待识别车辆的车灯状态，例如将可以连续五组图像序列预测出大于两次的车灯状态作为该五组图像序列共同表征的车灯状态，该车灯状态可被车载终端确认为待识别车辆的车灯状态。

为更全面阐述本申请提供的车灯状态识别方案，对车灯状态识别模型的基本构建过程进行说明。

在模型训练/构建阶段，可先定义车灯状态类别及其标注方式。

其中，对于车灯状态类别，可以包括转向灯、刹车灯和应急双闪灯三种；其中，转向灯可细分为无转向[0]、左转向[1]和右转向[2]共3个子类别；刹车灯可分为无刹车信号[0]、刹车灯亮起[1]和刹车灯熄灭[2]共3个子类别；应急双闪灯信号可以包含无应急双闪灯信号[0]和有应急双闪灯信号[1]共2个子类别。在实际场景中，车辆可能同时存在两种车灯状态，例如刹车灯亮起和应急双闪灯闪烁同时存在。

对于车灯状态类别的标注方式，参考图5（a）至图5（c）。如图5（a）所示，针对一个包含N帧的图像序列，如果存在大于等于一帧图像左黄灯比右边亮，则说明此时车灯状态类别为左转向。同理，如果存在大于等于一帧图像右黄灯比左边亮，则说明此时车灯状态类别为右转向，否则为无转向灯。如图5（b）所示，如果存在大于等于一帧图像双红灯相对于其上一帧变亮，则说明刹车灯亮起，如果存在大于等于一帧图像双红灯相对于其上一帧变暗，则说明刹车灯熄灭，否则为无刹车灯。如图5（c）所示，如果存在大于等于一帧图像双黄灯相对于其上一帧变亮或者存在大于等于一帧图像双黄灯相对于其上一帧变暗，则说明有应急双闪灯，否则说明无应急双闪灯。

按照上述方式，可搜集对应的车灯图像序列并标记序列对应于三种车灯状态的标签类别，构成训练数据集。

在将训练数据集应用于模型训练前，对注意力机制的含义做具体说明。

其中，注意力机制的目的是促使神经网络学习如何有效地提取、加权、关联以及融合特征。本申请提供的车灯状态识别方法包含三种注意力机制的设计，分别是局部空间注意力、全局空间注意力和时间注意力。

其中，局部空间注意力，用于帮助提取图像中有效局部区域的特征，车灯所在区域的特征的重要性必然大于其他区域，因此局部空间注意力有利于帮助神经网络学习定位车灯区域，示例性的，在图5（a）至图5（c）中，对于转向灯区域，中间条状灯区域和双黄灯区域都是比较重要的区域。

全局空间注意力，在基于图像序列的车灯状态识别过程中，包含有效车灯信号的帧必然比车辆信号灯关闭的帧更为重要，如图5（a）所示，左边信号灯亮于右边的帧更为重要，如图5（b）所示，中间条状灯亮起的帧对判断刹车灯亮起更为重要，如图5（c）所示，双黄灯亮起的帧对识别双黄灯更为重要。因此，本申请通过全局空间注意力能衡量每一帧提取出的特征的重要性。

如图5（a）至图5（c）所示，对于时间注意力，在图像序列中，相邻帧和前后临近的帧之间的关系，对于判断车灯变亮和变暗的属性尤为重要，因此需要学习时间注意力建立帧与帧之间的依赖关系，从而有效地进行帧间特征融合，提高车灯状态识别的准确性。

接着，可以训练多任务统一神经网络模型作为车灯状态识别模型，完成基于图像序列的对三种车灯信号/状态标签预测任务，整体的卷积神经网络架构也可以参考图3。

首先，由第一编码器提取图像特征。其中，由于前后帧的亮度变化对提取有效特征比较重要，所以模型的输入为获取的前后两帧车辆尾部图像P0和P1，其中P0表示P1的前一帧，模型输出可作为P1图像的编码特征；对于N帧图像序列，从P1帧开始，则一共可以提取N-1帧图像的特征，设所输入图像的长宽为W和H，则提取的编码特征为H/4×W/4×C，其中C为特征维度。

接着进行局部空间注意力计算。在提取的编码特征的基础上，通过一层卷积和Sigmoid层进行局部空间注意力计算，然后将局部空间注意力乘以编码特征，得到加权编码特征，达到压制非感兴趣区域特征和有效保留感兴趣区域特征的目的。

然后进行左右特征拆分。将加权编码特征拆分为左右两个部分，作为第二编码器的输入，得到左右两个部分最终的C维全局编码特征。

接着可以进行转向灯识别特征、刹车灯识别特征以及应急双闪灯识别特征的提取。对于转向灯识别特征提取，将左右两个部分对应的全局编码特征相减，以融合得到用于识别转向灯的基础全局特征，在此基础全局特征的基础上通过一层卷积和Sigmoid层学习一个全局空间注意力权重SALR，对各基础全局特征进行加权，表示各图像在判断图像序列转向灯信号标签时的重要性，得到空间加权的基础全局特征。

对于刹车灯识别特征以及应急双闪灯识别特征的提取，将左右两个部分对应的全局编码特征进行拼接，融合得到用于判断刹车灯和应急双闪灯的基础全局特征，在此基础全局特征的基础上通过一层卷积和Sigmoid层学习一个全局空间注意力权重SAGL，对各基础全局特征进行加权，表示当前图像在判断图像序列刹车灯和应急双闪灯标签时的重要性，得到各时空加权的基础全局特征。

然后进行时间注意力学习。在如上方式计算得到例如用于识别转向灯、刹车灯和应急双闪灯等的各时空加权的基础全局特征的基础上，可学习N-1个时空加权的基础全局特征两两之间的注意力权重，并完成时间维度的特征融合，而时间注意力的具体学习方式可参照如图4，同样的，对于各空间加权的基础全局特征f，学习三个输出：查询值q(query)，匹配值k(key)，特征值v(value)：

；

。

其中，对于转向灯状态的识别，可学习时间注意力TALR对相应的空间加权的基础全局特征进行时间维度上的特征融合，对于刹车灯状态和应急双闪灯状态的识别，可学习时间注意力TAGL对相应的空间加权的基础全局特征进行时间维度上的特征融合。

最后，可将N-1组时空加权的基础全局特征依序进行拼接，经过三个独立的全连接层（分别代表转向灯状态分类器、刹车灯分类器和应急双闪灯分类器），分别输出该三种车灯状态的分类分数。用于各车灯状态分类器训练的损失函数采用交叉熵（Cross EntropyLoss）函数L：

其中，yi为预测的样本i的标签，c为样本i的真实标签，p(yi)为样本i标签为yi的概率，1{}为指示函数，当判断条件为真时值为1，反之值为0。

在模型测试阶段，通过摄像头获取驾驶场景图像序列，并通过车辆检测和跟踪确定需要识别车灯状态的车辆在前后两帧图像中的位置，扣取车辆的尾部图像，将连续两张车尾图像组成图像对，输入训练过的上述神经网络模型，通过第一、第二编码器进行特征提取，连续提取N-1个图像特征后可构成图像特征序列，通过训练后模型的参数计算图像特征序列之间的时间注意力并完成特征融合，输出该图像序列的三种尾灯信号的标签类别，判断当前组图像序列的尾灯状态。在此基础上，还可以进一步通过统计分析多组尾灯状态确定尾灯状态。其中，由于转向灯、刹车灯和应急双闪灯信号出现后都会持续一段时间，为了增加车灯状态预测的准确性和鲁棒性，可根据多组图像序列预测的结果，通过统计分析判断尾灯在该时间段内所输出的尾灯信号，例如连续五次预测内由超过两次检测到某种尾灯信号出现，则信任此次预测结果。

通过测试训练后的神经网络模型，以下部分根据可视化结果说明本申请中注意力机制在车灯状态识别的有效性。

对于局部空间注意力，参考图6（a）至图6（c）。其中，如图6（a）所示，局部空间注意力在右转向灯闪烁区域具有较高的权重，而图6（b）则表明整个区域对刹车灯状态的识别重要性分布比较平均，可能是由于刹车灯和示廓灯都属于常亮状态，因此模型依赖于其他特征识别刹车灯信号，图6（c）则说明局部空间注意力能够聚焦双黄灯闪烁区域提取特征。

对于全局空间注意力，参考图7（a）至图7（c）。其中，如图7（a）所示，对于转向灯信号识别，左右亮度有明显差异的帧的全局空间注意力SALR要高于转向灯暂时变暗后左右亮度相近的帧，而每帧图像的全局空间注意力SAGL则相近。如图7（b）所示，对于刹车灯识别，每帧图像的全局空间注意力SAGL则明显高于全局空间注意力SALR。如图7（c）所示，当双闪灯同时亮起时，每帧图像的全局空间注意力SAGL则进一步提高。

对于时间注意力，如图8所示，时间注意力可用一个矩阵表示，矩阵元素（i，j）则表示第i帧和第j帧关联的重要性。参考图9（a）至图9（c），如图9（a）所示，转向灯亮度发生变化的帧和其相邻帧的相关性尤为重要，图9（b）所示，对于刹车灯常亮时，每两帧之间的关联性都比较重要，而图9（c）表明，应急双闪灯亮度发生变化的帧和其相邻帧的相关性比较重要，尤其是和其他双闪灯亮起的帧的相关性更为重要。

从整体上来说，本申请提供的方案可具有如下有益效果：

①可基于图像序列直接识别车灯状态，避免传统技术分多步处理的繁琐步骤；②提出特征拆分、差分和拼接的策略用于提取有效特征，识别不同的车灯状态；③利用神经网络隐式学习时空注意力机制，便于有效地提取感兴趣区域特征和根据重要性融合序列图像特征，进而提高车辆尾灯信号识别的精度。

以及本申请提供的方案解决了如下技术问题：

（1）避免了传统技术路线中尾灯定位困难的问题，改善了识别精度不高的问题；

（2）提出多种注意力机制对车灯状态进行识别，保证了单输入特征提取和序列特征融合的有效性；

（3）轻量的编码网络和特征融合方法，避免了使用LSTM序列预测结构，降低了神经网络模型计算负担。

应该理解的是，虽然如上流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种基于注意力机制的车灯状态识别装置，该装置1000可以包括：

图像序列获取模块1001，用于获取包含待识别车辆的图像序列；

帧间特征获取模块1002，用于通过预先构建的车灯状态识别模型中的第一编码器获取由所述图像序列中每相邻两帧图像表征的帧间图像编码特征；

局部加权处理模块1003，用于利用对各帧间图像编码特征进行局部空间注意力计算得到的局部空间注意力计算结果对所述各帧间图像编码特征进行加权；

组分特征获取模块1004，用于针对由各加权帧间图像编码特征拆分的第一组成部分编码特征和第二组成部分编码特征，通过所述车灯状态识别模型中的第二编码器获取对应组成部分的全局编码特征，得到所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征；

组分特征融合模块1005，用于将所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征融合为与车灯状态类别相适配的基础全局特征；

全局加权处理模块1006，用于利用对各基础全局特征进行全局空间注意力计算得到的全局空间注意力计算结果对所述各基础全局特征进行加权，得到各空间加权的基础全局特征；

时间加权处理模块1007，用于利用对所述各空间加权的基础全局特征进行时间注意力计算得到的时间注意力计算结果对所述各空间加权的基础全局特征进行加权，得到各时空加权的基础全局特征；

分类器识别模块1008，用于将所述各时空加权的基础全局特征依序拼接后输入至所述车灯状态识别模型中的与所述车灯状态类别相对应的车灯状态分类器，得到所述车灯状态分类器输出的由所述图像序列表征的所述待识别车辆的车灯状态。

在一个实施例中，所述车灯状态类别包括转向灯状态；组分特征融合模块1005，用于将所述第一组成部分全局编码特征与所述第二组成部分全局编码特征相减，得到与所述转向灯状态相适配的基础全局特征。

在一个实施例中，所述车灯状态分类器包括转向灯状态分类器；分类器识别模块1008，用于将所述各时空加权的基础全局特征依序拼接，得到用于识别转向灯状态的时空加权特征拼接结果；将所述用于识别转向灯状态的时空加权特征拼接结果输入至所述转向灯状态分类器，以使所述转向灯状态分类器输出所述待识别车辆的转向灯状态；其中，所述待识别车辆的转向灯状态为左转向、右转向或无转向。

在一个实施例中，所述车灯状态类别包括刹车灯状态和/或应急双闪灯状态；组分特征融合模块1005，用于将所述第一组成部分全局编码特征与所述第二组成部分全局编码特征相拼接，得到与所述刹车灯状态和/或应急双闪灯状态相适配的基础全局特征。

在一个实施例中，所述车灯状态分类器包括刹车灯分类器和/或应急双闪灯分类器；分类器识别模块1008，用于将所述各时空加权的基础全局特征依序拼接，得到用于识别刹车灯状态和/或应急双闪灯状态的时空加权特征拼接结果；将用于识别刹车灯状态的时空加权特征拼接结果输入至所述刹车灯分类器，以使所述刹车灯分类器输出所述待识别车辆的刹车灯状态；其中，所述待识别车辆的刹车灯状态为无刹车、刹车灯亮起或刹车灯熄灭；

和/或，

将用于识别应急双闪灯状态的时空加权特征拼接结果输入至所述应急双闪灯分类器，以使所述应急双闪灯分类器输出所述待识别车辆的应急双闪灯状态；其中，所述待识别车辆的应急双闪灯状态为无应急双闪灯或有应急双闪灯。

在一个实施例中，上述装置1000还可以包括：统计识别单元，用于获取多组包含所述待识别车辆的图像序列各自表征的所述待识别车辆的车灯状态；基于对各组图像序列各自表征的所述待识别车辆的车灯状态的统计，确定所述待识别车辆的车灯状态。

在一个实施例中，统计识别单元，用于将被所述各组图像序列表征的次数大于或者等于次数阈值的车灯状态，作为所述各组图像序列共同表征的所述待识别车辆的车灯状态。

关于基于注意力机制的车灯状态识别装置的具体限定可以参见上文中对于基于注意力机制的车灯状态识别方法的限定，在此不再赘述。上述基于注意力机制的车灯状态识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是车载终端，其内部结构图可以如图11所示。该车载终端包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该车载终端的处理器用于提供计算和控制能力。该车载终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该车载终端的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种基于注意力机制的车灯状态识别方法。该车载终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该车载终端的输入装置可以是显示屏上覆盖的触摸层，也可以是车载终端外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种车载终端，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制的车灯状态识别方法，其特征在于，所述方法包括：

获取包含待识别车辆的图像序列；

2.根据权利要求1所述的方法，其特征在于，

所述车灯状态类别包括转向灯状态；

所述将所述各加权帧间图像编码特征各自对应的第一组成部分全局编码特征和第二组成部分全局编码特征融合为与车灯状态类别相适配的基础全局特征，包括：

将所述第一组成部分全局编码特征与所述第二组成部分全局编码特征相减，得到与所述转向灯状态相适配的基础全局特征。

3.根据权利要求2所述的方法，其特征在于，

所述车灯状态分类器包括转向灯状态分类器；

所述将所述各时空加权的基础全局特征依序拼接后输入至所述车灯状态识别模型中的与所述车灯状态类别相对应的车灯状态分类器，得到所述车灯状态分类器输出的由所述图像序列表征的所述待识别车辆的车灯状态，包括：

将所述各时空加权的基础全局特征依序拼接，得到用于识别转向灯状态的时空加权特征拼接结果；

将所述用于识别转向灯状态的时空加权特征拼接结果输入至所述转向灯状态分类器，以使所述转向灯状态分类器输出所述待识别车辆的转向灯状态；

其中，所述待识别车辆的转向灯状态为左转向、右转向或无转向。

4.根据权利要求1所述的方法，其特征在于，

所述车灯状态类别包括刹车灯状态和/或应急双闪灯状态；

将所述第一组成部分全局编码特征与所述第二组成部分全局编码特征相拼接，得到与所述刹车灯状态和/或应急双闪灯状态相适配的基础全局特征。

5.根据权利要求4所述的方法，其特征在于，

所述车灯状态分类器包括刹车灯分类器和/或应急双闪灯分类器；

将所述各时空加权的基础全局特征依序拼接，得到用于识别刹车灯状态和/或应急双闪灯状态的时空加权特征拼接结果；

将用于识别刹车灯状态的时空加权特征拼接结果输入至所述刹车灯分类器，以使所述刹车灯分类器输出所述待识别车辆的刹车灯状态；

其中，所述待识别车辆的刹车灯状态为无刹车、刹车灯亮起或刹车灯熄灭；

和/或，

将用于识别应急双闪灯状态的时空加权特征拼接结果输入至所述应急双闪灯分类器，以使所述应急双闪灯分类器输出所述待识别车辆的应急双闪灯状态；

其中，所述待识别车辆的应急双闪灯状态为无应急双闪灯或有应急双闪灯。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

获取多组包含所述待识别车辆的图像序列各自表征的所述待识别车辆的车灯状态；

基于对各组图像序列各自表征的所述待识别车辆的车灯状态的统计，确定所述待识别车辆的车灯状态。

7.根据权利要求6所述的方法，其特征在于，所述基于对各组图像序列各自表征的所述待识别车辆的车灯状态的统计，确定所述待识别车辆的车灯状态，包括：

将被所述各组图像序列表征的次数大于或者等于次数阈值的车灯状态，作为所述各组图像序列共同表征的所述待识别车辆的车灯状态。

8.一种基于注意力机制的车灯状态识别装置，其特征在于，包括：

图像序列获取模块，用于获取包含待识别车辆的图像序列；

9.一种车载终端，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。