CN113408432B

CN113408432B - 基于图像的交通拥堵识别方法、装置以及设备

Info

Publication number: CN113408432B
Application number: CN202110694018.6A
Authority: CN
Inventors: 韩涛; 李梓赫; 谭昶
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-08-16
Anticipated expiration: 2041-06-22
Also published as: CN113408432A

Abstract

本发明公开了一种基于图像的交通拥堵识别方法、装置以及设备，本发明的构思在于通过构造端到端的路况分类模型对车辆行驶中采集的道路交通视频数据进行影像背景特征分析，基于视频中的背景信息，而非图像前景信息，进行交通拥堵与否的辨识，从而可以准确得到当前车辆所在道路的真实路况，进而可以对路线规划进行实时更新，为缓解交通拥堵现象作出具有成效的技术贡献。

Description

基于图像的交通拥堵识别方法、装置以及设备

技术领域

本发明涉及智能驾驶领域，尤其涉及一种基于图像的交通拥堵识别方法、装置以及设备。

背景技术

交通拥堵是指在某一段时间内，由于交通需求的增加，通过道路中的某条路段或交叉口的总的车流量大于道路的交通容量(路段或交叉口的通行能力)时，导致道路上的交通流无法畅行，超过部分交通流滞留在道路(路段或交叉口)上的交通现象。

而城市道路的交通拥堵问题日趋严峻，已成为制约城市健康、可持续发展的重要因素之一。对于司机来说，如何能够预知路况，改换其他道路行驶，也是解决道路拥堵的至关重要的因素。因而，目前结合网络及计算机技术，已相应发展出基于机器的道路拥堵识别方案，例如但不限于本发明关注的基于图像视觉的交通拥堵识别系统。

目前采用图像分析的交通拥堵识别方案主要通过行车记录仪等车载视觉采录设备拍摄的实时道路情况来分析道路是否为拥堵、缓行、通畅等状态。具体来说，可以由3D-CNN或者CNN+LSTM等技术，结合既定的视频分类策略对路况进行图像层面的识别归类。而现有的分类策略按照常规的技术逻辑和实现习惯，其主要学习的是图像前景语义特征，即是主要通过对图像中的车辆信息进行处理，进而判断路况是否为拥堵状态。但是经由实践分析，本发明认为图像前景信息对于路况判断容易出现偏差，不同路况下的视频图像中的车辆数量、前后车距等特征差异可能并不明显，因此常规思路中基于图像前景信息进行的交通拥堵判定其准确度可能并不高。

发明内容

鉴于上述，本发明旨在提供一种基于图像的交通拥堵识别方法、装置以及设备，以及相应地提供了一种计算机数据存储介质和计算机程序产品，以解决机器通过图像识别路况准确度不高的问题。

本发明采用的技术方案如下：

第一方面，本发明提供了一种基于图像的交通拥堵识别方法，其中包括：

将车辆行驶过程采集的视频数据输入至预先训练的基于端到端的路况识别模型，所述路况识别模型包括影像特征提取网络，所述影像特征提取网络用于提取所述视频数据中的影像信息的背景特征；

经由所述路况识别模型处理，获得用于辨识交通拥堵与否的路况分类结果。

在其中至少一种可能的实现方式中，所述经由所述路况识别模型处理包括：

分别提取所述视频数据中的时间信息以及所述背景特征，其中，所述时间信息包括相邻视频帧的时间间隔特征；

将所述背景特征和所述时间间隔特征叠加后进行时序特征编码；

根据时序特征编码结果进行路况分类。

在其中至少一种可能的实现方式中，所述影像特征提取网络采用自监督机制进行训练，具体包括：

利用包含连续视频帧的路况视频训练样本，随机构造出正序视频样本以及逆序视频样本，并生成对应于正序视频样本以及逆序视频样本的标签值；

将正序视频样本和/或逆序视频样本输入至所述影像特征提取网络，获取到影像信息；

根据所述影像信息以及所述标签值，将输入的路况视频训练样本分类为正序视频或逆序视频，并将分类损失回传至所述影像特征提取网络进行迭代。

在其中至少一种可能的实现方式中，所述路况识别模型的训练方式包括：

对原始训练数据进行动态重采样，得到与原始训练数据的数据分布规律相反的重采样数据；

分别提取出原始训练数据以及重采样数据的影像信息，并按预设的权重比例进行特征融合；

基于融合后的影像信息对所述路况识别模型的参数进行更新，完成训练。

第二方面，本发明提供了一种基于图像的交通拥堵识别装置，其中包括：

路况视频数据输入模块，用于将车辆行驶过程采集的视频数据输入至预先训练的基于端到端的路况识别模型，所述路况识别模型包括影像特征提取网络，所述影像特征提取网络用于提取所述视频数据中的影像信息的背景特征；

路况分类结果获取模块，用于经由所述路况识别模型处理，获得用于辨识交通拥堵与否的路况分类结果。

在其中至少一种可能的实现方式中，所述路况识别模型包括：

多维特征提取单元，用于分别提取所述视频数据中的时间信息以及所述背景特征，其中，所述时间信息包括相邻视频帧的时间间隔特征；

强化编码单元，用于将所述背景特征和所述时间间隔特征叠加后进行时序特征编码；

视频分类单元，用于根据时序特征编码结果进行路况分类。

在其中至少一种可能的实现方式中，所述装置还包括用于对所述影像特征提取网络进行训练的自监督训练模块；

所述自监督训练模块具体包括：

正序及逆序视频样本构造单元，用于利用包含连续视频帧的路况视频训练样本，随机构造出正序视频样本以及逆序视频样本，并生成对应于正序视频样本以及逆序视频样本的标签值；

样本影像信息提取单元，用于将正序视频样本和/或逆序视频样本输入至所述影像特征提取网络，获取到影像信息；

视频顺序分类单元，用于根据所述影像信息以及所述标签值，将输入的路况视频训练样本分类为正序视频或逆序视频，并将分类损失回传至所述影像特征提取网络进行迭代。

在其中至少一种可能的实现方式中，所述装置还包括用于对所述路况识别模型进行训练的联合训练模块；

所述联合训练模块具体包括：

动态重采样单元，用于对原始训练数据进行动态重采样，得到与原始训练数据的数据分布规律相反的重采样数据；

影像信息获取单元，用于分别提取出原始训练数据以及重采样数据的影像信息，并按预设的权重比例进行特征融合；

模型参数学习单元，用于基于融合后的影像信息对所述路况识别模型的参数进行更新训练。

第三方面，本发明提供了一种电子设备，其中包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机数据存储介质，该计算机数据存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的至少一种可能的实现方式中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明的构思在于通过构造端到端的路况分类模型对车辆行驶中采集的道路交通视频数据进行影像背景特征分析，基于视频中的背景信息，而非图像前景信息，进行交通拥堵与否的辨识，从而可以准确得到当前车辆所在道路的真实路况，进而可以对路线规划进行实时更新，为缓解交通拥堵现象作出具有成效的技术贡献。

进一步地，为了能够使前述端到端的路况分类模型在较低人力消耗前提下，高效、可靠地倾向关注于输入视频数据中的影像背景信息，本发明在一些较佳实施例中提出结合视频数据自身具有的时序特点，便捷地构造正、逆序样本，并采用自监督机制训练路况分类模型对影像进行特定特征编码，即在没有额外人工标注的情况下，实现了模型对于视频背景信息的学习能力。

进一步地，在本发明的另一些优选实施例中，不仅考虑到影像特征对于路况辨识的作用，还充分结合了车辆行驶过程拍摄的视频数据的时序特性，补充了多维信息因素之间的关联关系，从而可以改善模型的分类性能。

进一步地，针对道路交通视频场景下出现的长尾数据分布特点，为了规避样本分布不平衡导致模型训练时的出现严重过拟合、进而降低模型对于路况分类的性能，本发明在一些较佳实施例中提出通过动态重采用构造与原始道路交通视频分布规律相反的重采样数据，并对原始数据以及重采样数据进行图像信息融合，以此得到训练集对前述端到端的路况分类模型进行联合训练，这样便可以同时兼顾到样本数量多的类别以及样本数量少的类别，从而可以更佳地提升模型鲁棒性并大幅增加路况分类的正确率。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明实施例提供的基于图像的交通拥堵识别方法的流程图；

图2为本发明实施例提供的影像特征提取网络训练方法的流程图；

图3为本发明实施例提供的基于图像的交通拥堵识别装置的示意图；

图4为本发明实施例提供的电子设备的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在对本发明具体方案展开前，再对本发明的设计初衷进行说明。本发明经实践分析发现，由于现实交通场景的复杂性以及车辆行驶阶段所采集视频数据的随机性，使得道路的拥堵情况与视频中呈现出的车辆多少、车辆间距等没有必然关系，因而本发明认为路况图像中的前景语义特征并不是关键因素，基于此，本发明通过对实景采集的道路交通状况视频数据进行全面分析后，认为同向车辆的移动速度才是至关重要的因素。

而对于以图像为基础的路况分析技术，需要考虑如何从图像中分析出车辆移动速度，由此，本发明则进一步想到可以借由相对于车辆的背景环境在视频中呈现出的变化入手，便可以可靠且准确地对交通拥堵与否进行辨识。然而该思路对现有的行车视频分类方案提出了挑战，因为目前采用的方式一般是将前景目标作为图像语义特征的主要要素，由该影像特征并不能可靠支持得到最优的路况分类效果。

鉴于此，本发明提出了如下至少一种基于图像的交通拥堵识别方法的实施例，如图1所示的，具体可以包括：

步骤S1、将车辆行驶过程采集的视频数据输入至预先训练的基于端到端的路况识别模型，其中，所述路况识别模型包括用于提取所述视频数据中的影像信息的背景特征的影像特征提取网络；

步骤S2、经由所述路况识别模型处理，获得用于辨识交通拥堵与否的路况分类结果。

可以理解的是，上述方法实施例描述的是路况识别模型在测试阶段的处理逻辑框架，而其中的重点在于，本发明提出了端到端建模的思路，并且该端到端的路况识别模型与现有技术的主要差异之一，是可以充分关注并利用车辆行驶过程中所采集的视频数据的背景信息进行道路拥堵辨识，从而规避了基于前景信息(诸如车辆本身图像)可能产生的误判或者难以辨识路况等弊端。

具体来说，本发明提出的构思是，对于道路拥堵情况的评判标准，可以是以相邻视频帧中车辆的相对背景的变化(例如由时间、位移、速度等带来的)来进行评判的，这就要求前述端到端的路况识别模型所采用的影像信息需关注在图像背景特征上(而不是前景信息)，例如可以学习得到连续帧之间背景参照物的相对位置关系以及相对位移变化等。

在实际操作中，可以采用多种手段实现本发明上述构思使得模型可以在进行图像特征提取时倾向于视频帧中的背景信息，例如在模型训练阶段对训练集进行背景特征标注；或者，还可以参考本发明在一些较佳实施例中采用的更为便捷、高效且低成本的训练方式，参考图2所示的影像特征提取网络训练方法，可以主要包括如下步骤：

步骤S10、利用包含连续视频帧的路况视频训练样本，随机构造出正序视频样本以及逆序视频样本，并生成对应于正序视频样本以及逆序视频样本的标签值；

步骤S20、将正序视频样本和/或逆序视频样本输入至所述影像特征提取网络，获取到影像信息；

步骤S30、根据所述影像信息以及所述标签值，将输入的路况视频训练样本分类为正序视频或逆序视频，并将分类损失回传至所述影像特征提取网络进行迭代。

本优选实施例的构思是，视频数据具有时间延续属性，因而利用车况视频数据的该自身特点，可以简便快捷地构造出正序视频数据集和相应的逆序视频数据集，而前述提及的视屏图像的背景变化便可以充分体现在按正序或逆序进展的逐个视频帧中，由此，本发明提出可以采用自监督机制来增强影像特征提取网络对于视频中背景信息的学习，这里提及的自监督机制可以体现在构造正序和逆序视频过程中，还可以顺其自然地得到的正序、逆序等相应标注信息，而无需额外添加其他标记；换言之，在提供一段正常拍摄的行车记录视觉数据后，便可以采用类似倒放的方式得到该段原始数据的逆序视频，并自动生成相应的标注，此方式相对人工处理来说，凸显其低成本、高效率、方便快捷的优势。

图2实施例的构思在于，在利用影像特征提取网络获取的影像信息进行输入视频样本属于正序视频还是逆序视频的分类时，便可以将每次分类后的结果与标记值进行比对计算，并将偏差反馈至影像特征提取网络进行参数更迭，即为了得到准确的正序或逆序的分类结果，必然会促使影像特征提取网络更为倾向地关注到视频影像中的背景信息，从而将其训练为主要作用是提取输入视频数据中的影像信息的背景特征。

在上述实施例基础上，本发明还考虑到对于输入视频，尤其是从中抽取的视频帧，可以不作过多限定，因而帧和帧之间的相隔时间有可能是不固定的，因此，本发明在一些实施例中提出对相邻帧的时间信息进行编码，一方面无需对输入视频数据进行过多约束，另一方面还可以保证路况识别模型不会仅根据单一的影像特征来进行分类处理。在实际操作中，路况识别模型可以分别提取所述视频数据中的时间信息以及所述背景特征，其中，所述时间信息包括相邻视频帧的时间间隔特征，更优地，进一步可以将所述背景特征和所述时间间隔特征叠加后进行时序特征编码，再根据时序特征编码结果得到更为精准的路况分类结果。

为了便于理解，这里给出如下示例供参考。在实际操作中，可以首先把连续的视频帧送入影像特征提取网络，所述影像特征提取网络可以采用但不限于resnet34等，影像特征提取网络输出的背景特征维度则可以是B*C*T，这里的B是指送入网络的批次大小，C是通道数，T是时序长度，该时序长度对应一个视频的抽帧数量(举例来说，从视频数据中可以但不限于抽取4帧图像，也即是在原始输入的B*3*H*W的数据维度基础上，组合成4B*3*H*W的输入数据，经过影像特征提取网络后便可以得到4B*C*1的特征图，再经由特征转化得到B*C*4，这里的4就是时序长度T)。

在resnet34提取影像信息的同时，相关视频帧的时间信息也可以经过诸如Embedding层进行时间编码，例如可以得到维度为B*C*T的时间间隔特征。然后，再将时间间隔特征与背景特征进行特征融合，目的在于使得影像特征中包含时间维度的信息，进一步地，考虑到仅利用图像及时间信息进行分类，也存在缺失部分信息的可能，因而优选地可以对融合后的特征再次进行强化编码，也即是附加上更为全面、丰富的信息，使得后续得到的分类结果更为精准。由此，本发明在一些实施例中提出对上述融合后的特征进行时序特征编码，这里的时序特征编码环节可以但不限于采用多头的transformer结构，例如选择8头transformer予以实现时，特征矩阵B*C*4则可以转换成B*(C/8)*4*8，再经过三个1x1的卷积分别得到三个相同结构的矩阵，分别命名为K、Q、V，再通过K和Q的矩阵相乘得到矩阵B*(C/8)*4*4,并在4*4维度上进行softmax操作，也就是求此维度上的特征权重，最后再乘以矩阵V，得到B*(C/8)*4*8。

最后，经时序特征编码处理后输出的特征B*(C/8)*4*8转化成B*C*4，并通过后续的全连接层输出路况各类别的概率，取其中概率值最大的类别最为输入视频数据的路况类别(例如严重拥堵、轻度拥堵、行驶缓慢、畅通等)。

需指出的是，前述提及的resnet34、Embedding、transformer等架构的原理和工作方式可以参考现有的成熟技术，本发明对此不作赘述。而需要指出的是，相对于常规的CNN+LSTM的处理架构，前述拓扑结构实施例，能够实现并行化的训练，因此，采用上述优选示例也能大大减少训练和推理的时间，提升模型构建效率。

最后还可以补充说明的是，结合本发明场景而言，在真实世界获得的用于模型训练的视频数据样本存在一定问题，即在自然场景中，道路畅通的情况远大于道路缓行以及拥堵的时候，造成了收集到的数据严重的类别不平衡，真实的数据样本中绝大部分是道路顺畅的视频数据，而相对较少部分才是道路拥堵时的数据，更为少量的则是缓行数据，这就使得整体数据样本的分布是不平衡的，存在长尾分布问题，对于长尾分布的数据，极个别类别的数量很多，但是数量少的类别也很重要。这种分布情况下，一个批次的数据很大一部分是样本多的类别，损失函数也是这一类的大，训练参数偏向样本多的类别，造成了少数样本严重过拟合的情况，进而导致在测试阶段，样本少的类别就很难召回，而样本多的类别则容易误报，从而导致了最终的路况分类性能的下降。

针对本应用场景出现的这种情况，如何来训练路况识别模型而不造成过拟合，并在实际情况下能够把极少异常召回则是本发明进一步考虑的重点。

具体来说，对于数据不平衡的解决方案，一般有两种思路。一种是数据/特征增强的方法，对于少样本数据进行二次采样，人为平衡样本数据，或者在网络中加入类似于dropout的操作来避免网络严重过拟合；第二种就是提出新的损失函数，例如focalloss，来约束正负样本损失值的距离，但是这两种方案只能减轻长尾数据分布不平衡的问题，无法从根本上解决问题，也即是说，现有的解决数据样本分布不均的方案并未从实质上解决对少样本召回的问题，没有侧重网络对少样本数据的学习能力，如果采用上述常规思路，本发明提出的路况识别模型对于拥堵数据、缓行数据的鲁棒性依然是不足的。

基于此，本发明在一些较佳实施例中提出了一种联合训练的构思来解决长尾数据分布的问题。总体来说，该构思的实现方式可以是先对原始训练数据进行动态重采样，得到与原始训练数据的数据分布规律相反的重采样数据，再分别提取出原始训练数据以及重采样数据的影像信息，并按预设的权重比例进行特征融合，最后基于融合后的影像信息对所述路况识别模型的参数进行更新，完成训练。

具体而言，本实施例是在模型训练阶段，对原始视频数据进行了动态的重采样，得到了与原始数据的数据分布规律(长尾)完全相反的重采样数据。然后，可以将此两种分布规律相反的数据送入前述影像特征提取网络来获得连续帧图像中的语义特征，也即是影像信息。接着，对此两种数据得到的图像语义特征经过如下公式进行加权和计算得到融合影像信息Z：

这里的f_c是原始数据，f_r是动态重采样数据，

是指影像特征提取网络的参数，而权重系数α可以初始化为1，其随着迭代次数的增加而减小，反之权重系数(1-α)随着迭代次数的增加而增大，具体如下述公式所示：

这里的i是迭代的次数，当i等于0的时候α为1，随着迭代次数增加，α逐渐趋于0。

本发明提出的联合训练策略能够随着迭代的次数增加实现权重的动态调整，从而让路况识别模型学习到不同的数据分布特性，进而使得模型的泛化能力得到提升。具体地，在路况识别模型训练的初始阶段，原始数据所占权重足够大，损失函数也主要由原始数据贡献，模型朝着样本多的类别拟合训练方向发展。而在训练的后期，动态重采样数据所占权重大，此时的损失函数主要由重采样数据贡献，模型朝着样本少的类别拟合方向发展，但是此联合训练体现在同一个模型架构中，使得模型可以对样本数量多的类别鲁棒，也可以对样本少的类别鲁棒，从而很好地解决了样本分布不均导致的部分类别过拟合的问题，进而能够更进一步地提升路况分类的正确率。

综上所述，本发明的构思在于通过构造端到端的路况分类模型对车辆行驶中采集的道路交通视频数据进行影像背景特征分析，基于视频中的背景信息，而非图像前景信息，进行交通拥堵与否的辨识，从而可以准确得到当前车辆所在道路的真实路况，进而可以对路线规划进行实时更新，为缓解交通拥堵现象作出具有成效的技术贡献。

相应于上述各实施例及优选方案，本发明还提供了一种基于图像的交通拥堵识别装置的实施例，如图3所示，具体可以包括如下部件：

路况视频数据输入模块1，用于将车辆行驶过程采集的视频数据输入至预先训练的基于端到端的路况识别模型，所述路况识别模型包括影像特征提取网络，所述影像特征提取网络用于提取所述视频数据中的影像信息的背景特征；

路况分类结果获取模块2，用于经由所述路况识别模型处理，获得用于辨识交通拥堵与否的路况分类结果。

视频分类单元，用于根据时序特征编码结果进行路况分类。

所述自监督训练模块具体包括：

所述联合训练模块具体包括：

影像信息获取单元，用于分别提取出原始训练数据以及重采样数据的影像信息，并按预设的权重比例进行特征融合；可以指出的是，这里提及的影像信息获取单元在实际操作中不限于是指前述影像特征提取网络。

应理解以上图3所示的基于图像的交通拥堵识别装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明所涉及的技术构思可适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种电子设备。该设备具体可以包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或者等效实施方式的步骤/功能。

该电子设备具体可以为与计算机相关的电子设备，例如但不限于各类交互终端及电子产品等，例如车载智能终端、行车记录仪器、导航设备、车联网后台服务器等。

图4为本发明提供的电子设备的实施例的结构示意图，具体地，电子设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得电子设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，该设备900中的各个部件的操作和/或功能，具体可参见前文中关于方法、系统等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图4所示的电子设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种计算机数据存储介质，在该存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机数据取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

尤其需指出的是，该存储介质可以是指服务器或相类似的计算机设备，具体地，也即是服务器或类似的计算机设备中的存储器件中存储有前述计算机程序或上述装置。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的基于图像的交通拥堵识别方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP。

接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image SignalProcessing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random AccessMemory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种基于图像的交通拥堵识别方法，其特征在于，包括：

经由所述路况识别模型处理，获得用于辨识交通拥堵与否的路况分类结果，所述处理包括：根据相对于车辆的背景变化判断路况拥堵与否。

2.根据权利要求1所述的基于图像的交通拥堵识别方法，其特征在于，所述经由所述路况识别模型处理包括：

根据时序特征编码结果进行路况分类。

3.根据权利要求1所述的基于图像的交通拥堵识别方法，其特征在于，所述影像特征提取网络采用自监督机制进行训练，具体包括：

4.根据权利要求1~3任一项所述的基于图像的交通拥堵识别方法，其特征在于，所述路况识别模型的训练方式包括：

5.一种基于图像的交通拥堵识别装置，其特征在于，包括：

路况分类结果获取模块，用于经由所述路况识别模型处理，获得用于辨识交通拥堵与否的路况分类结果，所述处理包括：根据相对于车辆的背景变化判断路况拥堵与否。

6.根据权利要求5所述的基于图像的交通拥堵识别装置，其特征在于，所述路况识别模型包括：

视频分类单元，用于根据时序特征编码结果进行路况分类。

7.根据权利要求5所述的基于图像的交通拥堵识别装置，其特征在于，所述装置还包括用于对所述影像特征提取网络进行训练的自监督训练模块；

所述自监督训练模块具体包括：

8.根据权利要求5~7任一项所述的基于图像的交通拥堵识别装置，其特征在于，所述装置还包括用于对所述路况识别模型进行训练的联合训练模块；

所述联合训练模块具体包括：

模型参数学习单元，用于基于融合后的影像信息对所述路况识别模型的参数进行更新，完成训练。

9.一种电子设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行权利要求1~4任一项所述的基于图像的交通拥堵识别方法。

10.一种计算机数据存储介质，其特征在于，所述计算机数据存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行权利要求1~4任一项所述的基于图像的交通拥堵识别方法。