CN111325061A

CN111325061A - 一种基于深度学习的车辆检测算法、设备及存储介质

Info

Publication number: CN111325061A
Application number: CN201811534105.XA
Authority: CN
Inventors: 朴安妮; 张玉双
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-06-23
Anticipated expiration: 2038-12-14
Also published as: CN111325061B

Abstract

本申请涉及一种基于深度学习的车辆检测算法、设备及存储介质。该算法包括：数据准备阶段；模型训练阶段，构建检测和分割协同模型：利用深度学习网络从原始图像中提取特征，获得一组特征图；将获得的特征图卷积、插值，回归获得和原始图像尺寸一致的分割图，将获得的特征图再卷积，回归得到检测框及标签；利用损失函数计算回归获得的结果与人工标记的结果之间的损失，更新权值，并最终获得模型；预测阶段，将选自监控视频的部分帧数图像输入所述训练模型，即可进行分割和检测。该算法设计简单、效率高、可重复性高、适应性强。

Description

一种基于深度学习的车辆检测算法、设备及存储介质

技术领域

本申请属于计算机视觉领域，涉及图像中物体的语义分割和检测，具体涉及一种基于深度学习的车辆检测算法、设备及存储介质。

背景技术

现有的车辆检测方法主要有两类，一类是基于传统视觉方法搭建的模型，以显著边界或者特定颜色区域等特征，进行车辆检测；另一类是利用特殊化学元素标记，通过配套的仪器扫描，得到化学元素标记区域，即车辆区域。

而传统车辆检测方法存在的主要问题在于，物流环境嘈杂，车辆颜色、形状不统一，而且很容易受到生产作业中的人和货物等应用场景中其它物体的干扰，因此，基于传统视觉算法的检测方案容易受环境光、背景等影响，在复杂的应用场景下，准确率、效率等检测效果不尽如人意。除此之外，传统视觉算法及设计策略需要囊括各种多变的背景及附加情况，不仅算法复杂、模型也需要包括各种情况，亦非常复杂；而基于化学标记的方式，不仅需要预先对待检测车辆进行额外的标记，还需要配套扫描分析设备才能进行识别。

而不同场景下车辆的检测与识别，语义分割和识别、端到端的解决技术方案，步骤复杂容易产生误差累积、效率低等诸多不足之处，以待改进。

鉴于现有技术中的上述缺陷或不足，本申请的发明者期望提供一种基于更优化的全卷积神经网络模型快速且准确的识别车辆的算法及设备，尤其是车辆识别中的车辆上部分区域的分割和检测算法，克服了上述现有技术不足，仅通过图像，无需额外的人工干预和复杂的策略设计，就可以实现图像的语义分割与检测，即实现对车辆的智能测定。

发明内容

基于上述目的，本申请创新性地从复杂背景中定位并切分出车辆的特定区域，例如车厢、车牌，以及车厢的开关门状态，以便于更好的识别车辆状态和挖掘车辆信息或行为；同时，构建一种检测和分割协同模型，利用Resnet为基本骨架的全卷积神经网络模型提取图像特征，卷积和最接近原则插值分割图像，而且利用特征金字塔网络FPN对ResNet获得的特征进行卷积，回归得到目标的位置和标签优化权值，训练产生识别模型，由此仅需要输入图像一次，就可以获得目标物体检测和语义分割两组结果，相比其他方法，效率大幅度提升，对于自动驾驶、行为检测、车牌OCR识别等应用很重要。

第一方面，本申请提供了一种基于深度学习的车辆检测算法，所述算法包括数据准备、模型训练和预测阶段，其中，

数据准备阶段，其包括：

从视频图像中获取原始图像；

对部分原始图像进行处理；以及

人工标记，其包括：对所述部分原始图像进行逐像素标记；和对所述部分原始图像中部分区域进行位置和类别标记，以获得相应人工标记数据，作为训练阶段的模型学习数据；

模型训练阶段，其包括：

从所述部分原始图像中提出特征获得特征图；

分割阶段，利用卷积和最接近原则插值处理所述的特征图，作为分割结果，其中，所述分割结果的尺寸与输入图的尺寸一致；

检测阶段，利用特征金字塔网络FPN方法，卷积和回归处理所述特征图，获得检测框的位置及标签；

利用损失函数计算回归获得的结果与人工标记的结果之间的损失，更新权值，并获得训练后具有优化参数的分割和检测协同模型；

预测阶段，其包括：将选自监控视频的部分帧数图像输入所述训练后的分割和检测协同模型，利用所述训练后的分割和检测协同模型对于所述待检测视频流中的图像进行自动分割和预测，即，算法结束。

具体地，所述车辆检测算法中，所述部分区域包括车厢、车牌、车门或车灯等可以体现车辆行驶与否状态特征的区域；进一步地，所述部分区域还包括车厢门的开或关、车灯的开或关状态；

所述训练阶段包括构建分割和检测协同模型，训练所述分割和检测协同模型，并获得具有优化参数的协同模型；其中，所述分割和检测协同模型包括Resnet骨架、FCN和FPN。

所述人工标记，可以对任意一张所述部分原始图像中的一个或多个部分区域进行标记，以分别获得一组包括一个或多个部分区域标记信息的人工标记图像数据；

通过帧差法从来自视频流中的原始图像中筛选出所述部分原始图像；所述处理方式选用数据增广方式，其中所述数据增广方式包括中心旋转、高斯模糊、加噪和HSV通道颜色变换及它们的任意组合；

所述人工标记采取逐像素标记获得组像素标签数据，利用标记的部分区域边界上的多个顶点对所述部分原始图像做掩膜操作，即在全图范围内，对标记的所述顶点构成的边界区域内部赋相应标签，背景赋‘0’，由此得到与原图大小一致的像素级标记图像；

所述提取特征是采用ResNet算法作为基本骨架，提取特征；

所述分割采用全连接神经网络(FCN)算法进行；所述检测采用特征金字塔网络FPN算法进行。

进一步地，所述部分帧数的输入图像是经过特定筛选条件的图像。更具体地，采用帧差法判断所述部分原始图像的帧与帧之间是否存在超过设定阈值的运动；若存在超过设定阈值的运动，将所述帧的图像确定为输入训练模型的图像。所述阈值可以是运动幅度。

所述分割和检测协同模型经过所述训练阶段获得优化的参数。

基于上述技术方案，所述算法需要：准备三组数据：原始图像、人工逐像素标记图像以及包括部分区域的位置标签的人工处理图像；构建并训练模型：Resnet作为基本骨架提取特征，然后再利用卷积和最接近原则插值处理，获得一组包含所述部分区域的特征图；在所述训练后的具有优化参数的分割和检测协同模型下，在预测阶段，采用利用所述训练后模型中的FCN自动分割，FPN检测大量的输入图像，全程无需人工干预，就可以端对端的实现图像的语义分割和检测，实现对视频图像的智能检测。

第二方面，本申请还提供了一种设备，包括一个或多个处理器和存储器，其中存储器包含可由所述一个或多个处理器执行的指令以使得所述一个或多个处理器执行根据本申请各种实施方式提供的识别算法。

第三方面，本申请还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行根据本申请各实施方式提供的方法。

有益效果

与现有技术相比较，本申请提供的基于深度学习的车辆信息识别算法，基于端对端识别技术，构建并训练了检测和分割协同模型，从而克服了上文所述现有车辆识别方法的不足，而且达到下文所述的几方面的技术效果：

1、通过检测分割协同训练，使待检测视频中的图像在不做额外标记的情况下，实现图像语义分割；

2、根据相对位置，可以将图像中车辆和车辆的部分区域匹配，例如车牌匹配，在对车牌和车辆匹配后，还可根据需要过滤或者保留当前图像中感兴趣的车辆，对车辆的信息或行为的进一步挖掘，有重要的初步筛选作用；

3、效率大幅度提升：仅将原始图像输入所述训练后的分割和检测协同模型一次，即可获得车辆检测和语义分割两组结果，而这两组结果是计算机视觉中最重要的图像信息之一，此结果对多种应用场景下车辆的行为检测、车牌OCR以及进一步自动驾驶、智能化控制车辆等应用有重要的作用；

4、可重复性强：与基于传统视觉算法中部分区域的分割算法相比较，所述通过标记视频监控图像数据学习得到训练后的模型，并利用此训练后的协同模型识别和预测结果，当场景变化时，只需按照本申请中提出的方法标记新的相似场景的数据，例如重新标注形状不同的车厢，再利用本领域常用的深度学习模型训练，重新训练本申请中提出的模型，无需额外人为干预，即可端对端的完成其他场景中的相似任务；

5、适用性强，无需额外硬件支持：与化学元素标记的车辆识别算法相比，本申请的技术方案无需引入额外的设备，仅需现场监控图像即可完成车辆状态或车辆部分区域的识别任务。

附图说明

为了更清晰地了解本申请，请参照以下附图所作的对非限制性的示例性说明，本文将对本申请的特征、目的和优点做全面的说明：

图1为本申请提供的一种基于深度学习的车辆检测算法中所述检测和分割协同模型一种实施方式的结构示意图。

图2-图6为本申请所述的一种基于深度学习的车辆检测算法中一种实施方式的结构示意图，其中，部分区域包括车辆的车厢和车牌。

图7-图11为本申请所述的一种基于深度学习的车辆检测算法中另一种实施方式的结构示意图，其中，部分区域包括车辆的车厢和车牌。

图12为本申请提供的一种设备的一种实施方式，包括一个或多个处理器(CPU)和存储器。

具体实施方式

下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅仅用于解释本申请的技术方案、发明构思，而非对本申请所做的限制性说明。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。其它未明确示出或未明确说明的部分均应理解为现有技术常规手段或方案，其结合本申请示出的技术特征可以实现本申请的技术效果。

需要说明的是，在不冲突的情况下，本申请中的实施方式及实施例中的具体的附加技术特征可以相互组合或替换。下面将参考附图并结合实施例来详细说明本申请。

本申请提供的车辆检测算法，该方法包括以下步骤：数据准备、训练和预测阶段，其中：

数据准备阶段，其包括：从视频图像中获取原始图像，该原始图像为在特定的场景里获得的视频流中的图像，实践中，特定的场景例如货车作业场所，如中转场；对部分原始图像进行处理；以及人工标记，分别对所述部分原始图像进行逐像素标记，和对该部分原始图像中车辆的部分区域的位置和类别进行标记(例如，采用开源标记工具做标记)，以获得相应人工标记数据，作为训练阶段的模型学习数据；

模型训练阶段，构建检测和分割协同模型：利用深度学习网络从该部分原始图像中提取特征，例如图像细节和语义信息特征，获得一组特征图；将获得的特征图卷积、插值回归获得和该部分原始图像尺寸一致的分割图；将获得的特征图卷积、回归得到检测框及标签；利用损失函数计算回归获得的结果与人工标记的结果之间的损失，利用深度学习的常用训练方式更新权值，并训练后的获得检测和分割协同模型；

预测阶段，将选自视频的部分帧数图像输入所述训练后的检测和分割协同模型，即可进行自动分割和检测。

人工标记，可以对任意一张该部分原始图像中的一个或多个部分区域进行标记，以分别获得一组包括一个或多个部分区域标记信息的人工标记图像数据，该一组图像数据包括分割标记和检测标记；

处理方式选用数据增广方式，其中数据增广方式包括中心旋转、高斯模糊、加噪和HSV通道颜色变换及它们的任意组合；

所述人工标记采取逐像素标记获得组像素标签数据，利用标记的部分区域边界上的多个顶点对该部分原始图像做掩膜操作，即，在全图范围内，对标记的所述顶点构成的边界区域内部赋相应标签，背景赋‘0’，由此得到与原图大小一致的像素级标记图像；

所述特征的提取可以采用ResNet算法作为基本骨架，提取特征；

所述分割采用全连接神经网络FCN算法进行；所述检测采用特征金字塔网络FPN算法进行。

所述部分帧数的输入图像可以是经过筛选的图像，在训练阶段，筛选可以人为手工筛选有感兴趣目标的图像；在训练测试或预测阶段，筛选是对视频流中的帧图像进行筛选，采用帧差法一定程度去除视频中前后帧间的冗余，从而减少计算。更具体地，可以是超过某一设定阈值的图像，例如，经过运动幅度的筛选，将包括运动幅度超过设定阈值的区域的图像确定为输入训练模型的图像。

基于上述技术方案，所述算法需要：准备三组数据：原始图像、人工逐像素标记图像以及包括部分区域位置标签的人工处理图像；构建训练模型：Resnet作为基本骨架提取特征，然后再利用卷积和最接近原则插值处理，获得一组包含所述部分区域的特征图；在构建的训练模型下，在检测阶段，基于所述深度学习模型及参数，对上述特征图采用FCN自动分割，并利用FPN检测上述特征图，全程无需人工干预，就可以端对端的实现图像的语义分割和检测，以实现对视频图像的智能预测。

具体地，正如图1所示的一种基于深度学习的车辆检测算法中的检测和分割协同模型一种实施方式的结构示意图。

如图1所示，从视频中获得的图像，经过Resnet骨架提取特征，在经过concat操作和上采样获得与原图大小一致的像素级标记图像作为分割结果；检测阶段，利用特征金字塔网络FPN的方法，卷积和回归处理所述特征图，获得检测框的位置及标签。

再者，图2-图6为本申请所述的一种基于深度学习的车辆检测识别算法的示意流程图，其中，部分区域特征是车辆的车厢和车牌，其中还可以进一步标记车厢门是开或关闭状态。其中图2-图6为一种在库房装卸货现场的车辆检测的识别算法，1表示待检测的车辆，车厢门(未示出)处于打开状态，2是车牌号，3表示车厢门打开时能观察到的各种包裹或货物边界。正如图2-图6所示，将图2中的车辆的部分区域做逐像素标记，得到图3，根据训练好的检测和分割协同模型，该部分原始图像一经输入，可获得图4所示的分割结果和图5和图6所示的两个车辆的检测结果。

此外，图7-图11为本申请所述的一种基于深度学习的车辆检测算法中另一种实施方式的结构示意图，其中，部分区域包括车辆的车厢和车牌，车厢门处于关闭或打开状态，标记打开和关闭状态，为了判断车辆的作业状态，判断车辆的作业状态后，可以对相应状态做进一步的分析。比如，如果判断车厢门出于打开的状态，可以开启判断车厢内包裹摆放是否规范、测量车厢内的装载率等进一步的分析。原始图像在不做额外标记的情况下，一经输入，就可以实现实例区分的语义分割(instance-aware segmentation)。从图7-图11可以看出，两个车辆部分区域车厢的车门(未明确示出)一个处于打开状态，一个处于关闭状态，而且两辆车的位置在图像上无明显距离，即是相连通的，无法进行空间区分，我们利用检测获得车厢的图片结果，分别对检测结果做切割，即可获得实例分割结果图10和图11。

最后，我们还可以根据相对位置，将车辆和车牌匹配，根据需要过滤或保留当前图像中感兴趣的目标图像，进而对特定车辆的状态或信息进行跟踪和预测。

应当了解的是，该算法还适用于多种应用场景，在车辆特征一致的情况下，因本发明提供的模型具有泛化能力，可以直接应用；在车辆特征不一致的情况下，仅需要采集新场景下的图像，做人工标记后，利用新录入的图像对该模型微调，即以原模型为预训练模型，初始化模型参数，以新数据为模型训练的输入数据，再次训练模型，模型训练完毕，模型即可应用于新场景。

考虑车辆行驶与否，可以理解为监控摄像头范围内的某停车位是否有车辆停靠，是可以通过监控视频确定并理解为监控摄像头范围内的某一位置或区域(例如，停车位)是否存在车辆，车厢是开/关(对应于是否在装载或卸货作业中)，由此可以检测车辆状态。

具体地，在物流行业中，通常应用的货车场景下，车辆通常都是成批采购，外形差异非常小，结合其他常规的技术，检测出的车牌进行识别，从而获得车辆的唯一识别号，进而搜索和追踪车辆。

图12为本申请提供的一种设备的一种实施方式，包括一个或多个处理器(CPU)1和存储器。其可以根据存储在只读存储器(ROM)2中的程序或者从存储部分8加载到随机访问存储器(RAM)3中的程序而执行各种适当的动作和处理。在RAM 3中，还存储有设备操作所需的各种程序和数据。CPU、ROM以及RAM通过总线4彼此相连。输入/输出(I/O)接口5也连接至总线。

以下部件连接至I/O接口5：包括键盘、鼠标等的输入部分6；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分7；包括硬盘等的存储部分8；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分9。通信部分9经由诸如因特网的网络执行通信处理。驱动器10也根据需要连接至I/O接口5。可拆卸介质11，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器10上，以便于从其上读出的计算机程序根据需要被安装入存储部分。其中存储器包含可由所示的一个或多个处理器执行的指令以使得所述一个或多个处理器执行根据本申请各种实施方式提供的识别算法，例如，图1、图2-6或图7-11所示的识别算法。

特别地，根据本申请的实施方式，上述任一实施方式描述的识别算法可以被实现为计算机软件程序。例如，本申请的实施方式包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于基于深度学习的网络模型的车辆信息的识别算法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。

作为又一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式的设备中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。该计算机可读介质存储有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中对视频流或视频流的图像中车辆的智能检测。例如，所述电子设备可以实现如图1中所示的检测和分割协同模型的一种实施方式，从视频中获得的图像，经过Resnet骨架提取特征，在经过concat操作和上采样获得与原图大小一致的像素级标记图像作为分割结果；检测阶段，利用特征金字塔网络FPN的方法，卷积和回归处理所述特征图，获得检测框的位置及标签。然后，将人工对如图2或图7所示车辆进行标记，得到标记后的图3或图9。根据训练好的检测和分割协同模型，该部分原始图像一经输入，可获得图4或图10所示的分割结果和图5-6或图10-11所示的两种车辆的检测结果。从而得到预测结果。

利用训练好的检测和分割协同模型，再次预测某些视频或图像时，只需输入图像即可得到智能的检测结果。

附图中的流程示意图和框图，图示了按照本申请一些实施方式的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是，流程图中的每个方框、以及结构示意图的组合，可以通过执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以通过专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现。所描述的单元或模块也可以设置在处理器中，例如，各所述单元可以是设置在计算机或移动智能设备中的软件程序，也可以是单独配置的硬件装置。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

以上描述仅为本申请的较佳实施方式以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离本申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度学习的车辆检测算法，其特征在于，所述算法包括数据准备、模型训练和预测阶段，其中，

数据准备阶段，其包括：

从视频图像中获取原始图像；

对部分原始图像进行处理；以及

人工标记，其包括：对所述部分原始图像进行逐像素人工标记；和对所述部分原始图像中部分区域进行位置和类别标记，以获得相应标记数据，作为训练阶段的模型学习数据；

模型训练阶段，其包括构建分割和检测协同模型，并训练所述分割和检测协同模型，所述训练阶段包括：

从所述部分原始图像中提取特征，获得特征图；

分割阶段，利用卷积和最接近原则插值处理所述特征图并作为分割结果，其中，所述分割结果的尺寸与所述输入图的尺寸一致；

检测阶段，利用特征金字塔网络FPN卷积和回归处理所述特征图，获得检测框的位置及标签作为检测结果；

利用损失函数计算回归检测结果与人工标记的结果之间的损失，更新权值，获得训练后的所述分割和检测协同模型；

预测阶段，其包括：将选自监控视频的部分帧数的图像输入所述训练后的分割和检测协同模型，所述训练后的分割和检测协同模型对所述待检测图像进行自动分割和预测。

2.根据权利要求1所述的基于深度学习的车辆检测算法，其特征在于，所述车辆检测算法中，所述部分区域包括车厢、车牌、车门或车灯。

3.根据权利要求2所述的基于深度学习的车辆检测算法，其特征在于，所述分割和检测协同模型包括Resnet骨架、FCN和FPN。

4.根据权利要求1所述的基于深度学习的车辆检测算法，其特征在于，所述人工标记是针对任意一个所述部分原始图像中的至少一个部分区域进行标记，以分别获得一组包括一个或多个部分区域标记信息的人工标记图像数据。

5.根据权利要求1所述的基于深度学习的车辆检测算法，其特征在于，对所述部分原始图像进行处理获得一组增广图像，其中：通过帧差法从原始图像中筛选出所述部分原始图像；处理方式选用数据增广方式，其中所述数据增广方式选自中心旋转、高斯模糊、加噪、HSV通道颜色变换及它们的任意组合中至少一种。

6.根据权利要求1所述的基于深度学习的车辆检测算法，其特征在于，所述人工标记采取逐像素标记获得一组像素标签数据，其中利用标记的部分区域边界上的多个顶点对所述部分原始图像做掩膜操作，在全图范围内，对标记的所述顶点构成的边界区域内部赋相应标签，背景赋‘0’，获得与原图大小一致的像素级标记图像。

7.根据权利要求1所述的基于深度学习的车辆检测算法，其特征在于，在所述模型训练阶段，采用ResNet算法作为基本骨架，提取特征。

8.根据权利要求1所述的基于深度学习的车辆检测算法，其特征在于，所述分割采用全连接神经网络FCN算法进行；所述检测采用特征金字塔网络FPN算法进行。

9.一种设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。