CN115345946A

CN115345946A - 基于深度学习的汽车全景影像系统的外参标定方法、装置

Info

Publication number: CN115345946A
Application number: CN202211031735.1A
Authority: CN
Inventors: 刘春霞; 杨波; 王媛; 侯欢欢
Original assignee: Beijing Yinwo Automotive Technology Co ltd
Current assignee: Beijing Yinwo Automotive Technology Co ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-15

Abstract

本发明提供了基于深度学习的汽车全景影像系统的外参标定方法、装置，其可以提升汽车全景影像系统的外参标定的效率和准确率，方法包括以下步骤：将棋盘格标定板置于汽车全景影像系统的视野中，汽车全景影像系统的4路相机分别采拍摄包含棋盘格标定板的图像；将4路相机拍摄的图像拼接成一张图像；对拼接得到的图像进行预处理；基于神经网络构建并训练角点检测模型，将预处理后的拼接图像输入训练好的角点检测模型，输出角点的图像坐标；通过标定获得相机内参，结合角点的图像坐标和在车辆坐标系的世界坐标，采用最小二乘法拟合得到相机的外参。

Description

基于深度学习的汽车全景影像系统的外参标定方法、装置

技术领域

本发明涉及人工智能和汽车辅助驾驶中的图像处理技术领域，具体涉及基于深度学习的汽车全景影像系统的外参标定方法、装置。

背景技术

随着车载相机的逐渐普及与发展，360度全景系统的功能配置率逐年升高，该功能主要是为了能让驾驶员直观的感受车周围的环境，预判车周障碍物的距离，决策行驶策略。全景功能主要通过在车辆配置能在视场上覆盖车身的广角鱼眼镜头，通过算法把同一时刻的4个鱼眼镜头的视频拼接成车身俯视图，并显示到中控屏上，方便驾驶员观看。全景功能的实现离不开对所有相机外参的准确标定，外参越准确拼接效果越好。因此车厂对车载相机参数的标定要求越来越高，速度和准确率是两个主要的功能要求。传统的图像处理算法的计算速度慢，准确率不高导致一辆车多次标定才能成功，甚至有多次标定也不成功的情况，严重影响车厂生产效率。

发明内容

针对上述问题，本发明提供了基于深度学习的汽车全景影像系统的外参标定方法、装置，其可以提升汽车全景影像系统的外参标定的效率和准确率。

其技术方案是这样的：基于深度学习的汽车全景影像系统的外参标定方法，包括以下步骤：

将棋盘格标定板置于汽车全景影像系统的视野中，汽车全景影像系统的4路相机分别采集包含棋盘格标定板的图像；

将4路相机拍摄的图像拼接成一张图像；

对拼接得到的图像进行预处理；

基于神经网络构建并训练角点检测模型，将预处理后的拼接图像输入训练好的角点检测模型，输出角点的图像坐标；

通过标定获得相机内参，结合角点的图像坐标和在车辆坐标系的世界坐标，采用最小二乘法拟合得到相机的外参。

进一步的，所述的对拼接得到的图像进行预处理，包括：将图像的像素进行归一化处理。

进一步的，基于卷积神经网络构建角点检测模型，所述角点检测模型包括顺序设置的mobilenet-v2网络层、多尺度特征拼接层以及全连接层，所述mobilenet-v2网络层用于提取特征，所述多尺度特征拼接层包括多个并行支路和拼接模块，每个并行支路包括若干倒置残差模块，提取的特征经过所述并行支路得到多尺度的特征图，经多个所述并行支路获得的多尺度的特征图通过所述拼接模块拼接在一起，拼接得到的特征图输入所述全连接层，输出角点坐标信息。

进一步的，所述倒置残差模块包括顺序设置的：

第一1×1标准卷积，用于对特征进行升维；

3×3深度卷积，用于学习特征；

第二1×1标准卷积，用于对特征进行降维；

Addition单元，用于对所述倒置残差模块的输入和第二1×1标准卷积的输出进行Addition操作，得到所述倒置残差模块的输出。

进一步的，对已有的样本图像增加随机噪声点，生成新的样本图像，扩大样本集合。

进一步的，从样本集合中随机选择已有的样本图像，对选取的样本图像做设定角度范围内的平移和/或旋转，生成新的样本图像，扩大样本集合。

进一步的，在训练角点检测模型时，采用的损失函数为wingloss，当模型检测到的角点坐标与实际坐标的误差值小于设定的误差值w时，采用对数损失函数，当误差值大于等于设定的误差值w时，采用L1正则化的损失函数。

进一步的，角点坐标在图像坐标系和车辆坐标系之间的关系如下：

其中，(u,v)为角点坐标在图像坐标系下的坐标，(X,Y,Z)为角点坐标在车辆坐标系下的坐标，W_N表示为相机的内参矩阵，W_w为相机的外参矩阵，R、T分别为相机坐标系和车辆坐标系之间的旋转矩阵和平移向量。

一种计算机装置，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行上述的一种基于深度学习的汽车全景影像系统的外参标定方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序，所述程序用于执行上述的一种基于深度学习的汽车全景影像系统的外参标定方法。

本发明对基于深度学习的汽车全景影像系统的外参标定方法，采用深度学习的方式，实现端到端计算，通过输入包含棋盘格标定板的图像，直接计算出角点坐标，而且深度学习的角点检测模型，对图像的质量要求低，有的比较严重的模糊区域也能精确的计算出角点；一辆车的汽车全景影像系统为了实现全景功能，一般会配置4个相机，因此会同时产生4张图像来进行标定，而每张图像中会有3个或更多的棋盘区域，因此传统的图像处理方法，会依次处理最少12个区域，并依次计算出这些区域的棋盘角点，这样会导致计算速度很慢，本专利采用图像拼接的方式，将4个相机采集到的鱼眼图像拼接到一张大图上，每次标定只需要直接计算拼接大图上的所有角点就可以实现标定，进一步提升汽车全景影像系统的外参标定的效率。

附图说明

图1为实施例中的一种基于深度学习的汽车全景影像系统的外参标定方法；

图2展示了汽车全景影像系的前侧相机拍摄棋盘格的示意图；

图3为实施例中的一种基于深度学习的角点检测模型的网络结构；

图4为实施例中的倒置残差模块对示意图；

图5是图像坐标系和车辆坐标系的示意图；

图6展示了一张典型的出现伪棋盘格的图像；

图7展示了现有技术识别图6中角点的结果示意图；

图8为一个实施例中计算机装置的内部结构图。

具体实施方式

见图1，本发明的一种基于深度学习的汽车全景影像系统的外参标定方法，包括以下步骤：

步骤1：将棋盘格标定板置于汽车全景影像系统的视野中，汽车全景影像系统的4路相机分别采集包含棋盘格标定板的图像；

步骤2：将4路相机拍摄的图像拼接成一张图像；

步骤3：对拼接得到的图像进行预处理；

步骤4：基于神经网络构建并训练角点检测模型，将预处理后的拼接图像输入训练好的角点检测模型，输出角点的图像坐标；

步骤5：通过标定获得相机内参，结合角点的图像坐标和在车辆坐标系的世界坐标，采用最小二乘法拟合得到相机的外参。

对于相机的外参标定，通常会采用棋盘格标定板来进行标定，首先需要计算图像里棋盘格的角点坐标，计算角点坐标是整个标定流程里耗时最多、对标定准确率影响最大的一个步骤。如果用传统的图像处理方法来计算角点，这种方式对采集的图像的质量要求很高，图像中的棋盘要清晰，否则计算过程有很多干扰，导致角点计算错误，而且传统图像处理方法计算角点有很多步骤，计算速度慢。本实施例中通过采用深度学习的角点检测模型，实现端到端计算，通过输入图像，直接计算出角点坐标，而且深度学习的方式对图像的质量要求低，有的比较严重的模糊区域也能精确的计算出角点。

现有技术中，通过图像处理方法来计算角点，对图像质量要求很高，实际采集图像时，不能有反光、遮挡的现象。但是即使以上条件都满足，由于边角的棋盘距离相机远及鱼眼相机图像畸变太大的原因，导致图像边角的棋盘会变得很模糊，采用图像处理的方法计算角点需要调整各种参数，甚至有时调整参数也不起作用，需要反复检测。因此用传统的图像处理的方法来计算角点，不仅准确性低，而且耗时，影响产线的生产效率。采用本发明中的角点检测模型，可以克服这些问题，在轻微的反光、轻微的遮挡、边角棋盘模糊等现象下角点都可以准确识别，还可以避免调参、避免反复检测、真正的实现端到端检测。

通常一辆车为了实现全景功能，一般会配置4颗车载鱼眼相机，因此会同时产生4张图像来进行标定，而每张图像中会有3个或更多的棋盘区域，因此传统的图像处理方法，会依次处理最少12个区域，并依次计算出这些区域的棋盘角点，这样会导致计算速度很慢。本专利采用图像拼接的方式，将4个鱼眼相机采集到的鱼眼图像拼接到一张大图上，每次标定只需要直接计算这张大图上的所有角点就可以了。

具体在本发明的一个实施例中，在步骤1：将棋盘格标定板置于汽车全景影像系统的视野中，汽车全景影像系统的每个鱼眼相机的视野中会有3个或更多的棋盘区域，汽车全景影像系统的4路相机分别采集包含棋盘格标定板的图像，图2展示了汽车全景影像系的前侧相机拍摄棋盘格的示意图，棋盘对角点在车辆坐标系中的世界坐标是已知的，因为棋盘是按照提前规划的位置摆放的，能知道每个棋盘角点在车辆坐标系的坐标值。

在步骤2，将4路相机拍摄的图像拼接成一张图像，采用图像拼接的方式，将4个鱼眼相机采集到的鱼眼图像拼接到一张大图上，每次标定只需要直接计算这张大图上的所有角点即可，提高了标定的效率。

在步骤3中，对拼接得到的图像进行预处理，将图像的像素进行归一化到[0,1]。

在步骤4中，基于卷积神经网络构建角点检测模型，基于深度学习的角点检测模型的网络结构如图3所示，角点检测模型包括顺序设置的mobilenet-v2网络层1、多尺度特征拼接层2以及全连接层3，mobilenet-v2网络层1用于提取特征，多尺度特征拼接层2包括多个并行支路和拼接模块，每个并行支路包括若干倒置残差模块，图3中的多尺度特征拼接层2共有4条并联支路，分别具有1、2、3、4个倒置残差模块200，提取的特征经过并行支路得到多尺度的特征图，经多个并行支路获得的多尺度的特征图通过拼接模块拼接在一起，拼接得到的特征图输入全连接层，输出角点坐标信息。

角点检测模型就是用多层卷积提取特征，输出层使用线性操作来回归的坐标点，每张图像的坐标点按顺序标注每个点再归一化到(0，1)作为标签值，角点检测模型使用回归的方式计算所有的角点，角点检测模型的backbone网络采用的是轻量级的mobilenet-v2结构，然后经过多尺度特征拼接层的1个或多个倒置残差模块得到不同尺度的特征图，再将多尺度特征进行拼接，使角点检测模型更加适应图像上不同大小的棋盘格，对于图像上不同大小的棋盘格有更好的识别效果。

具体在本实施例中，如图4所示，倒置残差模块包括顺序设置的：

第一1×1标准卷积201，用于对特征进行升维；

3×3深度卷积202，用于学习特征；

第二1×1标准卷积203，用于对特征进行降维；

Addition单元204，用于对倒置残差模块的输入和第二1×1标准卷积203的输出进行Addition操作，得到倒置残差模块的输出。

倒置残差模块有三个卷积，第一个是一个1×1标准卷积，用来升维，然后是由3×3深度卷积+1×1标准卷积构成的深度可分离卷积，用来学习特征和降维，倒置残差模块的输出和输入再进行一个Addition操作，由于和ResNet网络中维度升降方式相反，所以称为倒置残差。中间升维的作用是让深度可分离卷积得到更充分的学习，计算量相对于标准卷积来说也不大，而且这种升降维的方式非常灵活，可以大大减少计算量。

构建完的角点检测模型需要进行训练才可以得到理想的检测效果，为了提升模型的泛化能力，需要增加样本的数量，但是一般车厂产线安排采集标定图像比较困难，所以我们选择如下图像增广的方式来增加样本图像。选择的增广方式是：1)给已有图像增加随机噪声点，做成新的样本图像；2)随机选择部分图像，对这些图像做一定范围内的轻微平移和轻微旋转，做成新的样本图像，这里需要注意平移距离在10个像素之内，旋转是以图像中心为轴做旋转，旋转角度在[-5,5]度之内，注意棋盘区域不能越出图像区域，通过以上方式对用于训练的练角点检测模型的样本进行增广，扩大样本集合。

在本实施中，在训练角点检测模型时，采用的损失函数为wingloss，当模型检测到的角点坐标与实际坐标的误差值小于设定的误差值w时，采用对数损失函数，当误差值大于等于设定的误差值w时，采用L1正则化的损失函数，表示为如下：

其中，c＝w-w*ln(1+x/ε)，c为一个常数，w和ε是常数，x表示模型检测到的角点坐标与实际坐标的误差值，采用这种loss的原因是因为不同位置的点的训练难度不同，位于中间区域的棋盘的点易训练，位于边缘棋盘的点难训练。训练初期，所有的点的误差都大，都采用L1正则化的损失函数，训练后期大部分点的误差变小，但是还不够准确，这时候采用对数函数放大loss，使这些点计算的更加准确。在相同的训练阶段，难训练的点的误差一般会比易训练的点的误差大，大误差采用L1正则化的损失函数，小误差采用对数损失函数，这样可以恢复不同大小误差之间的平衡，使训练更加稳定。

在得到训练好的角点检测模型后，将预处理后的拼接图像输入训练好的角点检测模型，输出角点的图像坐标；

在本实施例中，在步骤5中：通过标定获得相机内参，结合角点的图像坐标和在车辆坐标系的世界坐标，采用最小二乘法拟合得到相机的外参。

角点检测完成之后，需要矫正相机的外参，相机的内参对于购买到相机的用户而言一般是已知确定的，或者通过标定方法获得，标定方法可以采用常见的张正友标定法，相机的内参与摄像头内部结构有关，包括摄像头光轴中心、焦距、每个像素的实际距离、畸变系数等。相机的外参与摄像头的安装有关，包括安装的位置、角度等。一般相机在安装的过程会有安装误差，所以需要通过外参标定过程来矫正外参，得到精确的外参值。

图5是图像坐标系和车辆坐标系的示意图，其中车辆坐标系的原点是车身在地面投影的中心点，图5是俯视图，Z轴是垂直向上的，图5中左侧图形表示车辆，Vehicle_Y为车辆坐标系的Y轴，Vehicle_X为车辆坐标系的X轴，Img_V和Img_U分别为图像坐标系的坐标轴，角点坐标在图像坐标系和车辆坐标系之间的关系如下：

其中，(u,v)为角点坐标在图像坐标系下的坐标，(X,Y,Z)为角点坐标在车辆坐标系下的坐标，W_N表示为相机的内参矩阵，W_w为相机的外参矩阵，R、T分别为相机坐标系和车辆坐标系之间的旋转矩阵和平移向量，由于不同摄像头对应的内参模型不同，W_N也不相同。

已知棋盘角点的世界坐标，因为棋盘是按照提前规划的位置摆放的，能知道每个棋盘角点在车辆坐标系的坐标值，现在已知相机的内参，棋盘角点在图像坐标系的坐标(u,v)，通过角点检测模型获得的棋盘角点在世界坐标系的坐标(x,y,z)，用最小二乘法拟合即可得到相机外参。

本发明的方法相对于现有技术具有以下优点：

1.传统方法需要计算4张图像，每路相机分别计算1次，标定速度比较慢。本发明的方法把4张图拼成一张图像，输入模型得到所有的角点，只需要计算1次，速度比较快。

2.传统方法计算过程对干扰很敏感，有的图像人眼可能都看不出来，但是计算过程中会出现意想不到的伪棋盘格，图6展示了一张典型的出现伪棋盘格的图像，图6的中间部分为棋盘格，图6的右侧具有人眼难以分辨的伪棋盘格，图6、7中伪棋盘格添加了圆圈以便于识别，但是经过传统的方法，会出现如图7的识别效果，这种伪棋盘格需要经过多次循环计算来排除，而采用本发明的深度学习的方法不会出现这种情况，采用端到端的计算，计算一次就得到角点。

3.车厂下线标定的产线中，棋盘的摆放位置和车的位置等标定环境都是提前设置好的，所以每辆车采的图，棋盘位置不会有太大的变化，所以对模型的泛化性能要求不高，每个产线只需要采1000张左右的图就可以满足模型的训练，从而本发明的方法从模型训练上来说易于实现，且识别效果好。

在本发明的实施例中，还提供了一种计算机装置，其包括：包括处理器、存储器以及程序；

程序存储在存储器中，处理器调用存储器存储的程序，以执行上述的一种基于深度学习的汽车全景影像系统的外参标定方法。

该计算机装置可以是终端，其内部结构图可以如图8所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于深度学习的汽车全景影像系统的外参标定方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机装置的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机装置外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机装置的限定，具体的计算机装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质被配置成存储程序，程序被配置成执行上述的一种基于深度学习的汽车全景影像系统的外参标定方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

以上对本发明所提供的在一种基于深度学习的汽车全景影像系统的外参标定方法、计算机装置、计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.基于深度学习的汽车全景影像系统的外参标定方法，其特征在于，包括以下步骤：

将4路相机拍摄的图像拼接成一张图像；

对拼接得到的图像进行预处理；

2.根据权利要求1所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：所述的对拼接得到的图像进行预处理，包括：将图像的像素进行归一化处理。

3.根据权利要求1所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：基于卷积神经网络构建角点检测模型，所述角点检测模型包括顺序设置的mobilenet-v2网络层、多尺度特征拼接层以及全连接层，所述mobilenet-v2网络层用于提取特征，所述多尺度特征拼接层包括多个并行支路和拼接模块，每个并行支路包括若干倒置残差模块，提取的特征经过所述并行支路得到多尺度的特征图，经多个所述并行支路获得的多尺度的特征图通过所述拼接模块拼接在一起，拼接得到的特征图输入所述全连接层，输出角点坐标信息。

4.根据权利要求3所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：所述倒置残差模块包括顺序设置的：

第一1×1标准卷积，用于对特征进行升维；

3×3深度卷积，用于学习特征；

第二1×1标准卷积，用于对特征进行降维；

5.根据权利要求1所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：在训练角点检测模型时，对已有的样本图像增加随机噪声点，生成新的样本图像，扩大样本集合。

6.根据权利要求1所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：在训练角点检测模型时，从样本集合中随机选择已有的样本图像，对选取的样本图像做设定角度范围内的平移和/或旋转，生成新的样本图像，扩大样本集合。

7.根据权利要求1所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：在训练角点检测模型时，采用的损失函数为wingloss，当模型检测到的角点坐标与实际坐标的误差值小于设定的误差值w时，采用对数损失函数，当误差值大于等于设定的误差值w时，采用L1正则化的损失函数。

8.根据权利要求1所述的基于深度学习的汽车全景影像系统的外参标定方法，其特征在于：角点坐标在图像坐标系和车辆坐标系之间的关系如下：

9.一种计算机装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的一种基于深度学习的汽车全景影像系统的外参标定方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质用于存储程序，所述程序用于执行权利要求1所述的一种基于深度学习的汽车全景影像系统的外参标定方法。