CN116128980A

CN116128980A - 基于自编码器的相机内外参自动标定方法及系统

Info

Publication number: CN116128980A
Application number: CN202310254167.XA
Authority: CN
Inventors: 廖文龙; 马浩博; 何弢; 彭湃
Original assignee: Shanghai Kuyi Robot Co ltd; Kuwa Technology Co ltd
Current assignee: Shanghai Kuyi Robot Co ltd; Kuwa Technology Co ltd
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-05-16

Abstract

本发明提供了一种基于自编码器的相机内外参自动标定方法及系统，包括如下步骤：BEV特征获取步骤：获取目标检测框，从目标检测框生成包含所需信息的BEV特征；内外参标定步骤：根据机器学习模型从BEV特征和相机图像中学习相机的内外参。本发明降低了大规模生产自动驾驶车辆的成本，通过自动化标定内外参省去了人工标定内外参的成本。

Description

基于自编码器的相机内外参自动标定方法及系统

技术领域

本发明涉及计算机视觉的技术领域，具体地，涉及一种基于自编码器的相机内外参自动标定方法及系统。

背景技术

在计算机视觉领域，如果要获取精确的结果，就绕不开相机内外参的标定。获取的图像必须经过内外参的转化，才能进行目标检测、语义分割等下游任务，否则就无法获得精准的坐标和检测结果。而且自动驾驶领域，每辆车的每个摄像头都需要进行标定，需要耗费相当多的时间。

目前在自动驾驶领域，一辆车上会有多个摄像头以观察周围全部的空间，因此每辆车都要花费一个多小时依次标定每组内外参。哪怕仅仅更换摄像头都需要重新标定。如果要量产车辆，就会产生不小的成本。

另外一方面，基于鸟瞰图(BEV)特征的周视感知方案在近些年取得了巨大的进步，周视相机对于目标检测等任务的指标大幅提升，缩小了与激光雷达的差距。

传统的transformer包含一个编码器(encoder)和一个解码器(decoder)。比方说输入中文，encoder会把它变成一些语义特征向量，decoder再把这些语义特征输出成英文，就完成了机器翻译。

而DETR在CV中，则是使用现成的CV模型(一般称为backbone)获取图像特征，再直接使用transformer的decoder获取目标检测框或者语义分割信息。在处理多个相机时，融合信息获取3D目标检测框的效果并不好。

BEVFormer优化了这一流程，首先也是通过backbone获取所有相机的特征，接着使用transformer的encoder，融合多个相机特征，并生成BEV特征，最终将BEV传递给解码器，完成下游任务。

公开号为CN113989385A的中国发明专利文献公开了一种车载相机内外参数标定的方法以及车载终端，其中，方法包括：接收用户对车载终端输入的指令信息，根据指令信息，控制投影设备在车辆挡风玻璃上投影车载终端中预先存储的多张第一标定图片,多张第一标定图片是从不同拍摄角度对同一参考物进行拍摄得到的，获取车载相机拍摄多张第一标定图片得到的多张第二标定图片，基于多张第二标定图片，计算车载相机的内外参数。

针对上述中的相关技术，发明人认为BEVFormer目标检测效果很好，但是也需要相机内外参才能正确标定结果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于自编码器的相机内外参自动标定方法及系统。

第一方面，本发明提供了一种基于自编码器的相机内外参自动标定方法，包括如下步骤：

BEV特征获取步骤：获取目标检测框，从目标检测框生成包含所需信息的BEV特征；

内外参标定步骤：根据机器学习模型从BEV特征和相机图像中学习相机的内外参。

优选地，在所述BEV特征获取步骤中，通过自编码器使用目标检测框生成BEV特征。

优选地，在所述BEV特征获取步骤中，创建transformer的编码器，称为第一模型；

第一模型输入周围空间的目标检测框并生成BEV特征，使用可变形注意力机制，计算采样点，使得在计算自注意力时，每个区域的BEV特征均获得周围空间的信息；

创建transformer的解码器，称为第二模型，用于下游任务；

使用第一模型的输出作为第二模型的输入，第二模型输入BEV特征并输出目标检测框信息，进行自编码训练，得到mAP，验证BEV特征有效；其中mAP为评价目标检测的指标。

优选地，在内外参标定步骤中，构造transformer解码器，称为第三模型；

第三模型输入生成的BEV特征，和图像特征做交叉注意力运算，输出每个相机的内外参。

优选地，在所述BEV特征获取步骤中，第一模型根据标准信息生成多维的标注的特征；

划分空间，使用自定义图形处理器算子计算每个空间内的标注信息，生成特征矩阵；

使用可变形多头自注意力机制，生成BEV特征时采样特征矩阵上对应周围的特征；可变形多头自注意力DeformAttn计算公式如下：

其中，N_head为注意力头的总数量；j是总采样键值；Δp_ij表示第i个注意头中第j个采样点的采样偏移量，A_ij表示第i个注意头中第j个采样点的注意权重，W_i为学习的权重，W_i′表示W_i的导数；N_key为采样点总数量，q为查询元素，p为查询元素二维参考点，X为输入特征图。

优选地，在所述BEV特征获取步骤中，第二模型来自DETR的解码器；

使用输入的BEV特征作为键Key和值Value，并且声明多次查询Query，计算权重后相加获得输出，获得不同侧重点的输出，单个头自注意力Attention计算公式为：

其中，K代表Key矩阵；Q代表Query矩阵；V代表Value矩阵；QK^T为元素点积；

为Key的维度；

将可变形自注意力层扩展到多尺度特征输入上，多尺度可变形自注意力MSDeformAttn的公式如下：

其中，M表示注意头的总数，L表示输入特征级别，k表示采样点数量，Δp_mlqk表示第l个特征级别第k个采样点的采样偏移量；A_mlqk表示第l个特征级别第m个注意头的注意权重，W_m为学习的权重；W_m′表示W_m的导数；

为归一化后

缩放到第l层的特征图，

为每个查询元素q的参考点的归一化坐标，

为输入的多尺度特征图，z_q为查询元素；X^l表示输入的多尺度特征；

在目标检测的任务中，首先计算目标检测框和分类结果，然后分别计算回归损失L1_loss和分类损失Focal_Loss，使用L1_loss和Focal_Loss，最后加权获得结果；计算公式如下：

Focal_loss(p_t)＝-(1-p_t)^γlog(p_t)

其中，L_b为平衡L1损耗，

为第i对应的u类的回归结果，v_i为第i回归目标，p_t为易分样本，γ为调节因子；第i对应的区域特征x，y，w，h：x是区域的横坐标位置；y是区域的纵坐标位置；w是区域的宽度；h是区域的高度。

优选地，在所述内外参标定步骤中，所述第三模型为transformer的解码器；

backbone使用Resnet，获得图像的特征；

通过特征金字塔网络输出多层多尺度特征，让模型识别各个尺度的特征；

输入BEV特征，对Query和BEV位置特征线性变换获得权重矩阵，计算需要采样的周围的点，调用可变形多头自注意力；

根据计算得到的多尺度图像特征，和处理后的BEV特征做交叉注意力运算，调用多尺度注意力函数；

计算每个摄像头的平移矩阵、旋转矩阵和内参矩阵；

使用L1损失分别计算平移矩阵、旋转矩阵和内参矩阵的损失，加权平均获得最后的损失。

第二方面，本发明提供了一种通过机器学习自动标定相机内外参的系统，包括如下模块：

BEV特征获取模块：获取目标检测框，从目标检测框生成包含所需信息的BEV特征；

内外参标定模块：根据机器学习模型从BEV特征和相机图像中学习相机的内外参。

优选地，在所述BEV特征获取模块中，通过自编码器使用目标检测框生成BEV特征；

创建transformer的编码器，称为第一模型；

创建transformer的解码器，称为第二模型，用于下游任务；

优选地，在内外参标定模块中，构造transformer解码器，称为第三模型；

与现有技术相比，本发明具有如下的有益效果：

1、本发明降低了大规模生产自动驾驶车辆的成本，通过自动化标定内外参省去了人工标定内外参的成本；

2、本发明降低了自动驾驶车辆的维护成本，每次更换或者重新安装摄像头都需要重新人工标定，自动化标定省去了这一步；

3、本发明优化了目标检测和其他CV任务的流程，原本需要内外参的目标检测还有其他CV工作，现在可以使用自动生成的内外参代替，不再需要内外参，优化了目标检测的流程。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为使用BEVFormer进行目标检测的流程图；

图2为自动标定相机的内外参的流程图；

图3为自编码器工作流程图；

图4为自编码训练流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明实施例公开了一种基于自编码器的相机内外参自动标定方法，包括如下步骤：

在一个实施例中，在所述BEV特征获取步骤中，通过自编码器使用目标检测框生成BEV特征。

然后创建transformer的编码器，称为第一模型。

第一模型输入周围空间的目标检测框并生成BEV特征，使用可变形注意力机制，计算采样点，使得在计算自注意力时，每个区域的BEV特征均获得周围空间的信息。

创建transformer的解码器，称为第二模型，用于下游任务。

在一个实施例中，第一模型根据标准信息生成多维的标注的特征。

划分空间，使用自定义图形处理器算子计算每个空间内的标注信息，生成特征矩阵。

在一个实施例中，第二模型来自DETR的解码器。

为Key的维度。

为归一化后

缩放到第l层的特征图，

为每个查询元素q的参考点的归一化坐标，

为输入的多尺度特征图，z_q为查询元素；x^l表示输入的多尺度特征。

Focal_loss(p_t)＝-(1-p_t)^γlog(p_t)

其中，L_b为平衡L1损耗，

内外参标定步骤：根据机器学习模型从BEV特征和相机图像中学习相机的内外参；

在一个实施例中，在内外参标定步骤中，构造transformer解码器，称为第三模型。

在一个实施例中，所述第三模型为transformer的解码器。

backbone使用Resnet，获得图像的特征。

通过特征金字塔网络输出多层多尺度特征，让模型识别各个尺度的特征。

输入BEV特征，对Query和BEV位置特征线性变换获得权重矩阵，计算需要采样的周围的点，调用可变形多头自注意力。

根据计算得到的多尺度图像特征，和处理后的BEV特征做交叉注意力运算，调用多尺度注意力函数。

计算每个摄像头的平移矩阵、旋转矩阵和内参矩阵。

本发明还提供一种基于自编码器的相机内外参自动标定系统，所述基于自编码器的相机内外参自动标定系统可以通过执行所述基于自编码器的相机内外参自动标定方法的流程步骤予以实现，即本领域技术人员可以将所述基于自编码器的相机内外参自动标定方法理解为所述基于自编码器的相机内外参自动标定系统的优选实施方式。

本发明还提供了一种基于自编码器的相机内外参自动标定系统，包括如下模块：

BEV特征获取模块：获取目标检测框，从目标检测框生成包含所需信息的BEV特征。

在一个实施例中，通过自编码器使用目标检测框生成BEV特征。

创建transformer的编码器，称为第一模型。

创建transformer的解码器，称为第二模型，用于下游任务。

在一个实施例中，构造transformer解码器，称为第三模型。

在一个实施例中，更为详细的，使用BEVFormer进行目标检测的流程如图1所示，编码器通过图像特征和内外参生成BEV特征，然后解码器使用BEV特征生成目标检测框。那么反过来，从目标检测框生成包含所有所需信息的BEV特征，再让模型从BEV特征和相机图像中学习相机的内外参，而目标检测框可以从精度更高的激光雷达获取，这样就可以自动标定相机的内外参。流程如图2所示。

关于如何使用目标检测框生成足够优秀的BEV特征，我们使用了NLP中获得显式特征的常见方法——自编码器(Autoencoder)。通过自编码器使用目标检测框生成BEV特征。

自编码器是一类在非监督学习中使用的机器学习方法，也有一个encoder和一个decoder，会对输入信息进行编码，最终又输出输入信息，目的是对输入信息进行表征学习(representation learning)，获取输入信息的特征。NLP中会使用这种方法来获得词语和句子的特征，用于其他下游任务。上述流程如图3所示。

图中，X作为输入，encoder获得特征z，decoder再将特征z解码为X'，我们希望X和X'尽可能接近，这样，特征z就可以表征X的信息。Code表示编译；Input表示输入；Output表示输出。

在我们的场景中，特征z就是我们希望获得的BEV特征，BEV特征中需要包含的信息就是我们需要的目标检测框等信息。

最终，我们也决定使用效果优秀的transformer来完成这个任务。具体流程如图4所示。首先，创建一个transformer的encoder，称为模型A(第一模型)，包含一个自注意力层，一个全连接层和两个标准化层(自注意力是transformer发明的机制)。

模型A能够输入周围空间的目标检测框并且生成BEV特征。为了确保一个点位的BEV特征只包含周围空间的信息，我们使用了可变形注意力机制(deformable attention)，具体来说我们会计算一些采样点，使得在计算自注意力时，每个区域的BEV特征都只会获得周围空间的信息。

接下来创建一个transformer的decoder，称为模型B(第二模型)，用于下游任务。模型B会输入BEV特征并输出目标检测框信息，和BEVFormer的decoder结构一样。

然后我们使用模型A的输出作为模型B的输入，进行自编码训练，如图4所示。

在上图的训练中，最终结果达到了0.8251的mAP，这是评价目标检测的指标，这个结果极高，远超所有正常模型，说明生成的BEV特征确实是十分有效的，很好地表征了目标检测框等我们需要的信息，具有足够的可解释性。

接下来，就可以使用生成的BEV特征和图像特征生成内外参了。构造一个新的transformer decoder，称为模型C(第三模型)。为模型C输入模型A生成的BEV特征，和图像特征做交叉注意力(cross attention)运算，最终输出每个相机的内外参。

我们在自动驾驶领域知名的NuScenes数据集上进行了实验，最终结果是如表1和表2所示：

表1：输出内外参与真实内外参的L1距离表

平移矩阵	旋转矩阵	内参矩阵
			0.2456	0.0692	0.1420

表2：使用生成内外参与真实内外参运行BEVFormer的结果表

对比真实内外参与与生成内外参的精准度，可以看到我们输出的内外参和真实内外参差距极小，使用自动生成的内外参，模型性能几乎没有下降。

具体模型细节：

模型A包含：

1、标注编码模块：会根据标准信息生成128维的标注的特征，包括一个全连接层。输入的标注信息有十维，表示了目标检测框在3D空间的坐标、尺寸和朝向角。

2、标注采样模块：我们会把空间划分成200*200，并且使用自定义GPU算子计算每个空间内的标注信息有哪些，然后生成200*200*128的特征矩阵，用于后续计算。GPU为图形处理器。

3、可变形多头自注意力层：对于每一个BEV特征，只会采样在周围空间的标注信息，所以使用可变形多头自注意力机制，生成BEV特征时只会采样特征矩阵上对应周围的特征。可变形多头自注意力DeformAttn具体计算公式如下：

其中，N_head为注意力头的总数量；j是总采样键值，Δp_ij表示第i个注意头中第j个采样点的采样偏移量，A_ij表示第i个注意头中第j个采样点的注意权重，W_i为可学习的权重，W_i′表示W_i的导数；N_key为采样点总数量，q为查询元素，p为查询元素二维参考点，X为输入特征图。

进一步的，采用8个注意力头，即为Nh_ead＝8。

4、两个正则化层和一个FFN层：为了进一步增强特征学习，使用一层FFN(前馈神经网络)。FFN层包括两层全连接层和一层ReLU激活层，正则化使用LN正则化。ReLU表示现有激活函数。正则化层的作用是为了稳定网络的训练；FFN层是可以表示更多特征之间的非线性关系，提供模型表达能力。LN中N为1，2，3…，正则化包括L1、L2以及LN等。L1、L2以及LN表示不同的正则化函数。

模型B包含：

1、模型B是来自DETR的decoder，包含一个多头自注意力层，一个多尺度可变形注意力层，一个FNN层，以及每层后面各有一个，共三个正则化层。

2、多头自注意力层：使用输入的BEV特征作为Key和Value(键/值)，并且声明900个Query(查询，理解为查询的次数)，计算权重后相加获得输出。一共有8个头做同样的操作以获得不同侧重点的输出，单个头自注意力Attention计算公式为：

式中，K，Q，V分别代表Key、Query和Value矩阵，QK^T为元素点积；

为Key的维度。

3、多尺度可变形自注意力层：将普通可变形自注意力层扩展到多尺度特征输入上，多尺度可变形自注意力MSDeformAttn的公式如下：

其中，M表示注意头的总数，L表示输入特征级别，k表示采样点数量，Δp_mlqk表示第l个特征级别第k个采样点的采样偏移量；A_mtqk表示第l个特征级别第m个注意头的注意权重，W_m为可学习的权重；W_m′表示W_m的导数；

为归一化后

缩放到第l层的特征图，

为每个查询元素q的参考点的归一化坐标，

具体操作和可变形自注意力层类似，也是8个头。

4、三个正则化层和一个FFN层：FFN层包括两层全连接层和一层ReLU激活层，正则化使用LN正则化。

5、损失函数：在这里目标检测的任务中，会首先计算目标检测框和分类结果，然后分别计算回归损失L1_loss和分类损失Focal_Loss，使用的是L1_loss和Focal_Loss，最后加权获得结果。两者计算公式如下：

Focal_loss(p_t)＝-(1-p_t)^γlog(p_t)

其中，L_b为平衡L1损耗，

为第i对应的u类的回归结果，v_i为第i回归目标，p_t为易分样本，γ为调节因子；第i对应的区域特征x,y,w,h：x是区域的横坐标位置；y是区域的纵坐标位置；w是区域的宽度；h是区域的高度。。

模型C包含：

1、模型C是一个transformer的decoder，包含一个backbone，一个三层FPN(特征金字塔网络)，一个可变形多头自注意力层，一个多尺度交叉注意力层，一个FNN层，以及每层后面各有一个，共三个正则化层。还包含6*3个全连接分支，用来生成六个摄像头的三种内外参。

2、Backbone：backbone使用Resnet，是CV领域的知名模型残差神经网络，能够获得图像的特征。

3、FPN：共有三层，会输出三层多尺度特征，目的是为了让模型能够识别各个尺度的特征。

4、可变形多头自注意力层：输入是BEV特征，对Query+BEV位置特征线性变换获得权重矩阵，然后计算要采样的周围的点，最后调用常规的可变形多头自注意力，上面已经描述过。

5、多尺度交叉注意力层：根据之前计算的多尺度图像特征，和处理后的BEV特征做交叉注意力运算，调用多尺度注意力函数，上面已经介绍过。

6、三个正则化层和一个FFN层：FFN层包括两层全连接层和一层ReLU激活层，正则化使用LN正则化。

7、全连接分支：每个全连接分支包含一个全连接层，会分别计算每个摄像头的平移矩阵、旋转矩阵、内参矩阵。

8、损失函数：使用L1损失分别计算平移矩阵、旋转矩阵、内参矩阵的损失，然后加权平均获得最后的损失。

mAP介绍：

1、mAP是CV领域评价性能的最知名指标。设TP是正类判定为正类、FP是负类判定为正类、FN是正类判定为负类、TN是负类判定为负类，则精确度和召回率为：

其中，Precision表示精确度。

其中，Recall表示召回率。

2、而所有类别的AP求平均就是mAP，计算公式为：

其中，k为所有采样点的数目。

替代方案：还可以使用其他模型自动生成内外参，比如RNN(循环神经网络)。提取图像特征的模型也可以替换，比如vovnet(一种图像与目标检测模型)。也可以考虑更换输入，不用处理好的目标检测框，而是直接使用激光雷达输出作为输入等等。

本发明使用机器学习模型自动生成相机内外参。使用激光雷达特征和相机图像特征标定周视和环视相机的内外参。使用BEV模型学习相机内外参。

本发明涉及计算机视觉、机器学习、自动驾驶等领域，具体来说，开创性地使用机器学习方法标定相机的内外参，简化了自动驾驶的流程，降低了成本。本发明使用机器学习方法自动标定相机的内外参。并且使用自动标定的内外参能够获取和人工标定的内外参接近的结果，从而且替代人工标定内外参的流程，降低自动驾驶的成本。本发明使用类似BEVFormer的框架实现自动化标定，并最终在BEVFormer上测试效果。本发明通过强大BEV模型自动生成相机的内外参。直接从目标检测框生成包含所有所需信息的BEV特征，再让模型从BEV特征和相机图像中学习相机的内外参，而目标检测框可以从精度更高的激光雷达获取，这样就可以自动标定相机的内外参。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。