CN116597000A

CN116597000A - 一种基于cnn模型的多相机融合方法

Info

Publication number: CN116597000A
Application number: CN202310446925.8A
Authority: CN
Inventors: 张剑华; 王东辰; 徐祥龙; 王军文; 夏爱灵; 吴子同
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-15

Abstract

一种基于CNN模型的多相机融合方法，该方法的过程包括：S1：使用unity3D构建室内3D模型，确定所需要的相机数量、规格、部署位置以及角度，来达到大型室内空间的全覆盖。然后提取各个相机视角下的图像，完成3D和2D数据集的构造；S2：对图片进行预处理后，使用线段提取器提取图像中符合曼哈顿世界的正交线段，然后使用CNN模型提取语义信息对线段分类；S3：建立全局统一世界坐标系，利用得到的正交线段求出水平方向和竖直方向的旋转，并估计平移参数；S4：根据各个相机的空间位姿，将相机两两配对进行空间融合，根据基本矩阵画极线匹配两相机的检测结果，得到目标的空间位置。

Description

一种基于CNN模型的多相机融合方法

技术领域

本发明涉及到计算机视觉、slam等技术领域，具体涉及一种基于CNN的多相机融合技术。

背景技术

多相机融合是一种利用多个摄像机或相机系统获取的图像或视频数据进行融合的技术。它在很多领域都有应用，如计算机视觉、虚拟现实、增强现实、机器人视觉等。以下是多相机融合的一些背景技术：

相机标定：相机标定是多相机融合的前提和基础。通过相机标定可以得到每个相机的内参和位姿等参数，以便于将多个摄像机拍摄的图像或视频数据进行融合。

图像对齐：在进行多相机融合之前，需要将每个相机拍摄到的图像进行对齐，使得它们在相空间中处于相同的坐标系下。这可以通过计算图像之间的几何变换关系来实现，例如通过特征点匹配、光流等方法。

深度估计：深度估计是多相机融合中的关键技术之一。通过对每个相机拍摄到的图像进行深度估计，可以得到场景中物体的三维几何信息，从而更好地进行多相机融合。

光照估计：在多相机融合中，由于每个相机的光照条件可能不同，因此需要对每个相机拍摄到的图像进行光照估计和校正，以便于更好地进行图像融合。

视觉SLAM：视觉SLAM是指通过相机的视觉信息进行同时定位和地图构建的技术。在多相机融合中，视觉SLAM可以帮助确定多个相机的位置和姿态信息，从而更好地进行多相机融合。

多视角几何：多视角几何是指利用多个视角的几何信息进行三维重建和视觉分析的技术。在多相机融合中，多视角几何可以帮助确定不同视角下的三维物体信息，从而更好地进行图像融合和深度估计。

图像对齐任务是一个像素级的任务，现有的图像对齐算法大都通过特征点匹配法来进行多相机的位姿标定，但是在宽基线大视差环境下，多相机难以完美部署以覆盖整个室内空间，特征点在此环境下也难以匹配精确到像素级的特征点，因此需要设计一种新的算法可以求得大视差场景下的精确的相机位姿。

发明内容

为了克服现有技术的不足，本发明提供一种基于CNN模型的多相机融合方法，对大视差、宽基线下的多相机间的相对位姿计算有精确求解，进而解决多相机下目标匹配困难的问题，具有较强的实用性、鲁棒性。

为此，本发明采用如下的技术方案：

一种基于CNN模型的多相机融合方法，包括下列步骤：

S1：使用unity3D构建室内3D模型，通过模拟部署相机，观察各个相机视角所示区域范围，确定所需要的相机数量、规格、部署位置以及调整角度，来达到大型室内空间的全覆盖与双覆盖，并提取各个相机视角下的图像。

S2：对图片进行预处理后，使用LSD线段提取器提取图像中符合曼哈顿世界的正交线段，然后使用CNN模型提取线段的特征并分类。

S3：建立全局统一世界坐标系，利用分类后的正交线段求出水平方向和竖直方向的旋转，并估计平移参数。

S4：根据各个相机的空间位姿，将相机两两配对进行空间融合，根据基本矩阵画极线匹配两相机的检测结果，得到目标的空间位置。

进一步，所述步骤S2包括以下步骤：

使用张正友标定法获取各个相机的内参以及畸变参数，然后对图片进行去畸变处理。使用LSD线段提取器提取图像中符合曼哈顿世界的正交线段。

提取后的线段长度与角度各异，需要过滤出不达标准的线段。首先对于难以去判断其垂直或水平角度的线段，将其过滤；其次在大场景里线段的长短不一，对于比较短的线段，无法确定其方向，无法保证是适合我们计算灭点的线段，所以规定一个长度阈值，只保留超过这个长度的线段；位于地面或软物体(能够活动的物体)上的线段可能位于传感器旋转估计的水平线以下，将其删除；如果线段的投影与重力方向之间的角度大于规定的阈值，则线段被删除。

对于线段的几何特征，使用图像中的位置信息和方向信息，分别表示为f_pos和f_dir，然后使用CNN模型从图像中提取特征图。对于某条线段，均匀采样N个点，使用双三次插值计算采样点的值，最后使用加权对特征向量求和，得到每条线段的语义特征f_con。根据每个线段的三个特征，我们使用Modified Huber损失，对线段进行分类。

再进一步，所述步骤S3包括以下步骤：

第一阶段计算水平方向的旋转，定义一个旋转矩阵R_v，它是竖直方向(重力方向)的旋转。首先得到图像中的主要垂直消失点，每一个垂直消失点都能由两条垂直线的投影l₁和l₂的齐次坐标作叉乘计算得到。内点最多的垂直消失点即占主导地位的垂直灭点p_v。我们设定2D图像的垂直方向为z＝[0 0 0]^T，对齐相机的垂直轴和2D图像的主要垂直灭点p_v，然后计算旋转R_v。

第二阶段则是求解竖直方向的旋转R_h，在2D图像的室内墙壁立面f(若有多个立面，需要进行遍历)中抽取一条水平线l_r和一条竖直线l_h，求得墙壁立面f的法线n_f，接着从法线所在立面中遍历所有水平线l(这条线要转换为世界坐标系上的三维坐标)，这些水平线经R_v进行方向校正后得到先对应的三维水平线l₃＝R_v ^Tl，将两个端点做叉乘求得此直线的表达式，就可以计算围绕垂直轴的旋转矩阵R_h。

第三阶段为平移估计，摄像机在全局坐标系中的方向可以从立面上的垂直线段估计出来。在构建室内3D模型时，定义了世界坐标系的原点，那么可以从室内3D模型中得到立面中线段的坐标。我们选择三个以上的垂直线段。我们可以通过将这些垂直线与3D模型中的角点(3D坐标)对齐来估计相机的平移。

更进一步，所述步骤S4中，融合得到相机的相对空间位姿后，经计算得出基本矩阵，根据各个相机所视场景范围，设定mask区域，并设置全局编号，以mask区域作为约束条件。根据基本矩阵画极线匹配两相机的检测结果，计算得到目标的空间位置。

本发明与现有技术相比的有益效果是：本发明提供了一种基于室内3D模型的多相机融合方法，采用unity3D对真实室内场景进行重建，确定预安装相机的数量、规模、部署位置以及角度，使得大型室内场景能被所有相机视角覆盖，无相机死角。图像预处理后，提取正交信息，并使用CNN模型进行线段方向分类，通过正交信息计算得到相机位姿，克服了特征点匹配法在大视差宽基线场景下的受限和不足，最终实现相机的两两融合，再结合mask掩膜约束以及极线匹配方法，得到目标的空间位置。下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1为基于CNN模型的多相机融合技术的流程示意图；

图2为线池模块从图像中捕获线段的局部图像上下文示意图；

图3为计算相机绝对空间位姿流程示意图；

图4为本方法提供的多相机融合方法的输出示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

参照图1，一种基于CNN模型的多相机融合方法，包括如下步骤：

步骤S1：使用unity3D构建包含正交线段的大型室内3D场景数据集。

根据现实大型室内空间场景，使用unity3D构建室内3D模型，通过观察各个相机视角所示区域范围，确定所需要的相机数量、规格、部署位置以及调整角度，来达到大型室内空间的全覆盖。然后提取各个相机视角下的图像，完成3D和2D数据集的构造。

步骤S2：对图片进行预处理后，使用线段提取器提取图像中符合曼哈顿世界的正交线段，然后使用CNN模型提取线段的特征并分类；

步骤S21：使用张正友标定法标定得到相机的内参和畸变系数，对图像进行去畸变处理，然后使用LSD线段提取器提取图像中符合曼哈顿世界的正交线段。

步骤S22：提取后的线段长度与角度各异，我们需要过滤出不达标准的线段。首先对于难以去判断其垂直或水平角度的线段，我们将过滤掉；其次在大场景里线段的长短不一，对于比较短的线段，我们无法确定其方向，无法保证是适合我们计算灭点的线段，所以我们规定一个长度阈值，只保留超过这个长度的线段；位于地面或软物体(能够活动的物体)上的线段会被删除，因为有可能位于从传感器旋转估计的水平线以下；如果线段的投影与重力方向之间的角度大于我们规定的阈值，则线段被删除。

步骤S23：利用线段特征对线段进行分类，本方法设定的线段描述符将正交线段表示为预定义大小的一维向量，其中局部图像上下文和几何特征结合在一起。对于几何特征，使用图像中的位置信息和方向信息，分别表示为f_pos和f_dir。然后使用CNN模型从图像中提取特征图。对于每条线段，沿着这条线段均匀采样N个点，得到N个总大小为N×c的特征向量。由于采样点可能不在网格点上，所以使用双三次插值从特征图上附近的网格点计算每个采样点的值。最后应用加权对特征向量求和，将其压缩为1×c的大小。最后得到三个特征的串联，具体表示为：

f_line＝[f_con f_pos f_dir] (1)

其中，f_pos表示位置信息，f_dir表示方向信息，f_con每个线段的一维固定大小的特征向量。根据每调线段的三个特征，我们使用Modified Huber损失，对线段进行分类。

图1中的曼哈顿世界正交线段分类模块完成后，将分类后的线段进行位姿求解操作。

S3：计算各个相机的绝对空间位姿；

参照图2，一种计算相机绝对空间位姿方法的流程示意图，包括以下步骤：

参照图2(a)，一种计算相机相对于世界坐标系在水平方向的旋转方法，具体如步骤S31：

步骤S31：定义一个旋转矩阵Rv，它是竖直方向(重力方向)的旋转。接着要得到图像中的主要垂直消失点，每一个垂直消失点都由两条垂直线的投影l₁和l₂的齐次坐标作叉乘计算得到：

p＝l₁×l₂ (2)

大视差、宽基线环境下，图像上相邻的线在实际的世界坐标系中差异很大，尽管经过过滤，提取出的线段依然也会有一定的角度误差。为了抑制这种误差对垂直消失点位置的计算的影响，对于每一对垂直线段，通过叉乘计算得到对应的垂直消失点，并令其与其他线段进行角度误差测量：

p_i为每个垂直消失点，l_j为所有的竖直线段，用反余弦函数计算出角度，设置角度误差阈值，只要err(p_i，l_j)的值小于角度误差阈值，就算作p_i的一个内点，得出内点数量最多的点即占主导地位的垂直灭点p_v。

设定2D图像的垂直方向为z＝[0 0 0]^T，对齐相机的垂直轴和2D图像的主要垂直灭点p_v，然后计算旋转R_v。

对于p_v，将其归一化，不去考虑尺度因子，根据垂直灭点p_v与假设的二维图像的垂直方向z相乘得到旋转轴u＝z×pv，角度为θ＝acos(u)。最后使用SO(3)李代数转为李群来构造旋转R_v，求得真实世界到图像世界的转换关系：

参照图2(b)，一种计算相机相对于世界坐标系在竖直方向的旋转方法，具体如步骤S32：

步骤S32：第二阶段计算水平方向的旋转R_h。在2D图像的室内墙壁立面f中抽取一条水平线l_r和一条竖直线l_h，求得墙壁立面f的法线n_f：

n_f＝l_r×l_h (5)

接着先将n_f归一化处理，做其立面法线n_f和垂直轴z的叉乘可以得到立面f的水平灭点p_h，p_h用于对齐方向校正后的水平直线：

p_h＝n_f×z (6)

接着从法线所在立面中遍历所有水平线l，这些水平线经R_v进行方向校正后得到先对应的三维水平线l₃＝R_v ^Tl，这里得到的l₃由两端点的三维坐标组成，将两个端点做叉乘求得此直线的表达式，就可以计算围绕垂直轴的旋转矩阵R_h，以将相机的水平轴与立面f水平灭点p_h对齐。R_v有/>和/>两个自由度，而R_h的自由度则为/>即围绕垂直轴z的旋转量：

根据直线表达式的参数，参数化旋转矩阵：

通过该步骤，最终得到旋转矩阵R_h。

参照图2(c)，一种计算相机相对于世界坐标系的平移尺度的方法，具体如步骤S33：

步骤S33：最后一个阶段求解平移估计摄像机在全局坐标系中的方向可以从立面上的垂直线段估计出来。在构建室内3D模型时，定义了世界坐标系的原点，那么可以从室内3D模型中得到立面中线段的坐标。选择三个以上的垂直线段。通过将这些垂直线与3D模型中的角点(3D坐标)对齐来估计相机的平移。

在下面详细介绍这个步骤。

相机高度的先验是易获得的，从室内3D模型中得到相机高度，再根据已变化的求逆矩阵得出相机高度先验t＝t-R^-1*t，高度先验作为一个方向上的自由度，因此平移只剩2个自由度需要估计。接着从测量出的线段中各找出一个角点，接着可以通过解决下面的线性系统计算相机平移t：

步骤S4：根据各个相机的空间位姿，将相机两两配对进行空间融合，对于融合后得到的两个相机的相对位姿，经过计算得到基本矩阵，设定每个相机下的mask掩膜区域，并为其编制编号，以mask掩膜区域作为约束条件。根据基本矩阵画极线匹配两相机的检测结果，得到目标的空间位置。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于CNN模型的多相机融合方法，其特征在于，所述方法包括以下步骤：

S1：使用unity3D构建包含正交线段的大型室内3D场景数据集，并部署多个具有大视差的相机，采集各个相机视角下的图像。

S2：对图片进行预处理后，使用线段提取器提取图像中符合曼哈顿世界的正交线段，使用CNN模型提取语义特征并分类；

S3：建立全局统一世界坐标系，利用得到的正交线段求出水平方向和竖直方向的旋转，并估计平移参数；

2.根据权利要求1所述的一种基于CNN模型的多相机融合方法，其特征在于，所述步骤S1中，根据现实大型室内空间场景，使用unity3D构建室内3D模型，通过观察各个相机视角所示区域范围，确定所需要的相机数量、规格、部署位置以及调整角度，来达到大型室内空间的全覆盖。最后提取各个相机视角下的图像，以完成3D和2D数据集的构造。

3.根据权利要求1所述的一种基于CNN模型的多相机融合方法，其特征在于，所述步骤2中，提取正交线段后，对于几何特征，使用图像中的位置信息和方向信息，分别表示为f_pos和f_dir，使用CNN模型从图像中提取特征图。对于某条线段，均匀采样N个点，使用双三次插值计算采样点的值，最后使用加权对特征向量求和，得到每条线段的语义特征f_con。线段最终表现形式是以上三个特征的串联，描述为：

f_line＝[f_con f_pos f_dir] (1)。

4.根据权利要求1所述的一种基于CNN模型的多相机融合方法，其特征在于，所述步骤3中，构建所述基于CNN模型的多相机标定模型包括：第一阶段计算水平方向的旋转。首先得到图像中的主要垂直消失点，每一个垂直消失点都能由两条垂直线的投影l₁和l₂的齐次坐标作叉乘计算得到。内点最多的垂直消失点即占主导地位的垂直灭点p_v。我们设定2D图像的垂直方向为z＝[0 0 0]^T，对齐相机的垂直轴和2D图像的主要垂直灭点p_v，然后计算旋转R_v，可表示为：

第二阶段则是求解竖直方向的旋转R_h，在2D图像的室内墙壁立面f(若有多个立面，需要进行遍历)中抽取一条水平线l_r和一条竖直线l_h，求得墙壁立面f的法线n_f，接着从法线所在立面中遍历所有水平线l(这条线要转换为世界坐标系上的三维坐标)，这些水平线经R_v进行方向校正后得到先对应的三维水平线l₃＝R_v ^Tl，将两个端点做叉乘求得此直线的表达式，就可以计算围绕垂直轴的旋转矩阵R_h，以将相机的水平轴与立面f水平灭点p_h对齐。R_v有/>和/>两个自由度，而R_h的自由度则为/>即围绕垂直轴z的旋转量：

第三阶段为平移估计，相机在全局坐标系中的方向可以从立面上的垂直线段估计出来。在构建室内3D模型时，定义了世界坐标系的原点，从室内3D模型中得到立面中线段的坐标。选择三个以上的垂直线段，通过将这些垂直线与3D模型中的角点(3D坐标)对齐来估计相机的平移，表示为：

5.根据权利要求1所述的一种基于CNN模型的多相机融合方法，其特征在于，所述步骤4中，对于融合后得到的两个相机的相对位姿，经过计算得到基本矩阵，根据基本矩阵画极线匹配两相机的检测结果，使用三角化计算得到目标的空间位置。

6.根据权利要求1所述的一种基于CNN模型的多相机融合方法，其特征在于，所述步骤4中，设定每个相机下存在n个mask区域，为其编号，以mask区域作为约束条件提高极线匹配的精度。