CN111402345B

CN111402345B - 基于多目全景图像的模型生成方法及装置

Info

Publication number: CN111402345B
Application number: CN202010501846.9A
Authority: CN
Inventors: 陈丹; 张誉耀; 谭志刚
Original assignee: Kandao Technology Co Ltd
Current assignee: Kandao Technology Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-09-04
Anticipated expiration: 2040-06-04
Also published as: WO2021244161A1; US20230237683A1; CN111402345A

Abstract

本发明提供一种基于多目全景图像的模型生成方法，其包括：获取参考图像以及对应的多个源图像；计算源图像和参考图像的图像矫正旋转矩阵；提取参考图像的参考图像特征以及源图像的源图像特征，并基于参考图像特征以及源图像特征计算参考图像与所述源图像的代价体；得到源图像与参考图像的矫正代价体；对参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体；基于最终代价体，计算参考图像在设定分辨率下的相差分布估计，并计算设定分辨率下的估计相差；对参考图像在每一层分辨率下的估计相差进行融合，得到参考图像的最终相差；基于参考图像的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

Description

基于多目全景图像的模型生成方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于多目全景图像的模型生成方法及装置。

背景技术

传统的多视角立体视觉，通常采用单目相机在多个预先调校的空间位置进行图像采样。设某参考视角产生的图片为参考图片，所有与该视角有重合的视角产生的图片为源图片。传统MVS（Mult-view Stereo，多视点三维重建）算法通常通过寻找参考图片中的像素点/特征点在所有源图片中的匹配点，来确定点之间联系，通常使用相差标示。基于该联系，通过三角化关系，可以进一步计算得出参考图片中每一像素点的深度数值。该深度数值通过传统多视角融合算法融合，最终可产生该场景的立体视觉模型。

但是上述方法中寻找匹配点的操作对计算资源消耗较大，且如果匹配点准确度较低可能导致后续生成的立体视觉模型的精准度较差。

故，有必要提供一种基于多目全景图像的模型生成方法及装置，以解决现有技术所存在的问题。

发明内容

本发明实施例提供一种对计算资源消耗较低且生成模型的精准度较高的模型生成方法及模型生成装置；以解决现有的模型生成方法及模型生成装置的计算资源消耗较大且生成模型的精准度较差的技术问题。

本发明实施例提供一种基于多目全景图像的模型生成方法，其包括：

获取参考图像以及对应的多个源图像，其中所述源图像与所述参考图像具有重合视角；

获取所述源图像的源相机参数以及所述参考图像的参考相机参数，并基于所述源相机参数以及所述参考相机参数，计算所述源图像和所述参考图像的图像矫正旋转矩阵；

提取所述参考图像的参考图像特征以及所述源图像的源图像特征，并基于所述参考图像特征以及所述源图像特征计算所述参考图像与所述源图像的代价体；

使用所述图像矫正旋转矩阵对所述代价体进行坐标系转换，得到所述源图像与所述参考图像的矫正代价体；

对所述参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体；

基于所述最终代价体，计算所述参考图像在设定分辨率下的相差分布估计，并计算所述设定分辨率下的估计相差；

对所述参考图像在每一层分辨率下的估计相差进行融合，得到所述参考图像的最终相差；

基于所述参考图像的最终相差生成所述参考图像的深度图，并根据所述深度图构建对应的立体视觉模型。

在本发明所述的基于多目全景图像的模型生成方法中，基于以下公式计算所述源图像和所述参考图像的图像矫正旋转矩阵：

其中R₀为所述参考图像的旋转矩阵，t₀为所述参考图像的平移矩阵，R₁为对应的源图像的旋转矩阵，t₁为对应的源图像的旋转矩阵，R为所述源图像和所述参考图像的图像矫正旋转矩阵。

在本发明所述的基于多目全景图像的模型生成方法中，基于以下公式计算所述参考图像与所述源图像的代价体：

其中c表示特征图的特征度信道数量，h代表特征图宽度，w代表特征图高度，F₀为参考图像的特征图，F₁为所述源图像的特征图，

为参考图像与源图像的代价体，其中i为所述代价体的行位置，j为所述代价体的列位置，q为一设定相差值，

代表特征图F₁整体延w方向平移q和像素。

在本发明所述的基于多目全景图像的模型生成方法中，通过以下公式计算所述源图像和所述参考图像的矫正代价体：

其中R₀为所述参考图像的旋转矩阵，R为所述源图像和所述参考图像的图像矫正旋转矩阵，

为所述源图像和所述参考图像的矫正代价体。

在本发明所述的基于多目全景图像的模型生成方法中，所述对所述参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体的步骤为：

使用逐元素最大池化操作对所述参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体。

在本发明所述的基于多目全景图像的模型生成方法中，所述基于所述最终代价体，计算所述参考图像在设定分辨率下的相差分布估计，并计算所述设定分辨率下的估计相差的步骤为：

基于最终代价体，使用预设神经网络计算所述参考图像在设定分辨率下的相差分布估计，并计算所述设定分辨率下的估计相差；

其中在所述设定分辨率下，所述参考图像中检测物体的尺寸为所述参考图像的尺寸的0.3%至10%。

在本发明所述的基于多目全景图像的模型生成方法中，通过以下公式生成所述参考图像的深度图：

；

其中f为所述参考图像对应相机的焦距，b为多目全景图像立体系统中的基线长度，d为估计相差。

本发明实施例还提供一种基于多目全景图形的模型生成方法，其包括：

对所述第一级参考图像进行折叠降维操作，获取所述第一级参考图像对应的至少一个下级参考图像；对所述第一级源图像进行折叠降维操作，获取所述第一级源图像对应的至少一个下级源图像；

使用第一预设残差卷积网络，对所述下级参考图像进行特征提取，以得到下级参考图像特征；使用第一预设残差卷积网络，对所述下级源图像进行特征提取，以得到下级源图像特征；

基于设定层级的下级参考图像特征以及设定层级的源图像特征，得到对应的设定层级的下级参考图像的最终代价体，并基于所述最终代价体，计算所述参考图像在设定分辨率下的下级参考图像相差分布估计特征；

基于其他层级的下级参考图像特征以及其他层级的源图像特征，得到所参考图像的其他层级的下级参考图像相差分布估计特征；

使用第二预设残差卷积网络，对所述下级参考图像相差分布估计特征进行特征提取，得到下级参考图像的差异特征；

基于所述下级参考图像的差异特征，得到所述下级参考图像的估计相差；

对所述差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征；对所述估计相差进行平铺升维操作，以得到第一级参考图像的修正相差；

根据所述参考图像、所述源图像、所述第一级参考图像的修正差异特征以及所述第一级参考图像的修正相差，得到第一级参考图像的最终相差；

基于所述第一级参考图像的最终相差生成所述参考图像的深度图，并根据所述深度图构建对应的立体视觉模型。

本发明实施例还提供一种基于多目全景图形的模型生成装置，其包括：

图像获取模块，用于获取参考图像以及对应的多个源图像，其中所述源图像与所述参考图像具有重合视角；

图像矫正旋转矩阵计算模块，用于获取所述源图像的源相机参数以及所述参考图像的参考相机参数，并基于所述源相机参数以及所述参考相机参数，计算所述源图像和所述参考图像的图像矫正旋转矩阵；

代价体计算模块，用于提取所述参考图像的参考图像特征以及所述源图像的源图像特征，并基于所述参考图像特征以及所述源图像特征计算所述参考图像与所述源图像的代价体；

代价体转换模块，用于使用所述图像矫正旋转矩阵对所述代价体进行坐标系转换，得到所述源图像与所述参考图像的矫正代价体；

代价体融合模块，用于对所述参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体；

设定估计相差计算模块，用于基于所述最终代价体，计算所述参考图像在设定分辨率下的相差分布估计，并计算所述设定分辨率下的估计相差；

相差融合模块，用于对所述参考图像在每一层分辨率下的估计相差进行融合，得到所述参考图像的最终相差；

模型构建模块，用于基于所述参考图像的最终相差生成所述参考图像的深度图，并根据所述深度图构建对应的立体视觉模型。

本发明实施例还提供一种基于多目全景图像的模型生成装置，其包括：

折叠降维模块，用于对所述第一级参考图像进行折叠降维操作，获取所述第一级参考图像对应的至少一个下级参考图像；对所述第一级源图像进行折叠降维操作，获取所述第一级源图像对应的至少一个下级源图像；

特征提取模块，用于使用第一预设残差卷积网络，对所述下级参考图像进行特征提取，以得到下级参考图像特征；使用第一预设残差卷积网络，对所述下级源图像进行特征提取，以得到下级源图像特征；

第一相差分布估计特征计算模块，用于基于设定层级的下级参考图像特征以及设定层级的源图像特征，得到对应的设定层级的下级参考图像的最终代价体，并基于所述最终代价体，计算所述参考图像在设定分辨率下的下级参考图像相差分布估计特征；

第二相差分布估计特征计算模块，用于基于其他层级的下级参考图像特征以及其他层级的源图像特征，得到所述参考图像的其他层级的下级参考图像相差分布估计特征；

差异特征获取模块，用于使用第二预设残差卷积网络，对所述下级参考图像相差分布估计特征进行特征提取，得到下级参考图像的差异特征；

估计相差计算模块，用于基于所述下级参考图像的差异特征，得到所述下级参考图像的估计相差；

平铺升维模块，用于对所述差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征；对所述估计相差进行平铺升维操作，以得到第一级参考图像的修正相差；

最终相差获取模块，用于根据所述参考图像、所述源图像、所述第一级参考图像的修正差异特征以及所述第一级参考图像的修正相差，得到第一级参考图像的最终相差；

模型构建模块，用于基于所述第一级参考图像的最终相差生成所述参考图像的深度图，并根据所述深度图构建对应的立体视觉模型。

本发明实施例还提供一种计算机可读存储介质，其内存储有处理器可执行指令，所述指令由一个或一个以上处理器加载，以执行上述任一基于多目全景图像的模型生成方法。

相较于现有技术的模型生成方法，本发明的基于多目全景图像的模型生成方法以及模型生成装置通过对多个源图像与参考图像的代价体进行计算以及融合，提高了设定分辨率下的估计相差的准确性，从而有效的提高了生成模型的精准度；同时代价体的计算和融合对计算资源的消耗较小，因此可降低整个模型生成流程的计算资源消耗；有效解决了现有的模型生成方法及模型生成装置的计算资源消耗较大且生成模型的精准度较差的技术问题。

附图说明

图1为本发明的基于多目全景图像的模型生成方法的第一实施例的流程图；

图2为本发明的基于多目全景图像的模型生成方法的第二实施例的流程图；

图3为一个第一级参考图像折叠降维成四个第二级参考图像的操作示意图；

图4为四个第三级参考图像平铺升维成一个第二级参考图像的操作示意图；

图5为本发明的基于多目全景图像的模型生成装置的第一实施例的结构示意图；

图6为本发明的基于多目全景图像的模型生成装置的第二实施例的结构示意图；

图7为本发明的基于多目全景图像的模型生成方法及模型生成装置的具体实施例的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的基于多目全景图像的模型生成方法以及模型生成装置用于基于具有重合视角的参考图像以及源图像的最终代价体来生成对应的立体视觉模型的电子设备。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等）、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境，等等。

该电子设备优选为基于参考图像以及源图像创建立体视觉模型的模型创建终端或模型创建服务器，以提供精准度较高的立体视觉模型。

请参照图1，图1为本发明的基于多目全景图像的模型生成方法的第一实施例的流程图。本实施例的模型生成方法可使用上述的电子设备进行实施，本实施例的基于多目全景图像的模型生成方法包括：

步骤S101，获取参考图像以及对应的多个源图像，其中源图像与参考图像具有重合视角；

步骤S102，获取源图像的源相机参数以及参考图像的参考相机参数，并基于源相机参数以及参考相机参数，计算源图像和参考图像的图像矫正旋转矩阵；

步骤S103，提取参考图像的参考图像特征以及源图像的源图像特征，并基于参考图像特征以及源图像特征计算参考图像与源图像的代价体；

步骤S104，使用图像矫正旋转矩阵对代价体进行坐标系转换，得到源图像与参考图像的矫正代价体；

步骤S105，对参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体；

步骤S106，基于最终代价体，计算参考图像在设定分辨率下的相差分布估计，并计算设定分辨率下的估计相差；

步骤S107，对参考图像在每一层分辨率下的估计相差进行融合，得到参考图像的最终相差；

步骤S108，基于参考图像的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

下面详细说明本实施例的基于多目全景图像的模型生成方法的各步骤的具体流程。

在步骤S101中，模型生成装置（如模型创建服务器等）获取参考图像以及对应的多个源图像，这里的源图像和参考图像具有重合视角。参考图像为需要生成立体视觉模型的标准图像，源图像为生成立体视觉模型的参照图像，参考图像与源图像可为对同一物品进行不同角度拍照的图像。

在步骤S102中，模型生成装置需要计算参考图像和每个源图像之间的相对位置关系，并获取对应的图像矫正旋转矩阵。

这里设定参考图像对应的投影矩阵（projection matrix）为P₀₌K_0·［R₀t₀］，其中k₀ 为参考图像的内参矩阵（intrinsic matrix），［R₀t₀］为参考图像的外参矩阵(extrinsic matrix)， R₀为参考图像的旋转矩阵(rotation matrix)，t₀为参考图像的平移向量 (translation vector)。P₁,P₂, _······P_n为n个源图像的投影矩阵，同理

。在世界坐标系中，参考图像对应的相机的光心(optical center)坐标为

，源图像对应的相机的光心坐标为

。

因此可设定图像矫正坐标系的x轴，该x轴为

，其中

表示旋转矩阵R₀的第一行中的所有元素，

用于确定

是否在

的右侧，即源图像是否相对参考图像实现了右向平移，如果

位于

的右侧，则

的正方向是从参考图像位置指向

代表的源图像位置，该操作保证投影后，源图像位置相对参考图像位置进行右向移动。

设定图像矫正坐标系的y轴，该y轴为

，其中cross函数用于计算向量积，计算结果也是一向量，该向量垂直于该操作的两个操作数，通常也是向量。

设定图像矫正坐标系的z轴，该z轴为

。

这样源图像和参考图像的图像矫正旋转矩阵为：

，其中

为

测度。

基于该图像矫正旋转矩阵通过投影矩阵判断参考图像与对应源图像之间的相对位置关系，产生得到矫正后的参考图像，使得矫正后的参考图像相对源图像仅水平方向存在左向位移。

在步骤S103中，模型生成装置使用预设神经网络对参考图像进行特征提取，以获取参考图像特征，同时使用预设神经网络对源图像进行特征提取，获取源图像特征。

随后模型生成装置基于参考图像特征以及源图像特征计算参考图像和源图像的代价体。该代价体表示的是参考图像在立体空间中的深度概率值。具体的，可基于以下公式计算参考图像与源图像的代价体：

；

；

其中c表示特征图的特征度信道数量，h代表特征图宽度，w代表特征图高度，

为参考图像的特征图，

为所述源图像的特征图，

为参考图像与源图像的代价体，其中i为代价体的行位置，j为代价体的列位置，q为一设定相差值，

代表特征图

整体延w方向平移q和像素。

在步骤S104中，模型生成装置使用步骤S102获取的图像矫正旋转矩阵对步骤S103获取的代价体进行坐标系转换，得到源图像与参考图像的矫正代价体（矫正视角下的代价体），以便进行后续对多个不同源图像与参考图像的代价体进行融合。

具体的，可通过以下公式计算源图像和参考图像的矫正代价体：

其中

为参考图像的旋转矩阵，R为源图像和所述参考图像的图像矫正旋转矩阵，

为源图像和参考图像的矫正代价体。

在步骤S105中，模型生成装置对步骤S104获取的参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体。

具体的，模型生成装置可使用逐元素最大池化操作对参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体。

下面通过具体对逐元素最大池化操作进行说明，比如参考图像具有对应的源图像A、源图像B以及源图像C，源图像A的矫正代价体具有元素A1、A2、A3；源图像B的矫正代价体具有元素B1、B2、B3；源图像C的矫正代价体具有元素C1、C2、C3。

如果A1、B1、C1中最大的是A1，A2、B2、C2中最大的是B2，A3、B3、C3中最大是C3，则融合后的最终代价体具有元素A1、B2、C3。

在步骤S106中，模型生成装置基于步骤S105获取的最终代价体，计算参考图像在设定分辨率下的相差分布估计，并计算设定分辨率下的估计相差。

具体的，模型生成装置基于最终代价体，使用预设神经网络计算参考图像在设定分辨率下的相差分布估计。即在设定分辨率下，最终代价体通过预设神经网络的计算会对应相差分布估计，进而可通过该相差分布估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。

在该设定分辨率下，参考图像中检测物体的尺寸为参考图像尺寸的0.3%至10%，如检测物体大于参考图像尺寸的10%，则可能导致对检测物体运动的检测不敏感，如检测物体小于参考图像尺寸的0.3%。则可能导致无法检测到对应检测物体的运动。在更小分辨率的情况下，参考图像更加关注更细节的检测物体运动，在更大分辨率的情况下，参考图像更加关注更宏观的检测物体运动。

由于在参考图像中，对于人眼敏感度较高且人眼观察舒适度较高的检测物体的尺寸就在整个图像尺寸的0.3%至10%，因此传统立体视觉模型会采用较多的计算资源在该分辨率下进行匹配点的计算，而本实施例对该分辨率下的参考图像以及对应的多个源图像使用最终代价体进行估计相差的计算，可大大降低在此分辨率下的参考图像和源图像的匹配点的计算成本。

在步骤S107中，由于参考图像的最终相差是由各个分辨率下的参考图像的估计相差合成的，不同分辨率下，用户对参考图像中关注的检测物体的尺寸是不同的。因此模型生成装置对参考图像在每一层分辨率下的估计相差进行融合，从而可得到参考图像的最终相差。

在步骤S108中，模型生成装置基于步骤S107获取的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

具体的，模型生成装置可通过以下公式生成参考图像的深度图。

；

其中f为参考图像对应相机的焦距，b为多目全景图像立体系统中的基线长度，d为估计相差。

通过上述公式，最终相差可转化为深度图，随后多视角深度图进行互检，剔除掉异常点，即可用于生成3D点云，最后生成对应的立体视觉模型。

这样即完成了本实施例的基于多目全景图像的模型生成方法的立体视觉模型的生成过程。

本实施例的基于多目全景图像的模型生成方法通过对多个源图像与参考图像的代价体进行计算以及融合，提高了设定分辨率下的估计相差的准确性，从而有效的提高了生成模型的精准度；同时代价体的计算和融合对计算资源的消耗较小，特别是针对高计算资源消耗的图像识别部分，因此可降低整个模型生成流程的计算资源消耗。

请参照图2，图2为本发明的基于多目全景图像的模型生成方法的第二实施例的流程图。本实施例的模型生成方法可使用上述的电子设备进行实施，本实施例的基于多目全景图像的模型生成方法包括：

步骤S201，获取参考图像以及对应的多个源图像，其中源图像与参考图像具有重合视角；

步骤S202，对第一级参考图像进行折叠降维操作，获取第一级参考图像对应的至少一个下级参考图像；对第一级源图像进行折叠降维操作，获取第一级源图像对应的至少一个下级源图像；

步骤S203，使用第一预设残差卷积网络，对下级参考图像进行特征提取，以得到下级参考图像特征；使用第一预设残差卷积网络，对下级源图像进行特征提取，以得到下级源图像特征；

步骤S204，基于设定层级的下级参考图像特征以及设定层级的源图像特征，得到对应的设定层级的下级参考图像的最终代价体，并基于最终代价体，计算参考图像在设定分辨率下的下级参考图像相差分布估计特征；

步骤S205，基于其它层级的下级参考图像特征以及其他层级的源图像特征，得到参考图像的其他层级的下级参考图像相差分布估计特征；

步骤S206，使用第二预设残差卷积网络，对下级参考图像相差分布估计特征进行特征提取，得到下级参考图像的差异特征；

步骤S207，基于下级参考图像的差异特征，得到下级参考图像的估计相差；

步骤S208，对差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征；对估计相差进行平铺升维操作，以得到第一级参考图像的修正相差；

步骤S209，根据参考图像、源图像、第一级参考图像的修正差异特征以及第一级参考图像的修正相差，得到第一级参考图像的最终相差；

步骤S210，基于第一级参考图像的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

在步骤S201中，模型生成装置获取多目摄像机拍摄的参考图像以及对应的多个源图像，其中源图像与参考图像具有重合视角。

在步骤S202中，模型生成装置对第一级参考图像进行折叠降维操作，获取第一级参考图像对应多个下级参考图像，如四个第二级参考图像；如继续对第二级参考图像进行折叠降维操作，则可获取四个第三级参考图像。

具体请参照图3，图3为一个第一级参考图像折叠降维成四个第二级参考图像的操作示意图。该第一级参考图像的分辨率为4*4；该第二级参考图像的分辨率为2*2。

同时模型生成装置还对第一级源图像进行折叠降维操作，获取第一级源图像对应的多个下级源图像，如四个第二级源图像；如继续对第二级源图像进行折叠降维操作，则可获取四个第三级源图像。

不同级别或分辨率的参考图像的设置，可较好的满足场景内不同场景物品感受野的需求。

在步骤S203中，模型生成装置使用第一预设残差卷积网络，对步骤S202获取的多个下级参考图像（如第二级参考图像以及第三级参考图像等）进行特征提取，以得到多个不同级别的下级参考图像特征。

同时模型生成装置使用第一预设残差卷积网络，对步骤S202获取的多个下级源图像进行特征提取，以得到多个不同级别的下级源图像特征。

在步骤S204中，模型生成装置基于设定层级的下级参考图像特征以及设定层级的源图像特征，得到对应的设定层级的下级参考图像的最终代价体。具体的最终代价体的计算过程可参照基于多目全景图像的模型生成方法的第一实施例的步骤S101至步骤S105。

随后模型生成装置基于最终代价体，计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。

具体的，模型生成装置可使用预设神经网络计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。即在设定分辨率下，最终代价体通过预设神经网络的计算会对应相差分布估计，进而可通过该相差估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。

在步骤S205中，模型生成装置基于其他层级的下级参考图像特征以及其他层级的源图像特征，得到参考图像的其他层级的下级参考图像相差分布估计特征。由于在其他分辨率下对计算资源消耗较低，在不考虑计算资源消耗的情况下，现有的特征点匹配算法精确度是高于最终代价体匹配算法；为了进一步提高生成模型的精准度，这里可直接采用现有的特征点匹配算法计算参考图像的其他层级的下级参考图像相差分布估计特征。

在步骤S206中，模型生成装置使用第二预设残差卷积网络，对步骤S204和步骤S205获取的下级参考图像相差分布估计特征进行特征提取，以获取下级参考图像的差异特征。

在步骤S207中，模型生成装置基于获取的下级参考图像的差异特征，得到下级参考图像的估计相差。即基于下级参考图像的差异特征对应的预设估计相差，来确定对应的下级参考图像的估计相差。如该下级参考图像的差异特征对应的预设估计相差较大，则对应得到的下级参考图像的估计相差也较大；如该下级参考图像的差异特征对应的预设估计相差较小，则对应得到的下级参考图像的估计相差也较小。该预设估计相差可通过正负样本的模型训练获取。

在步骤S208中，模型生成装置对步骤S206获取的下级参考图像的差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征；模型生成装置对步骤S207获取的下级参考图像的估计相差进行平铺升维，以得到第一级参考图像的修正相差。

比如模型生成装置可对第三级参考图像的差异特征进行平铺升维操作，以得到第二级参考图像的修正差异特征，该第二级参考图像的修正差异特征可用于计算第二级参考图像的差异特征；随后模型生成装置可对第二级参考图像的差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征。

具体请参照图4，图4为四个第三级参考图像平铺升维成一个第二级参考图像的操作示意图。该第三级参考图像的差异特征对应图像的分辨率为2*2；该第二级参考图像的修正差异特征对应图像的分辨率为4*4。

同理，模型生成装置可对第三级参考图像的估计相差进行平铺升维操作，以得到第二级参考图像的修正相差，该第二级参考图像的修正相差可用于计算第二级参考图像的估计相差；随后模型生成装置对第二级参考图像的估计相差进行平铺升维操作，以得到第一级参考图像的修正相差。

在步骤S209中，模型生成装置对步骤S201获取的参考图像、源图像，步骤S208获取得到第一级参考图像的修正差异特征以及第一参考图像的修正相差，进行特征融合，并根据融合后的特征得到对应的第一级参考图像的最终相差。该融合后的特征与第一级参考图像的最终相差的对应关系可通过正负样本的模型训练获取。

在步骤S210中，模型生成装置基于步骤209获取的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

最终相差可转化为深度图，随后多视角深度图进行互检，剔除掉异常点，即可用于生成3D点云，最后生成对应的立体视觉模型。

在第一实施例的基础上，本实施例的基于多目全景图像的模型生成方法在设定分辨率下使用最终代价体来计算下级参考图像相差分布估计特征，在其他分辨率下直接使用图像特征来计算下级参考图像相差分布估计特征，在简化整个模型生成流程的基础上，进一步提高了生成模型的精准度，降低了模型生成流程的计算资源消耗。

本发明还提供一种基于多目全景图像的模型生成装置，请参照图5，图5为本发明的基于多目全景图像的模型生成装置的第一实施例的结构示意图。本实施例的模型生成装置可使用上述的模型生成方法的第一实施例进行实施。本实施例的模型生成装置50包括图像获取模块51、图像矫正旋转矩阵计算模块52、代价体计算模块53、代价体转换模块54、代价体融合模块55、设定估计相差计算模块56、相差融合模块57以及模型构建模块58。

图像获取模块51用于获取参考图像以及对应的多个源图像，其中源图像与所述参考图像具有重合视角；图像矫正旋转矩阵计算模块52用于获取源图像的源相机参数以及参考图像的参考相机参数，并基于源相机参数以及参考相机参数，计算源图像和参考图像的图像矫正旋转矩阵；代价体计算模块53用于提取参考图像的参考图像特征以及源图像的源图像特征，并基于参考图像特征以及源图像特征计算参考图像与源图像的代价体；代价体转换模块54用于使用图像矫正旋转矩阵对代价体进行坐标系转换，得到源图像与参考图像的矫正代价体；代价体融合模块55用于对参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体；设定估计相差计算模块56用于基于最终代价体，计算参考图像在设定分辨率下的相差分布估计，并计算设定分辨率下的估计相差；相差融合模块57用于对参考图像在每一层分辨率下的估计相差进行融合，得到参考图像的最终相差；模型构建模块58用于基于参考图像的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

本实施例的基于多目全景图像的模型生成装置50使用时，首先图像获取模块51获取参考图像以及对应的多个源图像，这里的源图像和参考图像具有重合视角。参考图像为需要生成立体视觉模型的标准图像，源图像为生成立体视觉模型的参照图像，参考图像与源图像可为对统一物品进行不同角度拍照的图像。

随后图像矫正旋转矩阵计算模块52需要计算参考图像和每个源图像之间的相对位置关系，并获取对应的图像矫正旋转矩阵。

然后代价体计算模块53使用预设神经网络对参考图像进行特征提取，以获取参考图像特征，同时使用预设神经网络对源图像进行特征提取，获取源图像特征。

随代价体计算模块54基于参考图像特征以及源图像特征计算参考图像和源图像的代价体。该代价体表示的是参考图像在立体空间中的深度概率值。具体的，可基于以下公式计算参考图像与源图像的代价体：

；

；

为参考图像的特征图，

为所述源图像的特征图，

代表特征图

整体延w方向平移q和像素。

随后代价体转换模块55使用图像矫正旋转矩阵对代价体进行坐标系转换，得到源图像与参考图像的矫正代价体（矫正视角下的代价体），以便进行后续对多个不同源图像与参考图像的代价体进行融合。

其中

为源图像和参考图像的矫正代价体。

然后代价体融合模块55对获取的参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体。

具体的，代价体融合模块55可使用逐元素最大池化操作对参考图像对应的多个源图像的矫正代价体进行融合操作，得到最终代价体。

随后设定估计相差计算模块56基于获取的最终代价体，计算参考图像在设定分辨率下的相差分布估计，并计算设定分辨率下的估计相差。

具体的，设定估计相差计算模块56基于最终代价体，使用预设神经网络计算参考图像在设定分辨率下的相差分布估计。即在设定分辨率下，最终代价体通过预设神经网络的计算会对应相差分布估计，进而可通过该相差分布估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。

由于参考图像的最终相差是由各个分辨率下的参考图像的估计相差合成的，不同分辨率下，用户对参考图像中关注的检测物体的尺寸是不同的。因此相差融合模块57对参考图像在每一层分辨率下的估计相差进行融合，从而可得到参考图像的最终相差。

最后模型构建模块58基于最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

具体的，模型构建模块58可通过以下公式生成参考图像的深度图。

；

这样即完成了本实施例的基于多目全景图像的模型生成装置50的立体视觉模型的生成过程。

本实施例的基于多目全景图像的模型生成装置通过对多个源图像与参考图像的代价体进行计算以及融合，提高了设定分辨率下的估计相差的准确性，从而有效的提高了生成模型的精准度；同时代价体的计算和融合对计算资源的消耗较小，因此可降低整个模型生成流程的计算资源消耗。

请参照图6，图6为本发明的基于多目全景图像的模型生成装置的第二实施例的结构示意图。本实施例的模型生成装置可使用上述的模型生成方法的第二实施例进行实施。本实施例的模型生成装置60包括图像获取模块61、折叠降维模块62、特征提取模块63、第一相差分布估计特征计算模块64、第二相差分布估计特征计算模块65、差异特征获取模块66、估计相差计算模块67、平铺升维模块68、最终相差获取模块69以及模型构建模块6A。

图像获取模块61用于获取参考图像以及对应的多个源图像，其中源图像与参考图像具有重合视角；折叠降维模块62用于对第一级参考图像进行折叠降维操作，获取第一级参考图像对应的至少一个下级参考图像；对第一级源图像进行折叠降维操作，获取第一级源图像对应的至少一个下级源图像；特征提取模块63用于使用第一预设残差卷积网络，对下级参考图像进行特征提取，以得到下级参考图像特征；使用第一预设残差卷积网络，对下级源图像进行特征提取，以得到下级源图像特征；第一相差分布估计特征计算模块64用于基于设定层级的下级参考图像特征以及设定层级的源图像特征，得到对应的设定层级的下级参考图像的最终代价体，并基于最终代价体，计算参考图像在设定分辨率下的下级参考图像相差分布估计特征；第二相差分布估计特征计算模块65用于基于其他层级的下级参考图像特征以及其他层级的源图像特征，得到参考图像的其他层级的下级参考图像相差分布估计特征；差异特征获取模块66用于使用第二预设残差卷积网络，对下级参考图像相差分布估计特征进行特征提取，得到下级参考图像的差异特征；估计相差计算模块67用于基于下级参考图像的差异特征，得到下级参考图像的估计相差；平铺升维模块68用于对差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征；对估计相差进行平铺升维操作，以得到第一级参考图像的修正相差；最终相差获取模块69用于根据参考图像、源图像、第一级参考图像的修正差异特征以及第一级参考图像的修正相差，得到第一级参考图像的最终相差；模型构建模块6A用于基于第一级参考图像的最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

本实施例的基于多目全景图像的模型生成装置60使用时，首先图像获取模块61获取多目摄像机拍摄的参考图像以及对应的多个源图像，其中源图像与参考图像具有重合视角。

随后折叠降维模块62对第一级参考图像进行折叠降维操作，获取第一级参考图像对应多个下级参考图像，如四个第二级参考图像；如继续对第二级参考图像进行折叠降维操作，则可获取四个第三级参考图像。

同时折叠降维模块62还对第一级源图像进行折叠降维操作，获取第一级源图像对应的多个下级源图像，如四个第二级源图像；如继续对第二级源图像进行折叠降维操作，则可获取四个第三级源图像。

然后特征提取模块63使用第一预设残差卷积网络，对多个下级参考图像（如第二级参考图像以及第三级参考图像等）进行特征提取，以得到多个不同级别的下级参考图像特征。

同时特征提取模块63使用第一预设残差卷积网络，对多个下级源图像进行特征提取，以得到多个不同级别的下级源图像特征。

随后第一相差分布估计特征计算模块64基于设定层级的下级参考图像特征以及设定层级的源图像特征，得到对应的设定层级的下级参考图像的最终代价体。

随后第一相差分布估计特征计算模块64基于最终代价体，计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。

具体的，第一相差分布估计特征计算模块64可使用预设神经网络计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。即在设定分辨率下，最终代价体通过预设神经网络的计算会对应相差分布估计，进而可通过该相差估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。

然后第二相差分布估计特征计算模块65基于其他层级的下级参考图像特征以及其他层级的源图像特征，得到参考图像的其他层级的下级参考图像相差分布估计特征。由于在其他分辨率下对计算资源消耗较低，这里可采用现有的特征点匹配算法计算参考图像的其他层级的下级参考图像相差分布估计特征。

随后差异特征获取模块66使用第二预设残差卷积网络，对下级参考图像相差分布估计特征进行特征提取，以获取下级参考图像的差异特征。

然后估计相差计算模块67基于获取的下级参考图像的差异特征，得到下级参考图像的估计相差。即基于下级参考图像的差异特征对应的预设估计相差，来确定对应的下级参考图像的估计相差。如该下级参考图像的差异特征对应的预设估计相差较大，则对应得到的下级参考图像的估计相差也较大；如该下级参考图像的差异特征对应的预设估计相差较小，则对应得到的下级参考图像的估计相差也较小。该预设估计相差可通过正负样本的模型训练获取。

随后平铺升维模块68对下级参考图像的差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征；平铺升维模块对下级参考图像的估计相差进行平铺升维，以得到第一级参考图像的修正相差。

比如平铺升维模块68可对第三级参考图像的差异特征进行平铺升维操作，以得到第二级参考图像的修正差异特征，该第二级参考图像的修正差异特征可用于计算第二级参考图像的差异特征；随后平铺升维模块可对第二级参考图像的差异特征进行平铺升维操作，以得到第一级参考图像的修正差异特征。

同理，平铺升维模块68可对第三级参考图像的估计相差进行平铺升维操作，以得到第二级参考图像的修正相差，该第二级参考图像的修正相差可用于计算第二级参考图像的估计相差；随后平铺升维模块对第二级参考图像的估计相差进行平铺升维操作，以得到第一级参考图像的修正相差。

然后最终相差获取模块69对参考图像、源图像第一级参考图像的修正差异特征以及第一参考图像的修正相差，进行特征融合，并根据融合后的特征得到对应的第一级参考图像的最终相差。该融合后的特征与第一级参考图像的最终相差的对应关系可通过正负样本的模型训练获取。

最后模型构建模块6A基于最终相差生成参考图像的深度图，并根据深度图构建对应的立体视觉模型。

这样即完成了本实施例的基于多目全景图像的模型生成装置的立体视觉模型的生成过程。

在第一实施例的基础上，本实施例的基于多目全景图像的模型生成装置在设定分辨率下使用最终代价体来计算下级参考图像相差分布估计特征，在其他分辨率下直接使用图像特征来计算下级参考图像相差分布估计特征，在简化整个模型生成流程的基础上，进一步提高了生成模型的精准度，降低了模型生成流程的计算资源消耗。

请参照图7，图7为本发明的基于多目全景图像的模型生成方法及模型生成装置的具体实施例的流程示意图。本具体实施例的模型生成方法及生成装置通过对第一级参考图像以及对应的第一级源图像进行多次折叠降维，以产生多分辨率下的特征图。分辨率级数可根据实际参考图像尺寸进行调整，以确保最低分辨率相差评估可以囊括参考图像与源图像的最大相差。各分辨率下，根据左右眼图像特征图所产生的相差分布和图像在该分辨率下的特征图，预测相差实际数值。并且对于人眼敏感度较高的分辨率层级，使用参考图像以及对应的多个源图像的最终代价体进行估计相差的计算，从而大大降低了此分辨率下的参考图像和源图像的匹配点的计算成本。

上述预测所得相差和用于产生预测的特征图会经过平铺升维操作传递至上级参考图像进行融合处理，经多次平铺升维操作生成原始分辨率的密集相差图，从而进一步基于相差图生成对应的深度图以及对应的立体视觉模型。

本发明的基于多目全景图像的模型生成方法以及模型生成装置通过对多个源图像与参考图像的代价体进行计算以及融合，提高了设定分辨率下的估计相差的准确性，从而有效的提高了生成模型的精准度；同时代价体的计算和融合对计算资源的消耗较小，因此可降低整个模型生成流程的计算资源消耗；有效解决了现有的模型生成方法及模型生成装置的计算资源消耗较大且生成模型的精准度较差的技术问题。

本文提供了实施例的各种操作。在一个实施例中，所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令，其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且，应当理解，不是所有操作必需在本文所提供的每个实施例中存在。

而且，尽管已经相对于一个或多个实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件（例如元件、资源等）执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能（例如其在功能上是等价的）的任意组件（除非另外指示），即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的方法。

综上所述，虽然本发明已以实施例揭露如上，实施例前的序号仅为描述方便而使用，对本发明各实施例的顺序不造成限制。并且，上述实施例并非用以限制本发明，本领域的普通技术人员，在不脱离本发明的精神和范围内，均可作各种更动与润饰，因此本发明的保护范围以权利要求界定的范围为准。