CN111402345B - 基于多目全景图像的模型生成方法及装置 - Google Patents

基于多目全景图像的模型生成方法及装置 Download PDF

Info

Publication number
CN111402345B
CN111402345B CN202010501846.9A CN202010501846A CN111402345B CN 111402345 B CN111402345 B CN 111402345B CN 202010501846 A CN202010501846 A CN 202010501846A CN 111402345 B CN111402345 B CN 111402345B
Authority
CN
China
Prior art keywords
reference image
image
phase difference
source
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010501846.9A
Other languages
English (en)
Other versions
CN111402345A (zh
Inventor
陈丹
张誉耀
谭志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kandao Technology Co Ltd
Original Assignee
Kandao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kandao Technology Co Ltd filed Critical Kandao Technology Co Ltd
Priority to CN202010501846.9A priority Critical patent/CN111402345B/zh
Publication of CN111402345A publication Critical patent/CN111402345A/zh
Application granted granted Critical
Publication of CN111402345B publication Critical patent/CN111402345B/zh
Priority to PCT/CN2021/088002 priority patent/WO2021244161A1/zh
Priority to US18/041,413 priority patent/US20230237683A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于多目全景图像的模型生成方法,其包括:获取参考图像以及对应的多个源图像;计算源图像和参考图像的图像矫正旋转矩阵;提取参考图像的参考图像特征以及源图像的源图像特征,并基于参考图像特征以及源图像特征计算参考图像与所述源图像的代价体;得到源图像与参考图像的矫正代价体;对参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;基于最终代价体,计算参考图像在设定分辨率下的相差分布估计,并计算设定分辨率下的估计相差;对参考图像在每一层分辨率下的估计相差进行融合,得到参考图像的最终相差;基于参考图像的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。

Description

基于多目全景图像的模型生成方法及装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于多目全景图像的模型生成方法及装置。
背景技术
传统的多视角立体视觉,通常采用单目相机在多个预先调校的空间位置进行图像采样。设某参考视角产生的图片为参考图片,所有与该视角有重合的视角产生的图片为源图片。传统MVS(Mult-view Stereo,多视点三维重建)算法通常通过寻找参考图片中的像素点/特征点在所有源图片中的匹配点,来确定点之间联系,通常使用相差标示。基于该联系,通过三角化关系,可以进一步计算得出参考图片中每一像素点的深度数值。该深度数值通过传统多视角融合算法融合,最终可产生该场景的立体视觉模型。
但是上述方法中寻找匹配点的操作对计算资源消耗较大,且如果匹配点准确度较低可能导致后续生成的立体视觉模型的精准度较差。
故,有必要提供一种基于多目全景图像的模型生成方法及装置,以解决现有技术所存在的问题。
发明内容
本发明实施例提供一种对计算资源消耗较低且生成模型的精准度较高的模型生成方法及模型生成装置;以解决现有的模型生成方法及模型生成装置的计算资源消耗较大且生成模型的精准度较差的技术问题。
本发明实施例提供一种基于多目全景图像的模型生成方法,其包括:
获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
获取所述源图像的源相机参数以及所述参考图像的参考相机参数,并基于所述源相机参数以及所述参考相机参数,计算所述源图像和所述参考图像的图像矫正旋转矩阵;
提取所述参考图像的参考图像特征以及所述源图像的源图像特征,并基于所述参考图像特征以及所述源图像特征计算所述参考图像与所述源图像的代价体;
使用所述图像矫正旋转矩阵对所述代价体进行坐标系转换,得到所述源图像与所述参考图像的矫正代价体;
对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;
基于所述最终代价体,计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差;
对所述参考图像在每一层分辨率下的估计相差进行融合,得到所述参考图像的最终相差;
基于所述参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
在本发明所述的基于多目全景图像的模型生成方法中,基于以下公式计算所述源图像和所述参考图像的图像矫正旋转矩阵:
Figure 533071DEST_PATH_IMAGE001
其中R0为所述参考图像的旋转矩阵,t0为所述参考图像的平移矩阵,R1为对应的源图像的旋转矩阵,t1为对应的源图像的旋转矩阵,R为所述源图像和所述参考图像的图像矫正旋转矩阵。
在本发明所述的基于多目全景图像的模型生成方法中,基于以下公式计算所述参考图像与所述源图像的代价体:
Figure 800105DEST_PATH_IMAGE002
其中c表示特征图的特征度信道数量,h代表特征图宽度,w代表特征图高度,F0为 参考图像的特征图,F1为所述源图像的特征图,
Figure 812054DEST_PATH_IMAGE003
为参考图像与源图像的代价体,其 中i为所述代价体的行位置,j为所述代价体的列位置,q为一设定相差值,
Figure 543250DEST_PATH_IMAGE004
代表特 征图F1整体延w方向平移q和像素。
在本发明所述的基于多目全景图像的模型生成方法中,通过以下公式计算所述源图像和所述参考图像的矫正代价体:
Figure 411980DEST_PATH_IMAGE005
其中R0为所述参考图像的旋转矩阵,R为所述源图像和所述参考图像的图像矫正 旋转矩阵,
Figure 976429DEST_PATH_IMAGE006
为所述源图像和所述参考图像的矫正代价体。
在本发明所述的基于多目全景图像的模型生成方法中,所述对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体的步骤为:
使用逐元素最大池化操作对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体。
在本发明所述的基于多目全景图像的模型生成方法中,所述基于所述最终代价体,计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差的步骤为:
基于最终代价体,使用预设神经网络计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差;
其中在所述设定分辨率下,所述参考图像中检测物体的尺寸为所述参考图像的尺寸的0.3%至10%。
在本发明所述的基于多目全景图像的模型生成方法中,通过以下公式生成所述参考图像的深度图:
Figure 713441DEST_PATH_IMAGE007
其中f为所述参考图像对应相机的焦距,b为多目全景图像立体系统中的基线长度,d为估计相差。
本发明实施例还提供一种基于多目全景图形的模型生成方法,其包括:
获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
对所述第一级参考图像进行折叠降维操作,获取所述第一级参考图像对应的至少一个下级参考图像;对所述第一级源图像进行折叠降维操作,获取所述第一级源图像对应的至少一个下级源图像;
使用第一预设残差卷积网络,对所述下级参考图像进行特征提取,以得到下级参考图像特征;使用第一预设残差卷积网络,对所述下级源图像进行特征提取,以得到下级源图像特征;
基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体,并基于所述最终代价体,计算所述参考图像在设定分辨率下的下级参考图像相差分布估计特征;
基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到所参考图像的其他层级的下级参考图像相差分布估计特征;
使用第二预设残差卷积网络,对所述下级参考图像相差分布估计特征进行特征提取,得到下级参考图像的差异特征;
基于所述下级参考图像的差异特征,得到所述下级参考图像的估计相差;
对所述差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;对所述估计相差进行平铺升维操作,以得到第一级参考图像的修正相差;
根据所述参考图像、所述源图像、所述第一级参考图像的修正差异特征以及所述第一级参考图像的修正相差,得到第一级参考图像的最终相差;
基于所述第一级参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
本发明实施例还提供一种基于多目全景图形的模型生成装置,其包括:
图像获取模块,用于获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
图像矫正旋转矩阵计算模块,用于获取所述源图像的源相机参数以及所述参考图像的参考相机参数,并基于所述源相机参数以及所述参考相机参数,计算所述源图像和所述参考图像的图像矫正旋转矩阵;
代价体计算模块,用于提取所述参考图像的参考图像特征以及所述源图像的源图像特征,并基于所述参考图像特征以及所述源图像特征计算所述参考图像与所述源图像的代价体;
代价体转换模块,用于使用所述图像矫正旋转矩阵对所述代价体进行坐标系转换,得到所述源图像与所述参考图像的矫正代价体;
代价体融合模块,用于对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;
设定估计相差计算模块,用于基于所述最终代价体,计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差;
相差融合模块,用于对所述参考图像在每一层分辨率下的估计相差进行融合,得到所述参考图像的最终相差;
模型构建模块,用于基于所述参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
本发明实施例还提供一种基于多目全景图像的模型生成装置,其包括:
图像获取模块,用于获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
折叠降维模块,用于对所述第一级参考图像进行折叠降维操作,获取所述第一级参考图像对应的至少一个下级参考图像;对所述第一级源图像进行折叠降维操作,获取所述第一级源图像对应的至少一个下级源图像;
特征提取模块,用于使用第一预设残差卷积网络,对所述下级参考图像进行特征提取,以得到下级参考图像特征;使用第一预设残差卷积网络,对所述下级源图像进行特征提取,以得到下级源图像特征;
第一相差分布估计特征计算模块,用于基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体,并基于所述最终代价体,计算所述参考图像在设定分辨率下的下级参考图像相差分布估计特征;
第二相差分布估计特征计算模块,用于基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到所述参考图像的其他层级的下级参考图像相差分布估计特征;
差异特征获取模块,用于使用第二预设残差卷积网络,对所述下级参考图像相差分布估计特征进行特征提取,得到下级参考图像的差异特征;
估计相差计算模块,用于基于所述下级参考图像的差异特征,得到所述下级参考图像的估计相差;
平铺升维模块,用于对所述差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;对所述估计相差进行平铺升维操作,以得到第一级参考图像的修正相差;
最终相差获取模块,用于根据所述参考图像、所述源图像、所述第一级参考图像的修正差异特征以及所述第一级参考图像的修正相差,得到第一级参考图像的最终相差;
模型构建模块,用于基于所述第一级参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
本发明实施例还提供一种计算机可读存储介质,其内存储有处理器可执行指令,所述指令由一个或一个以上处理器加载,以执行上述任一基于多目全景图像的模型生成方法。
相较于现有技术的模型生成方法,本发明的基于多目全景图像的模型生成方法以及模型生成装置通过对多个源图像与参考图像的代价体进行计算以及融合,提高了设定分辨率下的估计相差的准确性,从而有效的提高了生成模型的精准度;同时代价体的计算和融合对计算资源的消耗较小,因此可降低整个模型生成流程的计算资源消耗;有效解决了现有的模型生成方法及模型生成装置的计算资源消耗较大且生成模型的精准度较差的技术问题。
附图说明
图1为本发明的基于多目全景图像的模型生成方法的第一实施例的流程图;
图2为本发明的基于多目全景图像的模型生成方法的第二实施例的流程图;
图3为一个第一级参考图像折叠降维成四个第二级参考图像的操作示意图;
图4为四个第三级参考图像平铺升维成一个第二级参考图像的操作示意图;
图5为本发明的基于多目全景图像的模型生成装置的第一实施例的结构示意图;
图6为本发明的基于多目全景图像的模型生成装置的第二实施例的结构示意图;
图7为本发明的基于多目全景图像的模型生成方法及模型生成装置的具体实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基于多目全景图像的模型生成方法以及模型生成装置用于基于具有重合视角的参考图像以及源图像的最终代价体来生成对应的立体视觉模型的电子设备。该电子设备包括但不限于可穿戴设备、头戴设备、医疗健康平台、个人计算机、服务器计算机、手持式或膝上型设备、移动设备(比如移动电话、个人数字助理(PDA)、媒体播放器等等)、多处理器系统、消费型电子设备、小型计算机、大型计算机、包括上述任意系统或设备的分布式计算环境,等等。
该电子设备优选为基于参考图像以及源图像创建立体视觉模型的模型创建终端或模型创建服务器,以提供精准度较高的立体视觉模型。
请参照图1,图1为本发明的基于多目全景图像的模型生成方法的第一实施例的流程图。本实施例的模型生成方法可使用上述的电子设备进行实施,本实施例的基于多目全景图像的模型生成方法包括:
步骤S101,获取参考图像以及对应的多个源图像,其中源图像与参考图像具有重合视角;
步骤S102,获取源图像的源相机参数以及参考图像的参考相机参数,并基于源相机参数以及参考相机参数,计算源图像和参考图像的图像矫正旋转矩阵;
步骤S103,提取参考图像的参考图像特征以及源图像的源图像特征,并基于参考图像特征以及源图像特征计算参考图像与源图像的代价体;
步骤S104,使用图像矫正旋转矩阵对代价体进行坐标系转换,得到源图像与参考图像的矫正代价体;
步骤S105,对参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;
步骤S106,基于最终代价体,计算参考图像在设定分辨率下的相差分布估计,并计算设定分辨率下的估计相差;
步骤S107,对参考图像在每一层分辨率下的估计相差进行融合,得到参考图像的最终相差;
步骤S108,基于参考图像的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
下面详细说明本实施例的基于多目全景图像的模型生成方法的各步骤的具体流程。
在步骤S101中,模型生成装置(如模型创建服务器等)获取参考图像以及对应的多个源图像,这里的源图像和参考图像具有重合视角。参考图像为需要生成立体视觉模型的标准图像,源图像为生成立体视觉模型的参照图像,参考图像与源图像可为对同一物品进行不同角度拍照的图像。
在步骤S102中,模型生成装置需要计算参考图像和每个源图像之间的相对位置关系,并获取对应的图像矫正旋转矩阵。
这里设定参考图像对应的投影矩阵(projection matrix)为P0=K[R0t0] ,其中k0 为参考图像的内参矩阵(intrinsic matrix),[R0t0]为参考图像的外参矩阵(extrinsic matrix), R0为参考图像的旋转矩阵(rotation matrix),t0为参考图像的平移向量 (translation vector)。P1,P2, ······Pn为n个源图像的投影矩阵,同理
Figure 299143DEST_PATH_IMAGE008
。在世 界坐标系中,参考图像对应的相机的光心(optical center)坐标为
Figure 542036DEST_PATH_IMAGE009
,源图像对应 的相机的光心坐标为
Figure 845979DEST_PATH_IMAGE010
因此可设定图像矫正坐标系的x轴,该x轴为
Figure 934152DEST_PATH_IMAGE011
,其中
Figure 639939DEST_PATH_IMAGE012
表示旋转矩阵R0的第一行中的所有元素,
Figure 788155DEST_PATH_IMAGE013
用于确定
Figure 579394DEST_PATH_IMAGE014
是否在
Figure 468328DEST_PATH_IMAGE015
的右 侧,即源图像是否相对参考图像实现了右向平移,如果
Figure 28622DEST_PATH_IMAGE014
位于
Figure 613318DEST_PATH_IMAGE015
的右侧,则
Figure 439323DEST_PATH_IMAGE016
的正方向是从 参考图像位置指向
Figure 321828DEST_PATH_IMAGE017
代表的源图像位置,该操作保证投影后,源图像位置相对参考图像位 置进行右向移动。
设定图像矫正坐标系的y轴,该y轴为
Figure 736629DEST_PATH_IMAGE018
,其中cross函数用于计算 向量积,计算结果也是一向量,该向量垂直于该操作的两个操作数,通常也是向量。
设定图像矫正坐标系的z轴,该z轴为
Figure 492227DEST_PATH_IMAGE019
这样源图像和参考图像的图像矫正旋转矩阵为:
Figure 992478DEST_PATH_IMAGE020
,其 中
Figure 223215DEST_PATH_IMAGE021
Figure 695785DEST_PATH_IMAGE022
测度。
基于该图像矫正旋转矩阵通过投影矩阵判断参考图像与对应源图像之间的相对位置关系,产生得到矫正后的参考图像,使得矫正后的参考图像相对源图像仅水平方向存在左向位移。
在步骤S103中,模型生成装置使用预设神经网络对参考图像进行特征提取,以获取参考图像特征,同时使用预设神经网络对源图像进行特征提取,获取源图像特征。
随后模型生成装置基于参考图像特征以及源图像特征计算参考图像和源图像的代价体。该代价体表示的是参考图像在立体空间中的深度概率值。具体的,可基于以下公式计算参考图像与源图像的代价体:
Figure 871551DEST_PATH_IMAGE023
Figure 609831DEST_PATH_IMAGE024
其中c表示特征图的特征度信道数量,h代表特征图宽度,w代表特征图高度,
Figure 834139DEST_PATH_IMAGE025
为 参考图像的特征图,
Figure 957953DEST_PATH_IMAGE026
为所述源图像的特征图,
Figure 55353DEST_PATH_IMAGE027
为参考图像与源图像的代价体,其 中i为代价体的行位置,j为代价体的列位置,q为一设定相差值,
Figure 467880DEST_PATH_IMAGE028
代表特征图
Figure 558195DEST_PATH_IMAGE026
整体 延w方向平移q和像素。
在步骤S104中,模型生成装置使用步骤S102获取的图像矫正旋转矩阵对步骤S103获取的代价体进行坐标系转换,得到源图像与参考图像的矫正代价体(矫正视角下的代价体),以便进行后续对多个不同源图像与参考图像的代价体进行融合。
具体的,可通过以下公式计算源图像和参考图像的矫正代价体:
Figure 552827DEST_PATH_IMAGE029
其中
Figure 742500DEST_PATH_IMAGE030
为参考图像的旋转矩阵,R为源图像和所述参考图像的图像矫正旋转矩阵,
Figure 704640DEST_PATH_IMAGE031
为源图像和参考图像的矫正代价体。
在步骤S105中,模型生成装置对步骤S104获取的参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体。
具体的,模型生成装置可使用逐元素最大池化操作对参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体。
下面通过具体对逐元素最大池化操作进行说明,比如参考图像具有对应的源图像A、源图像B以及源图像C,源图像A的矫正代价体具有元素A1、A2、A3;源图像B的矫正代价体具有元素B1、B2、B3;源图像C的矫正代价体具有元素C1、C2、C3。
如果A1、B1、C1中最大的是A1,A2、B2、C2中最大的是B2,A3、B3、C3中最大是C3,则融合后的最终代价体具有元素A1、B2、C3。
在步骤S106中,模型生成装置基于步骤S105获取的最终代价体,计算参考图像在设定分辨率下的相差分布估计,并计算设定分辨率下的估计相差。
具体的,模型生成装置基于最终代价体,使用预设神经网络计算参考图像在设定分辨率下的相差分布估计。即在设定分辨率下,最终代价体通过预设神经网络的计算会对应相差分布估计,进而可通过该相差分布估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。
在该设定分辨率下, 参考图像中检测物体的尺寸为参考图像尺寸的0.3%至10%,如检测物体大于参考图像尺寸的10%,则可能导致对检测物体运动的检测不敏感,如检测物体小于参考图像尺寸的0.3%。则可能导致无法检测到对应检测物体的运动。在更小分辨率的情况下,参考图像更加关注更细节的检测物体运动,在更大分辨率的情况下,参考图像更加关注更宏观的检测物体运动。
由于在参考图像中,对于人眼敏感度较高且人眼观察舒适度较高的检测物体的尺寸就在整个图像尺寸的0.3%至10%,因此传统立体视觉模型会采用较多的计算资源在该分辨率下进行匹配点的计算,而本实施例对该分辨率下的参考图像以及对应的多个源图像使用最终代价体进行估计相差的计算,可大大降低在此分辨率下的参考图像和源图像的匹配点的计算成本。
在步骤S107中,由于参考图像的最终相差是由各个分辨率下的参考图像的估计相差合成的,不同分辨率下,用户对参考图像中关注的检测物体的尺寸是不同的。因此模型生成装置对参考图像在每一层分辨率下的估计相差进行融合,从而可得到参考图像的最终相差。
在步骤S108中,模型生成装置基于步骤S107获取的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
具体的,模型生成装置可通过以下公式生成参考图像的深度图。
Figure 104308DEST_PATH_IMAGE032
其中f为参考图像对应相机的焦距,b为多目全景图像立体系统中的基线长度,d为估计相差。
通过上述公式,最终相差可转化为深度图,随后多视角深度图进行互检,剔除掉异常点,即可用于生成3D点云,最后生成对应的立体视觉模型。
这样即完成了本实施例的基于多目全景图像的模型生成方法的立体视觉模型的生成过程。
本实施例的基于多目全景图像的模型生成方法通过对多个源图像与参考图像的代价体进行计算以及融合,提高了设定分辨率下的估计相差的准确性,从而有效的提高了生成模型的精准度;同时代价体的计算和融合对计算资源的消耗较小,特别是针对高计算资源消耗的图像识别部分,因此可降低整个模型生成流程的计算资源消耗。
请参照图2,图2为本发明的基于多目全景图像的模型生成方法的第二实施例的流程图。本实施例的模型生成方法可使用上述的电子设备进行实施,本实施例的基于多目全景图像的模型生成方法包括:
步骤S201,获取参考图像以及对应的多个源图像,其中源图像与参考图像具有重合视角;
步骤S202,对第一级参考图像进行折叠降维操作,获取第一级参考图像对应的至少一个下级参考图像;对第一级源图像进行折叠降维操作,获取第一级源图像对应的至少一个下级源图像;
步骤S203,使用第一预设残差卷积网络,对下级参考图像进行特征提取,以得到下级参考图像特征;使用第一预设残差卷积网络,对下级源图像进行特征提取,以得到下级源图像特征;
步骤S204,基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体,并基于最终代价体,计算参考图像在设定分辨率下的下级参考图像相差分布估计特征;
步骤S205,基于其它层级的下级参考图像特征以及其他层级的源图像特征,得到参考图像的其他层级的下级参考图像相差分布估计特征;
步骤S206,使用第二预设残差卷积网络,对下级参考图像相差分布估计特征进行特征提取,得到下级参考图像的差异特征;
步骤S207,基于下级参考图像的差异特征,得到下级参考图像的估计相差;
步骤S208,对差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;对估计相差进行平铺升维操作,以得到第一级参考图像的修正相差;
步骤S209,根据参考图像、源图像、第一级参考图像的修正差异特征以及第一级参考图像的修正相差,得到第一级参考图像的最终相差;
步骤S210,基于第一级参考图像的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
下面详细说明本实施例的基于多目全景图像的模型生成方法的各步骤的具体流程。
在步骤S201中,模型生成装置获取多目摄像机拍摄的参考图像以及对应的多个源图像,其中源图像与参考图像具有重合视角。
在步骤S202中,模型生成装置对第一级参考图像进行折叠降维操作,获取第一级参考图像对应多个下级参考图像,如四个第二级参考图像;如继续对第二级参考图像进行折叠降维操作,则可获取四个第三级参考图像。
具体请参照图3,图3为一个第一级参考图像折叠降维成四个第二级参考图像的操作示意图。该第一级参考图像的分辨率为4*4;该第二级参考图像的分辨率为2*2。
同时模型生成装置还对第一级源图像进行折叠降维操作,获取第一级源图像对应的多个下级源图像,如四个第二级源图像;如继续对第二级源图像进行折叠降维操作,则可获取四个第三级源图像。
不同级别或分辨率的参考图像的设置,可较好的满足场景内不同场景物品感受野的需求。
在步骤S203中,模型生成装置使用第一预设残差卷积网络,对步骤S202获取的多个下级参考图像(如第二级参考图像以及第三级参考图像等)进行特征提取,以得到多个不同级别的下级参考图像特征。
同时模型生成装置使用第一预设残差卷积网络,对步骤S202获取的多个下级源图像进行特征提取,以得到多个不同级别的下级源图像特征。
在步骤S204中,模型生成装置基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体。具体的最终代价体的计算过程可参照基于多目全景图像的模型生成方法的第一实施例的步骤S101至步骤S105。
随后模型生成装置基于最终代价体,计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。
具体的,模型生成装置可使用预设神经网络计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。即在设定分辨率下,最终代价体通过预设神经网络的计算会对应相差分布估计,进而可通过该相差估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。
由于在参考图像中,对于人眼敏感度较高且人眼观察舒适度较高的检测物体的尺寸就在整个图像尺寸的0.3%至10%,因此传统立体视觉模型会采用较多的计算资源在该分辨率下进行匹配点的计算,而本实施例对该分辨率下的参考图像以及对应的多个源图像使用最终代价体进行估计相差的计算,可大大降低在此分辨率下的参考图像和源图像的匹配点的计算成本。
在步骤S205中,模型生成装置基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到参考图像的其他层级的下级参考图像相差分布估计特征。由于在其他分辨率下对计算资源消耗较低,在不考虑计算资源消耗的情况下,现有的特征点匹配算法精确度是高于最终代价体匹配算法;为了进一步提高生成模型的精准度,这里可直接采用现有的特征点匹配算法计算参考图像的其他层级的下级参考图像相差分布估计特征。
在步骤S206中,模型生成装置使用第二预设残差卷积网络,对步骤S204和步骤S205获取的下级参考图像相差分布估计特征进行特征提取,以获取下级参考图像的差异特征。
在步骤S207中,模型生成装置基于获取的下级参考图像的差异特征,得到下级参考图像的估计相差。即基于下级参考图像的差异特征对应的预设估计相差,来确定对应的下级参考图像的估计相差。如该下级参考图像的差异特征对应的预设估计相差较大,则对应得到的下级参考图像的估计相差也较大;如该下级参考图像的差异特征对应的预设估计相差较小,则对应得到的下级参考图像的估计相差也较小。该预设估计相差可通过正负样本的模型训练获取。
在步骤S208中,模型生成装置对步骤S206获取的下级参考图像的差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;模型生成装置对步骤S207获取的下级参考图像的估计相差进行平铺升维,以得到第一级参考图像的修正相差。
比如模型生成装置可对第三级参考图像的差异特征进行平铺升维操作,以得到第二级参考图像的修正差异特征,该第二级参考图像的修正差异特征可用于计算第二级参考图像的差异特征;随后模型生成装置可对第二级参考图像的差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征。
具体请参照图4,图4为四个第三级参考图像平铺升维成一个第二级参考图像的操作示意图。该第三级参考图像的差异特征对应图像的分辨率为2*2;该第二级参考图像的修正差异特征对应图像的分辨率为4*4。
同理,模型生成装置可对第三级参考图像的估计相差进行平铺升维操作,以得到第二级参考图像的修正相差,该第二级参考图像的修正相差可用于计算第二级参考图像的估计相差;随后模型生成装置对第二级参考图像的估计相差进行平铺升维操作,以得到第一级参考图像的修正相差。
在步骤S209中,模型生成装置对步骤S201获取的参考图像、源图像,步骤S208获取得到第一级参考图像的修正差异特征以及第一参考图像的修正相差,进行特征融合,并根据融合后的特征得到对应的第一级参考图像的最终相差。该融合后的特征与第一级参考图像的最终相差的对应关系可通过正负样本的模型训练获取。
在步骤S210中,模型生成装置基于步骤209获取的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
最终相差可转化为深度图,随后多视角深度图进行互检,剔除掉异常点,即可用于生成3D点云,最后生成对应的立体视觉模型。
这样即完成了本实施例的基于多目全景图像的模型生成方法的立体视觉模型的生成过程。
在第一实施例的基础上,本实施例的基于多目全景图像的模型生成方法在设定分辨率下使用最终代价体来计算下级参考图像相差分布估计特征,在其他分辨率下直接使用图像特征来计算下级参考图像相差分布估计特征,在简化整个模型生成流程的基础上,进一步提高了生成模型的精准度,降低了模型生成流程的计算资源消耗。
本发明还提供一种基于多目全景图像的模型生成装置,请参照图5,图5为本发明的基于多目全景图像的模型生成装置的第一实施例的结构示意图。本实施例的模型生成装置可使用上述的模型生成方法的第一实施例进行实施。本实施例的模型生成装置50包括图像获取模块51、图像矫正旋转矩阵计算模块52、代价体计算模块53、代价体转换模块54、代价体融合模块55、设定估计相差计算模块56、相差融合模块57以及模型构建模块58。
图像获取模块51用于获取参考图像以及对应的多个源图像,其中源图像与所述参考图像具有重合视角;图像矫正旋转矩阵计算模块52用于获取源图像的源相机参数以及参考图像的参考相机参数,并基于源相机参数以及参考相机参数,计算源图像和参考图像的图像矫正旋转矩阵;代价体计算模块53用于提取参考图像的参考图像特征以及源图像的源图像特征,并基于参考图像特征以及源图像特征计算参考图像与源图像的代价体;代价体转换模块54用于使用图像矫正旋转矩阵对代价体进行坐标系转换,得到源图像与参考图像的矫正代价体;代价体融合模块55用于对参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;设定估计相差计算模块56用于基于最终代价体,计算参考图像在设定分辨率下的相差分布估计,并计算设定分辨率下的估计相差;相差融合模块57用于对参考图像在每一层分辨率下的估计相差进行融合,得到参考图像的最终相差;模型构建模块58用于基于参考图像的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
本实施例的基于多目全景图像的模型生成装置50使用时,首先图像获取模块51获取参考图像以及对应的多个源图像,这里的源图像和参考图像具有重合视角。参考图像为需要生成立体视觉模型的标准图像,源图像为生成立体视觉模型的参照图像,参考图像与源图像可为对统一物品进行不同角度拍照的图像。
随后图像矫正旋转矩阵计算模块52需要计算参考图像和每个源图像之间的相对位置关系,并获取对应的图像矫正旋转矩阵。
基于该图像矫正旋转矩阵通过投影矩阵判断参考图像与对应源图像之间的相对位置关系,产生得到矫正后的参考图像,使得矫正后的参考图像相对源图像仅水平方向存在左向位移。
然后代价体计算模块53使用预设神经网络对参考图像进行特征提取,以获取参考图像特征,同时使用预设神经网络对源图像进行特征提取,获取源图像特征。
随代价体计算模块54基于参考图像特征以及源图像特征计算参考图像和源图像的代价体。该代价体表示的是参考图像在立体空间中的深度概率值。具体的,可基于以下公式计算参考图像与源图像的代价体:
Figure 405976DEST_PATH_IMAGE033
Figure 828867DEST_PATH_IMAGE034
其中c表示特征图的特征度信道数量,h代表特征图宽度,w代表特征图高度,
Figure 29035DEST_PATH_IMAGE035
为 参考图像的特征图,
Figure 398837DEST_PATH_IMAGE036
为所述源图像的特征图,
Figure 351749DEST_PATH_IMAGE037
为参考图像与源图像的代价体,其 中i为代价体的行位置,j为代价体的列位置,q为一设定相差值,
Figure 961853DEST_PATH_IMAGE038
代表特征图
Figure 570689DEST_PATH_IMAGE036
整体 延w方向平移q和像素。
随后代价体转换模块55使用图像矫正旋转矩阵对代价体进行坐标系转换,得到源图像与参考图像的矫正代价体(矫正视角下的代价体),以便进行后续对多个不同源图像与参考图像的代价体进行融合。
具体的,可通过以下公式计算源图像和参考图像的矫正代价体:
Figure 806499DEST_PATH_IMAGE039
其中
Figure 817180DEST_PATH_IMAGE040
为参考图像的旋转矩阵,R为源图像和所述参考图像的图像矫正旋转矩阵,
Figure 598185DEST_PATH_IMAGE041
为源图像和参考图像的矫正代价体。
然后代价体融合模块55对获取的参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体。
具体的,代价体融合模块55可使用逐元素最大池化操作对参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体。
随后设定估计相差计算模块56基于获取的最终代价体,计算参考图像在设定分辨率下的相差分布估计,并计算设定分辨率下的估计相差。
具体的,设定估计相差计算模块56基于最终代价体,使用预设神经网络计算参考图像在设定分辨率下的相差分布估计。即在设定分辨率下,最终代价体通过预设神经网络的计算会对应相差分布估计,进而可通过该相差分布估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。
在该设定分辨率下, 参考图像中检测物体的尺寸为参考图像尺寸的0.3%至10%,如检测物体大于参考图像尺寸的10%,则可能导致对检测物体运动的检测不敏感,如检测物体小于参考图像尺寸的0.3%。则可能导致无法检测到对应检测物体的运动。在更小分辨率的情况下,参考图像更加关注更细节的检测物体运动,在更大分辨率的情况下,参考图像更加关注更宏观的检测物体运动。
由于在参考图像中,对于人眼敏感度较高且人眼观察舒适度较高的检测物体的尺寸就在整个图像尺寸的0.3%至10%,因此传统立体视觉模型会采用较多的计算资源在该分辨率下进行匹配点的计算,而本实施例对该分辨率下的参考图像以及对应的多个源图像使用最终代价体进行估计相差的计算,可大大降低在此分辨率下的参考图像和源图像的匹配点的计算成本。
由于参考图像的最终相差是由各个分辨率下的参考图像的估计相差合成的,不同分辨率下,用户对参考图像中关注的检测物体的尺寸是不同的。因此相差融合模块57对参考图像在每一层分辨率下的估计相差进行融合,从而可得到参考图像的最终相差。
最后模型构建模块58基于最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
具体的,模型构建模块58可通过以下公式生成参考图像的深度图。
Figure 756634DEST_PATH_IMAGE042
其中f为参考图像对应相机的焦距,b为多目全景图像立体系统中的基线长度,d为估计相差。
通过上述公式,最终相差可转化为深度图,随后多视角深度图进行互检,剔除掉异常点,即可用于生成3D点云,最后生成对应的立体视觉模型。
这样即完成了本实施例的基于多目全景图像的模型生成装置50的立体视觉模型的生成过程。
本实施例的基于多目全景图像的模型生成装置通过对多个源图像与参考图像的代价体进行计算以及融合,提高了设定分辨率下的估计相差的准确性,从而有效的提高了生成模型的精准度;同时代价体的计算和融合对计算资源的消耗较小,因此可降低整个模型生成流程的计算资源消耗。
请参照图6,图6为本发明的基于多目全景图像的模型生成装置的第二实施例的结构示意图。本实施例的模型生成装置可使用上述的模型生成方法的第二实施例进行实施。本实施例的模型生成装置60包括图像获取模块61、折叠降维模块62、特征提取模块63、第一相差分布估计特征计算模块64、第二相差分布估计特征计算模块65、差异特征获取模块66、估计相差计算模块67、平铺升维模块68、最终相差获取模块69以及模型构建模块6A。
图像获取模块61用于获取参考图像以及对应的多个源图像,其中源图像与参考图像具有重合视角;折叠降维模块62用于对第一级参考图像进行折叠降维操作,获取第一级参考图像对应的至少一个下级参考图像;对第一级源图像进行折叠降维操作,获取第一级源图像对应的至少一个下级源图像;特征提取模块63用于使用第一预设残差卷积网络,对下级参考图像进行特征提取,以得到下级参考图像特征;使用第一预设残差卷积网络,对下级源图像进行特征提取,以得到下级源图像特征;第一相差分布估计特征计算模块64用于基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体,并基于最终代价体,计算参考图像在设定分辨率下的下级参考图像相差分布估计特征;第二相差分布估计特征计算模块65用于基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到参考图像的其他层级的下级参考图像相差分布估计特征;差异特征获取模块66用于使用第二预设残差卷积网络,对下级参考图像相差分布估计特征进行特征提取,得到下级参考图像的差异特征;估计相差计算模块67用于基于下级参考图像的差异特征,得到下级参考图像的估计相差;平铺升维模块68用于对差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;对估计相差进行平铺升维操作,以得到第一级参考图像的修正相差;最终相差获取模块69用于根据参考图像、源图像、第一级参考图像的修正差异特征以及第一级参考图像的修正相差,得到第一级参考图像的最终相差;模型构建模块6A用于基于第一级参考图像的最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
本实施例的基于多目全景图像的模型生成装置60使用时,首先图像获取模块61获取多目摄像机拍摄的参考图像以及对应的多个源图像,其中源图像与参考图像具有重合视角。
随后折叠降维模块62对第一级参考图像进行折叠降维操作,获取第一级参考图像对应多个下级参考图像,如四个第二级参考图像;如继续对第二级参考图像进行折叠降维操作,则可获取四个第三级参考图像。
同时折叠降维模块62还对第一级源图像进行折叠降维操作,获取第一级源图像对应的多个下级源图像,如四个第二级源图像;如继续对第二级源图像进行折叠降维操作,则可获取四个第三级源图像。
不同级别或分辨率的参考图像的设置,可较好的满足场景内不同场景物品感受野的需求。
然后特征提取模块63使用第一预设残差卷积网络,对多个下级参考图像(如第二级参考图像以及第三级参考图像等)进行特征提取,以得到多个不同级别的下级参考图像特征。
同时特征提取模块63使用第一预设残差卷积网络,对多个下级源图像进行特征提取,以得到多个不同级别的下级源图像特征。
随后第一相差分布估计特征计算模块64基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体。
随后第一相差分布估计特征计算模块64基于最终代价体,计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。
具体的,第一相差分布估计特征计算模块64可使用预设神经网络计算参考图像在设定分辨率下的下级参考图像的图像相差分布估计特征。即在设定分辨率下,最终代价体通过预设神经网络的计算会对应相差分布估计,进而可通过该相差估计来计算该分辨率下的估计相差。其中预设神经网络可通过正负样本的模型训练获取。
然后第二相差分布估计特征计算模块65基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到参考图像的其他层级的下级参考图像相差分布估计特征。由于在其他分辨率下对计算资源消耗较低,这里可采用现有的特征点匹配算法计算参考图像的其他层级的下级参考图像相差分布估计特征。
随后差异特征获取模块66使用第二预设残差卷积网络,对下级参考图像相差分布估计特征进行特征提取,以获取下级参考图像的差异特征。
然后估计相差计算模块67基于获取的下级参考图像的差异特征,得到下级参考图像的估计相差。即基于下级参考图像的差异特征对应的预设估计相差,来确定对应的下级参考图像的估计相差。如该下级参考图像的差异特征对应的预设估计相差较大,则对应得到的下级参考图像的估计相差也较大;如该下级参考图像的差异特征对应的预设估计相差较小,则对应得到的下级参考图像的估计相差也较小。该预设估计相差可通过正负样本的模型训练获取。
随后平铺升维模块68对下级参考图像的差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;平铺升维模块对下级参考图像的估计相差进行平铺升维,以得到第一级参考图像的修正相差。
比如平铺升维模块68可对第三级参考图像的差异特征进行平铺升维操作,以得到第二级参考图像的修正差异特征,该第二级参考图像的修正差异特征可用于计算第二级参考图像的差异特征;随后平铺升维模块可对第二级参考图像的差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征。
同理,平铺升维模块68可对第三级参考图像的估计相差进行平铺升维操作,以得到第二级参考图像的修正相差,该第二级参考图像的修正相差可用于计算第二级参考图像的估计相差;随后平铺升维模块对第二级参考图像的估计相差进行平铺升维操作,以得到第一级参考图像的修正相差。
然后最终相差获取模块69对参考图像、源图像第一级参考图像的修正差异特征以及第一参考图像的修正相差,进行特征融合,并根据融合后的特征得到对应的第一级参考图像的最终相差。该融合后的特征与第一级参考图像的最终相差的对应关系可通过正负样本的模型训练获取。
最后模型构建模块6A基于最终相差生成参考图像的深度图,并根据深度图构建对应的立体视觉模型。
最终相差可转化为深度图,随后多视角深度图进行互检,剔除掉异常点,即可用于生成3D点云,最后生成对应的立体视觉模型。
这样即完成了本实施例的基于多目全景图像的模型生成装置的立体视觉模型的生成过程。
在第一实施例的基础上,本实施例的基于多目全景图像的模型生成装置在设定分辨率下使用最终代价体来计算下级参考图像相差分布估计特征,在其他分辨率下直接使用图像特征来计算下级参考图像相差分布估计特征,在简化整个模型生成流程的基础上,进一步提高了生成模型的精准度,降低了模型生成流程的计算资源消耗。
请参照图7,图7为本发明的基于多目全景图像的模型生成方法及模型生成装置的具体实施例的流程示意图。本具体实施例的模型生成方法及生成装置通过对第一级参考图像以及对应的第一级源图像进行多次折叠降维,以产生多分辨率下的特征图。分辨率级数可根据实际参考图像尺寸进行调整,以确保最低分辨率相差评估可以囊括参考图像与源图像的最大相差。各分辨率下,根据左右眼图像特征图所产生的相差分布和图像在该分辨率下的特征图,预测相差实际数值。并且对于人眼敏感度较高的分辨率层级,使用参考图像以及对应的多个源图像的最终代价体进行估计相差的计算,从而大大降低了此分辨率下的参考图像和源图像的匹配点的计算成本。
上述预测所得相差和用于产生预测的特征图会经过平铺升维操作传递至上级参考图像进行融合处理,经多次平铺升维操作生成原始分辨率的密集相差图,从而进一步基于相差图生成对应的深度图以及对应的立体视觉模型。
本发明的基于多目全景图像的模型生成方法以及模型生成装置通过对多个源图像与参考图像的代价体进行计算以及融合,提高了设定分辨率下的估计相差的准确性,从而有效的提高了生成模型的精准度;同时代价体的计算和融合对计算资源的消耗较小,因此可降低整个模型生成流程的计算资源消耗;有效解决了现有的模型生成方法及模型生成装置的计算资源消耗较大且生成模型的精准度较差的技术问题。
本文提供了实施例的各种操作。在一个实施例中,所述的一个或多个操作可以构成一个或多个计算机可读介质上存储的计算机可读指令,其在被电子设备执行时将使得计算设备执行所述操作。描述一些或所有操作的顺序不应当被解释为暗示这些操作必需是顺序相关的。本领域技术人员将理解具有本说明书的益处的可替代的排序。而且,应当理解,不是所有操作必需在本文所提供的每个实施例中存在。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的方法。
综上所述,虽然本发明已以实施例揭露如上,实施例前的序号仅为描述方便而使用,对本发明各实施例的顺序不造成限制。并且,上述实施例并非用以限制本发明,本领域的普通技术人员,在不脱离本发明的精神和范围内,均可作各种更动与润饰,因此本发明的保护范围以权利要求界定的范围为准。

Claims (11)

1.一种基于多目全景图像的模型生成方法,其特征在于,包括:
获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
获取所述源图像的源相机参数以及所述参考图像的参考相机参数,并基于所述源相机参数以及所述参考相机参数,计算所述源图像和所述参考图像的图像矫正旋转矩阵;
提取所述参考图像的参考图像特征以及所述源图像的源图像特征,并基于所述参考图像特征以及所述源图像特征计算所述参考图像与所述源图像的代价体;
使用所述图像矫正旋转矩阵对所述代价体进行坐标系转换,得到所述源图像与所述参考图像的矫正代价体;
对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;
基于所述最终代价体,计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差;
对所述参考图像在每一层分辨率下的估计相差进行融合,得到所述参考图像的最终相差;
基于所述参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
2.根据权利要求1所述的基于多目全景图像的模型生成方法,其特征在于,基于以下公式计算所述源图像和所述参考图像的图像矫正旋转矩阵:
Figure DEST_PATH_IMAGE001
其中
Figure 971081DEST_PATH_IMAGE002
为所述参考图像的旋转矩阵,
Figure DEST_PATH_IMAGE003
为所述参考图像的平移矩阵,
Figure 747276DEST_PATH_IMAGE004
为对应的源图像的旋转矩阵,
Figure DEST_PATH_IMAGE005
为对应的源图像的平移矩阵,
Figure 245122DEST_PATH_IMAGE006
为所述源图像和所述参考图像的图像矫正旋转矩阵;
Figure DEST_PATH_IMAGE007
表示旋转矩阵
Figure 764965DEST_PATH_IMAGE008
的第一行中的所有元素。
3.根据权利要求1所述的基于多目全景图像的模型生成方法,其特征在于,基于以下公式计算所述参考图像与所述源图像的代价体:
Figure DEST_PATH_IMAGE009
其中c表示特征图的特征度信道数量,h代表特征图宽度,w代表特征图高度,
Figure 429603DEST_PATH_IMAGE010
为参考图像的特征图,
Figure DEST_PATH_IMAGE011
为所述源图像的特征图,
Figure 845541DEST_PATH_IMAGE012
为参考图像与源图像的代价体,其中i为所述代价体的行位置,j为所述代价体的列位置,q为一设定相差值,
Figure DEST_PATH_IMAGE013
代表特征图
Figure 237208DEST_PATH_IMAGE014
整体延w方向平移q个像素;
Figure DEST_PATH_IMAGE015
表示特征图
Figure 904950DEST_PATH_IMAGE016
的第i行、第j列的特征参数;
Figure DEST_PATH_IMAGE017
表示平移操作后的特征图
Figure 432883DEST_PATH_IMAGE018
的第i行、第j列的特征参数。
4.根据权利要求3所述的基于多目全景图像的模型生成方法,其特征在于,通过以下公式计算所述源图像和所述参考图像的矫正代价体:
Figure DEST_PATH_IMAGE019
其中
Figure 288231DEST_PATH_IMAGE020
为所述参考图像的旋转矩阵,R为所述源图像和所述参考图像的图像矫正旋转矩阵,
Figure DEST_PATH_IMAGE021
为所述源图像和所述参考图像的矫正代价体。
5.根据权利要求1所述的基于多目全景图像的模型生成方法,其特征在于,所述对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体的步骤为:
使用逐元素最大池化操作对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体。
6.根据权利要求1所述的基于多目全景图像的模型生成方法,其特征在于,所述基于所述最终代价体,计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差的步骤为:
基于最终代价体,使用预设神经网络计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差;
其中在所述设定分辨率下,所述参考图像中检测物体的尺寸为所述参考图像的尺寸的0.3%至10%。
7.根据权利要求1所述的基于多目全景图像的模型生成方法,其特征在于,通过以下公式生成所述参考图像的深度图:
Figure 26249DEST_PATH_IMAGE022
其中f为所述参考图像对应相机的焦距,b为多目全景图像立体系统中的基线长度,d为估计相差。
8.一种基于多目全景图像的模型生成方法,其特征在于,包括:
获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
对第一级参考图像进行折叠降维操作,获取所述第一级参考图像对应的至少一个下级参考图像;对第一级源图像进行折叠降维操作,获取所述第一级源图像对应的至少一个下级源图像;
使用第一预设残差卷积网络,对所述下级参考图像进行特征提取,以得到下级参考图像特征;使用第一预设残差卷积网络,对所述下级源图像进行特征提取,以得到下级源图像特征;
基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体,并基于所述最终代价体,计算所述参考图像在设定分辨率下的下级参考图像相差分布估计特征;
基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到所述参考图像的其他层级的下级参考图像相差分布估计特征;
使用第二预设残差卷积网络,对所述下级参考图像相差分布估计特征进行特征提取,得到下级参考图像的差异特征;
基于所述下级参考图像的差异特征,得到所述下级参考图像的估计相差;
对所述差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;对所述估计相差进行平铺升维操作,以得到第一级参考图像的修正相差;
根据所述参考图像、所述源图像、所述第一级参考图像的修正差异特征以及所述第一级参考图像的修正相差,得到第一级参考图像的最终相差;
基于所述第一级参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
9.一种基于多目全景图像的模型生成装置,其特征在于,包括:
图像获取模块,用于获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
图像矫正旋转矩阵计算模块,用于获取所述源图像的源相机参数以及所述参考图像的参考相机参数,并基于所述源相机参数以及所述参考相机参数,计算所述源图像和所述参考图像的图像矫正旋转矩阵;
代价体计算模块,用于提取所述参考图像的参考图像特征以及所述源图像的源图像特征,并基于所述参考图像特征以及所述源图像特征计算所述参考图像与所述源图像的代价体;
代价体转换模块,用于使用所述图像矫正旋转矩阵对所述代价体进行坐标系转换,得到所述源图像与所述参考图像的矫正代价体;
代价体融合模块,用于对所述参考图像对应的多个源图像的矫正代价体进行融合操作,得到最终代价体;
设定估计相差计算模块,用于基于所述最终代价体,计算所述参考图像在设定分辨率下的相差分布估计,并计算所述设定分辨率下的估计相差;
相差融合模块,用于对所述参考图像在每一层分辨率下的估计相差进行融合,得到所述参考图像的最终相差;
模型构建模块,用于基于所述参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
10.一种基于多目全景图像的模型生成装置,其特征在于,包括:
图像获取模块,用于获取参考图像以及对应的多个源图像,其中所述源图像与所述参考图像具有重合视角;
折叠降维模块,用于对第一级参考图像进行折叠降维操作,获取所述第一级参考图像对应的至少一个下级参考图像;对第一级源图像进行折叠降维操作,获取所述第一级源图像对应的至少一个下级源图像;
特征提取模块,用于使用第一预设残差卷积网络,对所述下级参考图像进行特征提取,以得到下级参考图像特征;使用第一预设残差卷积网络,对所述下级源图像进行特征提取,以得到下级源图像特征;
第一相差分布估计特征计算模块,用于基于设定层级的下级参考图像特征以及设定层级的源图像特征,得到对应的设定层级的下级参考图像的最终代价体,并基于所述最终代价体,计算所述参考图像在设定分辨率下的下级参考图像相差分布估计特征;
第二相差分布估计特征计算模块,用于基于其他层级的下级参考图像特征以及其他层级的源图像特征,得到所述参考图像的其他层级的下级参考图像相差分布估计特征;
差异特征获取模块,用于使用第二预设残差卷积网络,对所述下级参考图像相差分布估计特征进行特征提取,得到下级参考图像的差异特征;
估计相差计算模块,用于基于所述下级参考图像的差异特征,得到所述下级参考图像的估计相差;
平铺升维模块,用于对所述差异特征进行平铺升维操作,以得到第一级参考图像的修正差异特征;对所述估计相差进行平铺升维操作,以得到第一级参考图像的修正相差;
最终相差获取模块,用于根据所述参考图像、所述源图像、所述第一级参考图像的修正差异特征以及所述第一级参考图像的修正相差,得到第一级参考图像的最终相差;
模型构建模块,用于基于所述第一级参考图像的最终相差生成所述参考图像的深度图,并根据所述深度图构建对应的立体视觉模型。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现如权利要求1-8中任意一项所述的基于多目全景图像的模型生成方法。
CN202010501846.9A 2020-06-04 2020-06-04 基于多目全景图像的模型生成方法及装置 Active CN111402345B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010501846.9A CN111402345B (zh) 2020-06-04 2020-06-04 基于多目全景图像的模型生成方法及装置
PCT/CN2021/088002 WO2021244161A1 (zh) 2020-06-04 2021-04-19 基于多目全景图像的模型生成方法及装置
US18/041,413 US20230237683A1 (en) 2020-06-04 2021-04-19 Model generation method and apparatus based on multi-view panoramic image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010501846.9A CN111402345B (zh) 2020-06-04 2020-06-04 基于多目全景图像的模型生成方法及装置

Publications (2)

Publication Number Publication Date
CN111402345A CN111402345A (zh) 2020-07-10
CN111402345B true CN111402345B (zh) 2020-09-04

Family

ID=71414108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010501846.9A Active CN111402345B (zh) 2020-06-04 2020-06-04 基于多目全景图像的模型生成方法及装置

Country Status (3)

Country Link
US (1) US20230237683A1 (zh)
CN (1) CN111402345B (zh)
WO (1) WO2021244161A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402345B (zh) * 2020-06-04 2020-09-04 深圳看到科技有限公司 基于多目全景图像的模型生成方法及装置
CN112991207B (zh) * 2021-03-11 2022-11-15 五邑大学 全景深度估计方法、装置、终端设备及存储介质
CN113837106A (zh) * 2021-09-26 2021-12-24 北京的卢深视科技有限公司 人脸识别方法、系统、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3349176A1 (en) * 2017-01-17 2018-07-18 Facebook, Inc. Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality
CN109146001A (zh) * 2018-09-14 2019-01-04 西安电子科技大学 多视角isar图像融合方法
CN110176060A (zh) * 2019-04-28 2019-08-27 华中科技大学 基于多尺度几何一致性引导的稠密三维重建方法和系统
CN110458952A (zh) * 2019-08-19 2019-11-15 江苏濠汉信息技术有限公司 一种基于三目视觉的三维重建方法和装置
CN111127538A (zh) * 2019-12-17 2020-05-08 武汉大学 一种基于卷积循环编码-解码结构的多视影像三维重建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262422B2 (en) * 2016-07-15 2019-04-16 Samsung Electronics Co., Ltd. Content aware visual image pattern matching
CN107545586B (zh) * 2017-08-04 2020-02-28 中国科学院自动化研究所 基于光场极线平面图像局部的深度获取方法及系统
CN111402345B (zh) * 2020-06-04 2020-09-04 深圳看到科技有限公司 基于多目全景图像的模型生成方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3349176A1 (en) * 2017-01-17 2018-07-18 Facebook, Inc. Three-dimensional scene reconstruction from set of two-dimensional images for consumption in virtual reality
CN109146001A (zh) * 2018-09-14 2019-01-04 西安电子科技大学 多视角isar图像融合方法
CN110176060A (zh) * 2019-04-28 2019-08-27 华中科技大学 基于多尺度几何一致性引导的稠密三维重建方法和系统
CN110458952A (zh) * 2019-08-19 2019-11-15 江苏濠汉信息技术有限公司 一种基于三目视觉的三维重建方法和装置
CN111127538A (zh) * 2019-12-17 2020-05-08 武汉大学 一种基于卷积循环编码-解码结构的多视影像三维重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MVSNet: Depth Inference for Unstructured Multi-view Stereo;Yao Yao 等;《https://arxiv.org/abs/1804.02505v1》;20180717;全文 *

Also Published As

Publication number Publication date
WO2021244161A1 (zh) 2021-12-09
US20230237683A1 (en) 2023-07-27
CN111402345A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US10334168B2 (en) Threshold determination in a RANSAC algorithm
JP6722323B2 (ja) 撮像装置のモデリングおよび校正のためのシステムおよびその方法
CN111402345B (zh) 基于多目全景图像的模型生成方法及装置
KR101706216B1 (ko) 고밀도 삼차원 영상 재구성 장치 및 방법
CN109155070A (zh) 使用平面镜校准立体成像系统的方法和计算机程序产品
JP6701930B2 (ja) オーサリング装置、オーサリング方法およびオーサリングプログラム
US20130272600A1 (en) Range image pixel matching method
JP5901447B2 (ja) 画像処理装置及びそれを備えた撮像装置、画像処理方法、並びに画像処理プログラム
US10229508B2 (en) Dynamic particle filter parameterization
JP2020067978A (ja) 床面検出プログラム、床面検出方法及び端末装置
WO2023082822A1 (zh) 图像数据的处理方法和装置
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN113436269B (zh) 图像稠密立体匹配方法、装置和计算机设备
WO2015005163A1 (ja) 高解像度画像生成装置、高解像度画像生成方法及び高解像度画像生成プログラム
WO2020151078A1 (zh) 一种三维重建的方法和装置
TWI618394B (zh) 利用影像特性之立體匹配裝置
JP7312026B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN109902695B (zh) 一种面向像对直线特征匹配的线特征矫正与提纯方法
CN109741389A (zh) 一种基于区域基匹配的局部立体匹配方法
CN113048985B (zh) 已知相对旋转角度条件下的像机相对运动估计方法
CN111405266B (zh) 双目图像快速处理方法、装置及对应的存储介质
JP5887974B2 (ja) 類似画像領域探索装置、類似画像領域探索方法、及び類似画像領域探索プログラム
CN112615993A (zh) 深度信息获取方法、双目摄像模组、存储介质及电子设备
CN112465913A (zh) 一种基于双目相机的校正方法及装置
CN112396117B (zh) 图像的检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant