CN117671163B - 多视图三维重建方法及系统 - Google Patents
多视图三维重建方法及系统 Download PDFInfo
- Publication number
- CN117671163B CN117671163B CN202410146139.0A CN202410146139A CN117671163B CN 117671163 B CN117671163 B CN 117671163B CN 202410146139 A CN202410146139 A CN 202410146139A CN 117671163 B CN117671163 B CN 117671163B
- Authority
- CN
- China
- Prior art keywords
- probability
- cost
- depth
- value
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 77
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims description 37
- 238000010276 construction Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 13
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本申请涉及计算机视觉技术领域,本申请提供一种多视图三维重建方法及系统,所述方法根据获取的待处理图像构建三维矩阵的第一代价体,再根据三维矩阵的深度向量计算特征通道的权重参数,将权重参数作用于第一代价体生成第一概率体;对第一概率体执行滤波得到第二概率体;根据待处理图像获取真实深度图并构建第三概率体;获取损失函数训练得到的学习模型生成真实概率体,损失函数为根据第二概率体和第三概率体生成,根据真实概率体生成预测深度图,并基于多个视角的预测深度图生成表征完成多视图三维重建的全局点云,本申请通过计算特征通道的权重参数,以引入不同特征通道对深度信息贡献能力的差异,更准确生成概率体,解决三维重建精度低的问题。
Description
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种多视图三维重建方法及系统。
背景技术
三维重建在计算机视觉、计算机图形学和虚拟现实等领域中均具有应用,三维重建是通过将多个视角获取的图像或视频数据,恢复物体或场景的三维几何结构。在三维重建方法中,可通过立体视觉、结构光等进行三维重建。然而,这些方法存在一些限制,例如:对纹理特征缺乏鲁棒性、对遮挡物敏感、对光照变化敏感等。
为克服上述问题,多视图三维重建利用不同视角获取的多个图像或视频数据,结合计算机视觉和计算机图形学技术,通过匹配、三角剖分、优化等方法,生成更准确的三维模型。然而,在多视图三维重建过程中,存在视角之间的匹配问题、噪声和误匹配问题、视角之间的一致性问题等。
为解决这些问题,对于基于深度学习的多视图三维重建方法,输入多为同一场景多视角下的图片,输出为多视角下预测的深度图或融合点云,通过以下流程实现:特征提取、单应性变换、特征体构建、生成代价体、代价体正则化、深度图初始估计及优化、损失计算、深度图滤波和融合等处理步骤。但代价体正则化的方法没有对代价体做优化处理,直接进入3D卷积层编解码,也就是直接利用代价体中的特征值方差信息,并没有考虑到每个特征通道对于深度信息的贡献能力是不相同的,从而导致三维重建精度低。
发明内容
本申请提供一种多视图三维重建方法及系统,以解决三维重建精度低的问题。
第一方面,本申请提供一种多视图三维重建方法,包括:
获取待处理图像,所述待处理图像是从不同视角对目标对象采集得到的三通道图像;
根据所述待处理图像,构建第一代价体,所述第一代价体为三维矩阵,所述三维矩阵包括深度向量;
根据所述深度向量计算特征通道的权重参数;
将所述权重参数的全量作用于所述第一代价体,以生成第一概率体;
对所述第一概率体执行滤波操作,得到第二概率体;
根据所述待处理图像获取真实深度图,并根据所述真实深度图构建第三概率体;
获取训练好的学习模型,所述学习模型是利用损失函数训练得到的,所述损失函数为根据所述第二概率体和第三概率体生成;
利用所述学习模型,生成真实概率体;
根据所述真实概率体生成预测深度图,并基于多个视角的所述预测深度图生成全局点云,表征完成多视图三维重建。
在一些可行的实施例中,所述根据所述待处理图像,构建第一代价体,包括:
提取所述待处理图像的特征;
基于所述特征,通过单应性变换构建特征体,所述特征体为五维矩阵;
通过所述五维矩阵生成第二代价体,所述第二代价体为第一四维矩阵,所述第一四维矩阵包括深度维度、特征通道维度、高度维度和宽度维度;
变换所述第二代价体的深度维度和特征通道维度,以生成第三代价体。
在一些可行的实施例中,所述根据所述待处理图像,构建第一代价体,包括:
获取特征图的采样区域,所述第三代价体包括多张特征图,所述采样区域为所述特征图内切椭圆;
基于所述采样区域,确定至少五个采样点;
将至少五个所述采样点设置在采样位置,所述采样位置至少包括所述特征图对角线与所述内切椭圆相交处以及所述内切椭圆的圆心;
根据所述采样位置,对每个特征通道采样五个深度维度的向量,以得到第一代价体,所述第一代价体为三维矩阵。
在一些可行的实施例中,所述根据所述深度向量计算特征通道的权重参数,包括:
计算所述第一代价体中特征图的方差值;
生成多视角的特征值方差信息,所述特征值方差信息为所述方差值取倒数后,在深度维度归一化生成的;
将所述特征值方差信息转换为概率信息,以得到转换后的第一代价体;
获取所述转换后的第一代价体深度向量中元素下标,所述元素下标为最大值元素的索引位置;
基于所述元素下标,获取独热码,并将所述独热码的值设为1;
根据所述独热码,构建独热码向量;
计算所述特征通道的欧氏距离,所述欧氏距离为所述深度向量与映射的独热码向量的相似度。
在一些可行的实施例中,所述根据所述深度向量计算特征通道的权重参数,包括:
计算所述特征通道的平均欧氏距离值,所述平均欧氏距离值为所述特征通道的多个欧氏距离的均值;
计算所述特征通道的权重参数,以得到所述权重参数向量,所述权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数。
在一些可行的实施例中,所述将所述权重参数的全量作用于所述第一代价体,生成第一概率体,包括:
转换所述第一代价体至第二代价体,所述第二代价体为第一四维矩阵;
获取所述第二代价体中特征图的方差值,并将所述权重参数向量中的元素取倒数与所述方差值相乘,以得到修正后的代价体;
生成方差值矩阵,所述方差值矩阵为所述修正后的代价体输入编解码网络,并将特征通道维度归一化得到的矩阵;
将所述方差值矩阵中的元素取倒数,并沿深度方向执行softmax运算并执行概率归一化,以得到第一概率体。
在一些可行的实施例中,所述对所述第一概率体执行滤波操作,得到第二概率体,包括:
获取所述第一概率体的元素,以及,所述元素相邻的至少六个元素的概率值;
计算至少六个元素概率值的加权平均值;
若所述加权平均值小于或等于0.5,将所述第一概率体的元素概率值重置为0,以生成第二概率体。
在一些可行的实施例中,所述根据所述待处理图像获取真实深度图,并根据所述真实深度图构建第三概率体,包括:
将所述真实深度图转换为第三概率体,所述第三概率体与所述第二概率体为相同概率矩阵。
第二方面,本申请提供一种多视图三维重建系统,用于执行第一方面所述的多视图三维重建方法,所述系统包括:
获取单元,用于获取待处理图像,所述待处理图像是从不同视角对目标对象采集得到的三通道图像;
代价体构建单元,用于根据所述待处理图像,构建第一代价体,所述第一代价体为三维矩阵,所述三维矩阵包括深度向量;
概率体构建单元,用于根据所述深度向量计算特征通道的权重参数;将所述权重参数的全量作用于所述第一代价体,以生成第一概率体;以及对所述第一概率体执行滤波操作,得到第二概率体;还用于根据所述待处理图像获取真实深度图,并根据所述真实深度图构建第三概率体;
所述获取单元还用于获取训练好的学习模型,所述学习模型是利用损失函数训练得到的,所述损失函数为根据所述第二概率体和第三概率体生成;
所述概率体构建单元还用于利用所述学习模型,生成真实概率体;
重建单元,用于根据所述真实概率体生成预测深度图,并基于多个视角的所述预测深度图生成全局点云,表征完成多视图三维重建。
在一些可行的实施例中,所述概率体构建单元还用于计算所述特征通道的平均欧氏距离值,所述平均欧氏距离值为所述特征通道的多个欧氏距离的均值;
计算所述特征通道的权重参数,以得到所述权重参数向量,所述权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数。
由以上技术方案可知,本申请提供一种多视图三维重建方法及系统,所述方法获取待处理图像,其中,待处理图像是从不同视角对目标对象采集得到的三通道图像;根据待处理图像构建三维矩阵的第一代价体,三维矩阵包括深度向量;根据深度向量计算特征通道的权重参数;将权重参数的全量作用于第一代价体,以生成第一概率体;对第一概率体执行滤波操作,得到第二概率体;根据待处理图像获取真实深度图,并根据真实深度图构建第三概率体;获取利用损失函数训练得到的训练好的学习模型,损失函数为根据第二概率体和第三概率体生成;利用学习模型,生成真实概率体;根据真实概率体生成预测深度图,并基于多个视角的预测深度图生成全局点云,表征完成多视图三维重建,本申请通过计算特征通道的权重参数,从而引入不同特征通道对深度信息的贡献能力的差异,可更加准确生成概率体,从而解决三维重建精度低的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例示出的多视图三维重建方法流程示意图;
图2为本实施例示出的代价体生成概率体流程示意图;
图3为本实施例示出的特征体生成代价体流程示意图;
图4为本实施例示出的得到权重参数向量的流程示意图;
图5为另一实施例示出的得到权重参数向量的流程示意图;
图6为本实施例示出的生成第一概率体的流程示意图;
图7为本实施例示出的多视图三维重建系统结构示意图。
图示说明:
其中,100-获取单元、200-代价体构建单元、300-概率体构建单元、400-重建单元。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
对于代价体正则化,首先,构建特征体,特征体是一个包含多个特征的三维数据结构,能够描述场景中的各种对象和纹理。基于特征体和深度图来生成代价体,用于优化深度估计的中间数据结构。通过比较特征体中的每个点和相应的深度图中的像素,可以计算出每个点的“代价”,代价低的点被认为是更准确的深度估计。将对生成的代价体进行正则化处理,以消除噪声和异常值。正则化可以通过各种方法实现,例如平滑滤波、梯度下降优化等。目的是确保代价体的连续性和一致性。在代价体正则化的过程中,没有对代价体进行优化处理,就进入3D卷积层编解码,相当于直接利用代价体中的特征值方差信息,没有考虑到每个特征通道对于深度信息的贡献能力是不同的,并且根据上述过程进行多视图三维重建,导致精度低。
为解决多视图三维重建精度低的问题,本申请部分实施例提供一种多视图三维重建方法,参见图1,包括:
S100:获取待处理图像。
待处理图像为多张不同视角对目标对象采集得到的RGB(Red Green Blue)图像。示例性的,不同视角包括正视、侧视、俯视、仰视、斜视等。其中,目标对象可以是从任何需要多个视角获取图像并进行三维重建的物体,这些物体可以是静态的,例如:建筑物、自然景观等;也可以是动态的,例如:人体、动物、机器人等。
S200:根据待处理图像,构建第一代价体。
参见图2、图3,根据待处理图像构建第一代价体的具体步骤如下:
S201:提取待处理图像的特征,基于特征,通过单应性变换构建特征体。
为提取特征,将待处理图像输入至卷积神经网络,卷积神经网络(ConvolutionalNeuron Network,CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器,卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。通过卷积操作,可以提取出图像中的多种特征。经过卷积神经网络的处理,得到特征图。特征图可以被展平为一维的特征向量,其中每个元素代表图像中某个位置的特征响应。
利用单应性变换对特征向量变换,单应性变换可以通过学习得到的单应性矩阵来实现,单应性矩阵描述从输入图像到特征体的映射关系,通过应用单应性变换,可以将特征向量转换为五维矩阵形式的特征体。根据特征体构建为五维矩阵N×D×C×H×W,其中,N为输入待处理图像的数量,即存在N个不同位姿的相机,D为预测变换的深度范围,C为经过特征提取后特征通道的维度,H×W即为特征图的长和宽(各为原输入图片长和宽的1/4)。
S202:通过五维矩阵生成第二代价体。
五维矩阵中的每一个N都对应一个D×C×H×W的矩阵,因此,五维矩阵N×D×C×H×W相当于N个D×C×H×W的矩阵,在H×W平面上的每个像素位置的变换深度范围D下的每个特征通道都存在N个元素,N个方向上同一变换深度和特征通道下都对应一张特征图,将N张特征图中相同位置的像素特征值之间做方差,作为第二代价体同一位置的像素特征值,再生成第二代价体,第二代价体为第一四维矩阵D×C×H×W,再将输入视图数量维度归一化,也就是说,可以接受任意张图像的输入。
对于每个像素点,比较像素点在不同视图下的特征值,通过计算特征值之间的方差,可以得到像素点的深度置信度。方差越小,意味着这些特征值越接近,即该像素点的深度值越接近预测的深度D。
S203:变换第二代价体的深度维度和特征通道维度,以生成第三代价体。
代价体正则化是在第二代价体的基础上将特征通道维度归一化得到概率体。而在现有技术中,代价体正则化在把多个特征通道特征压缩为一个特征通道时,对于每个变换深度D下的H×W的每个像素,保留C个特征通道维度中方差最小,即最可能属于当前深度的特征通道的特征值作为当前变换深度D下的方差值,再筛选后的D个最小方差值中,方差越小,说明这个像素点的深度可能是当前层的深度。通过这种方式忽略了不同特征通道维度对于深度信息的贡献能力差异,并且无法排除因偶然峰值带来的计算误差,可能筛选后的D个最小方差值之间差异并不大,通过soft max(软化最大值)得到的概率体中,每个像素位置的深度的可信度较低。
参见图4,为方便采样和计算,将第二代价体的深度维度和特征通道维度变换,将D×C×H×W的矩阵变换,得到C×D×H×W的矩阵,从而更直观的将不同特征通道下的特征信息区分,便于计算每个特征通道对应的权重参数,也就是说,量化对深度信息的贡献能力。
S204:获取特征图的采样区域。
第三代价体中的每个像素点都对应于一个特征图,特征图是通过卷积神经网络提取的特征表示,通过将这些特征图进行组合,可以形成代价体的一个多维表示,其中包含了不同视角下的像素点的特征信息。
继续参见图4,需要对不同特征通道的信息在H×W的平面上进行像素点的采样,首先确定采样区域,在本实施例中,采样区域为特征图内切椭圆,图4中H×W的特征图上,标记有内切椭圆区域。
S205:基于采样区域,确定至少五个采样点。
由于涉及向量间欧氏距离的计算,如果对全量像素都进行计算,会导致网络负荷过大。因此,在采样区域上确定至少五个采样点,在本实施例中,在椭圆区域内确定五个采样点。
S206:将至少五个采样点设置在采样位置。
为覆盖采样区域内的所有信息,采样位置为特征图对角线与内切椭圆相交处以及内切椭圆的圆心,特征图对角线与内切圆相交处为四个采样位置,内切椭圆的圆心即特征图中心点为一个采样位置,本实施例示出的五个采样位置均匀分布,可以适应不同长宽比的特征图的采样泛化需求,可避免采样点出现过于集中或过于稀疏的情况,通过减少需要处理的像素数量来降低计算量和网络负荷,同时保持足够的代表性,使采样点能够代表其所在的特征图,采样点可以用于计算欧氏距离,从而在保证精度的同时提高计算效率。
S207:根据采样位置,对每个特征通道采样五个深度维度的向量,以得到第一代价体。
再次参见图4,根据上述采样后,得到C×5×D的三维矩阵,即第一代价体,C×5个1×D的深度维度向量,也就是说,在每个特征通道下,分别采样五个深度维度的向量,向量中的元素为上述中,生成第一代价体计算出的来自不同视角特征图的元素方差值。
S300:根据深度向量计算特征通道的权重参数。
在一些实施例中,根据深度向量计算特征通道的权重参数,参见图5,具体步骤如下:
S301:获取第一代价体中特征图的方差值,并生成多视角的特征值方差信息。
根据上述计算得到的第一代价体中不同视角特征图的元素方差值,特征值方差信息为方差值取倒数后,在深度维度归一化生成的,方差信息可以表示像素在不同深度下的变化程度,从而得到该像素的深度置信度。
S302:将特征值方差信息转换为概率信息,以得到转换后的第一代价体。
可利用soft max函数将方差信息转换为概率信息,使像素位置都存在对应的概率值,表示该位置的深度置信度。通过将方差信息转换为概率信息,得到转换后的第一代价体,其中,每个像素位置都有一个对应的深度置信度概率值,转换后的第一代价体相对于第一代价体转换深度维度向量。
S303:获取转换后的第一代价体深度向量中元素下标;
对于转换后的每个深度维度向量,选择最大值的元素下标,通过元素下标,可以构建对应的C×5个独热码向量。其中,最大的元素下标就是指在深度维度向量中,值最大的元素的索引位置,索引位置可用于标识该深度维度向量中的特征或属性。
S304:基于元素下标,获取独热码,并将独热码的值设为1。
独热码是一种二进制编码方式,其中,每个元素有两种状态:1和0。对于选出的最大元素下标,将其对应的独热码设为1,其他位置的独热码设为0,也就是说,可突出最大的元素下标的位置,提高识别效率。通过构建对应的C×5个独热码向量,可以将特征或属性与其他特征或属性进行区分,从而更好的分析数据的特征分布情况。
S305:根据独热码,构建独热码向量。
由于存在C×5个不同的深度维度向量,每个深度维度向量均构建一个对应的独热码向量,从而可得到一组C×5个独热码向量,每个向量都对应于一个深度维度向量中的最大值下标。
计算特征通道的欧氏距离。
需要分别量化每对深度向量和独热码之间的相似度,本实施例中通过计算每对向量的欧氏距离,也就是说,计算两个向量对应元素之差的平方和再开方的值,作为每个1×D深度维度向量对深度信息的贡献能力的量化值,得到的欧氏距离越大,此特征通道对深度信息的贡献能力越差。
根据上述计算,特征值较均匀分布的或出现多峰值的深度向量会得到较大的欧氏距离数值,也就相应的会在后面的计算中,为其所在的特征通道维度贡献较小的权重值。
S306:计算特征通道的平均欧氏距离值。
再次参见图4,根据上述计算,可得到C×5个欧氏距离值,即每个特征通道下计算五个欧氏距离,为在控制较少的计算量的同时,缩减偶然峰值带来的影响,将五个欧氏距离计算均值,作为每个特征通道的平均欧氏距离,可得到C×1的向量。
S307:计算特征通道的权重参数,以得到权重参数向量。
由于权重参数的普适定义是正相关的,所以将得到的欧氏距离取倒数,并且乘积归一化后,作为每个特征通道的权重参数,乘积归一化是因为这些参数将会配合代价体进入3D CNN网络编解码的计算步骤,取倒数相乘作用于代价体中每个元素的特征值,所以需要控制代价体正则化过程中特征值的量级不能有太大波动,以免带来过大的计算量。
权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数,得到权重参数向量C×1。
通过深度向量与其对应的独热码计算欧氏距离,从而量化二者的相似度,越相似说明此特征通道提供的信息对于不同深度预测的区分度越明显,也就是说,量化了不同特征通道对深度信息的贡献能力。
S400:将权重参数的全量作用于所述第一代价体,以生成第一概率体。
参见图6,将权重参数的全量作用于第一代价体,生成第一概率体,具体步骤如下:
S401:转换第一代价体至第二代价体。
第二代价体为第一四维矩阵,为了便于计算,将第二代价体的维度变换回D×C×H×W。
S402:获取第二代价体中特征图的方差值,并将权重参数向量中的元素取倒数与方差值相乘,以得到修正后的代价体。
将权重参数向量每个元素取倒数后,与第二代价体中相应特征通道中的元素特征值相乘,从而可达到代价体中置信度,即权重值高的特征通道下的方差值变得更小,置信度低的特征通道下的方差值变得更大的效果,进而得到修正后的代价体。
S403:生成方差值矩阵。
经过修正后的代价体在经过编解码网络得到的概率体会携带更准确的深度预测信息,得到每个深度下每个像素更加置信的方差值。
方差值矩阵为修正后的代价体输入编解码网络,并将特征通道维度归一化得到的矩阵。在计算损失前,得到经过特征通道权重参数修正后的代价体,再将修正后的代价体经过3D CNN编解码网络,多尺度聚合来自相邻像素的信息,将特征通道维度归一化,可确保数据的分布是均匀的,进而得到一个D×H×W的方差值矩阵,方差值矩阵中的每个元素表示对应像素位置的深度置信度,通过计算不同深度下的特征值之间的方差来得到。
其中,3D CNN编解码网络是一种深度学习网络,用于处理三维数据。在编解码网络中,编码器部分负责将输入数据压缩成低维表示,解码器部分负责将低维表示恢复成原始数据。在三维卷积过程中,3D CNN编解码网络会从多个尺度上聚合来自相邻像素的信息。也就是说,不仅考虑当前像素与其直接相邻像素的关系,还考虑更远或更近的像素之间的关系,通过这种方式,3D CNN编解码网络能够捕捉到更多的上下文信息,并从中学习到更丰富、更有代表性的特征表示。
S404:将方差值矩阵中的元素取倒数,并沿深度方向执行softmax运算并执行概率归一化,以得到第一概率体。
由于每个元素处的方差值是与其所在深度为真实深度的概率为负相关,将方差矩阵中的元素先取倒数,再沿着深度方向做Soft max运算进行概率归一化,得到第一概率体P,以完成代价体正则化的步骤,得到的第一概率体P中,每个元素都表示当前轮次学习中H×W平面的这个位置的像素在当前深度的预测概率值。
其中,Soft max是一种归一化函数,可以将一组任意的实数值转化为在[0,1]之间的概率值,因为Soft max将实数值转换为0到1之间的值,实数值可以被解释为概率。
S500:对第一概率体执行滤波操作,得到第二概率体。
在一些实施例中,对第一概率体执行滤波操作,得到第二概率体,首先获取第一概率体的元素,以及,元素相邻的至少六个元素的概率值;再计算至少六个元素概率值的加权平均值;若加权平均值小于或等于0.5,将第一概率体的元素概率值重置为0,以生成第二概率体。
由于大多数检测的目标物体表面深度是连续变化的,对于第一概率体P中任意元素而言,元素在H×W平面的四个相邻元素和其深度方向的两个相邻元素,共六个相邻元素概率值近似,可作为临近元素提供信息。
第一概率体中元素对应的各像素点深度概率,如果集中在某个深度附近,则该像素点的深度值判断的准确概率就越高,因此,计算第一概率体中每个元素以及其相邻六个元素概率值的加权平均值,如果小于0.5,直接将第一概率体中此元素的概率值置为0,也就是说,相当于过滤掉第一概率体中的偶然峰值和深度估计本身概率较小的元素,可以在不损失深度估计精度的前提下,有效进一步优化概率体,使后面计算损失的步骤中,损失函数可以更快地收敛。
本实施例提供的临近滤波的方式,在未影响概率体中概率值较高的元素的情况下,直接过滤掉不置信的元素。
S600:根据待处理图像获取真实深度图,并根据真实深度图构建第三概率体。
在一些实施例中,可将真实深度图转换为第三概率体。首先可利用算法估计待处理图像的每个像素点的深度值,通过深度值获取真实深度图,通过真实特征图构建第三概率体P´,第三概率体P´与第二概率体为相同的概率矩阵,第三概率体P´也为三维矩阵D×H×W,在第三概率体P´中,每个像素对应一个D×1的独热码,真实深度处为1,其余深度处为0。
S700:获取训练好的学习模型。
训练好的学习模型是利用损失函数训练得到的,损失函数为根据第二概率体和第三概率体生成。在训练过程中,模型会不断的学习数据的特征和规律,从而能够更准确的预测新的数据。交叉熵损失用于提供一个度量模型预测准确性的标准,当模型预测的概率分布与真实概率分布越接近时,交叉熵损失越小。使模型能够在训练过程中不断地调整参数,以最小化交叉熵损失,从而提高预测的准确性。
使用交叉熵损失作为损失函数后,通过反向传播算法来计算损失对模型参数的梯度,其中,梯度信息用于指导模型参数的更新和优化。通过迭代多次,即多次前向传播和反向传播的过程,模型可以逐渐学习到更好的参数配置,从而更准确地预测像素点的类别,其中,类别是指不同的深度值。
S800:利用学习模型,生成真实概率体。
学习模型经过多次迭代更新其参数。每次迭代都会基于当前的参数配置对输入图像进行深度预测,并计算预测结果与真实值之间的误差。通过反向传播算法,模型根据误差调整其参数,以逐渐减小预测误差。经过多次迭代后,模型输出的预测概率体将更加接近真实值,进而生成真实概率体,真实概率体是真实的类别分布,也就是真实的概率分布。
S900:根据真实概率体生成预测深度图,并基于多个视角的预测深度图生成全局点云,表征完成多视图三维重建。
赢家通吃策略用于从多个迭代后的预测概率分布中选择一个概率最高的类别作为最终的预测结果。通过赢家通吃策略,可以根据每次迭代的预测结果,选择出当前迭代中最有可能的类别作为最终的预测结果,从而生成最终预测的深度图。深度图表示模型对当前视图下物体的深度信息的预测。通过将赢家通吃策略选择的类别映射到相应的深度信息上,可生成表示物体深度信息的图像,即最终预测的深度图。
通过将各个视角下的最终预测深度图进行融合和校正,可以生成全局点云。全局点云中包含场景中所有点的三维坐标信息,也就是说,全局点云提供整个场景的三维结构表示,从而完成多视图三维重建。
本实施例提供的多视图三维重建方法,通过在用于代价体正则化的多尺度3D CNN编码器-解码器网络中,引入了基于欧氏距离计算的特征通道维度的权重参数,即引入了不同特征通道对于深度信息的贡献能力的差异,使得代价体正则化得到的概率体的准确性以及应对特征值方差出现偶然峰值情况的鲁棒性更高。另外,还利用概率体临近滤波的方法过滤掉概率的偶然峰值和深度估计概率本身较小的元素,可以在不损失深度估计精度的前提下,有效进一步优化概率体。
参见图7,基于上述多视图三维重建方法,本申请部分实施例还提供一种多视图三维重建系统,系统包括:
获取单元100,用于获取待处理图像,待处理图像是从不同视角对目标对象采集得到的三通道图像;
代价体构建单元200,用于根据待处理图像,构建第一代价体,第一代价体为三维矩阵,所述三维矩阵包括深度向量;
概率体构建单元300,用于根据深度向量计算特征通道的权重参数;将权重参数的全量作用于第一代价体,以生成第一概率体;以及对第一概率体执行滤波操作,得到第二概率体;还用于根据待处理图像获取真实深度图,并根据真实深度图构建第三概率体;
获取单元100还用于获取训练好的学习模型,学习模型是利用损失函数训练得到的,损失函数为根据第二概率体和第三概率体生成;
概率体构建单元300还用于利用学习模型,生成真实概率体;
重建单元400,用于根据真实概率体生成预测深度图,并基于多个视角的预测深度图生成全局点云,表征完成多视图三维重建。
在一些实施例中,概率体构建单元300还用于计算所述特征通道的平均欧氏距离值,平均欧氏距离值为特征通道的多个欧氏距离的均值;
计算特征通道的权重参数,以得到权重参数向量,权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数。
本申请提供一种多视图三维重建方法及系统,所述方法获取待处理图像,其中,待处理图像是从不同视角对目标对象采集得到的三通道图像;根据待处理图像构建三维矩阵的第一代价体,三维矩阵包括深度向量;根据深度向量计算特征通道的权重参数;将权重参数的全量作用于第一代价体,以生成第一概率体;对第一概率体执行滤波操作,得到第二概率体;根据待处理图像获取真实深度图,并根据真实深度图构建第三概率体;获取利用损失函数训练得到的训练好的学习模型,损失函数为根据第二概率体和第三概率体生成;利用学习模型,生成真实概率体;根据真实概率体生成预测深度图,并基于多个视角的预测深度图生成全局点云,表征完成多视图三维重建,本申请通过计算特征通道的权重参数,从而引入不同特征通道对深度信息的贡献能力的差异,可更加准确生成概率体,从而解决三维重建精度低的问题。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的系统或是方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种系统或是方法所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括要素的系统或是方法中还存在另外的相同要素。
Claims (8)
1.一种多视图三维重建方法,其特征在于,包括:
获取待处理图像,所述待处理图像是从不同视角对目标对象采集得到的三通道图像;
根据所述待处理图像,构建第一代价体,所述第一代价体为三维矩阵,所述三维矩阵包括深度向量;
计算所述第一代价体中特征图的方差值,并生成多视角的特征值方差信息,所述特征值方差信息为所述方差值取倒数后,在深度维度归一化生成的;
将所述特征值方差信息转换为概率信息,以得到转换后的第一代价体;
获取所述转换后的第一代价体深度向量中元素下标,所述元素下标为最大值元素的索引位置;
基于所述元素下标,获取独热码,将所述独热码的值设为1,并构建独热码向量;
计算所述特征通道的欧氏距离,所述欧氏距离为所述深度向量与映射的独热码向量的相似度;
计算所述特征通道的平均欧氏距离值,所述平均欧氏距离值为所述特征通道的多个欧氏距离的均值;
计算所述特征通道的权重参数,以得到所述权重参数向量,所述权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数;
将所述权重参数的全量作用于所述第一代价体,以生成第一概率体;
对所述第一概率体执行滤波操作,得到第二概率体;
根据所述待处理图像获取真实深度图,并根据所述真实深度图构建第三概率体;
获取训练好的学习模型,所述学习模型是利用损失函数训练得到的,所述损失函数为根据所述第二概率体和第三概率体生成;
利用所述学习模型,生成真实概率体;
根据所述真实概率体生成预测深度图,并基于多个视角的所述预测深度图生成全局点云,表征完成多视图三维重建。
2.根据权利要求1所述的多视图三维重建方法,其特征在于,所述根据所述待处理图像,构建第一代价体,包括:
提取所述待处理图像的特征;
基于所述特征,通过单应性变换构建特征体,所述特征体为五维矩阵;
通过所述五维矩阵生成第二代价体,所述第二代价体为第一四维矩阵,所述第一四维矩阵包括深度维度、特征通道维度、高度维度和宽度维度;
变换所述第二代价体的深度维度和特征通道维度,以生成第三代价体。
3.根据权利要求2所述的多视图三维重建方法,其特征在于,所述根据所述待处理图像,构建第一代价体,包括:
获取特征图的采样区域,所述第三代价体包括多张特征图,所述采样区域为所述特征图内切椭圆;
基于所述采样区域,确定至少五个采样点;
将至少五个所述采样点设置在采样位置,所述采样位置至少包括所述特征图对角线与所述内切椭圆相交处以及所述内切椭圆的圆心;
根据所述采样位置,对每个特征通道采样五个深度维度的向量,以得到第一代价体,所述第一代价体为三维矩阵。
4.根据权利要求1所述的多视图三维重建方法,其特征在于,所述将所述权重参数的全量作用于所述第一代价体,生成第一概率体,包括:
转换所述第一代价体至第二代价体,所述第二代价体为第一四维矩阵;
获取所述第二代价体中特征图的方差值,并将所述权重参数向量中的元素取倒数与所述方差值相乘,以得到修正后的代价体;
生成方差值矩阵,所述方差值矩阵为所述修正后的代价体输入编解码网络,并将特征通道维度归一化得到的矩阵;
将所述方差值矩阵中的元素取倒数,并沿深度方向执行softmax运算并执行概率归一化,以得到第一概率体。
5.根据权利要求1所述的多视图三维重建方法,其特征在于,所述对所述第一概率体执行滤波操作,得到第二概率体,包括:
获取所述第一概率体的元素,以及,所述元素相邻的至少六个元素的概率值;
计算至少六个元素概率值的加权平均值;
若所述加权平均值小于或等于0.5,将所述第一概率体的元素概率值重置为0,以生成第二概率体。
6.根据权利要求5所述的多视图三维重建方法,其特征在于,所述根据所述待处理图像获取真实深度图,并根据所述真实深度图构建第三概率体,包括:
将所述真实深度图转换为第三概率体,所述第三概率体与所述第二概率体为相同概率矩阵。
7.一种多视图三维重建系统,其特征在于,用于执行权利要求1-6任一项所述的多视图三维重建方法,所述系统包括:
获取单元,用于获取待处理图像,所述待处理图像是从不同视角对目标对象采集得到的三通道图像;
代价体构建单元,用于根据所述待处理图像,构建第一代价体,所述第一代价体为三维矩阵,所述三维矩阵包括深度向量;
概率体构建单元,用于计算所述第一代价体中特征图的方差值,并生成多视角的特征值方差信息,所述特征值方差信息为所述方差值取倒数后,在深度维度归一化生成的;将所述特征值方差信息转换为概率信息,以得到转换后的第一代价体;获取所述转换后的第一代价体深度向量中元素下标,所述元素下标为最大值元素的索引位置;基于所述元素下标,获取独热码,将所述独热码的值设为1,并构建独热码向量;计算所述特征通道的欧氏距离,所述欧氏距离为所述深度向量与映射的独热码向量的相似度;计算所述特征通道的平均欧氏距离值,所述平均欧氏距离值为所述特征通道的多个欧氏距离的均值;计算所述特征通道的权重参数,以得到所述权重参数向量,所述权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数;将所述权重参数的全量作用于所述第一代价体,以生成第一概率体;以及对所述第一概率体执行滤波操作,得到第二概率体;还用于根据所述待处理图像获取真实深度图,并根据所述真实深度图构建第三概率体;
所述获取单元还用于获取训练好的学习模型,所述学习模型是利用损失函数训练得到的,所述损失函数为根据所述第二概率体和第三概率体生成;
所述概率体构建单元还用于利用所述学习模型,生成真实概率体;
重建单元,用于根据所述真实概率体生成预测深度图,并基于多个视角的所述预测深度图生成全局点云,表征完成多视图三维重建。
8.根据权利要求7所述的多视图三维重建系统,其特征在于,所述概率体构建单元还用于计算所述特征通道的平均欧氏距离值,所述平均欧氏距离值为所述特征通道的多个欧氏距离的均值;
计算所述特征通道的权重参数,以得到所述权重参数向量,所述权重参数为平均欧氏距离值取倒数后,执行乘积归一化得到的权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410146139.0A CN117671163B (zh) | 2024-02-02 | 2024-02-02 | 多视图三维重建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410146139.0A CN117671163B (zh) | 2024-02-02 | 2024-02-02 | 多视图三维重建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117671163A CN117671163A (zh) | 2024-03-08 |
CN117671163B true CN117671163B (zh) | 2024-04-26 |
Family
ID=90073552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410146139.0A Active CN117671163B (zh) | 2024-02-02 | 2024-02-02 | 多视图三维重建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671163B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652966A (zh) * | 2020-05-11 | 2020-09-11 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
CN114519772A (zh) * | 2022-01-25 | 2022-05-20 | 武汉图科智能科技有限公司 | 一种基于稀疏点云和代价聚合的三维重建方法及系统 |
CN115147709A (zh) * | 2022-07-06 | 2022-10-04 | 西北工业大学 | 一种基于深度学习的水下目标三维重建方法 |
CN115330929A (zh) * | 2022-03-30 | 2022-11-11 | 土豆数据科技集团有限公司 | 多视图三维重建方法及装置 |
CN116310131A (zh) * | 2023-03-28 | 2023-06-23 | 西南科技大学 | 一种考虑多视图融合策略的三维重建方法 |
CN116912405A (zh) * | 2023-07-07 | 2023-10-20 | 上海大学 | 一种基于改进MVSNet的三维重建方法及系统 |
CN116958437A (zh) * | 2023-07-27 | 2023-10-27 | 重庆大学 | 融合注意力机制的多视图重建方法及系统 |
-
2024
- 2024-02-02 CN CN202410146139.0A patent/CN117671163B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652966A (zh) * | 2020-05-11 | 2020-09-11 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
CN114519772A (zh) * | 2022-01-25 | 2022-05-20 | 武汉图科智能科技有限公司 | 一种基于稀疏点云和代价聚合的三维重建方法及系统 |
CN115330929A (zh) * | 2022-03-30 | 2022-11-11 | 土豆数据科技集团有限公司 | 多视图三维重建方法及装置 |
CN115147709A (zh) * | 2022-07-06 | 2022-10-04 | 西北工业大学 | 一种基于深度学习的水下目标三维重建方法 |
CN116310131A (zh) * | 2023-03-28 | 2023-06-23 | 西南科技大学 | 一种考虑多视图融合策略的三维重建方法 |
CN116912405A (zh) * | 2023-07-07 | 2023-10-20 | 上海大学 | 一种基于改进MVSNet的三维重建方法及系统 |
CN116958437A (zh) * | 2023-07-27 | 2023-10-27 | 重庆大学 | 融合注意力机制的多视图重建方法及系统 |
Non-Patent Citations (2)
Title |
---|
《基于多视角立体匹配的大规模三维重建算法的应用与研究》;张笑晗等;《中国优秀硕士学位论文全文数据库 信息科技辑》;20240115(第1期);第I138-1575页 * |
luoxing等.《FFP-MVSNET:Feature Fusion Based Patchmatch for Multi-view Stereo》.《Communications,Signal processing ,and Systems》.2023,第873卷第167-174页. * |
Also Published As
Publication number | Publication date |
---|---|
CN117671163A (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009674B (zh) | 基于无监督深度学习的单目图像景深实时计算方法 | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
WO2021175050A1 (zh) | 三维重建方法和三维重建装置 | |
CN110941999B (zh) | 一种人群计数系统中自适应计算高斯核大小的方法 | |
CN114863573B (zh) | 一种基于单目rgb-d图像的类别级6d姿态估计方法 | |
CN114782691A (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN111815665B (zh) | 基于深度信息与尺度感知信息的单张图像人群计数方法 | |
CN111582483A (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
CN107301643B (zh) | 基于鲁棒稀疏表示与拉普拉斯正则项的显著目标检测方法 | |
CN113361560B (zh) | 一种基于语义的多姿势虚拟试衣方法 | |
CN111161364A (zh) | 一种针对单视角深度图的实时形状补全和姿态估计方法 | |
CN113536925B (zh) | 一种基于引导注意力机制的人群计数方法 | |
CN113724379B (zh) | 融合图像与激光点云的三维重建方法及装置 | |
CN116310219A (zh) | 一种基于条件扩散模型的三维脚型生成方法 | |
CN113592927A (zh) | 一种结构信息引导的跨域图像几何配准方法 | |
CN114140623A (zh) | 一种图像特征点提取方法及系统 | |
CN111598995B (zh) | 一种基于原型分析的自监督多目三维人体姿态估计方法 | |
CN115588038A (zh) | 一种多视角深度估计方法 | |
CN114091598A (zh) | 一种基于语义级信息融合的多车协同环境感知方法 | |
CN115482268A (zh) | 一种基于散斑匹配网络的高精度三维形貌测量方法与系统 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN114612698A (zh) | 一种基于层级匹配的红外与可见光图像配准方法及系统 | |
CN117671163B (zh) | 多视图三维重建方法及系统 | |
CN112396167A (zh) | 一种外观相似度与空间位置信息融合的回环检测方法 | |
CN115620016B (zh) | 一种骨架检测模型的构建方法、图像数据识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |