CN114152217B - 基于监督学习的双目相位展开方法 - Google Patents

基于监督学习的双目相位展开方法 Download PDF

Info

Publication number
CN114152217B
CN114152217B CN202210123615.8A CN202210123615A CN114152217B CN 114152217 B CN114152217 B CN 114152217B CN 202210123615 A CN202210123615 A CN 202210123615A CN 114152217 B CN114152217 B CN 114152217B
Authority
CN
China
Prior art keywords
image
phase
network
camera
binocular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210123615.8A
Other languages
English (en)
Other versions
CN114152217A (zh
Inventor
蒋琦
朱勐
于浩天
赵壮
陈西北
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanxuan Heya Technology Co ltd
Original Assignee
Nanjing Nanxuan Lihe Information Technology R & D Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Nanxuan Lihe Information Technology R & D Co ltd filed Critical Nanjing Nanxuan Lihe Information Technology R & D Co ltd
Priority to CN202210123615.8A priority Critical patent/CN114152217B/zh
Publication of CN114152217A publication Critical patent/CN114152217A/zh
Application granted granted Critical
Publication of CN114152217B publication Critical patent/CN114152217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • G01B11/25Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures by projecting a pattern, e.g. one or more lines, moiré fringes on the object
    • G01B11/254Projection of a pattern, viewing through a pattern, e.g. moiré

Abstract

本发明涉及基于监督学习的双目相位展开方法,包括1.图像获取:通过双目相机拍摄获得三帧场景的三步相移图像
Figure DEST_PATH_IMAGE001
,
Figure 529400DEST_PATH_IMAGE002
,同时获取背景光强图像
Figure 961387DEST_PATH_IMAGE004
;2.相位计算;3.搭建PUNet网络模型,搭建由编码器和解码器构成的PUNet网络;4.网络训练;5.搭建双目结构光三维测量系统进行网络验证;6.网络处理;7.图像偏差处理。本发明公开一种新的高速高精度相位展开技术,利用卷积神经网络,仅需要双目相机拍摄三帧场景的三步相移图像以及一帧背景光强图像即可获得条纹级次图像,无需进行多余结构光图像的投影,即可进行相位展开,同时获得高速高精度的相位展开结果。

Description

基于监督学习的双目相位展开方法
技术领域
本发明涉及一种基于监督学习的双目相位展开方法,属于图像处理技术领域。
背景技术
在条纹投影轮廓术中,相机拍摄的一系列条纹图像通过相移法进行相位计算,可获得相位值呈周期性变化的包裹相位。为了实现对场景正确的三维测量,相机需要拍摄额外的条纹图像,以将包裹相位展开为连续的绝对相位。目前,研究人员把重点放在如何在不投影额外的条纹图像的前提下,获得高速度、高精度的相位展开结果。
近年来,卷积神经网络被广泛应用于目标检测、场景分割、深度估计等图像处理技术中,并且取得了优异的成绩。同样,深度学习因其具有强大的学习能力和优秀的预测能力,也被引入条纹投影轮廓术中,以解决传统条纹测量轮廓术所难以处理的问题。
发明内容
为了解决上述技术问题,本发明提供一种基于监督学习的双目相位展开方法,其具体技术方案如下:
基于监督学习的双目相位展开方法,包括以下步骤:
步骤1:图像获取:通过双目相机拍摄获得三帧场景的三步相移图像
Figure 216004DEST_PATH_IMAGE001
,
Figure 726619DEST_PATH_IMAGE002
,同时获取背景光强图像
Figure 303094DEST_PATH_IMAGE003
步骤2:相位计算:通过对三步相移图像
Figure 104828DEST_PATH_IMAGE004
,
Figure 574993DEST_PATH_IMAGE002
,相位计算得到场景的包裹相位图像
Figure 928614DEST_PATH_IMAGE005
,对三步相移图像
Figure 726805DEST_PATH_IMAGE006
Figure 597809DEST_PATH_IMAGE002
,相位计算得到场景的包裹相位图像
Figure 266688DEST_PATH_IMAGE007
步骤3:搭建PUNet网络模型:搭建由编码器和解码器构成的PUNet网络,PUNet网络结构包括卷积层、降采样模块、一维非瓶颈残差卷积模块和转置卷积层, PUNet网络结构中还设置有Batch Normalization层和Dropout层,所述Batch Normalization层的计算过程如公式(1)所示
Figure 447003DEST_PATH_IMAGE008
(1)
式中,
Figure 607857DEST_PATH_IMAGE009
为输入数据,
Figure 876027DEST_PATH_IMAGE010
为输入数据总个数,
Figure 55204DEST_PATH_IMAGE011
分别为输入数据的均值和方差,
Figure 16207DEST_PATH_IMAGE012
为归一化常量,
Figure 398778DEST_PATH_IMAGE013
为经归一化后的输入数据,
Figure 470639DEST_PATH_IMAGE014
为可学习参数,
Figure 769902DEST_PATH_IMAGE015
为输出数据;所述Dropout层的计算过程如公式(2)所示
Figure 636227DEST_PATH_IMAGE016
(2)
其中
Figure 771674DEST_PATH_IMAGE017
代表概率,
Figure 381646DEST_PATH_IMAGE018
代表经
Figure 535416DEST_PATH_IMAGE019
函数所得的概率向量,
Figure 572642DEST_PATH_IMAGE020
为网络
Figure 195385DEST_PATH_IMAGE021
层的数据,为网络层经随机置0后的数据,
Figure 874628DEST_PATH_IMAGE022
Figure 882904DEST_PATH_IMAGE023
代表
Figure 91031DEST_PATH_IMAGE024
层的权重与偏置,
Figure 935490DEST_PATH_IMAGE025
分别代表经激活函数
Figure 152845DEST_PATH_IMAGE026
处理前后的数据;
步骤4:网络训练:在PUNet网络中设置损失函数,通过损失函数降低网络模型输出的损失值,所述损失函数如公式(3)所示
Figure 304645DEST_PATH_IMAGE027
(3)
式中
Figure 683673DEST_PATH_IMAGE028
为损失函数,
Figure 15429DEST_PATH_IMAGE029
表示网络所有的训练参数,
Figure 770895DEST_PATH_IMAGE030
代表图像像素之和,
Figure 753763DEST_PATH_IMAGE031
分别为网络输出结果与对应的标准值,
Figure 569273DEST_PATH_IMAGE032
表示二范数;
步骤5:网络验证:搭建双目结构光三维测量系统,对双目结构光三维测量系统进行标定,通过双目结构光三维测量系统采集多个场景下的数据,建立数据集,并对数据集进行训练与测试,验证PUNet能够实现正确的相位展开;
步骤6:网络处理:将双目相机的包裹相位图像和
Figure 388324DEST_PATH_IMAGE033
Figure 681902DEST_PATH_IMAGE034
背景光强图像
Figure 519277DEST_PATH_IMAGE035
Figure 646633DEST_PATH_IMAGE036
及一帧相移图像
Figure 77614DEST_PATH_IMAGE037
输入用于相位展开的神经网络PUNet,输出对应的条纹级次图像
Figure 299517DEST_PATH_IMAGE038
Figure 866765DEST_PATH_IMAGE039
步骤7:图像偏差处理:采用中值滤波对PUNet输出的条纹级次图像进行处理,结合输入的包裹相位图像
Figure 899443DEST_PATH_IMAGE033
Figure 552141DEST_PATH_IMAGE034
以及输出的条纹级次图像
Figure 577735DEST_PATH_IMAGE038
Figure 265068DEST_PATH_IMAGE039
,计算出正确的展开相位信息。
进一步的,所述PUNet将
Figure 468647DEST_PATH_IMAGE040
卷积层的结果和
Figure 608642DEST_PATH_IMAGE041
的最大值池化层的结果融合在一起,作为降采样结果输出。
进一步的,所述一维非瓶颈残差卷积模块在输入和输出之间建立残差连接,所述一维非瓶颈残差卷积模块将两个
Figure 437926DEST_PATH_IMAGE040
卷积替换为一对
Figure 979766DEST_PATH_IMAGE042
Figure 354247DEST_PATH_IMAGE043
的一维卷积。
进一步的,所述双目结构光三维测量系统设置有投影仪、相机、光学定焦镜头、标定板、光学平台、电脑和工作站。
进一步的,所述PUNet选用ADAM优化器对网络参数进行优化。
进一步的,所述双目结构光三维测量系统标定包括以下步骤:
6.1、将标定板放置在测量位置附近,调整相机以及投影仪镜头,使得标定板在相机上清晰成像,投影仪清晰对焦;
6.2、投影仪投影纯白色图像照亮标定板,相机拍摄标定板的图像;
6.3、相机投影两组用于相位计算和相位展开的正弦条纹图以及对应的格雷码图像,两组条纹图分别为横向条纹以及竖向条纹图,相机拍摄此时标定板的图像;
6.4、采用平移和旋转的方式调整标定板的位置,重复步骤6.2和6.3,得到30组不同位姿的标定板的图像;
6.5、对步骤6.2所获得的双目相机所拍摄的标定板进行圆心提取,定义
Figure 981537DEST_PATH_IMAGE044
为像素坐标值,获取亚像素级圆心坐标
Figure 83354DEST_PATH_IMAGE045
,上标
Figure 745280DEST_PATH_IMAGE046
为相机1代号,
Figure 290662DEST_PATH_IMAGE047
为相机2代号;
6.6、对步骤6.3所获得的条纹图进行相位计算与相位展开获得绝对相位信息,采用双线性插值的方式获取亚像素级圆心坐标
Figure 405248DEST_PATH_IMAGE048
Figure 310756DEST_PATH_IMAGE049
的绝对相位值,根据相位投影仪坐标关系计算得到
Figure 827188DEST_PATH_IMAGE050
,上标P 1 为投影仪1代号,P 2 为投影仪2代号;
6.7、将步骤6.5和6.6所获得的若干组
Figure 543471DEST_PATH_IMAGE051
Figure 145354DEST_PATH_IMAGE052
进行处理,获得相机
Figure 120132DEST_PATH_IMAGE053
与投影仪之间的标定参数,重复此操作,分别获得
Figure 491071DEST_PATH_IMAGE054
对应的相机
Figure 378255DEST_PATH_IMAGE055
与投影仪之间的标定参数以及
Figure 201855DEST_PATH_IMAGE056
对应的相机
Figure 714745DEST_PATH_IMAGE053
Figure 940190DEST_PATH_IMAGE055
相机之间的标定参数。
本发明的有益效果:
本发明基于卷积神经网络,公开一种新的高速高精度相位展开技术,利用卷积神经网络,仅需要双目相机拍摄三帧场景的三步相移图像以及一帧背景光强图像即可获得条纹级次图像,无需进行多余结构光图像的投影,即可进行相位展开,同时获得高速高精度的相位展开结果。
附图说明
图1是本发明的流程示意图,
图2是本发明的PUNet结构示意图,
图3是本发明的卷积操作示意图,
图4是本发明的各种卷积模块示意图,
图5是本发明的转置卷积层原理示意图,
图6是本发明的Dropout结构示意图,
图7是本发明的标定板示意图,
图8是本发明的带有结构光信息的标定板示意图,
图9是本发明的三步正弦图及格雷码示意图,
图10是本发明的拍摄数据集部分场景图,
图11是本发明的简单白色玩具场景下实验结果图,
图12是本发明的多孤立物体相位展开效果图,
图13是本发明的复杂场景实验结果图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
针对高速、高精度的相位展开的需求,本发明公开了一个用于相位展开的神经网络PUNet,仅需要双目相机拍摄三帧场景的三步相移图像以及一帧背景光强图像即可进行相位恢复。如图1所示,双目相机首先拍摄获得三帧场景的三步相移图像
Figure 998275DEST_PATH_IMAGE057
、以及一帧背景光强图像
Figure 574750DEST_PATH_IMAGE058
。通过相位计算的方式,计算出场景的包裹相位图像、,之后将双目相机的包裹相位图像
Figure 625752DEST_PATH_IMAGE059
背景光强图像以及一帧条纹图像送入PUNet中,PUNet可直接输出对应的条纹级次图像
Figure 705703DEST_PATH_IMAGE060
。在这个过程中,由于相机的离散采样等原因,在条纹图像周期跳变处可能存在级次的偏差。对于这一问题,采用中值滤波对网络输出的条纹级次图像进行处理。最后根据公式(4)所示
Figure 200270DEST_PATH_IMAGE061
(4)
式中,
Figure 998461DEST_PATH_IMAGE062
为条纹级次,
Figure 587574DEST_PATH_IMAGE063
为包裹相位,
Figure 787612DEST_PATH_IMAGE064
为绝对相位,
Figure 453079DEST_PATH_IMAGE065
为条纹频率,
Figure 472988DEST_PATH_IMAGE066
为像素坐标,结合输入包裹相位图像以及输出的条纹级次图像即可计算出正确的展开相位信息。
本发明提出的监督学习进行双目相位展开方法搭建了一种卷积神经网络PUNet以实现条纹级次的获取。现使得输入条纹图像以及背景光强图像分辨率为
Figure 131371DEST_PATH_IMAGE067
,该网络的结构细节如图2所示。PUNet主要由一个编码器和一个解码器组成,网络的结构整体呈沙漏形,网络结构主要包括卷积层、降采样模块、一维非瓶颈残差卷积模块、转置卷积层,为了提高网络的效率以及泛化能力,本文在网络结构中也添加了Batch Normalization以及Dropout的算法模块。首先,卷积层通过使用卷积核对原始图像进行卷积操作以提取图像特征,其相比于常见的全连接层大大降低了网络参数,保证了网络的稀疏性,因此可以实现更深层次的神经网络搭建。同时通过卷积可以对原始图像进行边缘检测、图像模糊、图像锐化等操作,进而提取到更深层次的图像信息,如图3所示。其次是降采样模块,与常规使用的最大值池化和均值池化等下采样方法有所不同,PUNet将
Figure 185915DEST_PATH_IMAGE068
卷积层的结果和
Figure 756705DEST_PATH_IMAGE069
的最大值池化层的结果融合在一起,作为降采样结果输出。通过降采样模块,降低图像的分辨率,可以减少网络的运算量。在降低图像分辨率的同时,保留更多的空间信息。紧接着,关于一维非瓶颈残差卷积模块。大量的卷积操作会使得网络结构过于庞大,从而降低运算速度。为了解决这一问题,本发明创造性地设计了瓶颈残差卷积模块,相比于普通的卷积模块,瓶颈残差卷积模块中的残差连接通过在输入和输出之间建立连接,能够有效解决深层网络的退化问题。而相比于非瓶颈残差卷积模块,瓶颈结构将两个
Figure 529489DEST_PATH_IMAGE070
卷积替换为
Figure 725984DEST_PATH_IMAGE071
Figure 635034DEST_PATH_IMAGE072
的卷积,降低了参数量,提升了运算速度。然而,随着网络的加深,瓶颈残差卷积模块的精度会逐渐降低。因此,本发明使用一维非瓶颈残差卷积模块,其核心思想是通过将两个
Figure 642304DEST_PATH_IMAGE070
卷积替换为一对
Figure 636805DEST_PATH_IMAGE073
Figure 636991DEST_PATH_IMAGE074
的一维卷积,在保证计算量的同时,增加了卷积核数量。一维非瓶颈残差卷积模块相比于非瓶颈残差卷积模块减少了三分之一的参数量,在保证学习能力的同时,大幅提升了运算速度。如图4中(a)所示为普通卷积模块示意图,如图4中(b)所示为非瓶颈残差卷积模块示意图,如图4中(c)所示为瓶颈残差卷积模块示意图,如图4中(d)所示为一维非瓶颈残差卷积模块示意图。然后是转置卷积层,如图5所示。为了将提取的特征图信息还原成原始图像大小常常需要对特征图做升采样操作,本发明使用转置卷积的方式对图像做升采样操作,相比于基于双线性插值的方式进行图像升采样,使用转置卷积层可以增加模型的参数,使得神经网络具有更强的表现能力。最后是Batch Normalization层和Dropout层。为了处理输入数据中存在的数据分布不均,防止梯度爆炸或梯度消失等问题,本发明通过添加Batch Normalization层来增强网络的稳定性。其计算过程如下:
Figure 666127DEST_PATH_IMAGE008
(1)
式中,
Figure 313140DEST_PATH_IMAGE075
为输入数据,
Figure 326095DEST_PATH_IMAGE076
为输入数据总个数,
Figure 864393DEST_PATH_IMAGE077
分别为输入数据的均值和方差,
Figure 748035DEST_PATH_IMAGE078
为归一化常量,
Figure 831529DEST_PATH_IMAGE079
为经归一化后的输入数据,
Figure 535043DEST_PATH_IMAGE080
为可学习参数,
Figure 142610DEST_PATH_IMAGE081
为输出数据。本发明使用在网络里加入Dropout操作来解决网络存在的过拟合现象。加入Dropout后在每次训练中,网络将一部分节点置零,在这一过程中,一部分神经元被忽略,降低了神经元之间的特征耦合度,减少了神经元之间复杂的共适应关系,从而实现了减小过拟合现象的效果。加入Dropout前后的网络结构图如图6所示,图6中(a)为正常网络结构图,图6中(b)为加入Dropout之后网络结构图。加入Dropout之前网络的计算过程如公式(5)所示
Figure 880759DEST_PATH_IMAGE082
(5)
加入Dropout之后网络计算过程如公式(2)所示
Figure 400733DEST_PATH_IMAGE016
(2)
其中
Figure 857122DEST_PATH_IMAGE083
代表概率,
Figure 471643DEST_PATH_IMAGE084
代表经
Figure 329878DEST_PATH_IMAGE085
函数所得的概率向量。
Figure 286333DEST_PATH_IMAGE086
为网络
Figure 698860DEST_PATH_IMAGE087
层的数据,
Figure 382651DEST_PATH_IMAGE088
为网络
Figure 95392DEST_PATH_IMAGE087
层经随机置0后的数据。
Figure 957168DEST_PATH_IMAGE089
Figure 388150DEST_PATH_IMAGE090
代表
Figure 875632DEST_PATH_IMAGE091
层的权重与偏置。
Figure 442879DEST_PATH_IMAGE092
分别代表经激活函数
Figure 475557DEST_PATH_IMAGE093
处理前后的数据。
然而,在涉及到深度学习的任务中,人们通过使用损失函数以评估网络模型的输出与标签的不一致程度,通过对损失函数最小化,使网络模型的损失值减小,从而指导网络模型的学习。常见的损失函数有:L1Loss、L2Loss、交叉熵Loss等等。因L2Loss具有处处连续可导,收敛速度快等优点,因此本发明选用L2Loss进行神经网络的训练。在PUNet中,定义损失函数如公式(3)所示
Figure 862676DEST_PATH_IMAGE027
(3)
式中
Figure 153849DEST_PATH_IMAGE094
为损失函数,
Figure 575603DEST_PATH_IMAGE095
表示网络所有的训练参数,
Figure 779183DEST_PATH_IMAGE096
代表图像像素之和,
Figure 919177DEST_PATH_IMAGE097
分别为网络输出结果与对应的标准值,
Figure 482882DEST_PATH_IMAGE098
表示二范数。
此外,由于网络中存在降采样模块,输入图像中物体的边缘、细节等特征会出现丢失,导致最终输出的条纹级次在物体边缘处可能会出现错误。因此除L2Loss之外,PUNet将在线难例挖掘策略加入到网络训练过程中,使得对于在使用L2Loss进行训练时所无法进行解决的场景能够得到处理。而在线难例挖掘是指:在网络模型的训练过程中,通过损失函数提高难样本的比例,让网络侧重于难样本的学习。具体来说,在PUNet进行条纹级次生成过程中,对L2Loss计算出的结果进行处理,通过设置阈值将损失值低的部分进行丢弃,只对损失值高的区域进行损失计算并反馈给神经网络。PUNet选用ADAM优化器对网络参数进行优化,其batch size为1,初始学习率为0.001,之后采用每1000个epoch下降十分之一的方式进行学习率调整以使得网络收敛到较优的结果。
实验设备装配与系统标定。为了通过实验对本发明提出的方法进行验证,本发明搭建了一套双目结构光三维测量系统,该系统主要包括:DMD投影仪(DPL6500,TexasInstruments,分辨率为),两个CMOS相机(Basler acA640-750 um,分辨率为),两个光学定焦镜头(Computar,8 mm),圆点标定板,光学平台,PC电脑,高性能工作站(Ubuntu系统,Intel 酷睿i9 10900K处理器,NVIDIA TITAN RTX显卡)等。光学定焦镜头被安装在COMS相机上,同时,可通过调整镜头实现不同位置的聚焦。使用螺丝将左右相机与投影仪固定在光学平台上,避免实验过程中的抖动、碰撞等。两相机之间基线距离80cm,投影仪固定在两相机位置中间。测量系统距离待测物体的距离为1m。两相机与投影仪之间通过硬触发协同的方式进行连接,投影仪投影出条纹图像时会同时发送触发信号,触发信号通过触发线传送到相机端,在接收到投影仪发送的触发信号之后,相机进行图像的拍摄,从而实现投影仪与相机之间投影与采集的同步。整个三维测量系统通过USB接口与PC电脑连接,实现数据的传输。除此之外,在PC电脑安装驱动软件以实现对相机以及投影仪等硬件系统进行控制。本发明实验设备所使用的驱动软件为DLP LightCrafter6500以及pylon Viewer(64bit),分别用于对投影仪以及相机进行控制。利用DLP LightCrafter6500驱动软件可以实现将多张条纹图像送入缓存并依次进行投影的功能,无需多次加载条纹图像,大大减少了拍摄数据所使用的时间,同时该驱动软件可以实现投影亮度、曝光时间等参数调节,可以适应多种需求下的投影使用。pylon Viewer可实现对相机所拍摄到的图像的尺寸调节、图像镜像、图像存储等功能,大大方便了研究人员的使用。为了进行网络模型的设计、训练、调参、部署等功能,本文在高性能工作站上安装NVIDIA TITAN RTX显卡并配置了Ubuntu操作系统环境。NVIDIA TITAN RTX显卡可以实现在GPU上进行数据计算的功能,以大大提升网络的训练速度。在Ubuntu操作系统系统环境中,安装了Pytorch深度学习框架用于网络的设计及训练。Pytorch深度学习框架是一个开源的python机器学习库,框架简洁且高效快速,其具有自动求导功能,且可以使用强大的GPU加速的张量计算。这使得使用者仅需要关注网络框架的搭建与数据的前向传播计算过程,反向传播过程中涉及的复杂的求导计算过程可交给Pytorch自行实现。
为了进行准确的三维形貌恢复,对本发明搭建的双目结构光三维测量系统进行标定是必须的。本发明采用在计算机视觉领域被广泛使用的张正友标定法对该装置进行系统标定以获得系统的标定参数。Matlab是美国MathWorks公司所生产的著名的商业数学计算软件,被广泛应用于数据处理、计算机视觉、信号处理等领域。Matlab集成了进行三维测量所需的常用算法,对于系统标定来说,其提供的Stereo Camera Calibrator标定工具箱具有计算速度快、标定精度高等优点,因此本发明采用该方案对搭建的双目结构光三维测量系统进行标定。双目结构光三维测量系统标定流程如下:1、将标定板放置在测量位置附近,调整相机以及投影仪镜头,使得标定板可以在相机上清晰成像,投影仪可以清晰对焦。2、投影仪投影纯白色图像照亮标定板,相机拍摄标定板的图像,如图7所示。3、相机投影两组用于相位计算和相位展开的正弦条纹图以及对应的格雷码图像,两组条纹图分别为横向条纹以及竖向条纹图。相机拍摄此时标定板的图像,如图8所示。4、采用平移和旋转的方式调整标定板的位置,重复2、3步骤,得到约30组不同位姿的标定板的图像。5、对步骤2所获得的双目相机所拍摄的标定板进行圆心提取,获取亚像素级圆心坐标
Figure 24722DEST_PATH_IMAGE099
。6、对步骤3所获得的条纹图进行相位计算与相位展开获得绝对相位信息,采用双线性插值的方式获取亚像素级圆心坐标
Figure 664782DEST_PATH_IMAGE100
Figure 26493DEST_PATH_IMAGE101
的绝对相位值,再根据相位投影仪坐标关系计算得到
Figure 393890DEST_PATH_IMAGE102
。7、将步骤5、6所获得的若干组
Figure 55815DEST_PATH_IMAGE103
导入Matlab的Stereo Camera Calibrator标定工具箱进行处理,即可获得相机
Figure 601197DEST_PATH_IMAGE104
与投影仪之间的标定参数,重复此操作,可分别获得
Figure 450204DEST_PATH_IMAGE105
对应的相机
Figure 621292DEST_PATH_IMAGE106
与投影仪之间的标定参数以及
Figure 137724DEST_PATH_IMAGE107
对应的相机
Figure 854007DEST_PATH_IMAGE108
与相机
Figure 190310DEST_PATH_IMAGE106
之间的标定参数。本发明使用规格
Figure 165088DEST_PATH_IMAGE109
、GRB200的圆心标定板对双目结构光三维测量系统进行参数标定,共采集了30组不同位姿下的标定板图像。同时使用重投影误差来评价该双目结构光三维测量系统的标定精度,观察30组图像的平均重投影误差,发现右相机及投影仪的标定重投影误差均在0.05 pixels以下,由此可见采用上述流程对本发明所使用的双目结构光三维测量系统标定精度很高。
数据拍摄及数据集处理。为了验证本发明提出的PUNet的效果,本发明用双目结构光三维测量系统进行数据采集,同时选用频率为64,周期为30的三步相移正弦条纹图像对待测物体进行投影,以获取PUNet的输入数据。同时,采用格雷码相位展开算法获取每个像素点上的标准条纹级次作为标准值,帮助网络进行训练。三步相移正弦条纹图及对应的格雷码图像如图9所示。简单场景,即表面光滑的白色玩具,以及50个包含复杂表面物体的场景,其中包括彩色玩具、口罩、插排等,图10展示了数据集中部分拍摄的场景,图10中(a)为物体左图,图10中(b)为物体右图。本发明选取180个简单场景作为训练集用于训练网络,选取10个简单场景以及25个复杂场景作为数据集中的验证集用于观测网络训练效果同时调整超参数,选取剩余的10个简单场景及25个复杂场景作为测试集用于评估最终的网络性能,本发明所有的实验结果均在测试集上得到。利用该数据集对PUNet进行大量的训练后,挑选几组测试集的数据对PUNet的学习效果进行测试,其中包含单一的表面光滑的白色玩具场景、多个孤立的表面光滑的白色玩具场景、彩色玩具场景、人体手掌场景、电线插排场景。实验结果如图11、图12和图13所示。图11展示了单一白色玩具场景下PUNet的相位展开结果。图11中(a)为两个相机视角下各自拍摄的条纹图像
Figure 536027DEST_PATH_IMAGE110
以及背景光强图像
Figure 423211DEST_PATH_IMAGE111
。将条纹图像经过相移法计算可得到包裹相位图像
Figure 902603DEST_PATH_IMAGE112
Figure 25280DEST_PATH_IMAGE113
,如图11中(b)所示。背景光强图像、单帧条纹图像以及计算获得的包裹相位图像作为输入数据送到训练完成的PUNet之后,PUNet可输出对应的条纹级次
Figure 391670DEST_PATH_IMAGE114
Figure 574390DEST_PATH_IMAGE115
,如图11中(c)所示。基于公式(4),利用输入包裹相位以及输出的条纹级次即可获得绝对相位
Figure 9919DEST_PATH_IMAGE116
Figure 936287DEST_PATH_IMAGE117
。该绝对相位与格雷码相位展开算法所计算得到的绝对相位完全一致。结合设备的标定参数,即可实现三维重建。以相机
Figure 344135DEST_PATH_IMAGE118
视角下的三维数据为例,结果如图11中(d)所示。PUNet获得的三维数据是平滑的且不含由于错误的相位展开导致的高度阶跃。因此PUNet能够实现正确的相位展开。图12展示了在场景中存在多个孤立物体的情况下,PUNet相位展开结果。在该场景下,传统的空间相位展开方法无法获得正确的相位展开结果。从图12可以看出PUNet能够很好地解决该场景下的相位展开问题,所获得的展开相位是平滑的,利用该展开相位所获得的三维重建结果也不包含错误条纹级次引起的褶皱。图13中(a)至图13中(c)分别展示了彩色玩具、人体手掌以及口罩的三维重建结果。从左至右每一列分别为输入数据、输出的条纹级次以及重建的三维数据。由图11、图12以及图13可以看出,本发明提出的PUNet无论在简单场景下还是在复杂的场景上实现正确的相位展开并获得准确的三维数据,具有较强的场景适应能力。
本发明提出一种基于深度学习的双目相位展开方法。该方法仅需要双目相机拍摄的三帧场景的条纹图像以及一帧背景光强图像即可进行相位恢复。为了进行深度学习的训练,本发明搭建了一个名为PUNet的网络,在网络中添加了卷积层、下采样模块、一维非瓶颈残差卷积模块、转置卷积层等。为了提升网络的性能与稳定性,获得较强的泛化能力,本发明在网络中也添加了Batch Normalization以及Dropout的算法模块。为了验证本发明方法的正确性,搭建了双目结构光三维测量系统,并采用张正友标定法对该设备进行了高精度的系统参数标定。之后通过该三维测量系统采集了多种场景下的数据,建立了数据集。通过在该数据集上的训练与测试,定性定量地对本方法进行了分析。最终结果表明,基于深度学习的双目相位展开方法能够在白色玩具、彩色玩具、人体手掌、插排等一般室内场景下具有良好的相位展开效果,因此该方法能够适用于大多数场景下的实际使用。
以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (6)

1.基于监督学习的双目相位展开方法,其特征在于,包括以下步骤:
步骤1:图像获取:通过双目相机拍摄获得三帧场景的三步相移图像
Figure 551418DEST_PATH_IMAGE001
,
Figure 671821DEST_PATH_IMAGE002
,同时获取背景光强图像
Figure 45034DEST_PATH_IMAGE003
步骤2:相位计算:通过对三步相移图像
Figure 909085DEST_PATH_IMAGE004
,
Figure 316932DEST_PATH_IMAGE002
,相位计算得到场景的包裹相位图像,对三步相移图像
Figure 608236DEST_PATH_IMAGE005
Figure 468745DEST_PATH_IMAGE002
,相位计算得到场景的包裹相位图像
Figure 402066DEST_PATH_IMAGE006
步骤3:搭建PUNet网络模型:搭建由编码器和解码器构成的PUNet网络,PUNet网络结构包括卷积层、降采样模块、一维非瓶颈残差卷积模块和转置卷积层,PUNet网络结构中还设置有Batch Normalization层和Dropout层,所述Batch Normalization层的计算过程如公式(1)所示
Figure 664420DEST_PATH_IMAGE007
(1)
式中,
Figure 861046DEST_PATH_IMAGE008
为输入数据,
Figure 208851DEST_PATH_IMAGE009
为输入数据总个数,
Figure 414704DEST_PATH_IMAGE010
分别为输入数据的均值和方差,
Figure 531565DEST_PATH_IMAGE011
为归一化常量,
Figure 430251DEST_PATH_IMAGE012
为经归一化后的输入数据,
Figure 265351DEST_PATH_IMAGE013
为可学习参数,
Figure 9316DEST_PATH_IMAGE014
为输出数据;所述Dropout层的计算过程如公式(2)所示
Figure 246263DEST_PATH_IMAGE015
(2)
其中
Figure 50271DEST_PATH_IMAGE016
代表概率,
Figure 372668DEST_PATH_IMAGE017
代表经
Figure 920324DEST_PATH_IMAGE018
函数所得的概率向量,
Figure 11776DEST_PATH_IMAGE019
为网络
Figure 252265DEST_PATH_IMAGE020
层的数据,
Figure 796379DEST_PATH_IMAGE021
为网络
Figure 147726DEST_PATH_IMAGE020
层经随机置0后的数据,
Figure 828106DEST_PATH_IMAGE022
Figure 364129DEST_PATH_IMAGE023
代表
Figure 270905DEST_PATH_IMAGE024
层的权重与偏置,
Figure 284998DEST_PATH_IMAGE025
分别代表经激活函数
Figure 226409DEST_PATH_IMAGE026
处理前后的数据;
步骤4:网络训练:在PUNet网络中设置损失函数,通过损失函数降低网络模型输出的损失值,所述损失函数如公式(3)所示
Figure 667755DEST_PATH_IMAGE027
(3)
式中
Figure 61827DEST_PATH_IMAGE028
为损失函数,
Figure 879610DEST_PATH_IMAGE029
表示网络所有的训练参数,
Figure 269003DEST_PATH_IMAGE030
代表图像像素之和,
Figure 287775DEST_PATH_IMAGE031
分别为网络输出结果与对应的标准值,
Figure 28198DEST_PATH_IMAGE032
表示二范数;
步骤5:网络验证:搭建双目结构光三维测量系统,对双目结构光三维测量系统进行标定,通过双目结构光三维测量系统采集多个场景下的数据,建立数据集,并对数据集进行训练与测试,验证PUNet能够实现正确的相位展开;
步骤6:网络处理:将双目相机的包裹相位图像
Figure 525038DEST_PATH_IMAGE033
Figure 300096DEST_PATH_IMAGE034
、背景光强图像
Figure 958610DEST_PATH_IMAGE035
Figure 451909DEST_PATH_IMAGE036
及一帧相移图像
Figure 486861DEST_PATH_IMAGE037
输入用于相位展开的神经网络PUNet,输出对应的条纹级次图像
Figure 382004DEST_PATH_IMAGE038
Figure 211420DEST_PATH_IMAGE039
步骤7:图像偏差处理:采用中值滤波对PUNet输出的条纹级次图像进行处理,结合输入的包裹相位图像
Figure 192015DEST_PATH_IMAGE033
Figure 30658DEST_PATH_IMAGE034
以及输出的条纹级次图像
Figure 514728DEST_PATH_IMAGE038
Figure 780625DEST_PATH_IMAGE039
,计算出正确的展开相位信息。
2.根据权利要求1所述的基于监督学习的双目相位展开方法,其特征在于:所述PUNet将
Figure 982936DEST_PATH_IMAGE040
卷积层的结果和
Figure 625270DEST_PATH_IMAGE041
的最大值池化层的结果融合在一起,作为降采样结果输出。
3.根据权利要求1所述的基于监督学习的双目相位展开方法,其特征在于:所述一维非瓶颈残差卷积模块在输入和输出之间建立残差连接,所述一维非瓶颈残差卷积模块将两个
Figure 229427DEST_PATH_IMAGE042
卷积替换为一对
Figure 666224DEST_PATH_IMAGE043
Figure 355831DEST_PATH_IMAGE044
的一维卷积。
4.根据权利要求1所述的基于监督学习的双目相位展开方法,其特征在于:所述双目结构光三维测量系统设置有投影仪、相机、光学定焦镜头、标定板、光学平台、电脑和工作站。
5.根据权利要求1所述的基于监督学习的双目相位展开方法,其特征在于:所述PUNet选用ADAM优化器对网络参数进行优化。
6.根据权利要求4所述的基于监督学习的双目相位展开方法,其特征在于:所述双目结构光三维测量系统标定包括以下步骤:
6.1、将标定板放置在测量位置附近,调整相机以及投影仪镜头,使得标定板在相机上清晰成像,投影仪清晰对焦;
6.2、投影仪投影纯白色图像照亮标定板,相机拍摄标定板的图像;
6.3、相机投影两组用于相位计算和相位展开的正弦条纹图以及对应的格雷码图像,两组条纹图分别为横向条纹以及竖向条纹图,相机拍摄此时标定板的图像;
6.4、采用平移和旋转的方式调整标定板的位置,重复步骤6.2和6.3,得到30组不同位姿的标定板的图像;
6.5、对步骤6.2所获得的双目相机所拍摄的标定板进行圆心提取,定义
Figure 536277DEST_PATH_IMAGE045
为像素坐标值,获取亚像素级圆心坐标
Figure 994940DEST_PATH_IMAGE046
,上标
Figure 602639DEST_PATH_IMAGE048
为相机1代号,
Figure 779543DEST_PATH_IMAGE050
为相机2代号;
6.6、对步骤6.3所获得的条纹图进行相位计算与相位展开获得绝对相位信息,采用双线性插值的方式获取亚像素级圆心坐标
Figure 498100DEST_PATH_IMAGE051
Figure 76849DEST_PATH_IMAGE052
的绝对相位值,根据相位投影仪坐标关系计算得到
Figure 855449DEST_PATH_IMAGE053
,上标P 1 为投影仪1代号,P 2 为投影仪2代号;
6.7、将步骤6.5和6.6所获得的若干组
Figure 519648DEST_PATH_IMAGE054
进行处理,获得相机
Figure 41897DEST_PATH_IMAGE055
与投影仪之间的标定参数,重复此操作,分别获得
Figure 475152DEST_PATH_IMAGE056
对应的相机
Figure 424653DEST_PATH_IMAGE057
与投影仪之间的标定参数以及
Figure DEST_PATH_IMAGE058
对应的相机
Figure 779411DEST_PATH_IMAGE059
与相机
Figure 229984DEST_PATH_IMAGE057
之间的标定参数。
CN202210123615.8A 2022-02-10 2022-02-10 基于监督学习的双目相位展开方法 Active CN114152217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210123615.8A CN114152217B (zh) 2022-02-10 2022-02-10 基于监督学习的双目相位展开方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210123615.8A CN114152217B (zh) 2022-02-10 2022-02-10 基于监督学习的双目相位展开方法

Publications (2)

Publication Number Publication Date
CN114152217A CN114152217A (zh) 2022-03-08
CN114152217B true CN114152217B (zh) 2022-04-12

Family

ID=80450246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210123615.8A Active CN114152217B (zh) 2022-02-10 2022-02-10 基于监督学习的双目相位展开方法

Country Status (1)

Country Link
CN (1) CN114152217B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943755B (zh) * 2022-07-25 2022-10-04 四川省产品质量监督检验检测院 一种基于双目结构光三维重建相位图像的处理方法
CN116105632B (zh) * 2023-04-12 2023-06-23 四川大学 一种结构光三维成像的自监督相位展开方法及装置
CN117058218A (zh) * 2023-07-13 2023-11-14 湖南工商大学 基于图像-深度的盘式造球颗粒粉末填充率在线测量方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109253708A (zh) * 2018-09-29 2019-01-22 南京理工大学 一种基于深度学习的条纹投影时间相位展开方法
CN110163817A (zh) * 2019-04-28 2019-08-23 浙江工业大学 一种基于全卷积神经网络的相位主值提取方法
CN111523618A (zh) * 2020-06-18 2020-08-11 南京理工大学智能计算成像研究院有限公司 一种基于深度学习的相位展开方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109253708A (zh) * 2018-09-29 2019-01-22 南京理工大学 一种基于深度学习的条纹投影时间相位展开方法
CN110163817A (zh) * 2019-04-28 2019-08-23 浙江工业大学 一种基于全卷积神经网络的相位主值提取方法
CN111523618A (zh) * 2020-06-18 2020-08-11 南京理工大学智能计算成像研究院有限公司 一种基于深度学习的相位展开方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习技术在条纹投影三维成像中的应用;冯世杰 等;《红外与激光工程》;20200331;第49卷(第03期);全文 *

Also Published As

Publication number Publication date
CN114152217A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN114152217B (zh) 基于监督学习的双目相位展开方法
CN109859296B (zh) Smpl参数预测模型的训练方法、服务器及存储介质
CN111784821B (zh) 三维模型生成方法、装置、计算机设备及存储介质
CN113012293B (zh) 石刻模型构建方法、装置、设备及存储介质
CN113962858B (zh) 一种多视角深度获取方法
CN106705849A (zh) 线结构光传感器标定方法
CN113160294A (zh) 图像场景深度的估计方法、装置、终端设备和存储介质
WO2002001503A2 (en) Depth map creation through hypothesis blending in a bayesian framework
CN113362457B (zh) 一种基于散斑结构光的立体视觉测量方法及系统
CN111462302A (zh) 基于深度编码网络的多视点人体动态三维重建方法及系统
EP4036863A1 (en) Human body model reconstruction method and reconstruction system, and storage medium
CN114494589A (zh) 三维重建方法、装置、电子设备和计算机可读存储介质
CN116416376A (zh) 一种三维头发的重建方法、系统、电子设备及存储介质
CN116958419A (zh) 一种基于波前编码的双目立体视觉三维重建系统和方法
Wang A Comparison Study of Five 3D Modeling Systems Based on the SfM Principles
CN112329726A (zh) 人脸识别方法及装置
CN116579962A (zh) 一种基于鱼眼相机的全景感知方法、装置、设备及介质
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN112906675A (zh) 一种固定场景中的无监督人体关键点检测方法及系统
CN115761116B (zh) 一种基于单目相机的透视投影下三维人脸重建方法
US20230177771A1 (en) Method for performing volumetric reconstruction
CN111582310A (zh) 隐含结构光的解码方法及装置
CN113436264B (zh) 基于单目多目混合定位的位姿计算方法及系统
Peng et al. Projective reconstruction with occlusions
Kang et al. 3D urban reconstruction from wide area aerial surveillance video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230728

Address after: Room 409, Building B, Xingzhi Science Park, No. 6, Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210038

Patentee after: Nanjing nanxuan Heya Technology Co.,Ltd.

Address before: 210000 room 1101-26, building a, building 4, Nanjing Baixia high tech Industrial Development Zone, No. 6, Yongzhi Road, Qinhuai District, Nanjing, Jiangsu Province

Patentee before: Nanjing nanxuan Lihe information technology R & D Co.,Ltd.

TR01 Transfer of patent right