CN112419387B - 一种日光温室番茄植株图像无监督深度估计方法 - Google Patents
一种日光温室番茄植株图像无监督深度估计方法 Download PDFInfo
- Publication number
- CN112419387B CN112419387B CN202011317617.8A CN202011317617A CN112419387B CN 112419387 B CN112419387 B CN 112419387B CN 202011317617 A CN202011317617 A CN 202011317617A CN 112419387 B CN112419387 B CN 112419387B
- Authority
- CN
- China
- Prior art keywords
- image
- convolution
- function
- depth estimation
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
技术领域
本发明涉及图像处理领域,具体是涉及一种日光温室番茄植株图像无监督深度估计方法,可用于番茄植株表型检测、温室环境三维结构重构、农业移动机器人导航避障等应用中。
背景技术
目前在日光温室环境下深度信息的获取主要采用以下几类方法:
基于电磁波或声波的主动深度感知方法。这类方法首先由传感器向温室目标场景发射电磁波或超声波,利用目标物的反射波来探测深度,这类方法主要包括LiDAR、Kinect。
基于图像匹配的被动感知方法。这类方法首先用人工特征提取算子提取并描述多个视角图像的图像块特征,然后利用特征匹配算法匹配多视角图像块,由此计算视差,并由视差获取图像深度。
基于运动恢复结构的方法。这类方法利用多张图像或视频序列,通过对序列中多个特征点的跟踪来恢复相机的参数及场景的三维结构。
基于深度学习的单目深度估计方法。这类方法通过图像/深度数据集,通过有监督学习方法训练一个神经网络,并利用该网络预测场景深度。或者通过无监督方法联合训练一个深度估计网络和一个姿态估计网络,利用视图重构误差来做监督信号。
上述已有的日光温室环境下深度信息获取方法还存在着诸多限制。主动感知技术仅能获取深度信息,无法直接获取温室番茄植株的RGB图像用于进一步的语义分析,也很难将深度数据与RGB图像像素对齐,如LiDAR成本仍然高昂,很难直接应用于农业移动机器人的视觉系统开发中,Kinect难以直接工作于日光温室环中的复杂光照条件下。植株图像颜色、纹理单一,基于特征点匹配和跟踪的方法,会出现大量的误匹配,未能解决深度信息的精度问题。有监督学习的深度估计方法需要大量的以深度作为标注的图像数据,这类方法无法适应变化的工作场景,当从一个工作场景转换到另一个场景时,其泛化效果不理想,而无监督单目深度估计方法存在着深度和姿态相互耦合的问题,无法精确估计场景的深度信息。
发明内容
为了弥补上述现有技术的不足,本发明的目的是提出一种日光温室番茄植株图像无监督深度估计方法,大幅提高了以图像为基础的日光温室番茄植株深度估计精度,在20m的图像采样范围内,其绝对误差小于7cm,可为进一步的番茄植株表型检测、温室三维结构重建提供数据,同时为温室移动作业平台的自主导航与避障提供了可能性,为温室移动机器人视觉系统设计提供技术支撑。
本发明提出了一种日光温室番茄植株图像无监督深度估计方法,其技术要点是:构建基于双目图像的日光温室番茄植株无监督深度估计模型,包括以下步骤:
(1)设置深度卷积自编码器来作为实现双目图像深度估计的函数fD,所述函数fD以日光温室番茄植株双(左、右)目图像(Il,Ir)作为输入,预测与图像像素对齐的左、右目视差图(Dl,Dr);
(4)用完成训练且解耦后的fD函数来估计日光温室番茄植株双目图像的视差,并用Zl=fb/Dl得到图像深度Zl,其中f、b分别为双目相机的焦距和基线距离。
所述设置深度卷积自编码器获得函数fD的方法如下:
①设置横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块
所述卷积自编码器用卷积模块来构建,该卷积模块结构可有效提高单层卷积模块的感受野,同时有利于提取图像局部特征;
②采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数;
所述能够度量图像表观差异的函数pe的设置方法为:
为所述基于双目图像的日光温室番茄植株无监督深度估计模型定义光不敏感植株图像表观差异度量函数,将图像像素空间的L1距离、结构近似度指数SSIM、图像边缘特征的L1距离、图像Gabor纹理特征的L1距离的线性组合,作为日光温室番茄植株图像的光不敏感表观差异度量函数pe;
所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,方法为:
采用双目相机在种植作物为番茄的日光温室里采集大量双目图像直接用于深度估计模型的预训练,同时在模型工作于智能设备上时,采用边工作边学习的在线无监督训练模式,以适应多变的工作环境。
进一步的,所述设置深度卷积自编码器获得函数fD的方法如下:
(1)横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块设置
a.设置横向混合分组扩张卷积的计算模块HHGDConv,所述HHGDConv包含G个等宽深度化卷积方法分组,并将G作为其超参数(本方案中G取8),各深度化卷积分组的扩张率分别取1~G,各组的输入特征图是相同的,对各深度化卷积分组输出的特征图采用元素级求和的方式进行融合,并将融合结构作为HHGDConv的输出特征图;设深度化卷积的卷积核大小为k×k,输入、输出通道数为A时,所述HHGDConv参数量为GAk2;所述HHGDConv可视为输入、输出通道数均为A的卷积模块,相应的常规卷积的参数量为A2k2;
b.采用反向残差结构,设计基于横向混合分组扩张卷积HHGDConv的反向残差模块IRM,并针对HHGDConv的结构特征设计自注意力机制;
所述IRM的输入特征图为其中/>表示实数域,C、H、W分别表示特征图的通道数、高度和宽度,首先用点卷积将具有C个通道的特征图FI扩展为具有SC个通道的特征图,S称为扩展因子超参数(本方案中S取2),再用HHGDConv在扩展特征图上进行空间特征提取和关系映射;
c.为IRM设置注意力机制,对HHGDConv的不同感受野大小的特征进行选择,基于通过全局平均池化操作将HHGDConv的输出特征图压缩成通道描述子用于获取特征图全局信息,q表示通道描述子,该描述子为具有SC个元素的实数/>向量;
d.在q基础上,采用2层非线性全连接层(用FC表示),学习并捕获HHGDConv的组间相关性,并输出选择向量s=softmax(W2LReLU(W1q)),分别为2层FC的可学习参数,R为降低参数量而引入的缩减因子超参数(本方案中R取4),LReLU为渗漏型线性整流单元;
e.用选择向量s中的G个实数型元素值做门限值,与HHGDConv对应的G个不同扩展率的深度化卷积分组的输出特征图进行逐元素相乘,并再次对选择后的特征图进行元素级求和,即sj表示选择向量s中的第j个元素,Fj表示HHGDConv的第j个深度化卷积分组的输出特征图,融合结果Fa作为基于全局自注意力机制的特征选择结果;
(2)采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数
采用基于横向混合分组扩张卷积的反向残差模块构建卷积自编码器CAE,用于作为深度估计模型的双目图像深度估计函数fD;所述CAE由编码器和解码器构成,将fD的输入双目图像(Il,Ir)在颜色通道上连接后输入编码器;编码器架构共有5个阶段,阶段1采用1个常规卷积,其输出特征图通道数(宽度)设为C″(本方案中C″取24),其余阶段均采用IRM构建,每个阶段中的IRM宽度均相同,且每阶段第一个IRM的步长为2,用于特征图下采样,同时后一个阶段的IRM宽度是前一个阶段的2倍;解码器也有5个阶段,每个阶段先通过转置卷积对特征图进行上采样,并用元素级求和的方式融合编码器对应阶段的最后一个IRM的输出特征图,然后再用1个IRM解码特征,各阶段的转置卷积和IRM宽度在前一个阶段基础上减半,解码器阶段1的宽度固定为16;整个CAE的网络宽度由超参数C″决定,在解码器尾端多个IRM上,设置输出通道数为4、配置有Sigmoid激活的conv3×3标准卷积用作预测模块,用于左、右目图像的视差图及对应的遮罩平面预测,除预测模块外,CAE的所有卷积均采用批归一化(BN)层和LReLU激活,并按Conv-BN-LReLU形式进行组合;
进一步的,所述pe函数的定义为:
Ia、Ib表示任意等大小的2幅图像,α、β、η为比例系数(本方案中3个系数的取值分别为0.85、0.25和0.05),可较好的度量2幅图像的表观差异,为图像边缘特征的L1距离、/>为图像Gabor纹理特征的L1距离;
采用Gabor滤波器提取并比较图像纹理差异,Gabor函数的实数部分定义为
x,y为Gabor滤波核内坐标,θ表示核方向,γ为核的纵横比(椭圆率),λ为cos函数的波长、ψ为相位,σ为高斯函数的标准差,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;本实施例选取λ∈{3,5}、σ=0.56λ、ψ=0、γ=0.5,θ∈{0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8},生成16个大小为7×7的Gabor滤波器核,组成16×7×7的张量模板,通过其对图像做卷积运算,提取图像I的纹理特征,记为Gabor(I),的定义为:获得/>
进一步的,所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,主要包括以下步骤:
将模型输入图像大小设置为512×288像素,采用数据增广方法提高模型泛化效果,利用Adam优化器对模型进行训练,采用的数据增广方法主要包括:图像随机裁剪,从原图像中随机裁剪不小于85%边长的区域后调整(resize)为输入大小,接着对裁剪图像做水平和垂直随机翻转,并进一步对其亮度、对比度和饱和度在[0.85,1.15]范围内随机调整,然后用(pix-127.5)/127.5对各像素分量pix进行归一化后输入网络;增广过程中,采用相同的随机值对双目图像进行处理,以保持双目图像的一致性。采用小批量随机梯度下降法和Adam优化器对模型进行训练,优化器参数设置为β1=0.9、β2=0.999,权重衰减因子设置为5×10-5,学习率设置为2.0×10-4。
本发明的有益效果:
(1)本发明模型能够实现无监督在线学习、终身学习,能够估计出日光温室番茄植株图像对应的三维场景基本结构,对株行间行走通道、温室墙体、作物株与株间隔、植株纤细茎秆、场景远近变化均有效(图3所示);
(2)该发明大幅提高了以图像为基础的日光温室番茄植株深度估计精度,在20m的图像采样范围内,其绝对误差小于7cm,可为进一步的番茄植株表型检测、温室三维结构重建提供数据,同时为温室移动作业平台的自主导航与避障提供了可能性,相关方法可为农业机器人视觉系统的设计提供参考。
附图说明
图1基于横向混合分组扩张卷积与自注意力机制的反向残差模块IRM;
图中:DepthConv SC,3×3,s=1,r=1表示通道数为SC、卷积核大小为3×3、步长为1且扩张因子为1的深度化卷积;Conv表示标准卷积;FC表示全连接;S为扩展因子,G为组数,R为缩减因子,C、C′表示输入、输出特征图通道数;FI、FO表示输入、输出特征图,Fa表示注意力机制的选择特征图;GlobalAveragePooling表示全局平均池化;Gate表示门限值;[SAEnable]表示启用注意力机制,[SADisable]表示禁用自注意力机制;Identity表示恒等映射。
图2基于IRM的卷积自编码器;
Splice表示对图像在通道维上进行连接;C″为用于调整网络宽度的超参数;TransConv表示转置卷积;Stage 1、Stage2等表示阶段1、阶段2;IRM表示反向残差模块;Il、Ir分别表示左、右目图像;表示多尺度视差图及遮罩平面;/2、/4、/8、/16、/32分别表示输出步长为2、4、8、16和32。
图3日光温室番茄植株图像无监督深度估计效果。
具体实施方式
一种日光温室番茄植株图像无监督深度估计方法:构建基于双目图像的日光温室番茄植株无监督深度估计模型,包括以下步骤:
1.设置深度卷积自编码器来作为实现双目图像深度估计的函数fD,所述函数fD以日光温室番茄植株双(左、右)目图像(Il,Ir)作为输入,预测与图像像素对齐的左、右目视差图(Dl,Dr);
所述文献[1]为:Jaderberg M,Simonyan K,Zisserman A,et al.Spatialtransformer networks[C]//29th Conference on Neural Information ProcessingSystems(NIPS 2015),Montreal,Canada,2015:2017-2025。
4.用完成训练且解耦后的fD函数来估计日光温室番茄植株双目图像的视差,并用Zl=fb/Dl得到图像深度Zl,其中f、b分别为相机的焦距和基线距离。
所述设置深度卷积自编码器获得函数fD的方法如下:
(1)横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块设置
步骤1中需要设置一个卷积自编码器来构建函数fD,而该卷积自编码器是一个需要用卷积模块来构建的网络,该步骤提出一个新的卷积模块结构,用于构建卷积自编码器所述,该卷积模块结构可有效提高单层卷积模块的感受野,同时有利于提取图像局部特征;
a.设置横向混合分组扩张卷积的计算模块,用HHGDConv表示(结构如图1中的HHGDConv),所述HHGDConv包含G个等宽深度化卷积(深度化卷积的实现采用文献[2]方法)分组,并将G作为HHGDConv的超参数(本方案中G取8),各深度化卷积分组的扩张率分别取1~G,各组的输入特征图是相同的,对各深度化卷积分组输出的特征图采用元素级求和的方式进行融合,并将融合结构作为HHGDConv的输出特征图;设深度化卷积的卷积核大小为k×k,输入、输出通道数为A时,HHGDConv参数量为GAk2;HHGDConv可视为输入、输出通道数均为A的卷积模块,相应的常规卷积的参数量为A2k2;实际使用中,可让G<A,HHGDConv的权重参数量和计算代价不高于常规卷积,但HHGDConv具有更大且变化的感受野,能够提取局部图像特征和远程空间相关性特征;
参考文献[2]Chollet F.Xception:Deep learning with depth wise separableconvolutions[C]//2017IEEE Conference on Computer Vision and PatternRecognition(CVPR),Honolulu,HI,USA,2017。
b.采用反向残差结构(由文献[3]提出),设计基于横向混合分组扩张卷积HHGDConv的反向残差模块IRM(图1所示),并针对HHGDConv的结构特征设计自注意力机制(结构如图1中的SA);
所述IRM的输入特征图为其中/>表示实数域,C、H、W分别表示特征图的通道数、高度和宽度,首先用点卷积将具有C个通道的特征图FI扩展为具有SC个通道的特征图,S称为扩展因子超参数(本方案中S取2),再用HHGDConv在扩展特征图上进行空间特征提取和关系映射;
所述参考文献[3]Sandler M,Howard A,Zhu M,et al.MobileNetV2:Invertedresiduals and linear bottlenecks[C]//2018IEEE Conference on Computer Visionand Pattern Recognition(CVPR),Salt Lake City,UT,USA,2018。
c.为IRM设置注意力机制,对HHGDConv的不同感受野大小的特征进行选择,基于通过全局平均池化操作将HHGDConv的输出特征图压缩成通道描述子用于获取特征图全局信息,q表示通道描述子,该描述子为具有SC个元素的实数/>向量;
d.在q基础上,采用2层非线性全连接层(用FC表示),学习并捕获HHGDConv的组间相关性,并输出选择向量s=softmax(W2LReLU(W1q)),分别为2层FC的可学习参数,R为降低参数量而引入的缩减因子超参数(本方案中R取4),LReLU(leaky rectifier linear unit)为渗漏型线性整流单元;
e.用选择向量s中的G个实数型元素值做门限值,与HHGDConv对应的G个不同扩展率的深度化卷积分组的输出特征图进行逐元素相乘,并再次对选择后的特征图进行元素级求和,即sj表示选择向量s中的第j个元素,Fj表示HHGDConv的第j个深度化卷积分组的输出特征图,融合结果Fa作为基于全局自注意力机制的特征选择结果;
(2)采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数
所述设置深度卷积自编码器获得函数fD的方法中步骤(1)先提出了一种HHGDConv,并借鉴现有的方向残差结构,构建基于HHGDConv的反向残差模块IRM,并在IRM中,针对HHGDConv的特点,设计了一种具有感受野特征选择的自注意力机制;本步骤在上述基础上,设计了基于IRM的卷积自编码器,并将其用作为步骤1模型中的fD函数;
采用基于横向混合分组扩张卷积的反向残差模块构建卷积自编码器,用CAE表示(图2所示),用于作为深度估计模型的双目图像深度估计函数fD;所述CAE由编码器和解码器构成,将fD的输入双目图像(Il,Ir)(在应用中,双目图像由同步双目相机采集)在颜色通道上连接后输入编码器;编码器架构共有5个阶段,阶段1采用1个常规卷积,其输出特征图通道数(宽度)设为C″(本方案中C″取24),其余阶段均采用IRM构建,每个阶段中的IRM宽度均相同,且每阶段第一个IRM的步长为2,用于特征图下采样,同时后一个阶段的IRM宽度是前一个阶段的2倍;解码器也有5个阶段,每个阶段先通过转置卷积对特征图进行上采样,并用元素级求和的方式融合编码器对应阶段的最后一个IRM的输出特征图,然后再用1个IRM解码特征,各阶段的转置卷积和IRM宽度在前一个阶段基础上减半,解码器阶段1的宽度固定为16;整个CAE的网络宽度由超参数C″决定,在解码器尾端多个IRM上,设置输出通道数为4、配置有Sigmoid激活的conv3×3标准卷积用作预测模块,用于左、右目图像的视差图及对应的遮罩平面预测,除预测模块外,CAE的所有卷积均采用批归一化(batchnormalization,BN)层和LReLU激活,并按Conv-BN-LReLU形式进行组合;
所述能够度量图像表观差异的函数pe的设置方法为:
(1)为步骤1模型定义光不敏感植株图像表观差异度量函数
将图像像素空间的L1距离、结构近似度指数SSIM、图像边缘特征的L1距离、图像Gabor纹理特征的L1距离的线性组合,作为日光温室番茄植株图像的光不敏感表观差异度量函数pe,pe函数的定义为:
Ia、Ib表示任意等大小的2幅图像,α、β、η为比例系数,(本方案中3个系数的取值分别为0.85、0.25和0.05)分别设置为0.85、0.25和0.05,可较好的度量2幅图像的表观差异,为图像边缘特征的L1距离、/>为图像Gabor纹理特征的L1距离;
(3)采用Gabor滤波器提取并比较图像纹理差异,Gabor函数的实数部分定义为
x,y为Gabor滤波核内坐标,θ表示核方向,γ为核的纵横比(椭圆率),λ为cos函数的波长、ψ为相位,σ为高斯函数的标准差,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;本实施例选取λ∈{3,5}、σ=0.56λ、ψ=0、γ=0.5,θ∈{0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8),生成16个大小为7×7的Gabor滤波器核,组成16×7×7的张量模板,通过其对图像做卷积运算,提取图像I的纹理特征,记为Gabor(I),的定义为:获得/>
所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,主要包括以下步骤:
采用双目相机在种植作物为番茄的日光温室里采集大量双目图像直接用于深度估计模型的预训练,同时在模型工作于智能设备上时,采用边工作边学习的在线无监督训练模式,以适应多变的工作环境。
所述无监督训练为:将模型输入图像大小设置为512×288像素,采用数据增广方法提高模型泛化效果,利用Adam优化器对模型进行训练,采用的数据增广方法主要包括:图像随机裁剪,从原图像中随机裁剪不小于85%边长的区域后调整(resize)为输入大小,接着对裁剪图像做水平和垂直随机翻转,并进一步对其亮度、对比度和饱和度在[0.85,1.15]范围内随机调整,然后用(pix-127.5)/127.5对各像素分量pix进行归一化后输入网络;增广过程中,采用相同的随机值对双目图像进行处理,以保持双目图像的一致性。采用小批量随机梯度下降法和Adam优化器对模型进行训练,优化器参数设置为β1=0.9、β2=0.999,权重衰减因子设置为5×10-5,学习率设置为2.0×10-4。
Claims (6)
1.一种日光温室番茄植株图像无监督深度估计方法,其特征是:构建基于双目图像的日光温室番茄植株无监督深度估计模型,包括以下步骤:
(1)设置深度卷积自编码器来作为实现双目图像深度估计的函数fD,所述函数fD以日光温室番茄植株双目图像(Il,Ir)作为输入,预测与图像像素对齐的左、右目视差图(Dl,Dr);
(4)用完成训练且解耦后的fD函数来估计日光温室番茄植株双目图像的视差,并用Zl=fb/Dl得到图像深度Zl,其中f、b分别为相机的焦距和基线距离;
所述设置深度卷积自编码器获得函数fD的方法如下:
①设置横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块;
所述卷积自编码器用卷积模块来构建,该卷积模块结构可有效提高单层卷积模块的感受野,同时有利于提取图像局部特征;
②采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数;
所述能够度量图像表观差异的函数pe的设置方法为:
为所述基于双目图像的日光温室番茄植株无监督深度估计模型定义光不敏感植株图像表观差异度量函数,将图像像素空间的L1距离、结构近似度指数SSIM、图像边缘特征的L1距离、图像Gabor纹理特征的L1距离的线性组合,作为日光温室番茄植株图像的光不敏感表观差异度量函数pe;
所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,方法为:
采用双目相机在种植作物为番茄的日光温室里采集大量双目图像直接用于深度估计模型的预训练,同时在模型工作于智能设备上时,采用边工作边学习的在线无监督训练模式,以适应多变的工作环境。
2.根据权利要求1所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述设置深度卷积自编码器获得函数fD的方法如下:
(1)横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块设置
a.设置横向混合分组扩张卷积的计算模块HHGDConv,所述HHGDConv包含G个等宽深度化卷积方法分组,并将G作为其超参数,各深度化卷积分组的扩张率分别取1~G,各组的输入特征图是相同的,对各深度化卷积分组输出的特征图采用元素级求和的方式进行融合,并将融合结构作为HHGDConv的输出特征图;设深度化卷积的卷积核大小为k×k,输入、输出通道数为A时,所述HHGDConv参数量为GAk2;所述HHGDConv可视为输入、输出通道数均为A的卷积模块,相应的常规卷积的参数量为A2k2;
b.采用反向残差结构,设计基于横向混合分组扩张卷积HHGDConv的反向残差模块IRM,并针对HHGDConv的结构特征设计自注意力机制;
所述IRM的输入特征图为其中/>表示实数域,C、H、W分别表示特征图的通道数、高度和宽度,首先用点卷积将具有C个通道的特征图FI扩展为具有SC个通道的特征图,S称为扩展因子超参数,再用HHGDConv在扩展特征图上进行空间特征提取和关系映射;
c.为IRM设置注意力机制,对HHGDConv的不同感受野大小的特征进行选择,基于通过全局平均池化操作将HHGDConv的输出特征图压缩成通道描述子用于获取特征图全局信息,q表示通道描述子,该描述子为具有SC个元素的实数/>向量;
d.在q基础上,采用2层非线性全连接层FC,学习并捕获HHGDConv的组间相关性,并输出选择向量s=softmax(W2LReLU(W1q)), 分别为2层FC的可学习参数,R为降低参数量而引入的缩减因子超参数,LReLU为渗漏型线性整流单元;
e.用选择向量s中的G个实数型元素值做门限值,与HHGDConv对应的G个不同扩展率的深度化卷积分组的输出特征图进行逐元素相乘,并再次对选择后的特征图进行元素级求和,即sj表示选择向量s中的第j个元素,Fj表示HHGDConv的第j个深度化卷积分组的输出特征图,融合结果Fa作为基于全局自注意力机制的特征选择结果;
(2)采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数
采用基于横向混合分组扩张卷积的反向残差模块构建卷积自编码器CAE,用于作为深度估计模型的双目图像深度估计函数fD;所述CAE由编码器和解码器构成,将fD的输入双目图像(Il,Ir)在颜色通道上连接后输入编码器;编码器架构共有5个阶段,阶段1采用1个常规卷积,其输出特征图通道数设为C",其余阶段均采用IRM构建,每个阶段中的IRM宽度均相同,且每阶段第一个IRM的步长为2,用于特征图下采样,同时后一个阶段的IRM宽度是前一个阶段的2倍;解码器也有5个阶段,每个阶段先通过转置卷积对特征图进行上采样,并用元素级求和的方式融合编码器对应阶段的最后一个IRM的输出特征图,然后再用1个IRM解码特征,各阶段的转置卷积和IRM宽度在前一个阶段基础上减半,解码器阶段1的宽度固定为16;整个CAE的网络宽度由超参数C"决定,在解码器尾端多个IRM上,设置输出通道数为4、配置有Sigmoid激活的conv3×3标准卷积用作预测模块,用于左、右目图像的视差图及对应的遮罩平面预测,除预测模块外,CAE的所有卷积均采用批归一化层BN和LReLU激活,并按Conv-BN-LReLU形式进行组合。
3.根据权利要求1所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述pe函数的定义为:
采用Gabor滤波器提取并比较图像纹理差异,Gabor函数的实数部分定义为
x,y为Gabor滤波核内坐标,θ表示核方向,γ为核的纵横比,λ为cos函数的波长、ψ为相位,σ为高斯函数的标准差,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;本实施例选取λ∈{3,5}、σ=0.56λ、ψ=0、γ=0.5,θ∈{0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8},生成16个大小为7×7的Gabor滤波器核,组成16×7×7的张量模板,通过其对图像做卷积运算,提取图像I的纹理特征,记为Gabor(I),的定义为:获得/>
4.根据权利要求1所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,主要包括以下步骤:
将模型输入图像大小设置为512×288像素,采用数据增广方法提高模型泛化效果,利用Adam优化器对模型进行训练,采用的数据增广方法主要包括:图像随机裁剪,从原图像中随机裁剪不小于85%边长的区域后调整为输入大小,接着对裁剪图像做水平和垂直随机翻转,并进一步对其亮度、对比度和饱和度在[0.85,1.15]范围内随机调整,然后用(pix-127.5)/127.5对各像素分量pix进行归一化后输入网络;增广过程中,采用相同的随机值对双目图像进行处理,以保持双目图像的一致性;采用小批量随机梯度下降法和Adam优化器对模型进行训练,优化器参数设置为β1=0.9、β2=0.999,权重衰减因子设置为5×10-5,学习率设置为2.0×10-4。
5.根据权利要求2所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述超参数G取8,所述扩展因子超参数S取2,所述为降低参数量而引入的缩减因子超参数R取4,所述输出特征图通道数C"取24。
6.根据权利要求3所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述α、β、η为比例系数取值分别为0.85、0.25和0.05。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011317617.8A CN112419387B (zh) | 2020-11-23 | 2020-11-23 | 一种日光温室番茄植株图像无监督深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011317617.8A CN112419387B (zh) | 2020-11-23 | 2020-11-23 | 一种日光温室番茄植株图像无监督深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112419387A CN112419387A (zh) | 2021-02-26 |
CN112419387B true CN112419387B (zh) | 2023-06-27 |
Family
ID=74778338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011317617.8A Active CN112419387B (zh) | 2020-11-23 | 2020-11-23 | 一种日光温室番茄植株图像无监督深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112419387B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115453868B (zh) * | 2022-08-31 | 2024-04-12 | 中国农业大学 | 基于番茄光响应差分特征的全生长期光强调控方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259945A (zh) * | 2020-01-10 | 2020-06-09 | 大连理工大学 | 引入注意力图谱的双目视差估计方法 |
CN111462208A (zh) * | 2020-04-05 | 2020-07-28 | 北京工业大学 | 一种基于双目视差和外极线约束的无监督深度预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101947782B1 (ko) * | 2017-02-22 | 2019-02-13 | 한국과학기술원 | 열화상 영상 기반의 거리 추정 장치 및 방법. 그리고 이를 위한 신경망 학습 방법 |
-
2020
- 2020-11-23 CN CN202011317617.8A patent/CN112419387B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259945A (zh) * | 2020-01-10 | 2020-06-09 | 大连理工大学 | 引入注意力图谱的双目视差估计方法 |
CN111462208A (zh) * | 2020-04-05 | 2020-07-28 | 北京工业大学 | 一种基于双目视差和外极线约束的无监督深度预测方法 |
Non-Patent Citations (2)
Title |
---|
基于稠密自编码器的无监督番茄植株图像深度估计模型;周云成 等;农业工程学报;第36卷(第11期);全文 * |
基于自监督学习的番茄植株图像深度估计方法;周云成 等;农业工程学报;第35卷(第24期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112419387A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Learning monocular depth by distilling cross-domain stereo networks | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
Eldesokey et al. | Propagating confidences through cnns for sparse data regression | |
WO2018000752A1 (zh) | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 | |
CN111696148A (zh) | 基于卷积神经网络的端到端立体匹配方法 | |
CN113673590B (zh) | 基于多尺度沙漏密集连接网络的去雨方法、系统和介质 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
Dong et al. | Mobilexnet: An efficient convolutional neural network for monocular depth estimation | |
CN113674400A (zh) | 基于重定位技术的光谱三维重建方法、系统及存储介质 | |
Ubina et al. | Intelligent underwater stereo camera design for fish metric estimation using reliable object matching | |
Mutahira et al. | Focus measurement in color space for shape from focus systems | |
CN114036969A (zh) | 一种多视角情况下的3d人体动作识别算法 | |
CN111105451B (zh) | 一种克服遮挡效应的驾驶场景双目深度估计方法 | |
CN112509021A (zh) | 一种基于注意力机制的视差优化方法 | |
Huang et al. | ES-Net: An efficient stereo matching network | |
Li et al. | Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module | |
CN112419387B (zh) | 一种日光温室番茄植株图像无监督深度估计方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
Lin et al. | Efficient and high-quality monocular depth estimation via gated multi-scale network | |
Wang et al. | Recurrent neural network for learning densedepth and ego-motion from video | |
CN112270701B (zh) | 基于分组距离网络的视差预测方法、系统及存储介质 | |
CN116091793A (zh) | 一种基于光流融合的光场显著性检测方法 | |
Li et al. | Learning scribbles for dense depth: Weakly-supervised single underwater image depth estimation boosted by multi-task learning | |
Tang et al. | Encoder-decoder structure with the feature pyramid for depth estimation from a single image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |