CN112419387B - 一种日光温室番茄植株图像无监督深度估计方法 - Google Patents

一种日光温室番茄植株图像无监督深度估计方法 Download PDF

Info

Publication number
CN112419387B
CN112419387B CN202011317617.8A CN202011317617A CN112419387B CN 112419387 B CN112419387 B CN 112419387B CN 202011317617 A CN202011317617 A CN 202011317617A CN 112419387 B CN112419387 B CN 112419387B
Authority
CN
China
Prior art keywords
image
convolution
function
depth estimation
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011317617.8A
Other languages
English (en)
Other versions
CN112419387A (zh
Inventor
周云成
吴琼
苗腾
邓寒冰
金莉
徐静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Agricultural University
Original Assignee
Shenyang Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Agricultural University filed Critical Shenyang Agricultural University
Priority to CN202011317617.8A priority Critical patent/CN112419387B/zh
Publication of CN112419387A publication Critical patent/CN112419387A/zh
Application granted granted Critical
Publication of CN112419387B publication Critical patent/CN112419387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种日光温室番茄植株图像无监督深度估计方法,包括以下步骤:(1)设置深度卷积自编码器来作为实现双目图像深度估计的函数,预测与图像像素对齐的左、右目视差图;(2)重构左目图像同时用该函数重构右目图像;(3)设置能够度量图像表观差异的函数
Figure DEST_PATH_IMAGE002
来度量重构图像和目标图来重构误差,以该误差为监督信号训练,将复合函数解耦;(4)估计日光温室番茄植株双目图像的视差。本方法大幅提高了以图像为基础的日光温室番茄植株深度估计精度,可为进一步的番茄植株表型检测、温室三维结构重建提供数据,同时为温室移动作业平台的自主导航与避障提供了可能性,为温室移动机器人视觉系统设计提供技术支撑。

Description

一种日光温室番茄植株图像无监督深度估计方法
技术领域
本发明涉及图像处理领域,具体是涉及一种日光温室番茄植株图像无监督深度估计方法,可用于番茄植株表型检测、温室环境三维结构重构、农业移动机器人导航避障等应用中。
背景技术
目前在日光温室环境下深度信息的获取主要采用以下几类方法:
基于电磁波或声波的主动深度感知方法。这类方法首先由传感器向温室目标场景发射电磁波或超声波,利用目标物的反射波来探测深度,这类方法主要包括LiDAR、Kinect。
基于图像匹配的被动感知方法。这类方法首先用人工特征提取算子提取并描述多个视角图像的图像块特征,然后利用特征匹配算法匹配多视角图像块,由此计算视差,并由视差获取图像深度。
基于运动恢复结构的方法。这类方法利用多张图像或视频序列,通过对序列中多个特征点的跟踪来恢复相机的参数及场景的三维结构。
基于深度学习的单目深度估计方法。这类方法通过图像/深度数据集,通过有监督学习方法训练一个神经网络,并利用该网络预测场景深度。或者通过无监督方法联合训练一个深度估计网络和一个姿态估计网络,利用视图重构误差来做监督信号。
上述已有的日光温室环境下深度信息获取方法还存在着诸多限制。主动感知技术仅能获取深度信息,无法直接获取温室番茄植株的RGB图像用于进一步的语义分析,也很难将深度数据与RGB图像像素对齐,如LiDAR成本仍然高昂,很难直接应用于农业移动机器人的视觉系统开发中,Kinect难以直接工作于日光温室环中的复杂光照条件下。植株图像颜色、纹理单一,基于特征点匹配和跟踪的方法,会出现大量的误匹配,未能解决深度信息的精度问题。有监督学习的深度估计方法需要大量的以深度作为标注的图像数据,这类方法无法适应变化的工作场景,当从一个工作场景转换到另一个场景时,其泛化效果不理想,而无监督单目深度估计方法存在着深度和姿态相互耦合的问题,无法精确估计场景的深度信息。
发明内容
为了弥补上述现有技术的不足,本发明的目的是提出一种日光温室番茄植株图像无监督深度估计方法,大幅提高了以图像为基础的日光温室番茄植株深度估计精度,在20m的图像采样范围内,其绝对误差小于7cm,可为进一步的番茄植株表型检测、温室三维结构重建提供数据,同时为温室移动作业平台的自主导航与避障提供了可能性,为温室移动机器人视觉系统设计提供技术支撑。
本发明提出了一种日光温室番茄植株图像无监督深度估计方法,其技术要点是:构建基于双目图像的日光温室番茄植株无监督深度估计模型,包括以下步骤:
(1)设置深度卷积自编码器来作为实现双目图像深度估计的函数fD,所述函数fD以日光温室番茄植株双(左、右)目图像(Il,Ir)作为输入,预测与图像像素对齐的左、右目视差图(Dl,Dr);
(2)fB为可微分双线性插值采样函数,所述函数fB能够根据Dl从Ir上采样,重构左目图像
Figure BDA0002791739090000021
同时用该函数重构右目图像/>
Figure BDA0002791739090000022
(3)设置能够度量图像表观差异的函数pe来度量重构图像
Figure BDA0002791739090000023
和目标图像Il、Ir的重构误差,以该误差为监督信号,以/>
Figure BDA0002791739090000024
为fD·fB复合函数优化训练的目标,训练完成后,将复合函数解耦;
(4)用完成训练且解耦后的fD函数来估计日光温室番茄植株双目图像的视差,并用Zl=fb/Dl得到图像深度Zl,其中f、b分别为双目相机的焦距和基线距离。
所述设置深度卷积自编码器获得函数fD的方法如下:
①设置横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块
所述卷积自编码器用卷积模块来构建,该卷积模块结构可有效提高单层卷积模块的感受野,同时有利于提取图像局部特征;
②采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数;
所述能够度量图像表观差异的函数pe的设置方法为:
为所述基于双目图像的日光温室番茄植株无监督深度估计模型定义光不敏感植株图像表观差异度量函数,将图像像素空间的L1距离、结构近似度指数SSIM、图像边缘特征的L1距离、图像Gabor纹理特征的L1距离的线性组合,作为日光温室番茄植株图像的光不敏感表观差异度量函数pe;
所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,方法为:
采用双目相机在种植作物为番茄的日光温室里采集大量双目图像直接用于深度估计模型的预训练,同时在模型工作于智能设备上时,采用边工作边学习的在线无监督训练模式,以适应多变的工作环境。
进一步的,所述设置深度卷积自编码器获得函数fD的方法如下:
(1)横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块设置
a.设置横向混合分组扩张卷积的计算模块HHGDConv,所述HHGDConv包含G个等宽深度化卷积方法分组,并将G作为其超参数(本方案中G取8),各深度化卷积分组的扩张率分别取1~G,各组的输入特征图是相同的,对各深度化卷积分组输出的特征图采用元素级求和的方式进行融合,并将融合结构作为HHGDConv的输出特征图;设深度化卷积的卷积核大小为k×k,输入、输出通道数为A时,所述HHGDConv参数量为GAk2;所述HHGDConv可视为输入、输出通道数均为A的卷积模块,相应的常规卷积的参数量为A2k2
b.采用反向残差结构,设计基于横向混合分组扩张卷积HHGDConv的反向残差模块IRM,并针对HHGDConv的结构特征设计自注意力机制;
所述IRM的输入特征图为
Figure BDA0002791739090000031
其中/>
Figure BDA0002791739090000032
表示实数域,C、H、W分别表示特征图的通道数、高度和宽度,首先用点卷积将具有C个通道的特征图FI扩展为具有SC个通道的特征图,S称为扩展因子超参数(本方案中S取2),再用HHGDConv在扩展特征图上进行空间特征提取和关系映射;
c.为IRM设置注意力机制,对HHGDConv的不同感受野大小的特征进行选择,基于通过全局平均池化操作将HHGDConv的输出特征图压缩成通道描述子
Figure BDA0002791739090000033
用于获取特征图全局信息,q表示通道描述子,该描述子为具有SC个元素的实数/>
Figure BDA0002791739090000034
向量;
d.在q基础上,采用2层非线性全连接层(用FC表示),学习并捕获HHGDConv的组间相关性,并输出选择向量s=softmax(W2LReLU(W1q)),
Figure BDA0002791739090000035
分别为2层FC的可学习参数,R为降低参数量而引入的缩减因子超参数(本方案中R取4),LReLU为渗漏型线性整流单元;
e.用选择向量s中的G个实数型元素值做门限值,与HHGDConv对应的G个不同扩展率的深度化卷积分组的输出特征图进行逐元素相乘,并再次对选择后的特征图进行元素级求和,即
Figure BDA0002791739090000041
sj表示选择向量s中的第j个元素,Fj表示HHGDConv的第j个深度化卷积分组的输出特征图,融合结果Fa作为基于全局自注意力机制的特征选择结果;
f.用点卷积映射Fa的通道间相关性,并调整模块的输出通道数为C′,产生输出特征图
Figure BDA0002791739090000042
H′、W′分别表示输出特征图FO的高度和宽度。当FO和FI维度相同时,在输入和输出之间引入恒等映射;
(2)采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数
采用基于横向混合分组扩张卷积的反向残差模块构建卷积自编码器CAE,用于作为深度估计模型的双目图像深度估计函数fD;所述CAE由编码器和解码器构成,将fD的输入双目图像(Il,Ir)在颜色通道上连接后输入编码器;编码器架构共有5个阶段,阶段1采用1个常规卷积,其输出特征图通道数(宽度)设为C″(本方案中C″取24),其余阶段均采用IRM构建,每个阶段中的IRM宽度均相同,且每阶段第一个IRM的步长为2,用于特征图下采样,同时后一个阶段的IRM宽度是前一个阶段的2倍;解码器也有5个阶段,每个阶段先通过转置卷积对特征图进行上采样,并用元素级求和的方式融合编码器对应阶段的最后一个IRM的输出特征图,然后再用1个IRM解码特征,各阶段的转置卷积和IRM宽度在前一个阶段基础上减半,解码器阶段1的宽度固定为16;整个CAE的网络宽度由超参数C″决定,在解码器尾端多个IRM上,设置输出通道数为4、配置有Sigmoid激活的conv3×3标准卷积用作预测模块,用于左、右目图像的视差图及对应的遮罩平面预测,除预测模块外,CAE的所有卷积均采用批归一化(BN)层和LReLU激活,并按Conv-BN-LReLU形式进行组合;
进一步的,所述pe函数的定义为:
Figure BDA0002791739090000043
Ia、Ib表示任意等大小的2幅图像,α、β、η为比例系数(本方案中3个系数的取值分别为0.85、0.25和0.05),可较好的度量2幅图像的表观差异,
Figure BDA0002791739090000051
为图像边缘特征的L1距离、/>
Figure BDA0002791739090000052
为图像Gabor纹理特征的L1距离;
所述
Figure BDA0002791739090000053
采用Sobel、Scharr、Prewitt一阶梯度算子和Laplacian二阶梯度算子提取图像边缘特征,并用4种边缘特征的L1距离的线性组合表示2幅图像的特征差异,/>
Figure BDA0002791739090000054
的定义式为
Figure BDA0002791739090000055
Figure BDA0002791739090000056
和/>
Figure BDA0002791739090000057
分别表示Sobel、Scharr、Prewitt和Laplacian算子;
采用Gabor滤波器提取并比较图像纹理差异,Gabor函数的实数部分定义为
Figure BDA0002791739090000058
x,y为Gabor滤波核内坐标,θ表示核方向,γ为核的纵横比(椭圆率),λ为cos函数的波长、ψ为相位,σ为高斯函数的标准差,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;本实施例选取λ∈{3,5}、σ=0.56λ、ψ=0、γ=0.5,θ∈{0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8},生成16个大小为7×7的Gabor滤波器核,组成16×7×7的张量模板,通过其对图像做卷积运算,提取图像I的纹理特征,记为Gabor(I),
Figure BDA0002791739090000059
的定义为:获得/>
Figure BDA00027917390900000510
Figure BDA00027917390900000511
进一步的,所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,主要包括以下步骤:
将模型输入图像大小设置为512×288像素,采用数据增广方法提高模型泛化效果,利用Adam优化器对模型进行训练,采用的数据增广方法主要包括:图像随机裁剪,从原图像中随机裁剪不小于85%边长的区域后调整(resize)为输入大小,接着对裁剪图像做水平和垂直随机翻转,并进一步对其亮度、对比度和饱和度在[0.85,1.15]范围内随机调整,然后用(pix-127.5)/127.5对各像素分量pix进行归一化后输入网络;增广过程中,采用相同的随机值对双目图像进行处理,以保持双目图像的一致性。采用小批量随机梯度下降法和Adam优化器对模型进行训练,优化器参数设置为β1=0.9、β2=0.999,权重衰减因子设置为5×10-5,学习率设置为2.0×10-4
本发明的有益效果:
(1)本发明模型能够实现无监督在线学习、终身学习,能够估计出日光温室番茄植株图像对应的三维场景基本结构,对株行间行走通道、温室墙体、作物株与株间隔、植株纤细茎秆、场景远近变化均有效(图3所示);
(2)该发明大幅提高了以图像为基础的日光温室番茄植株深度估计精度,在20m的图像采样范围内,其绝对误差小于7cm,可为进一步的番茄植株表型检测、温室三维结构重建提供数据,同时为温室移动作业平台的自主导航与避障提供了可能性,相关方法可为农业机器人视觉系统的设计提供参考。
附图说明
图1基于横向混合分组扩张卷积与自注意力机制的反向残差模块IRM;
图中:DepthConv SC,3×3,s=1,r=1表示通道数为SC、卷积核大小为3×3、步长为1且扩张因子为1的深度化卷积;Conv表示标准卷积;FC表示全连接;S为扩展因子,G为组数,R为缩减因子,C、C′表示输入、输出特征图通道数;FI、FO表示输入、输出特征图,Fa表示注意力机制的选择特征图;GlobalAveragePooling表示全局平均池化;Gate表示门限值;[SAEnable]表示启用注意力机制,[SADisable]表示禁用自注意力机制;Identity表示恒等映射。
图2基于IRM的卷积自编码器;
Splice表示对图像在通道维上进行连接;C″为用于调整网络宽度的超参数;TransConv表示转置卷积;Stage 1、Stage2等表示阶段1、阶段2;IRM表示反向残差模块;Il、Ir分别表示左、右目图像;
Figure BDA0002791739090000061
表示多尺度视差图及遮罩平面;/2、/4、/8、/16、/32分别表示输出步长为2、4、8、16和32。
图3日光温室番茄植株图像无监督深度估计效果。
具体实施方式
一种日光温室番茄植株图像无监督深度估计方法:构建基于双目图像的日光温室番茄植株无监督深度估计模型,包括以下步骤:
1.设置深度卷积自编码器来作为实现双目图像深度估计的函数fD,所述函数fD以日光温室番茄植株双(左、右)目图像(Il,Ir)作为输入,预测与图像像素对齐的左、右目视差图(Dl,Dr);
2.fB为可微分双线性插值采样函数(见参考文献[1]),所述函数fB能够根据Dl从Ir上采样,重构左目图像
Figure BDA0002791739090000071
同时用该函数重构右目图像/>
Figure BDA0002791739090000072
所述文献[1]为:Jaderberg M,Simonyan K,Zisserman A,et al.Spatialtransformer networks[C]//29th Conference on Neural Information ProcessingSystems(NIPS 2015),Montreal,Canada,2015:2017-2025。
3.设置能够度量图像表观差异的函数pe来度量重构图像
Figure BDA0002791739090000073
和目标图像Il、Ir的重构误差,以该误差为监督信号,以/>
Figure BDA0002791739090000074
为fD·fB复合函数优化训练的目标,训练完成后,将复合函数解耦;
4.用完成训练且解耦后的fD函数来估计日光温室番茄植株双目图像的视差,并用Zl=fb/Dl得到图像深度Zl,其中f、b分别为相机的焦距和基线距离。
所述设置深度卷积自编码器获得函数fD的方法如下:
(1)横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块设置
步骤1中需要设置一个卷积自编码器来构建函数fD,而该卷积自编码器是一个需要用卷积模块来构建的网络,该步骤提出一个新的卷积模块结构,用于构建卷积自编码器所述,该卷积模块结构可有效提高单层卷积模块的感受野,同时有利于提取图像局部特征;
a.设置横向混合分组扩张卷积的计算模块,用HHGDConv表示(结构如图1中的HHGDConv),所述HHGDConv包含G个等宽深度化卷积(深度化卷积的实现采用文献[2]方法)分组,并将G作为HHGDConv的超参数(本方案中G取8),各深度化卷积分组的扩张率分别取1~G,各组的输入特征图是相同的,对各深度化卷积分组输出的特征图采用元素级求和的方式进行融合,并将融合结构作为HHGDConv的输出特征图;设深度化卷积的卷积核大小为k×k,输入、输出通道数为A时,HHGDConv参数量为GAk2;HHGDConv可视为输入、输出通道数均为A的卷积模块,相应的常规卷积的参数量为A2k2;实际使用中,可让G<A,HHGDConv的权重参数量和计算代价不高于常规卷积,但HHGDConv具有更大且变化的感受野,能够提取局部图像特征和远程空间相关性特征;
参考文献[2]Chollet F.Xception:Deep learning with depth wise separableconvolutions[C]//2017IEEE Conference on Computer Vision and PatternRecognition(CVPR),Honolulu,HI,USA,2017。
b.采用反向残差结构(由文献[3]提出),设计基于横向混合分组扩张卷积HHGDConv的反向残差模块IRM(图1所示),并针对HHGDConv的结构特征设计自注意力机制(结构如图1中的SA);
所述IRM的输入特征图为
Figure BDA0002791739090000081
其中/>
Figure BDA0002791739090000082
表示实数域,C、H、W分别表示特征图的通道数、高度和宽度,首先用点卷积将具有C个通道的特征图FI扩展为具有SC个通道的特征图,S称为扩展因子超参数(本方案中S取2),再用HHGDConv在扩展特征图上进行空间特征提取和关系映射;
所述参考文献[3]Sandler M,Howard A,Zhu M,et al.MobileNetV2:Invertedresiduals and linear bottlenecks[C]//2018IEEE Conference on Computer Visionand Pattern Recognition(CVPR),Salt Lake City,UT,USA,2018。
c.为IRM设置注意力机制,对HHGDConv的不同感受野大小的特征进行选择,基于通过全局平均池化操作将HHGDConv的输出特征图压缩成通道描述子
Figure BDA0002791739090000083
用于获取特征图全局信息,q表示通道描述子,该描述子为具有SC个元素的实数/>
Figure BDA0002791739090000084
向量;
d.在q基础上,采用2层非线性全连接层(用FC表示),学习并捕获HHGDConv的组间相关性,并输出选择向量s=softmax(W2LReLU(W1q)),
Figure BDA0002791739090000085
分别为2层FC的可学习参数,R为降低参数量而引入的缩减因子超参数(本方案中R取4),LReLU(leaky rectifier linear unit)为渗漏型线性整流单元;
e.用选择向量s中的G个实数型元素值做门限值,与HHGDConv对应的G个不同扩展率的深度化卷积分组的输出特征图进行逐元素相乘,并再次对选择后的特征图进行元素级求和,即
Figure BDA0002791739090000086
sj表示选择向量s中的第j个元素,Fj表示HHGDConv的第j个深度化卷积分组的输出特征图,融合结果Fa作为基于全局自注意力机制的特征选择结果;
f.用点卷积映射Fa的通道间相关性,并调整模块的输出通道数为C′,产生输出特征图
Figure BDA0002791739090000091
H′、W′分别表示输出特征图FO的高度和宽度。当FO和FI维度相同时,在输入和输出之间引入恒等映射;
(2)采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数
所述设置深度卷积自编码器获得函数fD的方法中步骤(1)先提出了一种HHGDConv,并借鉴现有的方向残差结构,构建基于HHGDConv的反向残差模块IRM,并在IRM中,针对HHGDConv的特点,设计了一种具有感受野特征选择的自注意力机制;本步骤在上述基础上,设计了基于IRM的卷积自编码器,并将其用作为步骤1模型中的fD函数;
采用基于横向混合分组扩张卷积的反向残差模块构建卷积自编码器,用CAE表示(图2所示),用于作为深度估计模型的双目图像深度估计函数fD;所述CAE由编码器和解码器构成,将fD的输入双目图像(Il,Ir)(在应用中,双目图像由同步双目相机采集)在颜色通道上连接后输入编码器;编码器架构共有5个阶段,阶段1采用1个常规卷积,其输出特征图通道数(宽度)设为C″(本方案中C″取24),其余阶段均采用IRM构建,每个阶段中的IRM宽度均相同,且每阶段第一个IRM的步长为2,用于特征图下采样,同时后一个阶段的IRM宽度是前一个阶段的2倍;解码器也有5个阶段,每个阶段先通过转置卷积对特征图进行上采样,并用元素级求和的方式融合编码器对应阶段的最后一个IRM的输出特征图,然后再用1个IRM解码特征,各阶段的转置卷积和IRM宽度在前一个阶段基础上减半,解码器阶段1的宽度固定为16;整个CAE的网络宽度由超参数C″决定,在解码器尾端多个IRM上,设置输出通道数为4、配置有Sigmoid激活的conv3×3标准卷积用作预测模块,用于左、右目图像的视差图及对应的遮罩平面预测,除预测模块外,CAE的所有卷积均采用批归一化(batchnormalization,BN)层和LReLU激活,并按Conv-BN-LReLU形式进行组合;
所述能够度量图像表观差异的函数pe的设置方法为:
(1)为步骤1模型定义光不敏感植株图像表观差异度量函数
将图像像素空间的L1距离、结构近似度指数SSIM、图像边缘特征的L1距离、图像Gabor纹理特征的L1距离的线性组合,作为日光温室番茄植株图像的光不敏感表观差异度量函数pe,pe函数的定义为:
Figure BDA0002791739090000101
Ia、Ib表示任意等大小的2幅图像,α、β、η为比例系数,(本方案中3个系数的取值分别为0.85、0.25和0.05)分别设置为0.85、0.25和0.05,可较好的度量2幅图像的表观差异,
Figure BDA0002791739090000102
为图像边缘特征的L1距离、/>
Figure BDA0002791739090000103
为图像Gabor纹理特征的L1距离;
(2)采用Sobel、Scharr、Prewitt一阶梯度算子和Laplacian二阶梯度算子提取图像边缘特征,并用4种边缘特征的L1距离的线性组合表示2幅图像的特征差异,
Figure BDA0002791739090000104
的定义式为
Figure BDA0002791739090000105
Figure BDA0002791739090000106
和/>
Figure BDA0002791739090000107
分别表示Sobel、Scharr、Prewitt和Laplacian算子;获得/>
Figure BDA0002791739090000108
(3)采用Gabor滤波器提取并比较图像纹理差异,Gabor函数的实数部分定义为
Figure BDA0002791739090000109
x,y为Gabor滤波核内坐标,θ表示核方向,γ为核的纵横比(椭圆率),λ为cos函数的波长、ψ为相位,σ为高斯函数的标准差,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;本实施例选取λ∈{3,5}、σ=0.56λ、ψ=0、γ=0.5,θ∈{0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8),生成16个大小为7×7的Gabor滤波器核,组成16×7×7的张量模板,通过其对图像做卷积运算,提取图像I的纹理特征,记为Gabor(I),
Figure BDA00027917390900001010
的定义为:获得/>
Figure BDA00027917390900001011
Figure BDA00027917390900001012
所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,主要包括以下步骤:
采用双目相机在种植作物为番茄的日光温室里采集大量双目图像直接用于深度估计模型的预训练,同时在模型工作于智能设备上时,采用边工作边学习的在线无监督训练模式,以适应多变的工作环境。
所述无监督训练为:将模型输入图像大小设置为512×288像素,采用数据增广方法提高模型泛化效果,利用Adam优化器对模型进行训练,采用的数据增广方法主要包括:图像随机裁剪,从原图像中随机裁剪不小于85%边长的区域后调整(resize)为输入大小,接着对裁剪图像做水平和垂直随机翻转,并进一步对其亮度、对比度和饱和度在[0.85,1.15]范围内随机调整,然后用(pix-127.5)/127.5对各像素分量pix进行归一化后输入网络;增广过程中,采用相同的随机值对双目图像进行处理,以保持双目图像的一致性。采用小批量随机梯度下降法和Adam优化器对模型进行训练,优化器参数设置为β1=0.9、β2=0.999,权重衰减因子设置为5×10-5,学习率设置为2.0×10-4

Claims (6)

1.一种日光温室番茄植株图像无监督深度估计方法,其特征是:构建基于双目图像的日光温室番茄植株无监督深度估计模型,包括以下步骤:
(1)设置深度卷积自编码器来作为实现双目图像深度估计的函数fD,所述函数fD以日光温室番茄植株双目图像(Il,Ir)作为输入,预测与图像像素对齐的左、右目视差图(Dl,Dr);
(2)fB为可微分双线性插值采样函数,所述函数fB能够根据Dl从Ir上采样,重构左目图像
Figure FDA0004242224580000011
同时用该函数重构右目图像/>
Figure FDA0004242224580000012
(3)设置能够度量图像表观差异的函数pe来度量重构图像
Figure FDA0004242224580000013
和目标图像Il、Ir的重构误差,以该误差为监督信号,以/>
Figure FDA0004242224580000014
为fD·fB复合函数优化训练的目标,训练完成后,将复合函数解耦;
(4)用完成训练且解耦后的fD函数来估计日光温室番茄植株双目图像的视差,并用Zl=fb/Dl得到图像深度Zl,其中f、b分别为相机的焦距和基线距离;
所述设置深度卷积自编码器获得函数fD的方法如下:
①设置横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块;
所述卷积自编码器用卷积模块来构建,该卷积模块结构可有效提高单层卷积模块的感受野,同时有利于提取图像局部特征;
②采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数;
所述能够度量图像表观差异的函数pe的设置方法为:
为所述基于双目图像的日光温室番茄植株无监督深度估计模型定义光不敏感植株图像表观差异度量函数,将图像像素空间的L1距离、结构近似度指数SSIM、图像边缘特征的L1距离、图像Gabor纹理特征的L1距离的线性组合,作为日光温室番茄植株图像的光不敏感表观差异度量函数pe;
所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,方法为:
采用双目相机在种植作物为番茄的日光温室里采集大量双目图像直接用于深度估计模型的预训练,同时在模型工作于智能设备上时,采用边工作边学习的在线无监督训练模式,以适应多变的工作环境。
2.根据权利要求1所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述设置深度卷积自编码器获得函数fD的方法如下:
(1)横向混合分组扩张卷积及基于其的具不同感受野注意力机制的反向残差模块设置
a.设置横向混合分组扩张卷积的计算模块HHGDConv,所述HHGDConv包含G个等宽深度化卷积方法分组,并将G作为其超参数,各深度化卷积分组的扩张率分别取1~G,各组的输入特征图是相同的,对各深度化卷积分组输出的特征图采用元素级求和的方式进行融合,并将融合结构作为HHGDConv的输出特征图;设深度化卷积的卷积核大小为k×k,输入、输出通道数为A时,所述HHGDConv参数量为GAk2;所述HHGDConv可视为输入、输出通道数均为A的卷积模块,相应的常规卷积的参数量为A2k2
b.采用反向残差结构,设计基于横向混合分组扩张卷积HHGDConv的反向残差模块IRM,并针对HHGDConv的结构特征设计自注意力机制;
所述IRM的输入特征图为
Figure FDA0004242224580000021
其中/>
Figure FDA0004242224580000022
表示实数域,C、H、W分别表示特征图的通道数、高度和宽度,首先用点卷积将具有C个通道的特征图FI扩展为具有SC个通道的特征图,S称为扩展因子超参数,再用HHGDConv在扩展特征图上进行空间特征提取和关系映射;
c.为IRM设置注意力机制,对HHGDConv的不同感受野大小的特征进行选择,基于通过全局平均池化操作将HHGDConv的输出特征图压缩成通道描述子
Figure FDA0004242224580000023
用于获取特征图全局信息,q表示通道描述子,该描述子为具有SC个元素的实数/>
Figure FDA0004242224580000024
向量;
d.在q基础上,采用2层非线性全连接层FC,学习并捕获HHGDConv的组间相关性,并输出选择向量s=softmax(W2LReLU(W1q)),
Figure FDA0004242224580000025
Figure FDA0004242224580000026
分别为2层FC的可学习参数,R为降低参数量而引入的缩减因子超参数,LReLU为渗漏型线性整流单元;
e.用选择向量s中的G个实数型元素值做门限值,与HHGDConv对应的G个不同扩展率的深度化卷积分组的输出特征图进行逐元素相乘,并再次对选择后的特征图进行元素级求和,即
Figure FDA0004242224580000027
sj表示选择向量s中的第j个元素,Fj表示HHGDConv的第j个深度化卷积分组的输出特征图,融合结果Fa作为基于全局自注意力机制的特征选择结果;
f.用点卷积映射Fa的通道间相关性,并调整模块的输出通道数为C′,产生输出特征图
Figure FDA0004242224580000031
H′、W′分别表示输出特征图FO的高度和宽度,当FO和FI维度相同时,在输入和输出之间引入恒等映射;
(2)采用基于横向混合分组扩张卷积并具不同感受野注意力机制的反向残差模块设计深度估计模型所需的卷积自编码器,并将其用作fD函数
采用基于横向混合分组扩张卷积的反向残差模块构建卷积自编码器CAE,用于作为深度估计模型的双目图像深度估计函数fD;所述CAE由编码器和解码器构成,将fD的输入双目图像(Il,Ir)在颜色通道上连接后输入编码器;编码器架构共有5个阶段,阶段1采用1个常规卷积,其输出特征图通道数设为C",其余阶段均采用IRM构建,每个阶段中的IRM宽度均相同,且每阶段第一个IRM的步长为2,用于特征图下采样,同时后一个阶段的IRM宽度是前一个阶段的2倍;解码器也有5个阶段,每个阶段先通过转置卷积对特征图进行上采样,并用元素级求和的方式融合编码器对应阶段的最后一个IRM的输出特征图,然后再用1个IRM解码特征,各阶段的转置卷积和IRM宽度在前一个阶段基础上减半,解码器阶段1的宽度固定为16;整个CAE的网络宽度由超参数C"决定,在解码器尾端多个IRM上,设置输出通道数为4、配置有Sigmoid激活的conv3×3标准卷积用作预测模块,用于左、右目图像的视差图及对应的遮罩平面预测,除预测模块外,CAE的所有卷积均采用批归一化层BN和LReLU激活,并按Conv-BN-LReLU形式进行组合。
3.根据权利要求1所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述pe函数的定义为:
Figure FDA0004242224580000032
Ia、Ib表示任意等大小的2幅图像,α、β、θ为比例系数,可较好的度量2幅图像的表观差异,
Figure FDA0004242224580000033
为图像边缘特征的L1距离、/>
Figure FDA0004242224580000034
为图像Gabor纹理特征的L1距离;
所述
Figure FDA0004242224580000035
采用Sobel、Scharr、Prewitt一阶梯度算子和Laplacian二阶梯度算子提取图像边缘特征,并用4种边缘特征的L1距离的线性组合表示2幅图像的特征差异,/>
Figure FDA0004242224580000041
的定义式为
Figure FDA0004242224580000042
Figure FDA0004242224580000043
和/>
Figure FDA0004242224580000044
分别表示Sobel、Scharr、Prewitt和Laplacian算子;
采用Gabor滤波器提取并比较图像纹理差异,Gabor函数的实数部分定义为
Figure FDA0004242224580000045
x,y为Gabor滤波核内坐标,θ表示核方向,γ为核的纵横比,λ为cos函数的波长、ψ为相位,σ为高斯函数的标准差,x′=x cosθ+y sinθ,y′=-x sinθ+y cosθ;本实施例选取λ∈{3,5}、σ=0.56λ、ψ=0、γ=0.5,θ∈{0,π/8,π/4,3π/8,π/2,5π/8,3π/4,7π/8},生成16个大小为7×7的Gabor滤波器核,组成16×7×7的张量模板,通过其对图像做卷积运算,提取图像I的纹理特征,记为Gabor(I),
Figure FDA0004242224580000046
的定义为:获得/>
Figure FDA0004242224580000047
Figure FDA0004242224580000048
4.根据权利要求1所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述模型训练为对日光温室番茄植株图像深度估计模型进行无监督训练,主要包括以下步骤:
将模型输入图像大小设置为512×288像素,采用数据增广方法提高模型泛化效果,利用Adam优化器对模型进行训练,采用的数据增广方法主要包括:图像随机裁剪,从原图像中随机裁剪不小于85%边长的区域后调整为输入大小,接着对裁剪图像做水平和垂直随机翻转,并进一步对其亮度、对比度和饱和度在[0.85,1.15]范围内随机调整,然后用(pix-127.5)/127.5对各像素分量pix进行归一化后输入网络;增广过程中,采用相同的随机值对双目图像进行处理,以保持双目图像的一致性;采用小批量随机梯度下降法和Adam优化器对模型进行训练,优化器参数设置为β1=0.9、β2=0.999,权重衰减因子设置为5×10-5,学习率设置为2.0×10-4
5.根据权利要求2所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述超参数G取8,所述扩展因子超参数S取2,所述为降低参数量而引入的缩减因子超参数R取4,所述输出特征图通道数C"取24。
6.根据权利要求3所述的一种日光温室番茄植株图像无监督深度估计方法,其特征是:所述α、β、η为比例系数取值分别为0.85、0.25和0.05。
CN202011317617.8A 2020-11-23 2020-11-23 一种日光温室番茄植株图像无监督深度估计方法 Active CN112419387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011317617.8A CN112419387B (zh) 2020-11-23 2020-11-23 一种日光温室番茄植株图像无监督深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011317617.8A CN112419387B (zh) 2020-11-23 2020-11-23 一种日光温室番茄植株图像无监督深度估计方法

Publications (2)

Publication Number Publication Date
CN112419387A CN112419387A (zh) 2021-02-26
CN112419387B true CN112419387B (zh) 2023-06-27

Family

ID=74778338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011317617.8A Active CN112419387B (zh) 2020-11-23 2020-11-23 一种日光温室番茄植株图像无监督深度估计方法

Country Status (1)

Country Link
CN (1) CN112419387B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115453868B (zh) * 2022-08-31 2024-04-12 中国农业大学 基于番茄光响应差分特征的全生长期光强调控方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法
CN111462208A (zh) * 2020-04-05 2020-07-28 北京工业大学 一种基于双目视差和外极线约束的无监督深度预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101947782B1 (ko) * 2017-02-22 2019-02-13 한국과학기술원 열화상 영상 기반의 거리 추정 장치 및 방법. 그리고 이를 위한 신경망 학습 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259945A (zh) * 2020-01-10 2020-06-09 大连理工大学 引入注意力图谱的双目视差估计方法
CN111462208A (zh) * 2020-04-05 2020-07-28 北京工业大学 一种基于双目视差和外极线约束的无监督深度预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于稠密自编码器的无监督番茄植株图像深度估计模型;周云成 等;农业工程学报;第36卷(第11期);全文 *
基于自监督学习的番茄植株图像深度估计方法;周云成 等;农业工程学报;第35卷(第24期);全文 *

Also Published As

Publication number Publication date
CN112419387A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
Guo et al. Learning monocular depth by distilling cross-domain stereo networks
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
Eldesokey et al. Propagating confidences through cnns for sparse data regression
WO2018000752A1 (zh) 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN111696148A (zh) 基于卷积神经网络的端到端立体匹配方法
CN113673590B (zh) 基于多尺度沙漏密集连接网络的去雨方法、系统和介质
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
Dong et al. Mobilexnet: An efficient convolutional neural network for monocular depth estimation
CN113674400A (zh) 基于重定位技术的光谱三维重建方法、系统及存储介质
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
Mutahira et al. Focus measurement in color space for shape from focus systems
CN114036969A (zh) 一种多视角情况下的3d人体动作识别算法
CN111105451B (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN112509021A (zh) 一种基于注意力机制的视差优化方法
Huang et al. ES-Net: An efficient stereo matching network
Li et al. Self-supervised coarse-to-fine monocular depth estimation using a lightweight attention module
CN112419387B (zh) 一种日光温室番茄植株图像无监督深度估计方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Lin et al. Efficient and high-quality monocular depth estimation via gated multi-scale network
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
Li et al. Learning scribbles for dense depth: Weakly-supervised single underwater image depth estimation boosted by multi-task learning
Tang et al. Encoder-decoder structure with the feature pyramid for depth estimation from a single image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant