CN111915678A

CN111915678A - 一种基于深度学习的水下单目视觉目标深度定位融合估计方法

Info

Publication number: CN111915678A
Application number: CN202010698757.8A
Authority: CN
Inventors: 孙玉山; 周天; 张国成; 李岳明; 唐同泽; 张红星; 薛源
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-11-10
Anticipated expiration: 2040-07-17
Also published as: CN111915678B

Abstract

本发明是一种基于深度学习的水下单目视觉目标深度定位融合估计方法。本发明属于水下单目视觉定位融合估计技术领域，本发明建立水下摄像机的量化坐标系，确定点投影到玻璃下表面的像距离主光轴的距离，建立基于二次投影的水下摄像机成像模型；对基于二次投影的水下摄像机成像模型，进行参数标定；基于几何特征，进行水下单目视觉目标进行深度估计；基于帧差法，进行水下单目视觉目标进行深度估计；采用基于深度学习的SSD300目标检测方法，对水下目标进行检测，基于几何特征和帧差法，进行水下单目视觉目标深度定位融合估计。引入熵权法开展单目视觉目标深度融合估计方法研究，有效减小单一方法深度估计的不稳定性，提高深度估计的准确性。

Description

一种基于深度学习的水下单目视觉目标深度定位融合估计方法

技术领域

本发明涉及水下单目视觉定位融合估计技术领域，是一种基于深度学习的水下单目视觉目标深度定位融合估计方法。

背景技术

海洋是人类生命的摇篮，其中蕴藏着丰富的能源、生物资源和矿产资源，走向海洋逐渐成为人们的共识，海洋不仅关系到一个国家的兴衰发展，更与人类的生存紧密相连。伴随着海洋开发、海洋军事应用的需要，水下作业技术、作业装备的研究与研发需求日益紧迫。面对水下复杂多变环境带来的作业条件限制，迫切需要一种体积小、可控性好、经济性强、作业风险低的移动载体。在以上需求的推动下，水下机器人逐渐成为目前海洋工程及海洋科学领域的研究热点，并且发展迅速，目前已在海洋开发中发挥着不可替代的作用。

水下机器人在民用及军用领域均有很大的应用前景，其中水下目标的定位是海洋开发中一个不可忽略的重要问题。由于无线电波在水介质中的快速衰减，目前最有效的水下信息载体是声波，基于声学的定位方法也是水下目标定位中的一个重要研究方向，但其在近距离时的定位精度较差，同时声学定位属于主动式量测方法，在一些军用及特殊场合下会暴露自身位置，在应用上也有很大的限制；基于光视觉的定位方法作为水下目标定位的另一个重要研究方向，它弥补了声学定位在近距离时精确度及隐蔽性方面的不足，具有定位精度高、获取信息全面、速度快等优点，在满足定位精度要求的前提下还能获得比较完整的上下文信息，在水下安防、水雷探测、海底地形探测、水下探坝、水下对接等领域具有不可替代的作用。

单目视觉目标定位作为基于光视觉的目标定位的一个重要分支，相对于双目或多目视觉目标定位而言，其具有系统结构简单、设备空间小、安装部署简单、计算量小、经济性好等特点，在水下机器人中应用广泛，尤其在空间成本、经济成本、计算成本受限的水下机器人中应用最为广泛。因此，开展基于单目视觉的水下定位技术研究具有切实的研究意义和工程实用价值。

三维目标点经过摄像机投影后变为平面二维的目标点，在这一过程中，深度信息丢失，在基于视觉的定位及3D重构过程中都离不开对目标的深度信息的恢复。在基于单目视觉定位系统中，如果忽略成像模型的系统误差造成的影响，目标深度(Z向)获取的精确程度是直接影响其他两个维度定位(X与Y向)的精确程度的重要因素。因此，基于单目视觉的定位系统中，目标深度的准确获取至关重要。

发明内容

本发明为有效减小单一方法深度估计的不稳定性，提高深度估计的准确性，本发明提供了一种基于深度学习的水下单目视觉目标深度定位融合估计方法，本发明提供了以下技术方案：

一种基于深度学习的水下单目视觉目标深度定位融合估计方法，包括以下步骤：

步骤1：建立水下摄像机的量化坐标系，并进行水下摄像机成像模型的坐标系转换；

步骤2：建立水下折射模型，确定点投影到玻璃下表面的像距离主光轴的距离，建立基于二次投影的水下摄像机成像模型；

步骤3：对基于二次投影的水下摄像机成像模型，进行参数标定；

步骤4：采用基于深度学习的SSD300目标检测方法，对水下目标进行检测；

步骤5：基于几何特征，进行水下单目视觉目标进行深度估计；基于帧差法，进行水下单目视觉目标进行深度估计；

步骤6：基于几何特征和帧差法，进行水下单目视觉目标深度定位融合估计。

优选地，所述步骤1具体为：

步骤1.1：建立大地坐标系，所述大地坐标系为描述摄像机及目标在空间中的位置而引入，为三维直角坐标系；

建立摄像机坐标系，所述摄像机坐标系为三维直角坐标系，原点位于摄像机镜头的光心处，摄像机坐标系的Z轴过原点垂直成像平面，并指向摄像机前方，摄像机坐标系的Z轴所在直线称为主光轴，摄像机坐标系的X轴与Y轴过原点分别与摄像机的感光元件的宽高平行，且所在平面与成像平面平行；

建立成像平面坐标系，所述成像平面坐标系为平面直角坐标系，原点为主光轴与成像平面的交点，成像平面坐标系的X轴与Y轴过原点分别与摄像机的感光元件的宽高平行；

建立平面像素坐标系，所述平面像素坐标系为平面直角坐标系，为描述成像过程中的数字离散化而引入，原点位于感光元件左上角，平面像素坐标系的X轴与Y轴过原点分别与摄像机感光元件的宽高平行；

步骤1.2：将大地坐标系转换到摄像机坐标系中，由坐标系旋转的欧拉定理进行转换，通过下式表示转换后的坐标系：

其中，(x_o，y_o，z_o)为摄像机光心在大地坐标系中的位置，φ、ψ、θ为示摄像机坐标系相对大地坐标系的旋转角度，R为大小为的旋转变换矩阵，T为大小为的平移向量；

步骤1.3：将摄像机坐标系投影到成像平面坐标系中，空间三维信息被投影到二维平面上，通过下式表示投影矩阵：

其中，Z_cam为投影矩阵，x_pic和y_pic为成像平面坐标点，x_cam、y_cam和z_cam为摄像机坐标点，f为焦距；

步骤1.4：所述感光元件，将图片进行离散化处理，转化为数字化信息，将数字化信息转入至平面像素坐标系下，通过下式表示转换后的齐次矩阵：

其中，u和v为平面像素坐标系下的位置向量，dx和dy分别为摄像机中单个感光单元的沿高和宽方向的实际物理尺寸，u₀和v₀为成像平面坐标系原点在平面像素坐标系中的位置坐标。

优选地，所述步骤2具体为：

步骤2.1：建立水下折射模型，将点投影到玻璃下表面的像距离主光轴的距离进行化简，得到光心到玻璃下表面的距离；

根据目标点在摄像机坐标系下的位置坐标，利用牛顿迭代法确定投影后的位置坐标；

步骤2.2：由目标点在摄像机坐标系下的位置坐标计算出为目标点到主光轴的距离r_w，根据r_w计算初始迭代计算点，通过下式表示初始迭代计算点：

迭代计算r_a(k)，直到满足迭代停止条件，获得计算结果r_a；当r_a(k)-r_a(k-1)＜ε时，满足迭代停止条件,ε为精度

计算摄像机坐标系下目标点在玻璃下表面的投影点的位置坐标，通过下式表示所述位置：

其中，x_a和y_a分别为摄像机坐标系下目标点在玻璃下表面的投影点的位置坐标；

步骤2.3：令Z_cam等于h，建立基于二次投影的水下摄像机成像模型，通过下式表示所述成像模型：

其中，f_x为横向的数字焦距，f_y为纵向的数字焦距。

优选地，所述步骤3具体为：

步骤3.1：将大地坐标系建立在标定板上，将角点在大地坐标系下的位置固定，从标定板上获得大地坐标系下角点的坐标；经过坐标系转化后得到角点在摄像机坐标系；经过二次投影水下摄像机成像模型预测角点在图像上的位置；同时通过图像处理获得采集图像中对应角点在图像中的位置；在初始状态下，将偏差作为最优化的目标，待标定参数作为待优化变量，利用遗传算法不断优化，模型参数接近准确值，预测位置与真实位置偏差减小，进行2000回合的迭代计算后获得模型参数；

步骤3.2：标定时在水下环境下，利用水下摄像机采集若干摄像机的图片，将大地坐标系建立在棋盘标定板平面上，角点在大地坐标系下的位置向量经过坐标变化后得到角点在摄像机坐标系下的位置向量，再经过基于二次投影的水下成像模型得到角点在像素坐标系下的位置向量的计算值；

步骤3.3：利用图像处理算法处理采集到图像，获得其中各个角点的真实位置，每个角点建立2个方程，标定10个参数，采用的标定板设有数十个角点，建立超定方程组，根据角点位置的计算值及真实值计算角点的误差平方和，并将其作为评价函数，通过下式表示评价函数：

利用遗传算法搜索，得到使所有角点误差平方和最小的水下摄像机参数，完成标定。

优选地，所述步骤4具体为：

步骤4.1：生成预设框，SSD300中的预设框采用相对比例策略关联生成，当一共有a层特征层，则第k层中与特征单元关联的预设框相对于特征层大小的比例系数s_k通过下式确定：

其中，s_min取0.2，s_max取0.9；

所有特征层的特征单元中长宽比r_box等于1对应两个预设框，边长分别为min_size与max_size，预设框长w_box与宽h_box通过下式确定：

步骤4.2：将预设框与真实边界框进行匹配，对SSD300进行训练，在训练时需要确定与真实边界框相关联的预设框以便进行网络的训练，对于每一个真实边界框，在所有预设框中选择出与其重叠率最大的一个预设框，并加入到正样本集，保证每个真实边界框至少有一个预设框相对应，在剩余的预设框中筛选处与任意真实目标框大于阈值的所有预设框，并将其与对应的真实目标框关联，所述阈值为0.5；采用水下目标训练集对SSD300网络进行训练，在所有训练中，随机选择样本集中70％用于数据增殖及模型训练，剩余的30％用作测试验证，在SSD在训练时，优化器采用SGD优化器，学习率采用变学习率，初始值为0.001，衰减系数为0.9，批大小设置为32，迭代训练2000回合，得到SSD300的训练权重结果；

步骤4.3：利用训练好的SSD300开展水下目标检测，将水下目标通过视频流获取图片传入SSD300网络中，得到水下目标在图片中的2D信息。

优选地，所述步骤5具体为：

步骤5.1：基于几何特征，进行第一次反向投影，第一次反向投影为图像到摄像机保护罩下表面上的反向投影，摄像机感光单元在横向与纵向采样的间隔的不一致，导致摄像机的横向与纵向的数字，获得两个在玻璃下表面投影的半径值，通过下式表示两个半径值：

其中，R_ax为图像上的半径值，R_ay横向方向上玻璃下表面投影的半径值，R_pix为纵向方向上玻璃下表面投影的半径值；

获得的深度估计值也对应有两个，通过求取加权平均值获得最终的深度估计值；

进行第二次反向投影，将两个在玻璃下表面投影的半径值分别代入标定好的水下摄像机折射模型，获得深度估计值，通过下式表示深度估计值：

其中，R为真实半径，Ra为玻璃下表面投影的半径值，zo为深度估计值，

分别获得两个深度估计值z_ox和z_oy，根据z_ox和z_oy获取最终的深度估计值，通过下式表示最终的深度估计值Z：

其中，α和β为权值，分别取1；

步骤5.2：基于帧差法，获取当前k时刻的目标图像，提取SIFT特征，并采用FLANN算法确定k-1时刻匹配的特征，得到匹配的目标点对，根据基于二次投影的水下摄像机成像模型，确定匹配的目标点对的在摄像机坐标系下的坐标，建立综合误差函数，采用有限步遗传算法求解所述误差函数，获得基于帧差法的水下单目视觉目标进行深度估计，通过下式表示基于帧差法的水下单目视觉目标深度估计值：

其中，

和

分别表示第j迭代时由遗传算法产生的k-1时刻及k时刻所有特征点对应真实目标点的深度估计值，为此次迭代的综合误差值。

优选地，所述步骤6具体为：对基于几何特征和帧差法的水下单目视觉目标深度估计值，引入信息熵与熵权法，通过下式表示信息熵H_i和熵权w_i：

其中，p_i为估计值概率，p_j为深度估计的准确性；

根据熵权法，在k时刻，对几何特征和帧差法的水下单目视觉目标深度估计值进行融合估计，通过下式表示融合后的目标深度估计值

其中，

是通过几何特征进行深度估计获得的目标深度估计值，

是通过帧差法获得的目标深度估计值，ω_segment是基于几何特征获得量测值的熵权，ω_match是基于帧差法获得的量测值的熵权。

本发明具有以下有益效果：

本发明提出了一种基于二次投影的水下摄像机成像模型，将复杂的水下成像拆分为水下非线性折射投影与空气中线性投影，并结合标定法设计了模型参数标定方法，具有操作简单方便、结果准确的特点。提出了几何特征法及帧差法深度估计的准确性指标构建方法，引入熵权法开展单目视觉目标深度融合估计方法研究，有效减小单一方法深度估计的不稳定性，提高深度估计的准确性。

附图说明

图1为基于深度学习的水下单目视觉目标深度定位融合估计方法流程图；

图2为摄像机成像坐标系关系示意图；

图3为二次投影示意图；

图4为二次投影的水下成像模型参数标定示意图；

图5为几何特征的深度估计流程图；

图6为摄像机与目标位置关系示意图；

图7为求解目标深度的流程图；

图8为融合是熵权变化和深度偏差变化图；

图9为Z＝1085时深度估计结果；

图10为Z＝525时时深度估计结果；

图11为融合深度偏差变化图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

根据图1所示，本申请提供一种基于深度学习的水下单目视觉目标深度定位融合估计方法，包括以下步骤：

如图2所示，所述步骤1具体为：

步骤2：建立水下折射模型，点投影到玻璃下表面的像距离主光轴的距离，建立基于二次投影的水下摄像机成像模型；

所述步骤2具体为：

其中，f_x为横向的数字焦距，f_y为纵向的数字焦距。

所述步骤3具体为：

所述步骤4具体为：

其中，s_min取0.2，s_max取0.9；

其中，α和β为权值，分别取1；

其中，

和

步骤6：对基于几何特征和帧差法，进行水下单目视觉目标深度定位融合估计。

所述步骤6具体为：对基于几何特征和帧差法的水下单目视觉目标深度估计值，引入信息熵与熵权法，通过下式表示信息熵H_i和熵权w_i：

其中，p_i为估计值概率，p_j为深度估计的准确性；

其中，

是通过几何特征进行深度估计获得的目标深度估计值，

具体实施例二：

不同于其他研究人员将水下成像过程视为一个整体模型，本发明提出的基于二次投影的水下摄像机成像模型(以下简称：二次投影模型)将水下成像这一复杂、非线性过程拆分为两个相对简单的过程：水下折射过程与空气中成像过程。相应地，水下成像问题拆解为水下折射投影问题和空气中确定物距下的图像投影问题。水下折射投影问题仅需考虑空间中的目标点的反射光经过两种介质最终投影在玻璃下表面这一过程，该投影过程为非线性投影；空气中确定物距下的图像投影问题仅需考虑空气中平面图像在确定距离下的投影成像这一过程，该投影过程为线性投影过程。如图3所示，第一次投影时，空间中点反射的光线经过水——玻璃投影到玻璃下表面，形成一个虚假的平面点；第二次投影时，认为玻璃下表面的点反射光线在空气介质中经过摄像机投影为成像平面的点，经两个过程将摄像机的。

(1)建立水下折射模型

由几何知识可求得

r_w＝r_a+t tanθ_g+(z-t-h)tanθ_w

上式后化简可得：

折射投影目标点的迭代求解，实际使用过程中需要根据目标点在摄像机坐标系下的位置坐标计算获得投影后的位置坐标，这一过程可以利用牛顿迭代法进行数值

扩展到三维坐标系下，具体算法流程如下：

a.由目标点在摄像机坐标系下的位置坐标计算出r_w：

b.计算初始迭代计算点r_a(0)；

c.利用迭代计算r_a(k)，直到满足迭代停止条件，获得计算结果；

d.计算摄像机坐标系下目标点在玻璃下表面的投影点的位置坐标后可得空气中确定物距下的图像投影模型

水下摄像机成像模型参数标定的准确性直接影响到水下光视觉定位的准确性，本发明提出利用平面棋盘标定板与遗传算法对上文中建立的基于二次投影的水下摄像机成像模型进行参数标定，并开展标定试验。上文建立的基于二次投影的水下摄像机成像模型中有如表2.1的参数待标定。

表2.1二次投影的水下成像模型中待标定参数汇总表

其中摄像机内参与畸变参数可以在空气中利用张氏标定法先标定出来，则实际需要在水下环境下标定的参数只有摄像机6个外部参数和4个折射参数。

参数的标定过程示意如图4所示。首先，大地坐标系建立在标定板上，角点在大地坐标系下的位置固定，从标定板上获得大地坐标系下角点的坐标；经过坐标系转化后得到角点在摄像机坐标系；经过二次投影水下摄像机成像模型预测角点在图像上的位置(模型预测位置)；同时通过图像处理获得采集图像中对应角点在图像中的位置(真实位置)。初始状态下，由于摄像机模型中的参数不准确，显然模型预测位置与真实位置存在偏差，将偏差作为最优化的目标，模型的待标定参数作为待优化变量，利用遗传算法不断优化模型参数，模型参数越接近准确值，预测位置与真实位置偏差越小，多次迭代计算后即可获得准确的模型参数。

标定时在水下环境下，利用水下摄像机采集若干摄像机的图片。将大地坐标系建立在棋盘标定板平面上，由于实现已经测量获得标定板上的角点(下文中简称为角点)之间的距离，因此角点在大地坐标系下的位置即被确定。角点在大地坐标系下的位置向量X_G＝(x_G，y_G，z_G)经过坐标变化后得到角点在摄像机坐标系下的位置向X_cam＝(x_w，y_w，z)，再经过基于二次投影的水下成像模型得到角点在像素坐标系下X_pix(u，v)：

利用图像处理算法处理采集到图像，获得其中各个角点的真实位置从上式可以看出，每个角点可以建立2个方程，一共10参数需要标定，因此，理论上只需要5个角点信息就可确定上文中水下成像模型的待定参数。实际标定过程中，由于图像噪声等不确定因素的存在，只利用5个角点计算待标定参数显然欠妥，因此，本发明采用的标定板都有数十个角点，建立超定方程组，根据角点位置的计算值及真实值计算角点的误差平方和，并将其作为评价函数，如下式所示。利用遗传算法搜索使所有角点误差平方和最小的水下摄像机参数。

其中，n为标定板上的角点数

基于二次投影的水下摄像机成像模型参数标定试验中采用的平面棋盘标定板上共有6行9列，共计54个目标角点，角点之间的距离为25mm。为了保证标定结果的准确性及可靠性，标定板的布置需兼顾视场中各个位置区域，在不同距离上范围采集图片。试验中，在空气中距离光心20cm、60cm、100cm、140cm、180cm及220cm的平面附近的不同位置分别采集5张姿态不同的平面棋盘标定板的图片(下文简称：空气标定图片)，利用张氏标定法对摄像机标定获得摄像机的内参及畸变系数。将摄像机与标定板侵入水中，调整摄像机的位置，使摄像机的取景范围尽可能地大，改变标定板的位置，在空气中距离光心40cm、80cm、120cm、150cm及180cm的平面附近的不同位置分别采集5张姿态不同的平面棋盘标定板的图片(下文简称：水下标定图片)，利用上文中提出的基于二次投影的水下成像模型标定方法完成参数标定。

基于几何特征的水下单目视觉目标深度估计的基本流程，在经过基于深度学习的目标检测器检测识别到该目标后，经过霍夫直线变换及圆变换检测获得目标边界框中目标的球体部分(投影为圆形)及圆柱部分(大部分情况投影为直线框，极小概率为圆形)在图像中的投影位置及大小等信息。如中图5所示，经过上述处理可以获得目标上部球体的投影圆形(图5中的圆O)的半径、圆心的位置。在本发明中，只需计算出该目标物体相对于摄像机的位置坐标即可，不必考虑其相对于摄像机的姿态信息。相当于只计算与摄像机成像平面平行的圆截面圆心的位置。光心O目标开始结束图像计算图像中圆O半径及圆心位置第一次反向投影第二次反向投影目标深度估计值

结合提出的基于二次投影的水下摄像机成像模型，基于几何特征的水下单目视觉目标深度估计基本流程如图5所示。定位系统通过摄像机获得场景中的图像，经过图像处理(本发明中主要包括基于深度学习的目标检测识别、霍夫圆变换等)获得图像中待测目标上部的投影的半径大小，再经过两次反向投影计算即可获得目标相对摄像机的深度估计值，其详细计算如下：

(1)第一次反向投影

第一次反向投影主要实现图像到摄像机保护罩(玻璃)下表面上的反向投影，即由圆O在图像上的半径大小及预先标定好的水下摄像机参数计算圆O在玻璃下表面投影的半径大小。。值得注意的是，由于摄像机感光单元在横向与纵向采样的间隔的不一致，导致摄像机的横向与纵向的数字焦距不同。因此，将图像处理获得的圆O半径代入计算可以获得两个值(分别添加下标想x、y以作区分)，获得的深度估计值也对应有两个，可以通过求取加权平均值获得最终的深度估计值。

(2)第二次反向投影

第二次反向投影是将圆O的真实大小R及圆O在玻璃下表面投影的半径大小(由上一步计算获得的两个值)代入预先标定好的水下摄像机折射模型，从而计算获得O点的深度估计值，详细计算公式如式所示。

上式中，R为圆O的真实半径；R_a为第一次反向投影的计算值

O点的最终估计值可以采用下式计算：

影响利用几何特征的单目视觉深度估计精确度的因素主要有两点。一是图像处理分离待测目标与背景的精确度；二是目标几何特征的真实值的测量准确性。通常使用二值化方法将待测目标从背景中分离出来，即设定一个合适的阈值分离背景与目标，阈值的选择直接影响最终分离结果的准确性。显然这一方法只适用于背景与待测目标具有明显的明暗区别是才能获得较好的分离效果，在目标与背景接近或者阈值设置不合理的情况下，无法获得较好的分割效果，导致最终误差通常很大甚至可以认为完全错误。但由于该方法每次仅需对一幅图片进行处理，其计算量较小，一定条件可以实现误差在像素级甚至亚像素级别的分离结果，同时测量计算过程不依赖于其他传感器，测量结果的精确度不随时间变化，具有较好的稳定性。

基于帧差法的单目视觉目标深度估计方法是基于图像序列进行目标深度估计方法的一种。基于图像序列的目标深度估计方法主要利用不同视差图像上目标的位置及大小等信息对待测目标进行深度估计。本发明中采用定焦水下摄像机在不同位置采集包含同一待测目标的图像，帧与帧之间构成视差图像，因此称为基于帧差法的单目视觉目标深度估计。其基本流程是水下机器人平台通过获取两幅及以上的视差图像，然后利用提取的图像匹配特征点，依据空间几何位置关系及水下图像成像关系计算得到待测目标的深度及位置。

如图6所示，基于帧差法的深度估计，在获取当前时刻(k时刻)目标边界图像后，提取其中SIFT特征并利用FLANN算法计算与上一时刻(k-1时刻)匹配的特征点，获得匹配的目标点对(通常有多对)的在二次投影模型反向计算k时刻图像提取特征点k-1时刻图像SIFT特征点特征匹配k时刻特征点k-1时刻特征点匹配特征点对第i对k时刻目标点在摄像机坐标系下的位置k-1时刻目标点在摄像机坐标系下的位置坐标转化构建误差函数。利用有限步遗传算法求解使误差函数最小的目标深度估计值。

由于水下摄像机成像模型中由折射引起的非线性项的存在，如果忽略一个方程直接求解会造成计算公式复杂，同时计算时间也成倍增加。日本冈山大学自然科学与技术研究院首次利用有限步遗传算法求解水下机器人对接过程中的视觉位姿估计问题并获得了非常好的试验结果，研究表明有限步遗传算法对强非线性问题处理能力良好，可以快速获得方程的近似数值解。因此，为了快速准确获得目标深度，引入有限步遗传算法对问题求解。

假设同一图像中匹配成功的特征点对应的真实目标点的深度相同，结合这些匹配特征点对建立误差函数，利用有限步遗传算法直接对目标深度值进行估计而不直接求解方程，不断优化估计值使其朝着误差减小的方向，其求解过程如图7所示。有限遗传算法做移项处理后得到误差计算式如下：

基于帧差法的单目视觉目标深度估计算法需要外部传感器提供必要的状态参数参与深度估计计算，同时计算过程是建立在前一时刻的状态上迭代计算，测量结果精确度对时间敏感，系统在长时间工作后可能会出现较大的偏移量。同时由于外部传感器的引入，必然涉及到其与视觉定位系统的时间对准等处理，增加了计算量。但利用帧差法的深度估计通常不需要预先知道待测目标的真实信息，特征点的采集匹配准确性通常都在亚像素级别，因此其在短时间内的测量精确度较高。

基于几何特征的单目视觉深度估计结果对时间不敏感，在连续长时间测量过程中不会出现非常大的累加误差，但受待测目标与背景分离准确性的不确定性，最终的深度测量精度相对较差；相应地，基于帧差法的单目视觉深度估计由于受限于外部传感器的影响，其测量结果对时间较名称，长时间运行可能出现较大的稳态偏差；同时，两帧图像在匹配时易出出现错误匹配，影响计算精确度，需要设法去除这种不利影响。因此，为了获得准确可靠的待测目标深度估计值，以提高单目视觉定位系统的准确性与稳定性，本发明结合视觉定位系统的实际应用环境，整合几何特征深度估计方法及基于帧差法的深度估计方法的优点，提出了基于几何特征及帧差法的水下单目视觉目标深度融合估计方法，其基本原理是结合基于几何特征的深度估计值及基于帧差法的深度估计值来进行数据融合，实现比单一深度估计算法更高的信息精确度。

如图8所示，基于几何特征及帧差法的水下单目视觉目标深度融合估计算法是结合基于几何特征的深度估计值及基于帧差法的深度估计值来进行数据融合，实现比单一深度估计算法更高的信息精确度。本发明在确定了基于几何特征及基于帧差法的深度估计算法准确性指标后，引入信息熵与熵权法对上述深度估计值进行融合估计。信息熵可以对量测结果的不确定性进行量化的表述，其大小反映了量测结果的不确定程度，也可是说是量测值中信息的“整齐”程度，其值越大量测值的不确定性越大，对应的信息内部越“混乱”。所谓熵权就是根据各个量测值的信息熵大小决定该量测数据的权重，它反映的是各量测值在融合过程中“贡献”的大小，是对事实的客观反应。若某一量测值在融合中“贡献”作用较大，则表示其携带的信息越“整齐”，信息熵值越小，对应的熵权就越小。

对基于几何特征和帧差法的水下单目视觉目标深度估计值，引入信息熵与熵权法，通过下式表示信息熵H_i和熵权w_i：

其中，p_i为估计值概率，p_j为深度估计的准确性；

其中，

是通过几何特征进行深度估计获得的目标深度估计值，

试验结果及分析

在目标深度为1085mm、525mm处开展了水下目标深度估计与定位试验。试验时控制云台绕X轴正向运动。目标深度1085mm时试验结果如图9所示。其中图9为试验中深度估计结果图，其中红色点为几何特征法求解的深度值，蓝色点为帧差法求解的深度值，红色实线为通过理论计算获得的摄像机坐标系下目标的深度变化曲线，从图中可以看出几何特征法与帧差法与理论理论计算之间有较大的偏差，其中几何特征法与理论值的最大偏差为140mm，帧差法与理论值的最大偏差为189mm。从图9可知，在经过本发明的融合深度估计处理后深度估计值偏差明显小于以上两种传统方法，融合估计值与理论值最大偏差为84.15mm。从数据点的散布情况也可以看出，融合估计值的稳定性比上述

目标深度525mm时试验结果如图10所示。其中图10为试验中深度估计结果图，传统的几何特征法及帧差法深度估计值与理论计算值之间的偏差基本小于100mm，其中10步之前传统的两种方法的偏差较大(约为50～100mm)，10～60之间两种方法较小(小于50mm)。对比可以发现，目标深度525mm时的融合估计深度值在准确度及稳定性方面的提高要小于目标深度1085mm时的融合结果，整体只有略微提高，部分融合值准确性甚至低于上述传统方法，但从图10可以看出其整体还是趋向于更加准确、更加稳定的。图9和图10中，时间步大于60步之后偏差明显加大，主要原因是真实目标已部分超出摄像机视场，而目标识别过程错误的将水面的全反射影像检测为真实目标情况，实际工程使用中目标通常远离水面，全反射影像不会与真实目标同时出现在摄像机视场中，因此，大于60步之后的数据不具有代表性。

根据图11所示，综上所述可以看出：相较于传统的几何特征法、帧差法，本发明基于几何特征及帧差法的目标深度估计融合算法能构有效整合两种测量信息，减小目标深度估计偏差并提高深度估计值的稳定性及可靠性。

本章主要针对单目视觉定位过程中的目标深度被动估计问题展开研究，详细介绍基于几何特征和基于帧差法的目标深度估计与定位方法的原理，并结合本发明第二章中建立的基于二次投影的水下摄像机成像模型，分别推导了几何特征法、帧差法在本发明成像模时间步融合深度估计偏差，之后为了获得更加准确可靠的深度信息，引入信息熵完成了基于几何特征改进的帧差单目视觉目标深度融合估计方法。最后通过实际水下单目视觉目标深度估计试验验证了融合估计算法的有效性。

以上所述仅是一种基于深度学习的水下单目视觉目标深度定位融合估计方法的优选实施方式，一种基于深度学习的水下单目视觉目标深度定位融合估计方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。