CN115223032A

CN115223032A - 一种基于图像处理和神经网络融合的水生物识别与匹配方法

Info

Publication number: CN115223032A
Application number: CN202210839011.3A
Authority: CN
Inventors: 刘振泽; 董迪锴; 张家晨; 陈金炎; 孙吉; 王成喜; 胡海洋
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-10-21

Abstract

本发明公开了一种基于图像处理和神经网络融合的水生物识别与匹配方法，属于水下机器人，海洋资源开发领域。在水下环境中，由于红光通道被衰减，摄像设备采集的图片普遍偏绿，并且针对多种水生物识别，识别难处理慢。现有的算法，基于采集的水下图像直接识别，准确性能较差，并且深度估计是针对整张图，处理速度较慢。本发明针对原始水下图像，进行红光通道补偿，图像预处理实现水下图像的复原。接着使用专用的DarkNet神经网络针对水下多种水生物进行识别分类。最后基于双目摄像设备，使用DBNet中识别符合阈值要求的目标进行ORB匹配得到匹配特征方便后续双目相机计算深度。与现有的算法相比，使用方便，复原的图像质量、水下生物识别率和估计深度精度处理速度都得到提高。

Description

一种基于图像处理和神经网络融合的水生物识别与匹配方法

技术领域

本发明涉及生活在野外或养殖水生物抓取的属于水下机器人，海洋资源开发领域，尤其涉及一种基于图像处理和神经网络融合的水生物识别与匹配方法。

背景技术

机器视觉在分类和识别领域获取巨大成功，对于水下环境的物体识别是人工捕捞向自动化捕捞转变的关键。对于水生物目标检测的准确性，水生物目标深度估计的精确性直接影响后续水下机器人对水生物目标抓取的准确性。

水下机器人广泛应用于海洋资源开采、海生物勘探和海底工程应用等项目，对人类无法涉及或长期驻留的海底，水下机器人发挥着重要作用。但水下环境中，主要是由于图像缺少红色通道的值，图像整体表现出偏绿的状态。并且水生物种类过多，出现环境较为复杂多变，对于目标分类识别依旧是重点和难点。而且传统的双目估计算法在水下实时性较差，处理速度较慢。

因此，本发明是一种基于图像处理和神经网络融合的水生物识别与匹配方法，针对原始水下图像，进行红光通道补偿，图像预处理实现水下图像的复原。接着使用DBNet神经网络针对水下多种水生物进行识别分类。最后基于双目摄像设备，使用神经网络输出目标框进行阈值计算，符合要求的目标区域进行ORB特征提取并进行深度估计。从而解决海底图像处理难、水生物识别分类难问题和水下深度估计难等问题，为后续水下机器人抓取提供丰富信息。

发明内容

本发明提出一种基于图像处理和神经网络融合的水生物识别与匹配方法，包含以下内容：

步骤一、图像预处理模块。为了解决水下图像失真问题，增加图像的对比度，并且可以提高后续分类识别准确率。将采用摄像头采集的海底原始图像I，通过红光补偿模块、白平衡模块、和对比度增强模块，输出I_balance。

步骤二、水生物识别模块。为了减少处理速度并提高多种水生物识别正确率，本发明提出DBNet神经网络。针对水生物分类任务自制数据集，针对DBNet神经网络基于yolov3网络提出DBL最小单元以及DB最小模块，并改进损失函数。

步骤三、水下双目图像匹配算法。为了减少处理量，加快整体匹配速度提高整体匹配准确率，本发明提出基于识别框约束性ORB匹配算法。将整体匹配区域局限于左右图像符合阈值输出的识别框区域；并针对符合阈值识别框进行ORB特征匹配。

所述步骤一图像预处理模块的主要实现过程如下：

1、红光补偿模块。根据水下环境，只需针对红光通道进行对手通道处理，设原始输入图像为I，I_r，I_g，I_b是原始图像的红色、绿色和蓝色颜色通道集合，I_r(x，y)，I_g(x，y)，I_b(x，y)代表红色、绿色和蓝色通道尺寸W×H图像的一个像素点，其中x和y分别为图像像素水平索引和垂直索引，并且通过归一化将数值限制在[0，1]范围内得到，按下式求解：

计算绿色通道均值，计算公式如下：

则有红光补偿公式，如下：

其中α_g为常数值，

为输入图片经过红光补偿后得到的红光通道值，代替原有红光通道。

则有红光通道改进后图像

2、白平衡模块。

为经过红色通道补偿后的红色通道值，计算蓝色和红色颜色通道的均值：

计算整体三个通道和的均值

则有：

计算最终输出的颜色通道值I_r″，I_g″，I_b″代替原有图像颜色通道值，则有公式：

则有白平衡改进后图像I_white＝{I_r″，I_g″，I_b″}。

3、对比度增强模块。对于水下图像来说，对比度增强是将对象分离出来的过程。

伽马校正是直方图校正中常用的方法，是校正水下图片的总体对比度。通过改变γ值来改变图像总体表现效果，在本发明中，默认使用γ＝1.3。则有公式如下：

锐化是最常用的对比突出显示图像边缘的细节的技术，可以处理无法进行伽马校正的区域，用以消除伽马校正导致的暴露区域不足、过度问题。本发明使用Priwitt锐化，Priwitt算子在一个方向求微分，而在另一个方向求平均，对噪声相对不敏感，有抑制噪声作用。

I_ga经过x方向卷积得到G_x(x，y)，则有公式：

G_x(x，y)＝[I_ga(x-1，y-1)+I_ga(x-1，y+1)+I_ga(x-1，y+1)]-[I_ga(x+1，y-1)+I_ga(x+1，y)+I_ga(x+1，y+1)]

I_ga经过y方向卷积得到G_y(x，y)，则有公式：

G_y(x，y)＝[I_ga(x-1，y+1)+I_ga(x，y+1)+I_ga(x+1，y+1)]-[I_ga(x-1，y-1)+I_ga(x，y-1)+I_ga(x+1，y-1)]

I_ga经过两个方向卷积并求和，求得经过Priwitt锐化处理得到的I_balance(x，y)则有公式：

I_balance(x，y)＝G_x(x，y)+G_y(x，y)

所述步骤二水生物识别模块，主要实现过程如下：

1、DBNet的基本模块为DBL(Dense Block Layer)，包含一个卷积层，一个BN(BatchNormalization)层和Mish激活层。使用DBNet算法识别具体实施步骤：

(1)、Mish激活函数保证在各个点上的平滑性，保证各个点的梯度存在，并且可以在输入为负时也非完全截断，允许较小的负梯度流动，正向无边界，避免了梯度饱和问题。Mish激活函数公式如下：

Mish(x)＝x·tanh(ln(1+e^x))

(2)、为了加快神经网络模型收敛，增加BN层，具体推导公式如下：

设第i层的输入为x^(l)，某一个神经元的输出为y^(l)，即：

y^(l)＝f(x^(l))＝f(wy^(l-1)+b))

其中f(·)是激活函数，w，b均为训练时可学习参数。为了提高优化效率，需将净输入x^(l)数据分布成正态分布。本发明将输入归一化到标准正态分布，归一化层放在仿射变化之后，激活函数之前。即：

其中，E(x^(l))和var(x^(l))是指当前参数下，x^(l)的每一维在整个训练集上的期望和方差。本发明采用的主要优化算法是基于小批量的随机梯度下降算法，通常使用当前小批量样本的均值和方差来代替期望与方差。给定一个小批量样本集合，其中包含K个样本，设(x^(1，l)，...，x^(K，l))为第l层神经元净输入的均值和方差为：

确保归一化后网络的非线性，通过附加的缩放和平移变化来改变取值区间，即：

上式可表示为BN_γ，β(x^(l))，其中γ，β分别表示缩放和平移的参数向量，BN层可以看出一个特殊的神经层，加在非线性映射函数之前，卷积层运算层之后，即：

y^(l)＝f(BN_γ，β(x^(l)))＝f(BN_γ，β(wy^(l-1)))

2、组成本发明DBNet的子模块为DB(DenseBlock)，在子模块中，每一层的输入都是该层上面所有层的输出，即该模块中的所有浅层特征都能直接输入到后续子模块中，使得模块内的有效特征数据均能得到重用。为了控制计算量，大大减少了原本网络结构DBL模块中的卷积层输出的特征图数量。

3、DBNet定位损失函数(CIoU)公式如下：

其中，p₁，p₂分别代表预测框和真实框的中心点，ρ表示计算两个中心点间的欧式距离。l为两个边界框最小闭合区域的对角线长度。αv为惩罚项系数，有加快网络收敛的效果。α为权重函数，v为度量长宽比的相似性。α，v的公式如下：

其中W^gl，H^gl分别为真实边界框在固定位置输入图片的宽高，W，H为算法预测的相对于输入图片的目标边界框宽高。

DBNet置信分数损失及类别损失如下：

其中上式损失函数引入平衡因子λ，用来平衡正负样本本身的比例不均，本发明实验中选取的λ为0.25，即正样本占比较负样本占比小。但只添加平衡因子只能解决正负样本不均衡问题，无法解决简单与困难样本的问题，因此又加入参数γ用于调节简单样本权重减缓的速率，当γ为0时，损失函数即为交叉熵损失函数，当γ增加时，调整因子的影响也在增加。本发明实验选取γ为2。

本发明类别损失在yolov3的基础上进行改进，得到最终的损失函数，公式如下：

L_myloss＝L_CIOU+L_conf+L_{yolov3_cls}

3、所述步骤三水下双目图像匹配算法主要实现过程如下：

(1)、设左图识别到的区域图设为P_l，右图检测到的区域设为P_r。计算P_l与P_r之间的距离，本发明设置为∈为2.6，距离小于阈值∈，进入第二步。距离公式如下：

(2)、特征点提取。对某一像素点与其周围固定半径的圆上的像素之间的灰度进行比较。设中心点像素为灰度I_p，半径为3、像素数量为16的圆周上的像素点的灰度为I_p→x，ΔI为设定的灰度阈值。则周围像素点的分类S_p→x公式如下：

若周围的16点当中，存在连续的分类为d(darker)或b(brighter)的像素点的数大于N(N一般取12)，则认为该点为一个可能的特征点。为了加快速度，在实际检测的特征提取过程中，首先可以选择只比较周围16点中1、5、9、13四处的像素，若其中像素属于d或b的数量大于等于3，则再对这些像素使用16点检测的方法进一步验证。

使用上述方法，可以在待检测区域中提取出大量可能的特征点，但是检测的顺序和图片边缘周围的特征点的分布可能会降低图像特征提取的效率，因此在ORB算法中，通常使用ID3算法训练的决策树来筛选最优点。此外可能会出现特征点相互粘连的情况，使用非最大值抑制对像素点进一步筛选。设中心坐标灰度值为p，周围连续N个像素大于或小于阈值t的像素灰度值由v_i表示，其评价指标函数如下：

当某两个可能的特征点P，Q相连时，比较这些像素点的评价指标函数值V，舍弃掉其中V值比较小的点，至此完成对特征点的筛选。

技术效果：本发明针对原始水下图像，进行红光通道补偿，图像预处理实现水下图像的复原。接着使用专用的DarkNet神经网络针对水下多种水生物进行识别分类。最后基于双目摄像设备，使用DBNet中识别符合阈值要求的目标进行ORB匹配得到匹配特征方便后续双目相机计算深度。与现有的算法相比，使用方便，复原的图像质量、水下生物识别率和估计深度精度处理速度都得到提高。

说明书附图

图1.系统总流程图。

图2.DB-Net结构图。

图3.DB-Net网络训练流程图。

图4.网络输出变量示意图。

图5.双目相机数学近似模型图。

图6.左图为水下拍摄原图，右图为预处理后效果图。

图7.左图为原图经过DBNet效果图，右图为预处理后图像经过DBNet效果图。

图8.DBNet识别不同物种效果图。

图9.DBNet识别大量同类海胆效果图。

图10.DBNet识别不同海胆效果图。

图11.ORB对于整体图像处理匹配效果图。

图12.经过DBNet提前分割后使用约束性ORB匹配效果图1。

图13.经过DBNet提前分割后使用约束性ORB匹配效果图2。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。下面列举的实施例仅为对本发明技术方案的进一步理解和实施，并不构成对本发明权利要求的进一步限定，因此。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于图像处理和神经网络融合的水生物识别与匹配方法，系统流程图如图1，完整方法可由以下步骤说明：

步骤一、图像预处理模块。解决水下图像失真问题，增加图像的对比度，并且可以提高后续分类识别准确率，得到高质量的图像P_balance的实现过程如下：

1、红光补偿模块。

由于水下图像较为模糊，可视化较低，主要原因为红光通道被衰减为较小值，整体照片颜色为蓝绿色。

针对红色通道完全衰减问题，本发明引用对手色彩理论解释红色通道消失是将绿色通道更偏移原点。因此，颜色通道补偿通过将红色通道带回均值原点来补偿丢失的通道。并且传统算法中去雾算法具有不平衡的衰减会引起色彩偏移，暗通道先验无法估算传播，直方图拉伸引起噪声放大。

根据水下环境，只需针对红光通道进行对手通道处理，设原始输入图像为I，I_r，I_g，I_b是原始图像的红色、绿色和蓝色颜色通道集合，I_r(x，y)，I_g(x，y)，I_b(x，y)代表红色、绿色和蓝色通道尺寸W×H图像的一个像素点，其中x和y分别为图像像素水平索引和垂直索引，并且通过归一化将数值限制在[0，1]范围内得到，按下式求解：

计算绿色通道均值，计算公式如下：

则有红光补偿公式，如下：

其中α_g为常数值，

则有红光通道改进后图像

2、白平衡模块。是消除水下图像色彩失真的常用技术。

设I_b为原始图像的蓝色通道集合，

计算整体三个通道和的均值

则有：

则有白平衡改进后图像I_white＝{I_r″，I_g″，I_b″}。

I_ga经过x方向卷积得到G_x(x，y)，则有公式：

I_ga经过y方向卷积得到G_y(x，y)，则有公式：

I_balance(x，y)＝G_x(x，y)+G_y(x，y)

步骤二、水生物识别模块。

本发明使用的数据集为实验室采集并且手动打标数据集，包括30种水生物种类，其中包含白棘三列海胆(Tripneustes gratilla)、细雕刻肋海胆(Temnopleurustoreumatcus)、梅氏长海胆(Echinometra mathaei)、光棘球海胆(Strongylocentrotusnudus)、马粪海胆(Hemicentrotus Pulcherrimus)、长刺海胆(Diadema setosum)、火焰海胆(Diadema palmeri)、石笔海胆(Heterocentrotus mammillatus)、羽鳞海胆(Featherscale urchin)、赤海胆(Pseudocentrotus deprssus)、紫海胆(Anthocidariscrassispina)、白底辐肛参(Actinopyga mauritiana)、南美刺参(Holothuria Mexicana)、黄刺参(Holothuria hilla)、梅花参(Thelenota ananas)、红极参(Red polar ginseng)、豹纹参(Holothuria pardalis)、刺参(Stuchopus japonicus)、黑参(Halodeima atra)、海星(Starfish)、鱼(Fish)、螃蟹(Crab)、贝类(Shell)、海螺(Conch)、海葵(Actinia)、虾(Shrim)、海龟(Turtle)、海马(Hippocampus)、乌贼(Squid)和水母(Scaleph)。一共包含2302张水生物图像，其中训练集包含1841张，测试集包含461张。

使用预处理的图像I_balance进行目标识别，对于水下生物使用DBNet神经网络。本发明改进了yolov3的backbone部分提出DBNet并且在特征融合部分增加空间金字塔池化结构，进一步提升了算法的检测精度，DBNet网络结构图如图2。

假设输入图像尺寸为W×H，经过网络模型的运算，会输出三个尺寸的特征图尺寸，分别为：

例如，输入图像尺寸为416×416×3时，输出的特征图尺寸分别为13×13、26×26、52×52。

假设预测的类别数为N_class＝30，每个尺度输出的通道数相等，均为3×(N_class+5)，其中3代表每个尺度输出3个横纵比的边界框预测，每个横纵比的预测结果均可以描述为(t_x，t_y，t_W，t_H，t_conf，class)，即目标中心坐标，边界框的宽高，置信分数和所属类别。

由于yolov3网络模型输出的预测数据均为偏移值，因此网络训练时损失函数并不是将预测结果映射到原图尺寸进行计算。假设某一尺寸输出特征图大小为13×13网络中负责预测该目标的单元格的左上角坐标，为了进行损失计算，需要将网络的预测输出与标注数据进行统一约束并映射到同一空间。约束方法为归一化，首先将标注数据的边界框左上角、右下角坐标的形式转换为目标中心点坐标、边界框宽高的形式，并将其相对于输入图片的尺寸归一，真实边界框宽高归一后需要与同样归一后的anchor宽高计算IoU，从而获得最佳匹配度的anchor用于与网络预测的边界框偏移值进行损失计算，参与训练的9组anchors值通过kmeans聚类算法得出，kmeans算法分类输入数据后找出9组聚类中心作为先验边界框用于后续的边界框回归，训练网络示意图如图3。

将坐标偏移量和边界框偏移量相对于特征图进行归一化。完成归一化后将偏移量信息变化为特征图内的边界框定位信息，运算公式如下：

b_x＝σ(t_x)+g_x

b_y＝σ(t_y)+g_y

其中，(g_x，g_y)为相关于负责预测该目标的单元格的左上角坐标偏移量，(p_w，p_h)为对应的anchor的宽高，σ(·)为sigmoid函数，计算后得到特征图尺寸上的预测结果(b_x，b_y，b_w，b_H，t_conf，class)，如图4所示。

得到特征图尺寸上的预测结果后需要转换为原图上的预测结果，而原图需要变化为特定尺寸才可以作为输入图像输入网络模型进行运算，因此需要加入图片尺寸变化偏置以减小误差，设该偏置为η，原图尺寸image_shape为：

image_shape＝W_image×H_image

最小的特征图尺寸feature_shape为：

feature_shape＝W_feature×H_feature

假设输入图片经过32倍降采样得到最小特征图，则输入图片尺寸input_shape为：

input_shape＝32×W_feature×32×H_feature

则计算η如下式：

其中

表示在该张量

中的最小值，某一批次的图像在变换为固定尺寸之前大小不一定一致，即同一批次的原图image_shape不一致。设定位信息映射到原图中的尺寸系数β，尺度系数计算如下：

得到原图中得预测框定位信息如下：

x＝(b_x-η)×β

y＝(b_y-η)×β

W＝b_W×β

H＝b_H×β

输入的真实样本中将类别信息以N_classes维的向量来表示，对类别进行编号，该真实边界框所属类别在对应的向量中置为1，向量中其他位置为0。网络预测的置信分数及类别信息只需要通过sigmoid函数归一，输出之前将置信分数向量乘预测的类别向量，将不属于该目标所属类别的预测置信分数置0即可。

在目标检测中，神经网络模型低维度提取到的特征包含丰富的定位信息，而高维度提取到的特征包含着丰富的语义信息，为了能更好的完成目标检测功能，因此需要搭建深层神经网络模型，残差结构很好的缓解梯度消失和网络退化问题，却依旧存在一定程度上的数据流丢失。本发明设计新的backbone——DBNet代替Darknet53。DBNet的基本模块为DBL(Dense Block Layer)，包含一个卷积层，一个BN(Batch Normalization)层和Mish激活层。使用DBNet算法识别具体实施步骤：

1、Mish激活函数保证在各个点上的平滑性，保证各个点的梯度存在，并且可以在输入为负时也非完全截断，允许较小的负梯度流动，正向无边界，避免了梯度饱和问题。Mish激活函数公式如下：

Mish(x)＝x·tanh(ln(1+ex))

2、为了加快神经网络模型收敛，增加BN层，具体推导公式如下：

设第i层的输入为x^(l)，某一个神经元的输出为y^(l)，即：

y^(l)＝f(x^(l))＝f(wy^(l-1)+b))

y^(l)＝f(BN_γ，β(x^(l)))＝f(BN_γ，β(wy^(l-1)))

因BN层本身具有平移变化，因此仿射变化wy^(l-1)不需要偏置参数。另外，逐层进行归一操作不止可以提高优化效率，还可以作为一种正则化方法。训练时神经网络对一个样本的预测不仅和样本本身有关，也和同一批次中的其他样本有关。由于批次的选取具有随机性，因此使得网络模型不会过拟合到某个特定样本，提高了网络的泛化能力。

3、组成本发明DB-Net的子模块为DB(DenseBlock)，在子模块中，每一层的输入都是该层上面所有层的输出，即该模块中的所有浅层特征都能直接输入到后续子模块中，使得模块内的有效特征数据均能得到重用。为了控制计算量，大大减少了原本网络结构DBL模块中的卷积层输出的特征图数量。梯度消失的具体表现在于输入信息和梯度信息在多层传递后消失，但是在DB模块中上一模式的输出经过采样后直接成为当前模块的输出信息，在方向传播时当前模块的梯度能直接到达上一模块，同时能有效避免梯度消失和网络退化问题。

因为需要替代原来Darknet-53网络的DBL层，要保持模块输出维度不变化。原来神经网络Darknet-53网络的第L层输出特征图数量为M_L，对应有着同样特征图输出数量的DB模块中的某一个DBL模块输出特征图数量为L_l，设该DB模块中一共有c个DBL模块，即：

因此对比采用残差结构和DB模块的连接结构搭建相同层数的网络模型，DB模块搭建的网络结构在运算速度上将远远领先残差结构。而通过Concat拼接后DB模块输出的特征图数量与Darknet-53的对应模块输出特征图数量相同，因此模型表达能力并不会因为计算量的减少而变差。另外，为了进一步的提升模型的运算速度、减少参数量，在每一个卷积核大小为3×3的卷积层之前均添加一个卷积核大小为1×1的DBL模块，且添加的DBL模块中卷积层的输出特征图通道数为该模块输入特征图通道数的

既起到了数据降维的作用，又能融合各个通道的特征。

4、网络模型优化是神经网络用于优化各个指标的常用方法手段。为了最大限度保留模型的特征表达能力，减少模型参数量，提高运算效率，本发明利用深度可分离卷积替换普通的卷积运算。深度可分离卷积将普通的卷积过程分为两个部分：逐通道卷积(Depthwise)和逐点卷积(Pointwise)。

逐通道卷积过程，一个卷积核负责一个通道的卷积运算，即卷积核数量与输入特征图的通道数相同，假设输入图片维度为W×H×C，卷积核尺寸为w×h，则计算逐通道卷积过程对的参数量为：

N_Depthwise＝w×h×C

逐通道卷积后的特征图数量与输入的特征图数量一致，无法扩展，并且不同通道中的特征图是通过不同的卷积核运算，各特征图之间的空间位置信息并没有得到有效利用，因此通过逐点卷积融合不同通道的特征图。逐点卷积的卷积核尺寸为1×1×C，这一过程的卷积运算会将逐通道卷积过程输出的特征图在深度方向进行加权组合，运算层中设定的卷积核决定了该层输出的特征图通道数，设该层有k个卷积核。则逐点卷积过程的参数量计算过程可表示为：

N_Pointwise＝1×1×C×K

深度可分离卷积过程总的参数量为N_all＝N_Depthwise+N_Pointwise＝C(q+K)，若对于卷积核尺寸为p×q的普通卷积，计算卷积过程的参数量为：

N_conv＝K×p×q×C

当输入图片的维度、卷积核尺寸均大于1时，易证深度可分离卷积参数量小于普通卷积参数量。

5、本发明预测器搭建通过拼接特征提取网络中某一较浅层的特征图获取定位信息，并通过上采样操作获得三种不同尺寸的特征图，从而取得三种不同尺寸的预测结果，能够有效提升尺寸目标的检测能力。本发明改用SPP-Net与PANet的搭建方式预测器。本发明采用的SPP-Net中的空间金字塔池化实现感受野机制，因为需要增大核尺寸，所以采用卷积层实现将会大幅度减缓检测效率，最大池化操作时最适合实现该功能的选择，利用5×5、9×9、13×13三种核大小的最大池化层遍历特征图提取新特征。但是最大池化层会丢失特征图的重要信息，为保证特征图的完整性，拼接输入感受野机制的特征图。

感受野模块的加入使得网络对不同尺寸的目标都具备更高的敏感度。预测器的上采样部分与FPN相似，都有拼接特征提取网络的对应尺寸特征图用于获取定位信息。比较传统的yolo-v3的预测器，修改后的预测器加深了层数，同时为了防止过拟合，灵活使用1×1卷积层实现通道数压缩和扩张，并且在三个尺度的输出中均使用感受野部分的输出特征完成预测。

本发明搭建的DB-Net网络结构，其中Sampling为采样层，由卷积核大小为3×3，卷积步长为2×2的DBL模块构成，用来缩小特征图尺寸并进一步提供特征信息。实验发现将普通卷积改为分离卷积时，网络训练过程中还会出现损失值为NAN的情况，为保证梯度的反向传播效果，本发明引入模块残差结构，进一步整合深、浅层特征(高、低维度特征)，在一定程度上利用了分组卷积的思想。在模块残差结构的分支中加入1×1卷积用于扩充上一模块的特征图维度，能够保证模块残差操作的顺利进行。搭建Tiny版本的网络模型即简化模型结构，是为了舍弃一定的准确率，获得更高的运算效率。通过多次Add运算可以将浅层模块的特征图输入预测器，有利于预测器对目标的定位。将普通卷积修改为深度可分离卷积后，训练容易发生梯度异常，但本发明加入的模块残差结构能够有效改善该问题。

6、本发明选用yolov3作为本发明的目标检测基础算法，根据yolov3基础算法设计损失函数，设计DB-Net的损失函数。

yolov3中损失函数共有四个部分，分别有定位坐标损失、边界框损失、置性分数损失和类别损失。

yolov3定位坐标损失计算如下：

其中，λ是定位损失权重，S²表示该尺寸对应的特征图尺寸为S×S，B为网络模型的最大预测框输出数量，i表示第i个网络所输出的预测信息，j表示在所有输出的B预测框中的第j个预测数据。不同部分的损失函数原型不同，因此不同部分的损失值有一定差异，为了避免因某部分损失值过大或过小影响整体反向传播对权重的更新过程，需要将不同的损失函数计算结果进行平衡。

为判定系数，不同的预测框由不同的特征图对应点生成，判定系数用来判定生成该预测框的特征点是否负责预测该目标，若是则判定系数为1，计算损失值；若不是，则系数为0，不计算其损失值。(2-p_W×p_H)这一项为尺度系数，最大值为2，p_W×p_H为与真实标注信息最优匹配的anchor归一化后的边界框信息宽高数据。坐标损失函数的原型是平方损失，(x_i，y_i)是真实标签映射到特征图尺寸的目标中心点坐标，

即目标中心点坐标。

yolov3边界框换高损失计算如下：

宽高损失的函数原型为平方根损失，原因是在yolov3中使用了k-means聚类算法获取了九组先验anchors，anchor值与真实标签的宽高较为贴近，不适宜进行大幅度的调整，用平方损失反而会造成网络因定位误差无法减少而导致网络难以收敛的情况。

yolov3置信分数损失有两个部分构成，背景损失和前景损失：

上式为背景损失，即负样本区域损失，λ_noobj是该预测框内无正样本时的权重，因为在一张图片中负样本区域(无目标区域)所占面积远远大于正样本区域(存在目标的区域)，存在正负样本不均衡的现象，如果只针对正样本区域计算损失，一旦第一次训练预测产生漏检，很难在后续的训练过程中将漏检目标召回，因此负样本区域的损失计算是有必要的，权重的存在是为了均衡负样本区域占比远远多于正样本的不均衡问题。其中，

是判定系数，该区域内为负样本则值为1，否则为0。下式为前景损失，计算参数与背景损失计算相似。

yolov3类别损失计算如下：

其中，λ_class为类别损失部分的权重，

为预测的目标类别，p_i(c)为真实目标所属类别。

yolov3损失函数整合为下式：

L_yolov3＝L_x，y+L_w，H+L_conf1+L_conf2+L_cls

在yolov3中，定位损失分为坐标损失和宽高损失，两个部分分别进行计算。但是实际目标的坐标和换高都是对目标定位的描述，本发明认为应该采用联合计算的方式进行统一优化，以IoU作为损失函数的基础，在该基础上进行优化。本发明提出CIoU损失以及对于置信分数损失和类别损失进行改进。

DB-Net定位损失函数(CIoU)公式如下：

DB-Net置信分数损失及类别损失如下：

本发明类别损失在yolo-v3的基础上进行改进，得到最终的损失函数，公式如下：

L_myloss＝L_CIOU+L_conf+L_{yolov3_cls}

步骤三、双目相机匹配算法。

1、双目相机匹配算法，可以根据步骤三识别到的同标签物体用以深度计算。分为以下几个步骤：

第一步，粗匹配：设左图识别到的区域图设为P_l，右图检测到的区域设为P_r。计算P_l与P_r之间的距离，本发明设置为∈为2.6，距离小于阈值∈，进入第二步。距离公式如下：

针对左右相机采集到相同的符合第一步要求的区域进行ORB特征提取，将匹配后的点使用双目数学模型计算深度距离，用以后续的机器人抓取。后续部分为ORB特征提取。

第二步，尺度空间的构建，ORB算法针对尺度变化问题，以0.5倍降采样构建图像金字塔，再对每一层进行特征点的提取。

第三步，特征点提取。对某一像素点与其周围固定半径的圆上的像素之间的灰度进行比较。设中心点像素为灰度I_p，半径为3、像素数量为16的圆周上的像素点的灰度为I_p→x，ΔI为设定的灰度阈值。则周围像素点的分类S_p→x公式如下：

第四步，构建特征描述子。在得到特征点的位置后，需要对特征点进行一定的描述，ORB使用的是BRIEF特征描述子，该特征描述方法只需要对特征点周围的256组点进行灰度值的对比。

由于BRIEF特征描述子对于噪声比较敏感，因此首先使用该死滤波对图像进行平滑处理。随后对某一特征点p附近的S×S大小的领域按照(X，Y)符合

的高斯分布进行取点。

对从特征点p的S×S大小领域中取得的n个点对(x，y)进行二进制测试：

其中I(x)，I(y)在特征点领域内的一组点对的灰度值。则某特征点的BRIEF特征描述子可用如下公式来表述：

在BRIEF算法的基础上，ORB算法为进一步增强特征描述子的抗噪能力，采用积分图像进行平滑；并在31×31的领域内，以随机点为重点，取5×5的子窗口，取其中25个像素点的和进行比较并编码。

设BRIEF特征描述子选取的点对S为：

此时，BRIEF特征描述子公式如下：

g_n(p，θ)：＝f_n(p)|(x_i，y_i)∈S

第五步，对于生成的引导BRIEF特征描述子是一组包含01的一维向量，因此可以使用特征描述子之家你的汉明距离来反映两特征描述子之间的相似性。汉明距离常使用于数据传输差错控制编码中，它表示两个相同长度的字对应位不同的数量，以d(x，y)表示两个字之间的汉明距离。对两个字符串进行异或运算，并统计结果为1的个数，那么这个数就是汉明距离。并比较待选区域所有汉明距离，距离最小的为匹配点。

2、双目立体视觉技术作为计算机视觉的一个分支，双目相机数学近似模型如图5所示，具有成本低、速度快、精度高的优点。本发明使用双目立体视觉技术以便快速定位场景中的对象距离。根据双目相机数学模型，通过相似三角形理论，进行计算深度信息：

其中X_R为左相机采集图像得到的水平偏移量，XT为右相机采集图像得到的水平偏移量，d为相机偏移量，B为相机基线距离，f为相机焦距，Z为深度信息。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言，可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，包括以下步骤：

步骤一、图像预处理模块，其作用是，为了解决水下图像失真问题，增加图像的对比度，并且可以提高后续分类识别准确率，将采用摄像头采集的海底原始图像I，通过红光补偿模块、白平衡模块、和对比度增强模块，输出I_balance；

步骤二、水生物识别模块，起作用是，为了减少处理速度并提高多种水生物识别正确率，采用DBNet神经网络，针对水生物分类任务自制数据集，针对DBNet神经网络基于yolov3网络提出DBL最小单元以及DB最小模块，并改进损失函数；

步骤三、水下双目图像匹配算法，起作用是，为了减少处理量，加快整体匹配速度提高整体匹配准确率，采用基于识别框约束性ORB匹配算法，将整体匹配区域局限于左右图像符合阈值输出的识别框区域；并针对符合阈值识别框进行ORB特征匹配。

2.根据权要求1所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，步骤一所述图像预处理模块的实现过程如下：

(1)红光补偿模块，根据水下环境，只需针对红光通道进行对手通道处理，设原始输入图像为I，I_r，I_g，I_b是原始图像的红色、绿色和蓝色颜色通道集合，I_r(x，y)，I_g(x，y)，I_b(x，y)代表红色、绿色和蓝色通道尺寸W×H图像的一个像素点，其中x和y分别为图像像素水平索引和垂直索引，并且通过归一化将数值限制在[0，1]范围内得到{I_r′，I_g′，I_b′}，计算绿色通道均值和红光补偿；

(2)白平衡模块，白平衡改进后图像I_white＝{I_r″，I_g″，I_b″}；

(3)对比度增强模块，对于水下图像来说，对比度增强是将对象分离出来的过程，使用伽马校正和Priwitt锐化来提高图像对比度。

3.根据权利要求1所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，步骤二所述水生物识别模块的实现过程如下：

(1)DBNet的基本模块为DBL，包含一个卷积层，一个BN层和Mish激活层；

(2)组成DBNet的子模块为DB，在子模块中，每一层的输入都是该层上面所有层的输出，即该模块中的所有浅层特征都能直接输入到后续子模块中，使得模块内的有效特征数据均能得到重用，为了控制计算量，大大减少了原本网络结构DBL模块中的卷积层输出的特征图数量；

(3)DBNet定位损失函数CIoU公式如下：

其中，p₁，p₂分别代表预测框和真实框的中心点，ρ表示计算两个中心点间的欧式距离，l为两个边界框最小闭合区域的对角线长度，αv为惩罚项系数，有加快网络收敛的效果，α为权重函数，v为度量长宽比的相似性。

4.根据权利要求1所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，步骤三所述水下双目图像匹配算法的主要实现过程如下：

(1)设左图识别到的区域图设为P_l，右图检测到的区域设为P_r，计算P_l与P_r之间的距离，设置为∈为2.6，距离小于阈值∈，如果符合进入第二步，距离公式如下：

(2)特征点提取，对某一像素点与其周围固定半径的圆上的像素之间的灰度进行比较，设中心点像素为灰度I_p，半径为3、像素数量为16的圆周上的像素点的灰度为I_p→x，ΔI为设定的灰度阈值，则周围像素点的分类S_p→x公式如下：

若周围的16点当中，存在连续的分类为d-darker或b-brighter的像素点的数大于N，N一般取12，则认为该点为一个可能的特征点，为了加快速度，在实际检测的特征提取过程中，首先可以选择只比较周围16点中1、5、9、13四处的像素，若其中像素属于d或b的数量大于等于3，则再对这些像素使用16点检测的方法进一步验证。

5.根据权利要求2所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，计算绿色通道均值，计算公式如下：

则有红光补偿公式，如下：

其中α_g为常数值，

为输入图片经过红光补偿后得到的红光通道值，代替原有红光通道，则有红光通道改进后图像

6.根据权利要求3所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，步骤(3)中：α，v的公式如下：

7.根据权利要求3或6所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，DBNet置信分数损失及类别损失如下：

其中，上式损失函数引入平衡因子λ，用来平衡正负样本本身的比例不均，实验中选取的λ为0.25，即正样本占比较负样本占比小，但只添加平衡因子只能解决正负样本不均衡问题，无法解决简单与困难样本的问题，因此，又加入参数γ用于调节简单样本权重减缓的速率，当γ为0时，损失函数即为交叉熵损失函数，当γ增加时，调整因子的影响也在增加；实验选取γ为2；

类别损失在yolov3的基础上进行改进，得到最终的损失函数，公式如下：

8.根据权利要求4所述的一种基于图像处理和神经网络融合的水生物识别与匹配方法，其特征在于，使用上述方法，

在待检测区域中提取出大量可能的特征点时，为克服检测的顺序和图片边缘周围的特征点的分布可能会降低图像特征提取的效率，在ORB算法中，使用ID3算法训练的决策树来筛选最优点，为避免可能会出现特征点相互粘连的情况，使用非最大值抑制对像素点进一步筛选，设中心坐标灰度值为p，周围连续N个像素大于或小于阈值t的像素灰度值由v_i表示，其评价指标函数如下：