CN112215116A

CN112215116A - 一种移动式面向2d图像的3d河蟹实时检测方法

Info

Publication number: CN112215116A
Application number: CN202011064927.3A
Authority: CN
Inventors: 赵德安; 曹硕; 孙月平; 戚浩; 盛亮; 石子坚; 潘望俊; 周文全
Original assignee: Changzhou Jintan District Fisheries Technical Guidance Station; Jiangsu University
Current assignee: Changzhou Jintan District Fisheries Technical Guidance Station; Jiangsu University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-12
Anticipated expiration: 2040-09-30
Also published as: CN112215116B

Abstract

本发明公开了一种移动式面向2D图像的3D河蟹实时检测方法，该方法通过安装在自动投饵船下方的CMOS摄像头进行俯拍，随船运动，连续采集能够反映河蟹自然生活状态的水下二维RGB图像，并利用注释工具和增强现实会话数据共同建立具有标注姿态且形状多变的河蟹数据集；受无锚框机制启发，采用高斯中心分布仅从单个RGB图像出发，在编码器‑解码器架构提取特征后，采用形状、检测和回归相辅的多任务联合学习方式预测未知河蟹的2D边界框；再通过完善的姿态估计算法EPnP，将2D预测扩展到3D边界框以估计河蟹的姿态和物理尺寸，从而构建超轻量型单阶3D河蟹检测模型。该方法能够提高自动投饵船的变量投饵效率和投喂效果。

Description

一种移动式面向2D图像的3D河蟹实时检测方法

技术领域

本发明涉及机器视觉和模式识别领域，具体为一种基于二维机器视觉的三维检测及大小测量方法。

技术背景

河蟹是我国产量最大的淡水蟹类，具有丰富的营养和药用价值，给渔民带来了巨大的经济收益。但当前河蟹养殖面临变量均匀投饵这一大难题，其饵料利用率和投喂效率相对偏低，这主要是由于河蟹的养殖方式主要依靠渔民养殖经验来粗略地估算饵料投喂量，并未考虑池塘河蟹大小、密度分布和水体环境不同导致的池塘各处所需饵料的巨大差异。但是，在没有人为干预的情况下，很难估算池塘河蟹的大小和密度分布，因为河蟹很敏感，并且在能见度和光照都无法控制的水下环境中自由活动。到目前为止，河蟹生物量估计主要基于人工经验和人工采样，这通常是侵入性的，耗时且费力。因此，迫切需要开发一种非侵入性、快速和具有成本效益的手段。

机器视觉和模式识别技术提供了开发非侵入性、快速、便利的河蟹大小和生物量原位估计方法的可能性，以及科学地分析水下生物生长状况的解决方案。即利用视觉相机来自动获取视频/图像，然后根据模式识别程序自动分析、提取关键信息，实现生物量估计和生物监测。目前的大多数研究都涉及一种2D方法，即采用最常用的RGB相机传感器，根据鱼类/蟹类生物的颜色、几何形状、纹理和其他视觉特征对抓取的2D鱼类/蟹类图像进行分析，从而识别、区分及定位鱼类/蟹类的位置。但基于2D图像的鱼类/蟹类识别无法准确反映鱼类/蟹类的实际大小和形状，而且它们在实际环境中相对于其他目标的相对位置也无法满足鱼类/蟹类定位的要求。

一些昂贵的相机包括热像仪、多光谱相机和高光谱相机可通过温度或不同波长的反射率来识别定位鱼类/蟹类，但是他们依然不能够提供3D信息。通过三角测量技术、激光测距仪、基于LiDAR(光检测和测距)的系统和RGB-D相机，可以从获取的3D数据中提取更加丰富的特征来克服2D成像、特征提取等方面存在的各种困难。尽管在鱼类/蟹类分类和海洋生物监控方面具有不少潜在优势，但这类方法由于其价格高昂、计算复杂和操作速度缓慢(与2D方法相比)的不足以及需要额外硬件的支撑，尚未在移动设备(比如自动投饵船)中得到普及。

发明内容

针对上述现有技术的不足，本发明的目的在于提供一种移动式面向2D图像的3D河蟹实时检测及大小测量方法，该方法采用高斯中心分布仅从单个RGB图像出发，预测未知河蟹的2D边界框，并将预测扩展到3D估计河蟹的姿态和物理尺寸，既具有三维数据检测河蟹大小、位置和方向的优势，又具有二维数据在移动设备上实时计算的实用性。该方法能够搭载在自动投饵船上以估算河蟹的大小、成活率和密度分布为科学确定池塘各处所需饵料提供关键性的决策依据，使饵料能够充分发挥效能，获得最大的经济效益，提高自动投饵船变量投饵效率和效果。此外，还能够对池塘河蟹进行产量预测和产量映射，提高河蟹养殖的生产和管理效率。

本发明的技术方案为一种移动式面向2D图像的3D河蟹实时检测，包括以下步骤：

步骤1，通过安装在自动投饵船下方的CMOS摄像头进行俯拍，随船运动，连续采集能够反应河蟹自然生活状态的水下二维RGB图像。

步骤2，利用新颖的注释工具以3D矩形边界框方式，快速标记采集的真实2D视频帧/图像数据中的河蟹，并与利用增强现实会话数据合成的具有3D边界框、分割和坐标图标签的3D数据，共同建立具有标注姿态且形状多变的河蟹数据集。

步骤3，构建超轻量型单阶3D河蟹检测模型，受无锚框机制启发，采用高斯中心分布仅从单个RGB图像出发，在编码器-解码器架构提取特征后，采用形状、检测和回归相辅的多任务联合学习方式预测未知河蟹的2D边界框；再通过完善的姿态估计算法EPnP，将2D预测扩展到3D边界框以估计河蟹的姿态和物理尺寸。该3D检测模型主要由主干网、预测头和后处理三部分构成，具体如下：(a)以编码器-解码器架构作为3D河蟹检测模型的主干，并选择超轻量的MobileNetV3作为主干网络的编码器；(b)在主干网络后的预测头采用多任务联合学习：形状预测、目标检测和回归任务(姿态及大小估计)，通过检测和回归共同预测河蟹的形状，预测的河蟹形状会在网络输出用于构建2D-3D的对应关系；(c)后处理部分提取检测输出的峰值，利用完善的姿态估计算法EPnP，在无需先验了解河蟹尺寸的情况下恢复并最终获取河蟹的3D黏连边界框，然后基于获取的3D黏连边界框便可轻松估算河蟹的姿态和物理大小。

步骤4，采用建立的河蟹数据集在TensorFlow框架中训练3D河蟹检测模型，使用Adam优化器更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而训练出最优的模型实现未知河蟹快速精准的3D检测及大小测量。

步骤5，为了能够在自动投饵船上部署训练的3D检测模型，将其转换为TFLite模型，并在转换过程中删除一些推理计算不需要的层(比如批归一化层等)。

进一步，步骤2中训练数据的具体建立过程为：标注工具使用分屏视图显示2D视频帧，左边是3D边界框，右边是3D点云、摄像机位置和检测到的平面视图。标注者在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。而对于静态目标，标注者只需要在单帧中对目标进行注释，然后利用增强现实会话数据中的真值相机姿态信息将其位置更高效传播到所有帧。最终建立相互补充的2D和3D标签数据集，即在不同位置采集的具有3D边界框的真实图像数据、具有准确且完整标签(3D边界框、分割和坐标图)的合成3D数据以及含有大量目标和分割标签的合成2D数据，以一种低成本的方式准备2D和3D标签训练数据。

进一步，步骤3(a)中超轻量型主干的具体架构为：编码器-解码器架构，其中编码器由基于MobileNetV2的线性瓶颈残差结构和MnasNet的挤压-激励注意力建立的MobileNetV3结构块组成，解码器由反卷积、级联和具有激励-挤压注意力机制的线性瓶颈残差结构组成。

进一步，步骤3(b)中多任务联合学习的具体过程为：(1)形状预测任务根据可用的分割真值注释预测形状特征，以弱监督的方式引入高分辨率形状预测改善河蟹姿态估计；(2)目标检测任务根据带注释的边界框将目标建模为高斯分布，通过寻找峰值来检测河蟹；(3)回归任务根据边界框顶点的位移场来估计矩形边界框八个边界框顶点的2D投影。

进一步，步骤3(c)中峰值提取和EPnP的具体操作为：提取检测任务输出的峰值，即热图，计算3D边界框的投影顶点；根据投影的2D框顶点和相机内在函数，采用EPnP算法按比例恢复3D黏连边界框，然后进一步估算对象的姿态和尺寸。

本发明的技术效果为：针对自动投饵船在缺乏3D图像数据、计算能力有限等情况下，采用机器视觉与模式识别技术开发了一种非侵入性、快速和具有成本效益的手段，实现对水下活蟹大小及数量的检测。该方法能够面向普通的2D图像数据以3D恢复方式快速准确地检测河蟹的大小、成活率和密度分布，为科学确定池塘各处所需饵料提供关键性的决策依据，提高自动投饵船变量投饵效率和效果。同时也能够对池塘河蟹进行产量预测和产量映射，提高池塘河蟹养殖的生产和管理效率。

附图说明

图1基于二维图像的三维河蟹检测实现流程图；

图2编码器-解码器及多任务架构示意图；

图3具有挤压-激励注意的反向残差结构块示意图；

具体实施方式

下面结合附图对本发明的具体实施方式做进一步描述，具体的流程如图1所示。

1、前处理，主要包括二维河蟹图像的采集和相互补充河蟹数据集的构建

(1.a)二维河蟹图像采集

本发明通过安装在自动投饵船下方的CMOS摄像头进行俯拍，随船运动，连续采集能够反应河蟹自然生活状态的水下二维RGB视频/图像，分辨率为1920×1080像素。

(1.b)相互补充河蟹数据集的构建

利用新颖的标注工具以3D矩形边界框方式，快速标记采集的真实2D视频帧/图像数据中的河蟹，并与利用增强现实会话数据合成的具有3D边界框、分割和坐标图标签的3D数据，共同建立具有标注姿态且形状多变的河蟹数据集，用于3D河蟹检测模型的训练、验证和测试。

具体而言，标注工具使用分屏视图显示2D视频帧，左边是3D边界框，右边是3D点云、摄像机位置和检测到的平面视图。标注者在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置。而对于静态目标，标注者只需要在单帧中对目标进行注释，然后利用增强现实会话数据中的真值相机姿态信息将其位置更高效传播到所有帧。最终建立相互补充的数据集，即在不同位置采集的具有3D边界框的真实图像数据、具有准确且完整标签(3D边界框、分割和坐标图)的合成3D数据以及含有大量目标和分割标签的合成2D数据，以一种低成本的方式准备2D和3D标签训练数据。

2、超轻量型单阶3D河蟹检测模型的构建

本发明所述的超轻量型单阶3D河蟹检测模型，核心实现过程如图2所示，受无锚框机制启发采用高斯中心分布仅从单个RGB图像出发，在编码器-解码器架构提取特征后，采用形状、检测和回归相辅的多任务联合学习方式预测未知河蟹的2D边界框；再通过完善的姿态估计算法EPnP，将2D预测扩展到3D边界框以估计河蟹的姿态和物理尺寸。该3D检测模型主要由主干网、预测头和后处理三部分构成，具体如下：(2.a)以编码器-解码器架构作为3D河蟹检测模型的主干，并选择超轻量的MobileNetV3作为主干网络的编码器；(2.b)在主干网络后的预测头采用多任务联合学习：形状预测、目标检测和回归任务(姿态及大小估计)，通过检测和回归共同预测河蟹的形状，预测的河蟹形状会在网络输出用于构建2D-3D的对应关系；(2.c)后处理提取检测输出的峰值，利用完善的姿态估计算法EPnP，在无需先验了解河蟹尺寸的情况下恢复并最终获取河蟹的3D黏连边界框，然后基于获取的3D黏连边界框便可轻松估算河蟹的姿态和大小。

(2.a)主干网：编码器-解码器

主干网由编码器-解码器架构实现，其中编码器由基于MobileNetV3网络块组成，该编码器已被证明可在移动设备上实时运行。如图3所示，MobileNetV3结构块综合了深度可分离卷积、线性瓶颈反向残差结构和基于挤压-激励的轻量级注意力的思想，其挤压-激励结构置于反向残差结构瓶颈层的深度可分离卷积之后。挤压-激励结构是一种轻量级的注意力机制，如图3，具体就是通过全局池化顺着空间维度进行特征压缩，获取全局感受野；通过样例特化激活函数，建模特征通道间的相关性；再将相关性通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。实现从全局信息出发来选择性的放大有价值的特征通道并且抑制无用的特征通道，增强编码器的表达能力。

图2中绿色方框表示具有挤压-激励注意的反向残差结构块，橙色和蓝色方框分别表示卷积块和去卷积块，并且图中所示的块数及其尺寸在实现过程中完全相同。主干的输入是经过调整后的尺寸为640×480×3的图像，编码器从第一个卷积层开始，接着是5级具有挤压-激励注意的反向残差结构块。解码器由一个反卷积层、一个级联层(在编码器中具有相同尺度的短接)和两个具有挤压-激励注意的反向残差结构块，连续3级堆叠组成。

(2.b)预测头：多任务联合学习

主干网后多任务联合学习的具体过程为：

1)形状预测任务根据可用的分割真值注释预测形状特征，以弱监督的方式引入高分辨率形状预测改善河蟹姿态估计。具体来说，在解码器的最后添加一个中间层，结合解码器中的多尺度特征预测形状特征；然后形状特征与解码器串联，利用四个具有挤压-激励注意的反向残差结构块降低分辨率，附加在检测任务与回归任务上进一步用于姿态预测。

2)目标检测任务根据带注释的边界框将目标建模为高斯分布，通过寻找峰值来检测河蟹，避免了与锚框机制相关的复杂计算，可显著减少网络的训练内存，也避免了与锚框机制相关的对检测性能非常敏感的超参数的设置。具体来说，检测任务受无锚框方法的启发，围绕目标中心的分布进行目标建模，输出40×30×1的热图，如图2右上角的检测分布输出所示。对于具有P个像素的图像I，热图被计算作为二元正态分布

其中O表示图像中所有目标实例的集合；μ_i表示目标i的质心位置；δ_i是与目标大小成比例的核大小。当图像中存在多个目标时，选择每个像素的最大热，通过将目标建模为高斯分布，然后再通过寻找峰值来检测它们。

3)回归任务根据边界框顶点的位移场来估计矩形边界框八个边界框顶点的2D投影。具体而言，对于一个长方体顶点X_i，让x_i表示它在图像平面上的投影，计算图像中多个目标的位移场矢量D_i(P)＝x_i-P并与它们相应的热度融合。如图2右下角所示，输出40×30×16的张量，为每个长方体顶点贡献两个通道的位移。同时为减少峰值提取中的误差，会回归所有显著热度像素的位移，并采用平均绝对误差作为损失函数，使回归对异常值更加鲁棒。

(2.c)后处理：峰值提取和EPnP

后处理过程首先提取检测任务输出的峰值，即40×30热图，计算3D边界框的投影顶点。具体来说，对于峰值像素P(不一定是中心像素)，可以通过x_i＝P+D_i(P)来简单计算投影边界框的八个顶点{x_i}，其中D_i(P)是根据上述步骤3)计算的顶点x_i的位移矢量场。

然后根据计算的2D边界框投影顶点和相机内在函数，采用EPnP算法按比例恢复3D黏连边界框。EPnP算法具有恒定的复杂度，可解决12×12矩阵的特征分解，并且不需要知道检测对象的尺寸大小。具体来说，选择4个控制点{C_j}作为目标坐标系中的原点，其中3个点沿着坐标轴，这些控制点构成目标框架的正交基础。3D边界框的八个顶点可以由这四个控制点来表示：

其中δ_ij是刚性变换下的保持系数。另外，从相机投影中获得由16个方程组成的线性系统，为每个边界框顶点贡献2个方程。然后将相机框架中的控制点重写为12维矢量C^c，将线性系统公式化Q·C^c＝0，其中Q是由2D边界框顶点矢量x_i、相机内在函数和保持系数δ_ij计算所得的16×12矩阵，最终Q^TQ的特征向量就为该线性系统的解。之后再使用该解，通过公式

在相机框架中恢复3D黏连边界框，进一步估算目标的姿态和尺寸。

3、轻量型3D河蟹检测模型的训练与移动设备部署

(3.a)3D河蟹检测模型的训练

采用建立的河蟹数据集在TensorFlow框架中训练上述步骤构建的3D河蟹检测模型，使用Adam优化器更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而训练出最优的模型实现未知河蟹快速精准的3D检测及大小测量。

(3.b)轻量型3D河蟹检测模型在移动设备的部署

为了能够在自动投饵船上部署训练的3D检测模型，将该模型转换为TFLite模型，并在转换过程中删除一些推理计算不需要的层(比如批归一化层等)，从而在计算资源有限的自动投饵船上，最终仅通过普通的2D图像便可快速稳定实现3D河蟹检测及物理大小测量。

综上，本发明的一种移动式面向2D图像的3D河蟹实时检测，通过安装在自动投饵船下方的CMOS摄像头进行俯拍，随船运动，连续采集能够反应河蟹自然生活状态的水下二维RGB图像，并利用注释工具和增强现实会话数据共同建立具有标注姿态且形状多变的河蟹数据集。然后受无锚框机制启发，采用高斯中心分布仅从单个RGB图像预测未知河蟹的2D边界框，并将预测扩展到3D以估计河蟹的姿态和物理尺寸，从而构建超轻量型单阶3D河蟹检测模型。最后利用河蟹数据集在TensorFlow框架中训练出需要的3D河蟹检测模型，实现未知河蟹快速精准的3D检测及大小测量，同时对河蟹成活率和密度分布进行统计分析，为科学确定池塘各处所需饵料提供关键性的决策依据，提高自动投饵船变量投饵效率和效果。另外，该方法也能够对池塘河蟹进行产量预测和产量映射，提高池塘河蟹养殖的生产和管理效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种移动式面向2D图像的3D河蟹实时检测方法，其特征在于，包括以下步骤：

步骤1，通过安装在自动投饵船下方的CMOS摄像头进行俯拍，随船运动，连续采集能够反映河蟹自然生活状态的水下二维RGB图像；

步骤2，利用新颖的标注工具以3D矩形边界框方式，快速标记采集的真实2D视频帧/图像数据中的河蟹，并与利用增强现实会话数据合成的具有3D边界框、分割和坐标图标签的3D数据，共同建立具有标注姿态且形状多变的河蟹数据集；

步骤3，构建超轻量型单阶3D河蟹检测模型，采用高斯中心分布仅从单个RGB图像出发，在编码器-解码器架构提取特征后，采用形状、检测和回归相辅的多任务联合学习方式预测未知河蟹的2D边界框；再通过完善的姿态估计算法EPnP，将2D预测扩展到3D边界框以估计河蟹的姿态和物理尺寸，该3D检测模型主要由主干网、预测头和后处理三部分构成，具体如下：

步骤3.1，以编码器-解码器架构作为3D河蟹检测模型的主干，并选择超轻量的MobileNetV3来构建主干网络的编码器；

步骤3.2，在主干网络后的预测头采用多任务联合学习：形状预测、目标检测和回归任务，通过检测和回归共同预测河蟹的形状，预测的河蟹形状会在网络输出用于构建2D-3D的对应关系；

步骤3.3，后处理部分提取检测输出的峰值，利用完善的姿态估计算法EPnP，在无需先验了解河蟹尺寸的情况下恢复并最终获取河蟹的3D黏连边界框，然后基于获取的3D黏连边界框，可以轻松估算河蟹的姿态和大小；

步骤4，采用建立的河蟹数据集在TensorFlow框架中训练3D河蟹检测模型，使用Adam优化器更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而训练出最优的模型实现未知河蟹快速精准的3D检测和大小测量；

步骤5，为了能够在自动投饵船上部署训练的3D检测模型，将其转换为TFLite模型，并在转换过程中删除一些推理计算不需要的层。

2.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法，其特征在于，所述步骤2训练数据的具体建立过程为：标注工具使用分屏视图显示2D视频帧，左边是3D边界框，右边是3D点云、摄像机位置和检测到的平面视图，标注者在3D视图中绘制3D边界框，并通过查看2D视频帧中的投影来验证其位置，而对于静态目标，标注者只需要在单帧中对目标进行注释，然后利用增强现实会话数据中的真值相机姿态信息将其位置更高效传播到所有帧，最终建立相互补充的数据集，即在不同位置采集的具有3D边界框的真实图像数据、具有准确且完整标签的合成3D数据以及含有大量目标和分割标签的合成2D数据，以一种低成本的方式准备2D和3D标签训练数据。

3.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法，其特征在于，所述步骤3.1中超轻量型主干的具体架构为：编码器-解码器架构，其中编码器由基于MobileNetV2的线性瓶颈残差结构和MnasNet的挤压-激励注意力建立的MobileNetV3结构快组成，解码器由反卷积、级联和具有激励-挤压注意力机制的线性瓶颈残差结构组成。

4.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法，其特征在于，所述步骤3.2中多任务联合学习的具体过程为：(a)形状预测任务根据可用的分割真值注释预测形状特征，以弱监督的方式引入高分辨率形状预测改善河蟹姿态估计；(b)目标检测任务根据带注释的边界框将目标建模为高斯分布，通过寻找峰值来检测河蟹；(c)回归任务根据边界框顶点的位移场来估计矩形边界框八个边界框顶点的2D投影。

5.根据权利要求1所述的一种移动式面向2D图像的3D河蟹实时检测方法，其特征在于，所述步骤3.3中后处理部分提取检测输出的峰值，利用完善的姿态估计算法EPnP的具体操作为：提取目标检测任务输出的峰值，即热图，计算3D边界框的投影顶点；根据投影的2D框顶点和相机内在函数，采用EPnP算法按比例恢复3D黏连边界框，然后进一步估算目标的姿态和尺寸。