CN113642429B

CN113642429B - 一种基于tpp-tccnn的海洋鱼类识别方法

Info

Publication number: CN113642429B
Application number: CN202110865502.0A
Authority: CN
Inventors: 黄梦醒; 黎贞凤; 张雨; 冯思玲; 李玉春; 冯文龙; 毋媛媛; 吴迪
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-07-14
Anticipated expiration: 2041-07-29
Also published as: CN113642429A

Abstract

本发明提供一种基于TPP‑TCCNN的海洋鱼类识别方法，包括下列步骤：采集包含多种鱼类的原始视频，将所述原始视频划分为训练集以及测试集，并对所述训练集的鱼类视频信息进行预处理；对预处理后的鱼类视频信息进行特征提取，获取光流图像；建立双通道卷积神经网络，以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练，获得输出特征，所述RGB图像中所包含的鱼类信息与所述原始视频中的一致；通过softmax分类模型对所述输出特征进行分类训练；将测试集中的鱼类视频信息输入到最终的softmax分类模型中，得到鱼类分类结果。

Description

一种基于TPP-TCCNN的海洋鱼类识别方法

技术领域

本发明涉及鱼类识别技术领域，尤其涉及一种基于TPP-TCCNN的海洋鱼类识别方法。

背景技术

随着计算机科学技术的迅猛发展，人工智能应用到各个研究领域中。目前科研人员出海捕鱼，采集样本数据，仍需要人工进行分拣，过程十分繁琐，场景比较复杂，且消耗时间成本十分巨大，在海洋智能监控领域，针对视频画面中的鱼的种类的识别拥有广泛的应用前景。不仅能开发利用鱼类资源，也为发展海洋渔业生产起到了非常积极的作用，具有重大的学术研究意义和经济效益。

近年来，国内外研究者对机器视觉技术在鱼类分类识别上的应用进行了大量的研究，传统的目标检测算法利用采集到的图片特征信息，然后通过特征对比，判断是否是对应类型的图片。各个类别的特征都需要进行比较，因此传统算法的操作方式效率非常低。海洋鱼类分类识别涉及到基于特征值、支持向量机、CNN等方法。在各项分类方法中，基于特征值的分类算法比较简单并且易于操作，缺点是识别准确度较低；支持向量机的操作灵活多变，分类准确度很高，但是很难实现大规模数据集的训练、还需要进行人工选择特征值；相比之下，卷积神经网络(Convolutional Neural Network，CNN)具备独立学习的能力，分类精确度更高，鲁棒性更好。缺点是卷积神经网络需要取得大量的训练数据，随着神经网络层数和训练次数epoch的增加，网络计算的复杂度会增加，训练模型的时间会加长。随着网络的深入，训练集准确度会下降，影响最终分类精确度。

目前，基本的深度学习网络模型只能实现在识别时序跨度比较短的视频进行类别判断，对持续时间长的视频存在分类识别率较低的问题。

发明内容

本发明的目的在于提供一种基于TPP-TCCNN的海洋鱼类识别方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的：本发明公开了一种基于TPP-TCCNN的海洋鱼类识别方法，包括下列步骤：

采集包含多种鱼类的原始视频，将所述原始视频划分为训练集以及测试集，并对所述训练集的鱼类视频信息进行预处理；

对预处理后的鱼类视频信息进行特征提取，获取光流图像；

建立双通道卷积神经网络，以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练，获得输出特征，所述RGB图像中所包含的鱼类信息与所述原始视频中的一致；

通过softmax分类模型对所述输出特征进行分类训练；

将测试集中的鱼类视频信息输入到最终的softmax分类模型中，得到鱼类分类结果；

所述对预处理后的鱼类视频信息进行特征提取，获取光流图像，包括：

建立约束方程：

I(x+dx,y+dy,t+dt)＝I(x,y,t)

式中，I代表每个帧画面中的灰度值信息，x、y、t代表光流方向；

将所述约束方程根据泰勒定理展开：

式中

表示光流向量x方向上的分量，/>

表示光流向量y方向上的分量,

分别代表x,y,t三个方向上的微分；

令

可得到下式；

从预处理后的鱼类视频信息中随机选取帧画面，通过计算图像像素点变化从而得到相应帧画面中的光流信息：

所述将光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练，获得输出特征，其步骤包括：

将所述光流图像或RGB图像之一输入带有金字塔池化层的双通道卷积神经网络中的第一层进行7×7×96卷积，获得第一特征图；

将所述第一特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样，获得第二特征图；

将所述第二特征图输入双通道卷积神经网络中的第一层进行5×5×384卷积操作，获得第三特征图；

将所述第三特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样，获得第四特征图；

将所述第四特征图输入双通道卷积神经网络中进行两次3×3×512卷积操作，获得第五特征图；

将所述第五特征图输入双通道卷积神经网络中进行3×3×384卷积操作，获得第六特征图；

将所述第六特征图依次输入双通道卷积神经网络中的最大池化层、金字塔池化层，获得第七特征图；

将所述第七特征图输入两个全连接层后获得4096维特征向量，所述特征向量即为输出特征。

可选的，将所述第六特征图输入双通道卷积神经网络中的最大池化层后，输出k*M维特征向量，对所述k*M维特征向量采用汇聚函数进行聚合及输出，获得第七特征图。

可选的，获得第一特征图、第六特征图之后，还包括：对所述第一特征图、第六特征图进行批量归一化以及修正线性激活。

可选的，所述softmax分类模型具有两个输入，其中一个输入包括所述光流图像的输出特征，另一个输入包括所述RGB图像的输出特征。

可选的，在所述softmax分类模型中通过下式实现图像分类：

其中exp(x)是以自然常数e为底的指数函数，在输出层中有n个神经元，am为输入变量，第m个神经元的输出是sm。

与现有技术相比，本发明达到的有益效果如下：

本发明提供的一种基于TPP-TCCNN的海洋鱼类识别方法，通过分析鱼类视频信息，并获取基于视频信息的光流图像，将RGB图像和光流图像输入到双通道卷积神经网络进行交叉跨模态预训练，这个操作能降低在时间流网络中的过拟合现象，还提升了时间流网络的识别精确度，同时加快了模型的收敛速度，并且结合金字塔池化层得到RGB图像和光流图像的输出特征并进行分类，其采用时间金字塔池化的方法对于输入样本中的各种不同尺度的时序特征进行提取，从而确保了视频时间长短不一致的序列特征能够映射成相同时长的视频序列特征，本申请的方案能够自动的分类出鱼的品种，分类精度高、稳定性强和鲁棒性好，对海洋鱼类物种监测、海洋资源研究具有重要意义。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于TPP-TCCNN的海洋鱼类识别方法的流程图；

图2是本发明实施例提供的TPP-TCCNN网络模型示意图。

图3是本发明实施例提供的金字塔池化网络示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的结构，以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

在图像处理领域，通常需要对输入的原始数据进行降低维数和冗余度，也能减少运算量，从而提升图像特征的识别率，一般是由神经网络中的池化层进行下采样实现的，由此能提取到图像的主要特征，也能提升网络模型的畸变容忍能力。池化操作通常采用最大池化(Max Pooling)、平均池化(Average Pooling)和全局平均池化(Global AveragePooling)三种方式，将滑动窗口区域内的特征按池化函数定义提取出代表这个区域内的唯一特征。但是，最大池化、平均池化，全局平均池化这三种池化操作对于时间维度的信息的特征提取的效果都有不足，所以在本发明中以一种双通道卷积神经网络结构为基础，并且采用时间金字塔池化(TPP)的方法，即Time Pyramid Pooling-Two channelconvolutional neural network structure(TPP-TCCNN)，当对输入样本中的各种不同尺度的时序特征进行提取，可以确保视频时间长短不一致的鱼类特征能够映射成相同时长的视频序列特征，能够自动的分类出鱼的品种，因此参见图1，本申请所公开的一种基于TPP-TCCNN的海洋鱼类识别方法，包括下列步骤：

S1、采集包含多种鱼类的原始视频，将所述原始视频划分为训练集以及测试集，并对所述训练集的鱼类视频信息进行预处理；

S2、对预处理后的鱼类视频信息进行特征提取，获取光流图像；

S3、建立双通道卷积神经网络，以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练，获得输出特征，所述RGB图像中所包含的鱼类信息与所述原始视频中的一致；

S4、通过softmax分类模型对所述输出特征进行分类训练；

S5、将测试集中的鱼类视频信息输入到最终的softmax分类模型中，得到鱼类分类结果。

在步骤S1中，训练集和测试集的比例为8:2，作为示例性的，通过无人机拍摄获取的一组包含15种分类的视频数据集，并且按照一定比例划分为训练集和测试集，并且数据集已有鱼类专家观察并且已经标注好鱼类的品种，例如长鳍金枪鱼、黄鳍鲷、金钱鱼、大眼金枪鱼、黄鳍金枪鱼、鲈鱼、绿鳍鱼、鳅鱼、月鱼、银鲳鱼、大菱鲆、鲻鱼、鲨鱼、其他(除了以上的鱼的其他类别)、无鱼类(表示没有鱼出现在视频里)等。

在数据预处理过程中，首先把样本数据集中的图像窗口尺寸大小统一设为320×320像素；

通过采用对Fish15数据集里对应的图像进行左右、上下翻转，并且通过旋转不同大小角度，例如90度、180度、270度，这种翻转不仅保留了视觉结构，并且为深度学习模型提供了更多的数据，除此之外还进行水平翻转的操作，可以得到镜像的画面；

对视频画面中添加噪声，采用标准差为0.1的高斯扰动；

采用随机尺度抖动方法中采取的方式，将数据集视频的尺寸统一为320×320，然后从{150，196，224，256}这个集合中随机选取出两个数值分别作为剪裁后视频画面尺寸的高度与宽度，最后将处理后视频尺寸再统一修改为224×224，通过这种方式可以有效避免训练样本数据集过少导致的过拟合现象，同时还减小输入数据样本集的维数，例如将画面尺寸由320×320改为最终的224×224，也可以缩短训练时间。

另外需要说明的是，所采集的RGB图像中也包含与所述原始视频一致的鱼类品种，例如长鳍金枪鱼、黄鳍鲷、金钱鱼、大眼金枪鱼、黄鳍金枪鱼、鲈鱼、绿鳍鱼、鳅鱼、月鱼、银鲳鱼、大菱鲆、鲻鱼、鲨鱼、其他(除了以上的鱼的其他类别)、无鱼类(表示没有鱼出现在视频里)等。

在步骤S2中，本实施例采用Brox光流法在相邻帧画面中通过约束方程逐步细化从而提取出被检测目标的运动信息的光流，然后再利用Munsell颜色转换系统将被检测目标的运动信息光流变为与之匹配的光流特征图。当不同帧间发生位移时，可以将像素点的灰度值设定为不变的值，其具体步骤包括：

S201、建立约束方程：

I(x+dx,y+dy,t+dt)＝I(x,y,t)

S202、将所述约束方程根据泰勒定理展开：

式中

表示光流向量x方向上的分量，/>

表示光流向量y方向上的分量,

分别代表x,y,t三个方向上的微分；

S203、令

可得到下式；

S204、从预处理后的鱼类视频信息中随机选取帧画面，通过计算图像像素点变化从而得到相应帧画面中的光流信息：

参见图2，进一步的，在步骤S3中，将光流图像以及RGB图像分别输入带有金字塔池化层的双通道卷积神经网络中进行训练，可获得与光流图像对应的输出特征，以及与所述RGB图像对应的输出特征，需要说明的是，对光流图像以及RGB图像进行训练的步骤一直，本实施例以光流图像为例进行说明，其将光流图像别输入带有金字塔池化层的双通道卷积神经网络中进行训练的步骤包括：

S301、将所述光流图像输入带有金字塔池化层的双通道卷积神经网络中的第一层进行步长为2的7×7×96卷积，获得第一特征图；

S302、将所述第一特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样，获得第二特征图；

S303、将所述第二特征图输入双通道卷积神经网络中的第一层进行5×5×384卷积操作，获得第三特征图；

S304、将所述第三特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样，获得第四特征图；

S305、将所述第四特征图输入双通道卷积神经网络中进行两次3×3×512卷积操作，获得第五特征图；

S306、将所述第五特征图输入双通道卷积神经网络中进行3×3×384卷积操作，获得第六特征图；

S307、将所述第六特征图依次输入双通道卷积神经网络中的最大池化层、金字塔池化层，获得第七特征图；

S308、将所述第七特征图输入两个全连接层后获得4096维特征向量，所述特征向量即为输出特征。

参见图3，在步骤307中，进一步的，本实施例设定时间金字塔层数为N，那么在金字塔池化层中就会产生

个时间块，假定有k个滤波器在网络的最末尾的卷积操作后，那么通过池化金字塔池化层，最终生成对应的k*M维特征向量，对所述k*M维特征向量采用汇聚函数进行聚合及输出，获得第七特征图。

需要说明的是，可采用平均汇聚与最大汇聚函数进行聚合及输出，其平均汇聚函数为：

最大汇聚函数为：

在步骤S301以及S306中，可选的，获得第一特征图、第六特征图之后，还包括：对所述第一特征图、第六特征图进行批量归一化以及修正线性激活。

可选的，在所述softmax分类模型中通过下式实现图像分类：

其中exp(x)是以自然常数e为底的指数函数，在输出层中有n个神经元，a_m为输入变量，第m个神经元的输出是s_m。

最终将测试集中的视频数据输入到最终的分类模型中，得到鱼类的分类结果。

综上所述，本申请与其他现有鱼类分类方法具有以下优点：(1)采用了三种方法：随机角点裁剪、随机尺度抖动以及水平翻转。有效解决了样本数据集中样本视频过少带来的网络过拟合现象。

(2)采用cross-model(交叉跨模态)预训练，在TPP-TCCNN中的光流网络使用的是与RGB图像不同的光流特征，而且RGB图像与光流图中的时序联系特征是不一致的，所以时间流网络进行参数初始化时就得使用cross-model的预训练方式。在进行交叉跨模态预训练前需要预先将光流场的数值范围采用线性变换的方法，实现光流场的数值范围限定在0～255内，与RGB图像的数值离散范围(0～255)一致。交叉跨模态预训练这个操作能降低在时间流网络中的过拟合现象，还提升了时间流网络的识别精确度，同时加快了模型的收敛速度。

(3)采用时间金字塔池化的方法对于输入样本中的各种不同尺度的时序特征进行提取，从而确保了视频时间长短不一致的序列特征能够映射成相同时长的视频序列特征。

为了验证本发明实施例的效果，本申请设置了一组对照试验，主要为了比较提出的方法(TPP-TCCNN)和其他的分类方法(LRCN、TRN等)的对比准确率。其结果如表1所示，由测试准确度的对比可以看出所提出的方法(TPP-TCCNN)明显优于现有的海洋鱼类分类方法。

表1

Method	Accuracy(％)
		LRCN	83.6
TRN	82.2
		TPP-TCCNN	91.8

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于TPP-TCCNN的海洋鱼类识别方法，其特征在于，包括下列步骤：

对预处理后的鱼类视频信息进行特征提取，获取光流图像；

通过softmax分类模型对所述输出特征进行分类训练；

建立约束方程：

I(x+dx,y+dy,t+dt)＝I(x,y,t)

将所述约束方程根据泰勒定理展开：

式中

表示光流向量x方向上的分量，/>

表示光流向量y方向上的分量,/>

分别代表x,y,t三个方向上的微分；

令

可得到下式；

将光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练，获得输出特征，其步骤包括：

2.根据权利要求1所述的一种基于TPP-TCCNN的海洋鱼类识别方法，其特征在于，将所述第六特征图输入双通道卷积神经网络中的最大池化层后，输出k*M维特征向量，对所述k*M维特征向量采用汇聚函数进行聚合及输出，获得第七特征图。

3.根据权利要求2所述的一种基于TPP-TCCNN的海洋鱼类识别方法，其特征在于，获得第一特征图、第六特征图之后，还包括：对所述第一特征图、第六特征图进行批量归一化以及修正线性激活。

4.根据权利要求1-3任一项所述的一种基于TPP-TCCNN的海洋鱼类识别方法，其特征在于，所述softmax分类模型具有两个输入，其中一个输入包括所述光流图像的输出特征，另一个输入包括所述RGB图像的输出特征。

5.根据权利要求4所述的一种基于TPP-TCCNN的海洋鱼类识别方法，其特征在于，在所述softmax分类模型中通过下式实现图像分类：