CN111160255B

CN111160255B - 一种基于三维卷积网络的捕鱼行为识别方法及系统

Info

Publication number: CN111160255B
Application number: CN201911395671.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-07-29
Anticipated expiration: 2039-12-30
Also published as: CN111160255A

Abstract

本发明公开一种基于三维卷积网络的捕鱼行为识别方法及系统，包括步骤采集视频数据，基于视频数据得到所需图像序列；将图像序列中连续的多张图像一并输入三维卷积网络，提取输入数据的多维度特征向量；利用输入图像序列的图像宽和高两个维度的信息生成参考锚框；利用所得多维度特征向量与参考锚框，解码出目标所在位置，并分类目标行为，得到捕鱼行为目标。本发明能够对连续输入的视频同时进行目标检测和行为分析的端到端网络结构检测识别，能够在连续的视频文件和复杂背景信息干扰下，有效识别前景目标的行为，从拍摄视频中精确的识别出捕鱼行为。

Description

一种基于三维卷积网络的捕鱼行为识别方法及系统

技术领域

本发明属于视频识别技术领域，特别是涉及一种基于三维卷积网络的捕鱼行为识别方法及系统。

背景技术

近年来，随着人工智能概念的大力推广以及相关技术的不断进步，对流媒体的智能分析技术也取得了诸多成绩。深度学习技术在图像分类、图像检测、图像分割和视频分析等领域中得到了广泛应用和有效性验证。在对流媒体的行为分析中，C3D网络以及在其基础上改进的R3D、R(2+1)D等网络被不断提出和改进，但是这些方法在视频图像行为识别的过程中，无法有效提取识别信息，尤其是对捕鱼行为的识别，背景信息占比较大，对前景目标的行为识别影响较大，识别目标较小容易受到背景干扰，难以有效识别出捕鱼行为。

在目前传统利用C3D网络进行视频行为识别时，将视频中连续的m帧作为输入；网络中采用三维卷积核、三维池化核和全连接层构建；经过网络后对输出向量求最大值所对应的索引即为输入视频序列的预测类别。该模型可以用于序列图像的分类问题，但在目标占比小而背景占比大时，分类结果会受到背景干扰，导致模型分类能力受限。

发明内容

为了解决上述问题，本发明提出了一种基于三维卷积网络的捕鱼行为识别方法及系统，能够对连续输入的视频同时进行目标检测和行为分析的端到端网络结构检测识别，能够在连续的视频文件和复杂背景信息干扰下，有效对前景目标的行为进行识别，从拍摄视频中精确的识别出捕鱼行为。

为达到上述目的，本发明采用的技术方案是：一种基于三维卷积网络的捕鱼行为识别方法，包括步骤：

采集视频数据，基于视频数据采集所需的图像序列；

将图像序列中连续的多张图像一并输入三维卷积网络，提取输入数据的多维度特征向量；

利用输入图像序列的图像宽和高两个维度的信息生成参考锚框；

利用所得多维度特征向量与参考锚框，解码出目标所在位置，并分类目标行为，得到捕鱼行为目标。

进一步的是，所述三维卷积网络采用改进的Retina三维卷积网络；在Retina Net的基础上引入序列图像的分类，通过对图像序列增加对目标所在区域的定位，弱化背景区域对行为分类的干扰；

所述改进的Retina三维卷积网络通过在基础Retina二维卷积网络中增加输入数据的时间维度信息得到三维卷积网络结构；并增加输入端口改造成多张图像输入的网络结构；有利于结合后续网络计算提高对连续动作的分类准确度；

所述改进的Retina三维卷积网络包括3D Conv1卷积层、3D Conv2卷积层、3DConv3卷积层和3D Conv4卷积层。

进一步的是，所述利用三维卷积网络提取输入数据的多维度特征向量，包括步骤：

将多张图像序列输入依次传入3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层提取特征，得到输入数据的多维度特征向量；

在卷积的过程中，3D Conv1卷积层将多张图像序列的时间维度m压缩为1维；3DConv2卷积层、3D Conv3卷积层和3D Conv4卷积层的操作不改变输入特征的时间维度大小，而将空间维度依次降为原来的1/2大小；

所述经过3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的特征提取结果即表示不同尺度下的金字塔式特征。

进一步的是，所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框，包括步骤：

利用3D Conv2卷积层、3D Conv3卷积层、3D Conv4卷积层三层输出所对应的P2特征图、P3特征图和P4特征图构建锚框；

在每一层中使用特征图长和宽对应的2⁰、2^1/3、2^2/3倍尺度缩放得到三个不同边长，再对所得的每个边长求对应面积，对面积再进行0.5、1、2倍尺度的缩放，开方后得到新的锚框边长；

对特征图边长进行两次不同尺度的变换，输入图像序列在空间维度对应像素点上可在每层特征图中得到多个不同长宽比的锚框，作为参考锚框。

进一步的是，分类所述目标行为时，融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征，并将其用于分类和回归任务，包括步骤：

将Conv4输出的特征图变换为列维度为4的特征图，用于训练时与对应锚框一同计算位置区域的回归损失；复制上述Conv4输出的特征图，将其变换为列维度为K的特征图，K表示分类的类别数，用于训练时与类别标签一同计算分类损失；

将Conv4输出的特征图上采样2倍，与Conv3输出的特征图按位相加得到特征融合后的特征图，将融合后的特征图变换为列维度为4的特征图，用于训练时与对应锚框一同计算位置区域的回归损失；复制融合后的特征图，将其变换为列维度为K的特征图，K表示分类的类别数，用于训练时与类别标签一同计算分类损失；

将Conv3输出的特征图上采样2倍，与Conv2输出的特征图按位相加得到特征融合后的特征图，将融合后的特征图变换为列维度为4的特征图，用于训练时与对应锚框一同计算位置区域的回归损失；复制融合后的特征图，将其变换为列维度为K的特征图，K表示分类的类别数，用于训练时与类别标签一同计算分类损失。

进一步的是，通过所述三维卷积网络对捕鱼行为目标进行预测，包括步骤：

所得的分类为对输入图像序列的分类，所得的回归预测结果为相对于锚框的偏移量，根据锚框的坐标反向恢复，得到相对于原图像序列的坐标；

获得相对于原图像序列的坐标后，一个目标有多个坐标与其对应，通过非极大值抑制的方式进行舍弃处理得到最优目标坐标作为预测结果。

进一步的是，所述根据锚框的坐标反向恢复，得到相对于原图像序列的坐标；其中恢复公式为：

其中，Δx和Δy表示预测偏移量的左上角坐标，Δw表示预测偏移量相对宽，Δh表示预测偏移量的相对高；x_a和y_a表示对应锚点的左上角坐标，w_a表示对应锚点的宽，h_a表示对应锚点的高。

另一方面，本发明还提供了一种基于三维卷积网络的捕鱼行为识别系统，包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元：

视频数据采集单元：用于采集视频数据，基于视频数据得到所需图像序列；

输入数据特征向量提取单元：用于将图像序列中连续的多张图像一并输入三维卷积网络，提取输入数据的多维度特征向量；

参考锚框生成单元：利用输入图像序列的图像宽和高两个维度的信息生成参考锚框；

捕鱼行为目标识别单元：利用所得多维度特征向量与参考锚框，解码出目标所在位置，并分类目标行为，得到捕鱼行为目标。

采用本技术方案的有益效果：

本发明所提出的方法实现了对连续输入的视频同时进行目标检测和行为分析的端到端检测识别网络结构，利用所建立的三维卷积网络得到视频数据的多维度特征向量与参考锚框，并利用多维度特征向量与参考锚框解码出目标所在位置，并分类目标行为，得到捕鱼行为目标；能够在连续的视频文件和复杂背景信息干扰下，有效识别前景目标的行为，从拍摄视频中精确识别出捕鱼行为。

本发明通过所建立的三维卷积网络实现不同卷积层之间的信息融合，能够有效检测感兴趣的区域，从而精确的从复杂背景环境中检测和分类视频感兴趣区域。

本发明所提出的方法通过对图像序列增加对目标所在区域的定位，弱化背景区域对行为分类的干扰；能够同时检测和分类感兴趣视频区域，达到减弱视频背景的干扰，为行为识别提供更有效的区域信息的目的。

附图说明

图1为本发明的一种基于三维卷积网络的捕鱼行为识别方法流程示意图；

图2为本发明实施例中所采用的三维卷积网络的结构示意图；

图3为本发明实施例中所采用三维卷积网络的处理过程示意图；

图4为本发明实施例中所采用的三维卷积网络的验证实验结果图；

图5为本发明验证实验中三维卷积网络的识别效果图；

图6为本发明的一种基于三维卷积网络的捕鱼行为识别系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，参见图1所示，本发明提出了一种基于三维卷积网络的捕鱼行为识别方法，包括步骤：

采集视频数据，基于视频数据采集所需的图像序列；

作为上述实施例的优化方案，所述三维卷积网络采用改进的Retina三维卷积网络；

如图2所示，所述改进的Retina三维卷积网络包括3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层。

所述利用三维卷积网络提取输入数据的多维度特征向量，包括步骤：

所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框，包括步骤：

作为上述实施例的优化方案，如图3所示，分类所述目标行为时，融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征，并将其用于分类和回归任务，包括步骤：

作为上述实施例的优化方案，通过所述三维卷积网络对捕鱼行为目标进行预测，包括步骤：

所述根据锚框的坐标反向恢复，得到相对于原图像序列的坐标；其中恢复公式为：

为配合本发明方法的实现，基于相同的发明构思，如图6所示，本发明还提供了一种基于三维卷积网络的捕鱼行为识别系统，包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元：

通过实验验证本方法和系统的可行性和所能够实现的效果：通过安装摄像头并将视角对准河边的方式采集大量视频数据，并将所得到的视频按照“渔网捕鱼”、“鱼竿钓鱼”、“有人洗衣服”和“正常情况”分为四类。在利用视频数据来构建训练数据集时，截取“渔网捕鱼”数据是从撒网开始直到渔网落入水中为止，以及整个收网过程；截取“鱼竿钓鱼”数据是从抛鱼竿开始直到鱼钩和铅坠落入水中为止，以及收杆过程；截取“有人洗衣服”数据是从人蹲下后用手开始揉搓开始至结束；截取“正常情况”数据包括画面中没有人出现和有人在河边散步两种情况。每类视频的有效时长约为30分钟，四类共计120分钟。

将输入的图片序列输入所建立的三维卷积网络，识别捕鱼行为，具体地：

(1)采集视频中连续的16帧图片，每帧都包含RGB三个通道，并将其下采样为640x832大小。

(2)利用3D Conv1卷积层对其进行特征提取，使得输出结果的时间维度由16压缩为1，空间维度压缩为原来的1/4，即160x208；

(3)利用3D Conv2卷积层对步骤(2)中的输出结果进行特征提取，使得输出结果的时间维度为1，空间维度压缩为原来的1/2，即80x104；

(4)利用3D Conv3卷积层对步骤(3)中的输出结果进行特征提取，使得输出结果的时间维度为1，空间维度压缩为原来的1/2，即40x52；

(5)利用3D Conv4卷积层对步骤(4)中的输出结果进行特征提取，使得输出结果的时间维度为1，空间维度压缩为原来的1/2，即20x26；

(6)利用步骤(3)、(4)和(5)的输出结果构建金字塔特征，即：将(5)的输出结果按照Retina Net的方式输入到class+box subnets子网络中进行分类和回归；将(5)的输出结果进行上采样，并与(4)的输出结果按位相加运算，将所得输出结果输入到class+boxsubnets子网络中进行分类和回归；将(4)的输出结果进行上采样，并与(3)的输出结果按位相加运算，所得结果输入到class+box subnets子网络中进行分类和回归。

(7)回归所得结果是相对于锚的偏移量，需要进行反向恢复得到相对于图像的坐标。

经过仿真实验验证，图4中，下方曲线表示训练时损失随着迭代次数的变化情况，上方曲线表示测试时损失随着迭代次数的变化情况。图中两个损失在迭代过程中不断下降，说明算法具有收敛性，证明了本方法的可行性。图5为算法的输入和输出的示意图，其中输入为连续的多帧图片，输出为分类结果和感兴趣区域，能够在视频中背景信息占比较大的情况下，有效识别前景目标的行为，精确识别出捕鱼行为。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于三维卷积网络的捕鱼行为识别方法，其特征在于，包括步骤：

采集视频数据，基于视频数据得到所需的图像序列；

将图像序列中连续的多张图像一并输入三维卷积网络，提取输入数据的多维度特征向量；所述三维卷积网络采用改进的Retina三维卷积网络；所述改进的Retina三维卷积网络通过在基础Retina二维卷积网络中增加输入数据的时间维度信息得到三维卷积网络结构；并增加输入端口改造成多张图像输入的网络结构；所述改进的Retina三维卷积网络包括3DConv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层；

利用所得多维度特征向量与参考锚框，解码出目标所在位置，并分类目标行为，得到捕鱼行为目标；分类所述目标行为时，融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征，并将其用于分类和回归任务，包括步骤：

2.根据权利要求1所述的一种基于三维卷积网络的捕鱼行为识别方法，其特征在于，所述利用三维卷积网络提取输入数据的多维度特征向量，包括步骤：

在卷积的过程中，3D Conv1卷积层将多张图像序列的时间维度m压缩为1维；3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的操作不改变输入特征的时间维度大小，而将空间维度依次降为原来的1/2大小；

3.根据权利要求2所述的一种基于三维卷积网络的捕鱼行为识别方法，其特征在于，所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框，包括步骤：

4.根据权利要求1所述的一种基于三维卷积网络的捕鱼行为识别方法，其特征在于，通过所述三维卷积网络对捕鱼行为目标进行预测，包括步骤：

5.根据权利要求4所述的一种基于三维卷积网络的捕鱼行为识别方法，其特征在于，所述根据锚框的坐标反向恢复，得到相对于原图像序列的坐标；其中恢复公式为：

6.一种基于权利要求1-5任一所述的三维卷积网络的捕鱼行为识别方法的捕鱼行为识别系统，其特征在于，包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元：