CN111160255B - 一种基于三维卷积网络的捕鱼行为识别方法及系统 - Google Patents

一种基于三维卷积网络的捕鱼行为识别方法及系统 Download PDF

Info

Publication number
CN111160255B
CN111160255B CN201911395671.1A CN201911395671A CN111160255B CN 111160255 B CN111160255 B CN 111160255B CN 201911395671 A CN201911395671 A CN 201911395671A CN 111160255 B CN111160255 B CN 111160255B
Authority
CN
China
Prior art keywords
dimensional
feature map
convolutional layer
image sequence
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911395671.1A
Other languages
English (en)
Other versions
CN111160255A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shuzhilian Technology Co Ltd
Original Assignee
Chengdu Shuzhilian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shuzhilian Technology Co Ltd filed Critical Chengdu Shuzhilian Technology Co Ltd
Priority to CN201911395671.1A priority Critical patent/CN111160255B/zh
Publication of CN111160255A publication Critical patent/CN111160255A/zh
Application granted granted Critical
Publication of CN111160255B publication Critical patent/CN111160255B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于三维卷积网络的捕鱼行为识别方法及系统,包括步骤采集视频数据,基于视频数据得到所需图像序列;将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。本发明能够对连续输入的视频同时进行目标检测和行为分析的端到端网络结构检测识别,能够在连续的视频文件和复杂背景信息干扰下,有效识别前景目标的行为,从拍摄视频中精确的识别出捕鱼行为。

Description

一种基于三维卷积网络的捕鱼行为识别方法及系统
技术领域
本发明属于视频识别技术领域,特别是涉及一种基于三维卷积网络的捕鱼行为识别方法及系统。
背景技术
近年来,随着人工智能概念的大力推广以及相关技术的不断进步,对流媒体的智能分析技术也取得了诸多成绩。深度学习技术在图像分类、图像检测、图像分割和视频分析等领域中得到了广泛应用和有效性验证。在对流媒体的行为分析中,C3D网络以及在其基础上改进的R3D、R(2+1)D等网络被不断提出和改进,但是这些方法在视频图像行为识别的过程中,无法有效提取识别信息,尤其是对捕鱼行为的识别,背景信息占比较大,对前景目标的行为识别影响较大,识别目标较小容易受到背景干扰,难以有效识别出捕鱼行为。
在目前传统利用C3D网络进行视频行为识别时,将视频中连续的m帧作为输入;网络中采用三维卷积核、三维池化核和全连接层构建;经过网络后对输出向量求最大值所对应的索引即为输入视频序列的预测类别。该模型可以用于序列图像的分类问题,但在目标占比小而背景占比大时,分类结果会受到背景干扰,导致模型分类能力受限。
发明内容
为了解决上述问题,本发明提出了一种基于三维卷积网络的捕鱼行为识别方法及系统,能够对连续输入的视频同时进行目标检测和行为分析的端到端网络结构检测识别,能够在连续的视频文件和复杂背景信息干扰下,有效对前景目标的行为进行识别,从拍摄视频中精确的识别出捕鱼行为。
为达到上述目的,本发明采用的技术方案是:一种基于三维卷积网络的捕鱼行为识别方法,包括步骤:
采集视频数据,基于视频数据采集所需的图像序列;
将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。
进一步的是,所述三维卷积网络采用改进的Retina三维卷积网络;在Retina Net的基础上引入序列图像的分类,通过对图像序列增加对目标所在区域的定位,弱化背景区域对行为分类的干扰;
所述改进的Retina三维卷积网络通过在基础Retina二维卷积网络中增加输入数据的时间维度信息得到三维卷积网络结构;并增加输入端口改造成多张图像输入的网络结构;有利于结合后续网络计算提高对连续动作的分类准确度;
所述改进的Retina三维卷积网络包括3D Conv1卷积层、3D Conv2卷积层、3DConv3卷积层和3D Conv4卷积层。
进一步的是,所述利用三维卷积网络提取输入数据的多维度特征向量,包括步骤:
将多张图像序列输入依次传入3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层提取特征,得到输入数据的多维度特征向量;
在卷积的过程中,3D Conv1卷积层将多张图像序列的时间维度m压缩为1维;3DConv2卷积层、3D Conv3卷积层和3D Conv4卷积层的操作不改变输入特征的时间维度大小,而将空间维度依次降为原来的1/2大小;
所述经过3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的特征提取结果即表示不同尺度下的金字塔式特征。
进一步的是,所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框,包括步骤:
利用3D Conv2卷积层、3D Conv3卷积层、3D Conv4卷积层三层输出所对应的P2特征图、P3特征图和P4特征图构建锚框;
在每一层中使用特征图长和宽对应的20、21/3、22/3倍尺度缩放得到三个不同边长,再对所得的每个边长求对应面积,对面积再进行0.5、1、2倍尺度的缩放,开方后得到新的锚框边长;
对特征图边长进行两次不同尺度的变换,输入图像序列在空间维度对应像素点上可在每层特征图中得到多个不同长宽比的锚框,作为参考锚框。
进一步的是,分类所述目标行为时,融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征,并将其用于分类和回归任务,包括步骤:
将Conv4输出的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制上述Conv4输出的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv4输出的特征图上采样2倍,与Conv3输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv3输出的特征图上采样2倍,与Conv2输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失。
进一步的是,通过所述三维卷积网络对捕鱼行为目标进行预测,包括步骤:
所得的分类为对输入图像序列的分类,所得的回归预测结果为相对于锚框的偏移量,根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;
获得相对于原图像序列的坐标后,一个目标有多个坐标与其对应,通过非极大值抑制的方式进行舍弃处理得到最优目标坐标作为预测结果。
进一步的是,所述根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;其中恢复公式为:
Figure BDA0002346226080000031
其中,Δx和Δy表示预测偏移量的左上角坐标,Δw表示预测偏移量相对宽,Δh表示预测偏移量的相对高;xa和ya表示对应锚点的左上角坐标,wa表示对应锚点的宽,ha表示对应锚点的高。
另一方面,本发明还提供了一种基于三维卷积网络的捕鱼行为识别系统,包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元:
视频数据采集单元:用于采集视频数据,基于视频数据得到所需图像序列;
输入数据特征向量提取单元:用于将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
参考锚框生成单元:利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
捕鱼行为目标识别单元:利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。
采用本技术方案的有益效果:
本发明所提出的方法实现了对连续输入的视频同时进行目标检测和行为分析的端到端检测识别网络结构,利用所建立的三维卷积网络得到视频数据的多维度特征向量与参考锚框,并利用多维度特征向量与参考锚框解码出目标所在位置,并分类目标行为,得到捕鱼行为目标;能够在连续的视频文件和复杂背景信息干扰下,有效识别前景目标的行为,从拍摄视频中精确识别出捕鱼行为。
本发明通过所建立的三维卷积网络实现不同卷积层之间的信息融合,能够有效检测感兴趣的区域,从而精确的从复杂背景环境中检测和分类视频感兴趣区域。
本发明所提出的方法通过对图像序列增加对目标所在区域的定位,弱化背景区域对行为分类的干扰;能够同时检测和分类感兴趣视频区域,达到减弱视频背景的干扰,为行为识别提供更有效的区域信息的目的。
附图说明
图1为本发明的一种基于三维卷积网络的捕鱼行为识别方法流程示意图;
图2为本发明实施例中所采用的三维卷积网络的结构示意图;
图3为本发明实施例中所采用三维卷积网络的处理过程示意图;
图4为本发明实施例中所采用的三维卷积网络的验证实验结果图;
图5为本发明验证实验中三维卷积网络的识别效果图;
图6为本发明的一种基于三维卷积网络的捕鱼行为识别系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1所示,本发明提出了一种基于三维卷积网络的捕鱼行为识别方法,包括步骤:
采集视频数据,基于视频数据采集所需的图像序列;
将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。
作为上述实施例的优化方案,所述三维卷积网络采用改进的Retina三维卷积网络;
所述改进的Retina三维卷积网络通过在基础Retina二维卷积网络中增加输入数据的时间维度信息得到三维卷积网络结构;并增加输入端口改造成多张图像输入的网络结构;有利于结合后续网络计算提高对连续动作的分类准确度;
如图2所示,所述改进的Retina三维卷积网络包括3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层。
所述利用三维卷积网络提取输入数据的多维度特征向量,包括步骤:
将多张图像序列输入依次传入3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层提取特征,得到输入数据的多维度特征向量;
在卷积的过程中,3D Conv1卷积层将多张图像序列的时间维度m压缩为1维;3DConv2卷积层、3D Conv3卷积层和3D Conv4卷积层的操作不改变输入特征的时间维度大小,而将空间维度依次降为原来的1/2大小;
所述经过3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的特征提取结果即表示不同尺度下的金字塔式特征。
所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框,包括步骤:
利用3D Conv2卷积层、3D Conv3卷积层、3D Conv4卷积层三层输出所对应的P2特征图、P3特征图和P4特征图构建锚框;
在每一层中使用特征图长和宽对应的20、21/3、22/3倍尺度缩放得到三个不同边长,再对所得的每个边长求对应面积,对面积再进行0.5、1、2倍尺度的缩放,开方后得到新的锚框边长;
对特征图边长进行两次不同尺度的变换,输入图像序列在空间维度对应像素点上可在每层特征图中得到多个不同长宽比的锚框,作为参考锚框。
作为上述实施例的优化方案,如图3所示,分类所述目标行为时,融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征,并将其用于分类和回归任务,包括步骤:
将Conv4输出的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制上述Conv4输出的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv4输出的特征图上采样2倍,与Conv3输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv3输出的特征图上采样2倍,与Conv2输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失。
作为上述实施例的优化方案,通过所述三维卷积网络对捕鱼行为目标进行预测,包括步骤:
所得的分类为对输入图像序列的分类,所得的回归预测结果为相对于锚框的偏移量,根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;
获得相对于原图像序列的坐标后,一个目标有多个坐标与其对应,通过非极大值抑制的方式进行舍弃处理得到最优目标坐标作为预测结果。
所述根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;其中恢复公式为:
Figure BDA0002346226080000071
其中,Δx和Δy表示预测偏移量的左上角坐标,Δw表示预测偏移量相对宽,Δh表示预测偏移量的相对高;xa和ya表示对应锚点的左上角坐标,wa表示对应锚点的宽,ha表示对应锚点的高。
为配合本发明方法的实现,基于相同的发明构思,如图6所示,本发明还提供了一种基于三维卷积网络的捕鱼行为识别系统,包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元:
视频数据采集单元:用于采集视频数据,基于视频数据得到所需图像序列;
输入数据特征向量提取单元:用于将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
参考锚框生成单元:利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
捕鱼行为目标识别单元:利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。
通过实验验证本方法和系统的可行性和所能够实现的效果:通过安装摄像头并将视角对准河边的方式采集大量视频数据,并将所得到的视频按照“渔网捕鱼”、“鱼竿钓鱼”、“有人洗衣服”和“正常情况”分为四类。在利用视频数据来构建训练数据集时,截取“渔网捕鱼”数据是从撒网开始直到渔网落入水中为止,以及整个收网过程;截取“鱼竿钓鱼”数据是从抛鱼竿开始直到鱼钩和铅坠落入水中为止,以及收杆过程;截取“有人洗衣服”数据是从人蹲下后用手开始揉搓开始至结束;截取“正常情况”数据包括画面中没有人出现和有人在河边散步两种情况。每类视频的有效时长约为30分钟,四类共计120分钟。
将输入的图片序列输入所建立的三维卷积网络,识别捕鱼行为,具体地:
(1)采集视频中连续的16帧图片,每帧都包含RGB三个通道,并将其下采样为640x832大小。
(2)利用3D Conv1卷积层对其进行特征提取,使得输出结果的时间维度由16压缩为1,空间维度压缩为原来的1/4,即160x208;
(3)利用3D Conv2卷积层对步骤(2)中的输出结果进行特征提取,使得输出结果的时间维度为1,空间维度压缩为原来的1/2,即80x104;
(4)利用3D Conv3卷积层对步骤(3)中的输出结果进行特征提取,使得输出结果的时间维度为1,空间维度压缩为原来的1/2,即40x52;
(5)利用3D Conv4卷积层对步骤(4)中的输出结果进行特征提取,使得输出结果的时间维度为1,空间维度压缩为原来的1/2,即20x26;
(6)利用步骤(3)、(4)和(5)的输出结果构建金字塔特征,即:将(5)的输出结果按照Retina Net的方式输入到class+box subnets子网络中进行分类和回归;将(5)的输出结果进行上采样,并与(4)的输出结果按位相加运算,将所得输出结果输入到class+boxsubnets子网络中进行分类和回归;将(4)的输出结果进行上采样,并与(3)的输出结果按位相加运算,所得结果输入到class+box subnets子网络中进行分类和回归。
(7)回归所得结果是相对于锚的偏移量,需要进行反向恢复得到相对于图像的坐标。
经过仿真实验验证,图4中,下方曲线表示训练时损失随着迭代次数的变化情况,上方曲线表示测试时损失随着迭代次数的变化情况。图中两个损失在迭代过程中不断下降,说明算法具有收敛性,证明了本方法的可行性。图5为算法的输入和输出的示意图,其中输入为连续的多帧图片,输出为分类结果和感兴趣区域,能够在视频中背景信息占比较大的情况下,有效识别前景目标的行为,精确识别出捕鱼行为。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,包括步骤:
采集视频数据,基于视频数据得到所需的图像序列;
将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;所述三维卷积网络采用改进的Retina三维卷积网络;所述改进的Retina三维卷积网络通过在基础Retina二维卷积网络中增加输入数据的时间维度信息得到三维卷积网络结构;并增加输入端口改造成多张图像输入的网络结构;所述改进的Retina三维卷积网络包括3DConv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层;
利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标;分类所述目标行为时,融合Conv2卷积层、Conv3卷积层和Conv4卷积层所提取的特征,并将其用于分类和回归任务,包括步骤:
将Conv4输出的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制上述Conv4输出的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv4输出的特征图上采样2倍,与Conv3输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失;
将Conv3输出的特征图上采样2倍,与Conv2输出的特征图按位相加得到特征融合后的特征图,将融合后的特征图变换为列维度为4的特征图,用于训练时与对应锚框一同计算位置区域的回归损失;复制融合后的特征图,将其变换为列维度为K的特征图,K表示分类的类别数,用于训练时与类别标签一同计算分类损失。
2.根据权利要求1所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述利用三维卷积网络提取输入数据的多维度特征向量,包括步骤:
将多张图像序列输入依次传入3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层提取特征,得到输入数据的多维度特征向量;
在卷积的过程中,3D Conv1卷积层将多张图像序列的时间维度m压缩为1维;3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的操作不改变输入特征的时间维度大小,而将空间维度依次降为原来的1/2大小;
所述经过3D Conv1卷积层、3D Conv2卷积层、3D Conv3卷积层和3D Conv4卷积层的特征提取结果即表示不同尺度下的金字塔式特征。
3.根据权利要求2所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述利用输入图像序列的图像宽和高两个维度的信息生成参考锚框,包括步骤:
利用3D Conv2卷积层、3D Conv3卷积层、3D Conv4卷积层三层输出所对应的P2特征图、P3特征图和P4特征图构建锚框;
在每一层中使用特征图长和宽对应的20、21/3、22/3倍尺度缩放得到三个不同边长,再对所得的每个边长求对应面积,对面积再进行0.5、1、2倍尺度的缩放,开方后得到新的锚框边长;
对特征图边长进行两次不同尺度的变换,输入图像序列在空间维度对应像素点上可在每层特征图中得到多个不同长宽比的锚框,作为参考锚框。
4.根据权利要求1所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,通过所述三维卷积网络对捕鱼行为目标进行预测,包括步骤:
所得的分类为对输入图像序列的分类,所得的回归预测结果为相对于锚框的偏移量,根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;
获得相对于原图像序列的坐标后,一个目标有多个坐标与其对应,通过非极大值抑制的方式进行舍弃处理得到最优目标坐标作为预测结果。
5.根据权利要求4所述的一种基于三维卷积网络的捕鱼行为识别方法,其特征在于,所述根据锚框的坐标反向恢复,得到相对于原图像序列的坐标;其中恢复公式为:
Figure FDA0003697331160000021
其中,Δx和Δy表示预测偏移量的左上角坐标,Δw表示预测偏移量相对宽,Δh表示预测偏移量的相对高;xa和ya表示对应锚点的左上角坐标,wa表示对应锚点的宽,ha表示对应锚点的高。
6.一种基于权利要求1-5任一所述的三维卷积网络的捕鱼行为识别方法的捕鱼行为识别系统,其特征在于,包括视频数据采集单元、输入数据特征向量提取单元、参考锚框生成单元和捕鱼行为目标识别单元:
视频数据采集单元:用于采集视频数据,基于视频数据得到所需图像序列;
输入数据特征向量提取单元:用于将图像序列中连续的多张图像一并输入三维卷积网络,提取输入数据的多维度特征向量;
参考锚框生成单元:利用输入图像序列的图像宽和高两个维度的信息生成参考锚框;
捕鱼行为目标识别单元:利用所得多维度特征向量与参考锚框,解码出目标所在位置,并分类目标行为,得到捕鱼行为目标。
CN201911395671.1A 2019-12-30 2019-12-30 一种基于三维卷积网络的捕鱼行为识别方法及系统 Active CN111160255B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911395671.1A CN111160255B (zh) 2019-12-30 2019-12-30 一种基于三维卷积网络的捕鱼行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911395671.1A CN111160255B (zh) 2019-12-30 2019-12-30 一种基于三维卷积网络的捕鱼行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN111160255A CN111160255A (zh) 2020-05-15
CN111160255B true CN111160255B (zh) 2022-07-29

Family

ID=70559146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911395671.1A Active CN111160255B (zh) 2019-12-30 2019-12-30 一种基于三维卷积网络的捕鱼行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN111160255B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492540B (zh) * 2022-03-28 2022-07-05 成都数之联科技股份有限公司 目标检测模型的训练方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845396A (zh) * 2017-01-18 2017-06-13 南京理工大学 基于自动图像识别的非法钓鱼行为识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN109753884A (zh) * 2018-12-14 2019-05-14 重庆邮电大学 一种基于关键帧提取的视频行为识别方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110569843A (zh) * 2019-09-09 2019-12-13 中国矿业大学(北京) 一种矿井目标智能检测与识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180218256A1 (en) * 2017-02-02 2018-08-02 Qualcomm Incorporated Deep convolution neural network behavior generator
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845396A (zh) * 2017-01-18 2017-06-13 南京理工大学 基于自动图像识别的非法钓鱼行为识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN109753884A (zh) * 2018-12-14 2019-05-14 重庆邮电大学 一种基于关键帧提取的视频行为识别方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
CN110569843A (zh) * 2019-09-09 2019-12-13 中国矿业大学(北京) 一种矿井目标智能检测与识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Driver Distraction Recognition using 3D Convolutional Neural Networks;Negar Moslemi 等;《2019 4th International Conference on Pattern Recognition and Image Analysis (IPRIA)》;20190805;145-151 *
Human Action Recognition Based on MOCAP Information Using Convolution Neural Networks;Earnest Paul Ijjina 等;《2014 13th International Conference on Machine Learning and Applications》;20150209;159-164 *
基于深度学习的人体行为识别分析研究;董国豪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190315(第03(2019)期);I138-764 *
基于视频的人体行为检测的方法研究;赵雷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215(第12(2019)期);I138-621 *

Also Published As

Publication number Publication date
CN111160255A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
Yang et al. Lego: Learning edge with geometry all at once by watching videos
CN110135243B (zh) 一种基于两级注意力机制的行人检测方法及系统
Bouwmans et al. Scene background initialization: A taxonomy
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
Yin et al. FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution
El Amin et al. Zoom out CNNs features for optical remote sensing change detection
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN111738231A (zh) 目标对象检测方法、装置、计算机设备和存储介质
KR101436369B1 (ko) 적응적 블록 분할을 이용한 다중 객체 검출 장치 및 방법
CN111639668A (zh) 一种基于深度学习的人群密度检测方法
CN114170570A (zh) 一种适用于拥挤场景下的行人检测方法及系统
Zhu et al. Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks
Tsutsui et al. Distantly supervised road segmentation
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
Wang et al. Object counting in video surveillance using multi-scale density map regression
Liu et al. Two-stream refinement network for RGB-D saliency detection
CN111160255B (zh) 一种基于三维卷积网络的捕鱼行为识别方法及系统
CN109064444A (zh) 基于显著性分析的轨道板病害检测方法
CN117036235A (zh) 一种继电保护柜端子排线序检测方法
Qiu et al. A methodology review on multi-view pedestrian detection
Liu et al. Spatio-temporal prediction and reconstruction network for video anomaly detection
CN114863487A (zh) 基于二次回归的一阶段多人人体检测和姿态估计的方法
Dong et al. Foreground detection with simultaneous dictionary learning and historical pixel maintenance
Mittal et al. A feature pyramid based multi-stage framework for object detection in low-altitude UAV images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan

Applicant after: Chengdu shuzhilian Technology Co.,Ltd.

Address before: No.2, 4th floor, building 1, Jule road crossing, Section 1, West 1st ring road, Chengdu, Sichuan 610000

Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant