CN113642429B - 一种基于tpp-tccnn的海洋鱼类识别方法 - Google Patents

一种基于tpp-tccnn的海洋鱼类识别方法 Download PDF

Info

Publication number
CN113642429B
CN113642429B CN202110865502.0A CN202110865502A CN113642429B CN 113642429 B CN113642429 B CN 113642429B CN 202110865502 A CN202110865502 A CN 202110865502A CN 113642429 B CN113642429 B CN 113642429B
Authority
CN
China
Prior art keywords
feature map
fish
inputting
neural network
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110865502.0A
Other languages
English (en)
Other versions
CN113642429A (zh
Inventor
黄梦醒
黎贞凤
张雨
冯思玲
李玉春
冯文龙
毋媛媛
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202110865502.0A priority Critical patent/CN113642429B/zh
Publication of CN113642429A publication Critical patent/CN113642429A/zh
Application granted granted Critical
Publication of CN113642429B publication Critical patent/CN113642429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/80Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
    • Y02A40/81Aquaculture, e.g. of fish

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于TPP‑TCCNN的海洋鱼类识别方法,包括下列步骤:采集包含多种鱼类的原始视频,将所述原始视频划分为训练集以及测试集,并对所述训练集的鱼类视频信息进行预处理;对预处理后的鱼类视频信息进行特征提取,获取光流图像;建立双通道卷积神经网络,以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练,获得输出特征,所述RGB图像中所包含的鱼类信息与所述原始视频中的一致;通过softmax分类模型对所述输出特征进行分类训练;将测试集中的鱼类视频信息输入到最终的softmax分类模型中,得到鱼类分类结果。

Description

一种基于TPP-TCCNN的海洋鱼类识别方法
技术领域
本发明涉及鱼类识别技术领域,尤其涉及一种基于TPP-TCCNN的海洋鱼类识别方法。
背景技术
随着计算机科学技术的迅猛发展,人工智能应用到各个研究领域中。目前科研人员出海捕鱼,采集样本数据,仍需要人工进行分拣,过程十分繁琐,场景比较复杂,且消耗时间成本十分巨大,在海洋智能监控领域,针对视频画面中的鱼的种类的识别拥有广泛的应用前景。不仅能开发利用鱼类资源,也为发展海洋渔业生产起到了非常积极的作用,具有重大的学术研究意义和经济效益。
近年来,国内外研究者对机器视觉技术在鱼类分类识别上的应用进行了大量的研究,传统的目标检测算法利用采集到的图片特征信息,然后通过特征对比,判断是否是对应类型的图片。各个类别的特征都需要进行比较,因此传统算法的操作方式效率非常低。海洋鱼类分类识别涉及到基于特征值、支持向量机、CNN等方法。在各项分类方法中,基于特征值的分类算法比较简单并且易于操作,缺点是识别准确度较低;支持向量机的操作灵活多变,分类准确度很高,但是很难实现大规模数据集的训练、还需要进行人工选择特征值;相比之下,卷积神经网络(Convolutional Neural Network,CNN)具备独立学习的能力,分类精确度更高,鲁棒性更好。缺点是卷积神经网络需要取得大量的训练数据,随着神经网络层数和训练次数epoch的增加,网络计算的复杂度会增加,训练模型的时间会加长。随着网络的深入,训练集准确度会下降,影响最终分类精确度。
目前,基本的深度学习网络模型只能实现在识别时序跨度比较短的视频进行类别判断,对持续时间长的视频存在分类识别率较低的问题。
发明内容
本发明的目的在于提供一种基于TPP-TCCNN的海洋鱼类识别方法,以解决上述背景技术中提出的问题。
本发明是通过以下技术方案实现的:本发明公开了一种基于TPP-TCCNN的海洋鱼类识别方法,包括下列步骤:
采集包含多种鱼类的原始视频,将所述原始视频划分为训练集以及测试集,并对所述训练集的鱼类视频信息进行预处理;
对预处理后的鱼类视频信息进行特征提取,获取光流图像;
建立双通道卷积神经网络,以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练,获得输出特征,所述RGB图像中所包含的鱼类信息与所述原始视频中的一致;
通过softmax分类模型对所述输出特征进行分类训练;
将测试集中的鱼类视频信息输入到最终的softmax分类模型中,得到鱼类分类结果;
所述对预处理后的鱼类视频信息进行特征提取,获取光流图像,包括:
建立约束方程:
I(x+dx,y+dy,t+dt)=I(x,y,t)
式中,I代表每个帧画面中的灰度值信息,x、y、t代表光流方向;
将所述约束方程根据泰勒定理展开:
Figure GDA0004234364290000021
式中
Figure GDA0004234364290000022
表示光流向量x方向上的分量,/>
Figure GDA0004234364290000023
表示光流向量y方向上的分量,
Figure GDA0004234364290000024
分别代表x,y,t三个方向上的微分;
Figure GDA0004234364290000025
可得到下式;
Figure GDA0004234364290000031
从预处理后的鱼类视频信息中随机选取帧画面,通过计算图像像素点变化从而得到相应帧画面中的光流信息:
Figure GDA0004234364290000032
所述将光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练,获得输出特征,其步骤包括:
将所述光流图像或RGB图像之一输入带有金字塔池化层的双通道卷积神经网络中的第一层进行7×7×96卷积,获得第一特征图;
将所述第一特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样,获得第二特征图;
将所述第二特征图输入双通道卷积神经网络中的第一层进行5×5×384卷积操作,获得第三特征图;
将所述第三特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样,获得第四特征图;
将所述第四特征图输入双通道卷积神经网络中进行两次3×3×512卷积操作,获得第五特征图;
将所述第五特征图输入双通道卷积神经网络中进行3×3×384卷积操作,获得第六特征图;
将所述第六特征图依次输入双通道卷积神经网络中的最大池化层、金字塔池化层,获得第七特征图;
将所述第七特征图输入两个全连接层后获得4096维特征向量,所述特征向量即为输出特征。
可选的,将所述第六特征图输入双通道卷积神经网络中的最大池化层后,输出k*M维特征向量,对所述k*M维特征向量采用汇聚函数进行聚合及输出,获得第七特征图。
可选的,获得第一特征图、第六特征图之后,还包括:对所述第一特征图、第六特征图进行批量归一化以及修正线性激活。
可选的,所述softmax分类模型具有两个输入,其中一个输入包括所述光流图像的输出特征,另一个输入包括所述RGB图像的输出特征。
可选的,在所述softmax分类模型中通过下式实现图像分类:
Figure GDA0004234364290000041
其中exp(x)是以自然常数e为底的指数函数,在输出层中有n个神经元,am为输入变量,第m个神经元的输出是sm。
与现有技术相比,本发明达到的有益效果如下:
本发明提供的一种基于TPP-TCCNN的海洋鱼类识别方法,通过分析鱼类视频信息,并获取基于视频信息的光流图像,将RGB图像和光流图像输入到双通道卷积神经网络进行交叉跨模态预训练,这个操作能降低在时间流网络中的过拟合现象,还提升了时间流网络的识别精确度,同时加快了模型的收敛速度,并且结合金字塔池化层得到RGB图像和光流图像的输出特征并进行分类,其采用时间金字塔池化的方法对于输入样本中的各种不同尺度的时序特征进行提取,从而确保了视频时间长短不一致的序列特征能够映射成相同时长的视频序列特征,本申请的方案能够自动的分类出鱼的品种,分类精度高、稳定性强和鲁棒性好,对海洋鱼类物种监测、海洋资源研究具有重要意义。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于TPP-TCCNN的海洋鱼类识别方法的流程图;
图2是本发明实施例提供的TPP-TCCNN网络模型示意图。
图3是本发明实施例提供的金字塔池化网络示意图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
应当理解的是,本发明能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本发明的范围完全地传递给本领域技术人员。
在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。
为了彻底理解本发明,将在下列的描述中提出详细的结构,以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
在图像处理领域,通常需要对输入的原始数据进行降低维数和冗余度,也能减少运算量,从而提升图像特征的识别率,一般是由神经网络中的池化层进行下采样实现的,由此能提取到图像的主要特征,也能提升网络模型的畸变容忍能力。池化操作通常采用最大池化(Max Pooling)、平均池化(Average Pooling)和全局平均池化(Global AveragePooling)三种方式,将滑动窗口区域内的特征按池化函数定义提取出代表这个区域内的唯一特征。但是,最大池化、平均池化,全局平均池化这三种池化操作对于时间维度的信息的特征提取的效果都有不足,所以在本发明中以一种双通道卷积神经网络结构为基础,并且采用时间金字塔池化(TPP)的方法,即Time Pyramid Pooling-Two channelconvolutional neural network structure(TPP-TCCNN),当对输入样本中的各种不同尺度的时序特征进行提取,可以确保视频时间长短不一致的鱼类特征能够映射成相同时长的视频序列特征,能够自动的分类出鱼的品种,因此参见图1,本申请所公开的一种基于TPP-TCCNN的海洋鱼类识别方法,包括下列步骤:
S1、采集包含多种鱼类的原始视频,将所述原始视频划分为训练集以及测试集,并对所述训练集的鱼类视频信息进行预处理;
S2、对预处理后的鱼类视频信息进行特征提取,获取光流图像;
S3、建立双通道卷积神经网络,以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练,获得输出特征,所述RGB图像中所包含的鱼类信息与所述原始视频中的一致;
S4、通过softmax分类模型对所述输出特征进行分类训练;
S5、将测试集中的鱼类视频信息输入到最终的softmax分类模型中,得到鱼类分类结果。
在步骤S1中,训练集和测试集的比例为8:2,作为示例性的,通过无人机拍摄获取的一组包含15种分类的视频数据集,并且按照一定比例划分为训练集和测试集,并且数据集已有鱼类专家观察并且已经标注好鱼类的品种,例如长鳍金枪鱼、黄鳍鲷、金钱鱼、大眼金枪鱼、黄鳍金枪鱼、鲈鱼、绿鳍鱼、鳅鱼、月鱼、银鲳鱼、大菱鲆、鲻鱼、鲨鱼、其他(除了以上的鱼的其他类别)、无鱼类(表示没有鱼出现在视频里)等。
在数据预处理过程中,首先把样本数据集中的图像窗口尺寸大小统一设为320×320像素;
通过采用对Fish15数据集里对应的图像进行左右、上下翻转,并且通过旋转不同大小角度,例如90度、180度、270度,这种翻转不仅保留了视觉结构,并且为深度学习模型提供了更多的数据,除此之外还进行水平翻转的操作,可以得到镜像的画面;
对视频画面中添加噪声,采用标准差为0.1的高斯扰动;
采用随机尺度抖动方法中采取的方式,将数据集视频的尺寸统一为320×320,然后从{150,196,224,256}这个集合中随机选取出两个数值分别作为剪裁后视频画面尺寸的高度与宽度,最后将处理后视频尺寸再统一修改为224×224,通过这种方式可以有效避免训练样本数据集过少导致的过拟合现象,同时还减小输入数据样本集的维数,例如将画面尺寸由320×320改为最终的224×224,也可以缩短训练时间。
另外需要说明的是,所采集的RGB图像中也包含与所述原始视频一致的鱼类品种,例如长鳍金枪鱼、黄鳍鲷、金钱鱼、大眼金枪鱼、黄鳍金枪鱼、鲈鱼、绿鳍鱼、鳅鱼、月鱼、银鲳鱼、大菱鲆、鲻鱼、鲨鱼、其他(除了以上的鱼的其他类别)、无鱼类(表示没有鱼出现在视频里)等。
在步骤S2中,本实施例采用Brox光流法在相邻帧画面中通过约束方程逐步细化从而提取出被检测目标的运动信息的光流,然后再利用Munsell颜色转换系统将被检测目标的运动信息光流变为与之匹配的光流特征图。当不同帧间发生位移时,可以将像素点的灰度值设定为不变的值,其具体步骤包括:
S201、建立约束方程:
I(x+dx,y+dy,t+dt)=I(x,y,t)
式中,I代表每个帧画面中的灰度值信息,x、y、t代表光流方向;
S202、将所述约束方程根据泰勒定理展开:
Figure GDA0004234364290000071
式中
Figure GDA0004234364290000072
表示光流向量x方向上的分量,/>
Figure GDA0004234364290000073
表示光流向量y方向上的分量,
Figure GDA0004234364290000081
分别代表x,y,t三个方向上的微分;
S203、令
Figure GDA0004234364290000082
可得到下式;
Figure GDA0004234364290000083
S204、从预处理后的鱼类视频信息中随机选取帧画面,通过计算图像像素点变化从而得到相应帧画面中的光流信息:
Figure GDA0004234364290000084
参见图2,进一步的,在步骤S3中,将光流图像以及RGB图像分别输入带有金字塔池化层的双通道卷积神经网络中进行训练,可获得与光流图像对应的输出特征,以及与所述RGB图像对应的输出特征,需要说明的是,对光流图像以及RGB图像进行训练的步骤一直,本实施例以光流图像为例进行说明,其将光流图像别输入带有金字塔池化层的双通道卷积神经网络中进行训练的步骤包括:
S301、将所述光流图像输入带有金字塔池化层的双通道卷积神经网络中的第一层进行步长为2的7×7×96卷积,获得第一特征图;
S302、将所述第一特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样,获得第二特征图;
S303、将所述第二特征图输入双通道卷积神经网络中的第一层进行5×5×384卷积操作,获得第三特征图;
S304、将所述第三特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样,获得第四特征图;
S305、将所述第四特征图输入双通道卷积神经网络中进行两次3×3×512卷积操作,获得第五特征图;
S306、将所述第五特征图输入双通道卷积神经网络中进行3×3×384卷积操作,获得第六特征图;
S307、将所述第六特征图依次输入双通道卷积神经网络中的最大池化层、金字塔池化层,获得第七特征图;
S308、将所述第七特征图输入两个全连接层后获得4096维特征向量,所述特征向量即为输出特征。
参见图3,在步骤307中,进一步的,本实施例设定时间金字塔层数为N,那么在金字塔池化层中就会产生
Figure GDA0004234364290000091
个时间块,假定有k个滤波器在网络的最末尾的卷积操作后,那么通过池化金字塔池化层,最终生成对应的k*M维特征向量,对所述k*M维特征向量采用汇聚函数进行聚合及输出,获得第七特征图。
需要说明的是,可采用平均汇聚与最大汇聚函数进行聚合及输出,其平均汇聚函数为:
Figure GDA0004234364290000092
最大汇聚函数为:
Figure GDA0004234364290000094
在步骤S301以及S306中,可选的,获得第一特征图、第六特征图之后,还包括:对所述第一特征图、第六特征图进行批量归一化以及修正线性激活。
可选的,所述softmax分类模型具有两个输入,其中一个输入包括所述光流图像的输出特征,另一个输入包括所述RGB图像的输出特征。
可选的,在所述softmax分类模型中通过下式实现图像分类:
Figure GDA0004234364290000093
其中exp(x)是以自然常数e为底的指数函数,在输出层中有n个神经元,am为输入变量,第m个神经元的输出是sm
最终将测试集中的视频数据输入到最终的分类模型中,得到鱼类的分类结果。
综上所述,本申请与其他现有鱼类分类方法具有以下优点:(1)采用了三种方法:随机角点裁剪、随机尺度抖动以及水平翻转。有效解决了样本数据集中样本视频过少带来的网络过拟合现象。
(2)采用cross-model(交叉跨模态)预训练,在TPP-TCCNN中的光流网络使用的是与RGB图像不同的光流特征,而且RGB图像与光流图中的时序联系特征是不一致的,所以时间流网络进行参数初始化时就得使用cross-model的预训练方式。在进行交叉跨模态预训练前需要预先将光流场的数值范围采用线性变换的方法,实现光流场的数值范围限定在0~255内,与RGB图像的数值离散范围(0~255)一致。交叉跨模态预训练这个操作能降低在时间流网络中的过拟合现象,还提升了时间流网络的识别精确度,同时加快了模型的收敛速度。
(3)采用时间金字塔池化的方法对于输入样本中的各种不同尺度的时序特征进行提取,从而确保了视频时间长短不一致的序列特征能够映射成相同时长的视频序列特征。
为了验证本发明实施例的效果,本申请设置了一组对照试验,主要为了比较提出的方法(TPP-TCCNN)和其他的分类方法(LRCN、TRN等)的对比准确率。其结果如表1所示,由测试准确度的对比可以看出所提出的方法(TPP-TCCNN)明显优于现有的海洋鱼类分类方法。
表1
Method Accuracy(%)
LRCN 83.6
TRN 82.2
TPP-TCCNN 91.8
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (5)

1.一种基于TPP-TCCNN的海洋鱼类识别方法,其特征在于,包括下列步骤:
采集包含多种鱼类的原始视频,将所述原始视频划分为训练集以及测试集,并对所述训练集的鱼类视频信息进行预处理;
对预处理后的鱼类视频信息进行特征提取,获取光流图像;
建立双通道卷积神经网络,以光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练,获得输出特征,所述RGB图像中所包含的鱼类信息与所述原始视频中的一致;
通过softmax分类模型对所述输出特征进行分类训练;
将测试集中的鱼类视频信息输入到最终的softmax分类模型中,得到鱼类分类结果;
所述对预处理后的鱼类视频信息进行特征提取,获取光流图像,包括:
建立约束方程:
I(x+dx,y+dy,t+dt)=I(x,y,t)
式中,I代表每个帧画面中的灰度值信息,x、y、t代表光流方向;
将所述约束方程根据泰勒定理展开:
Figure QLYQS_1
式中
Figure QLYQS_2
表示光流向量x方向上的分量,/>
Figure QLYQS_3
表示光流向量y方向上的分量,/>
Figure QLYQS_4
分别代表x,y,t三个方向上的微分;
Figure QLYQS_5
可得到下式;
Figure QLYQS_6
从预处理后的鱼类视频信息中随机选取帧画面,通过计算图像像素点变化从而得到相应帧画面中的光流信息:
Figure QLYQS_7
将光流图像以及RGB图像输入带有金字塔池化层的双通道卷积神经网络中进行训练,获得输出特征,其步骤包括:
将所述光流图像或RGB图像之一输入带有金字塔池化层的双通道卷积神经网络中的第一层进行7×7×96卷积,获得第一特征图;
将所述第一特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样,获得第二特征图;
将所述第二特征图输入双通道卷积神经网络中的第一层进行5×5×384卷积操作,获得第三特征图;
将所述第三特征图输入双通道卷积神经网络中的最大池化层中进行2×2采样,获得第四特征图;
将所述第四特征图输入双通道卷积神经网络中进行两次3×3×512卷积操作,获得第五特征图;
将所述第五特征图输入双通道卷积神经网络中进行3×3×384卷积操作,获得第六特征图;
将所述第六特征图依次输入双通道卷积神经网络中的最大池化层、金字塔池化层,获得第七特征图;
将所述第七特征图输入两个全连接层后获得4096维特征向量,所述特征向量即为输出特征。
2.根据权利要求1所述的一种基于TPP-TCCNN的海洋鱼类识别方法,其特征在于,将所述第六特征图输入双通道卷积神经网络中的最大池化层后,输出k*M维特征向量,对所述k*M维特征向量采用汇聚函数进行聚合及输出,获得第七特征图。
3.根据权利要求2所述的一种基于TPP-TCCNN的海洋鱼类识别方法,其特征在于,获得第一特征图、第六特征图之后,还包括:对所述第一特征图、第六特征图进行批量归一化以及修正线性激活。
4.根据权利要求1-3任一项所述的一种基于TPP-TCCNN的海洋鱼类识别方法,其特征在于,所述softmax分类模型具有两个输入,其中一个输入包括所述光流图像的输出特征,另一个输入包括所述RGB图像的输出特征。
5.根据权利要求4所述的一种基于TPP-TCCNN的海洋鱼类识别方法,其特征在于,在所述softmax分类模型中通过下式实现图像分类:
Figure QLYQS_8
其中exp(x)是以自然常数e为底的指数函数,在输出层中有n个神经元,am为输入变量,第m个神经元的输出是sm
CN202110865502.0A 2021-07-29 2021-07-29 一种基于tpp-tccnn的海洋鱼类识别方法 Active CN113642429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865502.0A CN113642429B (zh) 2021-07-29 2021-07-29 一种基于tpp-tccnn的海洋鱼类识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865502.0A CN113642429B (zh) 2021-07-29 2021-07-29 一种基于tpp-tccnn的海洋鱼类识别方法

Publications (2)

Publication Number Publication Date
CN113642429A CN113642429A (zh) 2021-11-12
CN113642429B true CN113642429B (zh) 2023-07-14

Family

ID=78418906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865502.0A Active CN113642429B (zh) 2021-07-29 2021-07-29 一种基于tpp-tccnn的海洋鱼类识别方法

Country Status (1)

Country Link
CN (1) CN113642429B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830242A (zh) * 2018-06-22 2018-11-16 北京航空航天大学 基于卷积神经网络的sar图像海洋目标分类检测方法
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN112329685A (zh) * 2020-11-16 2021-02-05 常州大学 一种融合型卷积神经网络人群异常行为检测的方法
CN112766145A (zh) * 2021-01-15 2021-05-07 深圳信息职业技术学院 人工神经网络的人脸动态表情识别方法及装置
CN112949560A (zh) * 2021-03-24 2021-06-11 四川大学华西医院 双通道特征融合下长视频表情区间连续表情变化识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830242A (zh) * 2018-06-22 2018-11-16 北京航空航天大学 基于卷积神经网络的sar图像海洋目标分类检测方法
CN109376747A (zh) * 2018-12-11 2019-02-22 北京工业大学 一种基于双流卷积神经网络的视频火焰检测方法
CN109829443A (zh) * 2019-02-23 2019-05-31 重庆邮电大学 基于图像增强与3d卷积神经网络的视频行为识别方法
CN112329685A (zh) * 2020-11-16 2021-02-05 常州大学 一种融合型卷积神经网络人群异常行为检测的方法
CN112766145A (zh) * 2021-01-15 2021-05-07 深圳信息职业技术学院 人工神经网络的人脸动态表情识别方法及装置
CN112949560A (zh) * 2021-03-24 2021-06-11 四川大学华西医院 双通道特征融合下长视频表情区间连续表情变化识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于组约束深度神经网络的航运监控事件识别;明道睿;张鸿;;计算机工程与设计(第10期);第1-5页 *
复杂监控背景下基于边缘感知学习网络的行为识别算法;聂玮;曹悦;朱冬雪;朱艺璇;黄林毅;;计算机应用与软件(第08期);第1-3页 *

Also Published As

Publication number Publication date
CN113642429A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN107316307B (zh) 一种基于深度卷积神经网络的中医舌图像自动分割方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN108596102B (zh) 基于rgb-d的室内场景物体分割分类器构造方法
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112070727B (zh) 一种基于机器学习的金属表面缺陷检测方法
CN109919223B (zh) 基于深度神经网络的目标检测方法及装置
CN107622280B (zh) 基于场景分类的模块化处方式图像显著性检测方法
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN114120093A (zh) 一种基于改进YOLOv5算法的煤矸目标检测方法
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN114782979A (zh) 一种行人重识别模型的训练方法、装置、存储介质及终端
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN116740362A (zh) 一种基于注意力的轻量化非对称场景语义分割方法及系统
CN113642429B (zh) 一种基于tpp-tccnn的海洋鱼类识别方法
CN116740808A (zh) 基于深度学习目标检测和图像分类的动物行为识别方法
CN111401209A (zh) 一种基于深度学习的动作识别方法
CN107341456B (zh) 一种基于单幅户外彩色图像的天气晴阴分类方法
Ramadhan et al. Identification of cavendish banana maturity using convolutional neural networks
Balmik et al. A robust object recognition using modified YOLOv5 neural network
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant