CN114937201A - 一种海洋生物目标检测算法模型的搭建方法及识别方法 - Google Patents
一种海洋生物目标检测算法模型的搭建方法及识别方法 Download PDFInfo
- Publication number
- CN114937201A CN114937201A CN202210779589.4A CN202210779589A CN114937201A CN 114937201 A CN114937201 A CN 114937201A CN 202210779589 A CN202210779589 A CN 202210779589A CN 114937201 A CN114937201 A CN 114937201A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- network
- marine organism
- algorithm model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种海洋生物目标检测算法模型的搭建方法及识别方法,搭建方法包括以下步骤:获取若干种海洋生物图像的数据集,标注并划分为训练集、验证集和测试集;以EfficientDet网络模型为基础搭建深度学习的目标检测算法模型,算法模型包括主干特征提取网络、加强特征提取网络和分类预测网络三部分;设置算法模型的训练参数对模型进行训练,模型参数在训练过程中不断进行优化;将测试集的图像输入到训练好的模型中,输出检测结果进行验证。本发明中,加强特征提取网络的构建提高了卷积神经网络对目标物特征信息的提取能力,尤其是对堆叠目标遮挡目标等信息不完整的目标以及伪装目标的特征信息提取,大大提高了识别的精准率。
Description
技术领域
本发明属于水下目标检测技术领域,尤其涉及一种海洋生物目标检测算法模型的搭建方法及识别方法。
背景技术
水下目标检测是海洋技术研究的重要领域之一。在过去,大部分的水下目标检测依赖于潜水员,而长期的水下作业和复杂的水下环境给他们的身体带来了严重的影响。因此,水下目标检测具有重要的研究价值和应用前景,可以为海洋鱼类等生物资源的监测、保护及可持续开发提供技术支持。
目标检测的任务是找出图像中所有感兴趣的目标,确定它们的位置和类别。除了图像分类以外,目标检测要解决的核心问题是:
1、目标可能出现在图像的任何位置。
2、目标有各种不同的大小。
3、目标有各种不同的形状。
现有的目标检测算法分为传统的目标检测方法和基于深度学习的目标检测方法。传统的目标检测算法存在提取特征难度大和泛化能力弱的缺点,其检测精度很难取得理想的效果。随着人工智能的不断发展,基于深度学习的目标检测算法逐渐成为了新的研究重点。基于深度学习的目标检测算法大致分为两类:基于回归的一阶段算法,如YOLO、SSD;基于分类的两阶段算法,如Faster R-CNN。卷积神经网络是深度学习的基础,使用反向传播算法进行反馈学习,通过自动化的特征提取提升了学习能力。相比于传统的的人工特征提取的检测方法,基于深度学习的目标检测方法的学习效果更好。作为计算机视觉的一个分支,基于深度学习的目标检测算法已被广泛应用于交通、农业、遥感等领域。
由于水下环境复杂,各类物体有不同的大小、形状、姿态,且有很多遮挡目标以及信息不完整的目标,加上水中图像模糊,对比度低等问题导致特征不明显。常用的目标检测算法运用在海洋生物目标检测方面普遍都存在识别度不高,识别不全等问题。
发明内容
针对上述问题,本发明第一方面提供了一种海洋生物目标检测算法模型的搭建方法,包括以下步骤:
步骤1,获取若干种海洋生物图像的数据集,通过标签标注软件进行目标物种类的标注,并划分为训练集、验证集和测试集;
步骤2,以EfficientDet网络模型为基础搭建深度学习的目标检测算法模型,所述算法模型包括主干特征提取网络、加强特征提取网络和分类预测网络三部分;所述主干特征提取网络为EfficientNet网络,用于对图像特征进行初步提取;所述加强特征提取网络用于对目标物的细节、纹理和背景的特征信息进行进一步的提取;所述分类预测网络用于进行定位和分类;
步骤3,设置算法模型的训练参数,使用步骤1中获取的训练集和验证集对模型进行训练,模型参数在训练过程中不断进行优化;
步骤4,将测试集的图像输入到训练好的模型中,输出检测结果进行验证。
在一种可能的设计中,所述加强特征提取网络的具体结构及处理过程为:
将主干特征提取网络的中间特征层P4层、P5层和P6层作为输入,所述P4层、P5层和P6层分别对应低层、中间层、和高层特征图;所述P4层和P5层通过平均池化Avgpool和标准差池化Stdpool来获取特征的全局信息,所述P6层通过最大池化Maxpool来获取特征的全局信息;所述P4层、P5层和P6层分别经过1×1卷积层获得通道之间的相互依赖性;所述P4层和P5层经过批归一化处理Batch Normalization进行标准化,并取Sigmoid函数,得到通道权值,将该权值分别和P4层、P5层、P6层相乘作为新的特征层输入到双向特征金字塔网络BiFPN;
具体公式如下所示:
P4层和P5层采用平均池化Avgpool和标准差池化Stdpool:
g(x)=[μc,ξc]
其中,Xi,j是输入通道的值,μc是平均池化后的特征向量,ξc是特征层标准差池化后的向量表示,g(x)则是平均池化和标准差池化拼接后的特征信息,H和W是输入图片的宽度和高度;
在获得特征图的池化信息后,获得各个通道的特征图的权重:
S=σ(BN(C1D(g(x))))
式中,σ是Sigmoid函数,BN的作用是进行标准化,C1D表示一维卷积,用来获取通道之间的关联性,S表示通道方向的权重;
原始输入X由权重S重新校准,因此P4层和P5层输出公式为:
Y4,5=SX
P6层采用最大池化Maxpool,公式如下:
S=σ(C1D(Mc))
Mc是最大池化后的特征向量,Xi,j是输入通道的值,σ是Sigmoid函数,C1D表示一维卷积,用来获取通道之间的关联性,S表示通道方向的权重,则P6层的输出为:
Y6=SX
最后,将特征层Y4、Y5、Y6和主干特征提取网络中的P3、P7输入到双向特征金字塔网络BiFPN中,反复进行自顶向下和自底向上的双向特征融合。
在一种可能的设计中,所述双向特征金字塔网络BiFPN进行特征融合的具体过程为:
S1,特征层P3、Y4、Y5、Y6和P7作为新的输入P3_in、P4_in、P5_in、P6_in和P7_in,同时构建两个P4_in、P5_in、P6_in;
S2,在获得P3_in、P4_in_1、P4_in_2、P5_in_1、P5_in_2、P6_in_1、P6_in_2和P7_in之后对P7_in进行上采样,上采样后与P6_in_1堆叠获得P6_td;之后对P6_td进行上采样,上采样后与P5_in_1进行堆叠获得P5_td;之后对P5_td进行上采样,上采样后与P4_in_1进行堆叠获得P4_td;之后对P4_td进行上采样,上采样后与P3_in进行堆叠获得P3_out;
S3,在获得P3_out、P4_td、P4_in_2、P5_td、P5_in_2、P6_td、P6_in_2和P7_in之后对P3_out进行下采样,下采样后与P4_td和P4_in_2堆叠获得P4_out;之后对P4_out进行下采样,下采样后与P5_td和P5_in_2进行堆叠获得P5_out;之后对P5_out进行下采样,下采样后与P6_td和P6_in_2进行堆叠获得P6_out;之后对P6_out进行下采样,下采样后与P7_in进行堆叠获得P7_out;
S4,将获得的P3_out、P4_out、P5_out、P6_out和P7_out作为P3_in、P4_in、P5_in、P6_in、P7_in,重复步骤S2和S3进行堆叠即可。
在一种可能的设计中,所述分类预测网络由类预测网络ClassNet和边界框预测网络BoxNet组成,以分别生成对象类和边界框位置;
所述类预测网络ClassNet由3次64通道的卷积和1次num_anchors x num_classes的卷积组成,用于预测该特征层上每一个网格点上每一个预测框对应的种类,所述num_anchors指的是该特征层所拥有的先验框数量,所述num_classes指的是网络一共对多少类的目标进行检测;
所述边界框预测网络BoxNet由3次64通道的卷积和1次num_anchors x 4的卷积组成,用于预测该特征层上每一个网格点上每一个先验框的变化情况,所述num_anchors指的是该特征层所拥有的先验框数量,所述4指的是先验框的调整情况;
其中,每个特征层所用的ClassNet是同一个ClassNet;每个特征层所用的BoxNet是同一个BoxNet。
在一种可能的设计中,所述步骤3中设置训练参数,训练周期设置为200,批量大小设置为16,初始学习率设置为0.01,学习率在周期为100和150时降低十倍。
本发明第二方面还提供了一种海洋生物目标识别方法,包括以下步骤:获取海洋生物图像;将获取的图像输入到如第一方面所述的搭建方法所搭建的检测算法模型中;模型处理后获取海洋生物目标的种类。
本发明第三方面还提供了一种海洋生物目标识别的设备,所述设备包括至少一个处理器和至少一个存储器;所述存储器中存储有如第一方面所述的搭建方法所搭建的检测算法模型的程序;所述处理器执行所述存储器存储的程序时,可以实现海洋生物目标检测识别。
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述的搭建方法所搭建的检测算法模型的计算机执行程序,所述计算机执行程序被处理器执行时可以实现海洋生物目标检测识别。
与现有技术相比,本发明提供了一种海洋生物目标检测算法模型的搭建方法及识别方法,本发明中,加强特征提取网络的构建提高了卷积神经网络对目标物特征信息的提取能力,尤其是对堆叠目标遮挡目标等信息不完整的目标以及伪装目标的特征信息提取,大大提高了识别的精准率。且加强特征提取网络的处理结果用于双向特征金字塔网络BiFPN,增强了网络的多尺度特征融合能力,使网络更适应于实际的水下环境。具体的讲,顶部特征图具有丰富的语义信息,用最大池化Maxpool可以很好的保留纹理细节特征,而底部特征图具有高分辨率,用平均池化Avgpool和标准差Stdpool能很好的保留背景信息,以此构建加强特征提取网络,可以提高网络对不同尺度目标物细节、纹理、背景等特征信息的进一步提取,强化语义信息。
附图说明
图1为本发明检测算法模型的搭建方法的流程框图。
图2为本发明所搭建的算法模型的整体结构示意图。
图3为主干网络EfficientNet的结构示意图。
图4为加强特征提取网络的结构示意图。
图5为双向特征金字塔网络BiFPN结构的示意图。
图6为分类预测网络对目标物进行分类和定位的结构示意图。
图7为常用的目标检测算法和本发明算法的准确率mAP值的比较图。
图8为本发明中海洋生物目标识别设备的结构简易框图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
如图1所示,本发明提供了一种海洋生物目标检测算法模型的搭建方法,主要包括以下步骤:
步骤1,获取若干种海洋生物图像的数据集,通过标签标注软件进行目标物种类的标注,并划分为训练集、验证集和测试集;
步骤2,以EfficientDet网络模型为基础搭建深度学习的目标检测算法模型,所述算法模型包括主干特征提取网络、加强特征提取网络和分类预测网络三部分;所述主干特征提取网络为EfficientNet网络,用于对图像特征进行初步提取;所述加强特征提取网络用于对目标物的细节、纹理和背景的特征信息进行进一步的提取;所述分类预测网络用于进行定位和分类;
步骤3,设置算法模型的训练参数,使用步骤1中获取的训练集和验证集对模型进行训练,模型参数在训练过程中不断进行优化;
步骤4,将测试集的图像输入到训练好的模型中,输出检测结果进行验证。
1.获取数据集。
对下载的海洋生物数据集进行人工标注,并按照7:2:1将数据集划分为训练集、验证集和测试集。
首先,从水下机器人竞赛国家自然科学基金提供的资料中下载海洋生物数据集,并对其进行筛选,去掉无目标物的图像,最终保留的有效图片共5543张。
然后,通过标签标注软件labelImg进行目标物种类的标注,比如此数据集可以包含海参(holothurian)、海胆(echinus)、海星(starfish)、扇贝(scallop)四个种类。图片的标注一定要覆盖所有部位,以免因为特征不全而影响识别效果。标签文件以PASCAL VOC格式保存为.xml文件,标签文件信息包含存储位置,标签种类以及标签的大小。
然后将图片文件放在JPEGimages文件中,将标签文件放在Annotation文件中,并创建一个标签类别名称所对应的txt文件,里面写上数据集中各种类的名称。
2.搭建深度学习的目标检测模型。
以EfficientDet网络模型为基础搭建深度学习的目标检测算法模型,所述算法模型包括主干特征提取网络、加强特征提取网络和分类预测网络三部分,模型的整体结构如图2所示。
1)主干特征提取网络:
主干特征提取网络对图像特征进行初步提取。EfficientDet网络以EfficientNet为主干网络。EfficientNet由16个Blocks堆叠构成,16个大Blocks可以分为1、2、2、3、3、4、1个Block,如图3所示。Block的总体的设计思路是倒转残差结构Inverted residuals。
具体结构为:
a、Conv3×3,对输入图片特征进行初步提取,并将图像大小调整到512×512。
b、MBConv1,经过一次3*3卷积网络,卷积核的数目为1,输出的通道数channels为16,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(256,256,16),此输出为P1层。
c、MB Conv 6,经过两次3*3卷积网络,卷积核的数目为6,输出的通道数channels为24,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(128,128,24),此输出为P2层。
d、MB Conv 6,经过两次5*5卷积网络,卷积核的数目为6,输出的通道数channels为40,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(64,64,40),此输出为P3层。
e、MB Conv 6,经过三次3*3卷积网络,卷积核的数目为6,输出的通道数channels为80,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(32,32,80),此输出为P4层。
f、MB Conv 6,经过三次5*5卷积网络,卷积核的数目为6,输出的通道数channels为112,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(32,32,112),此输出为P5层。
g、MB Conv 6,经过四次5*5卷积网络,卷积核的数目为6,输出的通道数channels为192,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(16,16,192),此输出为P6层。
h、MB Conv 6,经过一次3*3卷积网络,卷积核的数目为6,输出的通道数channels为320,再进过批归一化处理Batch Normalization,激活函数Swish操作,输出为(16,16,320),此输出为P7层。
通过主干特征提取网络,可以得到7个普通特征层,其中P3,P4,P5,P6,P7特征进入下一步处理。
2)加强特征提取网络:
加强特征提取网络对目标物的细节、纹理、背景的特征信息进行进一步的提取,具体结构如图4所示。
加强特征提取网络的具体结构及处理过程为:
将主干特征提取网络的中间特征层P4层、P5层和P6层作为输入,所述P4层、P5层和P6层分别对应低层、中间层、和高层特征图;所述P4层和P5层通过平均池化Avgpool和标准差池化Stdpool来获取特征的全局信息,所述P6层通过最大池化Maxpool来获取特征的全局信息;所述P4层、P5层和P6层分别经过1×1卷积层获得通道之间的相互依赖性;所述P4层和P5层经过批归一化处理Batch Normalization进行标准化,并取Sigmoid函数,得到通道权值,将该权值分别和P4层、P5层、P6层相乘作为新的特征层输入到双向特征金字塔网络BiFPN;
具体公式如下所示:
P4层和P5层采用平均池化Avgpool和标准差池化Stdpool:
g(x)=[μc,ξc]
其中,Xi,j是输入通道的值,μc是平均池化后的特征向量,ξc是特征层标准差池化后的向量表示,g(x)则是平均池化和标准差池化拼接后的特征信息,H和W是输入图片的宽度和高度;
在获得特征图的池化信息后,获得各个通道的特征图的权重:
S=σ(BN(C1D(g(x))))
式中,σ是Sigmoid函数,BN的作用是进行标准化,C1D表示一维卷积,用来获取通道之间的关联性,S表示通道方向的权重;
原始输入X由权重S重新校准,因此P4层和P5层输出公式为:
Y4,5=SX
P6层采用最大池化Maxpool,公式如下:
S=σ(C1D(Mc))
Mc是最大池化后的特征向量,Xi,j是输入通道的值,σ是Sigmoid函数,C1D表示一维卷积,用来获取通道之间的关联性,S表示通道方向的权重,则P6层的输出为:
Y6=SX
最后,将特征层Y4、Y5、Y6和主干特征提取网络中的P3、P7输入到双向特征金字塔网络BiFPN中,反复进行自顶向下和自底向上的双向特征融合。
双向特征金字塔网络BiFPN结构如图5所示,双向特征金字塔网络BiFPN进行特征融合的具体过程为:
S1,特征层P3、Y4、Y5、Y6和P7作为新的输入P3_in、P4_in、P5_in、P6_in和P7_in,同时构建两个P4_in、P5_in、P6_in;
S2,在获得P3_in、P4_in_1、P4_in_2、P5_in_1、P5_in_2、P6_in_1、P6_in_2和P7_in之后对P7_in进行上采样,上采样后与P6_in_1堆叠获得P6_td;之后对P6_td进行上采样,上采样后与P5_in_1进行堆叠获得P5_td;之后对P5_td进行上采样,上采样后与P4_in_1进行堆叠获得P4_td;之后对P4_td进行上采样,上采样后与P3_in进行堆叠获得P3_out;
S3,在获得P3_out、P4_td、P4_in_2、P5_td、P5_in_2、P6_td、P6_in_2和P7_in之后对P3_out进行下采样,下采样后与P4_td和P4_in_2堆叠获得P4_out;之后对P4_out进行下采样,下采样后与P5_td和P5_in_2进行堆叠获得P5_out;之后对P5_out进行下采样,下采样后与P6_td和P6_in_2进行堆叠获得P6_out;之后对P6_out进行下采样,下采样后与P7_in进行堆叠获得P7_out;
S4,将获得的P3_out、P4_out、P5_out、P6_out和P7_out作为P3_in、P4_in、P5_in、P6_in、P7_in,重复步骤S2和S3进行堆叠即可。
3)分类预测网络
分类预测网络由类预测网络ClassNet和边界框预测网络BoxNet组成,如图6所示,以分别生成对象类和边界框位置;
类预测网络ClassNet由3次64通道的卷积和1次num_anchors x num_classes的卷积组成,用于预测该特征层上每一个网格点上每一个预测框对应的种类,所述num_anchors指的是该特征层所拥有的先验框数量,所述num_classes指的是网络一共对多少类的目标进行检测;
边界框预测网络BoxNet由3次64通道的卷积和1次num_anchors x 4的卷积组成,用于预测该特征层上每一个网格点上每一个先验框的变化情况,所述num_anchors指的是该特征层所拥有的先验框数量,所述4指的是先验框的调整情况;
其中,每个特征层所用的ClassNet是同一个ClassNet;每个特征层所用的BoxNet是同一个BoxNet。
3.对搭建完成的算法模型进行训练。
训练可以在Linux系统上进行的,所需的GPU版本为NVIDIA GTX 1080Ti,包含16GRAM。软件平台包括Anaconda 3、Pytorch 1.2.0、CUDA 10.0、CUDNN 7.3.0和Python 3.6。
首先运行标签注释文件voc_annotation.py获得训练用的train.txt和val.txt,其中包含训练集和验证集的标签信息。
其次,在模型训练文件train.py中设置训练参数,训练周期train epochs设置为200;批量大小Batch size设置为16;初始学习率initial learning rate设置为0.01,学习率在周期epoch为100和150时降低十倍。
然后,运行训练文件train.py即可开始训练,当训练200个周期epoch后,损失值loss达到稳定。这时,模型训练好的权值文件会在对应的权值文件夹生成。
4.对训练完成的模型进行测试。
训练结果预测需要用到预测文件predict.py,首先需要修改模型路径model_path以及类别路径classes_path。model_path指向训练好的权值文件,classes_path指向检测类别所对应的txt。完成以上操作就可以运行predict.py进行检测了。输入测试图片的路径,即可输出检测结果。
如图7所示,是常用的目标检测算法和本发明算法的准确率mAP值的比较,(a)是本算法的mAP;(b)是Faster R-CNN的mAP;(c)是SSD的mAP;(d)是YOLOv3的mAP;通过比对可以看出,本发明所搭建的算法模型的识别率显著提高。
海洋生物目标检测算法模型搭建完成后,在实际场景的使用过程当中,包括以下步骤:获取海洋生物图像;将获取的图像输入到如上所述的搭建方法所搭建的检测算法模型中;模型处理后获取海洋生物目标的种类。
实施例2:
如图8所示,本发明同时提供了一种海洋生物目标识别的设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有如实施例1所述的搭建方法所搭建的检测算法模型的程序;处理器执行所述存储器存储的执行程序时,可以实现海洋生物目标检测识别。其中内部总线可以是工业标准体系结构(IndustryStandard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图8是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。I/O接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种非易失性计算机可读存储介质,计算机可读存储介质中存储有如实施例1所述的搭建方法所搭建的检测算法模型的计算机执行程序,计算机执行程序被处理器执行时用于实现海洋生物目标检测识别。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如CD-ROM、CD-R、CD-RW、DVD-20ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (8)
1.一种海洋生物目标检测算法模型的搭建方法,其特征在于,包括以下步骤:
步骤1,获取若干种海洋生物图像的数据集,通过标签标注软件进行目标物种类的标注,并划分为训练集、验证集和测试集;
步骤2,以EfficientDet网络模型为基础搭建深度学习的目标检测算法模型,所述算法模型包括主干特征提取网络、加强特征提取网络和分类预测网络三部分;所述主干特征提取网络为EfficientNet网络,用于对图像特征进行初步提取;所述加强特征提取网络用于对目标物的细节、纹理和背景的特征信息进行进一步的提取;所述分类预测网络用于进行定位和分类;
步骤3,设置算法模型的训练参数,使用步骤1中获取的训练集和验证集对模型进行训练,模型参数在训练过程中不断进行优化;
步骤4,将测试集的图像输入到训练好的模型中,输出检测结果进行验证。
2.如权利要求1所述的一种海洋生物目标检测算法模型的搭建方法,其特征在于,所述加强特征提取网络的具体结构及处理过程为:
将主干特征提取网络的中间特征层P4层、P5层和P6层作为输入,所述P4层、P5层和P6层分别对应低层、中间层、和高层特征图;所述P4层和P5层通过平均池化Avgpool和标准差池化Stdpool来获取特征的全局信息,所述P6层通过最大池化Maxpool来获取特征的全局信息;所述P4层、P5层和P6层分别经过1×1卷积层获得通道之间的相互依赖性;所述P4层和P5层经过批归一化处理Batch Normalization进行标准化,并取Sigmoid函数,得到通道权值,将该权值分别和P4层、P5层、P6层相乘作为新的特征层输入到双向特征金字塔网络BiFPN;
具体公式如下所示:
P4层和P5层采用平均池化Avgpool和标准差池化Stdpool:
g(x)=[μc,ξc]
其中,Xi,是输入通道的值,μc是平均池化后的特征向量,ξc是特征层标准差池化后的向量表示,g(x)则是平均池化和标准差池化拼接后的特征信息,H和W是输入图片的宽度和高度;
在获得特征图的池化信息后,获得各个通道的特征图的权重:
S=σ(BN(C1D(g(x))))
式中,σ是Sigmoid函数,BN的作用是进行标准化,C1D表示一维卷积,用来获取通道之间的关联性,S表示通道方向的权重;
原始输入X由权重S重新校准,因此P4层和P5层输出公式为:
Y4,5=SX
P6层采用最大池化Maxpool,公式如下:
S=σ(C1D(Mc))
Mc是最大池化后的特征向量,Xi,是输入通道的值,σ是Sigmoid函数,C1D表示一维卷积,用来获取通道之间的关联性,S表示通道方向的权重,则P6层的输出为:
Y6=SX
最后,将特征层Y4、Y5、Y6和主干特征提取网络中的P3、P7输入到双向特征金字塔网络BiFPN中,反复进行自顶向下和自底向上的双向特征融合。
3.如权利要求2所述的一种海洋生物目标检测算法模型的搭建方法,其特征在于,所述双向特征金字塔网络BiFPN进行特征融合的具体过程为:
S1,特征层P3、Y4、Y5、Y6和P7作为新的输入P3_in、P4_in、P5_in、P6_in和P7_in,同时构建两个P4_in、P5_in、P6_in;
S2,在获得P3_in、P4_in_1、P4_in_2、P5_in_1、P5_in_2、P6_in_1、P6_in_2和P7_in之后对P7_in进行上采样,上采样后与P6_in_1堆叠获得P6_td;之后对P6_td进行上采样,上采样后与P5_in_1进行堆叠获得P5_td;之后对P5_td进行上采样,上采样后与P4_in_1进行堆叠获得P4_td;之后对P4_td进行上采样,上采样后与P3_in进行堆叠获得P3_out;
S3,在获得P3_out、P4_td、P4_in_2、P5_td、P5_in_2、P6_td、P6_in_2和P7_in之后对P3_out进行下采样,下采样后与P4_td和P4_in_2堆叠获得P4_out;之后对P4_out进行下采样,下采样后与P5_td和P5_in_2进行堆叠获得P5_out;之后对P5_out进行下采样,下采样后与P6_td和P6_in_2进行堆叠获得P6_out;之后对P6_out进行下采样,下采样后与P7_in进行堆叠获得P7_out;
S4,将获得的P3_out、P4_out、P5_out、P6_out和P7_out作为P3_in、P4_in、P5_in、P6_in、P7_in,重复步骤S2和S3进行堆叠即可。
4.如权利要求1所述的一种海洋生物目标检测算法模型的搭建方法,其特征在于:所述分类预测网络由类预测网络ClassNet和边界框预测网络BoxNet组成,以分别生成对象类和边界框位置;
所述类预测网络ClassNet由3次64通道的卷积和1次num_anchors xnum_classes的卷积组成,用于预测该特征层上每一个网格点上每一个预测框对应的种类,所述num_anchors指的是该特征层所拥有的先验框数量,所述num_classes指的是网络一共对多少类的目标进行检测;
所述边界框预测网络BoxNet由3次64通道的卷积和1次num_anchors x 4的卷积组成,用于预测该特征层上每一个网格点上每一个先验框的变化情况,所述num_anchors指的是该特征层所拥有的先验框数量,所述4指的是先验框的调整情况;
其中,每个特征层所用的ClassNet是同一个ClassNet;每个特征层所用的BoxNet是同一个BoxNet。
5.如权利要求1所述的一种海洋生物目标检测算法模型的搭建方法,其特征在于:所述步骤3中设置训练参数,训练周期设置为200,批量大小设置为16,初始学习率设置为0.01,学习率在周期为100和150时降低十倍。
6.一种海洋生物目标识别方法,其特征在于,包括以下步骤:获取海洋生物图像;将获取的图像输入到如权利要求1至5任意一项所述的搭建方法所搭建的检测算法模型中;模型处理后获取海洋生物目标的种类。
7.一种海洋生物目标识别的设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器;所述存储器中存储有如权利要求1至5任意一项所述的搭建方法所搭建的检测算法模型的程序;所述处理器执行所述存储器存储的程序时,可以实现海洋生物目标检测识别。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有如权利要求1至5任意一项所述的搭建方法所搭建的检测算法模型的计算机执行程序,所述计算机执行程序被处理器执行时可以实现海洋生物目标检测识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779589.4A CN114937201A (zh) | 2022-07-04 | 2022-07-04 | 一种海洋生物目标检测算法模型的搭建方法及识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210779589.4A CN114937201A (zh) | 2022-07-04 | 2022-07-04 | 一种海洋生物目标检测算法模型的搭建方法及识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114937201A true CN114937201A (zh) | 2022-08-23 |
Family
ID=82867730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210779589.4A Pending CN114937201A (zh) | 2022-07-04 | 2022-07-04 | 一种海洋生物目标检测算法模型的搭建方法及识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937201A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641506A (zh) * | 2022-11-04 | 2023-01-24 | 中咨数据有限公司 | 基于深度学习的拌合站遥感影像识别方法、系统及应用 |
CN115641518A (zh) * | 2022-10-09 | 2023-01-24 | 山东巍然智能科技有限公司 | 一种无人机用视图感知网络模型及目标检测方法 |
CN116758580A (zh) * | 2023-05-05 | 2023-09-15 | 中国地质大学(北京) | 底栖生物识别方法、装置、电子设备及存储介质 |
CN116863286A (zh) * | 2023-07-24 | 2023-10-10 | 中国海洋大学 | 一种双流目标检测方法及其模型搭建方法 |
CN117392527A (zh) * | 2023-12-11 | 2024-01-12 | 中国海洋大学 | 一种高精度水下目标分类检测方法及其模型搭建方法 |
CN117636341A (zh) * | 2024-01-26 | 2024-03-01 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
CN117690011A (zh) * | 2024-02-04 | 2024-03-12 | 中国海洋大学 | 适用于嘈杂水下场景的目标检测方法及其模型搭建方法 |
CN118015477A (zh) * | 2024-04-10 | 2024-05-10 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
CN118015477B (zh) * | 2024-04-10 | 2024-06-04 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-07-04 CN CN202210779589.4A patent/CN114937201A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115641518A (zh) * | 2022-10-09 | 2023-01-24 | 山东巍然智能科技有限公司 | 一种无人机用视图感知网络模型及目标检测方法 |
CN115641518B (zh) * | 2022-10-09 | 2023-09-26 | 山东巍然智能科技有限公司 | 一种无人机用视图感知网络模型及目标检测方法 |
CN115641506A (zh) * | 2022-11-04 | 2023-01-24 | 中咨数据有限公司 | 基于深度学习的拌合站遥感影像识别方法、系统及应用 |
CN116758580A (zh) * | 2023-05-05 | 2023-09-15 | 中国地质大学(北京) | 底栖生物识别方法、装置、电子设备及存储介质 |
CN116863286B (zh) * | 2023-07-24 | 2024-02-02 | 中国海洋大学 | 一种双流目标检测方法及其模型搭建方法 |
CN116863286A (zh) * | 2023-07-24 | 2023-10-10 | 中国海洋大学 | 一种双流目标检测方法及其模型搭建方法 |
CN117392527A (zh) * | 2023-12-11 | 2024-01-12 | 中国海洋大学 | 一种高精度水下目标分类检测方法及其模型搭建方法 |
CN117392527B (zh) * | 2023-12-11 | 2024-02-06 | 中国海洋大学 | 一种高精度水下目标分类检测方法及其模型搭建方法 |
CN117636341A (zh) * | 2024-01-26 | 2024-03-01 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
CN117636341B (zh) * | 2024-01-26 | 2024-04-26 | 中国海洋大学 | 一种多帧海藻显微图像增强识别方法及其模型搭建方法 |
CN117690011A (zh) * | 2024-02-04 | 2024-03-12 | 中国海洋大学 | 适用于嘈杂水下场景的目标检测方法及其模型搭建方法 |
CN117690011B (zh) * | 2024-02-04 | 2024-04-19 | 中国海洋大学 | 适用于嘈杂水下场景的目标检测方法及其模型搭建方法 |
CN118015477A (zh) * | 2024-04-10 | 2024-05-10 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
CN118015477B (zh) * | 2024-04-10 | 2024-06-04 | 南京智慧水运科技有限公司 | 一种航海雷达图像识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114937201A (zh) | 一种海洋生物目标检测算法模型的搭建方法及识别方法 | |
US11048983B2 (en) | Method, terminal, and computer storage medium for image classification | |
TWI759647B (zh) | 影像處理方法、電子設備,和電腦可讀儲存介質 | |
CN111476306B (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
KR20210102180A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체 | |
CN112036331B (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
KR20200131305A (ko) | 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체 | |
CN108256549B (zh) | 图像分类方法、装置及终端 | |
WO2021208667A1 (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN109871843B (zh) | 字符识别方法和装置、用于字符识别的装置 | |
CN110443366B (zh) | 神经网络的优化方法及装置、目标检测方法及装置 | |
CN113066086B (zh) | 道路病害检测方法及装置、电子设备和存储介质 | |
US20200294249A1 (en) | Network module and distribution method and apparatus, electronic device, and storage medium | |
WO2022166069A1 (zh) | 深度学习网络确定方法、装置、电子设备及存储介质 | |
CN113326768B (zh) | 训练方法、图像特征提取方法、图像识别方法及装置 | |
CN116863286B (zh) | 一种双流目标检测方法及其模型搭建方法 | |
CN111814538B (zh) | 目标对象的类别识别方法、装置、电子设备及存储介质 | |
CN114677517B (zh) | 一种无人机用语义分割网络模型及图像分割识别方法 | |
CN115641518A (zh) | 一种无人机用视图感知网络模型及目标检测方法 | |
US20220270352A1 (en) | Methods, apparatuses, devices, storage media and program products for determining performance parameters | |
CN112036307A (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN114038067B (zh) | 煤矿人员行为检测方法、设备及存储介质 | |
CN111178115A (zh) | 对象识别网络的训练方法及系统 | |
CN114445778A (zh) | 一种计数方法及装置、电子设备和存储介质 | |
CN114299563A (zh) | 预测人脸图像的关键点坐标的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |