CN114863263B - 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法 - Google Patents
基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法 Download PDFInfo
- Publication number
- CN114863263B CN114863263B CN202210796234.6A CN202210796234A CN114863263B CN 114863263 B CN114863263 B CN 114863263B CN 202210796234 A CN202210796234 A CN 202210796234A CN 114863263 B CN114863263 B CN 114863263B
- Authority
- CN
- China
- Prior art keywords
- prediction
- feature
- cross
- image
- snakehead
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,属于深度学习技术领域。本申请的方法,包括图像采集、图像处理及网络模型;采集后的图像进行标注,调整图像尺寸得到输入图像,输入到目标检测网络,经过卷积整合,插入跨尺度分层特征融合模块,其特征在于,将输入跨尺度分层特征融合模块的所有特征分为n层,共由s个特征映射子集组成,每个特征映射子集都会与其他特征映射子集进行特征上的融合,最后进行连接,实现完整的信息融合,经卷积操作后,输出训练结果;然后利用损失函数进行网络参数调整,经过多次训练迭代后,得到适用于网络模型的参数;最后将输出的候选框输入到非极大值抑制模块,筛选正确预测框,得到预测结果。
Description
技术领域
本发明涉及一种基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,属于深度学习技术领域。
背景技术
在深度学习技术领域中,特征融合方法是一种常用的图像处理方法,如文献《基于改进YOLO和迁移学习的水下鱼类目标实时检测》(《模式识别与人工智能》,第32卷第三期,2019年3月),提出了一种基于改进YOLO与迁移学习的水下鱼类目标实时检测算法,使用特征融合的方法进行多尺度的目标检测,提出的迁移学习方法能够获得训练出具有较强泛化性能的网络模型,提出的基于限制对比度自适应直方图均衡化预处理算法可以去除水下图像的散射模糊现象,并且克服光照不均匀问题,实现在水下机器人嵌入式系统上的水下鱼类目标实时检测。
但是上述的方法仍然存在着问题,基于改进YOLO和迁移学习的水下鱼类目标实时检测中,针对图像的每一个子块最多只能检测一个目标,若子块中同时出现多个目标,会造成重叠目标的漏检这一情况,为一个图像子块设置了多个锚点,每个锚点可编码目标的边界框的坐标值、存在目标的置信度及类别。但针对目标大小相近,中心点坐标基本重合的情况,仍存在漏测的情况。
乌鳢为营底栖性鱼类,躯体柔软纤细似蛇形,躯体较长,前部呈圆筒形,后部逐渐为侧扁形,在养殖中其身躯并非固定于长条形,极易产生类内多样性遮挡,即乌鳢之间以多种躯体姿态彼此相互遮挡,且因其细长的身躯,在标记真实框或生成预测框时,类内遮挡或彼此紧贴的乌鳢的锚框重合程度较大,对检测产生较大困难。在水产的养殖中,尤其是身躯灵活细长多样的乌鳢的养殖中,精准的在类内多样性遮挡情况下检测出乌鳢个体,是养殖中十分重要的事情,因此,如何提高检测的准确度成为研究的方向。
发明内容
针对现有技术中存在的问题,提供一种基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法。
本发明是通过如下的技术方案,解决上述技术问题:
一种基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,包括图像采集、图像处理及网络模型;
所述图像处理,是指采集后的图像按9:1分为训练集与预测集,使用labelimg对所有图像进行标注,得到含所有目标的真实框的图像,并对所有真实框进行尺寸聚类,得到最适合于乌鳢检测训练的九个真实框尺寸,并调整图像尺寸,形成输入图像,输入图像适用于网络模型;
将输入图像输入到所述网络模型中,对目标检测,输入图像经过1X1卷积提取目标乌鳢特征,并对特征进行整合,调整维度后,插入跨尺度分层特征融合模块,
其特征在于,
首先,进行模型训练,将训练集的输入图像,输入网络模型中,训练集的输入图像在所述跨尺度分层特征融合模块中,将输入该模块的所有特征分为n层,共由s个特征映射子集组成,每个特征映射子集都会与其他特征映射子集进行特征上的融合,最后进行连接,形成完整的信息融合,经卷积操作后,输出含有目标置信度、坐标信息以及种类信息的训练结果;同时,为了提高网络模型的精度,可以串联多个跨尺度分层特征融合模块;
再利用YOLOV4损失函数进行网络参数调整,经过50次训练迭代后,得到适用于网络模型的参数,形成一个检测用的网络模型;
然后对模型进行检测,将预测集的输入图像作为测试图像进行检测,测试图像输入至调整好参数的网络模型,网络模型得到含有候选框目标种类、中心点坐标及宽高信息的预测结果,并将预测结果输入到非极大值抑制模块,非极大值抑制模块基于所有候选框定位准确度得分排名,筛选正确预测框。
在上述技术方案的基础上,本申请对上述技术方案,做出如下的完善及改进:
进一步,所述图像采集是使用相机采集大小为1920*1080的乌鳢图像;该图像中,因乌鳢躯体细长而导致的紧密相邻情况,形成类内遮挡。
进一步,所述目标检测,经过1X1卷积对特征通道进行信息整合及维度调整后,获得图像包含的所有特征,提取细长乌鳢的躯体姿态,此时的特征对应特征矩阵不同的维度,彼此间相互独立且没有关联,各自相当于独立的个体。
进一步,所述跨尺度分层特征融合模块,在一残差块内部构建分层残差连接,将所有特征分为n层,共由s个特征映射子集组成,即所有的特征平均的分成s个特征映射子集,用xi表示,其中i={1,2,...,s},每一个特征映射子集xi有相同的空间大小,但是与输入特征相比,每个特征映射子集有w个通道,即n=s*w。
进一步,所述特征映射子集均对应一个3X3卷积核,经该3X3卷积核提取特征后输出一个输出特征,该3X3卷积核的输入特征包括该3X3卷积核对应的特征映射子集以及该3X3卷积核之前的3X3卷积核形成的输出特征。
进一步,将所有所述输出特征进行融合,形成融合特征子集。
进一步,所述输出特征,都分为两份,一份传递到下一组未融合的特征映射子集对应的3X3卷积核处进行特征融合,另一份经1X1卷积后,进行信息的处理;待所有特征映射子集组都完成融合后,所有经1X1卷积处理后的特征信息,再经过一个1X1卷积,进行所有信息的整合,完成特征的汇总,得到含有目标种类及坐标信息、置信度的最终预测结果。
进一步,所述跨尺度分层特征融合模块的卷积层,每一个xi都带有一个3X3卷积层,称为Ki,Ki的输出用yi来表示;除x1外,特征映射子集xi加上Ki-1的输出特征,一起喂入Ki;每个特征映射子集xi通过一个3X3卷积核时,输出结果都会比原始输入的特征映射子集有更大的感受野,能够学习到乌鳢不同躯体姿态特征;s作为尺度维度的控制参数,允许学习更丰富的感受野的特征,而由连接引入的计算开销可以不计;Ki的输出不仅输入至Ki+1,并跨尺度输入至Ki+2,Ki+3,直至Ks,yi表示如下:
跨尺度分层特征融合将更丰富的信息输入至不同尺度,学习乌鳢不同躯体姿态特征,以保证在乌鳢紧密相邻的环境下更有效稳定提取特征信息,当特征通3X3卷积核之后,感受野便会增加,由于组合效应,便会产生许多等效的特征尺度,最终的输出包含不同数量以及不同感受野的组合。
进一步,所述非极大值抑制是基于预测框定位准确度得分排名的,同时考虑预测框的得分与重合程度,将得分过高的预测框的得分降低,再根据得分最高的预测框与其他预测框的交并比大小是否超过阈值,判断是否将其他预测框移除,若交并比大于阈值,则将其他预测框移除,再对所有种类进行循环,直至所有种类都完成预测框的筛选。
进一步,首先找出一张图像中得分大于阈值的所有预测框,这一步可以筛选删除掉得分不高的预测框;然后判断所选出的预测框的得分,用t表示;根据得分对筛选出来的预测框进行排序,得到得分最高的预测框,再计算得分最高的预测框与其他所有预测框的重合程度,如果重合程度过程高于阈值,则将获得的交并比值取高斯指数,高斯指数如式二所示:
公式二中,e为底数,iou指交并比,bM为当前得分最高预测框,bi表示当前待处理的预测框,σ为常数,
取高斯指数后,该预测框得分衰减,衰减后得分如式三所示:
公式三中,e为底数,iou指交并比,bM为当前得分最高预测框,bi表示当前待处理的预测框,σ为常数,t为预测框定位精确度得分,得到新得分后,代替原有分数,之后再对保留下来的所有预测框重复进行排序筛选,直至得到最终的预测框。
本发明的优点是:
首先,本发明研究一种跨尺度分层特征融合模块,构建分层残差连接,以更细粒度表示多尺度特征,在计算负载量不增加的情况下,具备更强的特征提取能力,并有效增加每个网络层的感受野。经过跨尺度特征处理后,可有效提取乌鳢颜色、纹理等主要特征信息,准确快速的提取多样性遮挡情况下乌鳢的特征,避免与背景混淆,提升了模型的泛化能力,有效提升类内多样性遮挡情况下乌鳢进行检测精度。
其次,本发明提出一种基于所有预测框定位准确度得分排名从而筛选正确预测框的方法。该方法针对对乌鳢养殖中乌鳢因其身躯细长,易相互紧贴,且互相之间有多样性遮挡的问题,可准确筛除错误的预测框,并避免因正确的预测框之间重合程度过高而误被剔除的情况。该方法首先将所有候选框与预测框的重合程度进行排名,而不是仅仅依靠判定类别的概率高低来排名,得到得分最高的预测框,再计算得分最高的预测框与其他所有预测框的重合程度,如果重合程度过程高于阈值,则将获得的交并比值取高斯指数后续进行非极大值抑制,可以有效避免先验框因过度重叠而导致真实预测框被筛除,从而提升检测准确度。
附图说明
图1为检测模块系统结构图;
图2为跨尺度分层特征融合模块结构图;
图3为使用本申请的方法对鱼类的检测效果图。
具体实施方式
为了能够更好说明本申请中的技术方案,以下,以乌鳢为对象,具体说明本申请的方案:
本发明以幼鱼期乌鳢图像为研究对象,研究了一种针对乌鳢养殖类内多样性的相互遮挡情况下检测的方法。
结合图1-图2,
图像采集:使用的相机采集到的乌鳢养殖图像大小为1920*1080,乌鳢的体型细长,鱼群游动过程中,鱼和鱼相接近,因此拍出的照片中,乌鳢紧密相邻,出现类内遮挡的情况;
图像处理:一方面,对采集后的图像使用labelimg进行标注,得到含所有目标的真实框的图像;另一方面,网络预测的候选框由初始设置的先验框调整得来,乌鳢体型细长,故其锚框也为矮长或瘦高形状,若不对先验框进行调整,会对先验框的预测产生影响,故对所有真实框进行尺寸聚类,得到最适合于乌鳢检测网络训练的九个锚框尺寸,并调整图像尺寸,形成输入图像,使图像适用于网络模型;具体的,输入图像为含类内遮挡现象的乌鳢图像,并将图像调整尺寸至608*608大小。
网络模型:图像输入目标检测网络,经过1X1卷积对特征进行提取,并整合信息,调整维度后,得到特征矩阵A:[2,64,608,608],其中第一维为两种类别,乌鳢与背景,第二维为特征通道,包含乌鳢颜色信息、纹理信息及乌鳢之间的关联信息,第三维与第四维为图像宽高;将特征矩阵A插入跨尺度分层特征融合模块,将所有的特征平均的分成s个特征映射子集,每个子集间进行特征的相互融合,最后进行信息的整合,经卷积操作后,输出含有目标置信度、坐标信息以及种类信息的候选框;经损失函数多次进行网络参数调整,得到适用于网络模型的参数;最后进入基于所有预测框定位准确度得分排名从而筛选正确预测框的非极大值抑制模块,将上一步生成的所有候选框经过非极大值抑制进行筛选,筛除错误的候选框,从而保留真实的预测框,得到最终预测结果;
具体的,其中所述跨尺度分层特征融合模块:该跨尺度分层特征融合模块在一残差块内部构建分层残差连接,以更细粒度表示多尺度特征,在计算负载量不增加的情况下,具备更强的特征提取能力,并有效增加每个网络层的感受野。
在网络模型中:
第一步,将含有类内多样性遮挡的乌鳢图像作本模块的输入图像,经过1X1卷积对特征通道进行信息整合及维度调整后,获得图像包含的所有特征,得到特征矩阵A:[2,64,608,608],其中第一维为两种类别,乌鳢与背景,第二维为特征通道,包含乌鳢颜色信息、纹理信息及乌鳢之间的关联信息,第三维与第四维为图像宽高;此时的特征彼此间相互独立且没有关联,如颜色、纹理、背景等特征,各自相当于独立的个体;
第二步,跨尺度分层特征融合模块在一残差块内部构建分层残差连接,将所有特征分为n层,共由s个特征映射子集组成,即所有的特征平均的分成s个特征映射子集,用xi表示为:[2,64/s,608,608],第一维为类别数量,第二维为特征通道,其中i={1,2,...,s},每一个特征映射子集xi有相同的空间大小,但是与输入特征相比,每个特征映射子集有w个通道,即n=s*w;
第三步,第一组特征映射子集的特征输入到该特征映射子集对应的3X3卷积核中提取特征,获得该特征映射子集的输出特征矩阵y1:[2,64/s,608,608];然后,该输出y1与第二组特征映射子集x2:[2,64/s,608,608],一起输入第二组特征映射子集对应的3X3卷积核中,输出第二组特征映射子集的输出y2:[2,2*64/s,608,608],第一组特征映射子集的输出y1、第二组特征映射子集的输出y2和第三组特征映射子集x3:[2,64/s,608,608],一起输入第三组特征映射子集对应的3X3卷积核中,输出第三组特征映射子集y3:[2,4*64/s,608,608],依此处理全部的特征映射子集,获得其相对应的输出特征;这样处理就实现了对特征的融合以及信息的丰富;每个特征映射子集的输出特征也跨尺度连接到之后的每一个特征映射子集中;
也即为:
每一个特征映射子集xi都带有一个3X3卷积层,称为Ki,Ki的输出特征用yi来表示,yi即为输出特征。特征映射子集xi加上Ki-1输出的输出特征,一起喂入Ki。每个特征映射子集xi通过一个Ki时,输出的yi都会比原始的输入特征有更大的感受野。s作为尺度维度的控制参数,更大的s允许学习更丰富的感受野的特征,而由连接引入的计算开销可以不计。Ki的输出不仅输入至Ki+1,并跨尺度输入至Ki+2,Ki+3,直至Ks,yi表示如下:
跨尺度分层特征融合将更丰富的信息输入至不同尺度,学习乌鳢不同躯体姿态特征,以保证在类内多样性遮挡环境下更有效稳定提取特征信息,当特征通过3X3的卷积核之后,感受野便会增加,由于组合效应,便会产生许多等效的特征尺度,最终的输出包含不同数量以及不同感受野的组合;
跨尺度分层特征融合使得网络获取的乌鳢颜色纹理及多样性的躯体姿态信息更多,利用获取到的颜色纹理及多样性的躯体姿态信息检测乌鳢得到的先验框位置就更准确、更接近乌鳢实际位置,从而提高在类内多样性遮挡情况下乌鳢进行检测的准确率。
第四步,融合后的输出特征,既要进行1X1卷积,也输入到其后的特征映射子集处一同输入到其后特征映射子集对应的卷积核进行特征融合;输出特征经1X1卷积,进行信息的处理,统一调整为特征矩阵[2, 64, 208, 208]。待所有特征映射子集组都完成特征融合后,所有输出特征均经1X1卷积处理后,得到相应的特征信息,所有特征信息都再经过一个整合卷积核进行特征整合,得到融合特征子集,该整合卷积为1X1卷积,进行所有信息的整合,完成特征的汇总,得到的融合特征子集含有目标种类及坐标信息、置信度的最终预测结果Y:[2, 64, 208, 208],其中第二维包含乌鳢图像全部特征,及其预测框位置信息、种类信息以及置信度信息。
作为筛选的非极大值抑制模块:基于预测框定位准确度得分排名的非极大值抑制模块。
目标检测算法大多存在许多密集分布先验框,得到预测结果之后,再结合先验框对预测结果进行调整,得到最终检测结果。因此同一目标可能产生多个预测框。乌鳢因其细长柔软的躯体,产生多样的躯体姿态,导致类内多样性的遮挡,且乌鳢直接极易紧贴在一起,使得其真实框本身非常接近且密集,彼此间预测框的值很容易超过阈值,导致预测框被错误的剔除。
基于预测框定位准确度得分排名的非极大值抑制,同时考虑预测框的得分与重合程度,并没有简单粗暴的因重合程度过大而直接筛除预测框,而是将得分过高的预测框的得分降低,再根据得分最高的预测框与其他预测框的交并比大小是否超过人为设置的阈值,此处阈值设置为0.7,判断是否将其他预测框移除,若交并比大于阈值,则将其他预测框移除,再对所有种类进行循环,直至所有种类都完成预测框的筛选。
该方法使用可同时表示得分和定位精度的交并比评分作排名的基础,融合置信度得分和定位精度的得分,可以更准确有效的对预测框进行排序,从而更加精准筛选出预测框,以及排除冗余预测框。
由于乌鳢目标检测只有一个种类,所以在筛选的过程中不再需要对种类进行循环,只需对乌鳢一个种类进行后续算法。该方法首先找出一张图像中得分大于阈值的所有预测框,这一步可以筛选删除掉得分不高的预测框;然后判断所选出的预测框的得分,用t表示。根据得分对筛选出来的预测框进行排序,得到得分最高的预测框,再计算得分最高的预测框与其他所有预测框的重合程度,如果重合程度过程高于阈值,则将获得的交并比值取高斯指数,高斯指数如公式二所示:
公式二中,e为底数,iou指交并比,bM为当前得分最高预测框,bi表示当前待处理的预测框,σ为常数,
取高斯指数后,该预测框得分衰减,衰减后得分如公式三所示:
公式三中,e为底数,iou指交并比,bM为当前得分最高预测框,bi表示当前待处理的预测框,σ为常数,t为预测框定位精确度得分,得到新得分后,代替原有分数。之后再对保留下来的所有预测框重复进行排序筛选,直至得到最终的预测框。
基于预测框定位准确度得分排名的非极大值抑制模块不仅适用于仅含一种类别的乌鳢目标检测,还针对乌鳢细长的体型特点,有效抑制将两个目标紧密相邻预测结果误以为是一个目标的不同预测结果的情况。该方法对于类内多样性遮挡的乌鳢目标检测具有可观精度提升。
结合上述的网络模型和非极大值抑制模块,可实现对类内多样性遮挡情况下乌鳢的目标检测,以解决类内遮挡情况下,因乌鳢相似的颜色、纹理,多样的躯体姿态造成的类类内多样性遮挡及细长的身形造成的预测框重合程度较大较为密集所导致的精度下降问题。将处理好的乌鳢图像传输到乌鳢进行检测模块,利用跨尺度分层特征融合模块,可以使得网络获取更丰富的颜色、纹理、多样性的躯体姿态等特征,加强特征之间的关联,在乌鳢相互多样性遮挡,颜色纹理相近的情况下,提高检测乌鳢的准确度;利用基于预测框定位准确度得分排名的非极大值抑制模块,在生成的预测框较为密集,与真实框交并比较大的情况下,避免了正确的预测框被错误剔除的情况,有效提高了正确预测框的存在概率,提升了乌鳢进行检测的准确度。
输入图像输入跨尺度分层特征融合模块,读取图像的所有特征,并按方法对其进行特征融合。为保证特征的充分融合与高效利用,共设置5个跨尺度分层特征融合模块,然后输出融合后的特征;结合融合后的特征信息,整合为含有目标种类及其坐标信息及置信度的预测结果。生成的预测结果与事先标注的真实框通过YOLOV4损失函数进行微调,调整预测框的位置信息,重新进行训练,直至训练迭代次数结束,获得最后的预测结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,包括图像采集、图像处理及网络模型;
所述图像处理,是指采集后的图像按9:1分为训练集与预测集,使用labelimg对所有图像进行标注,得到含所有目标的真实框的图像,并对所有真实框进行尺寸聚类,得到最适合于乌鳢检测训练的九个真实框尺寸,并调整图像尺寸,形成输入图像,输入图像适用于网络模型;
将输入图像输入到所述网络模型中,对目标检测,输入图像经过1X1卷积提取目标乌鳢特征,并对特征进行整合,调整维度后,插入跨尺度分层特征融合模块,
其特征在于,
首先,进行模型训练,将训练集的输入图像,输入网络模型中,训练集的输入图像在所述跨尺度分层特征融合模块中,将输入该模块的所有特征分为n层,共由s个特征映射子集组成,每个特征映射子集都会与其他特征映射子集进行特征上的融合,最后进行连接,形成完整的信息融合,经卷积操作后,输出含有目标置信度、坐标信息以及种类信息的训练结果;
再利用YOLOV4损失函数进行网络参数调整,经过50次训练迭代后,得到适用于网络模型的参数,形成一个检测用的网络模型;
然后对模型进行检测,将预测集的输入图像作为测试图像进行检测,测试图像输入至调整好参数的网络模型,网络模型得到含有候选框目标种类、中心点坐标及宽高信息的预测结果,并将预测结果输入到非极大值抑制模块,非极大值抑制模块基于所有候选框定位准确度得分排名,筛选正确预测框。
2.根据权利要求1所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,所述图像采集是使用相机采集大小为1920*1080的乌鳢图像;该图像中,因乌鳢躯体细长而导致的紧密相邻情况,形成类内遮挡。
3.根据权利要求2所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,所述目标检测,经过1X1卷积对特征通道进行信息整合及维度调整后,获得图像包含的所有特征,提取细长乌鳢的躯体姿态,此时的特征对应特征矩阵不同的维度,彼此间相互独立且没有关联,各自相当于独立的个体。
4.根据权利要求3所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,所述跨尺度分层特征融合模块,在一残差块内部构建分层残差连接,将所有特征分为n层,共由s个特征映射子集组成,即所有的特征平均的分成s个特征映射子集,用xi表示,其中i={1,2,...,s},每一个特征映射子集xi有相同的空间大小,但是与输入特征相比,每个特征映射子集有w个通道,即n=s*w。
5.根据权利要求4所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,所述特征映射子集均对应一个3X3卷积核,经该3X3卷积核提取特征后输出一个输出特征,该3X3卷积核的输入特征包括该3X3卷积核对应的特征映射子集以及该3X3卷积核之前的3X3卷积核形成的输出特征。
6.根据权利要求5所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,将所有所述输出特征进行融合,形成融合特征子集。
7.根据权利要求6所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,所述输出特征,都分为两份,一份传递到下一组未融合的特征映射子集对应的3X3卷积核处进行特征融合,另一份经1X1卷积后,进行信息的处理;待所有特征映射子集组都完成融合后,所有经1X1卷积处理后的特征信息,再经过一个1X1卷积,进行所有信息的整合,完成特征的汇总,得到含有目标种类及坐标信息、置信度的最终预测结果。
9.根据权利要求8所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,所述非极大值抑制是基于预测框定位准确度得分排名的,同时考虑预测框的得分与重合程度,将得分过高的预测框的得分降低,再根据得分最高的预测框与其他预测框的交并比大小是否超过阈值,判断是否将其他预测框移除,若交并比大于阈值,则将其他预测框移除,再对所有种类进行循环,直至所有种类都完成预测框的筛选。
10.根据权利要求9所述的基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法,其特征在于,首先找出一张图像中得分大于阈值的所有预测框;然后判断所选出的预测框的得分,用t表示;根据得分对筛选出来的预测框进行排序,得到得分最高的预测框,再计算得分最高的预测框与其他所有预测框的重合程度,如果重合程度过程高于阈值,则将获得的交并比值取高斯指数,高斯指数如式二所示:
公式二中,e为底数,iou指交并比,bM为当前得分最高预测框,bi表示当前待处理的预测框,σ为常数,
取高斯指数后,该预测框得分衰减,衰减后得分如式三所示:
公式三中,e为底数,iou指交并比,bM为当前得分最高预测框,bi表示当前待处理的预测框,σ为常数,t为预测框定位精确度得分,得到新得分后,代替原有分数,之后再对保留下来的所有预测框重复进行排序筛选,直至得到最终的预测框。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210796234.6A CN114863263B (zh) | 2022-07-07 | 2022-07-07 | 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法 |
US18/184,490 US11694428B1 (en) | 2022-07-07 | 2023-03-15 | Method for detecting Ophiocephalus argus cantor under intra-class occulusion based on cross-scale layered feature fusion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210796234.6A CN114863263B (zh) | 2022-07-07 | 2022-07-07 | 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863263A CN114863263A (zh) | 2022-08-05 |
CN114863263B true CN114863263B (zh) | 2022-09-13 |
Family
ID=82626854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210796234.6A Active CN114863263B (zh) | 2022-07-07 | 2022-07-07 | 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11694428B1 (zh) |
CN (1) | CN114863263B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782759B (zh) * | 2022-06-22 | 2022-09-13 | 鲁东大学 | 一种基于YOLOv5网络对密集遮挡鱼类的检测方法 |
CN117611983A (zh) * | 2023-11-17 | 2024-02-27 | 河南大学 | 基于隐蔽通信技术及深度学习的水下目标检测方法及系统 |
CN117689664B (zh) * | 2024-02-04 | 2024-05-14 | 杭州灵西机器人智能科技有限公司 | 一种无损检测方法、系统、装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325504A (zh) * | 2018-09-07 | 2019-02-12 | 中国农业大学 | 一种水下海参识别方法及系统 |
CN111209952A (zh) * | 2020-01-03 | 2020-05-29 | 西安工业大学 | 基于改进ssd和迁移学习的水下目标检测方法 |
CN111310622A (zh) * | 2020-02-05 | 2020-06-19 | 西北工业大学 | 一种面向水下机器人智能作业的鱼群目标识别方法 |
CN113076871A (zh) * | 2021-04-01 | 2021-07-06 | 华南理工大学 | 一种基于目标遮挡补偿的鱼群自动检测方法 |
CN114170497A (zh) * | 2021-11-03 | 2022-03-11 | 中国农业大学 | 一种基于注意力模块的多尺度水下鱼群检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114653610A (zh) * | 2022-04-12 | 2022-06-24 | 闽江学院 | 一种鱼类识别分拣实现方法 |
-
2022
- 2022-07-07 CN CN202210796234.6A patent/CN114863263B/zh active Active
-
2023
- 2023-03-15 US US18/184,490 patent/US11694428B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325504A (zh) * | 2018-09-07 | 2019-02-12 | 中国农业大学 | 一种水下海参识别方法及系统 |
CN111209952A (zh) * | 2020-01-03 | 2020-05-29 | 西安工业大学 | 基于改进ssd和迁移学习的水下目标检测方法 |
CN111310622A (zh) * | 2020-02-05 | 2020-06-19 | 西北工业大学 | 一种面向水下机器人智能作业的鱼群目标识别方法 |
CN113076871A (zh) * | 2021-04-01 | 2021-07-06 | 华南理工大学 | 一种基于目标遮挡补偿的鱼群自动检测方法 |
CN114170497A (zh) * | 2021-11-03 | 2022-03-11 | 中国农业大学 | 一种基于注意力模块的多尺度水下鱼群检测方法 |
Non-Patent Citations (3)
Title |
---|
An Underwater Fish Individual Recognition Method Based on Improved YoloV4 and FaceNet;Huanjun Zhang 等;《 20th International Conference on Ubiquitous Computing and Communications (IUCC/CIT/DSCI/SmartCNS)》;20211231;全文 * |
Yolov4 High-Speed Train Wheelset Tread Defect Detection System Based on Multiscale Feature Fusion;Changfan Zhang 等;《Journal of Advanced Transportation》;20220327;全文 * |
基于多尺度融合与无锚点 YOLO v3 的鱼群计数方法;张璐 等;《农业机械学报》;20211130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US11694428B1 (en) | 2023-07-04 |
CN114863263A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN114863263B (zh) | 基于跨尺度分层特征融合对类内遮挡的乌鳢检测的方法 | |
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
Zahisham et al. | Food recognition with resnet-50 | |
CN110348399B (zh) | 基于原型学习机制和多维残差网络的高光谱智能分类方法 | |
CN104484681B (zh) | 基于空间信息和集成学习的高光谱遥感影像分类方法 | |
CN110781897B (zh) | 一种基于深度学习的语义边缘检测方法 | |
CN106022232A (zh) | 基于深度学习的车牌检测方法 | |
CN112598713A (zh) | 一种基于深度学习的近岸海底鱼类检测、跟踪统计方法 | |
CN111178120B (zh) | 一种基于作物识别级联技术的害虫图像检测方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN109087330A (zh) | 一种基于由粗到精图像分割的运动目标检测方法 | |
CN108596195B (zh) | 一种基于稀疏编码特征提取的场景识别方法 | |
CN106815323A (zh) | 一种基于显著性检测的跨域视觉检索方法 | |
CN109872331A (zh) | 一种基于深度学习的遥感图像数据自动识别分类方法 | |
CN109785359B (zh) | 一种基于深度特征金字塔与跟踪损失的视频目标检测方法 | |
Zhao et al. | Semi-supervised learning-based live fish identification in aquaculture using modified deep convolutional generative adversarial networks | |
CN109165658A (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN105069459B (zh) | 一种针对高分辨率sar图像地物类型提取方法 | |
CN116977960A (zh) | 一种基于实例分割的水稻秧苗行检测方法 | |
CN112613428A (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 | |
CN107766792A (zh) | 一种遥感图像舰船目标识别方法 | |
CN110837818A (zh) | 一种基于卷积神经网路的中华白海豚背鳍识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |