CN117893878A - 一种小目标检测方法、装置、设备及介质 - Google Patents
一种小目标检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117893878A CN117893878A CN202410061899.1A CN202410061899A CN117893878A CN 117893878 A CN117893878 A CN 117893878A CN 202410061899 A CN202410061899 A CN 202410061899A CN 117893878 A CN117893878 A CN 117893878A
- Authority
- CN
- China
- Prior art keywords
- improved
- unit
- ssd model
- module
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 130
- 230000004927 fusion Effects 0.000 claims abstract description 115
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 241000371652 Curvularia clavata Species 0.000 description 3
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 240000001417 Vigna umbellata Species 0.000 description 3
- 235000011453 Vigna umbellata Nutrition 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 240000004922 Vigna radiata Species 0.000 description 2
- 235000010721 Vigna radiata var radiata Nutrition 0.000 description 2
- 235000011469 Vigna radiata var sublobata Nutrition 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 244000098338 Triticum aestivum Species 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本申请适用于目标检测技术领域,提供了一种小目标检测方法、装置、设备及介质。该小目标检测方法包括:对改进的SSD模型进行训练,得到训练后的SSD模型;改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块;利用训练后的SSD模型对待检测图像中的小目标进行检测。本申请的小目标检测方法能够有效提高小目标检测的精确度。
Description
技术领域
本申请涉及目标检测技术领域,尤其涉及一种小目标检测方法、装置、设备及介质。
背景技术
实际中,小目标检测具有非常广泛的应用场景。在无人驾驶、遥感观测、航拍图像分析、医学影像以及工业缺陷检测中,小目标检测是极为关键的一环。对小目标的精确快速地检测,可以有效降低经济成本、事故风险。因此小目标检测的发展将推动工业自动化、智能化进程的脚步,具有深远的应用价值与研究价值。然而小目标检测作为目标检测领域极为关键的研究方向之一,尚且存在许多尚未攻克的难题,相比于其他尺度的目标检测,小目标所特有的分辨率不高、可提取特征信息少、定位精度要求高以及数据集中小目标占比小等因素,均制约着小目标检测性能的提高。
单次多边框检测(SSD,Single Shot MultiBox Detector)算法是当下最主要的单阶段目标检测方法之一。区别于之前的目标检测算法,SSD使用了多个不同尺度的特征层进行多尺度目标检测,使用步长为2的卷积操作生成5个尺度不同的额外层进行目标检测,其中尺度较大的特征层检测较小的目标,尺度较小的特征层检测较大的目标。SSD算法对物体检测的精度和速度均有较大的提升。然而,由于SSD直接使用卷积特征图进行检测且额外层之间缺少信息交流,对于小目标和相互靠近的物体检测效果不佳,从而产生错检和漏检的情况,存在小目标检测精确度低的问题。
发明内容
本申请实施例提供了一种小目标检测方法、装置、设备及介质,可以解决目标检测精确度低的问题。
第一方面,本申请实施例提供了一种小目标检测方法,该小目标检测方法包括:
对改进的SSD模型进行训练,得到训练后的SSD模型;改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合;
利用训练后的SSD模型对待检测图像中的小目标进行检测。
可选的,改进的ResNet50网络中第四阶段的第一个残差模块中的第一个卷积层和第二个卷积层的卷积核步长均为1,第四阶段的降采样操作中卷积核的步长为1。
可选的,融合模块前的残差注意力模块输出的特征图的通道数为融合模块接收到的其他特征图的通道数均为/>其中,c表示融合模块的通道数。
可选的,残差注意力模块包括:第一残差单元、第二残差单元、第三残差单元、第四残差单元、乘法单元、加法单元、归一化单元、第一激活函数单元以及依次相连的上采样单元、下采样单元、第一卷积单元、第二卷积单元、第二激活函数单元;
第一残差单元的输入端为残差注意力模块的输入端,第一激活函数单元的输出端为残差注意力模块的输出端;
第一残差单元的输出端与下采样单元的输入端、第二残差单元的输入端相连接,第二残差单元的输出端与第三残差单元的输入端相连接,第三残差单元的输出端与乘法单元的输入端、加法单元的输入端相连接,第二激活函数单元的输出端与乘法单元的输入端相连接,乘法单元的输出端与加法单元的输入端相连接,加法单元的输出端与第四残差单元的输入端相连接,第四残差单元的输出端与归一化单元的输入端相连接,归一化单元的输出端与第一激活函数单元的输入端相连接。
可选的,对改进的SSD模型进行训练,得到训练后的SSD模型,包括:
获取多个目标图像;
分别针对每个目标图像,利用改进的SSD模型对目标图像进行小目标检测,获取目标图像的检测框;
基于所有目标图像的检测框计算改进的SSD模型的模型损失,并利用模型损失对改进的SSD模型的参数进行调整,得到训练后的SSD模型。
可选的,利用模型损失对改进的SSD模型的参数进行调整,得到训练后的SSD模型,包括:
判断模型损失是否达到损失函数预设值;
若是,则将改进的SSD模型作为训练后的SSD模型;
否则,调整改进的SSD模型中的参数,并返回分别针对每个目标图像,利用改进的SSD模型对目标图像进行小目标检测,获取目标图像的检测框的步骤。
可选的,基于所有目标图像的检测框计算改进的SSD模型的模型损失,包括:
通过公式:
计算模型损失CIoU;
其中,IoU表示交并比,b表示检测框的中心点坐标,bgt表示真实框的中心点坐标,ρ2()表示欧式距离计算,c表示检测框与真实框的最小外接框的对角线长度,α表示惩罚因子,v表示长宽比相似性指标:
其中,wgt表示真实框的宽度,hgt表示真实框的长度,w表示检测框的宽度,h表示检测框的长度。
第二方面,本申请实施例提供了一种小目标检测装置,包括:
训练模块,对改进的SSD模型进行训练,得到训练后的SSD模型;改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合;
检测模块,利用训练后的SSD模型对待检测图像进行目标检测,获取待检测图像的检测框。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,该处理器执行上述计算机程序时实现上述的小目标检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述的小目标检测方法。
本申请的上述方案有如下的有益效果:
在本申请的实施例中,通过对改进的SSD模型进行训练,得到训练后的SSD模型,然后利用训练后的SSD模型对待检测图像中的小目标进行检测。其中,改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合,加入CBAM注意力模块能够提高获取的特征图中包含的信息,利用残差注意力模块对需要进行特征融合的特征图进行预先处理,能够抑制噪声干扰并强化特征图的有效信息,同时,对改进的SSD模型进行训练,能够提高改进的SSD模型的性能,利用性能优质的最终目标检测模型对全面性和准确性高的特征进行处理得到的检测框精确性高,大大提高小目标检测的精确度。
本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的小目标检测方法的流程图;
图2为本申请一实施例提供的改进的SSD网络的具体结构图;
图3为本申请一实施例提供的残差注意力模块的具体结构图;
图4为本申请一实施例提供的小目标检测方法的检测结果示意图;
图5为本申请一实施例提供的基准模型的检测结果示意图;
图6为本申请一实施例提供的小目标检测装置的结构示意图;
图7为本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
针对现有的小目标检测精确度低的问题,本申请实施例提供了一种小目标检测方法,该小目标检测方法通过对改进的SSD模型进行训练,得到训练后的SSD模型,然后利用训练后的SSD模型对待检测图像中的小目标进行检测。其中,改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合,加入CBAM注意力模块能够提高获取的特征图中包含的信息,利用残差注意力模块对需要进行特征融合的特征图进行预先处理,能够抑制噪声干扰并强化特征图的有效信息,同时,对改进的SSD模型进行训练,能够提高改进的SSD模型的性能,利用性能优质的最终目标检测模型对全面性和准确性高的特征进行处理得到的检测框精确性高,大大提高小目标检测的精确度。
接下来对本申请提供的小目标检测方法做示例性说明。
如图1所示,本申请提供的小目标检测方法包括如下步骤:
步骤11,对改进的SSD模型进行训练,得到训练后的SSD模型。
上述改进的SSD模型的特征提取网络为改进的深度残差(ResNet50,Deepresidual network50)网络,改进的ResNet50网络的每个残差模块的输出端设有卷积块注意力模块(CBAM,Convolutional Block Attention Module),改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合。
步骤12,利用训练后的SSD模型对待检测图像中的小目标进行检测。
需要说明的是,上述待检测图像为需要进行小目标检测的图像。
示例性的,可以利用pycharm、Matlab等计算机软件运行训练后的SSD模型,对待检测图像进行小目标检测。
在本申请的一些实施例中,在得到待检测图像的检测框后,可以利用PyQt等计算机软件设计可视化交互界面,其包括模型加载、权重导入、图片选择与打开、图片检测、显示当前状态以及显示检测信息等功能。其中,使用标签(Label)控件实现显示图片、检测结果、当前状态以及检测信息等功能;两个按钮(PushButton)控件分别用于发出信号给对应的槽函数,实现图片打开和图片检测功能。
值得一提的是,利用训练后的目标检测模型对全面性和准确性高的特征进行处理得到的检测框精确性高,大大提高小目标检测的精确度。设计可视化交互界面,能够实现用户对检测框的交互,根据实际需求进行互动。
上述改进的ResNet50网络与传统的ResNet50网络一样,具有五个阶段:第0阶段(stage0)、第一阶段(stage1)、第二阶段(stage2)、第三阶段(stage3)和第四阶段(stage4)。改进的ResNet50网络与传统的ResNet50网络的不同之处在于每个残差模块的输出端设有CBAM注意力模块,CBAM注意力模块对残差模块输出的特征图进行空间内部关系的聚焦和特征内部之家按关系的聚焦,能够增强特征图的信息。
上述用于特征融合的融合模块为可以进行特征融合的SSD模型(如特征融合的单次多边框检测模型(FSSD,Feature Fusion Single Shot multi-box Detector))的特征融合模块。改进的SSD模型与传统的SSD模型一样,具备特征提取网络、多个额外层以及用于特征融合的融合模块,改进的SSD模型与传统的SSD模型的不同之处在于改进的SSD模型的特征提取网络为改进的ResNet50网络,且在融合模块前设有残差注意力模块。改进的SSD模块的第一个额外层为整个改进的SSD模块中第7个卷积块,第二个额外层为第8个卷积块中的第2个卷积层,第三个额外层为第9个卷积块中的第2个卷积层,第四个额外层为第10个卷积块中的第2个卷积层,第五个额外层为第11个卷积块中的第2个卷积层,前6个卷积块均处于特征提取网络中。利用改进的ResNet50网络作为特征提取网络,能够增加获取的特征图中包含的信息。利用残差注意力模块对需要进行特征融合的特征图进行预先处理,能够抑制噪声干扰并强化特征图的有效信息。调整额外层对应的卷积层,使额外层输出的特征图中包含的信息增加,进而提高小目标检测的结果的准确性。
下面对改进的ResNet50网络进行细化说明。
在本申请的一些实施例中,改进的ResNet50网络中第四阶段的第一个残差模块中的第一个卷积层和第二个卷积层的卷积核步长均为1,第四阶段的降采样操作中卷积核的步长为1。
值得一提的是,将改进的ResNet50网络中第四阶段中的卷积核的步长进行调整,能够让第四阶段得到的特征图中包含的信息增加。
下面对残差注意力模块进行细化说明。
残差注意力模块包括:第一残差单元、第二残差单元、第三残差单元、第四残差单元、乘法单元、加法单元、归一化单元、第一激活函数单元以及依次相连的上采样单元、下采样单元、第一卷积单元、第二卷积单元、第二激活函数单元。
第一残差单元的输入端为残差注意力模块的输入端,第一激活函数单元的输出端为残差注意力模块的输出端。
第一残差单元的输出端与下采样单元的输入端、第二残差单元的输入端相连接,第二残差单元的输出端与第三残差单元的输入端相连接,第三残差单元的输出端与乘法单元的输入端、加法单元的输入端相连接,第二激活函数单元的输出端与乘法单元的输入端相连接,乘法单元的输出端与加法单元的输入端相连接,加法单元的输出端与第四残差单元的输入端相连接,第四残差单元的输出端与归一化单元的输入端相连接,归一化单元的输出端与第一激活函数单元的输入端相连接。
示例性的,上述第一激活函数层中为ReLU激活函数,第二激活函数层中为Sigmoid激活函数,归一化单元为基于L2范数归一化的单元,第一卷积单元和第二卷积单元中的激活函数均为ReLU激活函数,卷积核均为1×1。
值得一提的是,使用残差注意力单元对需要进行特征融合的特征图进行预处理,能够强化有效信息,同时过滤噪声信息,进而提高融合特征的质量,且仅对第三阶段输出的特征图和第一个额外层输出的特征图输入残差注意力模块进行处理,是因为这两幅特征图尺寸大,包含更多表征信息,提高处理效率的同时尽可能地获取信息。
下面对融合模块进行细化说明。
融合模块前的残差注意力模块输出的特征图的通道数为融合模块接收到的其他特征图的通道数均为/>其中,c表示融合模块的通道数。融合模块为基于通道拼接的模块。
值得一提的是,将融合模块接收不同的特征图的通道数进行调整,能够调整融合特征中不同信息的比重,进而提高融合特征的信息准确性。
下面对上述对改进的SSD模型进行训练,得到训练后的SSD模型的步骤进行细化说明。
第一步,获取多个目标图像。
上述目标图像为用于对改进的SSD模型进行训练的图像。
示例性的,将大米、小麦、黑米、红豆以及绿豆随机摆放,通过改变摆放种类、位置、数量以及背景,同时改变拍照的距离、角度、光亮以及清晰度等因素,使用照相机拍摄了多张图片,将这些照片均作为目标图像。
第二步,分别针对每个目标图像,利用改进的SSD模型对目标图像进行小目标检测,获取目标图像的检测框。
第三步,基于所有目标图像的检测框计算改进的SSD模型的模型损失,并利用模型损失对改进的SSD模型的参数进行调整,得到训练后的SSD模型。
具体的,判断模型损失是否达到损失函数预设值。
若是,则将改进的SSD模型作为训练后的SSD模型。
否则,调整改进的SSD模型中的参数,并返回分别针对每个目标图像,利用改进的SSD模型对目标图像进行小目标检测,获取目标图像的检测框的步骤。
上述基于每个目标图像的检测框计算损失函数值的步骤具体为:
通过公式:
计算模型损失CIoU。
其中,IoU表示交并比,b表示检测框的中心点坐标,bgt表示真实框的中心点坐标,ρ2()表示欧式距离计算,c表示检测框与真实框的最小外接框的对角线长度,α表示惩罚因子,v表示长宽比相似性指标:
其中,wgt表示真实框的宽度,hgt表示真实框的长度,w表示检测框的宽度,h表示检测框的长度。
示例性的,损失函数值为3,损失函数预设值为2,损失函数值大于损失函数预设值,则说明此时改进的SSD模型的性能未达到预期,则调整改进的SSD模型中的参数,并利用调整后的改进的SSD模型重新对每个目标图像进行目标检测并计算损失函数值,此时的损失函数值为2,达到损失函数预设值,说明此时改进的SSD模型的性能达到预期,则将此时改进的SSD模型作为训练后的SSD模型。
值得一提的是,对改进的SSD模型进行训练,能够提高改进的SSD模型的性能。
下面结合一具体实例对本申请的改进的SSD模型进行示例性说明。
如图2所示,输入图像到改进的ResNet50中,图中仅为改进的ResNet50的简单的结构表示,改进的ResNet50中第三阶段得到的特征图输入到残差注意力模块中,经过残差注意力模块处理后的特征图、改进的ResNet50中第四阶段的残差模块提取的特征图以及第一个额外层提取的特征图输入到第一个融合模块中,得到第一融合特征。同时,第一个额外层提取的特征图输入到另一残差注意力模块中,经过另一残差注意力模块处理后的特征图、第二个额外层得到的特征图以及第三个额外层得到的特征图输入到第二个融合模块中,得到第二融合特征。第一融合特征、第二融合特征以及第三个额外层、第四个额外层、第五个额外层得到的特征图均输入到目标检测模块中,得到最终的检测框。且多个额外层是依次相连的,第一个额外层输入特征提取网络中第四阶段的第一个残差模块提取的特征图。
下面结合一具体实例对本申请的残差注意力模块进行示例性说明。
如图3所示,第一残差单元的输入端为残差注意力模块的输入端,第一残差单元的输出端与下采样单元的输入端、第二残差单元的输入端相连接,第二残差单元的输出端与第三残差单元的输入端相连接,下采样单元的输出端连接上采样单元的输入端,且上采样单元、第一卷积单元、第二卷积单元、第二激活函数单元依次相连,第二激活函数单元的输出与第二残差模块的输出进入乘法单元进行相乘运算,乘法单元的输出再与第二残差模块的输出进入加法单元进行加法运算,加法运算的输出进入依次相连的第四残差单元、归一化单元和第一激活函数单元,第一激活函数单元输出残差注意力模块的运算结果。
下面结合一实验对本申请提供的小目标检测方法进行示例性说明。
设置相同参数和环境,提出一组消融实验,旨在逐一评估改进特征提取网络、添加CBAM注意力机制、特征融合、基于残差结构的注意力机制以及完整交并比(CIoU,CompleteIntersection overUnion)对最终检测性能的提点。
进行实验的9种目标检测的模型如表1所示。
表1
其中,FSSD300为特征融合的单次多边框检测(FSSD,Feature Fusion SingleShot multi-box Detector)模型,FASSD300为特征融合和注意力机制的单次多边框检测(FASSD,feature fusion and spatial attention-based single shot detector)模型,GIoU为广义交并比(GIoU,Generalized Intersection over Union)。
选取三张图像作为待检测图像,本申请提高的小目标检测方法对待检测图像进行小目标检测得到的检测结果如图4所示,基准模型对待检测图像进行小目标检测得到的检测结果如图5所示,基准模型可以为表1中任何一种模型,图4和图5中blackrice为黑米,mung bean为黄豆,rice为米,red bean为红豆,99%、98%、46%等百分比数值表示检测正确的概率。
评价方式采用微软上下文常见对象(MS COCO,Microsoft Common Objects inContext)评价指标,主要关注交并比(IoU,Generalized Intersection overUnion)等于0.50:0.95时大中小目标的平均准确率和平均召回率以及各类的平均精确度(mAP,meanAverage Precision)值。实验得到的各模型的评价指标如表2所示。
表2
表中AP表示IoU=0.5:0.95下的平均准确率,AP50表示IoU=0.50时的准确率,AP75表示IoU=0.75时的准确率,AR表示平均召回率。
分析表2中数据,简单加入特征融合模块对于大目标的检测性能有少量提升,而小目标的检测性能反而有近6%的下降,这是由于小目标特征较少,且鲁棒性较差,简单引入特征融合模块,在引入背景信息的同时引入了额外的噪声,而这种噪音对小目标的影响更大,导致了模型对小目标检测性能的下降。而加入基于残差注意力机制的特征融合模块,可以对相邻特征层进行筛选,通过赋予注意力权重增强有效背景信息,弱化噪音,使目标层充分利用上下文信息,从而提升网络性能,小目标的准确率和召回率分别有5.4%和9.1%的提升。
由此可以看出,本申请的小目标检测方法能够有效提高对小目标进行检测的精确度。
下面对本申请提供的小目标检测装置进行示例性说明。
如图6所示,本申请实施例提供了一种小目标检测装置,该小目标检测装置600包括:
训练模块601,对改进的SSD模型进行训练,得到训练后的SSD模型;改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合;
检测模块602,利用训练后的SSD模型对待检测图像中的小目标进行检测。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
如图7所示,本申请的实施例提供了一种终端设备,该实施例的终端设备D10包括:至少一个处理器D100(图7中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102,所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。
具体的,所述处理器D100执行所述计算机程序D102时,通过对改进的SSD模型进行训练,得到训练后的SSD模型,然后利用训练后的SSD模型对待检测图像中的小目标进行检测。其中,改进的SSD模型的特征提取网络为改进的ResNet50网络,改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,两个融合模块中第一个融合模块前的残差注意力模块用于对改进的ResNet50网络中第三阶段输出的特征图进行处理,第一个融合模块用于对第一个融合模块前的残差注意力模块输出的特征图、改进的ResNet50网络中第四阶段输出的特征图和改进的SSD模型中第一个额外层输出的特征图进行融合,两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,第二个融合模块用于对第二个融合模块前的残差注意力模块输出的特征图、改进的SSD模型中的第二个额外层输出的特征图和改进的SSD模型中的第三个额外层输出的特征图进行融合,加入CBAM注意力模块能够提高获取的特征图中包含的信息,利用残差注意力模块对需要进行特征融合的特征图进行预先处理,能够抑制噪声干扰并强化特征图的有效信息,同时,对改进的SSD模型进行训练,能够提高改进的SSD模型的性能,利用性能优质的最终目标检测模型对全面性和准确性高的特征进行处理得到的检测框精确性高,大大提高小目标检测的精确度。
所称处理器D100可以是中央处理单元(CPU,Central Processing Unit),该处理器D100还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable GateArray)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元,例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备,例如所述终端设备D10上配备的插接式硬盘,智能存储卡(SMC,SmartMedia Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到小目标检测方法装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种小目标检测方法,其特征在于,包括:
对改进的SSD模型进行训练,得到训练后的SSD模型;所述改进的SSD模型的特征提取网络为改进的ResNet50网络,所述改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,所述改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,所述两个融合模块中第一个融合模块前的残差注意力模块用于对所述改进的ResNet50网络中第三阶段输出的特征图进行处理,所述第一个融合模块用于对所述第一个融合模块前的残差注意力模块输出的特征图、所述改进的ResNet50网络中第四阶段输出的特征图和所述改进的SSD模型中第一个额外层输出的特征图进行融合,所述两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,所述第二个融合模块用于对所述第二个融合模块前的残差注意力模块输出的特征图、所述改进的SSD模型中的第二个额外层输出的特征图和所述改进的SSD模型中的第三个额外层输出的特征图进行融合;
利用训练后的SSD模型对待检测图像中的小目标进行检测。
2.根据权利要求1所述的小目标检测方法,其特征在于,
所述改进的ResNet50网络中第四阶段的第一个残差模块中的第一个卷积层和第二个卷积层的卷积核步长均为1,所述第四阶段的降采样操作中卷积核的步长为1。
3.根据权利要求1所述的小目标检测方法,其特征在于,
所述融合模块前的残差注意力模块输出的特征图的通道数为所述融合模块接收到的其他特征图的通道数均为/>其中,c表示所述融合模块的通道数。
4.根据权利要求3所述的小目标检测方法,其特征在于,所述残差注意力模块包括:第一残差单元、第二残差单元、第三残差单元、第四残差单元、乘法单元、加法单元、归一化单元、第一激活函数单元以及依次相连的上采样单元、下采样单元、第一卷积单元、第二卷积单元、第二激活函数单元;
所述第一残差单元的输入端为所述残差注意力模块的输入端,所述第一激活函数单元的输出端为所述残差注意力模块的输出端;
所述第一残差单元的输出端与所述下采样单元的输入端、所述第二残差单元的输入端相连接,所述第二残差单元的输出端与所述第三残差单元的输入端相连接,所述第三残差单元的输出端与所述乘法单元的输入端、所述加法单元的输入端相连接,所述第二激活函数单元的输出端与所述乘法单元的输入端相连接,所述乘法单元的输出端与所述加法单元的输入端相连接,所述加法单元的输出端与所述第四残差单元的输入端相连接,所述第四残差单元的输出端与所述归一化单元的输入端相连接,所述归一化单元的输出端与所述第一激活函数单元的输入端相连接。
5.根据权利要求1所述的小目标检测方法,其特征在于,所述对改进的SSD模型进行训练,得到训练后的SSD模型,包括:
获取多个目标图像;
分别针对每个所述目标图像,利用所述改进的SSD模型对所述目标图像进行小目标检测,获取所述目标图像的检测框;
基于所有目标图像的检测框计算所述改进的SSD模型的模型损失,并利用模型损失对所述改进的SSD模型的参数进行调整,得到训练后的SSD模型。
6.根据权利要求5所述的小目标检测方法,其特征在于,所述利用模型损失对所述改进的SSD模型的参数进行调整,得到训练后的SSD模型,包括:
判断模型损失是否达到损失函数预设值;
若是,则将所述改进的SSD模型作为训练后的SSD模型;
否则,调整所述改进的SSD模型中的参数,并返回所述分别针对每个所述目标图像,利用所述改进的SSD模型对所述目标图像进行小目标检测,获取所述目标图像的检测框的步骤。
7.根据权利要求5所述的小目标检测方法,其特征在于,所述基于所有目标图像的检测框计算所述改进的SSD模型的模型损失,包括:
通过公式:
计算所述模型损失CIoU;
其中,IoU表示交并比,b表示所述检测框的中心点坐标,bgt表示真实框的中心点坐标,ρ2()表示欧式距离计算,c表示所述检测框与所述真实框的最小外接框的对角线长度,α表示惩罚因子,v表示长宽比相似性指标:
其中,wgt表示所述真实框的宽度,hgt表示所述真实框的长度,w表示所述检测框的宽度,h表示所述检测框的长度。
8.一种小目标检测装置,其特征在于,包括:
训练模块,对改进的SSD模型进行训练,得到训练后的SSD模型;所述改进的SSD模型的特征提取网络为改进的ResNet50网络,所述改进的ResNet50网络的每个残差模块的输出端设有CBAM注意力模块,所述改进的SSD模型中用于进行特征融合的两个融合模块前均设有残差注意力模块,所述两个融合模块中第一个融合模块前的残差注意力模块用于对所述改进的ResNet50网络中第三阶段输出的特征图进行处理,所述第一个融合模块用于对所述第一个融合模块前的残差注意力模块输出的特征图、所述改进的ResNet50网络中第四阶段输出的特征图和所述改进的SSD模型中第一个额外层输出的特征图进行融合,所述两个融合模块中第二个融合模块前的残差注意力模块用于对改进的SSD模型中的第一个额外层输出的特征图进行处理,所述第二个融合模块用于对所述第二个融合模块前的残差注意力模块输出的特征图、所述改进的SSD模型中的第二个额外层输出的特征图和所述改进的SSD模型中的第三个额外层输出的特征图进行融合;
检测模块,利用训练后的SSD模型对待检测图像中的小目标进行检测。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的小目标检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的小目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410061899.1A CN117893878A (zh) | 2024-01-16 | 2024-01-16 | 一种小目标检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410061899.1A CN117893878A (zh) | 2024-01-16 | 2024-01-16 | 一种小目标检测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117893878A true CN117893878A (zh) | 2024-04-16 |
Family
ID=90639283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410061899.1A Pending CN117893878A (zh) | 2024-01-16 | 2024-01-16 | 一种小目标检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117893878A (zh) |
-
2024
- 2024-01-16 CN CN202410061899.1A patent/CN117893878A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528878B (zh) | 检测车道线的方法、装置、终端设备及可读存储介质 | |
CN109948590B (zh) | 姿态问题检测方法及装置 | |
US8019164B2 (en) | Apparatus, method and program product for matching with a template | |
CN109086734B (zh) | 一种对人眼图像中瞳孔图像进行定位的方法及装置 | |
EP2093697B1 (en) | Method and arrangement for retrieving information comprised in a barcode | |
EP1675066A1 (en) | Face image candidate area search method, face image candidate area search system, and face image candidate area search program | |
CN111862035B (zh) | 光斑检测模型的训练方法、光斑检测方法、设备及介质 | |
CN109948616A (zh) | 图像检测方法、装置、电子设备及计算机可读存储介质 | |
CN111079739A (zh) | 一种多尺度注意力特征检测方法 | |
CN110148117B (zh) | 基于电力图像的电力设备缺陷识别方法、装置与存储介质 | |
CN114926747A (zh) | 一种基于多特征聚合与交互的遥感图像定向目标检测方法 | |
CN112883955A (zh) | 货架布局检测方法、装置及计算机可读存储介质 | |
CN111223078B (zh) | 瑕疵等级判定的方法及存储介质 | |
CN113269752A (zh) | 一种图像检测方法、装置终端设备及存储介质 | |
CN111914841B (zh) | 一种ct图像处理方法和装置 | |
CN111222558B (zh) | 图像处理方法及存储介质 | |
CN117893878A (zh) | 一种小目标检测方法、装置、设备及介质 | |
CN111339884A (zh) | 图像识别方法以及相关设备、装置 | |
CN113239738B (zh) | 一种图像的模糊检测方法及模糊检测装置 | |
CN115619791A (zh) | 一种物品陈列检测方法、装置、设备及可读存储介质 | |
CN113255766B (zh) | 一种图像分类方法、装置、设备和存储介质 | |
CN115223173A (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN112308062B (zh) | 一种复杂背景图像中的医疗影像访问号识别方法 | |
CN112629828B (zh) | 一种光学信息检测方法、装置及设备 | |
CN112084874B (zh) | 一种物体检测方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |