CN118230131A - 一种图像识别及目标检测方法 - Google Patents

一种图像识别及目标检测方法 Download PDF

Info

Publication number
CN118230131A
CN118230131A CN202410644326.1A CN202410644326A CN118230131A CN 118230131 A CN118230131 A CN 118230131A CN 202410644326 A CN202410644326 A CN 202410644326A CN 118230131 A CN118230131 A CN 118230131A
Authority
CN
China
Prior art keywords
image
feature
module
loss function
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410644326.1A
Other languages
English (en)
Other versions
CN118230131B (zh
Inventor
王媛彬
吴冰超
李千禧
何东阳
刘佳
马砺
郭亚茹
贺文卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Science and Technology
Original Assignee
Xian University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Science and Technology filed Critical Xian University of Science and Technology
Priority to CN202410644326.1A priority Critical patent/CN118230131B/zh
Publication of CN118230131A publication Critical patent/CN118230131A/zh
Application granted granted Critical
Publication of CN118230131B publication Critical patent/CN118230131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别及目标检测方法,包括步骤一、对原始图像进行预处理,提高图像局部对比度;二、采用改进的SRGAN算法对预处理的图像进行超分辨率重建;包括引入倒残差模块、优化损失函数和去掉批归一化层;三、采用改进的YOLOX算法进行目标检测;包括添加上采样特征增强模块、加入自适应空间特征融合模块、优化置信度损失函数和回归损失函数,以及融合卷积层和批归一化层。本发明方法步骤简单,设计合理,实现方便,能够有效应用在图像识别及目标检测中,提高目标检测精度,同时满足目标检测对实时性和轻量化的需求,使用效果好,便于推广使用。

Description

一种图像识别及目标检测方法
技术领域
本发明属于图像识别技术领域,具体涉及一种图像识别及目标检测方法。
背景技术
在监测设备、航拍图像、卫星图像和医学成像等实际应用场景中,受限于采集设备成本及自然环境因素,拍摄获得的图像存在分辨率较低、模糊、低质量的问题,而图像质量的优劣直接影响图像识别及目标检测的精度。因此,需要对原始图像进行超分辨率重建。
现有技术中,目标检测方法主要包括基于传统机器学习的目标检测方法和基于深度学习的目标检测方法,而基于传统机器学习的目标检测方法存在对人工过于依赖的问题。由于目标环境的复杂性和多变性,仅靠人工很难实现对目标特征的全面提取,而提取出的特征的优劣以及是否具有全面性,对目标检测的效果有着极为重要的影响。相较于传统机器学习方法,基于深度学习的目标检测方法通过深度卷积神经网络在大量的样本上进行训练和学习,以实现自动提取目标特征,可以避免人工提取特征存在的不够全面等问题,表现出了更为优秀的目标检测能力。但是,现有的基于深度学习的目标检测方法检测速度较慢,难以满足在保证目标检测精度的同时,对实时性和轻量化的要求。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种图像识别及目标检测方法,其方法步骤简单,设计合理,实现方便,能够有效应用在图像识别及目标检测中,提高目标检测精度,同时满足目标检测对实时性和轻量化的需求,使用效果好,便于推广使用。
为解决上述技术问题,本发明采用的技术方案是:一种图像识别及目标检测方法,包括以下步骤:
步骤一、对原始图像进行预处理,提高图像局部对比度;
步骤二、采用改进的SRGAN算法对预处理的图像进行超分辨率重建;
所述改进的SRGAN算法包括引入倒残差模块、优化损失函数和去掉批归一化层;
步骤三、采用改进的YOLOX算法进行目标检测;
所述改进的YOLOX算法包括添加上采样特征增强模块、加入自适应空间特征融合模块、优化置信度损失函数和回归损失函数,以及融合卷积层和批归一化层。
上述的一种图像识别及目标检测方法,步骤一中所述对原始图像进行预处理,提高图像局部对比度的具体过程包括:
步骤101、采用MSRCR算法提高原始图像的亮度,恢复原始图像的颜色信息;
步骤102、将RGB图像转换到Lab颜色空间;
步骤103、在Lab颜色空间,对L分量进行自适应直方图均衡化处理;
步骤104、将Lab颜色空间转换到RGB图像。
上述的一种图像识别及目标检测方法,步骤103中所述自适应直方图均衡化的具体过程包括:先计算图像的局部直方图,然后对图像的亮度进行重新分布,来提高图像的局部对比度,以图像像素的局部统计特征为基础,利用以自身像素为中心的一个局部子图像的直方图得到均衡化变化函数,来计算得到每个像素的灰度值;
均衡化变化函数的计算公式为:
式中,为变换后的像素的灰度值,/>为变换前的像素的灰度值,/>为窗口W内的平均灰度,/>为自适应参数。
上述的一种图像识别及目标检测方法,步骤二中所述改进的SRGAN算法的具体过程包括:
步骤201、在生成网络中引入倒残差模块,增加网络的深度,提高网络的特征提取能力,丰富生成图片的细节信息;
步骤202、通过对内容损失函数进行优化,引入Charbonnier损失函数,得到优化后的内容损失函数,消除重建图像中的伪影;
步骤203、去掉网络中削弱模型泛化能力和稳定性的批归一化层,在提升模型性能的同时减小模型大小。
上述的一种图像识别及目标检测方法,步骤202中所述优化后的内容损失函数为:
式中,为优化后的内容损失函数,W、H、C分别为卷积后获得的三维数组的宽、高和通道数,/>为输入的原始图像,/>为经生成网络重建后的图像,/>为图像通过卷积神经网络模型VGG19进行特征提取的过程,/>
上述的一种图像识别及目标检测方法,步骤三中所述改进的YOLOX算法的具体过程包括:
步骤301、增加上采样特征增强模块,减少图像特征信息的丢失;
步骤302、引入自适应空间特征融合模块,避免特征金字塔导致的图像特征信息冲突;
步骤303、引入Varifocal损失函数和CIoU损失函数,解决图像数据集正负样本不均衡和目标框回归不准确的问题;
步骤304、通过融合预测环节的卷积层和批归一化层,加快模型的推理速度。
上述的一种图像识别及目标检测方法,步骤301中所述上采样特征增强模块包括亚像素卷积和BasicRFB模块;所述亚像素卷积将特征图不同通道中的特征通过多通道间重组的方式重新排列组合在一个通道中,扩大特征图的分辨率;所述BasicRFB模块增强目标的位置信息和上下文信息,解决上采样导致的特征信息丢失的问题,同时,实现轻量化。
上述的一种图像识别及目标检测方法,步骤302中所述自适应空间特征融合模块包括空间注意力机制和自适应空间特征融合机制,通过空间注意力机制在空间维度上增加目标的权重;通过自适应空间特征融合机制进行特征缩放和自适应融合,消除负样本在反向传播过程中产生的干扰,解决图像中存在多个大小不一的目标时导致的特征信息冲突的问题。
上述的一种图像识别及目标检测方法,步骤303中所述Varifocal损失函数的表达式为:
式中,为Varifocal损失函数,/>为目标的预测概率,/>为预测框和目标框之间的IoU值,/>为调制因子;
所述CIoU损失函数的表达式为:
式中,为CIoU损失函数,IoU为预测框与目标框的交集面积与并集面积的比值,/>表示预测框与真实框中心点的直线距离,/>为目标框与预测框最小外接矩形的对角线长度,/>为平衡比例的参数,/>为长宽比一致性参数。
本发明与现有技术相比具有以下优点:
1、本发明针对原始图像受环境光照影响存在亮度低、对比度差的问题,设计了一种基于MSRCR算法和自适应直方图均衡化的图像增强算法,提升图像质量。
2、本发明针对图像分辨率低的问题,设计了一种基于倒残差的SRGAN图像超分辨率重建算法,提高图像的分辨率,相较于现有的超分重建算法,鲁棒性较好,有效遏制了伪影的产生,图像细节较清晰,为目标检测奠定了基础。
3、本发明针对目标检测能力不足的问题,设计了一种融合特征增强与空间注意力的YOLOX目标检测算法,提高目标检测的精度,并且满足目标检测对实时性和轻量化的需求。
4、本发明方法步骤简单,设计合理,实现方便,能够有效应用在图像识别及目标检测中,使用效果好,便于推广使用。
综上所述,本发明方法步骤简单,设计合理,实现方便,能够有效应用在图像识别及目标检测中,提高目标检测精度,同时满足目标检测对实时性和轻量化的需求,使用效果好,便于推广使用。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程图;
图2为本发明的标准带瓶颈结构的残差块的结构图;
图3为本发明倒残差模块的结构图;
图4为本发明改进的YOLOX算法的网络结构图;
图5为本发明亚像素卷积的原理图;
图6为本发明BasicRFB模块的原理图;
图7为本发明空间注意力机制的原理图;
图8为本发明自适应空间特征融合机制的原理图。
具体实施方式
如图1所示,本发明的图像识别及目标检测方法,包括以下步骤:
步骤一、对原始图像进行预处理,提高图像局部对比度;
步骤二、采用改进的SRGAN算法对预处理的图像进行超分辨率重建;
所述改进的SRGAN算法包括引入倒残差模块、优化损失函数和去掉批归一化层;
步骤三、采用改进的YOLOX算法进行目标检测;
所述改进的YOLOX算法包括添加上采样特征增强模块、加入自适应空间特征融合模块、优化置信度损失函数和回归损失函数,以及融合卷积层和批归一化层。
本实施例中,步骤一中所述对原始图像进行预处理,提高图像局部对比度的具体过程包括:
步骤101、采用MSRCR算法提高原始图像的亮度,恢复原始图像的颜色信息;
步骤102、将RGB图像转换到Lab颜色空间;
步骤103、在Lab颜色空间,对L分量进行自适应直方图均衡化处理;
具体实施时,MSRCR算法处理后的图像对比度差,边缘信息过度平滑,Lab颜色空间分辨色差的能力很强,具有很强的精确性和稳定性,且对拍摄设备要求比较低。Lab颜色空间由三个分量组成,L分量中只有明度信息,而a和b分量只包含颜色信息,因此,只需对L分量进行处理,即可提升图像的对比度,改善图像过度平滑的问题。
步骤104、将Lab颜色空间转换到RGB图像。
本实施例中,步骤103中所述自适应直方图均衡化的具体过程包括:先计算图像的局部直方图,然后对图像的亮度进行重新分布,来提高图像的局部对比度,以图像像素的局部统计特征为基础,利用以自身像素为中心的一个局部子图像的直方图得到均衡化变化函数,来计算得到每个像素的灰度值;
均衡化变化函数的计算公式为:
式中,为变换后的像素的灰度值,/>为变换前的像素的灰度值,/>为窗口W内的平均灰度,/>为自适应参数。
具体实施时,局部统计特征是相对于图像全局特征而言,图像全局特征是指图像的整体属性,常见的全局特征包括颜色特征、纹理特征和形状特征,全局特征具有良好的不变性、计算简单、表示直观等特点,但特征维数高、计算量大。全局特征也不适用于图像混叠和有遮挡的情况。局部统计特征则是从图像局部区域中抽取的特征,包括边缘、角点、线、曲线和特别属性的区域,本发明局部统计特征即为特别属性的区域。
本实施例中,步骤二中所述改进的SRGAN算法的具体过程包括:
步骤201、在生成网络中引入倒残差模块,增加网络的深度,提高网络的特征提取能力,丰富生成图片的细节信息;
具体实施时,倒残差模块是在残差模块的基础上提出来的,标准带瓶颈结构的残差块的结构如图2所示,输入图像先经过一个1×1卷积0.25倍的降维后,通过一个3×3标准卷积,然后再经过1×1卷积升维。而倒残差模块的结构如图3所示,首端的1×1卷积首先将输入图像的维度提升6倍,然后通过3×3深度可分离卷积Dwise,再经过一个1×1卷积降维。倒残差模块使得特征图的维度先升高后恢复,相反于残差块的结构,因此被称为倒残差结构。
步骤202、通过对内容损失函数进行优化,引入Charbonnier损失函数,得到优化后的内容损失函数,消除重建图像中的伪影;
具体实施时,在深度学习网络中,常用的损失函数有L1损失函数、MSE损失函数和Charbonnier损失函数。其中,L1损失函数通过计算像素点的绝对误差可有效去除重建图像中的伪影,但重建时间较长。相比于L1损失函数和MSE损失函数,本发明改进的SRGAN算法采用鲁棒性更好的Charbonnier损失函数进行内容损失的计算,兼顾了L1损失函数和MSE损失函数的优点,能够有效去除重建图像中的伪影,且花费的训练时间较少。
步骤203、去掉网络中削弱模型泛化能力和稳定性的批归一化层,在提升模型性能的同时减小模型大小。
具体实施时,批归一化层用于在模型训练的过程中计算同一批次图像的均值和方差,对图像的所有特征完成归一化操作,在模型测试期间,训练过程中计算得到的估计均值和方差将被代入模型中完成测试。然而,由于批归一化层会导致模型的泛化能力变差,在训练集和测试集的数据相差较大时,或者模型参数设置不同时,会导致伪影的产生,具有不稳定性。另一方面,在图像超分辨率重建中,批归一化操作会破坏卷积层所提取到的特征映射分布,出现色彩归一化的现象,导致目标不能显著区别于背景。因此,通过删去模型中的批归一化层来提升SRGAN算法模型的泛化能力和稳定性,避免伪影的产生;减少对特征映射分布的破坏,避免图像色彩归一化,提高图像的重建效果;在提升模型性能的同时,降低模型计算复杂度,减小模型大小,实现模型的轻量化。
本实施例中,步骤202中所述优化后的内容损失函数为:
式中,为优化后的内容损失函数,W、H、C分别为卷积后获得的三维数组的宽、高和通道数,/>为输入的原始图像,/>为经生成网络重建后的图像,/>为图像通过卷积神经网络模型VGG19进行特征提取的过程,/>
本实施例中,步骤三中所述改进的YOLOX算法的具体过程包括:
步骤301、增加上采样特征增强模块,减少图像特征信息的丢失;
步骤302、引入自适应空间特征融合模块,避免特征金字塔导致的图像特征信息冲突;
步骤303、引入Varifocal损失函数和CIoU损失函数,解决图像数据集正负样本不均衡和目标框回归不准确的问题;
步骤304、通过融合预测环节的卷积层和批归一化层,加快模型的推理速度。
具体实施时,改进的YOLOX算法的网络结构图如图4所示,包括主干网络(Backbone)、特征融合模块(Neck)和预测模块(Head),主干网络用于提取输入图像的特征,特征融合模块将主干网络提取的特征在多个不同尺度上进行特征融合,预测模块进行识别和定位。在此基础上,为提高检测精度,对YOLOX算法进行如下改进:(1)增加上采样特征增强模块,通过亚像素卷积和BasicRFB(Basic Receptive Field Block)模块减少图像特征信息的丢失;(2)引入自适应空间特征融合模块,通过空间注意力机制(Spatial AttentionModule,简称SAM)和自适应空间特征融合机制(Adaptively Spatial Feature Fusion,简称ASFF)解决特征金字塔导致的图像特征信息冲突的问题;(3)引入Varifocal损失函数和CIoU(Complete Intersection over Union)损失函数,解决图像数据集正负样本不均衡和目标框回归不准确的问题;(4)在提高检测精度的同时,为保证检测的实时性,通过融合预测环节的卷积层和批归一化层来加快模型的推理速度。
本实施例中,步骤301中所述上采样特征增强模块包括亚像素卷积和BasicRFB模块;所述亚像素卷积将特征图不同通道中的特征通过多通道间重组的方式重新排列组合在一个通道中,扩大特征图的分辨率;所述BasicRFB模块增强目标的位置信息和上下文信息,解决上采样导致的特征信息丢失的问题,同时,实现轻量化。
具体实施时,由于现有YOLOX算法采用最近邻插值法进行上采样,用最邻近的数字进行填充,导致上采样后的特征图中出现锯齿状,因此,通过亚像素卷积将特征图不同通道中的特征通过多通道间重组的方式重新排列组合在一个通道中,将低分辨率图像(Low-resolution image)扩大为高分辨率图像(High-resolution image),亚像素卷积的原理图如图5所示。由于上采样后的图像特征图会丢失一部分有效信息,故引入BasicRFB模块扩大上采样后的特征图的感受野,增强目标的上下文信息和位置信息,BasicRFB模块的原理图如图6所示,同时,BasicRFB模块也是一种轻量级的模块,通过串联两个3×3卷积实现一个5×5卷积的功能,通过串联1×7卷积和7×1卷积实现7×7卷积,大幅减少了参数量,在扩大感受野方面,该模块通过并联膨胀率分别为1、3、5、7的四个膨胀卷积来提高网络对特征的提取能力,其中,采用膨胀率为1和3的膨胀卷积来提取目标的位置信息,采用膨胀率为5和7的膨胀卷积来提取目标的上下文信息,在将四个膨胀卷积的输出结果进行堆叠之后,再经过一个1×1卷积,并和旁边的残差结构进行相加,作为最终的输出。
本实施例中,步骤302中所述自适应空间特征融合模块包括空间注意力机制和自适应空间特征融合机制,通过空间注意力机制在空间维度上增加目标的权重;通过自适应空间特征融合机制进行特征缩放和自适应融合,消除负样本在反向传播过程中产生的干扰,解决图像中存在多个大小不一的目标时导致的特征信息冲突的问题。
具体实施时,空间注意力机制(Spatial Attention Module,简称SAM)的原理图如图7所示,给定一个输入FeatureF,沿着通道维度同时经过全局最大池化(MaxPool)和全局平均池化(AvgPool)操作,分别得到不同的通道特征描述子,并将二者进行拼接,然后经过一个7×7卷积操作,再经过激活函数,最后得到空间注意力向量;自适应空间特征融合机制(Adaptively Spatial Feature Fusion,简称ASFF)的原理图如图8所示,由特征缩放和自适应融合两部分组成,为了解决特征融合时尺寸不同的问题,对不同尺寸的特征图采用不同的策略进行缩放,对于特征图的上采样,将特征图的通道数通过1×1卷积压缩至上一级特征图的通道数,然后通过插值实现特征图的上采样;对于特征图的一次下采样,使用步幅为2的3×3卷积同时扩大通道数和降低分辨率;对于特征图的二次下采样,采用步幅为2的池化操作将其分辨率减半,然后再经过步幅为2的3×3卷积操作,改变特征图的通道数和分辨率,在经过特征缩放之后,需对特征图进行自适应融合。
本实施例中,步骤303中所述Varifocal损失函数的表达式为:
式中,为Varifocal损失函数,/>为目标的预测概率,/>为预测框和目标框之间的IoU值,/>为调制因子;
所述CIoU损失函数的表达式为:
式中,为CIoU损失函数,IoU为预测框与目标框的交集面积与并集面积的比值,/>表示预测框与真实框中心点的直线距离,/>为目标框与预测框最小外接矩形的对角线长度,/>为平衡比例的参数,/>为长宽比一致性参数。
具体实施时,现有YOLOX算法中的置信度损失函数为二元交叉熵损失,该损失函数对所有样本赋予的权重是相同的,而有时检测目标仅占很少的区域,存在目标类与背景类极端不均衡的问题,导致在训练过程中,负样本数量过多而淹没了正样本的损失,从而使得网络的收敛速度变慢、检测精度降低。因此,对置信度损失函数进行优化,通过引入Varifocal损失函数,将网络训练的重点放在高质量的正样本上,来减少负样本的干扰。
由于有的检测目标较小,目标框的准确回归具有一定的难度,而现有YOLOX算法的回归损失函数IoU损失函数又存在不足:当预测框和目标框不相交时,损失函数值为0,梯度无法回传,网络无法训练和更新参数;不能精确反应预测框与目标框的重合程度,因此,本发明采用将目标框与预测框的中心点距离、重叠率、长宽比都考虑在内的CIoU损失函数来计算回归损失,CIoU损失函数能够将预测框与真实框之间的差距最小化,获得更好的回归效果,有利于解决检测中目标框回归不准确的问题;同时,CIoU损失函数能降低模型的训练难度,加快模型的收敛速度。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何限制,凡是根据本发明技术实质对以上实施例所作的任何简单修改、变更以及等效结构变化,均仍属于本发明技术方案的保护范围内。

Claims (9)

1.一种图像识别及目标检测方法,其特征在于,包括以下步骤:
步骤一、对原始图像进行预处理,提高图像局部对比度;
步骤二、采用改进的SRGAN算法对预处理的图像进行超分辨率重建;
所述改进的SRGAN算法包括引入倒残差模块、优化损失函数和去掉批归一化层;
步骤三、采用改进的YOLOX算法进行目标检测;
所述改进的YOLOX算法包括添加上采样特征增强模块、加入自适应空间特征融合模块、优化置信度损失函数和回归损失函数,以及融合卷积层和批归一化层。
2.按照权利要求1所述的一种图像识别及目标检测方法,其特征在于,步骤一中所述对原始图像进行预处理,提高图像局部对比度的具体过程包括:
步骤101、采用MSRCR算法提高原始图像的亮度,恢复原始图像的颜色信息;
步骤102、将RGB图像转换到Lab颜色空间;
步骤103、在Lab颜色空间,对L分量进行自适应直方图均衡化处理;
步骤104、将Lab颜色空间转换到RGB图像。
3.按照权利要求2所述的一种图像识别及目标检测方法,其特征在于,步骤103中所述自适应直方图均衡化的具体过程包括:先计算图像的局部直方图,然后对图像的亮度进行重新分布,来提高图像的局部对比度,以图像像素的局部统计特征为基础,利用以自身像素为中心的一个局部子图像的直方图得到均衡化变化函数,来计算得到每个像素的灰度值;
均衡化变化函数的计算公式为:
式中,为变换后的像素的灰度值,/>为变换前的像素的灰度值,/>为窗口W内的平均灰度,/>为自适应参数。
4.按照权利要求1所述的一种图像识别及目标检测方法,其特征在于,步骤二中所述改进的SRGAN算法的具体过程包括:
步骤201、在生成网络中引入倒残差模块,增加网络的深度,提高网络的特征提取能力,丰富生成图片的细节信息;
步骤202、通过对内容损失函数进行优化,引入Charbonnier损失函数,得到优化后的内容损失函数,消除重建图像中的伪影;
步骤203、去掉网络中削弱模型泛化能力和稳定性的批归一化层,在提升模型性能的同时减小模型大小。
5.按照权利要求4所述的一种图像识别及目标检测方法,其特征在于,步骤202中所述优化后的内容损失函数为:
式中,/>为优化后的内容损失函数,W、H、C分别为卷积后获得的三维数组的宽、高和通道数,/>为输入的原始图像,/>为经生成网络重建后的图像,/>为图像通过卷积神经网络模型VGG19进行特征提取的过程,
6.按照权利要求1所述的一种图像识别及目标检测方法,其特征在于,步骤三中所述改进的YOLOX算法的具体过程包括:
步骤301、增加上采样特征增强模块,减少图像特征信息的丢失;
步骤302、引入自适应空间特征融合模块,避免特征金字塔导致的图像特征信息冲突;
步骤303、引入Varifocal损失函数和CIoU损失函数,解决图像数据集正负样本不均衡和目标框回归不准确的问题;
步骤304、通过融合预测环节的卷积层和批归一化层,加快模型的推理速度。
7.按照权利要求6所述的一种图像识别及目标检测方法,其特征在于,步骤301中所述上采样特征增强模块包括亚像素卷积和BasicRFB模块;所述亚像素卷积将特征图不同通道中的特征通过多通道间重组的方式重新排列组合在一个通道中,扩大特征图的分辨率;所述BasicRFB模块增强目标的位置信息和上下文信息,解决上采样导致的特征信息丢失的问题,同时,实现轻量化。
8.按照权利要求6所述的一种图像识别及目标检测方法,其特征在于,步骤302中所述自适应空间特征融合模块包括空间注意力机制和自适应空间特征融合机制,通过空间注意力机制在空间维度上增加目标的权重;通过自适应空间特征融合机制进行特征缩放和自适应融合,消除负样本在反向传播过程中产生的干扰,解决图像中存在多个大小不一的目标时导致的特征信息冲突的问题。
9.按照权利要求6所述的一种图像识别及目标检测方法,其特征在于,步骤303中所述Varifocal损失函数的表达式为:
式中,/>为Varifocal损失函数,为目标的预测概率,/>为预测框和目标框之间的IoU值,/>为调制因子;
所述CIoU损失函数的表达式为:
式中,/>为CIoU损失函数,IoU为预测框与目标框的交集面积与并集面积的比值,/>表示预测框与真实框中心点的直线距离,/>为目标框与预测框最小外接矩形的对角线长度,/>为平衡比例的参数,/>为长宽比一致性参数。
CN202410644326.1A 2024-05-23 2024-05-23 一种图像识别及目标检测方法 Active CN118230131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410644326.1A CN118230131B (zh) 2024-05-23 2024-05-23 一种图像识别及目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410644326.1A CN118230131B (zh) 2024-05-23 2024-05-23 一种图像识别及目标检测方法

Publications (2)

Publication Number Publication Date
CN118230131A true CN118230131A (zh) 2024-06-21
CN118230131B CN118230131B (zh) 2024-08-09

Family

ID=91506349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410644326.1A Active CN118230131B (zh) 2024-05-23 2024-05-23 一种图像识别及目标检测方法

Country Status (1)

Country Link
CN (1) CN118230131B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115047455A (zh) * 2022-05-27 2022-09-13 南京理工大学 一种轻量化的sar图像舰船目标检测方法
CN116630301A (zh) * 2023-06-20 2023-08-22 盐城工学院 基于超分辨率和YOLOv8的带钢表面小目标缺陷检测方法及系统
CN116665054A (zh) * 2023-05-30 2023-08-29 郑州大学 一种基于改进YOLOv3的遥感影像小目标检测方法
CN116824413A (zh) * 2023-07-25 2023-09-29 江苏科技大学 一种基于多尺度空洞卷积的航拍图像目标检测方法
KR102637711B1 (ko) * 2022-12-22 2024-02-19 한국건설기술연구원 도로 상태이상 식별 모델 제공 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115047455A (zh) * 2022-05-27 2022-09-13 南京理工大学 一种轻量化的sar图像舰船目标检测方法
KR102637711B1 (ko) * 2022-12-22 2024-02-19 한국건설기술연구원 도로 상태이상 식별 모델 제공 시스템 및 방법
CN116665054A (zh) * 2023-05-30 2023-08-29 郑州大学 一种基于改进YOLOv3的遥感影像小目标检测方法
CN116630301A (zh) * 2023-06-20 2023-08-22 盐城工学院 基于超分辨率和YOLOv8的带钢表面小目标缺陷检测方法及系统
CN116824413A (zh) * 2023-07-25 2023-09-29 江苏科技大学 一种基于多尺度空洞卷积的航拍图像目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘腾鸥: "基于注意力机制与先验信息的人脸图像超分辨率重建", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 02, 29 February 2024 (2024-02-29) *
王媛彬 等: "矿井图像超分辨率重建研究", 工矿自动化, vol. 49, no. 11, 30 November 2023 (2023-11-30), pages 76 - 82 *

Also Published As

Publication number Publication date
CN118230131B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN110033410B (zh) 图像重建模型训练方法、图像超分辨率重建方法及装置
CN111524135B (zh) 基于图像增强的输电线路细小金具缺陷检测方法及系统
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN109064396A (zh) 一种基于深度成分学习网络的单幅图像超分辨率重建方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN110570353A (zh) 密集连接生成对抗网络单幅图像超分辨率重建方法
CN112801904B (zh) 一种基于卷积神经网络的混合退化图像增强方法
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
CN111899295B (zh) 一种基于深度学习的单目场景深度预测方法
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别系统及方法
CN116645328A (zh) 一种高精度轴承套圈表面缺陷智能检测方法
CN116681636A (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN114820987A (zh) 一种基于多视角图像序列的三维重建方法及系统
CN117011688B (zh) 一种水下结构病害的识别方法、系统及存储介质
CN112102379A (zh) 一种无人机多光谱影像配准方法
CN118230131B (zh) 一种图像识别及目标检测方法
CN116740572A (zh) 一种基于改进yolox的海上船舰目标检测方法和系统
CN115760875A (zh) 一种基于自监督学习的全视野医学图片区域分割方法
CN114898096A (zh) 一种人物图像的分割和标注方法及系统
CN113205526B (zh) 基于多源信息融合的配电线路精准语义分割方法
CN108492264A (zh) 一种基于sigmoid变换的单帧图像快速超分辨方法
CN115082897A (zh) 一种改进smoke的单目视觉3d车辆目标实时检测方法
CN112949641A (zh) 图像分割方法及电子设备、计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant