CN116645547A - 一种双通道特征探索的视觉识别方法、系统、设备及介质 - Google Patents
一种双通道特征探索的视觉识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN116645547A CN116645547A CN202310528272.8A CN202310528272A CN116645547A CN 116645547 A CN116645547 A CN 116645547A CN 202310528272 A CN202310528272 A CN 202310528272A CN 116645547 A CN116645547 A CN 116645547A
- Authority
- CN
- China
- Prior art keywords
- image
- feature extraction
- convolution
- abnormal
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000007 visual effect Effects 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 94
- 230000002159 abnormal effect Effects 0.000 claims abstract description 66
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 210000003128 head Anatomy 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000012795 verification Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000889 atomisation Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 210000001525 retina Anatomy 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种双通道特征探索的视觉识别方法、系统、设备及介质。将待识别图像分类为正常图像和非正常图像,并将非正常图像进行图像对比度调整,得到非正常增强图像;对正常图像和非正常增强图像进行特征提取,得到第一特征提取图;将第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;对第二特征提取图进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。本发明的技术方案能够改善视觉识别模型在不同环境下的适应能力、降低对图像数据信息的依赖,保留更多图像潜在信息,提高检测的精度和效率。
Description
技术领域
本发明涉及视觉识别技术领域,尤其涉及一种双通道特征探索的视觉识别方法、系统、计算机设备及可读存储介质。
背景技术
目标检测为无人自动驾驶提供了丰富的环境感知,但是由于无人驾驶均在户外场景中,受天气影响很大,夜间、雪天、雾天等恶劣环境经常出现,特别是在雾天条件下传感器会产生非对称的失真,使得户外场景图像退化和降质,清晰度低和对比度低,细节特征模糊不清等特点,要在所获得的低质量图像下对目标进行精确的检测,是当前无人驾驶中一个巨大的挑战。
随着CNN模型引入涌现出了许多高精度的目标检测模型,但是由于这些模型采用的是高分辨率的图像进行训练,使得在雾天条件下往往达不到本身的高精度检测效果。为了克服这个问题,许多研究对图像进行去雾增强和恢复,尽所能恢复到清晰图像以此匹配常用的目标检测模型。目前去雾算法主要分为三大方向:1)基于物理模型,通过对大量有雾图像和无雾图像进行观察总结,得到其中存在的一些映射关系,再根据有雾图像的形成过程来进行逆运算,从而恢复清晰图像;2)基于数据驱动,使用CNN生成大气散射模型的参数,再根据大气散射模型来恢复无雾图像或者直接利用CNN(GANs)由模糊图像生成清晰图像;3)基于神经增强的去雾算法,通过基于模型的方法来估计透射图和大气光,然后通过基于双尺度生成对抗网络的方法来改进,在合成雾化和真实雾天下都有较好的表现能力。虽然这些方法有较好的图像恢复效果,但是会在正常情况下造成图像一定信息的过突出或损失,并且通常需要复杂的图像恢复网络,在和下游检测任务融合时会减慢检测速度。
为了平衡图像增强和检测任务,目前有些研究方法着眼于构建一个端到端的检测网络来提高雾天目标检测速度和精度。将图像增强融入检测网络,利用正常图像训练前面的卷积层使其具备干净特征产生能力或者利用其学习图像参数自适应调整去雾、锐化、白平衡和色调平衡等增强模块,以此来恢复出图像干净特征和突出物体信息,提高检测精度。不管是去雾和检测器的组合模型还是联合执行图像增强和检测的端到端检测网络,很大程度上仍依赖于图像的清晰度,恢复和突出信息过程中会丢失图像潜在信息,同时图像增强方法也不一定适用于不同条件下的环境,而且图像质量的提高不一定有益于检测性能的提升。
发明内容
本发明提供了一种双通道特征探索的视觉识别方法、系统、计算机设备及可读存储介质,以解决现有视觉识别模型对图像高清晰度依赖,图像预处理步骤冗余、潜在信息丢失、模型泛化能力较弱的技术问题,实现改善视觉识别模型在不同环境下的适应能力、降低对图像数据信息的依赖,保留更多图像潜在信息,提高检测的精度和效率。
为解决上述技术问题,第一方面,本发明实施例提供了一种双通道特征探索的视觉识别方法,所述方法包括:
对待识别图像进行识别分类,分类为正常图像和非正常图像,并将所述非正常图像进行图像对比度调整,得到非正常增强图像;所述正常图像为晴天图像,所述非正常图像为晴天以外的所有天气的图像;
对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图;
将所述第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;
对所述第二特征提取图分别进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。
在进一步实施例中,述将所述非正常图像进行图像对比度调整,包括:
采用ACE自动彩色均衡算法对所述非正常图像的目标像素点和周围像素点之间的相对明暗关系进行图像对比度调整。
在进一步实施例中,所述对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图,包括:
对所述正常图像和非正常增强图像进行深度可分离的卷积处理,得到第一局部特征提取图像;
基于SE注意力机制对所述第一局部特征提取图像进行局部特征加强学习,得到第二局部特征提取图像;
对所述第二局部特征提取图像进行卷积和丢弃处理,得到第一特征提取图。
在进一步实施例中,所述对所述正常图像和非正常增强图像进行特征提取,包括:
采用所述MBConvBlock模块对所述所述正常图像和非正常增强图像进行特征提取,所述MBConvBlock模块包括两个1x1的普通卷积、一个深度可分离卷积、一个SE注意力模块和丢弃层。
在进一步实施例中,所述将所述第一特征提取图经过两路卷积通道的交叉卷积处理,包括:
将所述第一特征提取图分别经过一路卷积通道进行水平梯度卷积处理、以及经过另一路卷积通道进行垂直梯度卷积处理。
在进一步实施例中,所述两路卷积通道为并行非对称卷积通道。
在进一步实施例中,所述对所述第二特征提取图分别进行分类和定位处理,得到所述待识别图像的目标分类和定位结果,包括:
将所述第二特征提取图分别输送到两个处理通道进行卷积操作,获得三个分支;所述三个分支包括:类别框预测、前景和背景分割、以及目标位置信息预测;
将所述三个分支进行合并,得到所述待识别图像的目标分类和定位结果。
第二方面,本发明实施例提供了一种双通道特征探索的视觉识别系统,所述系统集成有特征驱动层次级检测网络模型,所述特征驱动层次级检测网络模型包括图像过滤模块、MBConvBlock模块、交叉卷积模块和解耦头模块:
所述图像过滤模块,用于对待识别图像进行识别分类,分类为正常图像和非正常图像,并将所述非正常图像进行图像对比度调整,得到非正常增强图像;所述正常图像为晴天图像,所述非正常图像为晴天以外的所有天气的图像;
所述MBConvBlock模块,用于对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图;
所述交叉卷积模块,用于将所述第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;
所述解耦头模块,用于对所述第二特征提取图进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。
第三方面,本发明实施例还提供一种计算机设备,其特征在于:包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行以上权利要求所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现以上权利要求所述的方法。
本发明公开了双通道特征探索的视觉识别方法、系统、计算机设备及可读存储介质。将待识别图像分类为正常图像和非正常图像,并将非正常图像进行图像对比度调整,得到非正常增强图像;对正常图像和非正常增强图像进行特征提取,得到第一特征提取图;将第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;对第二特征提取图进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。本发明的技术方案能够改善视觉识别模型在不同环境下的适应能力、降低对图像数据信息的依赖,保留更多图像潜在信息,提高检测的精度和效率。
附图说明
图1是本发明实施例所提供的一种双通道特征探索的视觉识别方法示意图;
图2是本发明实施例所提供的一种双通道特征探索的视觉识别方法步骤S2示意图;
图3是本发明实施例所提供的一种双通道特征探索的视觉识别方法步骤S4示意图;
图4是本发明实施例所提供的特征驱动层次级检测网络模型框图;
图5是本发明实施例所提供的特征驱动层次级检测网络模型结构示意图;
图6是本发明实施例所提供的MBConvBlock模块结构示意图;
图7是本发明实施例所提供的交叉卷积模块结构示意图;
图8是本发明实施例所提供的解耦头模块结构示意图;
图9是本发明实施例所提供的特征驱动层次级检测网络模型训练方法示意图;
图10是本发明实施例所提供的一种计算机设备示意图。
具体实施方式
下面结合附图具体阐明本发明的实施方式,实施例的给出仅仅是为了说明目的,并不能理解为对本发明的限定,包括附图仅供参考和说明使用,不构成对本发明专利保护范围的限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,在本发明的实施例中,一种双通道特征探索的视觉识别方法,所述方法包括以下步骤S1-S4:
S1、对待识别图像进行识别分类,分类为正常图像和非正常图像,并将所述非正常图像进行图像对比度调整,得到非正常增强图像;所述正常图像为晴天图像,所述非正常图像为晴天以外的所有天气的图像。
对于获取的原始图像进行识别分类,将其分为正常图像和非正常图像,在本申请实施例中,将晴天清晰的图像设定为正常图像,除晴天以外的雾天、下雪、下雨、夜间等环境下的图像设定为非正常图像。
在对原始图像进行识别分类过程中,以每幅输入图像的灰度方差作为阈值,大于设定阈值则判定为非正常图像,其余的为正常图像。针对非正常图像需要进行图像对比度调整,在本发明实施例中,采用ACE自动彩色均衡算法计算非正常图像的目标像素点和周围像素点之间的明暗程度来对目标像素点的像素值进行校正,实现图像的对比度调整,产生类似人体视网膜的色彩恒常性和亮度恒常性的均衡,具有很好的图像增强效果。
S2、对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图。
如图2所示,所述对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图,包括:
S201、对所述正常图像和非正常增强图像进行深度可分离的卷积处理,得到第一局部特征提取图像。
在本发明实施例中,首先采用1x1的普通卷积核进行卷积处理,在此基础上采用深度可分离卷积进行深度可分离卷积处理,深度可分离卷积实际上是将标准的卷积操作分解成两个步骤,一个深度卷积和一个逐点卷积。深度卷积是一种在输入的单个通道上执行的传统卷积操作,逐点卷积则是一种简单的1x1卷积,一般用于将通道之间的信息混合在一起,得到第一局部特征提取图像。深度可分离卷积操作可加速神经网络图像处理速度,并提高图像视觉处理的精度,在有限的信息中仍然可以捕获丰富、复杂以及高细粒度的特征,提高网络在恶劣环境下特征捕获能力。
S202、基于SE注意力机制对所述第一局部特征提取图像进行局部特征加强学习,得到得到第二局部特征提取图像。
SE注意力机制,首先对卷积得到的第一局部特征提取图像进行Squeeze操作,得到channel(通道)级的全局特征,然后对全局特征进行Excitation操作,学习各个channel间的关系,得到不同channel的权重,最后乘以第一局部特征提取图像得到最终特征。本质上,SE模块是在channel维度上做attention或者gating操作,这种注意力机制让模型可以更加关注信息量最大的channel特征,而抑制那些不重要的channel特征。具有更好的局部特征提取的能力,抑制不可靠特征的特性,减少对全局性特征的依赖,提高局部信息特征学习能力。
S203、对所述第二局部特征提取图像进行卷积和丢弃处理,得到第一特征提取图。
通过一个1x1的普通卷积核进行卷积操作,在此基础上,将卷积处理后的图像输入丢弃层,可有效缓解过拟合的发生,并提升图像处理的效率。
在本发明实施例中,通过MBConvBlock模块对正常图像和非正常增强图像进行特征提取,如图6所示,MBConvBlock模块包括两个1x1的普通卷积、一个深度可分离卷积、一个SE注意力模块和丢弃层。
SE注意力模块具有更好的局部特征提取的能力,抑制不可靠特征的特性,减少对全局性特征的依赖,提高局部信息特征学习能力。同时,结合深度可分离卷积模块使MBConvBlock模块在有限信息中仍然可以捕获丰富、复杂以及高细粒度的局部特征,提高在恶劣天气环境下特征捕获的能力。
MBConvBlock模块对图像进行特征提取更多的聚焦在提取目标框架特征,提取图像的特征骨干。
S3、将所述第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图。
两路卷积通道为两路非对称卷积处理模块,分别用于对待识别图像的水平梯度和垂直梯度信息进行卷积处理。如图7所示,传统卷积是通过m×m的卷积核对输入的信息进行卷积处理,而交叉卷积则是将输入信息通过一路1×m和一路m×1的卷积核,即两路并行非对称的卷积核处理,最后再合并输出,得到待识别图像的第二特征提取图。
进一步的,在本发明实施例中,利用3个叠加的交叉卷积与CSP瓶颈层组合成新的模块,C3x模块,改进特征金字塔中向下提取多尺度特征语义信息的功能。相比于传统卷积,两路卷积分别专注于探索水平与垂直梯度信息,能更有效聚焦于边缘信息挖掘,更加丰富语义信息的传递。同时在相同的感受野上也比普通卷积具有更少的参数量与计算复杂度,并且有更好的结构保持能力。同时降低了对清晰图像的依赖,在较低质量图像下也能达到高精度的检测效果,泛化能力更强。
S4、对所述第二特征提取图分别进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。
如图3所示,在本发明实施例中,所述对所述第二特征提取图分别进行分类和定位处理,得到所述待识别图像的目标分类和定位结果,包括:
S401、将所述第二特征提取图分别输送到两个处理通道进行卷积操作,获得三个分支;所述三个分支包括:类别框预测、前景和背景分割、以及目标位置信息预测;
S402、将所述三个分支进行合并,得到所述待识别图像的目标分类和定位结果。
在本发明实施例中,将分类和定位分为两个任务分别执行,将第二特征提取图的特征块分别输送到两个处理通道进行卷积操作,其中一个处理通道经过卷积处理后,经全连接层输出类别框预测。另一个处理通道经过卷积处理后,输出前景和背景分割和目标位置信息预测,再将上述三个分支进行合并,得到待识别图像的目标分类和定位结果。
在本发明实施例中,采用解耦头算法对第二特征提取图进行分类和定位处理,得到待识别图像的目标分类和定位结果。因为分类和定位的关注点不同,分类更关注目标的纹理内容,定位更关注目标的边缘信息。解耦头在实施图像分割和目标检测任务中,采用两个不同的解耦头输出分类和位置。解耦头可以提高收敛速度,其一般由一个1×1的卷积层减少通道数,后面跟着两个平行分支结构,用以解决分类和回归的冲突问题。
本发明实施例提供的双通道特征探索的视觉识别方法,不需要复杂的图像预处理步骤,保留了图像更多潜在信息,同时也保证了快速的推理能力。提高了在模糊图像有限信息内的特征学习能力,即使在较低质量的图像下,也表现出更高精度的检测能力。
如图4所示,基于双通道特征探索的视觉识别方法,本发明实施例还提供了一种双通道特征探索的视觉识别系统,所述系统集成有特征驱动层次级检测网络模型,所述特征驱动层次级检测网络模型包括图像过滤模块1、MBConvBlock模块2、交叉卷积模块3和解耦头模块4:
所述图像过滤模块1,用于对待识别图像进行识别分类,分类为正常图像和非正常图像,并将所述非正常图像进行图像对比度调整,得到非正常增强图像;所述正常图像为晴天图像,所述非正常图像为晴天以外的所有天气的图像;
所述MBConvBlock模块2,用于对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图;
所述交叉卷积模块3,用于将所述第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;
所述解耦头模块4,用于对所述第二特征提取图进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。
如图5所示,为特征驱动层次级检测网络模型的结构示意图。
图像过滤模块1包括图像检测器和ACE自动彩色均衡,图像检测器用于将待识别图像分类为正常图像和非正常图像,在本申请实施例中,将晴天清晰的图像设定为正常图像,除晴天以外的雾天、下雪、下雨、夜间等环境下的图像设定为非正常图像。图像检测器以每幅输入图像的灰度方差作为阈值,大于设定的阈值则判定为非正常图像输入ACE自动彩色均衡,其余正常的图像直接输入MBConvBlock模块。ACE自动彩色均衡通过计算非正常图像目标像素点和周围像素点的明暗程度来对目标像素点的像素值进行校正,实现图像的对比度调整,产生类似人体视网膜的色彩恒常性和亮度恒常性的均衡,具有很好的图像增强效果。
如图6所示,所述MBConvBlock模块2包括两个普通卷积模块、一个深度可分离卷积模块、一个SE注意力机制模块和丢弃层,正常图像和非正常增强图像经过MBConvBlock模块处理得到图像的特征骨干。SE注意力机制模块具有更好的局部特征提取的能力,抑制不可靠特征的特性,减少对全局性特征的依赖,提高局部信息特征学习能力。同时,结合深度可分离卷积模块使MBConvBlock模块在有限信息中仍然可以捕获丰富、复杂以及高细粒度的局部特征,提高在恶劣天气环境下特征捕获的能力。
如图7所示,交叉卷积模块3包括两路非对称卷积处理模块,分别用于对第一特征提取图的水平梯度和垂直梯度信息进行卷积处理,得到第二特征提取图,为图像的特征金字塔。
如图7所示,传统卷积是通过m×m的卷积核对输入的信息进行卷积处理,而交叉卷积则是将输入信息通过一路1×m和一路m×1的卷积核,即两路并行非对称的卷积核处理,最后再合并输出,得到待识别图像的第二特征提取图。如图5所示,在本发明实施例中,为提升对较低质量图像的处理效果,利用3个叠加的交叉卷积与CSP瓶颈层组合成新的模块,C3x模块,改进特征金字塔中向下提取多尺度特征语义信息的功能。相比于传统卷积,两路非对称卷积分别专注于探索水平与垂直梯度信息,能更有效聚焦于边缘信息挖掘,更加丰富语义信息的传递。同时在相同的感受野上也比普通卷积具有更少的参数量与计算复杂度,并且有更好的结构保持能力。使特征驱动层次级检测网络降低了对清晰图像的依赖,在较低质量图像下也能达到高精度的检测效果,泛化能力更强。
解耦头模块4有两个不同卷积处理通道,分别对图像的分类和定位进行处理,提高收敛速度。如图8所示,解耦头一般由一个1×1的卷积层减少通道数,后面跟着两个平行分支结构,用以是解决分类和回归的冲突问题。将分类和定位分为两个任务分别执行,将第二特征提取图的特征块分别输送到两个处理通道进行卷积操作,其中一个处理通道经过卷积处理后,经全连接层输出类别框预测。另一个处理通道经过卷积处理后,输出前景和背景分割和目标位置信息预测,再将上述三个分支进行合并,得到待识别图像的目标分类和定位结果。
本发明实施例提供的双通道特征探索的视觉识别方法,不需要复杂的图像预处理步骤,保留了图像更多潜在信息,同时也保证了快速的推理能力。提高了在模糊图像有限信息内的特征学习能力,即使在较低质量的图像下,也表现出更高精度的检测能力。降低卷积乘法复杂度,加快了特征识别、提取时间,该视觉识别方法可应用于无人驾驶领域,满足无人驾驶中所需的快速检测的要求。
关于一种双通道特征探索的视觉识别系统的具体限定可以参见上述对于一种双通道特征探索的视觉识别方法的限定,此处不再赘述。本领域普通技术人员可以意识到,结合本申请所公开的实施例描述的各个模块和步骤,能够以硬件、软件或者两者结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在特征驱动层次级检测网络模型构建完成以后需要进行模型训练,如图9所示,训练的步骤包括:
S01、获取图像数据集,将所述图像数据集按一定比例分成训练数据集和验证数据集。
在本发明实施例中,由于雾天、下雪天、雨天和夜间等环境下的公开数据集很少,公开的数据集也大部分用于去雾算法,数据样本少对于基于稳定的CNN检测器来说,不能有效评估模型。所以,在本发明实施例中,在VOC原始数据上构建了一个基于大气散射模型雾化的VOC数据集,其中包括VOC2007和VOC2012,共有11000张图像和20个类别。筛选出VOC数据集中包含有特定对象类型的图像,并将其分成训练VOC数据集和验证VOC数据集,特定对象包括人、自行车、汽车、公共汽车和摩托车5类经典对象。
基于大气散射模型对特定比例的所述VOC训练数据集进行雾化,得到雾化VOC训练数据集,为了提升模型训练的效果,在本发明实施例中采用混合数据的训练数据集,故我们将VOC训练数据集中三分之二的图像进行雾化,将剩下的三分之一的原始图像和雾化后的图像组合作为训练数据集。
基于大气散射模型对VOC验证数据集进行雾化,得到雾化VOC验证数据集,将雾化VOC验证数据集和真实雾天数据集组合作为验证数据集。在本发明实施例中,真实雾天数据集共4322张自然朦胧图像,具有五个带注释的对象类别,即人、自行车、汽车、公共汽车和摩托车。表1为具体类别数据。
表1
S02、设定所述特征驱动层次级检测网络模型的损失函数和优化器,将所述训练数据集输入所述特征驱动层次级检测网络进行模型训练,获取识别结果。
设定特征驱动层次级检测网络模型的损失函数和优化器,在本发明实施例中,以加权交叉熵(Focal Loss)作为损失函数,并以随机梯度下降和自适应矩估计作为优化器。具体超参数设置如表2所示。
表2
将所述训练数据集输入特征驱动层次级检测网络模型进行模型训练,获取特征驱动层次级检测网络模型输出的5个对象的置信度,置信度高则表明其最终识别结果准确性高。
S03、根据所述识别结果进行精准度验证。
精准度计算公式如下:
AP=SP-R
mAP=AP/n
其中,SP-R为查准率和召回率的差值,mAP为平均精准度,n为对象类别个数。
查准率和召回率的计算公式如下:
其中,Precision为查准率;Recall为召回率;TP为真实情况为正样本,预测也为正样本;FP为真实情况为正样本,预测情况为负样本;FN为真实情况为负样本,预测情况也为负样本;FP为真实情况为负样本,预测为正样本。
S04、根据所述精准度验证验证结果,获得所述特征驱动层次级检测网络模型的权重参数。
在应用阶段,直接将得到的图像数据输入到训练好的输入特征驱动层次级检测网络模型中,即可得到识别结果,无需重复训练步骤S02、S03、S04。
如图10所示,本发明实施例还提供的一种计算机设备,包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行上述双通道特征探索的视觉识别方法的步骤。
其中,存储器可以包括易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者;处理器可以是中央处理器、微处理器、特定应用集成电路、可编程逻辑器件或其组合。通过示例性但不是限制性说明,上述可编程逻辑器件可以是复杂可编程逻辑器件、现场可编程逻辑门阵列、通用阵列逻辑或其任意组合。
另外,存储器可以是物理上独立的单元,也可以与处理器集成在一起。
本领域普通技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有相同的部件布置。
在一个实施例中,还提供了一种计算机可读存储介质,所述存储介质用于存储一个或多个计算机程序,所述一个或多个计算机程序包括程序代码,当所述计算机程序在计算机上运行时,所述程序代码用于执行上述双通道特征探索的视觉识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如SSD)等。
本领域技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本实施例中一种双通道特征探索的视觉识别方法、系统、设备及可读存储介质,针对现有视觉识别模型对图像高清晰度依赖,图像预处理步骤冗余、潜在信息丢失、模型泛化能力较弱的技术问题。将待识别图像分类为正常图像和非正常图像,并将非正常图像进行图像对比度调整,得到非正常增强图像;对正常图像和非正常增强图像进行特征提取,得到第一特征提取图;将第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;对第二特征提取图进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。本申请的技术方案能够实现改善视觉识别模型在不同环境下的适应能力、降低对图像数据信息的依赖,保留更多图像潜在信息,提高检测的精度和效率。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种双通道特征探索的视觉识别方法,其特征在于,所述方法包括:
对待识别图像进行识别分类,分类为正常图像和非正常图像,并将所述非正常图像进行图像对比度调整,得到非正常增强图像;所述正常图像为晴天图像,所述非正常图像为晴天以外的所有天气的图像;
对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图;
将所述第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;
对所述第二特征提取图分别进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。
2.如权利要求1所述的双通道特征探索的视觉识别方法,其特征在于,所述将所述非正常图像进行图像对比度调整,包括:
采用ACE自动彩色均衡算法对所述非正常图像的目标像素点和周围像素点之间的相对明暗关系进行图像对比度调整。
3.如权利要求1所述的双通道特征探索的视觉识别方法,其特征在于,所述对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图,包括:
对所述正常图像和非正常增强图像进行深度可分离的卷积处理,得到第一局部特征提取图像;
基于SE注意力机制对所述第一局部特征提取图像进行局部特征加强学习,得到第二局部特征提取图像;
对所述第二局部特征提取图像进行卷积和丢弃处理,得到第一特征提取图。
4.如权利要求1所述的双通道特征探索的视觉识别方法,其特征在于,所述对所述正常图像和非正常增强图像进行特征提取,包括:
采用所述MBConvBlock模块对所述所述正常图像和非正常增强图像进行特征提取,所述MBConvBlock模块包括两个1x1的普通卷积、一个深度可分离卷积、一个SE注意力模块和丢弃层。
5.如权利要求1所述的双通道特征探索的视觉识别方法,其特征在于,所述将所述第一特征提取图经过两路卷积通道的交叉卷积处理,包括:
将所述第一特征提取图分别经过一路卷积通道进行水平梯度卷积处理、以及经过另一路卷积通道进行垂直梯度卷积处理。
6.如权利要求5所述的双通道特征探索的视觉识别方法,其特征在于,所述两路卷积通道为并行非对称卷积通道。
7.如权利要求1所述的双通道特征探索的视觉识别方法,其特征在于,所述对所述第二特征提取图分别进行分类和定位处理,得到所述待识别图像的目标分类和定位结果,包括:
将所述第二特征提取图分别输送到两个处理通道进行卷积操作,获得三个分支;所述三个分支包括:类别框预测、前景和背景分割、以及目标位置信息预测;
将所述三个分支进行合并,得到所述待识别图像的目标分类和定位结果。
8.一种双通道特征探索的视觉识别系统,其特征在于,所述系统集成有特征驱动层次级检测网络模型,所述特征驱动层次级检测网络模型包括图像过滤模块、MBConvBlock模块、交叉卷积模块和解耦头模块:
所述图像过滤模块,用于对待识别图像进行识别分类,分类为正常图像和非正常图像,并将所述非正常图像进行图像对比度调整,得到非正常增强图像;所述正常图像为晴天图像,所述非正常图像为晴天以外的所有天气的图像;
所述MBConvBlock模块,用于对所述正常图像和非正常增强图像进行特征提取,得到第一特征提取图;
所述交叉卷积模块,用于将所述第一特征提取图经过两路卷积通道的交叉卷积处理,并合并输出第二特征提取图;
所述解耦头模块,用于对所述第二特征提取图进行分类和定位处理,得到所述待识别图像的目标分类和定位结果。
9.一种计算机设备,其特征在于:包括存储器、处理器和收发器,它们之间通过总线连接;存储器用于存储一组计算机程序指令和数据,并可以将存储的数据传输给处理器,处理器可以执行存储器存储的程序指令,以执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528272.8A CN116645547B (zh) | 2023-05-09 | 2023-05-09 | 一种双通道特征探索的视觉识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310528272.8A CN116645547B (zh) | 2023-05-09 | 2023-05-09 | 一种双通道特征探索的视觉识别方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116645547A true CN116645547A (zh) | 2023-08-25 |
CN116645547B CN116645547B (zh) | 2024-03-19 |
Family
ID=87614475
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310528272.8A Active CN116645547B (zh) | 2023-05-09 | 2023-05-09 | 一种双通道特征探索的视觉识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645547B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723377A (zh) * | 2021-11-02 | 2021-11-30 | 南京信息工程大学 | 一种基于ld-ssd网络的交通标志检测方法 |
CN114360064A (zh) * | 2022-01-06 | 2022-04-15 | 电子科技大学 | 基于深度学习的办公场所人员行为轻量级目标检测方法 |
CN114529873A (zh) * | 2022-02-21 | 2022-05-24 | 城云科技(中国)有限公司 | 目标检测方法及应用其的城市违规事件监测方法 |
CN114757832A (zh) * | 2022-06-14 | 2022-07-15 | 之江实验室 | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 |
CN114972134A (zh) * | 2022-05-11 | 2022-08-30 | 重庆理工大学 | 一种提取并融合局部和全局特征的低光图像增强方法 |
-
2023
- 2023-05-09 CN CN202310528272.8A patent/CN116645547B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723377A (zh) * | 2021-11-02 | 2021-11-30 | 南京信息工程大学 | 一种基于ld-ssd网络的交通标志检测方法 |
CN114360064A (zh) * | 2022-01-06 | 2022-04-15 | 电子科技大学 | 基于深度学习的办公场所人员行为轻量级目标检测方法 |
CN114529873A (zh) * | 2022-02-21 | 2022-05-24 | 城云科技(中国)有限公司 | 目标检测方法及应用其的城市违规事件监测方法 |
CN114972134A (zh) * | 2022-05-11 | 2022-08-30 | 重庆理工大学 | 一种提取并融合局部和全局特征的低光图像增强方法 |
CN114757832A (zh) * | 2022-06-14 | 2022-07-15 | 之江实验室 | 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置 |
Non-Patent Citations (2)
Title |
---|
YUQING LIU 等: "《Cross-SRN: Structure-Preserving Super-Resolution Network With Cross Convolution》", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 32, no. 08, pages 4927 - 4939 * |
张逞逞: "《交通标志识别及其目标检测深度学习算法研究》", 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN116645547B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111915530B (zh) | 一种基于端到端的雾霾浓度自适应神经网络图像去雾方法 | |
Pang et al. | Visual haze removal by a unified generative adversarial network | |
CN112380921A (zh) | 一种基于车联网的道路检测方法 | |
CN114119378A (zh) | 图像融合方法、图像融合模型的训练方法和装置 | |
CN111539247B (zh) | 一种超光谱人脸识别方法、装置、电子设备及其存储介质 | |
Hu et al. | Underwater image restoration based on convolutional neural network | |
Li et al. | Deep dehazing network with latent ensembling architecture and adversarial learning | |
CN113065645A (zh) | 孪生注意力网络、图像处理方法和装置 | |
CN110807384A (zh) | 低能见度下的小目标检测方法和系统 | |
CN113420794B (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN112528961A (zh) | 一种基于Jetson Nano的视频分析方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
CN114219722A (zh) | 一种利用时频域层级处理的低光照图像增强方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
Pham et al. | Low-light image enhancement for autonomous driving systems using DriveRetinex-Net | |
CN112489072A (zh) | 一种车载视频感知信息传输负载优化方法及装置 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN112950521B (zh) | 一种图像去雾方法及生成器网络 | |
CN116310598B (zh) | 一种用于恶劣天气下的障碍物检测方法及装置 | |
CN116645547B (zh) | 一种双通道特征探索的视觉识别方法、系统、设备及介质 | |
CN113011408A (zh) | 多帧图片序列的字符识别、车辆识别码识别方法及系统 | |
CN110490053B (zh) | 一种基于三目摄像头深度估计的人脸属性识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |