CN116385707A - 基于多尺度特征与特征增强的深度学习场景识别方法 - Google Patents
基于多尺度特征与特征增强的深度学习场景识别方法 Download PDFInfo
- Publication number
- CN116385707A CN116385707A CN202310354531.XA CN202310354531A CN116385707A CN 116385707 A CN116385707 A CN 116385707A CN 202310354531 A CN202310354531 A CN 202310354531A CN 116385707 A CN116385707 A CN 116385707A
- Authority
- CN
- China
- Prior art keywords
- feature
- deep learning
- scene
- image
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000002708 enhancing effect Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 101100477520 Homo sapiens SHOX gene Proteins 0.000 description 1
- 102000048489 Short Stature Homeobox Human genes 0.000 description 1
- 108700025071 Short Stature Homeobox Proteins 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于多尺度特征与特征增强的深度学习场景识别方法,包括:对待识别的原始图片进行预处理,获得适应网络输入尺寸和通道的待识别图像;基于EfficientNet构建用于场景识别的深度学习网络,并训练所述深度学习网络,获得收敛的网络模型,其中,所述深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层;将待识别图像输入收敛的网络模型中,获得图像的场景分类结果。本发明从多尺度特征角度出发,提取场景的多尺度特征,从而捕获丰富的上下文信息,有利于识别复杂的场景图像;提出一种特征增强模块,增强图像特征的局部细节信息,提高深度学习网络的特征表达能力,有效的提高了识别的准确率。
Description
技术领域
本发明属于场景识别技术领域,是一种基于多尺度特征与特征增强的深度学习场景识别方法。
背景技术
在计算机视觉技术所包含的技术中,场景识别技术无疑是分析和理解图像语义信息的关键技术。场景识别技术在照片和视频的自动化处理、智能监控和灾害监测方面均有应用,对我们的生活、工作具有十分重要的意义。场景识别是指对图像中的场景进行识别,预测出预先定义的场景类别标签,常见的场景类别分为:自然场景漠等、人工场景和室内场景。由于场景图像表现复杂,同时具有类内差异性大、类间相似性高的特点,目前场景识别的效果并不理想。
早期的基于手工特征的场景识别方法主要依据图像的基础属性设计特征,如尺度不特征变换(Scale-Invariant FeatureTransform,SIFT)、方向梯度直方图(Histogram ofOriented Gradient,HOG)、金字塔方向梯度直方图(Pyramid Histogram of OrientedGradient,PHOG)等,根据图像的纹理、形状、颜色等来描述图像。这些刻画图像基础属性的特征是以像素点为基础提取的,也称为底层特征,在简单的场景识别任务上是一种有效的表示,但其缺乏足够的语义信息使得在复杂场景下的表现较差。随着深度学习的发展,基于卷积神经网络的场景识别方法取得了不错的效果,通过训练过程卷积神经网络可以在数据集上自动学习特征,获取不同卷积层的特征,然后进行场景分类。
基于卷积神经网络的场景识别方法通过训练获取图像的整体特征,根据整体特征输出分类结果,但完全不同的场景类可能共享相似对象,产生了相似的场景表示进而影响判别,以致产生错误的识别结果,所以这种方法提取的特征不是有效的特征表示,从而识别的准确率降低。
发明内容
为了解决现有技术存在的问题,本发明提出一种基于多尺度特征与特征增强的深度学习场景识别方法,能够对场景图像进行有效的特征表示,增强网络的泛化能力,从而提高场景识别的准确率。
为达到上述目的,本发明提供如下技术方案:
一种基于多尺度特征与特征增强的深度学习场景识别方法,该方法包括以下步骤:
步骤S1:对待识别图像进行预处理,获得适应网络输入尺寸和通道的待识别图像;
步骤S2:基于EfficientNet构建用于场景识别的深度学习网络,并训练所述深度学习网络,获得训练后收敛的网络模型,其中,所述深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层;所述场景识别网络用于获得所述待识别图像的场景特征向量;所述多尺度特征提取模块用于提取所述待识别图像的多尺度场景特征向量;所述特征增强模块用于增强所述多尺度场景特征向量的局部细节信息;所述分类层用于并获得场景分类结果;
步骤S3:将待识别图像输入训练后收敛的网络模型中,获得图像的场景分类结果。
所述步骤S1包括:
将待识别图像的大小设置为224*224;调整所述待识别图像的通道;
所述步骤S2包括:
所述场景识别网络为去掉最后全连接层的EfficientNet网络;
所述多尺度特征提取模块包括扩张因子分别为1、3、5的空洞卷积层,全局平均池化层和通道注意力模块,其中,
所述多尺度特征提取模块由扩张因子分别为1、3、5的空洞卷积层与所述全局平均池化层进行级联,获得级联特征,再与通道注意力模块连接,其中,所述空洞卷积层用于对所述场景特征向量进行扩张卷积,获得不同尺度下的特征信息,所述全局平均池化层用于对所述场景特征向量进行全局平均,获得一个包含全局上下文信息的特征向量,所述通道注意力模块用于关注级联特征中重要通道信息,抑制弱相关的通道信息,通过计算公式获得通道注意力权重系数Mc,将级联特征与所述权重系数相乘便可得到基于通道注意力机制的特征分布;
所述特征增强模块包括空间注意力残差模块和全局平均池化层,其中,
所述空间注意力残差模块用于增强所述场景特征向量的局部细节信息,优化网络学习过程,获得注意力权重,所述全局平均池化层用于根据所述注意力权重提取特征信息;
所述步骤S2对所述深度学习网络进行训练,包括:获取具有场景标签的大量图像,组成图像训练集;利用所述图像训练集中的图片对所述深度学习网络模型进行训练,获得训练后收敛的深度学习网络模型;
进一步地,所述多尺度特征提取模块中空洞卷积的计算公式为:
其中,F为输入的特征图,K为卷积核大小,d为扩张因子,本实施例中,设置K=1,d=1,3,5,S为输出特征图,i、j为特征图F的元素坐标,m、n为卷积核K的元素坐标;
进一步地,所述通道注意力模块中权重系数Mc的计算公式为:
其中,F为级联特征,σ(·)为Sigmoid激活函数;W0为多层感知器MLP中的隐藏层权重;W1为MLP中的输出层权重;Fc avg表示全局平均池化,Fc max表示全局最大池化。
所述分类层包括一层带有softmax函数的全连接层,用于进行最终分类。
本发明的有益效果在于:本发明提出的方法具有较高的场景识别精度,设计的网络具有较强的特征表达能力,可以为场景识别领域的提供方法基础。
本发明的其他优点在于:利用改进的EfficientNet网络模型对场景图像进行多尺度特征提取,多尺度模块利用不同尺度下的特征信息,同时结合全局上下文信息,形成了有效的特征表示,增强了网络的泛化能力;特征增强模块增强了图像特征中的局部细节信息,所包含的残差结构优化了网络学习过程,显著提高了识别准确率。
附图说明
通过以下附图对非限制性实施例所作的详细描述,本发明的其他特征、目的以及有点将变得更加明显:
图1为本发明实施例提供的基于多尺度特征与特征增强的深度学习场景识别方法的流程图;
图2为本发明实施例提供的一种深度学习网络的结构示意图;
图3为本发明实施例提供的多尺度特征提取模块的结构示意图;
图4为本发明实施例提供的特征增强模块结构示意图;
图5为是不同的识别方法对MIT Indoor67数据集进行场景识别的准确率对比。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
需要注意的是,这里所运用的属于仅是为了描述具体实施方法,而非具有对本发明进行限制意图。如所使用的,除非在上下文中有明确指出,否则单复数可以互相代表,此外,这里所运用的例如:包括、具有以及其他形式具有涵盖意思的词语的意图在于覆盖但是不排除其他的包含内容;例如,包括了一些了单元的模块、执行方式、设计构成不必限于清楚的列出全部的单元,而是包括没有清楚列出但对该模块、执行方式、设计构成所固有的单元。
一种基于多尺度特征与特征增强的深度学习场景识别方法,该方法主要包括以下步骤:
步骤S1:对待识别的原始图片进行预处理,获得适应网络输入尺寸和通道的待识别图像;
步骤S2:基于EfficientNet构建用于场景识别的深度学习网络,并训练所述深度学习网络,获得训练后收敛的网络模型;
步骤S3:将待识别图像输入步骤二得到的网络模型中,获得图像的场景分类结果。
具体的,所述步骤S1包括:
对待识别的原始图片进行预处理,获得适应网络输入尺寸和通道的待识别图像。在卷积神经网络中,为了保证输入图像维度的一致,需要对原始图片数据进行尺寸变换,以适应网络的输入,本实施例通过opencv库中的函数来实现图片的尺寸变换,如下:
dimg=cv.resize(img,nsize[,dimg[,x[,y[,interpolation]]]])
其中,img表示原始图片,nsize表示为缩放后的图像大小,dimg表示目标图像,x和y分别表示x和y方向上的缩放比例,interpolation表示int类型,代表一个插值方式。
不同的卷积神经网络在读取图像时,对图像的通道要求是不同的,因此需要根据所用深度学习网络的格式要求进行通道变换。如在TensorFLow中可以通过参数data_format指定数据格式。通过上述尺寸变换和通道调整,将待识别的原始图片调整为符合深度学习网络的输入要求的图片。
具体的,所述步骤S2包括:
基于EfficientNet构建用于场景识别的深度学习网络,并训练所述深度学习网络,获得训练后收敛的网络模型。
具体参见图1,图1是本发明实施例提供的一种深度学习网络的结构示意图。本实例所构建的深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层;所述场景识别网络用于获得所述待识别图像的场景特征向量;所述多尺度特征提取模块用于提取所述待识别图像的多尺度场景特征向量;所述特征增强模块用于增强所述多尺度场景特征向量的局部细节信息;所述分类层用于并获得场景分类结果。
进一步地,请参见图2,图2是本发明实施例提供的多尺度特征提取模块的结构示意图。具体地,所述深度学习网络包括四个部分:(1)特征提取部分,将去掉最后全连接层的EfficientNet网络作为特征提取的主干网络。(2)多尺度特征提取模块,融合不同尺度下的特征信息与全局上下文信息,通过通道注意力模块抑制融合特征中的噪声。(3)特征增强模块,增强图像特征中的局部细节信息。(4)分类层,包括一层带有softmax函数的全连接层,通过该部分获得分类结果。
进一步地,请参见图3,图3是本发明实施例提供的多尺度特征提取模块的结构示意图。本实施例的多尺度特征提取模块包括扩张因子分别为1、3、5的空洞卷积层,全局平均池化层和通道注意力模块。其中,扩张因子分别为1、3、5的空洞卷积层对特征提部分输入的特征分别进行扩张卷积,获得三种尺度下的特征信息f1、f2、f3,与由全局平均池化层得到的全局特征g进行级联融合,获得的级联特征F输入通道注意力模块;其中,通道注意力模块将输入的一个H×W×C(H为高度、W为宽度、C为通道)的特征F分别进行全局平均池化和全局最大池化,从而得到两个1×1×C的通道描述,然后将这两个结果分别送入一个多层感知器(Multilayer Perceptron,MLP)进行压缩和ReLU函数激活;接着将不同池化操作后的结果进行相加,使用Sigmoid激活函数进行非线性激活以得到通道注意力权重系数Mc,将级联特征F与该权重系数相乘从而得到基于通道注意力机制的特征分布。
具体地,所述级联融合的公式为:
F=[f1,f2,f3,g]
具体地,所述空洞卷积的计算公式为:
其中,F为输入的特征图,K为卷积核大小,d为扩张因子,本实施例中,设置K=1,d=1,3,5,S为输出特征图,i、j为特征图F的元素坐标,m、n为卷积核K的元素坐标。
具体地,所述ReLU激活函数为:
ReLU(x)=max(0,x)
具体地,通道注意力权重系数Mc的计算公式为:
其中,F为级联特征,σ(·)为Sigmoid激活函数;W0为多层感知器MLP中的隐藏层权重;W1为MLP中的输出层权重;Fc avg表示全局平均池化,Fc max表示全局最大池化。
进一步地,具体请参见图4,图4是本发明实施例提供的特征增强模块结构示意图。本实施例的特征增强模块包括空间注意力残差模块和全局平均池化层。本实施例通过特征增强模块增强图像特征中的局部细节信息,同时采用残差结构优化网络学习过程。
进一步地,空间注意力残差模块将多尺度特征模块输出的的多尺度特征x作为输入,计算公式如下:
Ms=θ(F(x,{w}))
其中,F(x,{w})=w*x+b,*为卷积运算,b为偏差,θ是非线性函数,Ms是注意力图,w表示输入的融合特征图x与注意力图Ms的连接权重,通过将Ms归一化为[0,1],可以得到最终归一化后的注意力图,具体计算公式如下:
具体的,所述步骤S2对所述深度学习网络进行训练,包括:获取具有场景标签的大量图像,组成图像训练集;利用所述图像训练集中的图片对所述深度学习网络模型进行训练,获得训练后收敛的深度学习网络模型;
进一步地,将所述特征信息S输入到分类层,分类层包括一个带有softmax函数的全连接层,通过softmax函数获得模型对场景图像的分类结果。
具体的,本实施例选择常用的公开数据集MIT Indoor67中十类场景,每类选择100张图片,以8:2的比例划分为训练集和测试集,其中训练样本800张,测试样本200张。本实施例的实验硬件环境为:ubuntu20.04操作系统,Intel(R)Xeon(R)Platinum 8350C,一块NVIDIA GeForce RTX 3090。模型训练参数如表1所示。
表1模型训练参数设置
具体的,所述步骤S3包括:将待识别图像输入所述步骤S2得到的收敛的网络模型中,获得图像的场景分类结果。
进一步地,为了对本发明实施例提出的基于深度学习的场景识别方法的效果进行说明,本实施例利用几种不同的分类识别方法对MIT Indoor67数据集形成的测试集进行识别。请参见图5,图5是利用不同的识别方法对MIT Indoor67数据集进行场景识别的准确率对比,其中,RF-CNNs表示基于多层特征融合的场景识方法,SDO表示基于对象性语义描述符(Semantic Descriptor with Objectness)的场景识别方法,可以看出,本发明实施例提出的基于多尺度特征与特征增强的深度学习场景识别方法具有最高的识别准确率。
综上,本实施例基于多尺度特征与特征增强的深度学习场景识别方法,通过增加多尺度特征提取模块,获得了不同尺度下的特征信息和全局特征信息,丰富了图像特征中的语义信息,增强了网络的特征表达能力;通过添加特征增强模块,增强了图像特征中的细节信息,有利于识别相似性高的场景,提升了模型的泛化能力。针对基于深度学习的图像场景分类方法无法有效提取图像特征造成分类结果准确率下降的问题上,本实施例提出基于多尺度特征与特征增强的深度学习场景识别方法,通过模型的训练以及与其他场景识别方法的对比,其分类识别准确率显著提升。
以上仅为本发明的优选实例而已,并不用于限制本发明,对于本领域的技术人员来书,本发明可以有各种变化以及更改。凡在本发明的精神和原则之内,所作的任何修改、同等变化、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,包括
步骤S1:对待识别图像进行预处理,获得适应网络输入尺寸和通道的待识别图像;
步骤S2:基于EfficientNet构建用于场景识别的深度学习网络,并训练所述深度学习网络,获得训练后收敛的网络模型,其中,所述深度学习网络包括场景识别网络、多尺度特征提取模块、特征增强模块和分类层;所述场景识别网络用于获得所述待识别图像的场景特征向量;所述多尺度特征提取模块用于提取所述待识别图像的多尺度场景特征向量;所述特征增强模块用于增强所述多尺度场景特征向量的局部细节信息;所述分类层用于获得场景分类结果;
步骤S3:将待识别图像输入训练后收敛的网络模型中,获得图像的场景分类结果。
2.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,所述步骤S1包括:将待识别图像的大小设置为224*224;调整所述待识别图像的通道。
3.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,所述步骤S2中场景识别网络为去掉最后全连接层的EfficientNet网络。
4.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,所述步骤S2中多尺度特征提取模块包括:扩张因子分别为1、3、5的空洞卷积层,全局平均池化层和通道注意力模块,其中,
所述多尺度特征提取模块由扩张因子分别为1、3、5的空洞卷积层与所述全局平均池化层进行级联,获得级联特征,再与通道注意力模块连接,其中,所述空洞卷积层用于对所述场景特征向量进行扩张卷积,获得不同尺度下的特征信息,所述全局平均池化层用于对所述场景特征向量进行全局平均,获得一个包含全局上下文信息的特征向量,所述通道注意力模块用于关注级联特征中重要通道信息,抑制弱相关的通道信息,通过计算公式获得通道注意力权重系数Mc,将级联特征与所述权重系数相乘便可得到基于通道注意力机制的特征分布。
5.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,所述步骤S2中特征增强模块包括:空间注意力残差模块和全局平均池化层,其中,
所述空间注意力残差模块用于增强所述场景特征向量的局部细节信息,优化网络学习过程,获得注意力权重,所述全局平均池化层用于根据所述注意力权重提取特征信息。
6.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,所述步骤S2中分类层包括:一层带有softmax函数的全连接层。
7.根据权利要求1所述的基于多尺度特征与特征增强的深度学习场景识别方法,其特征在于,对所述步骤S2中深度学习网络进行训练,包括:获取具有场景标签的大量图像,组成图像训练集;利用所述图像训练集中的图片对所述深度学习网络模型进行训练,获得训练后收敛的深度学习网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354531.XA CN116385707A (zh) | 2023-04-04 | 2023-04-04 | 基于多尺度特征与特征增强的深度学习场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354531.XA CN116385707A (zh) | 2023-04-04 | 2023-04-04 | 基于多尺度特征与特征增强的深度学习场景识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385707A true CN116385707A (zh) | 2023-07-04 |
Family
ID=86968870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310354531.XA Pending CN116385707A (zh) | 2023-04-04 | 2023-04-04 | 基于多尺度特征与特征增强的深度学习场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385707A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740654A (zh) * | 2023-08-14 | 2023-09-12 | 安徽博诺思信息科技有限公司 | 基于图像识别技术的变电站作业防控方法 |
CN117115723A (zh) * | 2023-10-23 | 2023-11-24 | 四川泓宝润业工程技术有限公司 | 一种消防设施计数方法、装置、存储介质及电子设备 |
CN117496201A (zh) * | 2023-12-29 | 2024-02-02 | 深圳市五轮科技股份有限公司 | 一种用于电子烟、雾化器和电池杆的识别方法 |
-
2023
- 2023-04-04 CN CN202310354531.XA patent/CN116385707A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740654A (zh) * | 2023-08-14 | 2023-09-12 | 安徽博诺思信息科技有限公司 | 基于图像识别技术的变电站作业防控方法 |
CN116740654B (zh) * | 2023-08-14 | 2023-11-07 | 安徽博诺思信息科技有限公司 | 基于图像识别技术的变电站作业防控方法 |
CN117115723A (zh) * | 2023-10-23 | 2023-11-24 | 四川泓宝润业工程技术有限公司 | 一种消防设施计数方法、装置、存储介质及电子设备 |
CN117115723B (zh) * | 2023-10-23 | 2024-01-23 | 四川泓宝润业工程技术有限公司 | 一种消防设施计数方法、装置、存储介质及电子设备 |
CN117496201A (zh) * | 2023-12-29 | 2024-02-02 | 深圳市五轮科技股份有限公司 | 一种用于电子烟、雾化器和电池杆的识别方法 |
CN117496201B (zh) * | 2023-12-29 | 2024-04-05 | 深圳市五轮科技股份有限公司 | 一种用于电子烟、雾化器和电池杆的识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401384B (zh) | 一种变电设备缺陷图像匹配方法 | |
CN109145745B (zh) | 一种遮挡情况下的人脸识别方法 | |
CN116385707A (zh) | 基于多尺度特征与特征增强的深度学习场景识别方法 | |
CN106599854B (zh) | 基于多特征融合的人脸表情自动识别方法 | |
CN111079584A (zh) | 基于改进YOLOv3的快速车辆检测方法 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN109684922B (zh) | 一种基于卷积神经网络的多模型对成品菜的识别方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN111652273B (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN109815923B (zh) | 基于lbp特征与深度学习的金针菇菇头分选识别方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
WO2024021461A1 (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN114049194A (zh) | 一种基于图片背景相似性的欺诈检测识别方法及设备 | |
CN114022726A (zh) | 一种基于胶囊网络的人员车辆监控方法及系统 | |
Siraj et al. | Flower image classification modeling using neural network | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
CN113628181A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
Wei et al. | A novel color image retrieval method based on texture and deep features | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
Ruyi | A general image orientation detection method by feature fusion | |
CN113011506B (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 | |
CN112070009B (zh) | 基于改进的lbp算子的卷积神经网络表情识别方法 | |
CN115240079A (zh) | 一种多源遥感影像深度特征融合匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Xie Zhiqiang Document name: Notification of Qualified Preliminary Examination of Invention Patent Application |
|
DD01 | Delivery of document by public notice |