CN113673553A - 一种快速检测与识别少样本目标的方法和系统 - Google Patents

一种快速检测与识别少样本目标的方法和系统 Download PDF

Info

Publication number
CN113673553A
CN113673553A CN202110755789.1A CN202110755789A CN113673553A CN 113673553 A CN113673553 A CN 113673553A CN 202110755789 A CN202110755789 A CN 202110755789A CN 113673553 A CN113673553 A CN 113673553A
Authority
CN
China
Prior art keywords
image
feature
images
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110755789.1A
Other languages
English (en)
Other versions
CN113673553B (zh
Inventor
张烨
陈威慧
王博
闫芳彭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110755789.1A priority Critical patent/CN113673553B/zh
Publication of CN113673553A publication Critical patent/CN113673553A/zh
Application granted granted Critical
Publication of CN113673553B publication Critical patent/CN113673553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种快速检测与识别少样本目标的方法,首先将所有待检测的图像进行预处理,并按图像类别的比例划分训练集、支持集和测试集。然后通过设计LRDN网络和卷积自编码网络完成特征提取模型的设计,利用预激活的方式构建特征比较模型,两个网络的结合将构成一个端到端训练的模型。特征提取网络将输入图像从图像空间转换到特征表示空间,而特征比较网络则负责将两张图像的特征表示映射为二者属于同一类别的相似度分数,最后完成目标的检测与识别。本发明还包括一种快速检测与识别少样本目标的系统。本发明能很好地应用于目标样本量较小情况下的检测与识别。

Description

一种快速检测与识别少样本目标的方法和系统
技术领域
本发明涉及一种快速检测与识别少样本目标的方法和系统。
技术背景
随着人工智能技术的长足发展,深度学习方法以其强大的表示学习的能力,使得在图像识别任务上计算机视觉能比人类视觉取得更优秀的成绩。早在2016年ILSVRC竞赛的图像识别错误率已经达到约2.9%,远远超越了人类的5.1%。
但这些深度学习方法往往依托于强大的GPU并行计算能力以及海量的带标签数据资源,而在某些情况下,比如由于数据样本标注难度、成本的限制,对大量这类数据样本进行标注用于深度神经网络的训练是不切实际的。另一方面,企业自主研发的、涉及商业秘密的技术操作等图像数据因存在知识产权保护等问题,往往很难采集到样本,同样地,对于一些珍稀物种,其本身可获取的样本量也是极其小的,若要采用传统的深度神经网络对它们进行智能识别,难度很大。相比之下,人类则非常擅长根据少量的样本识别出新类别的样本,因此,在深度学习领域让计算机也具备这种与人类相似的认知能力,越发“智能”,其研究意义极其深远。
发明内容
本发明要克服现有技术的上述缺点,提出一种快速检测与识别少样本目标的方法和系统。
本发明首先将所有待检测的图像进行预处理,并按图像类别的比例划分训练集、支持集和测试集。然后通过设计LRDN网络和卷积自编码网络完成特征提取模型的设计,利用预激活的方式构建特征比较模型,两个网络的结合将构成一个端到端训练的模型。特征提取网络将输入图像从图像空间转换到特征表示空间,而特征比较网络则负责将两张图像的特征表示映射为二者属于同一类别的相似度分数,最后完成目标的检测与识别。
为了实现上述目的,本发明采用以下技术方案:
一种快速检测与识别少样本目标的方法,包括如下步骤:
步骤一,图像样本预处理;
将所有待检测的图像进行图像增强、去噪后统一缩放为36×36,并按图像类别的比例划分为训练集T、支持集S和测试集C。同时要求训练集中的图像类别标签与支持集、测试集中的图像类别标签无交集,而允许测试集中的图像类别与支持集中的图像类别有相同的标签空间。
步骤二,设计特征提取模型;
一张经过预处理的RGB图像分别利用LRDN网络和卷积自编码网络提取其特征,然后将两个网络的输出进行拼接,作为输入图像的特征表示,使得特征提取模型的输出既具有可重构性又具有可分辨性。对于LRDN网络和卷积自编码网络的设计如步骤(一)和步骤(二)所示。
(一)设计LRDN网络;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块由3个LRDB组成。每个LRDB通常包含一个24层的密集连接块、一个下采样过渡块以及一个带池化的恒等连接。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,输出特征向量f1
(二)设计卷积自编码网络;
利用标准卷积的思想,将32组“ReLU+1×1Conv+ReLU+3×3Conv”设置为一个正向block,将32组“ReLU+1×1反卷积+ReLU+3×3反卷积”设置为一个反向block,其中1×1卷积的作用是为了对输入的特征进行整理、压缩。然后将3个正向block进行串接,同时在每个正向block之间添加一层2×2的最大池化层进行下采样,同样地,将3个反向block进行串接,同时在每个反向block之间添加一层2×2的最大反池化层进行下采样。在网络的学习过程中,将最后一个正向block的输出作为第一个反向block的输入,将最后一个反向block的输出作为全局平均池化层的输入,利用全局平均池化聚合特征图,最终得到与f1维度相同的输出特征向量f2
步骤三,设计特征比较模型;
将两张图像的特征表示进行拼接作为特征比较模型的输入,然后利用一层2×2的最大池化层对输入进行下采样。将32组“Batch Normalization+ReLU+1×1Conv+BatchNormalization+ReLU+3×3Conv”设置为一个单元,然后把3个单元进行串接,每个单元之间同样添加一层2×2的最大池化层进行下采样。把最后一个单元的输出作为全连接层的输入,再把全连接层的输出映射到Sigmoid函数中,将表征两个输入图像特征的相似度分数归一化到区间[0,1]。
步骤四,检测与识别目标;
假定每一类待识别图像的数量是相等的,若某类图像的数量不足,则通过随机旋转、颜色变换等方法进行数据增强。在模型的训练阶段,把训练集T表示为:
T={(xi,yi)},i∈[1,n] (1)
其中,xi表示待识别的图像;yi表示待识别图像的标签值;n表示训练集中某类图像的数量。
接着从训练集T中选取每种对应类别的m张图像组成查询集Q,即有:
Q={(xj,yj)},j∈[1,m] (2)
紧接着将图像集xi和图像集xj分别输入到特征提取模型F中,可得二者的特征表示分别为F(xi)和F(xj),在两个数据集中任选两张图像的特征表示进行拼接,得:
λ={[F(xi),F(xj)]} (3)
然后把式(3)的值输入特征比较模型H中,进一步得到特征比较模型的输出,即两张图像属于同一类别的相似度分数为:
ω=H(λ) (4)
最后把两个输入图像特征的相似度分数归一化到区间[0,1],若二者属于同一类别,则其分数值置为1,否则为0。
在模型的测试阶段,利用特征提取模型获得支持集S和测试集C中每一张图像的特征表示后,在两个数据集中分别任选一张图像的特征表示进行两两拼接,进而利用特征比较模型获取二者之间的相似度分数。对于每一张测试图像,选择与之分数最高的特征拼接组合,该组合中支持集所属的类别即为该测试图像的类别。
本发明还包括实施上述一种快速检测与识别少样本目标的方法的系统,包括依次连接的图像样本预处理模块、特征提取模型设计模块、特征比较模型设计模块、检测与识别目标模块。
本发明的优点是:
本发明基于轻量化卷积神经网络和预激活,提出了一种快速检测与识别少样本目标的方法。其突出特点有:其一,模型整体结构简单、鲁棒性强,能很好地应用于目标样本量较小情况下的检测与识别。其二,利用轻量型的LRDN模型和卷积自编码网络组建特征提取网络,以分别提取输入图像的特征,使得模型的输出既具有可重构性又具有可分辨性。其三,利用预激活的方式设计特征比较模型,使之学习到的度量准则能够很好地约束数据集内以及数据集之间的类别相似度。
附图说明
图1是本发明的技术路线图。
具体实施方式
为了验证本发明提出的方法的可行性和优越性,现结合应用场景对本发明做进一步的阐述:
一种快速检测与识别少样本目标的方法,包括如下步骤:
步骤一,图像样本预处理;
将所有待检测的图像进行图像增强、去噪后统一缩放为36×36,并按图像类别的比例划分为训练集T、支持集S和测试集C。同时要求训练集中的图像类别标签与支持集、测试集中的图像类别标签无交集,而允许测试集中的图像类别与支持集中的图像类别有相同的标签空间。
步骤二,设计特征提取模型;
一张经过预处理的RGB图像分别利用LRDN网络和卷积自编码网络提取其特征,然后将两个网络的输出进行拼接,作为输入图像的特征表示,使得特征提取模型的输出既具有可重构性又具有可分辨性。对于LRDN网络和卷积自编码网络的设计如步骤(一)和步骤(二)所示。
(一)设计LRDN网络;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块由3个LRDB组成。每个LRDB通常包含一个24层的密集连接块、一个下采样过渡块以及一个带池化的恒等连接。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,输出特征向量f1
(二)设计卷积自编码网络;
利用标准卷积的思想,将32组“ReLU+1×1Conv+ReLU+3×3Conv”设置为一个正向block,将32组“ReLU+1×1反卷积+ReLU+3×3反卷积”设置为一个反向block,其中1×1卷积的作用是为了对输入的特征进行整理、压缩。然后将3个正向block进行串接,同时在每个正向block之间添加一层2×2的最大池化层进行下采样,同样地,将3个反向block进行串接,同时在每个反向block之间添加一层2×2的最大反池化层进行下采样。在网络的学习过程中,将最后一个正向block的输出作为第一个反向block的输入,将最后一个反向block的输出作为全局平均池化层的输入,利用全局平均池化聚合特征图,最终得到与f1维度相同的输出特征向量f2
步骤三,设计特征比较模型;
将两张图像的特征表示进行拼接作为特征比较模型的输入,然后利用一层2×2的最大池化层对输入进行下采样。将32组“Batch Normalization+ReLU+1×1Conv+BatchNormalization+ReLU+3×3Conv”设置为一个单元,然后把3个单元进行串接,每个单元之间同样添加一层2×2的最大池化层进行下采样。把最后一个单元的输出作为全连接层的输入,再把全连接层的输出映射到Sigmoid函数中,将表征两个输入图像特征的相似度分数归一化到区间[0,1]。
步骤四,检测与识别目标;
假定每一类待识别图像的数量是相等的,若某类图像的数量不足,则通过随机旋转、颜色变换等方法进行数据增强。在模型的训练阶段,把训练集T表示为:
T={(xi,yi)},i∈[1,n] (1)
其中,xi表示待识别的图像;yi表示待识别图像的标签值;n表示训练集中某类图像的数量。
接着从训练集T中选取每种对应类别的m张图像组成查询集Q,即有:
Q={(xj,yj)},j∈[1,m] (2)
紧接着将图像集xi和图像集xj分别输入到特征提取模型F中,可得二者的特征表示分别为F(xi)和F(xj),在两个数据集中任选两张图像的特征表示进行拼接,得:
λ={[F(xi),F(xj)]} (3)
然后把式(3)的值输入特征比较模型H中,进一步得到特征比较模型的输出,即两张图像属于同一类别的相似度分数为:
ω=H(λ) (4)
最后把两个输入图像特征的相似度分数归一化到区间[0,1],若二者属于同一类别,则其分数值置为1,否则为0。
在模型的测试阶段,利用特征提取模型获得支持集S和测试集C中每一张图像的特征表示后,在两个数据集中分别任选一张图像的特征表示进行两两拼接,进而利用特征比较模型获取二者之间的相似度分数。对于每一张测试图像,选择与之分数最高的特征拼接组合,该组合中支持集所属的类别即为该测试图像的类别。
本发明还包括实施上述一种快速检测与识别少样本目标的方法的系统,包括依次连接的图像样本预处理模块、特征提取模型设计模块、特征比较模型设计模块、检测与识别目标模块。
图像样本预处理模块包括:将所有待检测的图像进行图像增强、去噪后统一缩放为36×36,并按图像类别的比例划分为训练集T、支持集S和测试集C。同时要求训练集中的图像类别标签与支持集、测试集中的图像类别标签无交集,而允许测试集中的图像类别与支持集中的图像类别有相同的标签空间。
特征提取模型设计模块包括:一张经过预处理的RGB图像分别利用LRDN网络和卷积自编码网络提取其特征,然后将两个网络的输出进行拼接,作为输入图像的特征表示,使得特征提取模型的输出既具有可重构性又具有可分辨性。对于LRDN网络和卷积自编码网络的设计如步骤(一)和步骤(二)所示。
(一)设计LRDN网络;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块由3个LRDB组成。每个LRDB通常包含一个24层的密集连接块、一个下采样过渡块以及一个带池化的恒等连接。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,输出特征向量f1
(二)设计卷积自编码网络;
利用标准卷积的思想,将32组“ReLU+1×1Conv+ReLU+3×3Conv”设置为一个正向block,将32组“ReLU+1×1反卷积+ReLU+3×3反卷积”设置为一个反向block,其中1×1卷积的作用是为了对输入的特征进行整理、压缩。然后将3个正向block进行串接,同时在每个正向block之间添加一层2×2的最大池化层进行下采样,同样地,将3个反向block进行串接,同时在每个反向block之间添加一层2×2的最大反池化层进行下采样。在网络的学习过程中,将最后一个正向block的输出作为第一个反向block的输入,将最后一个反向block的输出作为全局平均池化层的输入,利用全局平均池化聚合特征图,最终得到与f1维度相同的输出特征向量f2
特征比较模型设计模块包括:将两张图像的特征表示进行拼接作为特征比较模型的输入,然后利用一层2×2的最大池化层对输入进行下采样。将32组“BatchNormalization+ReLU+1×1Conv+Batch Normalization+ReLU+3×3Conv”设置为一个单元,然后把3个单元进行串接,每个单元之间同样添加一层2×2的最大池化层进行下采样。把最后一个单元的输出作为全连接层的输入,再把全连接层的输出映射到Sigmoid函数中,将表征两个输入图像特征的相似度分数归一化到区间[0,1]。
检测与识别目标模块包括:假定每一类待识别图像的数量是相等的,若某类图像的数量不足,则通过随机旋转、颜色变换等方法进行数据增强。在模型的训练阶段,把训练集T表示为:
T={(xi,yi)},i∈[1,n] (1)
其中,xi表示待识别的图像;yi表示待识别图像的标签值;n表示训练集中某类图像的数量。
接着从训练集T中选取每种对应类别的m张图像组成查询集Q,即有:
Q={(xj,yj)},j∈[1,m] (2)
紧接着将图像集xi和图像集xj分别输入到特征提取模型F中,可得二者的特征表示分别为F(xi)和F(xj),在两个数据集中任选两张图像的特征表示进行拼接,得:
λ={[F(xi),F(xj)]} (3)
然后把式(3)的值输入特征比较模型H中,进一步得到特征比较模型的输出,即两张图像属于同一类别的相似度分数为:
ω=H(λ) (4)
最后把两个输入图像特征的相似度分数归一化到区间[0,1],若二者属于同一类别,则其分数值置为1,否则为0。
在模型的测试阶段,利用特征提取模型获得支持集S和测试集C中每一张图像的特征表示后,在两个数据集中分别任选一张图像的特征表示进行两两拼接,进而利用特征比较模型获取二者之间的相似度分数。对于每一张测试图像,选择与之分数最高的特征拼接组合,该组合中支持集所属的类别即为该测试图像的类别。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.一种快速检测与识别少样本目标的方法,包括如下步骤:
步骤一,图像样本预处理;
将所有待检测的图像进行图像增强、去噪后统一缩放为36×36,并按图像类别的比例划分为训练集T、支持集S和测试集C;同时要求训练集中的图像类别标签与支持集、测试集中的图像类别标签无交集,而允许测试集中的图像类别与支持集中的图像类别有相同的标签空间;
步骤二,设计特征提取模型;
一张经过预处理的RGB图像分别利用LRDN网络和卷积自编码网络提取其特征,然后将两个网络的输出进行拼接,作为输入图像的特征表示,使得特征提取模型的输出既具有可重构性又具有可分辨性;对于LRDN网络和卷积自编码网络的设计如步骤(一)和步骤(二)所示;
(一)设计LRDN网络;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征;其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征;第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征;
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征;其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块由3个LRDB组成;每个LRDB通常包含一个24层的密集连接块、一个下采样过渡块以及一个带池化的恒等连接;而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征;
最后,利用全局平均池化聚合特征图,输出特征向量f1
(二)设计卷积自编码网络;
利用标准卷积的思想,将32组“ReLU+1×1Conv+ReLU+3×3Conv”设置为一个正向block,将32组“ReLU+1×1反卷积+ReLU+3×3反卷积”设置为一个反向block,其中1×1卷积的作用是为了对输入的特征进行整理、压缩;然后将3个正向block进行串接,同时在每个正向block之间添加一层2×2的最大池化层进行下采样,同样地,将3个反向block进行串接,同时在每个反向block之间添加一层2×2的最大反池化层进行下采样;在网络的学习过程中,将最后一个正向block的输出作为第一个反向block的输入,将最后一个反向block的输出作为全局平均池化层的输入,利用全局平均池化聚合特征图,最终得到与f1维度相同的输出特征向量f2
步骤三,设计特征比较模型;
将两张图像的特征表示进行拼接作为特征比较模型的输入,然后利用一层2×2的最大池化层对输入进行下采样;将32组“Batch Normalization+ReLU+1×1Conv+BatchNormalization+ReLU+3×3Conv”设置为一个单元,然后把3个单元进行串接,每个单元之间同样添加一层2×2的最大池化层进行下采样;把最后一个单元的输出作为全连接层的输入,再把全连接层的输出映射到Sigmoid函数中,将表征两个输入图像特征的相似度分数归一化到区间[0,1];
步骤四,检测与识别目标;
假定每一类待识别图像的数量是相等的,若某类图像的数量不足,则通过随机旋转、颜色变换等方法进行数据增强;在模型的训练阶段,把训练集T表示为:
T={(xi,yi)},i∈[1,n] (1)
其中,xi表示待识别的图像;yi表示待识别图像的标签值;n表示训练集中某类图像的数量;
接着从训练集T中选取每种对应类别的m张图像组成查询集Q,即有:
Q={(xj,yj)},j∈[1,m] (2)
紧接着将图像集xi和图像集xj分别输入到特征提取模型F中,可得二者的特征表示分别为F(xi)和F(xj),在两个数据集中任选两张图像的特征表示进行拼接,得:
λ={[F(xi),F(xj)]} (3)
然后把式(3)的值输入特征比较模型H中,进一步得到特征比较模型的输出,即两张图像属于同一类别的相似度分数为:
ω=H(λ) (4)
最后把两个输入图像特征的相似度分数归一化到区间[0,1],若二者属于同一类别,则其分数值置为1,否则为0;
在模型的测试阶段,利用特征提取模型获得支持集S和测试集C中每一张图像的特征表示后,在两个数据集中分别任选一张图像的特征表示进行两两拼接,进而利用特征比较模型获取二者之间的相似度分数;对于每一张测试图像,选择与之分数最高的特征拼接组合,该组合中支持集所属的类别即为该测试图像的类别;
本发明还包括实施上述一种快速检测与识别少样本目标的方法的系统,包括依次连接的图像样本预处理模块、特征提取模型设计模块、特征比较模型设计模块、检测与识别目标模块。
2.实施权利要求1所述的一种快速检测与识别少样本目标的方法的系统,其特征在于:包括依次连接的图像样本预处理模块、特征提取模型设计模块、特征比较模型设计模块、检测与识别目标模块;
图像样本预处理模块包括:将所有待检测的图像进行图像增强、去噪后统一缩放为36×36,并按图像类别的比例划分为训练集T、支持集S和测试集C;同时要求训练集中的图像类别标签与支持集、测试集中的图像类别标签无交集,而允许测试集中的图像类别与支持集中的图像类别有相同的标签空间;
特征提取模型设计模块包括:一张经过预处理的RGB图像分别利用LRDN网络和卷积自编码网络提取其特征,然后将两个网络的输出进行拼接,作为输入图像的特征表示,使得特征提取模型的输出既具有可重构性又具有可分辨性;对于LRDN网络和卷积自编码网络的设计如步骤(一)和步骤(二)所示;
(一)设计LRDN网络;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征;其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征;第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征;
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征;其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块由3个LRDB组成;每个LRDB通常包含一个24层的密集连接块、一个下采样过渡块以及一个带池化的恒等连接;而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征;
最后,利用全局平均池化聚合特征图,输出特征向量f1
(二)设计卷积自编码网络;
利用标准卷积的思想,将32组“ReLU+1×1Conv+ReLU+3×3Conv”设置为一个正向block,将32组“ReLU+1×1反卷积+ReLU+3×3反卷积”设置为一个反向block,其中1×1卷积的作用是为了对输入的特征进行整理、压缩;然后将3个正向block进行串接,同时在每个正向block之间添加一层2×2的最大池化层进行下采样,同样地,将3个反向block进行串接,同时在每个反向block之间添加一层2×2的最大反池化层进行下采样;在网络的学习过程中,将最后一个正向block的输出作为第一个反向block的输入,将最后一个反向block的输出作为全局平均池化层的输入,利用全局平均池化聚合特征图,最终得到与f1维度相同的输出特征向量f2
特征比较模型设计模块包括:将两张图像的特征表示进行拼接作为特征比较模型的输入,然后利用一层2×2的最大池化层对输入进行下采样;将32组“Batch Normalization+ReLU+1×1Conv+Batch Normalization+ReLU+3×3Conv”设置为一个单元,然后把3个单元进行串接,每个单元之间同样添加一层2×2的最大池化层进行下采样;把最后一个单元的输出作为全连接层的输入,再把全连接层的输出映射到Sigmoid函数中,将表征两个输入图像特征的相似度分数归一化到区间[0,1];
检测与识别目标模块包括:假定每一类待识别图像的数量是相等的,若某类图像的数量不足,则通过随机旋转、颜色变换等方法进行数据增强;在模型的训练阶段,把训练集T表示为:
T={(xi,yi)},i∈[1,n] (1)
其中,xi表示待识别的图像;yi表示待识别图像的标签值;n表示训练集中某类图像的数量;
接着从训练集T中选取每种对应类别的m张图像组成查询集Q,即有:
Q={(xj,yj)},j∈[1,m] (2)
紧接着将图像集xi和图像集xj分别输入到特征提取模型F中,可得二者的特征表示分别为F(xi)和F(xj),在两个数据集中任选两张图像的特征表示进行拼接,得:
λ={[F(xi),F(xj)]} (3)
然后把式(3)的值输入特征比较模型H中,进一步得到特征比较模型的输出,即两张图像属于同一类别的相似度分数为:
ω=H(λ) (4)
最后把两个输入图像特征的相似度分数归一化到区间[0,1],若二者属于同一类别,则其分数值置为1,否则为0;
在模型的测试阶段,利用特征提取模型获得支持集S和测试集C中每一张图像的特征表示后,在两个数据集中分别任选一张图像的特征表示进行两两拼接,进而利用特征比较模型获取二者之间的相似度分数;对于每一张测试图像,选择与之分数最高的特征拼接组合,该组合中支持集所属的类别即为该测试图像的类别。
CN202110755789.1A 2021-07-05 2021-07-05 一种快速检测与识别少样本目标的方法和系统 Active CN113673553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110755789.1A CN113673553B (zh) 2021-07-05 2021-07-05 一种快速检测与识别少样本目标的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110755789.1A CN113673553B (zh) 2021-07-05 2021-07-05 一种快速检测与识别少样本目标的方法和系统

Publications (2)

Publication Number Publication Date
CN113673553A true CN113673553A (zh) 2021-11-19
CN113673553B CN113673553B (zh) 2024-03-29

Family

ID=78538597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110755789.1A Active CN113673553B (zh) 2021-07-05 2021-07-05 一种快速检测与识别少样本目标的方法和系统

Country Status (1)

Country Link
CN (1) CN113673553B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437096A (zh) * 2017-07-28 2017-12-05 北京大学 基于参数高效的深度残差网络模型的图像分类方法
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112580590A (zh) * 2020-12-29 2021-03-30 杭州电子科技大学 一种基于多语义特征融合网络的指静脉识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437096A (zh) * 2017-07-28 2017-12-05 北京大学 基于参数高效的深度残差网络模型的图像分类方法
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112580590A (zh) * 2020-12-29 2021-03-30 杭州电子科技大学 一种基于多语义特征融合网络的指静脉识别方法

Also Published As

Publication number Publication date
CN113673553B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN109165306B (zh) 基于多任务哈希学习的图像检索方法
Anwar et al. Image colorization: A survey and dataset
Sun et al. Deep spatial-temporal feature fusion for facial expression recognition in static images
Chen et al. Convolutional neural network-based place recognition
CN111401384B (zh) 一种变电设备缺陷图像匹配方法
CN112597955B (zh) 一种基于特征金字塔网络的单阶段多人姿态估计方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110543890A (zh) 一种基于特征金字塔的深度神经网络图像匹配方法
Xu et al. Facial expression recognition based on graph neural network
WO2024077781A1 (zh) 基于卷积神经网络模型的图像识别方法、装置及终端设备
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN116704611A (zh) 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法
CN113221977B (zh) 一种基于抗混叠语义重构的小样本语义分割方法
CN116597267B (zh) 图像识别方法、装置、计算机设备和存储介质
CN113673553B (zh) 一种快速检测与识别少样本目标的方法和系统
CN113223006B (zh) 一种基于深度学习的轻量级目标语义分割方法
Chandra et al. A novel method for CNN training using existing color datasets for classifying hand postures in Bayer images
CN112347284B (zh) 一种组合商标图像检索方法
CN112926662B (zh) 一种基于多尺度语言嵌入rec的目标检测方法
Seth et al. State of the art techniques to advance deep networks for semantic segmentation: A systematic review
CN112784674B (zh) 一种基于类中心自适应的重点人员搜索系统跨域识别方法
Maheshwari et al. Gender Classification using SVM With Flask
CN117218708A (zh) 一种识别准确度高的人脸表情识别方法
CN117496533A (zh) 基于特征通道解耦的端到端文本识别方法
CN115908857A (zh) 一种rgb-t图像显著性目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant