CN116468902A - 图像的处理方法、装置和非易失性计算机可读存储介质 - Google Patents
图像的处理方法、装置和非易失性计算机可读存储介质 Download PDFInfo
- Publication number
- CN116468902A CN116468902A CN202310246446.1A CN202310246446A CN116468902A CN 116468902 A CN116468902 A CN 116468902A CN 202310246446 A CN202310246446 A CN 202310246446A CN 116468902 A CN116468902 A CN 116468902A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- layer
- processing
- extraction layer
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 191
- 238000012545 processing Methods 0.000 claims abstract description 179
- 238000010801 machine learning Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 32
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013527 convolutional neural network Methods 0.000 description 20
- 238000013461 design Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006698 induction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种图像的处理方法、装置和非易失性计算机可读存储介质,涉及计算机技术领域。该处理方法,包括:利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,当前特征提取层为除了第一个特征提取层以外的特征提取层;根据特征向量,处理待处理图像。本公开的技术方案能够动态学习特征提取层的处理内核,提高特征提取层的识别精度,从而提高处理性能。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种图像的处理方法、图像的处理装置和非易失性计算机可读存储介质。
背景技术
物体识别技术是计算机视觉领域的基础课题之一。给定一张物体图片和对应的物体类别标签,物体识别的目标是利用这些数据学习一个物体识别生成模型,该模型能够正确分类图像中的物体。物体识别的骨架网络结构设计是该领域的一个重要研究方向。
在相关技术中,物体识别的骨架网络结构主要包括两种设计框架:基于CNN(Convolutional Neural Networks,卷积神经网络)的网络设计和基于Transformer(转换器)模块的网络设计。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:易造成信息丢失,导致处理性能下降。
鉴于此,本公开提出了一种图像的处理技术方案,能够动态学习特征提取层的处理内核,提高特征提取层的识别精度,从而提高处理性能。
根据本公开的一些实施例,提供了一种图像的处理方法,包括:利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,当前特征提取层为除了第一个特征提取层以外的特征提取层;根据特征向量,处理待处理图像。
在一些实施例中,当前特征提取层的处理内核通过下面的步骤计算:根据上一个特征提取层的处理结果,估计当前特征提取层的处理内核的估计值;根据估计值和上一个特征提取层的处理内核,确定当前特征提取层的处理内核。
在一些实施例中,估计当前特征提取层的处理内核的估计值包括:将上一个特征提取层的处理结果中的多个通道分量,划分到多个分组;根据多个分组中的每一个,分别估计当前特征提取层的处理内核的多个子估计值;根据多个子估计值,确定当前特征提取层的处理内核的估计值。
在一些实施例中,将上一个特征提取层的处理结果中的多个通道分量,划分到多个分组包括:对上一个特征提取层的处理结果进行下采样处理,以获取下采样结果;对下采样结果的通道维度进行扩展,以获取通道维度扩展结果;将通道维度扩展结果,划分到多个分组。
在一些实施例中,根据多个分组中的每一个,分别估计当前特征提取层的处理内核的多个子估计值包括:利用SFC(Space Full Connection,空间全连接)层,分别处理多个分组中的每一个,以获取多个子估计值。
在一些实施例中,根据多个子估计值,确定当前特征提取层的处理内核的估计值包括:利用全连接层,处理多个子估计值的连接结果,以获取全连接处理结果;对全连接处理结果进行GN(Group Normalization,组归一化)处理,确定当前特征提取层的处理内核的估计值
在一些实施例中,多个特征提取层中的每一个包括卷积前馈层,卷积前馈层包括卷积层和全连接层。
在一些实施例中,卷积层设置在全连接层之前。
在一些实施例中,特征提取层包括层标准化层,卷积层的输出作为层标准化层的输入,层标准化层的输出作为全连接层的输入。
在一些实施例中,多个特征提取层包括第一特征提取层和第二特征提取层,第一特征提取层包括注意力机制模块,第二特征提取层不包括注意力机制模块,注意力机制模块的输出为第一特征提取层的卷积前馈层的输入,第一特征提取层处理的数据的分辨率低于第二特征提取层处理的数据的分辨率。
在一些实施例中,第二特征提取层设置在第一特征提取层之前。
在一些实施例中,卷积前馈层的卷积层包括深度卷积层。
在一些实施例中,根据所述特征向量,处理所述待处理图像包括:根据特征向量,对待处理图像进行分类。
根据本公开的另一些实施例,提供一种图像的处理装置,包括:提取单元,用于利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,当前特征提取层为除了第一个特征提取层以外的特征提取层;处理单元,用于根据特征向量,处理待处理图像。
在一些实施例中,提取单元通过下面的步骤计算当前特征提取层的处理内核:根据上一个特征提取层的处理结果,估计当前特征提取层的处理内核的估计值;根据估计值和上一个特征提取层的处理内核,确定当前特征提取层的处理内核。
在一些实施例中,提取单元将上一个特征提取层的处理结果中的多个通道分量,划分到多个分组;根据多个分组中的每一个,分别估计当前特征提取层的处理内核的多个子估计值,根据多个子估计值,确定当前特征提取层的处理内核的估计值。
在一些实施例中,提取单元对上一个特征提取层的处理结果进行下采样处理,以获取下采样结果,对下采样结果的通道维度进行扩展,以获取通道维度扩展结果,将通道维度扩展结果,划分到多个分组。
在一些实施例中,提取单元利用SFC层,分别处理多个分组中的每一个,以获取多个子估计值。
在一些实施例中,提取单元利用全连接层,处理多个子估计值的连接结果,以获取全连接处理结果;对全连接处理结果进行GN处理,确定当前特征提取层的处理内核的估计值
在一些实施例中,多个特征提取层中的每一个包括卷积前馈层,卷积前馈层包括卷积层和全连接层。
在一些实施例中,卷积层设置在全连接层之前。
在一些实施例中,特征提取层包括层标准化层,卷积层的输出作为层标准化层的输入,层标准化层的输出作为全连接层的输入。
在一些实施例中,多个特征提取层包括第一特征提取层和第二特征提取层,第一特征提取层包括注意力机制模块,第二特征提取层不包括注意力机制模块,注意力机制模块的输出为第一特征提取层的卷积前馈层的输入,第一特征提取层处理的数据的分辨率低于第二特征提取层处理的数据的分辨率。
在一些实施例中,第二特征提取层设置在第一特征提取层之前。
在一些实施例中,卷积前馈层的卷积层包括深度卷积层。
在一些实施例中,处理单元根据特征向量,对待处理图像进行分类。
根据本公开的又一些实施例,提供一种图像的处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的图像的处理方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的图像的处理方法。
在上述实施例中,在机器学习模型的学习过程中,根据不同特征提取层之间的信息,动态学习各特征提取层的处理内核,以提高特征提取层的识别精度,从而提高机器学习模型的处理性能。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的图像的处理方法的一些实施例的流程图;
图2示出本公开的图像的处理方法的一些实施例的示意图;
图3示出本公开的图像的处理方法的另一些实施例的示意图;
图4示出本公开的图像的处理装置的一些实施例的示意图;
图5示出本公开的图像的处理装置的另一些实施例的框图;
图6示出本公开的图像的处理装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述,基于卷积神经网络的骨干网络设计是物体识别骨干网络设计的一个主流选择。卷积神经网络主要利用堆叠不同的卷积核对图片局部区域进行特征抽取,并且通过金字塔结构下采样的方法在多个阶段中逐步扩大卷积神经网络的感受野,从而实现对图片全局特征的抽取。
但是,在卷积神经网络前期只能提取图片的局部信息,无法直接处理图片的全局信息。基于Transformer结构的物体识别骨干网络可以有效解决这个问题。
基于Transformer结构的骨干网络设计完全依赖不同图像块之间的自注意力机制进行特征融合。因此,使用Transformer结构构建的物体识别骨干网络可以在网络的前期就获得图片的全局信息。这个特性使得基于Transformer结构的物体识别骨干网络设计的研究工作和探索越来越多。
可见,无论是基于卷积神经网络的设计方案,还是基于Transformer结构的设计方案,都有各自的优缺点。
对于基于卷积神经网络的设计方案来说,由于引入了带有先验知识归纳偏置的局部二维卷积核,使得卷积神经网络可以快速处理高分辨率的图片;并且,在训练数据很小的情况下能取得较好的效果。但是,由于网络没有办法在前期就获得图片的全局信息,从而造成了一定的性能损失。
对于基于Transformer结构的设计方案来说,训练和预测速度往往比不上卷积神经网络。由于Transformer结构密集的自注意力计算,导致每个图像块的特征计算需要和所有图像块特征进行计算,因此这种架构的训练对于高分辨率输入通常很慢。
但是,Transformer结构网络可以对全图进行全局的注意力特征融合操作。在训练数据量足够大的情况下,基于Transformer结构设计的视觉骨干网络能够在模型参数量相近的情况下,取得比卷积神经网络更高的识别精度。Transformer技术通常可以提供比同类技术更出色的性能,因此这种复杂性问题逐渐成为制约这种有用架构进展的瓶颈。
整合卷积神经网络和Transformer结构的混合网络设计方案,能够使得视觉骨干网络同时具备两者的优点。
可以将自注意力操作整合到卷积神经网络块中。例如,在卷积神经网络架构中的每个局部块上,都采用局部自注意力学习,从而,在保留卷积神经网络的先验知识的同时减少Transformer结构密集的自注意力计算。
可以将卷积操作整合到Transformer结构中。例如,可以将卷积层分别插入自注意力模块或前馈层进行骨干网络的构建;也可以在每个Transformer模块中融合自注意力模块和卷积层的输出。这样做的目的是在基于Transformer结构的视觉骨干网络中引入正确的二维区域结构建模的归纳偏置。
上述方法中的机器学习模型都依赖于典型的卷积,以在每个Transformer模块内施加归纳偏差。然而,这些机器学习模型在训练后,每一层学习的特征图输入分辨率和内核都是静态固定的;而且,每个结构块内的二维结构归纳偏置的独立建模忽略了其他不同分辨率输入的不同块的归纳偏置信息。从而,造成信息的丢失,限制了识别精度的提高。
可见,基于卷积神经网络和Transformer结构混合设计的物体识别骨干网络,存在无法在不同处理阶段,动态建模学习不同的归纳偏置的技术问题。
针对上述技术问题,本公开提出了一种基于流线型卷积的视觉Transformer骨干网络的新混合架构,通过在不同模块的归纳偏差之间引入流线型依赖关系,将处理内核动态分配给流线型卷积。
在这种混合架构下,能够在Transformer模块的处理内核的指导下,学习针对每个分辨率的特定处理内核,从而能够在不同阶段的学习过程中,动态考虑其他阶段块的信息,提高模型的识别精度。
例如,可以通过下面的实施例,实现本公开的技术方案。
图1示出本公开的图像的处理方法的一些实施例的流程图。
如图1所示,在步骤110中,利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,当前特征提取层为除了第一个特征提取层以外的特征提取层。
在一些实施例中,多个特征提取层中的每一个包括CFF(卷积前馈)层,CFF层包括卷积层和全连接层。例如,CFF层的卷积层包括深度卷积层。
例如,可以通过增加深度卷积层的处理内核的大小,来扩大感受野,从而提高特征提取的性能。
在一些实施例中,卷积层设置在全连接层之前。例如,CFF层可以包括一个能够进行动态学习的深度卷积(DWConv)层和两个全连接(FC)层。可以将DWConv层设置在两个FC之前,以实现DWConv层的向上移动,从而提高特征提取的性能。
在一些实施例中,特征提取层包括LN(层标准化)层,卷积层的输出作为LN层的输入,LN层的输出作为全连接层的输入。
例如,第l个特征提取层包括第l个流线型Transformer模块,第l个流线型Transformer模块包括CFF层,其输入特征为CFF层的处理过程如下面的公式所示:
DWConv()表示深度卷积操作,θl为与第l个流线型Transformer模块相应的可学习的处理内核参数。
在一些实施例中,多个特征提取层包括第一特征提取层和第二特征提取层,第一特征提取层包括注意力机制模块,第二特征提取层不包括注意力机制模块。注意力机制模块的输出为第一特征提取层的卷积前馈层的输入。第一特征提取层处理的数据的分辨率低于第二特征提取层处理的数据的分辨率。例如,第二特征提取层设置在第一特征提取层之前。
例如,注意力机制模块包括MHA(多头自注意力)层。
例如,机器学习模型包含从高分辨率输入到低分辨率输入的4个处理阶段。对于具有高分辨率输入的前两个处理阶段,移除繁琐的MHA,只使用CFF层作为第二特征提取层;对于具有低分辨率输入的后两个阶段,使用由MHA层和CFF层的堆栈组成流线型Transformer模块作为第一特征提取层。
例如,可以采用块嵌入层的方式,同时增加特征提取层的通道尺寸和缩小空间分辨率。
在一些实施例,可以设置不同模型尺寸的机器学习模型。例如,可以为机器学习模型设置小尺寸的特征提取层、基本尺寸的特征提取层和大尺寸的特征提取层3种模型尺寸。
例如,表1列出了3种模型尺寸的架构。Ei、Ci和分别是第i阶段的CFF层的扩展比、通道维度以及多头自注意力/令牌特征混合器层中的多头数目:
表1
在一些实施例中,当前特征提取层的处理内核通过下面的步骤计算:根据上一个特征提取层的处理结果,估计当前特征提取层的处理内核的估计值;根据估计值和上一个特征提取层的处理内核,确定当前特征提取层的处理内核。
如果每一个通道的处理过程都共享相同的参数,会使得模机器学习型的学习复杂度有限,导致灵活性不够高;如果每一个通道都使用独立的具有不同参数的层去处理,则会增加机器学习模型的运算量。
在一些实施例中,针对上述技术问题,可以利用MHM(multi-head mixer,多头令牌特征混合)层对所有通道进行分组;只有同一个分组里的通道在处理过程中才共享相同的参数,不同分组之间不共享参数。
例如,将上一个特征提取层的处理结果中的多个通道分量,划分到多个分组;根据多个分组中的每一个,分别估计当前特征提取层的处理内核的多个子估计值;根据多个子估计值,确定当前特征提取层的处理内核的估计值。
这样,可以提高机器学习模型的灵活性,并限制机器学习模型参数的增长幅度,从而,达到了介于参数规模和灵活性之间的开销平衡。
在一些实施例中,对上一个特征提取层的处理结果进行下采样处理,以获取下采样结果/>对下采样结果的通道维度进行扩展,以获取通道维度扩展结果/>将通道维度扩展结果/>划分到多个分组/>
例如,对于输入特征利用AAP(自适应平均池化)操作将/>的尺寸下采样到Kh×Kw,Kh、Kw本别为输出内核的高度和宽度;采用FC层和GELU(Gaussian Error LinearUnit,高斯误差现行单元)激活函数σ来扩展内核的通道维度。可以通过下面的公式进行下采样和通道维度的扩展:
在一些实施例中,利用SFC层,分别处理多个分组中的每一个,以获取多个子估计值hea6i。例如,利用全连接层,处理多个子估计值的连接结果zl,以获取全连接处理结果;对全连接处理结果进行GN处理,确定当前特征提取层的处理内核的估计值/>
例如,为了鼓励输入中的空间交互,MHM层仅在每个头的通道分组内共享相同的参数,从而达到介于参数预算和灵活性之间的开销平衡;最后利用全连接层来生成处理内核。
例如,可以采用残差连接,实现各流线型的内核生成模块。即通过将计算的当前层的处理内核的估计值与上一层的处理内核θl,1的聚合,来加强内核信息传播。
例如,内核生成模块的整体操作可以通过下面的公式实现:
例如,被分成大小相等的hd个分组,/>是/>的第i个分组。Concat()表示连接操作,GN()表示组归一化处理,SFC()表示空间上的全连接层,以实现跨空间位置的矩阵乘法操作。
在步骤120中,根据特征向量,处理待处理图像。例如,根据特征向量,对待处理图像进行分类。
在上述实施例中,针对Transformer模块在2D区域结构建模中,缺乏正确的归纳偏置,且卷积神经网络和Transformer模块的混合网络无法动态地学习每个模块的卷积核函数的技术问题,提出了一个能够动态学习不同模块的卷积核函数的网络模块。
也就是说,基于流线型卷积的transformer结构模块。这个模块通过流线型卷积很好地升级了transformer结构块中的FF层,该层是通过另一条路径中的流线型内核生成动态学习的。
图2示出本公开的图像的处理方法的一些实施例的示意图。
如图2所示,流线型Transformer模块的架构包含两条路径:混合Transformer路径和KG(流线型内核生成路径)。混合Transformer路径可以由MHA层和本公开提出的CFF层组成。CFF层将动态学习的深度卷积合并到FF层中,以捕获归纳偏差;KG路径收集当前层的输入和前一层的处理内核,并在当前层中进一步生成深度卷积的专用处理内核。
在一些实施例中,机器学习模型的特征提取层,采用了基于卷积神经网络和Transformer结构的混合架构。这种混合架构可以称为流线型Transformer模块。
例如,每一个特征提取层均由两条路径组成:一条路径是混合Transformer路径,通过额外的深度卷积层,即CFF层,替换Transformer模块中原有的FF层,用于捕获归纳偏置;另一条路径是流线型的KG路径,用于收集当前层的输入特征以及前一层中深度卷积的处理内核。
该混合架构的目标是为了在每个结构块(特征提取层)中动态生成该结构块的深度卷积层的专用处理内核。
CFF层可以包括一个能够进行动态学习的DWConv层和两个FC层。可以将DWConv层设置在两个FC之前,以实现DWConv层的向上移动,从而提高特征提取的性能。
例如,可以通过增加深度卷积层的处理内核的大小,来扩大感受野,从而提高特征提取的性能。
例如,第l个特征提取层包括第l个流线型Transformer模块,第l个流线型Transformer模块包括CFF层,其输入特征为CFF层的处理过程如下面的公式所示:
KG路径中的每个流线型内核生成模块都被设计为在对应的CFF层中生成深度卷积的专用处理内核。例如,可以通过图3中的实施例,实现KG路径。
图3示出本公开的图像的处理方法的另一些实施例的示意图。
如图3所示,对于输入特征利用AAP操作将/>的尺寸下采样到Kh×Kw,Kh、Kw本别为输出内核的高度和宽度;采用FC层和GELU激活函数σ来扩展内核的通道维度。
例如,为了鼓励输入中的空间交互,MHM层仅在每个头的通道分组内共享相同的参数,从而达到介于参数预算和灵活性之间的开销平衡;最后利用全连接层来生成处理内核。
例如,可以采用残差连接,实现各流线型的内核生成模块。即通过将计算的当前层的处理内核的估计值与上一层的处理内核θl-1的聚合,来加强内核信息传播。
例如,KG路径的内核生成模块的操作可以通过下面的公式实现:
例如,机器学习模型包含从高分辨率输入到低分辨率输入的4个处理阶段。对于具有高分辨率输入的前两个处理阶段,移除繁琐的MHA,只使用CFF层作为第二特征提取层;对于具有低分辨率输入的后两个阶段,使用由MHA层和CFF层的堆栈组成流线型Transformer模块作为第一特征提取层。
例如,可以采用块嵌入层的方式,同时增加特征提取层的通道尺寸和缩小空间分辨率。
在一些实施例,可以设置不同模型尺寸的机器学习模型。例如,可以为机器学习模型设置小尺寸的特征提取层、基本尺寸的特征提取层和大尺寸的特征提取层3种模型尺寸。
例如,表1列出了3种模型尺寸的架构。
上述实施例中,提出了基于流线型卷积的视觉Transformer骨干网络的设计方案。作为一种新的物体识别骨干网络的设计范式,该骨干网络通过流线型卷积结构能够很好地结合卷积神经网络的二维归纳偏置信息以及Transformer结构全局的自注意力机制;另外,可以在模型学习过程中考虑不同网络块之间的信息,动态学习不同网络块中的深度卷积核,从而进一步提高视觉骨干网络的识别精度。
图4示出本公开的图像的处理装置的一些实施例的示意图。
如图4所示,图像的处理装置4包括:提取单元41,用于利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,当前特征提取层为除了第一个特征提取层以外的特征提取层;处理单元42,用于根据特征向量,处理待处理图像。
在一些实施例中,提取单元41通过下面的步骤计算当前特征提取层的处理内核:根据上一个特征提取层的处理结果,估计当前特征提取层的处理内核的估计值;根据估计值和上一个特征提取层的处理内核,确定当前特征提取层的处理内核。
在一些实施例中,提取单元41将上一个特征提取层的处理结果中的多个通道分量,划分到多个分组;根据多个分组中的每一个,分别估计当前特征提取层的处理内核的多个子估计值,根据多个子估计值,确定当前特征提取层的处理内核的估计值。
在一些实施例中,提取单元41对上一个特征提取层的处理结果进行下采样处理,以获取下采样结果,对下采样结果的通道维度进行扩展,以获取通道维度扩展结果,将通道维度扩展结果,划分到多个分组。
在一些实施例中,提取单元41利用SFC层,分别处理多个分组中的每一个,以获取多个子估计值。
在一些实施例中,提取单元41利用全连接层,处理多个子估计值的连接结果,以获取全连接处理结果;对全连接处理结果进行GN处理,确定当前特征提取层的处理内核的估计值
在一些实施例中,多个特征提取层中的每一个包括卷积前馈层,卷积前馈层包括卷积层和全连接层。
在一些实施例中,卷积层设置在全连接层之前。
在一些实施例中,特征提取层包括层标准化层,卷积层的输出作为层标准化层的输入,层标准化层的输出作为全连接层的输入。
在一些实施例中,多个特征提取层包括第一特征提取层和第二特征提取层,第一特征提取层包括注意力机制模块,第二特征提取层不包括注意力机制模块,注意力机制模块的输出为第一特征提取层的卷积前馈层的输入,第一特征提取层处理的数据的分辨率低于第二特征提取层处理的数据的分辨率。
在一些实施例中,第二特征提取层设置在第一特征提取层之前。
在一些实施例中,卷积前馈层的卷积层包括深度卷积层。
在一些实施例中,处理单元42根据特征向量,对待处理图像进行分类。
图5示出本公开的图像的处理装置的另一些实施例的框图。
如图5所示,该实施例的图像的处理装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的图像的处理方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6示出本公开的图像的处理装置的又一些实施例的框图。
如图6所示,该实施例的图像的处理装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的图像的处理方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图像的处理装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的图像的处理方法、图像的处理装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
Claims (16)
1.一种图像的处理方法,包括:
利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,所述当前特征提取层为除了第一个特征提取层以外的特征提取层;
根据所述特征向量,处理所述待处理图像。
2.根据权利要求1所述的处理方法,其中,所述当前特征提取层的处理内核通过下面的步骤计算:
根据所述上一个特征提取层的处理结果,估计所述当前特征提取层的处理内核的估计值;
根据所述估计值和所述上一个特征提取层的处理内核,确定所述当前特征提取层的处理内核。
3.根据权利要求1所述的处理方法,其中,所述估计所述当前特征提取层的处理内核的估计值包括:
将所述上一个特征提取层的处理结果中的多个通道分量,划分到多个分组;
根据所述多个分组中的每一个,分别估计所述当前特征提取层的处理内核的多个子估计值;
根据所述多个子估计值,确定所述当前特征提取层的处理内核的估计值。
4.根据权利要求3所述的处理方法,其中,所述将所述上一个特征提取层的处理结果中的多个通道分量,划分到多个分组包括:
对所述上一个特征提取层的处理结果进行下采样处理,以获取下采样结果;
对所述下采样结果的通道维度进行扩展,以获取通道维度扩展结果;
将所述通道维度扩展结果,划分到所述多个分组。
5.根据权利要求3所述的处理方法,其中,所述根据所述多个分组中的每一个,分别估计所述当前特征提取层的处理内核的多个子估计值包括:
利用空间全连接SFC层,分别处理所述多个分组中的每一个,以获取所述多个子估计值。
6.根据权利要求3所述的处理方法,其中,所述根据所述多个子估计值,确定所述当前特征提取层的处理内核的估计值包括:
利用全连接层,处理所述多个子估计值的连接结果,以获取全连接处理结果;
对所述全连接处理结果进行组归一化GN处理,确定所述当前特征提取层的处理内核的估计值。
7.根据权利要求1所述的处理方法,其中,所述多个特征提取层中的每一个包括卷积前馈层,所述卷积前馈层包括卷积层和全连接层。
8.根据权利要求7所述的处理方法,其中,所述卷积层设置在所述全连接层之前。
9.根据权利要求8所述的处理方法,其中,所述特征提取层包括层标准化层,所述卷积层的输出作为所述层标准化层的输入,所述层标准化层的输出作为所述全连接层的输入。
10.根据权利要求7所述的处理方法,其中,所述多个特征提取层包括第一特征提取层和第二特征提取层,第一特征提取层包括注意力机制模块,所述第二特征提取层不包括所述注意力机制模块,所述注意力机制模块的输出为所述第一特征提取层的卷积前馈层的输入,所述第一特征提取层处理的数据的分辨率低于所述第二特征提取层处理的数据的分辨率。
11.根据权利要求10所述的处理方法,其中,所述第二特征提取层设置在所述第一特征提取层之前。
12.根据权利要求7所述的处理方法,其中,所述卷积前馈层的卷积层包括深度卷积层。
13.根据权利要求1~12任一项所述的处理方法,其中,所述根据所述特征向量,处理所述待处理图像包括:
根据所述特征向量,对所述待处理图像进行分类。
14.一种图像的处理装置,包括:
提取单元,用于利用机器学习模型中顺序连接的多个特征提取层,提取待处理图像的特征向量,当前特征提取层的处理内核根据上一个特征提取层的处理内核和处理结果确定,所述当前特征提取层为除了第一个特征提取层以外的特征提取层;
处理单元,用于根据所述特征向量,处理所述待处理图像。
15.一种图像的处理装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1~13任一项所述的图像的处理方法。
16.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1~13任一项所述的图像的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310246446.1A CN116468902A (zh) | 2023-03-10 | 2023-03-10 | 图像的处理方法、装置和非易失性计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310246446.1A CN116468902A (zh) | 2023-03-10 | 2023-03-10 | 图像的处理方法、装置和非易失性计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468902A true CN116468902A (zh) | 2023-07-21 |
Family
ID=87176157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310246446.1A Pending CN116468902A (zh) | 2023-03-10 | 2023-03-10 | 图像的处理方法、装置和非易失性计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468902A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094451A (zh) * | 2023-10-20 | 2023-11-21 | 邯郸欣和电力建设有限公司 | 一种耗电量的预测方法、装置及终端 |
-
2023
- 2023-03-10 CN CN202310246446.1A patent/CN116468902A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117094451A (zh) * | 2023-10-20 | 2023-11-21 | 邯郸欣和电力建设有限公司 | 一种耗电量的预测方法、装置及终端 |
CN117094451B (zh) * | 2023-10-20 | 2024-01-16 | 邯郸欣和电力建设有限公司 | 一种耗电量的预测方法、装置及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868895B2 (en) | Dynamic processing element array expansion | |
US10977530B2 (en) | ThunderNet: a turbo unified network for real-time semantic segmentation | |
CN110245655B (zh) | 一种基于轻量级图像金字塔网络的单阶段物体检测方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN110717527B (zh) | 结合空洞空间金字塔结构的目标检测模型确定方法 | |
CN110084274B (zh) | 实时图像语义分割方法及系统、可读存储介质和终端 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
Zhang et al. | Object detection with location-aware deformable convolution and backward attention filtering | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN111914782A (zh) | 人脸及其特征点的检测方法、装置、电子设备和存储介质 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN111696038A (zh) | 图像超分辨率方法、装置、设备及计算机可读存储介质 | |
CN110782430A (zh) | 一种小目标的检测方法、装置、电子设备及存储介质 | |
CN114863539A (zh) | 一种基于特征融合的人像关键点检测方法及系统 | |
CN116468902A (zh) | 图像的处理方法、装置和非易失性计算机可读存储介质 | |
CN114973222A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN115546549A (zh) | 点云分类模型构建方法、点云分类方法、装置及设备 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
WO2022152104A1 (zh) | 动作识别模型的训练方法及装置、动作识别方法及装置 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN115984949B (zh) | 一种带有注意力机制的低质量人脸图像识别方法及设备 | |
CN116403133A (zh) | 一种基于YOLO v7改进的车辆检测算法 | |
Sang et al. | Image recognition based on multiscale pooling deep convolution neural networks | |
CN114972775A (zh) | 特征处理方法、装置、产品、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |