CN116051846A - 图像特征提取方法、装置、计算机设备和存储介质 - Google Patents

图像特征提取方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN116051846A
CN116051846A CN202211618600.5A CN202211618600A CN116051846A CN 116051846 A CN116051846 A CN 116051846A CN 202211618600 A CN202211618600 A CN 202211618600A CN 116051846 A CN116051846 A CN 116051846A
Authority
CN
China
Prior art keywords
feature
attention
features
splicing
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211618600.5A
Other languages
English (en)
Inventor
曾淦雄
林晓帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insta360 Innovation Technology Co Ltd
Original Assignee
Insta360 Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insta360 Innovation Technology Co Ltd filed Critical Insta360 Innovation Technology Co Ltd
Priority to CN202211618600.5A priority Critical patent/CN116051846A/zh
Publication of CN116051846A publication Critical patent/CN116051846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种图像特征提取方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:从图像中提取所述图像在不同尺度下的第一特征、第二特征和第三特征;对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征;融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征。采用本方法能够提高特征提取准确度。

Description

图像特征提取方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像特征提取方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着神经网络技术的发展,现有的特征金字塔配合多尺度预测头,使得目标检测具备较强的检测能力。然而,多尺度的预测对硬件的计算能力提出了较高的要求,因此需要进行多尺度特征融合的方案,保障特征识别的准确性。
主流特征金字塔技术在进行多层特征融合时,一般使用按位求和(element-wise),或是通过网络结构搜索出更优的路径连接,再进行不同尺度的按位求和操作。对不同尺度的特征按位求和操作简单,但缺少选择性的信息传递,难以有效地提取特征。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高特征提取准确度的图像特征提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像特征提取方法。所述方法包括:
从图片中提取所述图像在不同尺度下的第一特征和第二特征;
对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;
对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征;
融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征。
在其中一个实施例中,所述对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征,包括:
拼接所述第一特征和所述第二特征,得到第一拼接特征;
对所述第一拼接特征进行全局池化,基于所述第一拼接特征和全局池化后的所述第一拼接特征生成通道特征;
对所述第一拼接特征进行均值池化,根据所述第一拼接特征和均值池化后的所述第一拼接特征生成空间特征;
根据所述通道特征和所述空间特征,生成第一注意力特征。
在其中一个实施例中,所述基于所述第一拼接特征和全局池化后的所述第一拼接特征生成通道特征,包括:
基于全局池化后的所述第一拼接特征生成各卷积通道的特征分布;
根据所述各卷积通道的特征分布,计算各卷积通道的权重;
基于所述各卷积通道的权重与所述第一拼接特征生成通道特征。
在其中一个实施例中,所述根据所述第一拼接特征和均值池化后的所述第一拼接特征生成空间特征,包括:
根据均值池化后的所述第一拼接特征,生成多个局部特征的分布;
根据各所述局部特征的分布计算局部特征的权重;
根据所述局部特征的权重与所述第一拼接特征生成空间特征。
在其中一个实施例中,所述对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征,包括:
拼接所述第一注意力特征和所述第一特征,得到第二拼接特征;
对所述第二拼接特征进行全局池化,基于所述第二拼接特征和全局池化后的所述第二拼接特征生成所述第二通道特征;
对所述第二拼接特征进行均值池化,根据所述第二拼接特征和均值池化后的所述第二拼接特征生成所述第二空间特征;
根据所述第二通道特征和所述第二空间特征,生成第一融合特征。
在其中一个实施例中,所述融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征,包括:
拼接所述第一融合特征和所述第一注意力特征,得到第三拼接特征;
对所述第三拼接特征进行全局池化,基于所述第三拼接特征和全局池化后的所述第三拼接特征生成通道特征;
对所述第三拼接特征进行均值池化,根据所述第三拼接特征和均值池化后的所述第三拼接特征生成空间特征;
根据所述第三通道特征和第三空间特征,生成所述图像的第一目标融合特征。
在其中一个实施例中,所述方法还包括:
从所述图像中提取第三特征;所述第三特征的尺度不同于所述第一特征和所述第二特征的尺度;
对所述第三特征与所述第一注意力特征进行所述融合操作,得到第二注意力特征;
对所述第一注意力特征与所述第二注意力特征进行所述融合操作,得到第二融合特征;
所述对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征,包括:
对所述第一特征与所述第二融合特征进行所述融合操作,得到第一融合特征;
所述方法还包括:融合所述第一融合特征、所述第二融合特征与所述第二注意力特征,得到所述图像的第二目标融合特征。
在其中一个实施例中,所述对所述第一注意力特征与所述第二注意力特征进行所述融合操作,得到第二融合特征,包括:
拼接所述第一注意力特征和所述第二注意力特征,得到注意力拼接特征;
对所述注意力拼接特征进行全局池化,基于所述注意力拼接特征和全局池化后的所述注意力拼接特征生成注意力通道特征;
对所述注意力拼接特征进行均值池化,根据所述注意力拼接特征和均值池化后的所述注意力拼接特征生成注意力空间特征;
根据所述注意力通道特征和所述注意力空间特征,生成第二融合特征。
第二方面,本申请还提供了一种图像特征提取装置。所述装置包括:
特征提取模块,用于从图像中提取所述图像在不同尺度下的第一特征和第二特征;
注意力计算模块,用于对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;
第一融合模块,用于对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征;
第二融合模块,用于融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任意实施例中多尺度特征融合的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意实施例中多尺度特征融合的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任意实施例中多尺度特征融合的步骤。
上述图像特征提取方法、装置、计算机设备、存储介质和计算机程序产品,从图像中提取所述图像在不同尺度的第一特征和第二特征;对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;将不同尺度的第一特征和第二特征融合的过程中,按照通道注意力和空间注意力筛选第一特征和第二特征所包含的特征,更准确地选择图像中的特征进行融合;再对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征,实现第一特征增强;再对所述第一融合特征与所述第一注意力特征进行所述融合操作,得到所述图像的第一目标融合特征。由此,通过不同阶段分别执行通道注意力和空间注意力的特征融合操作,以充分提取特征,实现特征增强,提高了特征提取的准确度,从而进一步提高了目标检测的准确率。
附图说明
图1为一个实施例中图像特征提取方法的应用环境图;
图2为一个实施例中图像特征提取方法的流程示意图;
图3为一个实施例中第一特征和第二特征融合的流程示意图;
图4为另一个实施例中通道特征和空间特征融合的流程示意图;
图5为一个实施例中多尺度特征融合的流程示意图;
图6为一个实施例中多尺度特征融合的流程示意图;
图7为一个实施例中图像特征提取装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图像特征提取方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。
其中,终端102可以但不限于是各种摄像机、全景相机、运动相机、个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本方案可以基于终端102实现,也可以基于服务器104实现,还可以是通过终端102与服务器104的交互而实现。
在一个实施例中,如图2所示,提供了一种图像特征提取方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,从图像中提取该图像在不同尺度下的第一特征和第二特征。
本方案中的图像,可以泛指输入到服务器的原始图像,也可以是原始图像进行某些处理所得到的图像。示例性地,本方案的图像可以是原始图像或者原始图像经图像处理(比如拼接、降噪、分割、增强等)后的图像,对图像在不同尺度下进行特征提取,就是将图像进行缩放,得到不同尺度的图像后再进行特征提取,得到不同尺度下的第一特征和第二特征。
第一特征和第二特征是图像在不同尺度下的特征,不同尺度的特征是针对特征图依次进行采样所得到的,其中,各尺度的图像特征可以是图像灰度、直方图、梯度、边缘、纹理、矩、SIFT特征点及深度学习特征中的一种或多种特征,也可以是其他特征。第一特征和第二特征分别从不同尺度表征同一图像中的内容,第一特征和第二特征可以是在相应尺度下的特征集合,特征集合包括至少一个特征。示例性地,第一特征是图像在13*13这一尺度下的特征集合,而第二特征是图像在26*26这一尺度下的特征集合。
在一个实施例中,从图像中提取该图像在不同尺度下的第一特征和第二特征,包括:将图像输入到预设神经网络模型中,在不同采样率下对图像进行下采样;然后从预设采样率采集的图像中分别提取第一特征和第二特征。
对于按照不同采样率对图像进行下采样的过程,其可以是按照采样率递增而逐级采集的。示例性地,当采样率为8时,对416×416的图像进行下采样后,得到该图像在52×52这一尺度的特征;当采样率为16时,对416×416的图像进行下采样后,得到该图像在26×26这一尺度的特征;当采样率为32时,对416×416的图像进行下采样后,得到该图像在13×13这一尺度的特征;而这三个尺度的特征中的任意两个尺度的特征可分别作为第一特征和第二特征。
在一个实施例中,控制该神经网络模型按照不同采样率对图像进行下采样,包括:按照递增的采样率分别对图像进行采样,得到各采样率对应的图像;其中,各采样率对应的图像是各尺度的图像,各尺度的图像分别在各自尺度下有不同的特征。
步骤204,对第一特征和第二特征进行融合操作,得到第一注意力特征;融合操作包括通道注意力和空间注意力的特征融合操作。
在一个实施例中,对第一特征和第二特征进行融合操作,是针对通道注意力和空间注意力的特征进行融合操作。通道注意力的特征是通道特征,而空间注意力的特征称为空间特征,通道特征和空间特征分别从不同维度表征注意力。示例性地,通道特征是通过Squeeze操作将空间维度进行特征压缩,使得每个二维的特征图变成一个实数;其是在特征通道数不变的情况下,进行全局感受野的池化操作所得到的。而空间特征主要聚焦于输入图像在哪个区域的信息更为有效。在生成空间特征的过程中,每次池化时对比的是不同通道之间的数值,而非同一个通道不同区域的数值。
在一个实施例中,第一注意力特征是基于第一通道特征和第一空间特征进行融合所得到的特征。基于第一通道特征和第一空间特征进行融合的过程,是按照第一通道特征和第一空间特征这两个维度融合第一特征的集合和第二特征的集合,以得到第一注意力特征;第一注意力特征用于实现特征增强,保障特征识别的准确率。本实施例中,第一注意力特征是第二特征进行特征增强处理所得到的特征。
在一个实施例中,如图3所示。对第一特征和第二特征进行融合操作,得到第一注意力特征,包括:拼接第一特征和第二特征,得到第一拼接特征;对第一拼接特征进行全局池化,基于第一拼接特征和全局池化后的第一拼接特征生成第一通道特征;对第一拼接特征进行均值池化,根据第一拼接特征和均值池化后的第一拼接特征生成第一空间特征;根据第一通道特征和第一空间特征,生成第一注意力特征。
第一拼接特征是第一特征和第二特征按照预设参数进行拼接所得到的特征,第一拼接特征是用于生成第一注意力特征的特征集合。第一拼接特征是第一特征和第二特征进行拼接所得到的。在拼接过程中,将第一特征与第二特征的通道维度调整一致,并在通道维度拼接第一特征与第二特征。
在一个实施例中,拼接第一特征和第二特征之前,该方法还包括:确定用于通道数量转换的卷积核;将第一特征和第二特征中的至少一种特征采用该卷积核进行通道数量和尺度的转换,使得转换后的第一特征与第二特征具有相适应的通道数量与尺度;以对转换后的第一特征与第二特征进行拼接。示例性地,相适应的通道数量可以是指第一特征与第二特征的通道数量相同或其他可拼接的状态,相适应的尺度可以是指第一特征与第二特征的尺度相同或其他可拼接的状态。
在一个实施例中,拼接第一特征和第二特征,包括:按照位置、特征点等方式确定匹配的第一特征和第二特征,组合匹配的第一特征和第二特征。可选地,当第一特征和第二特征的通道数量与尺度均是相适应时;按照各个卷积通道,分别拼接第一特征和第二特征。示例性地,在第一特征和第二特征的通道数量和规格均一致时,拼接同一通道中的第一特征与第二特征。
第一通道特征用于表征第一拼接特征在各卷积通道的注意力,其是对分布于各通道的特征进行选择并融合所得到的特征。其中,第一通道特征可以是根据图像在各颜色通道的信息确定的特征,第一通道特征也可以是通过神经网络进行卷积后得到的特征的卷积通道数。
第一空间特征用于表征第一拼接特征在空间分布的注意力程度,其是对分布于空间内的局部特征进行选择并融合所得到的特征。其中,局部特征是在某卷积核的感受野内的特征;示例性地,在使用5×5的卷积核进行单层卷积时,感受野是5×5的大小,而各感受野范围的特征信息是各个局部特征,将各个局部特征按照相应的权重进行融合,得到第一空间特征。
对第一拼接特征进行全局池化,能够保持第一拼接特征在卷积通道的信息不变,并将第一拼接特征转换到各个通道的维度,以在每个通道的维度计算第一拼接特征在各卷积通道的注意力。对第一拼接特征进行均值池化,是保持第一拼接特征在各通道形成的空间的信息不变,并将第一拼接特征转换到局部空间维度,以在各局部空间维度确定第一拼接特征在空间各区域的注意力。
示例性地,如图4所示,当图片的尺寸为W×H,调整后的第一特征与第二特征的尺度均为W×H×Co,则全局池化后的第一拼接特征的尺度为1×1×(2·Co),其中,2Co表示第一拼接特征的通道数;而均值池化后的第一拼接特征是W×H×1,其中,W×H表示空间,是二维序列。
在一个实施例中,基于全局池化后的第一拼接特征生成各卷积通道的特征分布,包括:基于全局池化后的第一拼接特征生成各卷积通道的特征分布;根据各卷积通道的特征分布,生成各卷积通道的权重;基于各卷积通道的权重与第一拼接特征生成第一通道特征。
由于全局化后的第一拼接特征是在保持卷积通道不变的情况下,将第一拼接特征转换到各个通道的维度中;因而对全局池化后的第一拼接特征进行特征提取,可以得到各卷积通道的特征分布。
在一个实施例中,根据各卷积通道的特征分布,生成各卷积通道的权重,包括:通过激活函数计算各卷积通道的特征分布,得到生成各卷积通道的权重。其中,激活函数可以是Sigmoid函数等激活函数。可选地,在生成各卷积通道的权重后,还可按照第一拼接特征的通道数量进行调整,以使得各卷积通道的权重能够更便捷地与第一拼接特征组合,以通过组合所得的第一通道特征表征通道注意力。在一个实施例中,为了更充分地挖掘第一拼接特征在各卷积通道的信息,对各卷积通道的特征分布再次进行特征提取后,基于各卷积通道的特征分布所提取特征,通过激活函数,对各卷积通道的特征分布进行计算,以更准确地得到各卷积通道的权重。
在一个实施例中,基于各卷积通道的权重与第一拼接特征生成第一通道特征,包括:基于各卷积通道的权重,对第一拼接特征在各卷积通道进行权重调整,得到第一通道特征;第一通道特征是用于表征通道注意力的特征。
先通过特征分布生成各卷积通道的权重,再基于各卷积通道的权重与第一拼接特征生成第一通道特征,使得第一拼接特征中的各部分特征按照该权重进行分配到各个通道中,生成用于表征通道注意力的第一通道特征,以使特征增强的效果提升,以使特征在识别过程的准确率得以提升。
在一个实施例中,根据第一拼接特征和均值池化后的第一拼接特征生成第一空间特征,包括:根据均值池化后的第一拼接特征,生成多个局部特征的分布;根据各局部特征的分布计算局部特征的权重;根据局部特征的权重与第一拼接特征生成第一空间特征。
在一个实施例中,根据第一通道特征和第一空间特征,生成第一注意力特征,包括:对第一通道特征和第一空间特征进行特征求和处理,得到第一注意力特征。
根据各局部特征的分布生成各局部特征的权重,再根据各局部特征的权重与拼接特征生成第一空间特征,使得拼接特征的在空间上各区域的特征按照该权重进行分配;组合进行分配的局部特征,得到用于表征空间注意力的第一空间特征。由此,特征增强的效果提升,以使特征在识别过程的准确率得以提升。
步骤206,对第一注意力特征与第一特征进行融合操作,得到第一融合特征。
第一融合特征是按照第一注意力特征,选择性地增强第一特征,进而所得到的特征。第一融合特征能够选择性地提取相应的特征信息,以将选择到的信息传递出来,且通用性较高。示例性地,在第一特征和第二特征融合过程中,第一注意力特征与第一特征进行融合后,直接得到第一融合特征。
在一个实施例中,对第一注意力特征与第一特征进行融合操作,包括:拼接第一注意力特征和第一特征,得到第二拼接特征;对第二拼接特征进行全局池化,基于第二拼接特征和全局池化后的第二拼接特征生成第二通道特征;对第二拼接特征进行均值池化,根据第二拼接特征和均值池化后的第二拼接特征生成第二空间特征;根据第二通道特征和第二空间特征,生成第一融合特征。
第二拼接特征是第一注意力特征和第一特征按照预设参数进行拼接所得到的特征。第二拼接特征是第一注意力特征和第一特征进行拼接是使得第一注意力特征与第一特征的通道维度一致,并在通道维度拼接第一注意力特征与第一特征进行拼接所得到的。其中,第二通道特征是第二拼接特征的通道特征,第二空间特征是第二拼接特征的空间特征。
在一个实施例中,拼接第一注意力特征和第一特征之前,该方法还包括:确定用于通道数量转换的卷积核,将第一注意力特征和第一特征中的至少一种特征采用该卷积核进行通道数量与尺度的转换,使得转换后的第一注意力特征与第一特征具有相适应的通道数量与尺度;以对转换后的第一注意力特征与第一特征进行拼接。示例性地,相适应的通道数量可以是指第一注意力特征与第一特征的通道数量相同或其他可拼接的状态,相适应的尺度可以是指第一注意力特征与第一特征的尺度相同或其他可拼接的状态。
在一个实施例中,拼接第一注意力特征和第一特征,包括:当第一注意力特征和第一特征的通道数量与尺度均是相适应时;按照各个卷积通道,分别拼接第一注意力特征和第一特征。示例性地,在第一注意力特征和第一特征的通道数量和规格均一致时,分别拼接同一通道中的第一注意力特征和第一特征。
在一个可选的实施例中,拼接第一注意力特征和第一特征,包括:通过采样的方式,将第一注意力特征和第一特征的尺度调节一致,得到相同尺度的第一注意力特征和第一特征;在相同尺度下,将第一注意力特征的卷积通道和第一特征的卷积通道进行组合。在一个可能的实施例中,将第一注意力特征的卷积通道和第一特征的卷积通道进行组合,包括:分别确定卷积通道在第一注意力特征和第一特征中的坐标位置,按照卷积通道在第一注意力特征和第一特征中的坐标位置进行组合。在一个可能的实施例中,在第一注意力特征和第一特征的卷积通道数量进行调整后,二者卷积通道数量均为C0,而第一注意力特征和第一特征进行拼接后,所得的第二拼接特征的卷积通道数量为2C0
对第二拼接特征进行全局池化,能够保持第二拼接特征在卷积通道的信息不变,并将第二拼接特征转换到各个通道的维度,以在每个通道的维度计算第二拼接特征在各卷积通道的注意力。对第二拼接特征进行均值池化,是保持第二拼接特征在各通道形成的空间的信息不变,并将第二拼接特征转换到局部空间维度,以在局部空间维度确定第二拼接特征在空间的各区域的注意力。
在一个实施例中,拼接第一特征和第一注意力特征,包括:当第一特征和第一注意力特征的通道数量与尺度均是相适应时;按照各个卷积通道,分别拼接第一特征和第一注意力特征。
在一个实施例中,基于第二拼接特征和全局池化后的第二拼接特征生成第二通道特征,包括:基于全局池化后的第二拼接特征生成各卷积通道的特征分布;根据各卷积通道的特征分布,生成各卷积通道的权重;基于各卷积通道的权重与第二拼接特征生成第二通道特征。
在一个实施例中,根据第二拼接特征和均值池化后的第二拼接特征生成第二空间特征,包括:根据均值池化后的第二拼接特征,生成多个局部特征的分布;根据各局部特征的分布计算局部特征的权重;根据局部特征的权重与第二拼接特征生成第二空间特征。
在一个实施例中,根据第二通道特征和第二空间特征,生成第一融合特征,包括:对第二通道特征和第二空间特征进行特征求和处理,得到第一融合特征。
由此,通过第二通道特征和第二空间特征逐步增强特征,得到第一融合特征;特征增强的效果提升,以使特征在识别过程的准确率得以提升。
步骤208,融合第一融合特征与第一注意力特征,得到上述图像的第一目标融合特征。
在一个实施例中,融合第一融合特征与第一注意力特征,得到上述图像的第一目标融合特征,可以是直接对第一融合特征与第一注意力特征进行拼接,再将拼接所得的第一目标融合特征输出。其中,第一融合特征是增强的第一特征,第一注意力特征是增强的第二特征。
在一个实施例中,融合第一融合特征与第一注意力特征,得到上述图像的第一目标融合特征,包括:拼接第一融合特征和第一注意力特征,得到第三拼接特征;对第三拼接特征进行全局池化,基于第三拼接特征和全局池化后的第三拼接特征生成第三通道特征;对第三拼接特征进行均值池化,根据第三拼接特征和均值池化后的第三拼接特征生成第三空间特征;根据第三通道特征和第三空间特征,生成上述图像的第一目标融合特征。
第三拼接特征是第一融合特征和第一注意力特征按照某些参数进行拼接所得到的特征。第三拼接特征是第一融合特征和第一注意力特征进行拼接是使得第一融合特征与第一注意力特征的通道维度一致,并在通道维度拼接第一融合特征与第一注意力特征进行拼接所得到的。其中,第三通道特征是第三拼接特征的通道特征,第三空间特征是第三拼接特征的空间特征。
在一个实施例中,拼接第一融合特征和第一注意力特征之前,该方法还包括:确定用于通道数量转换的卷积核,将第一融合特征和第一注意力特征分别按照中的至少一种特征按照卷积核转换通道数量与尺度,使得转换后的第一融合特征与第一注意力特征具有相适应的通道数量与尺度;以对转换后的第一融合特征与第一注意力特征进行拼接。示例性地,相适应的通道数量可以是指第一融合特征与第一注意力特征的通道数量相同或其他可拼接的状态,相适应的尺度可以是指第一融合特征与第一注意力特征的尺度相同或其他可拼接的状态。
在一个实施例中,拼接第一融合特征和第一注意力特征,包括:当第一融合特征和第一注意力特征的通道数量与尺度均是相适应时;按照各个卷积通道,分别拼接第一融合特征和第一注意力特征。
在一个可选的实施例中,拼接第一融合特征和第一注意力特征,包括:通过采样的方式,将第一融合特征和第一注意力特征的尺度调节一致,得到相同尺度的第一融合特征和第一注意力特征;在相同尺度下,将第一融合特征的卷积通道和第一注意力特征的卷积通道进行组合。在一个可能的实施例中,将第一融合特征的卷积通道和第一注意力特征的卷积通道进行组合,包括:分别确定卷积通道在第一融合特征和第一注意力特征中的坐标位置,按照卷积通道在第一融合特征和第一注意力特征中的坐标位置进行组合。在一个可能的实施例中,在第一融合特征和第一注意力特征的卷积通道数量进行调整后,二者卷积通道数量均为C0,而第一融合特征和第一注意力特征进行拼接后,所得的第一目标融合特征的卷积通道数量为2C0
对第三拼接特征进行全局池化,能够保持第三拼接特征在卷积通道的信息不变,并将第三拼接特征转换到各个通道的维度,以在每个通道的维度计算第三拼接特征在各卷积通道的注意力。对第三拼接特征进行均值池化,是保持第三拼接特征在各通道形成的空间的信息不变,并将第三拼接特征转换到局部空间维度,以在局部空间维度确定第三拼接特征在空间的各区域的注意力。
在一个实施例中,拼接第一注意力特征和第一融合特征,包括:当第一注意力特征和第一融合特征的通道数量与尺度均是相适应时;按照各个卷积通道,分别拼接第一注意力特征和第一融合特征。
在一个实施例中,基于全局池化后的第三拼接特征生成各卷积通道的特征分布,包括:基于全局池化后的第三拼接特征生成各卷积通道的特征分布;根据各卷积通道的特征分布,生成各卷积通道的权重;基于各卷积通道的权重与第三拼接特征生成第三通道特征。
在一个实施例中,根据第三拼接特征和均值池化后的第三拼接特征生成第三空间特征,包括:根据均值池化后的第三拼接特征,生成多个局部特征的分布;根据各局部特征的分布计算局部特征的权重;根据局部特征的权重与第三拼接特征生成第三空间特征。
在一个实施例中,根据第三通道特征和第三空间特征,生成图像的第一目标融合特征,包括:对第三通道特征和第三空间特征进行特征求和处理,得到所述图像的第一目标融合特征;第一目标融合特征是不同尺度的第一特征和第二特征融合最终所得到的特征。
由此,通过第二通道特征和第二空间特征逐步增强特征,得到第一融合特征;特征增强的效果提升,以使特征在识别过程的准确率得以提升。在第一目标融合特征的过程涉及多尺度的特征融合,相对于直接使用多尺度分别进行检测的方案,本案的效率更高。
上述图像特征提取方法中,从图像中提取图像在不同尺度的第一特征和第二特征;对第一特征和第二特征进行融合操作,得到第一注意力特征,第一注意力特征是在第一特征与第二特征融合过程中,第二特征进行特征增强处理所得到的特征;融合操作包括通道注意力和空间注意力的特征融合操作;将不同尺度的第一特征和第二特征融合的过程中,按照通道注意力和空间注意力筛选第一特征和第二特征所包含的特征,更准确地选择图像中的特征进行融合;再对第一注意力特征与第一特征进行融合操作,得到第一融合特征,实现第一特征增强;再融合第一融合特征与第一注意力特征,得到所述图像的第一目标融合特征。由此,通过不同阶段分别执行通道注意力和空间注意力的特征融合操作,以充分提取特征,实现特征增强,提高了特征提取的准确度,从而进一步提高了目标检测的准确率。
此外,对第一目标融合特征进行目标预测时,在单尺度预测上实现与多尺度预测目标检测相近的性能,兼顾了检测器的检测速度与检测性能降低目标检测器的计算复杂度,让目标检测模型在移动端部署时能够实现实时的推理与准确的检测。
在一个实施例中,如图5与图6所示,提供了一种图像特征提取方法,以该方法应用于图1中的服务器104为例进行说明,该方法还包括以下步骤:
步骤502,从图像中提取该图像在不同尺度下的第一特征和第二特征,并从该图像中提取第三特征;第三特征的尺度不同于第一特征和第二特征的尺度。
第一特征、第二特征、第三特征均是不同尺度的特征,从图像中提取第三特征的方式,与图像中提取不同尺度的第一特征和第二特征的方式是相同的。示例性地,当采样率为8时,对416×416的图像进行下采样后,得到该图像在52×52这一尺度的特征,即第三特征;当采样率为16时,对416×416的图像进行下采样后,得到该图像在26×26这一尺度的特征,即第二特征;当采样率为32时,对416×416的图像进行下采样后,得到该图像在13×13这一尺度的特征,即第一特征。
在一个实施例中,通过目标检测模型说明本方案的特征提取过程,假设目标检测模型的输入图片尺寸为W×H。经过任意主干网络进行特征提取后,获得最后下采样率分别为8,16,32的主干特征输出分别为,第三特征P3、第二特征P4、第一特征P5。因此,对于第三特征P3,其大小为
Figure BDA0004001193720000131
C1表示第三特征的特征层具有的特征通道数量。同样的,第二特征P4,其大小为
Figure BDA0004001193720000132
C2表示第二特征的特征层具有的特征通道数量;第一特征P5大小为
Figure BDA0004001193720000133
C3表示第一特征的特征层具有的特征通道数量。
步骤504,对第一特征和第二特征进行融合操作,得到第一注意力特征;融合操作包括通道注意力和空间注意力的特征融合操作。
步骤502-步骤504与步骤202-204的实施例是相近的。为了更清楚地说明本实施例的方案,结合较为具体的公式进行说明本方案的执行过程。
对第一特征和第二特征进行融合操作,得到第一注意力特征,包括:拼接第一特征和第二特征,得到第一拼接特征;对第一拼接特征进行全局池化,基于第一拼接特征和全局池化后的第一拼接特征生成第一通道特征;对第一拼接特征进行均值池化,根据第一拼接特征和均值池化后的第一拼接特征生成第一空间特征;根据第一通道特征和第一空间特征,生成第一注意力特征。
在一个实施例中,拼接第一特征和第二特征之前,该方法还包括:确定用于通道数量转换的卷积核;将第一特征和第二特征中的至少一种特征按照该卷积核转换通道数量与尺度,使得转换后的第一特征与第二特征具有相适应的通道数量与尺度;以对转换后的第一特征与第二特征进行拼接。示例性地,相适应的通道数量可以是指第一特征与第二特征的通道数量相同或其他可拼接的状态,相适应的尺度可以是指第一特征与第二特征的尺度相同或其他可拼接的状态。
在一个实施例中,将第一特征和第二特征中的至少一种特征按照该卷积核转换通道数量与尺度这一过程,通过公式进行描述:对于第一特征P5,通过卷积核大小为1×1,通道数量为Co的卷积层变换为P5′,并通过上采样将特征尺寸缩放为
Figure BDA0004001193720000141
即P5′的特征大小为
Figure BDA0004001193720000142
对于第二特征P4,通过卷积核大小为1×1,通道数量为Co的卷积层变换为P4′,即P4′的特征大小为
Figure BDA0004001193720000143
在一个实施例中,拼接第一特征和第二特征,得到第一拼接特征,包括:对转换后的第一特征P4′与转换后的第二特征P5′进行按通道维度拼接,形成第一拼接特征Po1,特征大小为
Figure BDA0004001193720000144
在一个实施例中,对生成第一通道特征、第二通道特征及第三通道特征等通道特征的过程进行阐述。生成通道特征的过程可以称为融合操作Fm的通道融合分支。首先,对第一拼接特征Po1进行全局池化,形成全局池化后的第一拼接特征Po1′,Po1′的特征大小为1×1×2·Co,并处理为1×(2·Co)的,其全连接层Fc1,通道数量为Co,定义全连接层Fc2,通道数量为2·Co,则通道融合分支的表达式如下:
Z1=Po1×Sigmoid(Fc2(ReLU(Fc1(P′o1))));
其中,Fc1(P′o1)是通过特征提取,计算各卷积通道层的分布;ReLU(Fc1(P′o1))是对各卷积通道层的权重进行特征激活;Fc2(·)用于再次进行特征提取,充分实现第一拼接特征的通道注意力分配;Sigmoid(Fc2(ReLU(Fc1(P′o1))))用于确定各卷积通道的权重;Z1是按照各卷积通道的权重进行重新分配的特征,即通道特征。
在一个实施例中,对生成第一空间特征、第二空间特征及第三空间特征等空间特征的过程进行阐述。生成空间特征的过程可以称为融合操作Fm的空间融合分支;对第一拼接特征Po1进行均值池化,形成均值池化后的第一拼接特征Po1”,Po1”特征大小为
Figure BDA0004001193720000151
定义卷积层Fc3,卷积核为5×5,通道数量为1,则空间融合分支的表达式如下:
Z2=Po1×Sigmoid(Fc3(Po 1”));
其中,Fc3(Po1”)是通过特征提取,计算出的多个局部特征的分布;Sigmoid(Fc3(P″o1))用于确定各局部特征的权重,Z2是进行各局部特征的权重进行重新分配的特征,即空间特征。
在一个实施例中,对第一注意力特征生成的过程进行描述。对通道特征Z1与空间特征Z2按值求和,得到两个维度的组合特征;将两个维度的组合特征按照卷积核大小为1×1,通道数为Co的卷积层进行特征提取;并将提取的结果采用ReLU函数进行运算,形成第一注意力特征Po2,特征大小为
Figure BDA0004001193720000152
需要了解的是,在第一特征与第二特征融合的过程中,第一注意力特征是第二特征进行特征增强处理所得到的特征;在第一特征、第二特征与第三特征融合的过程中,第一注意力特征用于配合第三特征生成第二注意力特征,而第一注意力特征与第三注意力特征融合所得到的特征是第二特征进行增强所得到的特征。
步骤506,对第三特征与第一注意力特征进行融合操作,得到第二注意力特征。
在一个实施例中,对第三特征与第一注意力特征进行融合操作之前,还包括:若第一注意力特征和第三特征的通道维度不同,对第一注意力特征和第三特征进行维度调整。
第一注意力特征与第三特征的过程进行融合操作的过程,包括:拼接第一注意力特征和第三特征,得到第四拼接特征;对第四拼接特征进行全局池化,基于第四拼接特征和全局池化后的第四拼接特征生成第四通道特征;对第四拼接特征进行均值池化,根据第四拼接特征和均值池化后的第四拼接特征生成第四空间特征;根据第四通道特征和第四空间特征,生成第二注意力特征。第二注意力特征是对第三特征进行特征增强后的特征。其中,第四通道特征是第四拼接特征的通道特征,第四空间特征是第四拼接特征的空间特征。
示例性地,当第一特征是采样率为32进行特征提取所得到的特征P5,第二特征是采样率为16进行特征提取所得到的特征P4,第三特征是采样率为8进行特征提取所得到的特征P3;则对第一注意力特征Po2进行上采样,得到上采样的第一注意力特征Po2′,其特征大小为
Figure BDA0004001193720000153
相对应的,对于P3,通过卷积核大小为1×1,通道数量为Co的卷积层变换为P3′,P3′的特征大小为
Figure BDA0004001193720000154
而对P3′与第一注意力特征Po2′进行融合操作,最终输出第二注意力特征Po3,特征大小为
Figure BDA0004001193720000161
在一个实施例中,按照步骤502、步骤504、步骤506依次处理第一特征、第二特征及第三特征的过程,是特征增强的向下聚合通道,生成对第三特征增强所得到的第二注意力特征;而步骤508是特征增强的向上聚合通道,通过向下聚合通道所生成的数据,生成第二特征进行特征增强后的第二融合特征,以及第一特征进行特征增强后的第一融合特征。
步骤508,对第一注意力特征与第二注意力特征进行融合操作,得到第二融合特征;相对应的,步骤206包括:对第一特征与第二融合特征进行融合操作,得到第一融合特征。
在第一特征和第二特征融合过程中,第一注意力特征与第一特征进行融合后,直接得到在两个尺度进行特征时的第一融合特征;在第一特征、第二特征及第三特征的融合过程中,第一注意力特征还需要与第二注意力特征融合生成第二融合特征,在通过对第二融合特征与第一特征按照空间注意力和通道注意力的特征通道进行拼接,以得到在多个尺度进行特征融合的第一融合特征。
在一个实施例中,对第一注意力特征与第二注意力特征进行融合操作,得到第二融合特征,包括:拼接第一注意力特征和第二注意力特征,得到注意力拼接特征;对注意力拼接特征进行全局池化,基于注意力拼接特征和全局池化后的注意力拼接特征生成注意力通道特征;对注意力拼接特征进行均值池化,根据注意力拼接特征和均值池化后的注意力拼接特征生成注意力空间特征;根据注意力通道特征和注意力空间特征,生成第二融合特征。由此,特征增强的效果提升,以使特征在识别过程的准确率得以提升。
在一个可选的实施例中,拼接第一注意力特征和第二注意力特征,包括:通过采样的方式,将第一注意力特征和第二注意力特征的尺度调节一致,得到相同尺度的第一注意力特征和第二注意力特征;在相同尺度下,将第一注意力特征的卷积通道和第二注意力特征的卷积通道进行组合。在一个可能的实施例中,将第一注意力特征的卷积通道和第二注意力特征的卷积通道进行组合,包括:分别确定卷积通道在第一注意力特征和第二注意力特征中的坐标位置,按照卷积通道在第一注意力特征和第二注意力特征中的坐标位置进行组合。在一个可能的实施例中,在第一注意力特征和第二注意力特征的卷积通道数量进行调整后,二者卷积通道数量均为C0,而第一注意力特征和第二注意力特征进行拼接后,所得的注意力拼接特征的卷积通道数量为2C0
在一个实施例中,对第一注意力特征和第二注意力特征进行融合操作,得到第二融合特征,包括:拼接第一注意力特征和第二注意力特征,得到注意力拼接特征;对注意力拼接特征进行全局池化,基于注意力拼接特征和全局池化后的注意力拼接特征生成注意力通道特征;对注意力拼接特征进行均值池化,根据注意力拼接特征和均值池化后的注意力拼接特征生成注意力空间特征;根据注意力通道特征和注意力空间特征,生成第二融合特征。
注意力拼接特征是第一注意力特征和第二注意力特征按照某些参数进行拼接所得到的特征。注意力拼接特征是第一注意力特征和第二注意力特征进行拼接是使得第一注意力特征与第二注意力特征的通道维度一致,并在通道维度拼接第一注意力特征与第二注意力特征进行拼接所得到的。
在一个实施例中,拼接第一注意力特征和第二注意力特征之前,该方法还包括:确定用于通道数量转换的卷积核;将第一注意力特征和第二注意力特征中的至少一种特征按照该卷积核转换通道数量与尺度,使得转换后的第一注意力特征与第二注意力特征具有相适应的通道数量与尺度;以对转换后的第一注意力特征与第二注意力特征进行拼接。示例性地,相适应的通道数量可以是指第一注意力特征与第二注意力特征的通道数量相同或其他可拼接的状态,相适应的尺度可以是指第一注意力特征与第二注意力特征的尺度相同或其他可拼接的状态。
示例性地,第二注意力特征Po3通过1x1卷积进行上采样后,上采样的第二注意力特征Po3
与Po2通过1×1卷积的输出结果,进行融合操作Fm,输出Po2;Po2′通过上采样后与P5′通过1×1卷积的输出进行融合操作Fm,输出第一融合特征P5″。
在一个实施例中,拼接第一注意力特征和第二注意力特征,包括:当第一注意力特征和第二注意力特征的通道数量与尺度均是相适应时;按照各个卷积通道,分别拼接第一注意力特征和第二注意力特征。
注意力通道特征用于表征注意力拼接特征在各卷积通道的注意力,其是对分布于各通道的特征进行选择并融合所得到的特征。其中,注意力通道特征可以是根据图像在各颜色通道的信息确定的特征,注意力通道特征也可以是通过神经网络进行卷积后的特征的卷积通道数。
注意力空间特征用于表征注意力拼接特征在空间分布的注意力程度,其是对分布于注意力拼接特征空间内的局部特征进行选择并融合所得到的特征。其中,注意力拼接特征空间内的局部特征是在某卷积核的感受野内的特征;示例性地,在使用5x5的卷积核进行单层卷积时,感受野是5x5的大小,而局部特征就是按照这一感受野范围的特征信息,而各局部特征按照相应的权重进行融合后,能够得到注意力空间特征。
对注意力拼接特征进行全局池化,能够保持注意力拼接特征在卷积通道的信息不变,并将注意力拼接特征转换到各个通道的维度,以在每个通道的维度计算注意力拼接特征在各卷积通道的注意力。对注意力拼接特征进行均值池化,是保持注意力拼接特征在各通道形成的空间的信息不变,并将注意力拼接特征转换到局部空间维度,以在局部空间维度确定注意力拼接特征在空间的各区域的注意力。
在一个实施例中,基于全局池化后的注意力拼接特征生成各卷积通道的特征分布,包括:基于全局池化后的注意力拼接特征生成各卷积通道的特征分布;根据各卷积通道的特征分布,生成各卷积通道的权重;基于各卷积通道的权重与注意力拼接特征生成注意力通道特征。
由于全局化后的注意力拼接特征是在保持卷积通道不变的情况下,将注意力拼接特征转换到各个通道的维度中;因而对全局池化后的注意力拼接特征进行特征提取,可以得到卷积通道的特征分布。
在一个实施例中,根据各卷积通道的特征分布,生成各卷积通道的权重,包括:通过激活函数计算各卷积通道的特征分布,得到生成各卷积通道的权重。其中,激活函数可以是Sigmoid函数、ReLu函数等激活函数。可选地,在生成各卷积通道的权重后,还可按照注意力拼接特征的通道数量进行调整,以使得各卷积通道的权重能够更便捷地与注意力拼接特征组合,以通过组合所得的注意力通道特征表征通道注意力。在一个实施例中,为了更充分地挖掘注意力拼接特征在各卷积通道的信息,对各卷积通道的特征分布再次进行特征提取后,基于各卷积通道的特征分布所提取特征,通过激活函数,对各卷积通道的特征分布进行计算,以更准确地得到各卷积通道的权重。
在一个实施例中,基于各卷积通道的权重与注意力拼接特征生成注意力通道特征,包括:基于各卷积通道的权重,对注意力拼接特征在各卷积通道进行权重调整,得到注意力通道特征;注意力通道特征是用于表征通道注意力的特征。
先通过特征分布生成各卷积通道的权重,再基于各卷积通道的权重与注意力拼接特征生成注意力通道特征,使得注意力拼接特征中的各部分特征按照该权重进行分配到各个通道中,生成用于表征通道注意力的注意力通道特征,以使特征增强的效果提升,以使特征在识别过程的准确率得以提升。
在一个实施例中,根据注意力拼接特征和均值池化后的注意力拼接特征生成注意力空间特征,包括:根据均值池化后的注意力拼接特征,生成注意力拼接特征空间内的多个局部特征的分布;根据注意力拼接特征空间内的各局部特征的分布计算注意力拼接特征空间内的局部特征的权重;根据注意力拼接特征空间内的局部特征的权重与注意力拼接特征生成注意力空间特征。
在一个实施例中,根据注意力通道特征和注意力空间特征,生成第二融合特征,包括:对注意力通道特征和注意力空间特征进行特征求和处理,得到第二融合特征。
根据注意力空间的各局部特征的分布生成注意力空间的各局部特征的权重,再根据注意力空间的各局部特征的权重与注意力拼接特征生成注意力空间特征,使得注意力拼接特征的在空间上各区域的特征按照该权重进行分配;组合进行分配的局部特征,得到用于表征空间注意力的注意力空间特征。由此,特征增强的效果提升,以使特征在识别过程的准确率得以提升。
在一个实施例中,在第一特征、第二特征、第三特征经过步骤502-步骤508之后,特征增强的向上聚合通道与特征增强的向下聚合通道,得到了不同尺度的增强特征。其中,第一融合特征是增强后的第一特征,第二融合特征是增强后的第二特征,第二注意力特征是增强后的第三特征。
步骤510,融合第一融合特征、第二融合特征与第二注意力特征,得到图像的第二目标融合特征。
第二目标融合特征是图像在第一特征、第二特征及第三特征这三个尺度的进行特征融合所得到的结果,通过不同的融合方式进行融合时,第二尺度特征可以是某次迭代的中间结果,也可以是最终融合所得到的特征。
在一个实施例中,第一融合特征、第二融合特征与第二注意力特征分别进行融合操作,其可以是再次进行通道注意力和空间注意力的融合操作,以循环计算第二目标融合特征,直至增强后的特征满足相应的需求;最终,再通过拼接等方式输出满足需求的第二目标融合特征。
示例性地,进行融合的三个尺度特征为第一融合特征Z5,第一融合特征对应的特征大小为
Figure BDA0004001193720000191
第二融合特征Z4,第二融合特征对应的特征大小为
Figure BDA0004001193720000192
第二注意力特征Z3,第二注意力特征对应的特征大小为
Figure BDA0004001193720000193
相对应的,对第一融合特征Z5进行上采样,对第二注意力特征Z3进行下采样,均形成特征大小为
Figure BDA0004001193720000194
与第二融合特征Z4进行按通道维度拼接形成特征大小为
Figure BDA0004001193720000201
的特征,并对该特征进行融合操作Fm,融合操作Fm包括通道注意力和空间注意力的特征融合,得到第二目标融合特征Zo。在得到第二目标融合特征之后,使用卷积核大小为3×3,通道数量为Co的卷积层进行特征提取;卷积层提取所得的特征采用ReLU函数进行激活,进而输出满足目标检测模型检测头的特征。
本实施例中,在多个尺度特征的融合过程中,将第一融合特征作为增强后的第一特征,将第二融合特征作为增强后的第二特征,将第二注意力特征作为增强后的第三特征,以按照相应的顺序实现多个尺度的特征增强,通道注意力的特征融合能够有效的对特征集合在各通道进行权重分配,空间注意力的特征融合则实现局部的空间注意力,增强了对目标的特征提取有效性,对不同尺度的增强后特征进行拼接。当使用输出的第二目标融合特征进行预测时,通过本方案的融合操作实现了多尺度特征的统一,减少了预测分支,使得检测模型更加轻量,而相对于没有融合操作的单尺度模型,在识别准确率上有了较大的提升。
在一个实施例中,通过目标检测任务这一应用场景,描述本方案的应用过程。
目标检测任务是计算机视觉的基础任务之一。随着深度学习的发展,目标检测的性能有了质的提升。当前的主流深度学习目标检测方法可以根据特征提取的不同划分为三个阶段:1、主干网络的特征提取阶段;2、特征金字塔式的特征融合/增强阶段;3、特征分类与回归的预测阶段。这三个阶段可以简称为Backbone,Neck,Head。Backbone提取底层特征、Neck增强特征、Head负责预测。本发明的主要改动点在于对Neck和Head阶段。因此主要说明Neck和Head的现有技术方案。最常使用的Neck部分为特征金字塔(简称为:FPN)及其各种改进版本,包括PAFPN,BiFPN,NAS_FPN等。多尺度的特征从Backbone获取后,经过Neck部分进行特征增强,最后由Head单独在每个尺度上进行预测。
然而,现有的特征金字塔配合多尺度预测头,使得目标检测具备较强的检测能力。然而多尺度的预测(特别是在大尺度层)对硬件的计算能力提出了较高的要求。随着移动设备部署需求的不断提升,要将检测模型部署在移动设备则需要采用缩小模型大小,模型压缩,减少预测尺度等辅助手段,降低模型的复杂度,才能在移动设备上实现实时的检测,然而这会导致检测性能的大幅下降。
现有的主流特征金字塔技术,在进行多层特征融合时,一般使用按位求和(element-wise),或是通过网络结构搜索出更优的路径连接,再进行不同尺度的按位求和操作。对不同尺度的特征按位求和操作简单,但缺少选择性的信息传递。而路径搜索则相对复杂,且并不保证路径的通用性。
因此,本发明从特征融合的操作角度出发,基于以步骤204-206的实施例,以及步骤阐述了步骤504-步骤508的实施例,分别阐述了通道注意力和局部空间注意力的特征融合操作过程,使得不同尺度的特征能够按照用户需求传递,提高特征传递的准确性。同时本发明的步骤208的实施例,以及步骤510的实施例利用融合操作将多尺度特征融合成单一尺度进行目标预测。本发明在单尺度预测上实现与多尺度预测目标检测相近的性能,兼顾了检测器的检测速度与检测性能降低目标检测器的计算复杂度,让目标检测模型在移动端部署时能够实现实时的推理与准确的检测。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像特征提取方法的图像特征提取装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像特征提取装置实施例中的具体限定可以参见上文中对于图像特征提取方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种图像特征提取装置,包括:特征提取模块702、注意力计算模块704、第一融合模块706和第二融合模块708,其中:
特征提取模块702,用于从图片中提取所述图像在不同尺度下的第一特征和第二特征;
注意力计算模块704,用于对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;
第一融合模块706,用于对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征;
第二融合模块708,用于融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征。
在其中一个实施例中,所述注意力计算模块704用于:
拼接所述第一特征和所述第二特征,得到第一拼接特征;
对所述第一拼接特征进行全局池化,基于所述第一拼接特征和全局池化后的所述第一拼接特征生成第一通道特征;
对所述第一拼接特征进行均值池化,根据所述第一拼接特征和均值池化后的所述第一拼接特征生成第一空间特征;
根据所述第一通道特征和所述第一空间特征,生成第一注意力特征。
在其中一个实施例中,所述注意力计算模块704用于:
基于全局池化后的所述第一拼接特征生成各卷积通道的特征分布;
根据所述各卷积通道的特征分布,计算各卷积通道的权重;
基于所述各卷积通道的权重与所述第一拼接特征生成第一通道特征。
在其中一个实施例中,所述注意力计算模块704用于:
根据均值池化后的所述第一拼接特征,生成多个局部特征的分布;
根据各所述局部特征的分布计算局部特征的权重;
根据所述局部特征的权重与所述第一拼接特征生成第一空间特征。
在其中一个实施例中,所述第一融合模块706用于:
拼接所述第一注意力特征和所述第一特征,得到第二拼接特征;
对所述第二拼接特征进行全局池化,基于所述第二拼接特征和全局池化后的所述第二拼接特征生成所述第二通道特征;
对所述第二拼接特征进行均值池化,根据所述第二拼接特征和均值池化后的所述第二拼接特征生成所述第二空间特征;
根据所述第二通道特征和所述第二空间特征,生成第一融合特征。
在其中一个实施例中,所述第二融合模块708用于:
拼接所述第一融合特征和所述第一注意力特征,得到第三拼接特征;
对所述第三拼接特征进行全局池化,基于所述第三拼接特征和全局池化后的所述第三拼接特征生成通道特征;
对所述第三拼接特征进行均值池化,根据所述第三拼接特征和均值池化后的所述第三拼接特征生成第三空间特征;
根据所述第三通道特征和第三空间特征,生成所述图像的第一目标融合特征。
在其中一个实施例中,特征提取模块702用于从所述图像中提取第三特征;所述第三特征的尺度不同于所述第一特征和所述第二特征的尺度;
注意力计算模块704,用于对所述第三特征与所述第一注意力特征进行所述融合操作,得到第二注意力特征;
第一融合模块706,用于对所述第一注意力特征与所述第二注意力特征进行所述融合操作,得到第二融合特征,以及,对所述第一特征与所述第二融合特征进行所述融合操作,得到第一融合特征;
第二融合模块708,用于融合所述第一融合特征、所述第二融合特征与所述第二注意力特征,得到所述图像的第二目标融合特征。
在其中一个实施例中,所述第一融合模块706,具体用于:
拼接所述第一注意力特征和所述第二注意力特征,得到注意力拼接特征;
对所述注意力拼接特征进行全局池化,基于所述注意力拼接特征和全局池化后的所述注意力拼接特征生成注意力通道特征;
对所述注意力拼接特征进行均值池化,根据所述注意力拼接特征和均值池化后的所述注意力拼接特征生成注意力空间特征;
根据所述注意力通道特征和所述注意力空间特征,生成第二融合特征。
上述图像特征提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储融合操作的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像特征提取方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种图像特征提取方法,其特征在于,所述方法包括:
从图像中提取所述图像在不同尺度下的第一特征和第二特征;
对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;
对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征;
融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征,包括:
拼接所述第一特征和所述第二特征,得到第一拼接特征;
对所述第一拼接特征进行全局池化,基于所述第一拼接特征和全局池化后的所述第一拼接特征生成第一通道特征;
对所述第一拼接特征进行均值池化,根据所述第一拼接特征和均值池化后的所述第一拼接特征生成第一空间特征;
根据所述第一通道特征和所述第一空间特征,生成第一注意力特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一拼接特征和全局池化后的所述第一拼接特征生成第一通道特征,包括:
基于全局池化后的所述第一拼接特征生成各卷积通道的特征分布;
根据所述各卷积通道的特征分布,计算各卷积通道的权重;
基于所述各卷积通道的权重与所述第一拼接特征生成所述第一通道特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一拼接特征和均值池化后的所述第一拼接特征生成空间特征,包括:
根据均值池化后的所述第一拼接特征,生成多个局部特征的分布;
根据各所述局部特征的分布计算局部特征的权重;
根据所述局部特征的权重与所述第一拼接特征生成空间特征。
5.根据权利要求1所述的方法,其特征在于,所述对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征,包括:
拼接所述第一注意力特征和所述第一特征,得到第二拼接特征;
对所述第二拼接特征进行全局池化,基于所述第二拼接特征和全局池化后的所述第二拼接特征生成第二通道特征;
对所述第二拼接特征进行均值池化,根据所述第二拼接特征和均值池化后的所述第二拼接特征生成第二空间特征;
根据所述第二通道特征和所述第二空间特征,生成第一融合特征。
6.根据权利要求1所述的方法,其特征在于,所述融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征,包括:
拼接所述第一融合特征和所述第一注意力特征,得到第三拼接特征;
对所述第三拼接特征进行全局池化,基于所述第三拼接特征和全局池化后的所述第三拼接特征生成第三通道特征;
对所述第三拼接特征进行均值池化,根据所述第三拼接特征和均值池化后的所述第三拼接特征生成第三空间特征;
根据所述第三通道特征和所述第三空间特征,生成所述图像的第一目标融合特征。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述图像中提取第三特征;所述第三特征的尺度不同于所述第一特征和所述第二特征的尺度;
对所述第三特征与所述第一注意力特征进行所述融合操作,得到第二注意力特征;
对所述第一注意力特征与所述第二注意力特征进行所述融合操作,得到第二融合特征;
所述对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征,包括:
对所述第一特征与所述第二融合特征进行所述融合操作,得到第一融合特征;
所述方法还包括:融合所述第一融合特征、所述第二融合特征与所述第二注意力特征,得到所述图像的第二目标融合特征。
8.根据权利要求7所述的方法,其特征在于,所述对所述第一注意力特征与所述第二注意力特征进行所述融合操作,得到第二融合特征,包括:
拼接所述第一注意力特征和所述第二注意力特征,得到注意力拼接特征;
对所述注意力拼接特征进行全局池化,基于所述注意力拼接特征和全局池化后的所述注意力拼接特征生成注意力通道特征;
对所述注意力拼接特征进行均值池化,根据所述注意力拼接特征和均值池化后的所述注意力拼接特征生成注意力空间特征;
根据所述注意力通道特征和所述注意力空间特征,生成第二融合特征。
9.一种图像特征提取装置,其特征在于,所述装置包括:
特征提取模块,用于从图像中提取所述图像在不同尺度下的第一特征和第二特征;
注意力计算模块,用于对所述第一特征和所述第二特征进行融合操作,得到第一注意力特征;所述融合操作包括通道注意力和空间注意力的特征融合操作;
第一融合模块,用于对所述第一注意力特征与所述第一特征进行所述融合操作,得到第一融合特征;
第二融合模块,用于融合所述第一融合特征与所述第一注意力特征,得到所述图像的第一目标融合特征。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202211618600.5A 2022-12-15 2022-12-15 图像特征提取方法、装置、计算机设备和存储介质 Pending CN116051846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211618600.5A CN116051846A (zh) 2022-12-15 2022-12-15 图像特征提取方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211618600.5A CN116051846A (zh) 2022-12-15 2022-12-15 图像特征提取方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN116051846A true CN116051846A (zh) 2023-05-02

Family

ID=86119133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211618600.5A Pending CN116051846A (zh) 2022-12-15 2022-12-15 图像特征提取方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN116051846A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863430A (zh) * 2023-07-31 2023-10-10 合肥海普微电子有限公司 一种面向自动驾驶的点云融合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863430A (zh) * 2023-07-31 2023-10-10 合肥海普微电子有限公司 一种面向自动驾驶的点云融合方法
CN116863430B (zh) * 2023-07-31 2023-12-22 合肥海普微电子有限公司 一种面向自动驾驶的点云融合方法

Similar Documents

Publication Publication Date Title
Jiang et al. Deep learning-based face super-resolution: A survey
Pan ECG: Edge-aware point cloud completion with graph convolution
Melekhov et al. Image-based localization using hourglass networks
JP7373554B2 (ja) クロスドメイン画像変換
US20230196837A1 (en) Action recognition method and apparatus, and device and storage medium
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
Kulhánek et al. Viewformer: Nerf-free neural rendering from few images using transformers
CN113112518B (zh) 基于拼接图像的特征提取器生成方法、装置和计算机设备
CN112991254A (zh) 视差估计系统、方法、电子设备及计算机可读存储介质
CN116051846A (zh) 图像特征提取方法、装置、计算机设备和存储介质
Hassan et al. Residual learning with annularly convolutional neural networks for classification and segmentation of 3D point clouds
Fu et al. Featup: A model-agnostic framework for features at any resolution
Wang et al. Decomposed guided dynamic filters for efficient rgb-guided depth completion
Ali et al. A lightweight network for monocular depth estimation with decoupled body and edge supervision
KR20230071052A (ko) 이미지 처리 방법 및 장치
CN117036658A (zh) 一种图像处理方法及相关设备
CN116228850A (zh) 物体姿态估计方法、装置、电子设备及可读存储介质
Joshi et al. Meta-Learning, Fast Adaptation, and Latent Representation for Head Pose Estimation
Huang et al. ImGeo-VoteNet: image and geometry co-supported VoteNet for RGB-D object detection
Talreja et al. DANS: Deep Attention Network for Single Image Super-Resolution
Park et al. Learning affinity with hyperbolic representation for spatial propagation
CN113362349B (zh) 一种基于多监督网络的道路场景图像语义分割方法
CN115272250B (zh) 确定病灶位置方法、装置、计算机设备和存储介质
Huang et al. Multi-Reception and Multi-Gradient Discriminator for Image Inpainting
WO2022222519A1 (zh) 故障图像生成方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination