CN113569735A - 复数坐标注意力模块及复输入特征图处理方法及系统 - Google Patents
复数坐标注意力模块及复输入特征图处理方法及系统 Download PDFInfo
- Publication number
- CN113569735A CN113569735A CN202110856637.0A CN202110856637A CN113569735A CN 113569735 A CN113569735 A CN 113569735A CN 202110856637 A CN202110856637 A CN 202110856637A CN 113569735 A CN113569735 A CN 113569735A
- Authority
- CN
- China
- Prior art keywords
- complex
- channel
- feature map
- output
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了复数坐标注意力模块及复输入特征图处理方法及系统,涉及特征信息处理领域,所述复数坐标注意力模块包括:复数坐标注意力嵌入单元和复数坐标注意力生成单元,本发明中复数坐标注意力模块的输入和输出均为复数形式的特征信息,能够对复数特征信息进行处理;本发明中复数坐标注意力模块利用复数卷积神经网络通过复数实部和虚部关联学习获得信号的幅度和相位特征;本发明中复数坐标注意力模块通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力。
Description
技术领域
本发明涉及特征处理领域,具体地,涉及复数坐标注意力模块及复输入特征图处理方法及系统。
背景技术
注意力机制(attention mechanism)可以通过全局信息搜索捕获远距离依赖关系,并通过带权分配自动聚焦重要信息,忽略不重要的冗余信息,这一点对于短观测时长内的相似空间锥体目标识别是有用的。注意力机制经历了空间注意力、通道注意力、空间-通道注意力的发展过程。空间维度和通道维度信息对网络识别能力的提升均有作用,这一点在最新提出的坐标注意力(Coordinate Attention,CA)模块中再次得到证明,上述技术通过嵌入空间位置信息到通道注意力中提高了模型性能。目前,已有学者尝试研究基于注意力的实数卷积神经网络(Real-Valued Convolutional Neural Network,RV-CNN)实现基于合成孔径雷达图像的目标识别。
复数卷积神经网络(Complex-Valued ConvolutionalNeuralNetwork,CV-CNN)可以直接处理回波复数数据,充分利用幅度和相位信息,避免回波预处理从而减少识别时间。CV-CNN发展时间不长,基础研究类成果不多,雷达领域应用成果较少且多集中在SAR图像和极化SAR图像识别方向,在空间目标的自动识别领域鲜有研究。
2018年Chiheb et al.从基础理论研究的角度推导并实现了复数卷积(complex-valued convolution)、复数激活(complex-valued activation)、复数池化(complex-valued pooling)、复数批规范化(complex-valued batch normalization)等基础单元,以及坐标注意力(Coordinate Attention,CA)模块。
实数卷积神经网络到复数卷积神经网络的转化问题已有一些研究。Michael etal.将实部与虚部作为双通道的输入来解决复数神经网络的问题,上述做法是错误的,因为并不符合复数乘法运算。复数乘法的运算限制了权重处CV-CNN的自由度。上述这种简单分离复数实部和虚部或采用实数卷积核的CV-CNN没有发挥出复数卷积核的优点。
综上所述,本申请发明人发现现有技术中的技术方案至少存在以下技术问题:
现有技术通常处理的特征信息为实数形式的特征信息,现有技术无法对复数形式的特征信息进行良好的处理。
发明内容
为解决上述问题,本发明提供了复数坐标注意力模块及复输入特征图处理方法及系统,本发明通过复数实部和虚部关联学习能够获得幅度和相位特征;本发明通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,能够更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力。
为实现上述目的,本发明提供了复数坐标注意力模块,所述复数坐标注意力模块包括:复数坐标注意力嵌入单元和复数坐标注意力生成单元,针对每个通道,所述复数坐标注意力嵌入单元用于将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
针对每个通道,所述复数坐标注意力生成单元用于:将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述复数坐标注意力模块的复输入特征图,获得所述复数坐标注意力模块的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
其中,本发明中的复数坐标注意力模块CV-CA一方面利用复数卷积神经网络通过复数实部和虚部关联学习获得信号的幅度和相位特征;另一方面通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力。
其中,通道注意力中通常会采用全局池化编码全局空间信息,但它将全局空间信息压缩为一个通道描述符,因而难以保持位置信息,而位置信息对空间结构的捕获尤为重要。因此,在坐标注意力模块中,将全局池化分解为两个一维特征编码的操作扩展到复数域,对每个通道的复数特征图X分别沿着水平和垂直两个方向进行编码(简称水平和垂直方向为方向-相关),生成方向-相关复数特征图,从而分别集成两个空间方向上的特征。
上述复数坐标注意力嵌入单元输出了全局感受野下聚合的精确的空间位置信息。基于复数坐标注意力嵌入单元的编码结果,复数坐标注意力模块设计了第二个变换,称之为复数坐标注意力生成单元。复数坐标注意力生成单元变换包括三个部分,分别是:(1)方向-相关特征信息聚合,(2)方向-相关复数特征图分裂,(3)复数坐标注意力自动分配。
优选的,本发明中X为所述复数坐标注意力模块的复输入特征图,其中,xc为第c个通道的复输入特征图,为C×W×H维复数张量,为复数空间,C为输入特征图的通道数,W为每个输入特征图的宽度,H为每个输入特征图的高度;Y为所述复数坐标注意力模块的复输出特征图,其中,yc为第c个通道的复输出特征图,c为大于或等于1,且小于或等于C的整数,X的维度与Y的维度相同;
其中,j表示虚数单位,表示复数的实部,表示复数的虚部,h为输入特征图水平方向像素索引,xp(h,j)为复输入特征图第p个通道第h行第j列的数值,i为输入特征图垂直方向像素索引,xp(i,w)为复输入特征图第p个通道第i行第w列的数值。
所述复数坐标注意力生成单元使用1×1的卷积核将所述特征信息拼接结果进行特征降维,其中,进行特征降维可以减少参数量,同时还可实现跨通道的信息交互和整合,所述复数坐标注意力生成单元使用1×1的卷积核将所述特征信息拼接结果进行特征降维,设为卷积层共享的1×1的复卷积核,其中,表示第k个复卷积核,k=1,2,...,C/r,表示中的第C个1×1的复卷积核,表示中的第q个1×1的复卷积核,q=1,2,...,C,r表示用于控制卷积输出特征图通道数的缩放比例系数,s表示卷积运算的步长,卷积输出的第k个特征图为vk(i,j),其中:
fk(i,j)=σ(vk(i,j))
其中,mq为M中的第q个张量,mq(i·s,j·s)为特征信息拼接后的第q个张量的第i·s行、第j·s列的数值,vk(i,j)表示未经激活的第k个通道的复输出特征图,表示第k个通道的复输出特征图,各通道复特征图的集合记作fC/r为第C/r个通道的复输出特征图,σ(·)表示复数激活函数;复数激活函数为CReLU函数,CReLU激活函数为:
其中,z为复数变量。
其中,为水平方向第l个通道的复输出特征图,为垂直方向第l个通道的复输出特征图,为中的第o个1×1的复卷积核,o=1,2,...,C/r,为第o个通道在水平方向的复输出特征图,为中的第o个1×1的复卷积核,为第o个通道在垂直方向的复输出特征图,表示水平方向第l个通道的第二复输出特征图,vh为所有通道的所述第二复输出特征图的集合,表示垂直方向第l个通道的第三复输出特征图,vw为所有通道的所述第三复输出特征图的集合,
优选的,本发明中将所述vh和所述vw中的每一个元素采用极坐标的形式表示,采用Sigmoid函数约束极坐标的幅度,具体为:
其中,和分别为水平和垂直方向第l个通道的复输出特征图经Sigmoid函数约束其幅度后的结果,和分别为水平和垂直方向第l个通道的复输出特征图的相位,和分别为水平和垂直方向第l个通道的复输出特征图的幅度,和分别为水平和垂直方向第l个通道的复输出特征图相位,Sig(·)表示Sigmoid函数,通过Sigmoid约束后的结果记为和
在直角坐标系下:
优选的,本发明中对所述gh和所述gw进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述复数坐标注意力模块的复输入特征图,获得所述复数坐标注意力模块的复输出特征图,所述复数坐标注意力模块的复输出特征图为yl(i,j):
其中,xl(i,j)为第l个通道复输入特征图第i行、第j列数值。
优选的,本发明中所述复输入特征图为空间目标识别信号的复输入特征图,所述复输出特征图为空间目标识别信号的复输出特征图。
本发明还提供了一种复输入特征图处理方法,所述方法包括:
获得待处理复输入特征图;
将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
针对每个通道,将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述待处理复输入特征图,获得处理后的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
本发明还提供了一种复输入特征图处理系统,所述系统包括:
获得单元,用于获得待处理复输入特征图;
第一处理单元,用于将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
第二处理单元,用于针对每个通道,将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
第三处理单元,用于将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述待处理复输入特征图,获得处理后的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明中复数坐标注意力模块的输入和输出均为复数形式的特征信息,本发明中的复数坐标注意力模块能够对复数特征信息进行处理。
本发明中复数坐标注意力模块利用复数卷积神经网络通过复数实部和虚部关联学习获得信号的幅度和相位特征。
本发明中复数坐标注意力模块通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本发明的一部分,并不构成对本发明实施例的限定;
图1是复数坐标注意力模块的组成示意图;
图2为复输入特征图处理方法的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
实施例一
请参考图1,图1为复数坐标注意力模块的组成示意图,在本实施例中,所述复数坐标注意力模块包括:复数坐标注意力嵌入单元和复数坐标注意力生成单元,针对每个通道,所述复数坐标注意力嵌入单元用于将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
针对每个通道,所述复数坐标注意力生成单元用于:将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述复数坐标注意力模块的复输入特征图,获得所述复数坐标注意力模块的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
现有技术中简单分离复数实部和虚部或采用实数卷积核的CV-CNN没有发挥出复数卷积核的优点。因此本发明遵守复数计算的规律,根据复数网络基础单元以及实数坐标注意力(Real-ValuedCoordinateAttention,CV-CA,RV-CA)模块进行了详细的公式推导并构建了复数坐标注意力模块(CV-CA模块)。
本发明所提出的CV-CA模块包括复数坐标注意力嵌入单元(Complex-ValuedCoordinate Information Embedding,CVCIE)与复数坐标注意力生成(Complex-ValuedCoordinate Attention Generation,CVCAG)单元。
在实际应用中,CV-CA模块的输入可以是任何复数形式的特征信息,本发明以雷达回波信号进行举例介绍,但是本发明中的输入特征信息并不局限于雷达回波信号的特征信息,针对窄带雷达回波数据时H=1,在实际应用中H的取值可以根据实际情况进行确定,本发明不进行具体的限定。
雷达测量的回波信号可表示为:
St(n)=Sth(n)+ν(n)
其中,Sth(n)为理论上雷达回波信号,ν(n)表示由雷达接收机产生的独立同分布的高斯白噪声,n表示脉冲序号。
通道注意力中通常会采用全局池化编码全局空间信息,但它将全局空间信息压缩为一个通道描述符,因而难以保持位置信息,而位置信息对空间结构的捕获尤为重要。因此,在坐标注意力模块中,将全局池化分解为两个一维特征编码的操作扩展到复数域,对每个通道的复数特征图X分别沿着水平和垂直两个方向进行编码(简称水平和垂直方向为方向-相关),生成方向-相关复数特征图,从而分别集成两个空间方向上的特征,这一操作用数学描述为:
其中,j表示虚数单位,表示复数的实部,表示复数的虚部,h为输入特征图水平方向像素索引,xp(h,j)为复输入特征图第p个通道第h行第j列的数值,i为输入特征图垂直方向像素索引,xp(i,w)为复输入特征图第p个通道第i行第w列的数值。将X各通道的复数特征图采用上述变换后分别得到两个复张量,其中 其中
上述CVCIE输出了全局感受野下聚合的精确的空间位置信息。基于CVCIE的编码结果,CV-CA模块设计了第二个变换,称之为CVCAG。CVCAG变换包括三个步骤,分别是:(1)方向-相关特征信息聚合,(2)方向-相关复数特征图分裂,(3)复数坐标注意力自动分配。
(1)方向-相关复数特征信息聚合
其中[·,·]表示拼接运算。
特征降维。利用1×1的卷积核对特征通道进行降维,减少参数量,同时还可实现跨通道的信息交互和整合。设为该层共享的1×1的复卷积核,其中,表示第k个复卷积核,k=1,2,...,C/r,表示中的第C个1×1的复卷积核,表示中的第q个1×1的复卷积核,q=1,2,...,C,r表示用于控制卷积输出特征图通道数的缩放比例系数,r表示用于控制卷积输出特征图通道数的缩放比例系数(本发明r=18,其中,在实际应用中r可以取其他值,本发明实施例不进行具体的限定),s表示卷积运算的步长,卷积输出的第k个特征图为vk(i,j),其中:
fk(i,j)=σ(vk(i,j)) (5)
其中,mq为M中的第q个张量,mq(i·s,j·s)为特征信息拼接后的第q个张量的第i·s行、第j·s列的数值,vk(i,j)表示未经激活的第k个通道的复输出特征图,表示第k个通道的复输出特征图,各通道复特征图的集合记作fC/r为第C/r个通道的复输出特征图,σ(·)表示复数激活函数;复数激活函数为CReLU函数,CReLU激活函数为:
其中,z为复数变量。
(2)方向-相关复数特征图分裂
特征升维。使用1×1的复卷积核将fh和fw恢复到与输入特征图X相同的维度。设水平方向卷积运算时的1×1的复卷积核为其中表示第l个(l=1,2,...,C)复卷积核,表示中的第o个(o=1,2,...,C/r)1×1的复卷积核。同理,为垂直方向卷积运算时的1×1的复卷积核,其中,表示第l个(l=1,2,...,C)复卷积核,表示中的第q个(l=1,2,...,C)1×1的复卷积核,则:
其中,为水平方向第l个通道的复输出特征图,为垂直方向第l个通道的复输出特征图,为中的第o个1×1的复卷积核,o=1,2,...,C/r,为第o个通道在水平方向的复输出特征图,为中的第o个1×1的复卷积核,为第o个通道在垂直方向的复输出特征图,表示水平方向第l个通道的第二复输出特征图,vh为所有通道的所述第二复输出特征图的集合,表示垂直方向第l个通道的第三复输出特征图,vw为所有通道的所述第三复输出特征图的集合,
(3)复数坐标注意力自动分配
方向-相关复数注意力权重系数计算。将复特征图张量vh和vw中的每一个元素(复值)写成极坐标的形式,然后采用Sigmoid函数约束极坐标的幅度,将幅度限制在0-1的取值范围内,即:
其中,和分别为水平和垂直方向第l个通道的复输出特征图经Sigmoid函数约束其幅度后的结果,和分别为水平和垂直方向第l个通道的复输出特征图的相位,和分别为水平和垂直方向第l个通道的复输出特征图的幅度,和分别为水平和垂直方向第l个通道的复输出特征图相位,Sig(·)表示Sigmoid函数,用以将最后的幅度转换成0-1区间的数值,通过Sigmoid约束后的结果记为和上述这种仅将极坐标的幅度进行转换到0-1范围的做法并不会对相位产生影响,也就是说相位信息得以保留下来。
由于原图像在直角坐标系下,因此将公式(11)和公式(14)转成直角坐标系下的表示有:
在直角坐标系下:
复数坐标注意力自动分配。对水平和垂直两个空间方向输出的gh和gw进行扩展,生成各空间方向的注意力权重分布,并作用于复输入特征图上,实现复数坐标注意力的自动分配。得到复数坐标注意力模块的输出为:
其中,xl(i,j)为第l个通道复输入特征图第i行、第j列数值。
根据上述CV-CA构建过程可以看出,CV-CA一方面利用复数卷积神经网络通过复数实部和虚部关联学习获得目标信号的幅度和相位特征,如雷达回波信号;另一方面通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力。
本发明所提的CV-CA模块包括两部分,第一部分是复数坐标注意力嵌入,第二部分是复数坐标注意力生成。下面详细解释各部分的物理意义。
第一部分是复数坐标注意力嵌入。在计算机视觉领域,特征图上的位置信息对于获取空间的结构特征具有重要的影响。由于本发明欲分辨的目标是非常相似的空间锥体目标,本发明认为空间结构信息会有利于目标的分辨识别。因此,为了让本发明所提出的复数坐标注意力模块能够保留位置信息,进而可利用位置信息捕获空间上的长距离依赖关系,本发明将CNN中的全局池化分解为沿水平方向的池化操作和沿垂直方向的池化操作。
第二部分是复数坐标注意力生成,该部分分为三个子步骤完成。对于该部分,本发明的总体设计原则有三点:1)模块应尽可能的简单、轻量。2)模块应该充分利用第一部分所获取的空间位置信息。3)模块应当考虑到各通道之间的相互关系,以便发挥通道注意力的优势。
方向-相关特征信息聚合。第一部分已经得到了水平方向和垂直方向的空间位置信息。在考虑所设计的模块应尽可能简单、参数量应尽可能少的原则下,本发明首先将水平方向和垂直方向的空间位置信息拼接起来,其目的在于同时保留两个方向的信息。然后,本发明采用1×1的卷积核对拼接结果做卷积以进行降维。这样的设计,不但考虑到了通道间的特征信息,同时也减少了参数量。
方向-相关复数特征信息分裂。本发明希望水平方向的权重和垂直方向的权重应分别作用于输入特征图的水平方向和垂直方向,并且权重的通道数应与输入特征图的通道数保持一致。故在此,本发明先拆分第一子步骤中同时考虑了空间位置信息和通道信息的权重,得到考虑了通道信息的水平方向的权重和垂直方向的权重。然后,再分别对这两个方向用1×1的卷积核对其进行升维。
复数注意力自动分配。在上述的操作步骤后本发明得到了同时考虑了空间位置信息和通道信息的复权重,一方面,本发明希望能把复权重的相位信息保留下来,另一方面,权重的幅度被限制在0-1区间。最后,通过将注意力权重分别作用于输入特征向量的各个元素和各个通道,从而实现了本发明所提的复数坐标注意力。既能够对各通道加权,关注重要通道;同时还考虑了空间信息;关注有利于目标识别的区域。
并且本实施例中的CV-CA模块能够在保证模型运行效率的情况下,以较少参数的增加获得最佳的特征识别能力,以及CV-CA模块能提高模型的识别能力,降低目标误判概率。
实施例二
本发明实施例二基于CV-CA模块搭建了深度卷积神经网络CV-CANet。CV-CANet是一个端到端的复数卷积神经网络,该网络的每一层都是由复数卷积、复数批规范化、复数激活、复数池化4个基本模块组成,网络的层数可以根据实际需要进行灵活的设置,在网络的预设层中嵌入实施例一中的CV-CA模块。
本发明实施例二提出了一种基于CV-CANet的相似空间锥体目标端到端识别方法,通过输入雷达回波数据直接得到相似空间锥体目标的识别结果,从而避免了复杂的回波信号预处理和相位信息丢失问题。为了直接处理雷达回波复信号,利用CV-CA模块并基于该模块构建了CV-CANet。本发明将坐标注意力机制引入到复数域,推导建立了方向-相关复数特征信息聚合、方向-相关复数特征图分裂、复数坐标注意力自动分配等基本结构。对于微动形式相同、仅微动参数有微小差异的相似空间锥体目标,本发明能够实现有效识别目标。
本发明通常在观测时长不超过半个周期的条件下进行,实际中,雷达不能长时间对一个目标进行观测,或者是数据中存在噪声,或数据丢失,因此希望能用越少的数据识别出目标越好,且保证了实时性。
实施例三
本发明实施例三提供了一种复输入特征图处理方法,请参考图2,图2为复输入特征图处理方法的流程示意图,所述方法包括:
获得待处理复输入特征图;
将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
针对每个通道,将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述待处理复输入特征图,获得处理后的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
其中,利用本方法可以实现复输出特征信息的处理,本方法利用复数卷积神经网络通过复数实部和虚部关联学习获得信号的幅度和相位特征,本方法通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力,本方法能够在运行效率的情况下,以较少参数的增加获得最佳的特征识别能力,本方法能够提高识别能力,降低目标误判概率。
实施例四
本发明实施例四提供了一种复输入特征图处理系统,所述系统包括:
获得单元,用于获得待处理复输入特征图;
第一处理单元,用于将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
第二处理单元,用于针对每个通道,将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
第三处理单元,用于将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述待处理复输入特征图,获得处理后的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
其中,利用本系统可以实现复输出特征信息的处理,本系统利用复数卷积神经网络通过复数实部和虚部关联学习获得信号的幅度和相位特征,本系统通过复数坐标注意力同时关注水平与垂直方向上的空间信息和通道信息,更好地对特征信息的远程依懒关系进行建模,增强目标对象特征表征能力,本系统能够在运行效率的情况下,以较少参数的增加获得最佳的特征识别能力,本系统能够提高识别能力,降低目标误判概率。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.复数坐标注意力模块,其特征在于,所述复数坐标注意力模块包括:复数坐标注意力嵌入单元和复数坐标注意力生成单元,针对每个通道,所述复数坐标注意力嵌入单元用于将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
针对每个通道,所述复数坐标注意力生成单元用于:将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述复数坐标注意力模块的复输入特征图,获得所述复数坐标注意力模块的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
2.根据权利要求1所述的复数坐标注意力模块,其特征在于,X为所述复数坐标注意力模块的复输入特征图,其中,xc为第c个通道的复输入特征图,为C×W×H维复数张量,为复数空间,C为输入特征图的通道数,W为每个输入特征图的宽度,H为每个输入特征图的高度;Y为所述复数坐标注意力模块的复输出特征图,其中,yc为第c个通道的复输出特征图,c为大于或等于1,且小于或等于C的整数,X的维度与Y的维度相同;
所述复数坐标注意力生成单元使用1×1的卷积核将所述特征信息拼接结果进行特征降维,设为卷积层共享的1×1的复卷积核,其中,表示第k个复卷积核,k=1,2,...,C/r,表示中的第C个1×1的复卷积核,表示中的第q个1×1的复卷积核,q=1,2,...,C,r表示用于控制卷积输出特征图通道数的缩放比例系数,s表示卷积运算的步长,卷积输出的第k个特征图为vk(i,j),其中:
fk(i,j)=σ(vk(i,j))
其中,mq为M中的第q个张量,mq(i·s,j·s)为特征信息拼接后的第q个张量的第i·s行、第j·s列的数值,vk(i,j)表示未经激活的第k个通道的复输出特征图,表示第k个通道的复输出特征图,各通道复特征图的集合记作fC/r为第C/r个通道的复输出特征图,σ(·)表示复数激活函数;复数激活函数为CReLU函数,CReLU激活函数为:
其中,z为复数变量。
8.根据权利要求1-7所述的复数坐标注意力模块,其特征在于,所述复输入特征图为空间目标识别信号的复输入特征图,所述复输出特征图为空间目标识别信号的复输出特征图。
9.一种复输入特征图处理方法,其特征在于,所述方法包括:
获得待处理复输入特征图;
将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
针对每个通道,将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述待处理复输入特征图,获得处理后的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
10.一种复输入特征图处理系统,其特征在于,所述系统包括:
获得单元,用于获得待处理复输入特征图;
第一处理单元,用于将所述通道的第一复输入特征图分别沿着水平和垂直方向进行编码,分别生成所述第一复输入特征图在所述通道沿水平方向编码后的第一输出特征信息和沿垂直方向编码后的第二输出特征信息;
第二处理单元,用于针对每个通道,将所述第一输出特征信息和所述第二输出特征信息进行拼接,生成所述通道的特征信息拼接结果;将所述通道的所述特征信息拼接结果进行特征降维,获得降维后的特征信息,将降维后的特征信息激活获得所述通道的第一复输出特征图;将所述第一复输出特征图沿空间维度拆分成为第一张量和第二张量;将所述第一张量和所述第二张量维度调整为与所述第一复输入特征图相同的维度,获得水平方向所述通道的第二复输出特征图和垂直方向所述通道的第三复输出特征图;获得第三张量和第四张量,所述第三张量为所有通道的所述第二复输出特征图的集合,所述第四张量为所有通道的所述第三复输出特征图的集合;
第三处理单元,用于将所述第三张量和所述第四张量中的每个元素均采用极坐标的形式表示,采用约束函数约束极坐标的幅度,分别获得水平和垂直空间方向的第四复输出特征图和第五复输出特征图,将所述第四复输出特征图和所述第五复输出特征图进行扩展,生成水平和垂直空间方向的注意力权重分布,将所述注意力权重分布作用于所述待处理复输入特征图,获得处理后的复输出特征图;
其中,复输入特征图和复输出特征图均为复数形式的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110856637.0A CN113569735B (zh) | 2021-07-28 | 2021-07-28 | 基于复数坐标注意力模块的复输入特征图处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110856637.0A CN113569735B (zh) | 2021-07-28 | 2021-07-28 | 基于复数坐标注意力模块的复输入特征图处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569735A true CN113569735A (zh) | 2021-10-29 |
CN113569735B CN113569735B (zh) | 2023-04-07 |
Family
ID=78168393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110856637.0A Active CN113569735B (zh) | 2021-07-28 | 2021-07-28 | 基于复数坐标注意力模块的复输入特征图处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569735B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972280A (zh) * | 2022-06-07 | 2022-08-30 | 重庆大学 | 精细坐标注意力模块及其在表面缺陷检测中的应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105913074A (zh) * | 2016-04-05 | 2016-08-31 | 西安电子科技大学 | 基于幅度与径向速度联合的sar图像动目标聚类方法 |
RU2015143941A (ru) * | 2015-10-13 | 2017-04-27 | Федеральное государственное бюджетное учреждение "Центральный научно-исследовательский институт Военно-воздушных сил" Министерства обороны Российской Федерации (ФГБУ "ЦНИИ ВВС Минобороны России") | Способ обнаружения движущейся цели с различением скоростных и маневренных характеристик |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN111340186A (zh) * | 2020-02-17 | 2020-06-26 | 之江实验室 | 基于张量分解的压缩表示学习方法 |
CN113065586A (zh) * | 2021-03-23 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种非局域的图像分类装置、方法和存储介质 |
-
2021
- 2021-07-28 CN CN202110856637.0A patent/CN113569735B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2015143941A (ru) * | 2015-10-13 | 2017-04-27 | Федеральное государственное бюджетное учреждение "Центральный научно-исследовательский институт Военно-воздушных сил" Министерства обороны Российской Федерации (ФГБУ "ЦНИИ ВВС Минобороны России") | Способ обнаружения движущейся цели с различением скоростных и маневренных характеристик |
CN105913074A (zh) * | 2016-04-05 | 2016-08-31 | 西安电子科技大学 | 基于幅度与径向速度联合的sar图像动目标聚类方法 |
WO2019153908A1 (zh) * | 2018-02-11 | 2019-08-15 | 北京达佳互联信息技术有限公司 | 基于注意力模型的图像识别方法和系统 |
CN111340186A (zh) * | 2020-02-17 | 2020-06-26 | 之江实验室 | 基于张量分解的压缩表示学习方法 |
CN113065586A (zh) * | 2021-03-23 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种非局域的图像分类装置、方法和存储介质 |
Non-Patent Citations (3)
Title |
---|
MULTI-MODE FUSION AND CLASSIFICATION METHOD FOR SPACE TARGETS BA: "Yaxin Li et.al", 《2019 6TH ASIA-PACIFIC CONFERENCE ON SYNTHETIC APERTURE RADAR (APSAR)》 * |
周剑: "面向复杂场景的目标分类方法", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王光光: "基于深度学习的PolSAR分类和视频行为识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972280A (zh) * | 2022-06-07 | 2022-08-30 | 重庆大学 | 精细坐标注意力模块及其在表面缺陷检测中的应用 |
CN114972280B (zh) * | 2022-06-07 | 2023-11-17 | 重庆大学 | 精细坐标注意力模块及其在表面缺陷检测中的应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113569735B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052886B (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN110555458B (zh) | 基于注意力机制生成对抗网络的多波段图像特征级融合方法 | |
CN110706302B (zh) | 一种文本合成图像的系统及方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
Ma et al. | Facial expression recognition using constructive feedforward neural networks | |
CN114972746B (zh) | 一种基于多分辨率重叠注意力机制的医学影像分割方法 | |
CN113537120B (zh) | 基于复数坐标注意力的复数卷积神经网络的目标识别方法 | |
CN111210382B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN114998525A (zh) | 基于动态局部-全局图卷积神经网络的动作识别方法 | |
CN114019467A (zh) | 一种基于MobileNet模型迁移学习的雷达信号识别与定位方法 | |
CN114708665A (zh) | 一种基于多流融合的骨骼图人体行为识别方法及系统 | |
CN112669249A (zh) | 结合改进nsct变换和深度学习的红外与可见光图像融合方法 | |
CN115761398A (zh) | 基于轻量化神经网络及维度拓展的轴承故障诊断方法 | |
CN113569735B (zh) | 基于复数坐标注意力模块的复输入特征图处理方法及系统 | |
CN113627487B (zh) | 一种基于深层注意力机制的超分辨率重建方法 | |
CN115170622A (zh) | 基于transformer的医学图像配准方法及系统 | |
CN112884062B (zh) | 一种基于cnn分类模型和生成对抗网络的运动想象分类方法及系统 | |
WO2021042774A1 (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN116758415A (zh) | 一种基于二维离散小波变换的轻量化害虫识别方法 | |
Shen et al. | Multiple information perception-based attention in YOLO for underwater object detection | |
CN116485815A (zh) | 基于双尺度编码器网络的医学图像分割方法、设备和介质 | |
CN116452930A (zh) | 降质环境下基于频域增强的多光谱图像融合方法与系统 | |
CN113780305B (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
CN114613011A (zh) | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 | |
Liu et al. | LG-DBNet: Local and Global Dual-Branch Network for SAR Image Denoising |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |