CN111539458B - 特征图处理方法、装置、电子设备及存储介质 - Google Patents
特征图处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111539458B CN111539458B CN202010255750.9A CN202010255750A CN111539458B CN 111539458 B CN111539458 B CN 111539458B CN 202010255750 A CN202010255750 A CN 202010255750A CN 111539458 B CN111539458 B CN 111539458B
- Authority
- CN
- China
- Prior art keywords
- feature
- original
- feature map
- semantic information
- pyramid structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 44
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 abstract description 19
- 238000004891 communication Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Abstract
本发明实施例提供一种特征图处理方法、装置、电子设备及存储介质;方法包括:对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;将多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;将原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。本发明实施例提供的特征图处理方法、装置、电子设备及存储介质通过语义信息融合以及对语义信息融合后的特征图在金字塔各层级的再分布,有效减少了特征金字塔各层级间的语义信息差异。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种特征图处理方法、装置、电子设备及存储介质。
背景技术
卷积神经网络(Convolutional Neural Networks,CNN)在目标检测中得到了越来越广泛的应用,成为各种检测算法的主流网络结构。CNN通过提取识别目标的特征图可以有效地推断出目标的位置与类型。当前基于CNN的目标检测算法可分为one-stage与two-stage两种类型。one-stage类型的目标识别算法直接通过特征图估计目标的区域框和种类,比如SSD、YOLO、RetinaNet等;two-stage类型包括两个独立的网络,用于识别目标种类的特征提取网络以及用于估计位置的RPN网络,比如R-CNN、Faster R-CNN、Mask R-CNN等。
CNN网络提取特征的能力对目标检测算法的性能提升有着重要作用。深层次网络提取的特征图包含的图像特征信息较深;浅层次网络提取的特征图包含的空间位置信息丰富。为了识别不同尺寸的目标,自下而上的特征金字塔(Feature Pyramid)结构被提出,它由不同尺寸的特征图组成。
图1为现有技术中的特征金字塔结构的示意图。在这种特征金字塔中,不同尺寸特征图的属性决定了顶层特征图适合于识别大尺寸目标,而底层特征图适合捕获小尺度目标。然而每层特征图包含的语义信息不等,使得在目标识别时会有一定的不足。比如底层特征图包含的高层次语义信息不足,这就会造成识别小目标时准确率不高。
为了减少不同层次特征图之间的语义信息差距,本领域技术人员提出了多种改进方案。这些改进方案的主要思想是通过自上而下的方式生成具有内在联系的高层语义特征,为底层特征提供上下文信息。
图2为现有技术中一种改进的特征金字塔结构的示意图。在这一经过改进的特征金字塔结构中,通过自顶向下的连接将具有高层语义的顶层特征与底层特征结合来增强底层特征的语义信息,同时采用了侧面连接的方式来避免损失空间位置信息。DSSD、FPN、TDM、RefineDet等多种目标检测算法都采用了这种结构的特征金字塔,但分别采用了不同的自上而下连接方式以及侧面连接方式。
虽然现有技术中已经有多种方法对特征金字塔的抽象层次做了改进,但是依然存在一定的局限性。首先,这些方法采用的自顶向下连接以单向的方式传播语义信息,因此语义并不是均匀地分布在各金字塔层级。这也说明特征金字塔各层之间语义信息差距仍然存在。其次,这种特征的单侧处理能力有限,无法生成丰富的上下文信息,从而无法提高所有层级的语义水平。
发明内容
本发明实施例提供一种特征图处理方法、装置、电子设备及存储介质,用以解决现有技术中呈特征金字塔结构的各层特征图之间语义分布不均匀,存在语义信息差距的缺陷。
本发明第一方面实施例提供一种特征图处理方法,包括:
对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;其中,
所述原始特征图集合包括多个原始特征图,所述多个原始特征图呈特征金字塔结构;
将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;所述第二特征图集包括多个第二特征图,所述多个第二特征图呈特征金字塔结构;
将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
上述技术方案中,所述对所述原始特征图集合中的原始特征图进行语义信息融合包括:
对所述原始特征图集合中的原始特征图按照前向与后向两个方向进行语义信息融合;其中,
所述前向为所述特征金字塔结构中从下往上的方向;所述后向为所述特征金字塔结构中从上往下的方向。
上述技术方案中,所述对所述原始特征图集合中的原始特征图按照前向与后向两个方向进行语义信息融合具体包括:
统一所述原始特征图集合中的所有原始特征图的尺寸大小与通道数,得到第二原始特征图集合,所述第二原始特征图集合中的第二原始特征图的尺寸大小均一致,且第二原始特征图集合中的所有第二原始特征图的通道数均一致;
将所述第二原始特征图集合中的所有第二原始特征图输入biLSTM网络,由所述biLSTM网络中的前向LSTM在前向对所述所有第二原始特征图中的语义信息进行计算,由所述biLSTM网络中的后向LSTM在后向对所述所有第二原始特征图中的语义信息进行计算;
将所述前向LSTM计算得到的结果与所述后向LSTM计算得到的结果在通道维度连接,得到多个第一特征图。
上述技术方案中,所述前向LSTM和所述后向LSTM采用了ConvLSTM网络结构。
上述技术方案中,所述将所述第一特征图按照所述特征金字塔结构的层级进行重新分布包括:
采用channel-wise Attention模型将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布。
上述技术方案中,所述采用channel-wise Attention模型将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布具体包括:
将所述多个第一特征图在通道维度连接;
利用Attention模块对经过通道维度连接后的特征图在通道维度重新分布并为特征图设置权重,得到重新分布到所述特征金字塔结构的各个层上的第二特征图;
为重新分布到所述特征金字塔结构的各个层上的第二特征图按照所述原始特征图的尺寸大小与通道数予以恢复。
上述技术方案中,所述利用Attention模块对经过通道维度连接后的特征图在通道维度重新分布并为特征图设置权重具体包括:
在通道维度将经过通道维度连接后的特征图做全局平均池化,得到一个1*1向量;
将所述1*1向量中的元素作为Bottleneck结构的输入,利用Bottleneck结构来建模通道之间的相关性;其中,所述Bottleneck结构由两个全连接卷积网络构成;
根据通道之间的相关性、通过Sigmoid激活函数获得各个通道的权重;
将各个通道的权重加权到每个通道的特征上。
本发明第二方面实施例提供一种特征图处理装置,包括:
语义信息融合模块,用于对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;其中,
所述原始特征图集合包括多个原始特征图,所述多个原始特征图呈特征金字塔结构;
重新分布模块,用于将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;所述第二特征图集包括多个第二特征图,所述多个第二特征图呈特征金字塔结构;所述重新分布包括按照特征金字塔结构的层级为第二特征图设置权重,所述权重用于调整图像特征信息与位置信息之间的比例;
连接模块,用于将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
本发明第三方面实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述特征图处理方法的步骤。
本发明第四方面实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述特征图处理方法的步骤。
本发明实施例提供的特征图处理方法、装置、电子设备及存储介质通过对特征图做语义信息融合以及对语义信息融合后的特征图在金字塔各层级的再分布,有效减少了特征金字塔各层级间的语义信息差异。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中的特征金字塔结构的示意图;
图2为现有技术中一种改进的特征金字塔结构的示意图;
图3为本发明实施例提供的特征图处理方法的流程图;
图4为采用biLSTM网络对分散在特征金字塔结构各层的特征图进行语义信息融合的具体实现过程的流程图;
图5为采用channel-wise Attention模型将经过语义信息融合的特征图按照特征金字塔结构的层级进行重新分布的实现过程的流程图;
图6为本发明实施例提供的特征图处理装置的示意图;
图7示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,在本申请中对相关的概念做统一说明。
语义信息:语义信息包括图像特征信息和位置信息。图像特征信息用于实现对物体的识别,位置信息用于实现物体的定位。
高层次语义信息:高层次语义信息是指所包含的图像特征信息多,所包含的位置信息少。高层次语义信息有利于识别物体的种类,而不利于定位物体的位置。
低层次语义信息:低层次语义信息是指所包含的图像特征信息少,所包含的位置信息多。低层次语义信息有利于定位物体的位置,而不利于识别物体的种类。
图3为本发明实施例提供的特征图处理方法的流程图,如图3所示,本发明实施例提供的特征图处理方法包括:
步骤301、对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图。
本步骤中所述的原始特征图集合包括多个原始特征图,所述多个原始特征图呈特征金字塔结构,即:原始特征图集合包括不同尺寸的多个原始特征图,这些原始特征图按照尺寸从大到小的顺序从下往上分层排列;越接近顶层的原始特征图,所包含的高层次语义信息越多(所包含的图像特征信息多、位置信息少);反之,越接近底层的原始特征图,所包含的低层次语义信息越多(所包含的图像特征信息少、位置信息多)。
语义信息融合的目的在于调整原始特征图中图像特征信息与位置信息之间的比例,使得新生成的多个第一特征图中高层次语义信息与低层次语义信息的分布更为均匀。
对原始特征图进行语义信息融合有多种实现方式,例如,采用biLSTM(Bi-LongShort-Term Memory,双向长短时记忆)网络对原始特征图按照前向与后向两个方向进行语义信息融合。又如,在FPN目标检测法中,采用broadcast mul操作将高层和低层的特征图在对应的通道上做乘法运算,从而实现语义信息融合;又如,在DSSD目标检测算法中,采用反卷积进行语义信息融合;又如,在TDM目标检测算法中,采用concat操作进行语义信息融合。
通过语义信息的融合,原始特征图中图像特征信息与位置信息之间的比例发生了变化,使得高层次语义信息与低层次语义信息在特征金字塔结构各个层上的特征图中的分布更为均匀,有助于减少特征金字塔各层级间的语义信息差异。
在本发明的其他实施例中,将对原始特征图集合中的特征图进行语义信息融合的具体实现过程做进一步的描述。
步骤302、将多个第一特征图按照特征金字塔结构的层级进行重新分布,得到第二特征图集。
在本发明实施例中,所得到的第二特征图集包括多个第二特征图,所述多个第二特征图呈特征金字塔结构。
在本发明实施例中,特征图的重新分布包括为经过语义信息融合的第一特征图按照所要分布的特征金字塔结构的层级设置权重,所述权重用于调整图像特征信息与位置信息之间的比例。
在本发明实施例中,采用channel-wise Attention模型实现多个第一特征图的重新分布。在重新分布的过程中采用channel-wise Attention模型能计算出重新分布后特征金字塔结构中各个层上的第二特征图所对应权重。
经过重新分布后,每个特征金字塔层的第二特征图既包含高层次语义信息,又包含低层次语义信息。但不同特征金字塔层的第二特征图的权重不一样,使得不同特征金字塔层的第二特征图中的高层次语义信息(低层次语义信息)占全部语义信息的比例不同。通过重新分布操作,每个特征金字塔层的第二特征图进一步调整了高层次语义信息与低层次语义信息的比例,有助于减少特征金字塔各层级间的语义信息差异。
步骤303、将原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
将原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接是指将原始特征图集合中的原始特征图与第二特征图集合中的第二特征图在通道维度上连接。如何实现特征图在通道维度上的连接是本领域技术人员的公知常识,因此不在此处重复。
将原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接所得到的处理后的特征图,不仅能够保持对不同尺寸大小的物体的识别能力,还提升了识别准确率。
本发明实施例提供的特征图处理方法通过对特征图做语义信息融合以及对语义信息融合后的特征图在金字塔各层级的再分布,有效减少了特征金字塔各层级间的语义信息差异。
基于上述任一实施例,在本发明实施例中,图4为采用biLSTM网络对分散在特征金字塔结构各层的原始特征图进行语义信息融合的具体实现过程的流程图,如图4所示,采用biLSTM网络对分散在特征金字塔结构各层的原始特征图进行语义信息融合具体包括以下步骤:
步骤401、统一待融合的各个原始特征图的尺寸大小与通道数,得到第二原始特征图集合。
在之前的描述中已经提到,特征金字塔结构中的原始特征图有着不同的尺寸大小,需要将待融合的各个原始特征图的尺寸大小进行统一。
在本发明实施例中,将待融合的各个原始特征图的尺寸统一为待融合原始特征图中尺寸最大的特征图的尺寸。
在本发明实施例中,对特征图尺寸大小的调整可采用双线性插值法实现。在本发明的其他实施例中,也可采用现有技术中的其他方法来调整特征图的尺寸大小,如下采样的方法。
待融合的各个原始特征图的通道数有可能存在差异,在本步骤中需要将待融合的各个原始特征图的通道数进行统一。在本发明实施例中,利用1*1卷积层将待融合的各个特征图的通道数进行统一。
经过本步骤的上述操作后,得到了第二原始特征图集合,第二原始特征图集合中的所有第二原始特征图具有相同的尺寸大小与通道数。
步骤402、将第二原始特征图集合中的所有第二原始特征图输入biLSTM网络,实现各个第二原始特征图中的语义信息的融合。
biLSTM网络包括前向LSTM与后向LSTM,其中的前向LSTM在前向对第二原始特征图中的语义信息进行计算,后向LSTM在后向对第二原始特征图中的语义信息进行计算。在本发明实施例中,所述前向可以是特征金字塔结构中从下往上的方向,所述后向可以是特征金字塔结构中从上往下的方向。
前向LSTM与后向LSTM分别对各个第二原始特征图进行计算,将各自所得到的计算结果在通道(channel)维度连接,连接后的计算结果就是biLSTM网络的处理结果。
在本发明实施例中,LSTM网络采用了ConvLSTM网络结构。ConvLSTM网络结构引入了卷积,有助于节省计算量。
本发明实施例提供的特征图处理方法通过biLSTM网络按照前向、后向两个方向对特征金字塔结构中的原始特征图进行计算,实现了特征金字塔结构中所有金字塔层级之间的双向连接,有助于不同层级原始特征图中的语义信息的融合。
基于上述任一实施例,在本发明实施例中,图5为采用channel-wise Attention模型将多个第一特征图按照特征金字塔结构的层级进行重新分布的实现过程的流程图,如图5所示,具体包括以下步骤:
步骤501、将各个第一特征图在通道维度连接。
在本发明实施例中,第一特征图是经过语义信息融合的特征图。经过语义信息融合后,特征金字塔中每一层的特征图的语义信息已经发生了变化,将这些已经发生语义信息变化的第一特征图在通道维度连接。
步骤502、利用Attention(注意力)模块对通道维度连接后的特征图在通道维度再分布,使得最后分布到各层的第二特征图权重不同。
Attention模块包含全局平均池化层(GAP)、两个全连接卷积网络以及sigmoid激活函数。Attention模块在处理时,首先,全局平均池化层在通道维度将经过通道维度连接后的特征图转为1*1向量,所述1*1向量中的每个元素为经过通道维度连接后的特征图中每个通道的平均值;然后由两个全连接卷积网络构成Bottleneck结构,将1*1向量中的元素作为Bottleneck结构的输入,利用Bottleneck结构来建模通道之间的相关性,接着根据通道之间的相关性、通过一个Sigmoid激活函数获得各个通道的权重,所述权重为0~1之间归一化的权重;最后将各个通道的权重加权到每个通道的特征上。
由于每个特征金字塔层中都包含有各自的通道,因此通道维度连接后的特征图中的各个通道的权重加权到每个通道的特征上之后,就可以得到在所述金字塔结构的各个层上重新分布的第二特征图的权重。
例如,在一个4层的特征金字塔结构中,每个特征金字塔层中的特征图有4个通道,则经过通道维度连接后的特征图共计有16个通道。在Attention模块中计算这16个通道的权重,从而为每个通道均赋予一个权重值。每个特征金字塔层中的第二特征图将自身所包含的通道的权重值相加,就可以得到第二特征图自身的权重。
步骤503、为重新分布到特征金字塔结构各个层上的第二特征图恢复尺寸大小与通道数。
在之前的步骤中,对特征金字塔结构中各个层上的原始特征图的尺寸大小与通道数做了统一。在本步骤中,需要将第二特征图恢复到原始特征图的尺寸大小与通道数。
在本发明实施例中,将第二特征图恢复到原始特征图的尺寸大小可通过下采样的方式实现;将通道数恢复到原始特征图的通道数可通过1*1卷积层实现。
本发明实施例提供的特征图处理方法采用channel-wise Attention模型实现了特征图在特征金字塔结构中的重新分布,有助于不同层级特征图中的语义信息的融合。
基于上述任一实施例,图6为本发明实施例提供的特征图处理装置的示意图,如图6所示,本发明实施例提供了一种特征图处理装置,包括:
语义信息融合模块601,用于对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;其中,
所述原始特征图集合包括多个原始特征图,所述多个原始特征图呈特征金字塔结构;
重新分布模块602,用于将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;所述第二特征图集包括多个第二特征图,所述多个第二特征图呈特征金字塔结构;所述重新分布包括按照特征金字塔结构的层级为第二特征图设置权重,所述权重用于调整图像特征信息与位置信息之间的比例;
连接模块603,用于将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
本发明实施例提供的特征图处理装置通过对特征图做语义信息融合以及对语义信息融合后的特征图在金字塔各层级的再分布,有效减少了特征金字塔各层级间的语义信息差异。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图7所示的处理器710、通信接口720、存储器730和通信总线740,其中处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信,且处理器710可以调用存储器730中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种特征图处理方法,其特征在于,包括:
对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;其中,
所述原始特征图集合包括多个原始特征图,所述多个原始特征图呈特征金字塔结构;
将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;所述第二特征图集包括多个第二特征图,所述多个第二特征图呈特征金字塔结构;
将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图;
所述将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集,包括:
将各个所述第一特征图在通道维度连接;
利用Attention模块对经过通道维度连接后的特征图在通道维度重新分布并为特征图设置权重,得到在所述金字塔结构的各个层上重新分布的所述第二特征图的权重,所述权重用于调整图像特征信息与位置信息之间的比例;
为重新分布到所述特征金字塔结构各个层上的所述第二特征图按照所述原始特征图的尺寸大小与通道数予以恢复。
2.根据权利要求1所述的特征图处理方法,其特征在于,所述对所述原始特征图集合中的原始特征图进行语义信息融合包括:
对所述原始特征图集合中的原始特征图按照前向与后向两个方向进行语义信息融合;其中,
所述前向为所述特征金字塔结构中从下往上的方向;所述后向为所述特征金字塔结构中从上往下的方向。
3.根据权利要求2所述的特征图处理方法,其特征在于,所述对所述原始特征图集合中的原始特征图按照前向与后向两个方向进行语义信息融合具体包括:
统一所述原始特征图集合中的所有原始特征图的尺寸大小与通道数,得到第二原始特征图集合,所述第二原始特征图集合中的所有第二原始特征图的尺寸大小均一致,且第二原始特征图集合中的所有第二原始特征图的通道数均一致;
将所述第二原始特征图集合中的所有第二原始特征图输入biLSTM网络,由所述biLSTM网络中的前向LSTM在前向对所述所有第二原始特征图中的语义信息进行计算,由所述biLSTM网络中的后向LSTM在后向对所述所有第二原始特征图中的语义信息进行计算;
将所述前向LSTM计算得到的结果与所述后向LSTM计算得到的结果在通道维度连接,得到多个第一特征图。
4.根据权利要求3所述的特征图处理方法,其特征在于,所述前向LSTM和所述后向LSTM采用了ConvLSTM网络结构。
5.根据权利要求3所述的特征图处理方法,其特征在于,所述将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布包括:
采用channel-wise Attention模型将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布。
6.根据权利要求1所述的特征图处理方法,其特征在于,所述利用Attention模块对经过通道维度连接后的特征图在通道维度重新分布并为特征图设置权重具体包括:
在通道维度将经过通道维度连接后的特征图做全局平均池化,得到一个1*1向量;
将所述1*1向量中的元素作为Bottleneck结构的输入,利用Bottleneck结构来建模通道之间的相关性;其中,所述Bottleneck结构由两个全连接卷积网络构成;
根据通道之间的相关性、通过Sigmoid激活函数获得各个通道的权重;
将各个通道的权重加权到每个通道的特征上。
7.一种特征图处理装置,其特征在于,包括:
语义信息融合模块,用于对原始特征图集合中的原始特征图进行语义信息融合,得到多个第一特征图;其中,
所述原始特征图集合包括多个原始特征图,所述多个原始特征图呈特征金字塔结构;
重新分布模块,用于将所述多个第一特征图按照所述特征金字塔结构的层级进行重新分布,得到第二特征图集;所述第二特征图集包括多个第二特征图,所述多个第二特征图呈特征金字塔结构;所述重新分布包括按照特征金字塔结构的层级为第二特征图设置权重,所述权重用于调整图像特征信息与位置信息之间的比例;
连接模块,用于将所述原始特征图集合中的原始特征图与第二特征图集合中的第二特征图连接,得到处理后的特征图;
所述重新分布模块具体用于将各个所述第一特征图在通道维度连接,利用Attention模块对经过通道维度连接后的特征图在通道维度重新分布并对特征图设置权重,得到在所述金字塔结构的各个层上重新分布的所述第二特征图的权重,为重新分布到所述特征金字塔结构各个层上的所述第二特征图按照所述原始特征图的尺寸大小与通道数予以恢复。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述特征图处理方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述特征图处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010255750.9A CN111539458B (zh) | 2020-04-02 | 2020-04-02 | 特征图处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010255750.9A CN111539458B (zh) | 2020-04-02 | 2020-04-02 | 特征图处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539458A CN111539458A (zh) | 2020-08-14 |
CN111539458B true CN111539458B (zh) | 2024-02-27 |
Family
ID=71972906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010255750.9A Active CN111539458B (zh) | 2020-04-02 | 2020-04-02 | 特征图处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539458B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488136A (zh) * | 2021-01-22 | 2021-03-12 | 山东商业职业技术学院 | 一种图像识别系统以及图像识别装置 |
CN112906814A (zh) * | 2021-03-10 | 2021-06-04 | 江苏禹空间科技有限公司 | 基于nas网络的目标检测方法及系统 |
CN113065650B (zh) * | 2021-04-02 | 2023-11-17 | 中山大学 | 一种基于长期记忆学习的多通道神经网络实例分隔方法 |
CN113221907A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 一种车辆部件分割方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461157A (zh) * | 2018-10-19 | 2019-03-12 | 苏州大学 | 基于多级特征融合及高斯条件随机场的图像语义分割方法 |
CN109902693A (zh) * | 2019-02-16 | 2019-06-18 | 太原理工大学 | 一种基于多注意力空间金字塔特征图像识别方法 |
CN110458115A (zh) * | 2019-08-14 | 2019-11-15 | 四川大学 | 一种基于时序的多帧集成目标检测算法 |
CN110472564A (zh) * | 2019-08-14 | 2019-11-19 | 成都中科云集信息技术有限公司 | 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
WO2019232830A1 (zh) * | 2018-06-06 | 2019-12-12 | 平安科技(深圳)有限公司 | 机场异物检测方法、装置、计算机设备及存储介质 |
CN110633661A (zh) * | 2019-08-31 | 2019-12-31 | 南京理工大学 | 一种融合语义分割的遥感图像目标检测方法 |
CN110705562A (zh) * | 2019-08-22 | 2020-01-17 | 清华大学 | 一种采用注意力机制的金字塔池化多尺度特征学习方法 |
CN110782420A (zh) * | 2019-09-19 | 2020-02-11 | 杭州电子科技大学 | 一种基于深度学习的小目标特征表示增强方法 |
CN110909642A (zh) * | 2019-11-13 | 2020-03-24 | 南京理工大学 | 一种基于多尺度语义特征融合的遥感图像目标检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784654B (zh) * | 2016-08-26 | 2020-09-25 | 杭州海康威视数字技术股份有限公司 | 图像分割方法、装置及全卷积网络系统 |
US11034357B2 (en) * | 2018-09-14 | 2021-06-15 | Honda Motor Co., Ltd. | Scene classification prediction |
-
2020
- 2020-04-02 CN CN202010255750.9A patent/CN111539458B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019232830A1 (zh) * | 2018-06-06 | 2019-12-12 | 平安科技(深圳)有限公司 | 机场异物检测方法、装置、计算机设备及存储介质 |
CN109461157A (zh) * | 2018-10-19 | 2019-03-12 | 苏州大学 | 基于多级特征融合及高斯条件随机场的图像语义分割方法 |
CN109902693A (zh) * | 2019-02-16 | 2019-06-18 | 太原理工大学 | 一种基于多注意力空间金字塔特征图像识别方法 |
CN110458115A (zh) * | 2019-08-14 | 2019-11-15 | 四川大学 | 一种基于时序的多帧集成目标检测算法 |
CN110472564A (zh) * | 2019-08-14 | 2019-11-19 | 成都中科云集信息技术有限公司 | 一种基于特征金字塔网络的双向lstm微表情识别抑郁症方法 |
CN110705562A (zh) * | 2019-08-22 | 2020-01-17 | 清华大学 | 一种采用注意力机制的金字塔池化多尺度特征学习方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110633661A (zh) * | 2019-08-31 | 2019-12-31 | 南京理工大学 | 一种融合语义分割的遥感图像目标检测方法 |
CN110782420A (zh) * | 2019-09-19 | 2020-02-11 | 杭州电子科技大学 | 一种基于深度学习的小目标特征表示增强方法 |
CN110909642A (zh) * | 2019-11-13 | 2020-03-24 | 南京理工大学 | 一种基于多尺度语义特征融合的遥感图像目标检测方法 |
Non-Patent Citations (4)
Title |
---|
FAGUI LIU等.FTPN: Scene Text Detection With Feature Pyramid Based Text Proposal Network.《IEEE Access》.2019,第7卷第44219-44228页. * |
基于多级卷积特征金字塔细粒度食物图片识别与移动端应用;李怀德;《中国优秀硕士学位论文全文数据库 信息科技辑》(第1期);第I138-3682页 * |
林均鹏.基于深度学习目标检测的应用研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第1期),第I138-1787页. * |
王金华.基于IAM的深度学习语音情感识别算法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第1期),第I136-317页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111539458A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539458B (zh) | 特征图处理方法、装置、电子设备及存储介质 | |
CN110517278B (zh) | 图像分割和图像分割网络的训练方法、装置和计算机设备 | |
US10937169B2 (en) | Motion-assisted image segmentation and object detection | |
US20230196837A1 (en) | Action recognition method and apparatus, and device and storage medium | |
CN110569721A (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
WO2020048396A1 (zh) | 一种连续图像的目标检测方法、装置、设备及存储介质 | |
EP3968280A1 (en) | Target tracking method and apparatus, storage medium and electronic device | |
CN111368685A (zh) | 关键点的识别方法、装置、可读介质和电子设备 | |
CN111539290B (zh) | 视频动作识别方法、装置、电子设备及存储介质 | |
CN112132847A (zh) | 模型训练方法、图像分割方法、装置、电子设备和介质 | |
US20210256663A1 (en) | Image processing method and apparatus, computer device, and storage medium | |
CN111523449A (zh) | 基于金字塔注意力网络的人群计数方法及系统 | |
CN111224905B (zh) | 一种大规模物联网中基于卷积残差网络的多用户检测方法 | |
EP4222700A1 (en) | Sparse optical flow estimation | |
US11120307B2 (en) | Multi-task learning for dense object detection | |
CN112132279B (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
CN109034176B (zh) | 辨识系统以及辨识方法 | |
CN117037215B (zh) | 人体姿态估计模型训练方法、估计方法、装置及电子设备 | |
CN113763420A (zh) | 一种目标跟踪方法、系统及存储介质和终端设备 | |
CN111951373B (zh) | 一种人脸图像的处理方法和设备 | |
CN110489955B (zh) | 应用于电子设备的图像处理、装置、计算设备、介质 | |
CN116468902A (zh) | 图像的处理方法、装置和非易失性计算机可读存储介质 | |
WO2019212455A1 (en) | Convolutional neural network | |
CN113706390A (zh) | 图像转换模型训练方法和图像转换方法、设备及介质 | |
CN113012072A (zh) | 一种基于注意力网络的图像运动去模糊方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |