CN116127403B - 基于跨模态特征再校准的信息融合方法、设备和存储介质 - Google Patents
基于跨模态特征再校准的信息融合方法、设备和存储介质 Download PDFInfo
- Publication number
- CN116127403B CN116127403B CN202211318472.2A CN202211318472A CN116127403B CN 116127403 B CN116127403 B CN 116127403B CN 202211318472 A CN202211318472 A CN 202211318472A CN 116127403 B CN116127403 B CN 116127403B
- Authority
- CN
- China
- Prior art keywords
- feature
- modal
- fusion
- mode
- recalibration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims description 23
- 230000004927 fusion Effects 0.000 claims abstract description 229
- 239000011159 matrix material Substances 0.000 claims abstract description 103
- 238000000034 method Methods 0.000 claims abstract description 58
- 230000006835 compression Effects 0.000 claims description 57
- 238000007906 compression Methods 0.000 claims description 57
- 230000004913 activation Effects 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 14
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000001994 activation Methods 0.000 description 44
- 238000012545 processing Methods 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007526 fusion splicing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能技术领域,提供了一种基于跨模态特征再校准的信息融合方法、装置、设备和介质,用于有效地提取更准确的特征表达。方法部分包括:获取目标对象的多模态特征Gx和多模态特征Fx;对所述多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix;基于所述多模态特征Gx,对所述多模态融合特征Ix进行空间维度的跨模态再校准,得到空间关联度特征矩阵基于所述多模态特征Fx,对所述多模态融合特征Ix进行通道维度的跨模态再校准,得到通道关联度特征矩阵对空间关联度特征矩阵通道关联度特征矩阵和所述多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于跨模态特征再校准的信息融合方法、计算机设备和计算机存储介质。
背景技术
目前,基于深度学习的计算机视觉任务已经得到非常广泛的应用。而计算机视觉任务的核心是特征提取,现有特征提取方法大都仅提取单一特征进行处理,但面对一些特殊视觉任务,通常还会面对种类繁多,纹理相较背景并不突出的目标,特征难以捕捉,示例性的,这些特殊视觉任务包括半导体等微、纳米级别图像分析任务,这些任务需要获得非常高细粒度的特征信息,单一特征信息很难将其有效分析。因此,多模态信息融合方法为解决单一特征信息难以有效分析的问题,通过不同模态信息之间的数据关联,实现相互间的信息转换与信息互补,有助于网络提取更准确的特征表达,从而减少单模态视觉任务的不确定性。
然而,发明人研究发现,现有的多模态信息融合方法大多将来自不同的模态的特征向量通过简单地操作来实现整合,比如拼接和加权求和。这样的简单操作使得参数之间几乎没有联系,多模态特征并未得到有效利用,导致还是无法有效地提取更准确的特征表达。
发明内容
本申请涉及涉及人工智能技术领域,提供一种基于跨模态特征再校准的信息融合方法、装置、设备和介质,用于有效地提取更准确的特征表达。
第一方面,提供了一种基于跨模态特征再校准的信息融合方法,包括:
获取目标对象的多模态特征Gx和多模态特征Fx;
对所述多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix;
基于所述多模态特征Gx,对所述多模态融合特征Ix进行空间维度的跨模态再校准,得到所述多模态特征Gx与所述多模态融合特征Ix之间的空间关联度特征矩阵
基于所述多模态特征Fx,对所述多模态融合特征Ix进行通道维度的跨模态再校准,得到所述多模态特征Fx与所述多模态融合特征Ix之间的通道关联度特征矩阵
对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox。
进一步地,所述对所述多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix,包括:
将所述多模态特征Gx和多模态特征Fx分别转换为相同尺度参数的特征图C×H×W,再将相同尺度参数的所述多模态特征Gx和多模态特征Fx进行拼接操作,得到多模态融合特征Ix。
进一步地,所述基于所述多模态特征Gx,对所述多模态融合特征Ix进行空间维度的跨模态再校准,得到所述多模态特征Gx与所述多模态融合特征Ix之间的空间关联度特征矩阵包括:
压缩尺度为C×H×W的所述多模态特征Gx的通道维度,得到尺度为的第一多模态压缩特征,n表示压缩参数;
对所述第一多模态压缩特征进行转换处理,得到尺度为的转换特征矩阵
将所述转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Ex;
压缩所述多模态融合特征Ix的通道维度,得到尺度为的第一多模态压缩融合特征;
对所述第一多模态压缩融合特征在H×W维度进行全局池化操作,得到尺度为的池化特征向量;
对所述池化特征向量进行转换,得到尺度为的转换特征向量/>
将所述激活特征矩阵Ex与所述转换特征向量相乘,得到尺度为l×HW的相乘结果Lx
对相乘结果Lx进行转换,得到尺度为l×H×W的空间关联度特征矩阵
进一步地,所述基于所述多模态特征Fx,对所述多模态融合特征Ix进行通道维度的跨模态再校准,得到所述多模态特征Fx与所述多模态融合特征Ix之间的通道关联度特征矩阵包括:
压缩尺度为C×H×W的所述多模态特征Fx的通道维度,得到尺度为的第二多模态压缩特征,n表示压缩参数;
对所述第二多模态压缩特征进行转换,得到尺度为的转换特征矩阵/>
将所述转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Hx;
压缩所述多模态融合特征Ix的通道维度,得到尺度为l×H×W的第二多模态压缩融合特征;
对所述第二多模态压缩融合特征进行转换,得到尺度为HW×l的转换特征向量
将所述激活特征矩阵Hx与所述转换特征向量相乘,得到尺度为/>的相乘结果Px;
对相乘结果Px进行通道数提升,得到尺度为C×l×l的通道关联度特征矩阵
进一步地,所述n为2,所述l为1。
进一步地,所述对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox,包括:
对所述空间关联度特征矩阵进行sigmoid激活,转换为权重值/>
对所述通道关联度特征矩阵进行sigmoid激活,转换为权重值/>
按照所述空间关联度特征矩阵和所述通道关联度特征矩阵/>的尺度参数,压缩所述多模态融合特征Ix的通道维度,得到特征图/>
按照如下方式实现多模态再校准特征融合:
第二方面,提供了一种基于跨模态特征再校准的信息融合方法,所述方法包括:
获取第一多模态数据和第二多模态数据;
将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,每组多模态特征包括不同下采样倍数下对应的多模态特征Gx和多模态特征Fx;
对每组多模态特征进行再校准融合,得到每组多模态特征对应的多模态再校准融合特征,其中,第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到,其他组再校准融合所采用的多模态融合特征为所述其他组再校准融合两个多模态特征融合得到的多模态融合特征,与所述其他组再校准融合的上一组再校准融合输出的多模态再校准融合特征进行融合得到;
将所述多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征,作为最终的跨模态融合特征。
进一步地,所述将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,包括:
将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以在前向传播过程提取经过4次2倍下采样,得到对应的多组多模态特征。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述前述任一项所述的信息融合方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一项所述的信息融合方法的步骤。
上述提供的其中一些方案中,通过多模态特征Gx与多模态特征Fx两者融合的后的多模态融合特征Ix,再构建空间和通道维度这两条处理分支,获取更深层次的特征关联与表达,通过建立不同模态信息之间的数据关联,实现相互间的信息转换与信息互补,有助于网络提取更准确的特征表达,从而减少单模态视觉任务的不确定性,使得多模态特征得到有效利用,有效地提取更准确的特征表达,有利于提高计算机视觉任务的准确性,有效性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例中基于跨模态特征再校准的信息融合方法的一流程示意图;
图2是本申请一实施例中基于跨模态特征再校准的信息融合方法的一流程示意图;
图3是本申请一实施例中基于跨模态特征再校准的信息融合方法的另一流程示意图;
图4是本申请一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中,为了解决传统方案中,多模态特征融合方案中大多将来自不同的模态的特征向量通过简单地操作来实现整合,比如拼接和加权求和,导致参数之间几乎没有联系,多模态特征并未得到有效利用的技术问题,可以理解的是,基于深度学习的计算机视觉任务已经得到非常广泛的应用。而计算机视觉任务的核心是特征提取,现有特征提取方法大都仅提取单一特征进行处理或者简单的多模态融合拼接。面对种类繁多,纹理相较背景并不突出的目标,特征难以捕捉的情况,上述传统方式已不适用。本申请实施例提出了一种基于跨模态特征再校准的特征融合方案,包括方法、装置、计算机设备和存储介质等内容,可有效地提取到更为准确的特征表达。
需要说明的是,本申请实施例提出的基于跨模态特征再校准的特征融合方案,可适用于各种各样的计算机视觉任务中,包括但不局限于目标检测、语义分割等各类视觉任务,具体可应用于包括但不局限于半导体等微、纳米级别等图像分析任务,具体本申请实施例不做限定。比如,如若应用于目标检测任务中,则可基于本申请实施例提供的基于跨模态特征再校准的信息融合方法最终得到的融合特征进行目标检测处理,得到目标检测结果;如若应用于语义分割检测任务中,则可基于本申请实施例提供的基于跨模态特征再校准的信息融合方法最终得到的融合特征进行语义分割处理,得到语义分割结果。
下面对上述各个方面进行详细、完整的描述。
A、一种基于跨模态特征再校准的信息融合方法
在一实施例中,如图1所示,提供了一种基于跨模态特征再校准的信息融合方法,该方法包括如下步骤:
S10:获取目标对象的多模态特征Gx和多模态特征Fx。
S20:对多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix。
目标对象指的是被识别对象,比如可以是被识别半导体对象等需要进行目标检测、语义分割等计算机视觉任务的待识别对象。该实施例中,会先获取目标对象的多模态特征Gx和多模态特征Fx,其中,多模态特征Gx和多模态特征Fx特分别是指的是目标对象的两种不同的模态特征。
在得到多模态特征Gx和多模态特征Fx之后,先对多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix。
S30:基于多模态特征Gx,对多模态融合特征Ix进行空间维度的跨模态再校准,得到多模态特征Gx与多模态融合特征Ix之间的空间关联度特征矩阵
S40:基于多模态特征Fx,对多模态融合特征Ix进行通道维度的跨模态再校准,得到多模态特征Fx与多模态融合特征Ix之间的通道关联度特征矩阵
S50:对空间关联度特征矩阵通道关联度特征矩阵/>和多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox。
在得到多模态融合特征Ix后,再利用多模态特征Gx与多模态融合特征Ix组成空间跨模态再校准分支,对多模态融合特征Ix进行空间维度的跨模态再校准,得到多模态特征Gx与多模态融合特征Ix之间的空间关联度特征矩阵空间关联度特征矩阵/>表征了多模态特征Gx与多模态融合特征Ix之间空间维度的关联度;然后利用多模态特征Fx与多模态融合特征Ix组成通道跨模态再校准分支,对多模态融合特征Ix进行通道维度的跨模态再校准,得到多模态特征Gx与多模态融合特征Ix之间的通道关联度特征矩阵/>通道关联度特征矩阵/>表征了多模态特征Gx与多模态融合特征Ix之间通道维度的关联度,最后将空间和通道两个分支再校准后的特征进行融合,实现多模态特征的高效融合。
与传统的方案相比,本申请实施例通过多模态特征Gx与多模态特征Fx两者融合的后的多模态融合特征Ix,再构建空间和通道维度这两条处理分支,获取更深层次的特征关联与表达,再通过建立不同模态信息之间的数据关联,实现相互间的信息转换与信息互补,有助于网络提取更准确的特征表达,从而减少单模态视觉任务的不确定性,使得多模态特征得到有效利用,有效地提取更准确的特征表达,有利于提高计算机视觉任务的准确性,有效性。
作为一个示例,在一实施例中,步骤S10中,也即对多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix,包括:将多模态特征Gx和多模态特征Fx分别转换为相同尺度参数的特征图C×H×W,再将相同尺度参数的多模态特征Gx和多模态特征Fx进行拼接操作,得到多模态融合特征Ix。其中,C表示通道数、H表示高度、W表示宽度。
该实施例中,为了便于运算和计算,提出了一种具体将多模态特征Gx和多模态特征Fx进行融合得到多模态融合特征Ix的方案,提高了方案的可实施性,具体而言,会将多模态特征Gx和多模态特征Fx分别转换为相同尺度参数的特征图C×H×W,或者再提取多模态特征时就按照相同的尺度参数进行提取,从而得到相同尺度参数的特征图C×H×W,也即多模态特征Gx和多模态特征Fx的尺度大小均为C×H×W,拼接后的多模态融合特征Ix的尺度大小变更为2C×H×W。需要说明的是,在其他示例中,也可以是其他融合操作,本申请实施例不做限定,比如其他维度的拼接等,可依据方案自适应变更。
需要说明的是,在上述实施例中,提出了在空间维度和通道维度的跨模态再校准的实施步骤,本申请实施例,提供了这两个分支具体的处理方式,下面分别描述。
在一实施例中,步骤S30中,也即基于多模态特征Gx,对多模态融合特征Ix进行空间维度的跨模态再校准,得到多模态特征Gx与多模态融合特征Ix之间的空间关联度特征矩阵包括如下步骤:
S31:压缩尺度为C×H×W的多模态特征Gx的通道维度,得到尺度为的第一多模态压缩特征,n表示压缩参数。
S32:对第一多模态压缩特征进行转换处理,得到尺度为的转换特征矩阵
S33:将转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Ex。
S34:压缩多模态融合特征Ix的通道维度,得到尺度为的第一多模态压缩融合特征。
S35:对第一多模态压缩融合特征在H×W维度进行全局池化操作,得到尺度为的池化特征向量。
S36:对池化特征向量进行转换,得到尺度为的转换特征向量/>
S37:将激活特征矩阵Ex与转换特征向量相乘,得到尺度为l×HW的相乘结果Lx。
S38:对相乘结果Lx进行转换,得到尺度为l×H×W的空间关联度特征矩阵
该实施例以及后续实施例中,为了便于说明,均以多模态特征Gx和多模态特征Fx尺度大小为C×H×W为例进行说明,其中:
步骤S31-S33为空间跨模态再校准分支中对多模态特征Gx的再处理过程,可先用卷积网络压缩尺度为C×H×W的多模态特征Gx的通道维度,得到尺度为的第一多模态压缩特征,n表示压缩参数,在得到尺度大小为/>的第一多模态压缩特征后,对该第一多模态压缩特征进行转换处理,得到尺度为/>的转换特征矩阵/>得到转换特征矩阵/>后,将转换特征矩阵/>经Swish激活函数激活处理后,得到激活特征矩阵Ex。
如图2所示,图2为空间与通道维度两个分支的处理过程,图2中示例性的,以n=2为例进行说明,可利用1×1的卷积,改变输入的多模态特征Gx的通道数维度,将输入的多模态特征Gx的特征通道维度压缩一部分,变为可以理解的是,在该实施例中,利用卷积压缩多模态特征Gx减少通道数,即可以实现特征的融合,可提高特征图中的语义信息,也可以显著降低计算量,提升计算效率。上述压缩参数还可以是其他数值,具体不做限定,比如4等,具体不做限定,可依据实际方案需求而定。得到尺度大小为/>的第一多模态压缩特征后,可通过投影函数/>转换得到尺度为/>的转换特征矩阵/>再Swish激活函数激活处理后,得到激活特征矩阵Ex,作为一个示例,具体而言,激活函数计算过程如下所示:/>
需要说明的是,利用Swish激活函数进行计算,由于Swish激活函数的导数恒大于0,在输入为0的附近值时,具有输出具有一定的平滑度,有利于训练过程中的优化和泛化。
步骤S34-S36中,为该空间跨模态再校准分支中对多模态融合特征Ix的处理过程,先压缩多模态融合特征Ix的通道维度,得到尺度为的第一多模态压缩融合特征,再对第一多模态压缩融合特征在H×W维度进行全局池化操作,得到尺度为/>的池化特征向量,对池化特征向量进行转换,得到尺度为/>的转换特征向量/>示例性的,全局池化操作可以指的是全局平均池化操作,或者其他最大值池化操作,具体不做限定。
如图2所示,以l=1为例,将多模态融合特征Ix利用1×1的卷积进行特征通道维度压缩,得到的特征图,将得到的特征/>图在H×W维度进行全局平局池化操作,得到尺度为/>的池化特征向量,以获得各个特征层的全局特征信息,再经过投影函数/>转换为大小为/>的转换特征向量/>
步骤S37-S38中,为对多模态特征Gx和多模态融合特征Ix进行跨模态建模的过程,在得到激活特征矩阵Ex和转换特征向量后,将激活特征矩阵Ex与转换特征向量/>相乘,得到尺度为l×HW的相乘结果Lx,也即/>再对该相乘结果Lx进行转换,得到尺度为l×H×W的空间关联度特征矩阵/>
其中,Lx为转换特征向量与激活特征矩阵Ex的关联度矩阵,大小为l×HW,即多模态特征Gx与多模态融合特征Ix之间的关联度矩阵。通过该关联度矩阵Lx,可以对多模态特征Gx与多模态融合特征Ix之间的空间维度的关联程度进行建模,得到不同模态特征间各个像素点之间的关联程度,不同类别目标间的关联程度较小,同一类别间的关联程度较大,得到之间的信息关系。
如图2所示,将多模态融合特征Ix利用1×1的卷积进行特征通道维度压缩,得到的特征图,将得到的特征/>图在H×W维度进行全局平局池化操作,得到的池化特征向量,以获得各个特征层的全局特征信息,经过投影函数转换为尺度大小为/>的转换特征向量/>最后将转换特征向量与激活特征矩阵Ex相乘,得到两者之间的关联度特征矩阵,尺度大小为1×HW。
该实施例,提供了一种具体的空间维度的跨模态再校准的过程实施方式,提高了方案的可实施性。需要说明的是,在其他实施例中,除了采用上述步骤S31-S38所示的方式得到空间关联度特征矩阵还可以有其他变形实施例,比如,可以不压缩多模态特征Gx的通道维度,而直接进行后续处理,也是可行的方案,具体不做限定。
在一实施例中,步骤S40中,也即基于多模态特征Fx,对多模态融合特征Ix进行通道维度的跨模态再校准,得到多模态特征Fx与多模态融合特征Ix之间的通道关联度特征矩阵包括如下步骤:
S41:压缩尺度为C×H×W的多模态特征Fx的通道维度,得到尺度为的第二多模态压缩特征,n表示压缩参数。
S42:对第二多模态压缩特征进行转换,得到尺度为的转换特征矩阵/>
S43:将转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Hx。
S44:压缩多模态融合特征Ix的通道维度,得到尺度为l×H×W的第二多模态压缩融合特征。
S45:对第二多模态压缩融合特征进行转换,得到尺度为HW×l的转换特征向量
S46:将激活特征矩阵Hx与转换特征向量相乘,得到尺度为/>的相乘结果Px。
S47:对相乘结果Px进行通道数提升,得到尺度为C×l×l的通道关联度特征矩阵
步骤S41-S43为通道维度跨模态再校准分支中,对多模态特征Fx的处理过程,可先用卷积网络压缩尺度为C×H×W的多模态特征Fx的通道维度,得到尺度为的第二多模态压缩特征,n表示压缩参数,压缩参数与压缩多模态特征Gx时的压缩参数相同,在得到尺度大小为/>的第二多模态压缩特征后,再对该第二多模态压缩特征进行转换处理,得到尺度为/>的转换特征矩阵/>得到转换特征矩阵/>后,将转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Hx。
如图2所示,图2为空间与通道维度两个分支的处理过程以及融合过程,图2中示例性的,以n=2为例进行说明,可利用1×1的卷积,改变输入的多模态特征Fx的通道数维度,将输入的Fx的特征通道维度压缩一部分,变为可以理解的是,在该实施例中,利用卷积压缩多模态特征Fx减少通道数,即可以实现特征的融合,提高特征图中的语义信息,也可以显著降低计算量,提升计算效率。上述压缩参数还可以是数值,具体不做限定,比如4等,具体不做限定,可依据实际方案需求而定。得到大小为/>的第二多模态压缩特征,可通过投影函数/>转换得到尺度为/>的转换特征矩阵/>再通过如下Swish激活函数激活处理后,得到激活特征矩阵Hx:
需要说明的是,利用Swish激活函数进行计算,由于Swish激活函数的导数恒大于0,在输入为0的附近值时,具有输出具有一定的平滑度,同样有利于训练过程中的优化和泛化。
步骤S44-S47中,为该通道跨模态再校准分支中对多模态融合特征Ix的处理过程,与空间跨模态再校准分支存在较大差异,在该过程中,先压缩多模态融合特征Ix的通道维度,得到尺度为l×H×W的第二多模态压缩融合特征,再对该第二多模态压缩融合特征进行转换,得到尺度为HW×l的转换特征向量将激活特征矩阵Hx与转换特征向量/>相乘,得到尺度为/>的相乘结果Px,计算公式为:/>对相乘结果Px进行通道数提升,得到尺度为C×l×l的通道关联度特征矩阵/>
如图2所示,以l=1为例,将多模态融合特征Ix利用1×1的卷积进行特征通道维度压缩,得到1×H×W的特征图作为第二多模态压缩融合特征,将得到的特征1×H×W,经过投影函数B'(·)=I1×H×W→IHW×1,转换为大小为HW×1的转换特征向量将激活特征矩阵Hx与转换特征向量/>相乘,得到特征向量/>与特征矩阵Hx的Px,再将Px经过1×1卷积进行通道数提升,转换为大小为C×1×1的通道关联度特征矩阵/>
该实施例,提供了一种具体的通道维度的跨模态再校准的过程实施方式,提高了方案的可实施性。需要说明的是,在其他实施例中,除了采用上述步骤S41-S47所示的方式得到通道关联度特征矩阵还可以有其他变形实施例,比如,可以不压缩多模态特征Fx的通道维度,而直接进行后续处理,也是可行的方案,具体不做限定。
作为一个示例,在一实施例中,步骤S50中,也即对空间关联度特征矩阵通道关联度特征矩阵/>和多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox,包括如下步骤:
S51:对空间关联度特征矩阵进行sigmoid激活,转换为权重值/>
S52:对通道关联度特征矩阵进行sigmoid激活,转换为权重值/>
S53:按照空间关联度特征矩阵和通道关联度特征矩阵/>的尺度参数,压缩多模态融合特征Ix的通道维度,得到特征图/>
S54:按照如下方式实现多模态再校准特征融合:
该实施例中,在得到空间关联度特征矩阵和通道关联度特征矩阵/>之后,基于空间关联度特征矩阵/>和通道关联度特征矩阵/>对多模态融合特征Ix实现空间与通道维度的跨模态特征融合,先是对空间关联度特征矩阵/>进行sigmoid激活,转换为权重值具体而言,得到的空间关联度特征矩阵/>进行sigmoid激活转换为权重值/>计算公式为:
该实施例中,利用sigmoid函数,可以将多模态特征Gx与多模态融合特征Ix之间的关联度矩阵转换为权重值,并对权重值进行激活,使得关联程度较大的像素点间的关联程度变得更大,关联程度较小的像素点间关联程度变得更小,进而可以利用各个像素点之间的关联程度不同,进一步增加不同类别间的特征差异,减少同一类别间的特征差异性。
同理,将得到的相似度矩阵进行sigmoid激活转换为权重值/>计算公式为:
最后,将多模态融合特征Ix利用1×1的卷积进行特征通道维度压缩,得到尺度大小为C×H×W的特征图最后按照如下方式实现多模态再校准特征融合:实现多模态再校准特征融合。
该实施例中,提出了最终两条分支的跨模态融合处理具体过程,通过利用转换为权重值的方式再进行融合,可对权重值进行激活,使得关联程度较大的像素点间的关联程度变得更大,关联程度较小的像素点间关联程度变得更小,进而可以利用各个像素点之间的关联程度不同,进一步增加不同类别间的特征差异,减少同一类别间的特征差异性。
需要说明的是,再其他实施例中,也可以无需转换为权重值,按照空间关联度特征矩阵和通道关联度特征矩阵/>的尺度参数,压缩多模态融合特征Ix的通道维度,得到特征图/>并可直接对特征图/>空间关联度特征矩阵/>和通道关联度特征矩阵/>进行拼接,以实现多模态再校准特征融合,具体本申请实施例不做限定。
在一实施例中,结合上述实施例,还提供了一种基于跨模态特征再校准的信息融合方法,其特征在于,方法包括如下步骤:
S101:获取第一多模态数据和第二多模态数据;
S102:将第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,每组多模态特征包括不同下采样倍数下对应的多模态特征Gx和多模态特征Fx;
S103:对每组多模态特征进行再校准融合,得到每组多模态特征对应的多模态再校准融合特征,其中,第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到,其他组再校准融合所采用的多模态融合特征为其他组再校准融合两个多模态特征融合得到的多模态融合特征,与其他组再校准融合的上一组再校准融合输出的多模态再校准融合特征进行融合得到。
S104:将多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征,作为最终的跨模态融合特征。
该实施例中,利用了前述实施例得到的多模态再校准融合特征Ox的方式,进一步提出了一种新的信息融合方法,具体而言,将每组多模态特征下得到的多模态再校准融合特征Ox,作为前向传播中的下一组的输入进行融合再校准融合,进一步建立不同模态信息之间的数据关联,更能够实现相互间的信息转换与信息互补,有助于网络提取更准确的特征表达,从而减少单模态视觉任务的不确定性,提高特征表达能力。
在一实施例,上述步骤S101中,也即将第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,包括:将第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以在前向传播过程提取经过4次2倍下采样,得到对应的多组多模态特征。也即是多组多模态特征共包括4组。
需要说明的是,前向传播过程中,除了进行4次2倍下采样外,还可以是其他的次数和/或倍数,依据实际应用场景可配置,比如6次、4倍等等,具体本申请实施例不做限定。
为便于理解该实施例,以4组为例,图3为本申请实施例提跨模态特征融合网络的网络结构处理过程示意图,请参阅图3所示,第一多模态数据和第二多模态数据分别通过一条卷积神经网络分支进行前向传播,实现特征提取,在前向传播过程中经过4次2倍下采样,实现特征压缩和通道数的扩充。每个下采样层,都在两个分支间加入跨模态特征再校准模块(该跨模态特征再校准模块也即是实现前述实施例中跨模态再校准的过程)进行特征融合。第一多模态数据和第二多模态数据在第一次下采样后分别得到G1、F1两个特征图,将G1和F1作为第一个跨模态特征再校准模块的两个输入,进行跨模态特征融合,得到的第一个多模态再校准融合特征O1输出。第一多模态数据和第二多模态数据在第二次下采样后分别得到G2、F2两个特征图,将G2和F2作为第二个跨模态特征再校准模块的两个输入,并将第一个跨模态特征再校准模块的输出O1与第二个跨模态特征再校准模块得到的融合特征Ix进行拼接操作后,得到的特征作为第二个跨模态特征再校准模块的Ix值,然后进行跨模态特征融合,得到的第一个多模态再校准融合特征O2。与此类推,第二个跨模态特征再校准模块的输出O2以及第三个跨模态特征再校准模块的输出O3,采用同样的方式向后传输,最终得到的第四个多模态再校准融合特征输出O4即为网络最终输出的跨模态融合特征,该特征可用于后续的目标检测及语义分割等各类视觉任务。
需要说明的是,关于该实施例中各个跨模态特征再校准模块的处理内容,可对应参阅前述实施例的描述,其中,第一个多模态再校准融合特征的处理过程可参阅前述实施例的描述,后续多模态再校准融合特征的处理过程,其多模态融合特征Ix,是会融合前一个多模态再校准融合特征输出,其他处理过程相同,为减少冗余,这里不重复说明,所实现的更多内容和解释,可对应参阅前述所实现的内容,这里不重复描述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
B、一种基于跨模态特征再校准的信息融合装置
在一实施例中,提供了一种基于跨模态特征再校准的信息融合装置,包括:
获取模块101,用于获取目标对象的多模态特征Gx和多模态特征Fx;
多模态融合模块102,用于对所述多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix;
空间再校准模块103,用于基于所述多模态特征Gx,对所述多模态融合特征Ix进行空间维度的跨模态再校准,得到所述多模态特征Gx与所述多模态融合特征Ix之间的空间关联度特征矩阵
通道再校准模块104,用于基于所述多模态特征Fx,对所述多模态融合特征Ix进行通道维度的跨模态再校准,得到所述多模态特征Fx与所述多模态融合特征Ix之间的通道关联度特征矩阵
跨模态融合模块105,用于对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox。
在一实施例中,多模态融合模块102具体用于:
将所述多模态特征Gx和多模态特征Fx分别转换为相同尺度参数的特征图C×H×W,再将相同尺度参数的所述多模态特征Gx和多模态特征Fx进行拼接操作,得到多模态融合特征Ix。
在一实施例中,空间再校准模块103具体用于:
压缩尺度为C×H×W的所述多模态特征Gx的通道维度,得到尺度为的第一多模态压缩特征,n表示压缩参数;
对所述第一多模态压缩特征进行转换处理,得到尺度为的转换特征矩阵
将所述转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Ex;
压缩所述多模态融合特征Ix的通道维度,得到尺度为的第一多模态压缩融合特征;
对所述第一多模态压缩融合特征在H×W维度进行全局池化操作,得到尺度为的池化特征向量;
对所述池化特征向量进行转换,得到尺度为的转换特征向量/>
将所述激活特征矩阵Ex与所述转换特征向量相乘,得到尺度为l×HW的相乘结果Lx
对相乘结果Lx进行转换,得到尺度为l×H×W的空间关联度特征矩阵
在一实施例中,通道再校准模块104具体用于:
压缩尺度为C×H×W的所述多模态特征Fx的通道维度,得到尺度为的第二多模态压缩特征,n表示压缩参数;
对所述第二多模态压缩特征进行转换,得到尺度为的转换特征矩阵/>
将所述转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Hx;
压缩所述多模态融合特征Ix的通道维度,得到尺度为l×H×W的第二多模态压缩融合特征;
对所述第二多模态压缩融合特征进行转换,得到尺度为HW×l的转换特征向量
将所述激活特征矩阵Hx与所述转换特征向量相乘,得到尺度为/>的相乘结果Px;
对相乘结果Px进行通道数提升,得到尺度为C×l×l的通道关联度特征矩阵
在一实施例中,所述n为2,所述l为1。
在一实施例中,跨模态融合模块105具体用于:
对所述空间关联度特征矩阵进行sigmoid激活,转换为权重值/>
对所述通道关联度特征矩阵进行sigmoid激活,转换为权重值/>
按照所述空间关联度特征矩阵和所述通道关联度特征矩阵/>的尺度参数,压缩所述多模态融合特征Ix的通道维度,得到特征图/>
按照如下方式实现多模态再校准特征融合:
在一实施例中,提供了一种跨模态信息融合装置,包括:
获取模块201,用于获取第一多模态数据和第二多模态数据;
提取模块202,用于将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,每组多模态特征包括不同下采样倍数下对应的多模态特征Gx和多模态特征Fx;
再校准模块203,使用基于跨模态特征再校准的信息融合装置对每组多模态特征进行跨模态再校准融合,得到每组多模态特征对应的多模态再校准融合特征,其中,第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到,其他组再校准融合所采用的多模态融合特征为所述其他组再校准融合两个多模态特征融合得到的多模态融合特征,与所述其他组再校准融合的上一组再校准融合输出的多模态再校准融合特征进行融合得到;
特征融合模块204,将所述多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征,作为最终的跨模态融合特征。
在一实施例中,提取模块202,具体用于将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以在前向传播过程提取经过4次2倍下采样,得到对应的多组多模态特征。
需要说明的是,基于跨模态特征再校准的信息融合装置或者跨模态信息融合装置的更多内容,可对应参阅前述方法实施例中的对应描述,这里不重复说明。
C、计算机设备、计算机存储介质和计算机程序产品
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于跨模态特征再校准的信息融合方法所涉及的数据。该计算机程序被处理器执行时以实现前述实施例提供的一种基于跨模态特征再校准的信息融合方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
在一实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述如前述任一项所述的信息融合方法的步骤。
在一个实施例中,提供了一个或多个存储有计算机程序的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机程序,计算机程序被一个或多个处理器执行时实现前述实施例提供的一种基于跨模态特征再校准的信息融合方法。
关于计算机设备和计算机存储介质所实现的功能内容或步骤,可对应参阅前述实施例的描述,这里不重复描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于跨模态特征再校准的信息融合方法,其特征在于,包括:
获取目标对象的多模态特征Gx和多模态特征Fx;将所述目标对象的第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,每组多模态特征包括不同下采样倍数下对应的多模态特征Gx和多模态特征Fx;
对所述多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix;
基于所述多模态特征Gx,对所述多模态融合特征Ix进行空间维度的跨模态再校准,得到所述多模态特征Gx与所述多模态融合特征Ix之间的空间关联度特征矩阵
基于所述多模态特征Fx,对所述多模态融合特征Ix进行通道维度的跨模态再校准,得到所述多模态特征Fx与所述多模态融合特征Ix之间的通道关联度特征矩阵
对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox;
所述基于所述多模态特征Gx,对所述多模态融合特征Ix进行空间维度的跨模态再校准,得到所述多模态特征Gx与所述多模态融合特征Ix之间的空间关联度特征矩阵包括:
压缩尺度为C×H×W的所述多模态特征Gx的通道维度,得到尺度为的第一多模态压缩特征,n表示压缩参数;
对所述第一多模态压缩特征进行转换处理,得到尺度为的转换特征矩阵/>
将所述转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Ex;
压缩所述多模态融合特征Ix的通道维度,得到尺度为的第一多模态压缩融合特征;
对所述第一多模态压缩融合特征在H×W维度进行全局池化操作,得到尺度为的池化特征向量;
对所述池化特征向量进行转换,得到尺度为的转换特征向量/>
将所述激活特征矩阵Ex与所述转换特征向量相乘,得到尺度为l×HW的相乘结果Lx;
对相乘结果Lx进行转换,得到尺度为l×H×W的空间关联度特征矩阵
C表示通道数、H表示高度、W表示宽度。
2.如权利要求1所述的方法,其特征在于,所述对所述多模态特征Gx和多模态特征Fx进行融合,得到多模态融合特征Ix,包括:
将所述多模态特征Gx和多模态特征Fx分别转换为相同尺度参数的特征图C×H×W,再将相同尺度参数的所述多模态特征Gx和多模态特征Fx进行拼接操作,得到多模态融合特征Ix;
C表示通道数、H表示高度、W表示宽度。
3.如权利要求1所述的方法,其特征在于,所述基于所述多模态特征Fx,对所述多模态融合特征Ix进行通道维度的跨模态再校准,得到所述多模态特征Fx与所述多模态融合特征Ix之间的通道关联度特征矩阵包括:
压缩尺度为C×H×W的所述多模态特征Fx的通道维度,得到尺度为的第二多模态压缩特征,n表示压缩参数;
对所述第二多模态压缩特征进行转换,得到尺度为的转换特征矩阵/>
将所述转换特征矩阵经Swish激活函数激活处理后,得到激活特征矩阵Hx;
压缩所述多模态融合特征Ix的通道维度,得到尺度为l×H×W的第二多模态压缩融合特征;
对所述第二多模态压缩融合特征进行转换,得到尺度为HW×l的转换特征向量
将所述激活特征矩阵Hx与所述转换特征向量相乘,得到尺度为/>的相乘结果Px;
对相乘结果Px进行通道数提升,得到尺度为C×l×l的通道关联度特征矩阵
C、H和W分别表示所述多模态特征Fx的通道数、高度和宽度。
4.如权利要求3所述的方法,其特征在于,所述n为2,所述l为1。
5.如权利要求1-4任一项所述的方法,其特征在于,所述对空间关联度特征矩阵通道关联度特征矩阵/>和所述多模态融合特征Ix进行多模态再校准特征融合,得到多模态再校准融合特征Ox,包括:
对所述空间关联度特征矩阵进行sigmoid激活,转换为权重值/>
对所述通道关联度特征矩阵进行sigmoid激活,转换为权重值/>
按照所述空间关联度特征矩阵和所述通道关联度特征矩阵/>的尺度参数,压缩所述多模态融合特征Ix的通道维度,得到特征图/>
按照如下方式实现多模态再校准特征融合:
6.一种基于跨模态特征再校准的信息融合方法,其特征在于,所述方法包括:
获取第一多模态数据和第二多模态数据;
将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,每组多模态特征包括不同下采样倍数下对应的多模态特征Gx和多模态特征Fx;
使用如权利要求1-5任一项所述的方法对每组多模态特征进行再校准融合,得到每组多模态特征对应的多模态再校准融合特征,其中,第一组再校准融合所采用的多模态融合特征为基于第一组多模态特征的两个多模态特征融合得到,其他组再校准融合中所采用的多模态融合特征为所述其他组再校准融合的两个多模态特征融合得到的多模态融合特征,与所述其他组再校准融合中的上一组再校准融合输出的多模态再校准融合特征进行融合得到;
将所述多组多模态特征中最后一组再校准融合得到的多模态再校准融合特征,作为最终的跨模态融合特征。
7.如权利要求6所述的方法,其特征在于,所述将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以提取不同下采样倍数对应的多组多模态特征,包括:
将所述第一多模态数据和第二多模态数据分别通过卷积神经网络分支进行前向传播,以在前向传播过程提取经过4次2倍下采样,得到对应的多组多模态特征。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的信息融合方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的信息融合方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211318472.2A CN116127403B (zh) | 2022-10-26 | 2022-10-26 | 基于跨模态特征再校准的信息融合方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211318472.2A CN116127403B (zh) | 2022-10-26 | 2022-10-26 | 基于跨模态特征再校准的信息融合方法、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116127403A CN116127403A (zh) | 2023-05-16 |
CN116127403B true CN116127403B (zh) | 2024-02-06 |
Family
ID=86296193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211318472.2A Active CN116127403B (zh) | 2022-10-26 | 2022-10-26 | 基于跨模态特征再校准的信息融合方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127403B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190337A1 (zh) * | 2016-05-06 | 2017-11-09 | 中国科学院自动化研究所 | 有监督的多模态脑影像融合方法 |
WO2021000664A1 (zh) * | 2019-07-03 | 2021-01-07 | 中国科学院自动化研究所 | 跨模态目标检测中的差异自动校准方法、系统、装置 |
CN113688946A (zh) * | 2021-10-08 | 2021-11-23 | 北京航空航天大学 | 基于空间关联的多标签图像识别方法 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN115034257A (zh) * | 2022-05-09 | 2022-09-09 | 西北工业大学 | 一种基于特征融合的跨模态信息目标识别方法及装置 |
CN115169507A (zh) * | 2022-09-08 | 2022-10-11 | 华中科技大学 | 类脑多模态情感识别网络、识别方法及情感机器人 |
CN115203380A (zh) * | 2022-09-19 | 2022-10-18 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159128B2 (en) * | 2011-01-13 | 2015-10-13 | Rutgers, The State University Of New Jersey | Enhanced multi-protocol analysis via intelligent supervised embedding (empravise) for multimodal data fusion |
-
2022
- 2022-10-26 CN CN202211318472.2A patent/CN116127403B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017190337A1 (zh) * | 2016-05-06 | 2017-11-09 | 中国科学院自动化研究所 | 有监督的多模态脑影像融合方法 |
WO2021000664A1 (zh) * | 2019-07-03 | 2021-01-07 | 中国科学院自动化研究所 | 跨模态目标检测中的差异自动校准方法、系统、装置 |
CN113688946A (zh) * | 2021-10-08 | 2021-11-23 | 北京航空航天大学 | 基于空间关联的多标签图像识别方法 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN115034257A (zh) * | 2022-05-09 | 2022-09-09 | 西北工业大学 | 一种基于特征融合的跨模态信息目标识别方法及装置 |
CN115169507A (zh) * | 2022-09-08 | 2022-10-11 | 华中科技大学 | 类脑多模态情感识别网络、识别方法及情感机器人 |
CN115203380A (zh) * | 2022-09-19 | 2022-10-18 | 山东鼹鼠人才知果数据科技有限公司 | 基于多模态数据融合的文本处理系统及其方法 |
Non-Patent Citations (4)
Title |
---|
"DSSEMFF: A Depthwise Separable Squeeze-and-excitation Based on Multi-feature Fusion for Image Classification";Junjun Liu et.al;《Sensing and Imaging》;第23卷;全文 * |
"一种多模态信息融合的语音情感识别研究";江东霖;《中国优秀硕士学位论文全文数据库信息科技辑》;第2021年卷(第09期);第I136-57页 * |
"多源特征自适应融合网络的高分遥感影像语义分割";张文凯等;《中国图像图形学报》;第27卷(第8期);第2516-2526页 * |
基于深度神经网络的多模态特征自适应聚类方法;敬明旻;计算机应用与软件;第37卷(第10期);第262-269页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116127403A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lan et al. | MADNet: A fast and lightweight network for single-image super resolution | |
Chen et al. | Fast image processing with fully-convolutional networks | |
CN108509915B (zh) | 人脸识别模型的生成方法和装置 | |
Chen et al. | The face image super-resolution algorithm based on combined representation learning | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
US20190236440A1 (en) | Deep convolutional neural network architecture and system and method for building the deep convolutional neural network architecture | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN111340077B (zh) | 基于注意力机制的视差图获取方法和装置 | |
CN110807437B (zh) | 视频粒度特征确定方法、装置和计算机可读存储介质 | |
US20240135174A1 (en) | Data processing method, and neural network model training method and apparatus | |
CN111062324A (zh) | 人脸检测方法、装置、计算机设备和存储介质 | |
US20220156891A1 (en) | Methods and systems for deblurring blurry images | |
CN111783935B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
Zhang et al. | Weakly-supervised contrastive learning-based implicit degradation modeling for blind image super-resolution | |
CN111833360A (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
Chen et al. | A lightweight iterative error reconstruction network for infrared image super-resolution in smart grid | |
Hua et al. | Dynamic scene deblurring with continuous cross-layer attention transmission | |
CN116127403B (zh) | 基于跨模态特征再校准的信息融合方法、设备和存储介质 | |
CN114494006A (zh) | 图像重建模型的训练方法、装置、电子设备及存储介质 | |
CN115862095A (zh) | 一种自适应视线估计方法、系统、电子设备及存储介质 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
Liu et al. | Efficient video quality assessment with deeper spatiotemporal feature extraction and integration | |
Bhattacharyya et al. | Efficient unsupervised monocular depth estimation using attention guided generative adversarial network | |
Zhu et al. | HDRfeat: A feature-rich network for high dynamic range image reconstruction | |
CN115294361A (zh) | 一种特征提取的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |