CN117636074B - 基于特征交互融合的多模态图像分类方法及系统 - Google Patents
基于特征交互融合的多模态图像分类方法及系统 Download PDFInfo
- Publication number
- CN117636074B CN117636074B CN202410100735.5A CN202410100735A CN117636074B CN 117636074 B CN117636074 B CN 117636074B CN 202410100735 A CN202410100735 A CN 202410100735A CN 117636074 B CN117636074 B CN 117636074B
- Authority
- CN
- China
- Prior art keywords
- features
- characteristic
- feature
- attention
- output end
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000003993 interaction Effects 0.000 title claims abstract description 22
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 238000000354 decomposition reaction Methods 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000010586 diagram Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 230000002452 interceptive effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000005215 recombination Methods 0.000 claims description 10
- 230000006798 recombination Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像分类技术领域,特别是涉及基于特征交互融合的多模态图像分类方法及系统,其中所述方法包括:获取待分类的第一模态图像和第二模态图像;将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果;其中,训练后的多模态图像分类模型用于对不同模态的图像采用不同的网络结构进行特征提取,分别得到特有特征和共享特征;采用注意力机制对特有特征和共享特征进行融合,采用分类器对融合特征进行分类,本发明利用共享特征与特有特征之间的相互作用,捕获和强化特征之间的关联性,有助于提升分类性能。
Description
技术领域
本发明涉及图像分类技术领域,特别是涉及基于特征交互融合的多模态图像分类方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
图像分类是计算机视觉的重要研究方向,在身份认证等众多任务中具有广泛的应用。虽然现有的方法在图像分类任务中取得了较好的性能,然而对于某些任务,只是用单一模态的图像进行分类难以达到令人满意的效果。因此,融合多模态图像的信息可以克服单模态图像的信息表达有效的局限性,有助于进一步提升分类性能。深度学习由于其强大的特征学习能力,已被广泛应用到图像识别任务中。在某些多模态分类任务中,数据较少,深度学习容易陷入过拟合。另外,现有的深度学习方法并未考虑到多模态图像之间的信息交互,限制了分类性能的提升。
发明内容
为了解决现有技术的不足,本发明提供了基于特征交互融合的多模态图像分类方法及系统;采用多分支共享特征分解模块,利用多分支多尺度卷积获得关注不同的具有判别力的区域的分解区域,使其更关注于感兴趣区域。采用交互式注意力融合模块,利用共享特征与特有特征之间的相互作用,捕获和强化特征之间的关联性。
一方面,提供了基于特征交互融合的多模态图像分类方法,包括:获取待分类的第一模态图像和第二模态图像;将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果。
其中,训练后的多模态图像分类模型用于:对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>;对特征图/>提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>。
对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征;对共享特征/>进行共享特征分解得到分解特征/>,将分解特征进行拼接得到共享特征/>。
对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的key参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的key参与到共享特征/>的注意力计算中,得到第二特征/>;将第一特征/>与第二特征/>拼接后,得到融合特征/>;对融合特征/>进行分类得到分类结果。
另一方面,提供了基于特征交互融合的多模态图像分类系统,包括:获取模块,其被配置为:获取待分类的第一模态图像和第二模态图像;分类模块,其被配置为:将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果。
其中,训练后的多模态图像分类模型用于:对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>;对特征图/>提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>。
对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征;对共享特征/>进行共享特征分解得到分解特征/>,将分解特征进行拼接得到共享特征/>。
对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的key参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的key参与到共享特征/>的注意力计算中,得到第二特征/>;将第一特征/>与第二特征/>拼接后,得到融合特征/>;对融合特征/>进行分类得到分类结果。
上述技术方案具有如下优点或有益效果:本发明采用共享特征分解单元,利用多分支多尺度卷积获得关注不同的具有判别力的区域的分解特征,使其更关注于感兴趣区域。采用交互式注意力融合模块,利用共享特征与特有特征之间的相互作用,捕获和强化特征之间的关联性,有助于提升分类性能。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的图像分类系统模型框架示意图。
图2为实施例一的共享特征分解单元中的一个分支示意图。
图3为实施例一的交互式注意力融合单元示意图。
图4为实施例一的非局部注意力层示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一提供了基于特征交互融合的多模态图像分类方法,包括:S101:获取待分类的第一模态图像和第二模态图像;S102:将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果。
其中,训练后的多模态图像分类模型用于:对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>;对特征图/>提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>。
对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征;对共享特征/>进行共享特征分解得到分解特征/>,将分解特征进行拼接得到共享特征/>。
对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的键值参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的键值参与到共享特征/>的注意力计算中,得到第二特征/>;将第一特征/>与第二特征/>拼接后,得到融合特征/>;对融合特征/>进行分类得到分类结果。
进一步地,所述训练后的多模态图像分类模型,其训练过程包括:构建训练集,所述训练集为已知图像分类结果的多模态图像;将训练集,输入到多模态图像分类模型中,对模型进行训练,当模型的总损失函数值不再下降,或者,迭代次数超过设定次数时,停止训练,得到训练后的多模态图像分类模型。
进一步地,所述模型的总损失函数,具体表达式为:;其中,/>为正交损失函数,/>为共享特征分解单元中的多样性损失函数,/>为分类交叉熵损失函数,/>、/>和/>表示权重。
正交损失函数,公式表达为:;/>;;其中,/>表示两个模态图像特有特征之间的正交损失函数,表示特有特征与共享特征的正交损失函数;/>表示第一模态图像的特有特征,表示第二模态图像的特有特征,/>表示分解特征拼接得到共享特征;/>表示两个模态图像特有特征拼接后的特有特征,/>是二范数,用于衡量两个特征之间的正交性,通过最小化向量之间的内积,使得特征在特征空间中保持正交。
;其中,/>为共享特征分解单元中的多样性损失函数;/>为多分支共享特征分解模块中第/>个分支获得的分解特征,尺寸为/>,/>为高,/>为宽。
;其中,Softmax函数实现将每个分解特征的特征值映射到[0,1]之间,Maxpooling函数实现跨特征最大池化,对不同分解特征的同一位置进行池化操作,/>表示跨特征最大池化操作中每一位置选取的最大值来自第/>个分解特征。
;其中,/>表示分类交叉熵损失函数:其中,/>为样本的真实标签,/>为样本的预测标签,/>为当前batch中的样本数,为类别数。
应理解地,两个模态图像的特有特征可以保留每个模态图像的独特信息,提供更加多样和丰富的信息,应具有较低的相关性,以更好地保持模态间的独立性,避免模态之间的相互干扰。模态图像的特有特征与共享特征分别关注于共同信息与模态的独特信息,两者之间保持较低的相关性,可以更好地保持它们的互补性,减少特征之间的冗余信息。因此均使用正交约束使其满足较低的相关性。为了学习更多的关注不同部位的分解特征,对于得到的分解特征进行多样性约束,使得每个分解特征变得互斥。
进一步地,如图1所示,所述训练后的多模态图像分类模型,其网络结构包括:浅层特征提取网络;所述浅层特征提取网络的输入值为第一模态图像和第二模态图像。
浅层特征提取网络的输出端分别与第一卷积神经网络的输入端和第一深度注意力网络Transformer的输入端连接;浅层特征提取网络的输出端还分别与第二卷积神经网络的输入端和第二深度注意力网络Transformer的输入端连接;第一卷积神经网络的输出端和第二卷积神经网络的输出端,均与第一拼接单元的输入端连接;第一深度注意力网络Transformer的输出端和第二深度注意力网络Transformer的输出端,均与第二拼接单元的输入端连接。
第一拼接单元的输出端与非局部注意力层的输入端连接,非局部注意力层的输出端与交互式注意力融合单元的输入端连接,交互式注意力融合单元的第一输出端与第四拼接单元的输入端连接,第四拼接单元的输出端与输出层连接。
第二拼接单元的输出端与共享特征分解单元的输入端连接,共享特征分解单元的输出端与第三拼接单元的输入端连接,第三拼接单元的输出端与交互式注意力融合单元的输入端连接,交互式注意力融合单元的第二输出端与第四拼接单元的输入端连接。
进一步地,所述浅层特征提取网络,采用卷积神经网络来实现。所述浅层特征提取网络,对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>。
进一步地,所述第一卷积神经网络,对特征图提取模态的特有特征,得到特有特征/>;所述第二卷积神经网络,对特征图/>提取模态的特有特征,得到特有特征/>;所述第一拼接单元,将特有特征/>与特有特征/>进行拼接,得到特有特征/>。
进一步地,所述第一深度注意力网络,对特征图提取模态的共享特征,得到共享特征/>;所述第二深度注意力网络,对对特征图/>提取模态的共享特征,得到共享特征;所述第二拼接单元,将共享特征/>与共享特征/>进行拼接得到共享特征/>。
进一步地,所述共享特征分解单元,对共享特征进行共享特征分解得到分解特征/>,所述第三拼接单元,将分解特征进行拼接得到共享特征/>。
进一步地,所述交互式注意力融合单元,对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的键值参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的键值参与到共享特征/>的注意力计算中,得到第二特征/>。
进一步地,所述第四拼接单元,将第一特征与第二特征/>拼接后,得到融合特征;所述输出层,对融合特征/>进行分类得到分类结果。
进一步地,所述第一拼接单元、第二拼接单元、第三拼接单元和第四拼接单元的内部工作过程是一样的,均实现对输入值的串联拼接。
进一步地,如图2所示,所述共享特征分解单元,其网络结构包括:共有个并列的分支,各个分支参数不共享;每个分支,包括:并联的第一子分支、第二子分支和第三子分支。
所述第一子分支,包括依次串联的第一卷积层和第二卷积层;所述第二子分支,包括依次串联的第三卷积层和第四卷积层;所述第三子分支,包括依次串联的最大池化层和第五卷积层。
第一卷积层的输入端作为共享特征分解单元的输入端,第三卷积层的输入端和最大池化层的输入端均与第一卷积层的输入端连接;第二卷积层的输出端、第四卷积层的输出端和第五卷积层的输出端均与通道拼接单元的输入端连接,通道拼接单元的输出端与跨通道平均池化层的输入端连接,跨通道平均池化层输出端作为共享特征分解单元的输出端。
第一卷积层和第三卷积层均使用一个1×1的卷积降维减少计算量,第二卷积层应用3×3的卷积层,第四卷积层,采用5×5的卷积层;第三个子分支先经过3×3的最大池化,再经过1×1的卷积;将经过三个子分支的多尺度卷积后的特征进行通道拼接,然后,应用跨通道平均池化,得到当前分支的分解特征,每个分解特征关注于图像中的具有判别力区域,将分解特征进行拼接后得到共享特征。
应理解地,跨通道平均池化,是指在通道维度上进行平均,即对每个通道同一位置的值进行平均池化操作。
进一步地,所述共享特征分解单元,其工作过程包括:共享特征经过共有个分支,每个分支内结构相同,但参数不共享;每个分支内为多尺度卷积计算,共有三个子分支,第一子分支依次经过1×1和3×3的卷积;第二子分支依次经过1×1和5×5的卷积;第三子分支先经过3×3的最大池化,再经过1×1的卷积,经过三个子分支后特征进行相加并应用跨通道平均池化得到一个分解特征。
应理解地,1×1的卷积用于特征降维减少计算量,引入更多的非线性,提高泛化能力;3×3、5×5、3×3池化层,不同尺寸卷积核的使用可以使提取出来的特征具有多样化。跨通道平均池化会对多个特征的权重进行平均化操作。
进一步地,如图3所示,交互式注意力融合单元,包括:第一输入端和第二输入端;所述第一输入端用于输入特有特征,所述第二输入端用于输入共享特征/>;第一输入端与第六卷积层的输入端、第七卷积层的输入端和第九卷积层的输入端连接;第二输入端分别与第八卷积层的输入端、第十卷积层的输入端和第十一卷积层的输入端连接。
第七卷积层的输出端和第八卷积层的输出端,与第一乘积单元的输入端连接;第六卷积层的输出端和第一乘积单元的输出端,均与第二乘积单元的输入端连接;第一输入端和第二乘积单元的输出端,与第五拼接单元的输入端连接,第五拼接单元的输出端输出第一特征。
第九卷积层的输出端和第十卷积层的输出端,均与第三乘积单元的输入端连接,第三乘积单元的输出端和第十一卷积层的输出端,均与第四乘积单元的输入端连接;第四乘积单元的输出端和第二输入端均与第六拼接单元的输入端连接,第六拼接单元的输出端输出第一特征。
进一步地,如图4所示,所述非局部注意力层,包括:非局部注意力层输入端,所述非局部注意力层输入端分别与第十二卷积层的输入端、第十三卷积层的输入端以及第十四卷积层的输入端连接;第十二卷积层的输出端与第一重组单元的输入端连接;第十三卷积层的输出端与第二重组单元的输入端连接;第十四卷积层的输出端与第三重组单元的输入端连接。
第一重组单元的输出端和第二重组单元的输出端,均与第五乘积单元的输入端连接;第五乘积单元的输出端和第三重组单元的输出端,均与第六乘积单元的输入端连接;第六乘积单元的输出端与第四重组单元的输入端连接;第四重组单元的输出端与第十五卷积层的输入端连接;非局部注意力层输入端和第十五卷积层的输出端,均与第七拼接单元的输入端连接,第七拼接单元的输出端作为非局部注意力层的输出端。
进一步地,所述输出层采用两个全连接层和一个激活函数层Softmax来实现。
进一步地,所述对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>,具体包括:采用浅层特征提取网络,对第一模态图像进行特征提取得到特征图/>;采用浅层特征提取网络,对第二模态图像进行特征提取得到特征图/>。
应理解地,根据batch_size的大小,将图像对同时加载并输入到浅层特征提取网络中。经过一个卷积神经网络运算后提取图像的浅层关键特征信息向量,得到图像对的特征图与/>。
进一步地,所述对特征图提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>,具体包括:采用第一卷积神经网络,对特征图/>提取模态的特有特征,得到特有特征/>;采用第二卷积神经网络,对特征图/>提取模态的特有特征,得到特有特征;采用第一拼接单元,将特有特征/>与特有特征/>进行拼接,得到特有特征/>。
进一步地,所述对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征/>,具体包括:采用第一深度注意力网络Transformer,对特征图/>提取模态的共享特征,得到共享特征/>;采用第二深度注意力网络Transformer,对特征图/>提取模态的共享特征,得到共享特征/>;采用第二拼接单元,将共享特征/>与共享特征进行拼接得到共享特征/>。
应理解地,通常多模态网络提取共享、特有特征时用同一种网络,如CNN模型或transformer模型,两类模型通常关注于特征的不同性质。CNN模型通过卷积操作实现了对感受野内特征的提取,感受野的存在限制了CNN捕获全局信息的感知能力。Transformer模型应用自注意力模块捕获长距离的特征依赖,从而获得全局特征表示。
为了获得更好的共享特征与特有特征表示,对浅层特征利用CNN网络(可逆神经网络)提取模态的特有特征/>,可逆神经网络能更好的保存输入信息,添加可逆的残差连接来提高模型的训练效率和稳定性;Transformer网络(Lite Transformer)提取模态的共享特征/>。两个模态的共享特征经过共享特征分解单元后得到共享特征/>,两个模态的特有特征拼接(concat)后得到共享特征P。
进一步地,所述对共享特征进行共享特征分解得到分解特征,将分解特征进行拼接得到共享特征/>,具体包括:采用共享特征分解单元,对共享特征/>进行共享特征分解得到分解特征/>;采用第三拼接单元,将分解特征进行拼接得到共享特征/>。
进一步地,所述采用共享特征分解单元,对共享特征进行共享特征分解得到分解特征/>,具体包括:共享特征经过共有/>个分支,每个分支内结构相同,但参数不共享。分支内为多尺度卷积计算,共有三个子分支,第一子分支依次经过1×1、3×3的卷积;第二子分支依次经过1×1,5×5的卷积;第三子分支先经过3×3的最大池化再经过1×1的卷积,经过三个子分支后特征进行相加并应用跨通道平均池化得到一个分解特征。共享特征经过多个分支,每个分支内为多尺度卷积计算。
应理解地,Transformer可以捕捉长距离特征依赖,从而获得全局特征表示,但会忽略局部细节信息。为了获得更具判别力的特征表示,将共享特征进行特征分解,使得每一个分解特征关注不同的具有判别力的区域。
将两个模态共享特征拼接后得到特征,利用多分支多尺度卷积与跨通道平均池化得到分解特征/>。将分解特征进行拼接后得到共享特征/>。
进一步地,所述对特有特征进行注意力计算得到特有特征/>,具体包括:(1)首先对特有特征/>进行线性映射,然后得到卷积层/>,卷积层/>,卷积层/>处理后的特征;(2)通过重组reshape操作合并卷积层/>处理后的特征,通过reshape操作合并卷积层/>处理后的特征,通过reshape操作合并卷积层/>处理后的特征,然后对卷积层/>输出值的重组数据和卷积层/>输出值的重组数据,进行矩阵点乘操作,得到相关矩阵;(3)然后对相关矩阵进行Softmax 操作,得到0~1的权重,得到注意力系数;(4)最后将注意力系数,与卷积层/>的输出值相乘,然后再对乘积进行reshape操作,再将reshape操作结果进行卷积,再将卷积结果与特有特征/>求和,获得非局部注意力层的输出。
;其中,/>表示非局部注意力层的输出值,卷积层/>、卷积层/>和卷积层/>均为1×1卷积,F为reshape操作。非局部注意力层,可令整个特征的其他部分进行交互,从而在全局范围内学习到的关键信息。
进一步地,所述将共享特征作为注意力计算中的键值key参与到特有特征/>的注意力计算中,得到第一特征/>,具体包括:/>;其中,/>、/>、/>为三个卷积操作。
进一步地,所述将特有特征作为注意力计算中的键值key参与到共享特征/>的注意力计算中,得到第二特征/>,具体包括:/>;其中,/>、/>、/>为三个卷积操作。
应理解地,交互式注意力融合单元通过学习不同特征之间的相互作用,可以捕获和强化特征之间的关联性。共享特征可以根据特有特征进行加权调整,而特有特征也可以根据共享特征进行加权调整。
特有特征先经过一个非局部注意力层得到/>。然后共享特征/>作为注意力计算中的key参与到特有特征/>的注意力计算中得到/>。同理,将特有特征/>作为注意力计算中的key参与到共享特征/>的注意力计算中得到/>。
进一步地,所述将第一特征与第二特征/>拼接后,得到融合特征/>;对融合特征进行分类得到分类结果,具体包括:得到/>后进行两层全连接一层激活函数层softmax后得到对于各个类别的得分,取最大值为对应类别。预测阶段:利用训练好的网络模型对输入的图像数据进行预测得到对应类别得分,然后取得分最大值所在的类别作为该图像的预测结果。
实施例二提供了基于特征交互融合的多模态图像分类系统,包括:获取模块,其被配置为:获取待分类的第一模态图像和第二模态图像;分类模块,其被配置为:将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果。
其中,训练后的多模态图像分类模型用于:对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>;对特征图/>提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>。
对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征;对共享特征/>进行共享特征分解得到分解特征/>,将分解特征进行拼接得到共享特征/>。
对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的key参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的key参与到共享特征/>的注意力计算中,得到第二特征/>;将第一特征/>与第二特征/>拼接后,得到融合特征/>;对融合特征/>进行分类得到分类结果。此处需要说明的是,上述获取模块和分类模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于特征交互融合的多模态图像分类方法,其特征是,包括:
获取待分类的第一模态图像和第二模态图像;
将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果;
所述训练后的多模态图像分类模型,其网络结构包括:浅层特征提取网络;
所述浅层特征提取网络的输入值为第一模态图像和第二模态图像;
浅层特征提取网络的输出端分别与第一卷积神经网络的输入端和第一深度注意力网络的输入端连接;浅层特征提取网络的输出端还分别与第二卷积神经网络的输入端和第二深度注意力网络的输入端连接;
第一卷积神经网络的输出端和第二卷积神经网络的输出端,均与第一拼接单元的输入端连接;第一深度注意力网络的输出端和第二深度注意力网络的输出端,均与第二拼接单元的输入端连接;
第一拼接单元的输出端与非局部注意力层的输入端连接,非局部注意力层的输出端与交互式注意力融合单元的输入端连接,交互式注意力融合单元的第一输出端与第四拼接单元的输入端连接,第四拼接单元的输出端与输出层连接;
第二拼接单元的输出端与共享特征分解单元的输入端连接,共享特征分解单元的输出端与第三拼接单元的输入端连接,第三拼接单元的输出端与交互式注意力融合单元的输入端连接,交互式注意力融合单元的第二输出端与第四拼接单元的输入端连接;
其中,训练后的多模态图像分类模型用于:
对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>;对特征图/>提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>;
对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征/>;对共享特征/>进行共享特征分解得到分解特征/>,将分解特征进行拼接得到共享特征/>;
对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的键值参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的键值参与到共享特征/>的注意力计算中,得到第二特征/>;将第一特征/>与第二特征/>拼接后,得到融合特征/>;对融合特征/>进行分类得到分类结果。
2.如权利要求1所述的基于特征交互融合的多模态图像分类方法,其特征是,所述训练后的多模态图像分类模型,其训练过程包括:
构建训练集,所述训练集为已知图像分类结果的多模态图像;
将训练集,输入到多模态图像分类模型中,对模型进行训练,当模型的总损失函数值不再下降,或者,迭代次数超过设定次数时,停止训练,得到训练后的多模态图像分类模型;
所述模型的总损失函数,具体表达式为:
;
其中,为正交损失函数,/>为共享特征分解单元中的多样性损失函数,/>为分类交叉熵损失函数,/>、/>和/>表示权重。
3.如权利要求2所述的基于特征交互融合的多模态图像分类方法,其特征是,正交损失函数,公式表达为:
;
;
;
其中,表示第一模态图像的特有特征,/>表示第二模态图像的特有特征,/>表示分解特征拼接得到共享特征;/>表示两个模态图像特有特征拼接后的特有特征;/>是二范数,用于衡量两个特征之间的正交性,通过最小化向量之间的内积,使得特征在特征空间中保持正交,/>表示两个模态图像特有特征之间的正交损失函数,/>表示特有特征与共享特征的正交损失函数。
4.如权利要求2所述的基于特征交互融合的多模态图像分类方法,其特征是,分类交叉熵损失函数:
;
其中,为样本的真实标签,/>为样本的预测标签,/>为当前batch中的样本数,/>为类别数。
5.如权利要求1所述的基于特征交互融合的多模态图像分类方法,其特征是,所述共享特征分解单元,其网络结构包括:共有个并列的分支,各个分支参数不共享;每个分支,包括:并联的第一子分支、第二子分支和第三子分支;
所述第一子分支,包括依次串联的第一卷积层和第二卷积层;所述第二子分支,包括依次串联的第三卷积层和第四卷积层;所述第三子分支,包括依次串联的最大池化层和第五卷积层;
第一卷积层的输入端作为共享特征分解单元的输入端,第三卷积层的输入端和最大池化层的输入端均与第一卷积层的输入端连接;
第二卷积层的输出端、第四卷积层的输出端和第五卷积层的输出端均与通道拼接单元的输入端连接,通道拼接单元的输出端与跨通道平均池化层的输入端连接,跨通道平均池化层输出端作为共享特征分解单元的输出端;
第一卷积层和第三卷积层均使用一个1×1的卷积降维减少计算量,第二卷积层应用3×3的卷积层,第四卷积层,采用5×5的卷积层;第三个子分支先经过3×3的最大池化,再经过1×1的卷积;将经过三个子分支的多尺度卷积后的特征进行通道拼接,然后,应用跨通道平均池化,得到当前分支的分解特征,每个分解特征关注于图像中的具有判别力区域,将分解特征进行拼接后得到共享特征。
6.如权利要求1所述的基于特征交互融合的多模态图像分类方法,其特征是,所述对特有特征进行注意力计算得到特有特征/>,具体包括:
首先对特有特征进行线性映射,然后得到卷积层/>,卷积层/>,卷积层/>处理后的特征;
通过重组操作合并卷积层处理后的特征,通过重组操作合并卷积层/>处理后的特征,通过重组操作合并卷积层/>处理后的特征,然后对卷积层/>输出值的重组数据和卷积层/>输出值的重组数据,进行矩阵点乘操作,得到相关矩阵;
然后对相关矩阵进行激活函数处理,得到0~1的权重,得到注意力系数;
最后将注意力系数,与卷积层的输出值相乘,然后再对乘积进行重组操作,再将重组操作结果进行卷积,再将卷积结果与特有特征/>求和,获得非局部注意力层的输出。
7.如权利要求1所述的基于特征交互融合的多模态图像分类方法,其特征是,所述将共享特征作为注意力计算中的键值参与到特有特征/>的注意力计算中,得到第一特征/>,具体包括:
;
其中,、/>和/>为三个卷积操作;
所述将特有特征作为注意力计算中的键值参与到共享特征/>的注意力计算中,得到第二特征/>,具体包括:
。
8.基于特征交互融合的多模态图像分类系统,其特征是,包括:
获取模块,其被配置为:获取待分类的第一模态图像和第二模态图像;
分类模块,其被配置为:将第一模态图像和第二模态图像,输入到训练后的多模态图像分类模型中,输出多模态图像的分类结果;
所述训练后的多模态图像分类模型,其网络结构包括:浅层特征提取网络;
所述浅层特征提取网络的输入值为第一模态图像和第二模态图像;
浅层特征提取网络的输出端分别与第一卷积神经网络的输入端和第一深度注意力网络的输入端连接;浅层特征提取网络的输出端还分别与第二卷积神经网络的输入端和第二深度注意力网络的输入端连接;
第一卷积神经网络的输出端和第二卷积神经网络的输出端,均与第一拼接单元的输入端连接;第一深度注意力网络的输出端和第二深度注意力网络的输出端,均与第二拼接单元的输入端连接;
第一拼接单元的输出端与非局部注意力层的输入端连接,非局部注意力层的输出端与交互式注意力融合单元的输入端连接,交互式注意力融合单元的第一输出端与第四拼接单元的输入端连接,第四拼接单元的输出端与输出层连接;
第二拼接单元的输出端与共享特征分解单元的输入端连接,共享特征分解单元的输出端与第三拼接单元的输入端连接,第三拼接单元的输出端与交互式注意力融合单元的输入端连接,交互式注意力融合单元的第二输出端与第四拼接单元的输入端连接;
其中,训练后的多模态图像分类模型用于:
对第一模态图像进行特征提取得到特征图;对第二模态图像进行特征提取得到特征图/>;对特征图/>提取模态的特有特征,得到特有特征/>;对特征图/>提取模态的特有特征,得到特有特征/>;将特有特征/>与特有特征/>进行拼接,得到特有特征/>;
对特征图提取模态的共享特征,得到共享特征/>;对特征图/>提取模态的共享特征,得到共享特征/>;将共享特征/>与共享特征/>进行拼接得到共享特征/>;对共享特征/>进行共享特征分解得到分解特征/>,将分解特征进行拼接得到共享特征/>;
对特有特征进行注意力计算得到特有特征/>,将共享特征/>作为注意力计算中的key参与到特有特征/>的注意力计算中,得到第一特征/>;将特有特征/>作为注意力计算中的key参与到共享特征/>的注意力计算中,得到第二特征/>;将第一特征/>与第二特征/>拼接后,得到融合特征/>;对融合特征/>进行分类得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410100735.5A CN117636074B (zh) | 2024-01-25 | 2024-01-25 | 基于特征交互融合的多模态图像分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410100735.5A CN117636074B (zh) | 2024-01-25 | 2024-01-25 | 基于特征交互融合的多模态图像分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117636074A CN117636074A (zh) | 2024-03-01 |
CN117636074B true CN117636074B (zh) | 2024-04-26 |
Family
ID=90030747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410100735.5A Active CN117636074B (zh) | 2024-01-25 | 2024-01-25 | 基于特征交互融合的多模态图像分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117636074B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065588A (zh) * | 2021-03-24 | 2021-07-02 | 齐鲁工业大学 | 基于双线性注意力网络的医学影像数据分类方法及系统 |
CN113312530A (zh) * | 2021-06-09 | 2021-08-27 | 哈尔滨工业大学 | 一种以文本为核心的多模态情感分类方法 |
CN113343974A (zh) * | 2021-07-06 | 2021-09-03 | 国网天津市电力公司 | 考虑模态间语义距离度量的多模态融合分类优化方法 |
CN113902945A (zh) * | 2021-09-30 | 2022-01-07 | 烟台毓璜顶医院 | 一种多模态乳腺磁共振图像分类方法及系统 |
CN114241273A (zh) * | 2021-12-01 | 2022-03-25 | 电子科技大学 | 基于Transformer网络和超球空间学习的多模态图像处理方法及系统 |
CN114638994A (zh) * | 2022-05-18 | 2022-06-17 | 山东建筑大学 | 基于注意力的多交互网络的多模态图像分类系统及方法 |
CN114758360A (zh) * | 2022-04-24 | 2022-07-15 | 北京医准智能科技有限公司 | 一种多模态图像分类模型训练方法、装置及电子设备 |
CN115375948A (zh) * | 2022-09-14 | 2022-11-22 | 中国矿业大学 | 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 |
CN116824217A (zh) * | 2023-05-22 | 2023-09-29 | 苏州大学 | 一种多模态视网膜眼底图像分类方法 |
CN117115883A (zh) * | 2023-08-04 | 2023-11-24 | 支付宝(杭州)信息技术有限公司 | 生物检测模型的训练方法、生物检测方法及相关产品 |
CN117218453A (zh) * | 2023-11-06 | 2023-12-12 | 中国科学院大学 | 一种不完备多模态医学影像学习方法 |
-
2024
- 2024-01-25 CN CN202410100735.5A patent/CN117636074B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065588A (zh) * | 2021-03-24 | 2021-07-02 | 齐鲁工业大学 | 基于双线性注意力网络的医学影像数据分类方法及系统 |
CN113312530A (zh) * | 2021-06-09 | 2021-08-27 | 哈尔滨工业大学 | 一种以文本为核心的多模态情感分类方法 |
CN113343974A (zh) * | 2021-07-06 | 2021-09-03 | 国网天津市电力公司 | 考虑模态间语义距离度量的多模态融合分类优化方法 |
CN113902945A (zh) * | 2021-09-30 | 2022-01-07 | 烟台毓璜顶医院 | 一种多模态乳腺磁共振图像分类方法及系统 |
CN114241273A (zh) * | 2021-12-01 | 2022-03-25 | 电子科技大学 | 基于Transformer网络和超球空间学习的多模态图像处理方法及系统 |
CN114758360A (zh) * | 2022-04-24 | 2022-07-15 | 北京医准智能科技有限公司 | 一种多模态图像分类模型训练方法、装置及电子设备 |
CN114638994A (zh) * | 2022-05-18 | 2022-06-17 | 山东建筑大学 | 基于注意力的多交互网络的多模态图像分类系统及方法 |
CN115375948A (zh) * | 2022-09-14 | 2022-11-22 | 中国矿业大学 | 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 |
CN116824217A (zh) * | 2023-05-22 | 2023-09-29 | 苏州大学 | 一种多模态视网膜眼底图像分类方法 |
CN117115883A (zh) * | 2023-08-04 | 2023-11-24 | 支付宝(杭州)信息技术有限公司 | 生物检测模型的训练方法、生物检测方法及相关产品 |
CN117218453A (zh) * | 2023-11-06 | 2023-12-12 | 中国科学院大学 | 一种不完备多模态医学影像学习方法 |
Non-Patent Citations (6)
Title |
---|
Attention-based Interactions Network for Breast Tumor Classifcation with Multi-modality Images;Xiao Yang et al.;《2022 15th International Conference on Human System Interaction》;20220830;1-6 * |
MIA-Net:Multi-Modal Interactive Attention Network for Multi-Modal Affective Analysis;Shuzhen Li et al.;《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》;20231231;第14卷(第4期);2796-2809 * |
Multi-modality relation attention network for breast tumor classification;Xiao Yang et al.;《Computers in Biology and Medicine》;20221012;1-12 * |
Triple-attention interaction network for breast tumor classification based on multi-modality images;Xiao Yang et al.;《Pattern Recognition》;20230731;1-11 * |
基于层次化双重注意力网络的乳腺多模态图像分类;杨霄 等;《山东大学学报》;20220630;第52卷(第3期);34-41 * |
基于深度学习的肿瘤影像分割与分类方法研究;李海春;《中国博士学位论文全文数据库》;20231015;1-127 * |
Also Published As
Publication number | Publication date |
---|---|
CN117636074A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
US11328172B2 (en) | Method for fine-grained sketch-based scene image retrieval | |
US20220148291A1 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN114529982B (zh) | 基于流式注意力的轻量级人体姿态估计方法及系统 | |
Li et al. | RoadFormer: Duplex transformer for RGB-normal semantic road scene parsing | |
US20230401838A1 (en) | Image processing method and related apparatus | |
CN116612288B (zh) | 一种多尺度轻量级实时语义分割方法、系统 | |
CN111507403A (zh) | 图像分类方法、装置、计算机设备和存储介质 | |
CN116152792B (zh) | 基于跨上下文和特征响应注意力机制的车辆重识别方法 | |
CN114612681A (zh) | 基于gcn的多标签图像分类方法、模型构建方法及装置 | |
CN116912485A (zh) | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 | |
CN112767478A (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
Ale et al. | Lightweight deep learning model for facial expression recognition | |
CN113221977B (zh) | 一种基于抗混叠语义重构的小样本语义分割方法 | |
CN114118200A (zh) | 一种基于注意力引导双向胶囊网络的多模态情感分类方法 | |
CN111144374B (zh) | 人脸表情识别方法及装置、存储介质和电子设备 | |
Yu et al. | Intelligent corner synthesis via cycle-consistent generative adversarial networks for efficient validation of autonomous driving systems | |
CN117373064A (zh) | 基于自适应跨维度加权的人体姿态估计方法、计算机设备及存储介质 | |
CN117422978A (zh) | 基于动态双级视觉信息融合的接地视觉问答方法 | |
CN117636074B (zh) | 基于特征交互融合的多模态图像分类方法及系统 | |
CN117671235A (zh) | 一种基于YOLOv5的轻量化紫外图像目标检测方法及系统 | |
WO2023207531A1 (zh) | 一种图像处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |