CN114898156B

CN114898156B - 基于跨模态语义表征学习和融合的图像分类方法及系统

Info

Publication number: CN114898156B
Application number: CN202210558899.3A
Authority: CN
Inventors: 孟雷; 李象贤; 郑裕泽; 马浩凯; 齐壮; 孟祥旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-05-21
Filing date: 2022-05-21
Publication date: 2024-06-04
Anticipated expiration: 2042-05-21
Also published as: CN114898156A

Abstract

本发明属于图像分类领域，提供了一种基于跨模态语义表征学习和融合的图像分类方法及系统，包括将获取的图像编码为视觉表征；将获取的图像编码为视觉表征；采用部分异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征；基于视觉表征，通过跨模态语义信息推理得到跨模态的语义信息推理结果，采用类感知信息选择算法对跨模态的语义信息推理结果计算高阶语义表征；融合视觉分类表征和高阶语义表征生成融合表征，基于融合表征进行图像识别分类；本发明通过表征对齐和跨模态推理提升模型表征学习，能够与常用的视觉识别方法ResNet、ATNet等相结合，在多模态数据有限的条件下有效提升模型的识别准确率。

Description

基于跨模态语义表征学习和融合的图像分类方法及系统

技术领域

本发明属于图像分类技术领域，具体涉及一种基于跨模态语义表征学习和融合的图像分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

图像识别作为计算机视觉中最重要的基础任务之一，已广泛应用于人脸识别，智能机器人等领域。传统的图像识别方法往往使用单一的视觉信息，通过人工手动提取特征或以深度学习中端到端的方式训练模型来实现图像识别。随着大量多模态数据被上传到社交媒体和网络平台中，现有图像识别算法将文本描述等信息加入模型的训练过程，并形成了特权信息学习(LUPI)范式。

然而，由于多媒体数据中的图像数据远多于其对应的文本描述，现有多模态学习方法难以广泛使用，因此，如何借助有限的跨模态文本信息指导模型的训练是一个亟待解决的问题。

现有的LUPI范式主要分为两类。一类是基于多任务学习的方式，通常使用视觉特征重构的文本特征来增加可用的语义信息。在这类方法中，基于视觉特征进行语义预测的方法常常受到图像噪声的干扰，导致在图像背景信息复杂时，图像识别准确率下降。另一类则是通过异构特征对齐的方式用文本特征来约束图像特征的提取过程，然而由于文本特征和图像特征属于异构模态，两类特征在特征分布和值域范围等方面的差异导致跨模态映射实效有限。因此，亟需新的方法进行图像特征到文本特征的映射，运用特征融合策略实现视觉与语义层面的多角度特征互补，从而提升模型的图像识别性能。

发明内容

为了解决上述问题，本发明提出了一种基于跨模态语义表征学习和融合的图像分类方法及系统，本发明通过跨模态的异构信息对齐和语义重构增强了模型表达能力；为解决跨模态语义表征学习中的问题，提出使用类感知信息选择方法CIS，基于模型预测和先验知识的融合，有效选择视觉语义中的关键信息。

根据一些实施例，本发明的第一方案提供了一种基于跨模态语义表征学习和融合的图像分类方法，采用如下技术方案：

基于跨模态语义表征学习和融合的图像分类方法，包括：

将获取的图像编码为视觉表征；

采用部分异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征；

基于视觉表征，通过跨模态语义信息推理得到跨模态的语义信息推理结果，采用类感知信息选择算法对跨模态的语义信息推理结果计算高阶语义表征；

融合视觉分类表征和高阶语义表征生成融合表征，基于融合表征进行图像识别分类。

进一步地，所述采用部分异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征，包括：

利用单标签分类和多标签分类任务中的分类损失，筛选出由关键分类信息构成的视觉分类表征；

将部分异构迁移后文本模态的语义分类表征作为先验知识，将视觉分类表征和语义分类表征进行对齐，得到最终的视觉分类表征。

进一步地，通过交叉CE熵和二元交叉熵BCE损失分别计算单标签分类和多标签分类任务中的分类损失：

其中，F为样本在视觉或文本模态中对应的分类表征，y为样本对应的标签，SL表示单标签，ML表示多标签，视觉分类表征或语义分类表征通过映射c(.)输出类别预测信息。

进一步地，基于视觉表征，通过跨模态语义信息推理得到跨模态的语义信息推理结果，包括：

将视觉表征经过跨模态迁移转换为语义表征；

语义表征通过语义解码器生成跨模态的语义信息推理结果。

进一步地，所述采用类感知信息选择算法对的语义信息推理结果计算高阶语义表征，包括：

将跨模态的语义信息推理结果通过嵌入映射生成重构语义嵌入；

将类别相关的文本分布知识作为先验知识，根据各分类中出现各类文本的分布情况频次映射到不同权重比值；

利用重构语义关系矩阵融合各类文本的分布情况频次映射到不同权重比值，得到语义权重向量；

通过类别选择信息为重构语义嵌入提供文本间的语义权重向量，利用图卷积计算文本嵌入经过类别选择信息选择后的表征，得到高阶语义表征。

进一步地，重构语义关系矩阵的构成，具体为：

跨模态的语义信息推理结果根据模型的预测输出由大到小排列text＝{t₁,t₂,…,t_n}；

选取前k个文本形成子集text_topk＝{t₁,t₂,…,t_k}，表示为模型预测最有可能出现前k个文本；

由text_topk构建重构语义关系矩阵R，为主对角线为1的对角矩阵，除主对角线之外的其它位置：

其中，i，j分别表示矩阵中的行坐标和列坐标。

进一步地，所述融合视觉分类表征和高阶语义表征生成融合表征，具体为：

F_f＝τ(fusion(τ(F_vc),τ(F_h)))

其中，视觉分类表征F_vc和高阶语义表征F_h；fusion(.)是指表征的融合操作，如表征拼接、求和、取最大值和取最小值操作，τ(.)是指一层全连接层后接ReLU(.)激活函数。

根据一些实施例，本发明的第二方案提供了一种基于跨模态语义表征学习和融合的图像分类系统，采用如下技术方案：

基于跨模态语义表征学习和融合的图像分类系统，包括：

图像处理模块，被配置为将获取的图像编码为视觉表征；

视觉表征学习模块，被配置为采用部分异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征；

跨模态语义信息推理模块，被配置为基于视觉表征，通过跨模态语义信息推理得到跨模态的语义信息推理结果，采用类感知信息选择算法对跨模态的语义信息推理结果计算高阶语义表征；

异构模态表征模块，被配置为融合视觉分类表征和高阶语义表征生成融合表征，基于融合表征进行图像识别分类。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于跨模态语义表征学习和融合的图像分类方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于跨模态语义表征学习和融合的图像分类方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明引入图像语义描述及统计信息等先验知识作为特权信息，使用特权信息学习范式在模型训练阶段指导图像特征从视觉空间向语义空间映射，提出类感知的语义选择算法学习图像的高阶语义表征。针对跨模态表征学习中的异构特征差异性问题，使用部分异构迁移算法(PHT)实现视觉特征与特权信息语义特征的跨模态对齐。为进一步在语义空间中抑制视觉噪声引入的干扰，提出基于图卷积的类感知信息选择算法(CIS)选取重构语义表征中的关键信息。

本发明提出了基于图卷积网络的类感知信息选择算法CIS，对跨模态语义信息计算类相关的对应语义权重，结合信息与先验知识，抑制错误语义信息在表征中的影响，提升关键表征信息的表达，通过图卷积网络提取高阶语义特征。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的基于跨模态语义表征学习和融合的图像分类方法的流程图；

图2是本发明实施例所述的基于跨模态语义表征学习和融合的图像分类方法的基本结构图；

图3是本发明实施例所述的类感知信息选择算法示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种基于跨模态语义表征学习和融合的图像分类方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

将获取的图像编码为视觉表征；

采用异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征；

基于视觉表征，通过跨模态语义信息推理得到跨模态语义预测，采用类感知信息选择算法对跨模态语义预测计算高阶语义表征；

具体地，如图2所示，基于跨模态语义表征学习和融合的图像分类方法(CM-SLF)包括三个主要部分，

步骤1：在视觉表征学习中将图像输入V编码为视觉表征F_v，并通过部分异构迁移算法将F_v映射为分类关联程度高的局部表征F_vc；

步骤2：在跨模态语义信息推理中，从视觉表征学习当中提取的表征F_v经过跨模态迁移Tran(F_v)转换为从视觉空间映射而来的语义表征F_t(F_v→t)，F_v→t经过解码输出跨模态的语义信息推理结果P_v→t，语义预测构建出文本信息T′并经过类感知信息选择算法获取语义选择信息S，语义信息和其对应选择信息经过图卷积计算得到高阶语义表征F_h；

步骤3：在异构模态表征融合模块，融合视觉分类表征F_vc和高阶语义表征F_h生成融合表征F_f用于识别分类。

CM-SLF经过跨模态对齐增强模型视觉表征提取，通过跨模态的信息选择进一步提升模型对视觉噪声的鲁棒性。

步骤1：视觉表征学习

我们采用部分异构迁移算法(PHT)从视觉信息学习与分类紧密相关的视觉分类表征F_vc。首先由视觉编码器从图像输入V中提取出具有分类信息和视觉模态风格信息的视觉表征F_v，为过滤视觉模态中与分类任务相关程度较低的模态风格表征，经过部分特征选取和跨模态的迁移提取出由关键分类信息构成的视觉分类表征F_vc。为有效约束F_vc的迁移，将语义模态信息作为特权信息引入训练，对由图像描述信息中提取的语义表征F_t进行部分特征选择得到语义分类表征F_tc，并使F_vc近似F_tc即Sim(F_vc,F_tc)，视觉表征和语义表征的部分异构迁移算法均由一层全连接层完成。对齐特征通过KL散度作为损失约束，公式如下：

其中，F_vc(.)和F_tc(.)分别表示视觉和语义分类表征的分布函数，x代表数据点。

同时，为增强视觉分类表征和语义分类表征的提取，训练中还引入了分类损失，视觉或语义分类表征通过映射c(.)输出类别预测信息，通过交叉熵(Cross-Entropy，CE)损失和二元交叉熵(Binary，BCE)损失分别计算单标签(Single-label,SL)分类和多标签(Multi-label,ML)分类任务中的分类损失：

其中，F为样本在视觉或文本模态中对应的分类表征，y为样本对应的标签。

步骤2：跨模态语义信息推理

步骤2.1：跨模态表征推理

跨模态语义信息推理首先将视觉表征F_v经过跨模态迁移Trans(F_v)转换为语义表征F_t(F_v→t)，这一过程通过特征对齐Align(F_v,F_t)的损失约束，图像的视觉表征F_v和从作为特权信息的图像描述信息中提取到的语义表征F_t对齐，使用L2归一化方法约束二者对齐，定义如下：

其中，和/>为视觉及语义表征中维度u的取值。语义表征通过语义解码器d(F_v→t)转换为语义信息推理结果P_v→t输出，这一过程需要模型对图像中包含的语义信息进行挖掘匹配。通过基于交叉熵跨模态重构损失/>约束模型语义重构的预测：

步骤2.2：基于类感知图卷积网络的语义表征学习

跨模态推理生成的语义信息推理结果P_v→t表示了模型对图像中对应语义出现的可能性估计，通过选取模型在每个单词位置预测输出的最大值，重构模型对应的文本T′＝{t₁,t₂,…t_n}，其中n表示所有文本总数，t_q为第q个位置的文本，其计算方法为：

t_i＝max(P_v→t(q)) (6)

其中，max(·)选取了模型在第q个文本位置最大预测的输出结果。将重构文本通过嵌入映射emb(T′)生成重构语义嵌入E_v→t。语义信息推理结果根据模型的预测输出由大到小排列，得到文本预测集合text＝{t₁,t₂,…,t_n}，选取前k个单词形成文本预测子集text_topk＝{t₁,t₂,…,t_k}，表示为模型预测最有可能出现前k个文本，由text_topk构建重构语义关系矩阵R，为主对角线为1的对角矩阵，除主对角线之外的其它位置：

其中，i，j分别表示矩阵中的行坐标和列坐标；

关系矩阵R刻画了当前视觉信息包含的语义以及包含语义之间可能存在的联系，但由模型重构预测来源于视觉信息，仍存在视觉噪声的干扰，导致语义重构不准确，从而影响语义关系的描述。

因此，我们提出类感知的信息选择方式，如图3所示，类感知信息选择算法，重构语义嵌入E_v→t与类感知选择信息s通过图卷积网络计算高阶语义表征；将类别相关的文本分布知识作为先验知识引入，根据各分类中出现各类文本的分布情况频次映射到不同权重比值，K_a,b表示了第a类样本中第b类文本的权重。结合标签信息L和其中选择对应信息生成类别先验信息：

K_l＝∑_aL_a×K_b (8)

其中，L_a是标签信息中的第a类取值，范围是1或0表示属于或不属于该类，K_b为第b类的文本权重。关系矩阵融合类别先验信息并通过Softmax(·)映射生成语义权重向量W＝Softmax(R×K_l)。通过融合抑制了模型中错误单词的预测，同时增大了类别中常见语义的权重，促使模型在重构中将视觉与语义信息更好对应。

步骤2.3：高阶语义表征生成

模型通过图卷积计算文本嵌入经过相应信息选择后的表征，其定义如下：

其中，ρ_i表示预测的语义信息，Τ_n表示基于类感知的预测概率，θ(.)表示表征映射操作，w表示类感知对应的语义权重，E_v→t表示语义重构嵌入，表示图卷积表征融合器，f_h表示基于类感知的高阶语义表征。通过类别选择信息s为重构语义嵌入E_v→t提供文本间的关系权重，从而对模型的关键语义实现选择。

步骤3：异构模态表征融合

CM-SLF在视觉表征对齐模块从局部映射及与语义对齐过程与中学习视觉分类表征F_vc，之后在跨模态语义信息推理中学习视觉表征F_v跨模态映射的F_v→t，基于类感知的信息选择方法从跨模态的语义信息推理结果P_v→t中生成高阶语义表征F_h，最终在异构模态表征融合模块模块对视觉分类表征F_vc和高阶语义表征F_h进行融合：

F_f＝τ(fusion(τ(F_vc),τ(F_h))) (10)

其中，fusion(.)是指表征的融合操作，如表征拼接、求和、取最大值和取最小值操作，τ(.)是指一层全连接层后接ReLU(.)激活函数。

通过分类映射c(·)输出预测，据多标签分类或单标签分类任务，使用交叉熵或二元交叉熵函数计算融合表征的分类损失L_fusion：

训练策略

CM-SLF框架中存在着多类损失约束，可使用分阶段训练的方式，在第一阶段训练视觉特征提取，通过视觉分类特征与语义分类特征的相似性约束以及分类的损失共同回传：

第二阶段完成语义解码器的训练，通过视觉特征与语义特征的对齐损失和跨模态重构损失共同提升模型重构能力，损失函数为：

第三阶段通过对齐模块产生的视觉分类特征和跨模态语义信息推理中产生的高阶语义表征对分类实现预测：

另外，CM-SLF框架可通过全局同步的方式训练模型，整体损失函数如下，：

上述损失函数公式中α,β,γ为损失权重参数。

实验

实验设置

数据集

表1数据集的统计信息

数据集	数据总量	图片标签数	文本标签数
				Vireo-Food172	99,225	172	353
NUS-WIDE	203,598	81	1,000

本文中的实验结果来自以下两个真实世界数据集，在表1中展示了两个数据集的统计数据。

Vireo-Food172数据集：含有110,241张菜品图片的单标签分类数据集，共分172类。数据集中包含文本353种，平均每个图像样本对应3个文本。我们按照原论文的设置，将数据集拆分为66,071和33,154张图片分别用于训练和测试。

NUS-WIDE数据集：为多标签分类数据集，共包含269,648个图像样本，对应81种分类。每个图像样本呢对应若干文本，共有1000类文本。我们参考原论文设定划分训练集和测试集，并对数据集进行清洗，去除缺少标签或文本的数据后，剩余图像样本203,598个，其中训练集121,962个样本和测试集81,636个样本。

评估标准

在Vireo-Food172数据集上的实验我们采用准确率(Accuracy)评估单标签分类中的模型预测性能。在NUS-WIDE数据集上的实验我们采用精确率(Precision)和召回率(Recall)评估多标签分类任务中的模型预测性能。公式如下：

准确率公式：

精确率公式：

召回率公式：

其中TP是正阳样本数，FP是负阳样本数，TN是正阴样本数，FN是负阴样本数。对上述指标，我们均计算TOP-1和TOP-5的平均值。

模型细节

实验中我们使用PyTorch实现多种视觉神经网络，基础网络包括残差网络ResNet-18，ResNet-50及深度神经网络VGG-19。并实现了基于ResNet-50网络改进的宽通道残差神经网络(WRN)和添加了滑动分支的WISeR网络。

我们为文本设计了前馈神经网络(FNN)和长短时记忆网络(LSTM)分别编码和解码表征：

1、前馈神经网络：内部结构为四层全连接层，编码器的前三层全连接层中，每层的输出使用ReLU激活，随后进入下一层全连接层。解码器中前三层与编码器类似，最后一层用Sigmoid激活。

2、LSTM：根据数据集中最大单词位生成对应单元个数的，最大隐藏状态维度为300，通过LSTM单元计算对应单词位表征。

参数设置

在实验中，我们设置数据批次大小(batch size)为64，所有神经网络的学习率均从5e-5至5e-3中选择，对于多分类的NUS-WIDE数据集，设置BCE损失的正样本损失权重为20至150，模型每训练4轮之后，学习率衰减为之前的0.1倍，模型在训练过程中均使用Adam优化器进行优化。

对比实验结果

我们实验了ResNet18、ResNet50和Vgg19三种基础视觉骨干网络的性能，同时对比了基于ResNet50改进的WRN、WISeR网络预测效果。另外我们还与跨模态多任务学习的方法ARCH-D以及基于异构模态表征对齐的方法ATNet进行了对比，从表2的实验结果中我们可以看出：

1.得益于ResNet-50和Vgg19更复杂的网络结构，与最简单的基线算法ResNet-18相比，它们在NUS-WIDE数据集上取得了5％-12％的分类性能提升。

2.ARCH-D算法的分类性能普遍优于传统基线算法，主要原因是它通过异构类别预测和文本重构双任务之间的信息传递来学习更有表征能力的图像内容特征用于分类。

3.ATNe通过跨模态对齐和知识迁移增强图像识别，相较各类对应基线模型在TOP1的评估标准上都能获得显著效果提升，但在两个数据集上，TOP5性能下降。

CM-LSF结合跨模态特征对齐和类感知的文本重构信息学习预测效果更佳的图像表征用于分类，进而提升模型的TOP1识别精度，TOP5预测相对较低可能是由于由于融合特征对异构特征的平滑特性。

CM-LSF应用于基线模型ResNet-18和ResNet-50后图像分类性能均出现明显提升，表现出其模型无关的特点。

表2对比实验结果。其中VireoFood-172数据集用top1和top5的精确度(Acc)作为衡量指标，NUS-WIDE数据集通过top1和top5的准确率(Pre)和召回率(Recall)衡量其多分类任务的表现性能

消融实验

表3算法各模块对预测性能的影响

为探究提出框架的有效性，我们进行了消融实验，其结果如表3所示。实验选取了ResNet-50作为基线，由于不同模态表征中存在着大量特异性的风格化表征，跨模态表征的直接对齐(+A)对视觉表征的增强效果有限，这一点在NUS-WIDE数据集尤为明显。部分异构迁移的表征对齐，即+A(P)，虽然能够汇聚分类的关键信息，但由于视觉噪声的影响，限制了性能的进一步提升。之后验证CM-SLF框架的有效性，基于前文所述的类感知信息选择方法，我们提出了三种语义权重生成策略。第一种为仅使用模型预测信息生成权重的方法SLF，依靠模型重构的语义预测实现信息选择，并自主提取视觉与语义之间的高阶关联信息，这类方法有效挖掘了视觉的语义关系，然而视觉表征传递的错误信息未得到有效抑制。进而我们尝试使用模型自主学习类别的文本知识的SLF+A方法，通过梯度回传的更新提取出类别和语义之间的关联。SLF+A方法在Vireo数据集上的表现优于SLF方法，但在WIDE数据集上则不如SLF方法的预测结果，说明模型自主学习的方式效果不稳定。加入类别先验信息的SLF+C有效地对模型预测中的错误回传情况实现了抑制，从而增强对关键信息的提取，提升了识别准确率。

本实施例的有益效果：

本实施例提出了一种跨模态语义表征学习和融合的框架CM-SLF，通过跨模态的异构信息对齐和语义重构增强了模型表达能力。为解决跨模态语义表征学习中的问题，我们提出使用类感知信息选择方法CIS，基于模型预测和先验知识的融合，有效选择视觉语义中的关键信息。CM-SLF有效缓解了视觉识别中多模态数据缺乏的问题。

本实施例提出了一种通用的跨模态语义表征学习与融合框架CM-SLF，通过表征对齐和跨模态推理提升模型表征学习，能够与常用的视觉识别方法ResNet、ATNet等相结合，在多模态数据有限的条件下有效提升模型的识别准确率。

本实施例提出了基于图卷积网络的类感知信息选择算法CIS，对跨模态语义信息计算类相关的对应语义权重，结合信息与先验知识，抑制错误语义信息在表征中的影响，提升关键表征信息的表达，通过图卷积网络提取高阶语义特征。

实施例二

本实施例提供了一种基于跨模态语义表征学习和融合的图像分类系统，包括：

图像处理模块，被配置为将获取的图像编码为视觉表征；

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于跨模态语义表征学习和融合的图像分类方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于跨模态语义表征学习和融合的图像分类方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于跨模态语义表征学习和融合的图像分类方法，其特征在于，包括：

将获取的图像编码为视觉表征；

融合视觉分类表征和高阶语义表征生成融合表征，基于融合表征进行图像识别分类；

所述部分异构迁移算法从视觉表征学习与分类紧密相关的视觉分类表征，包括：

将部分异构迁移后文本模态的语义分类表征作为先验知识，将视觉分类表征和语义分类表征进行对齐，得到最终的视觉分类表征；

所述跨模态的语义信息推理结果表示了模型对图像中对应语义出现的可能性估计；

所述采用类感知信息选择算法对跨模态的语义信息推理结果计算高阶语义表征，包括：

将跨模态的语义信息推理结果通过嵌入映射生成语义嵌入；

通过类别选择信息为重构语义嵌入提供文本间的语义权重向量，利用图卷积计算文本嵌入经过类别选择信息选择后的表征，得到高阶语义表征；

所述重构语义关系矩阵的构成，具体为：

跨模态的语义信息推理结果根据模型的预测输出由大到小排列，得到文本预测集合text＝{t₁,t₂,…,t_n}，其中，n表示文本的总数，t表示对文本的预测值；

选取前k个文本形成文本预测子集text_topk＝{t₁,t₂,…,t_k}，表示为模型预测最有可能出现前k个文本；

其中i，j分别表示矩阵中的行坐标和列坐标。

2.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法，其特征在于，通过交叉CE熵和二元交叉熵BCE损失分别计算单标签分类和多标签分类任务中的分类损失：

3.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法，其特征在于，基于视觉表征，通过跨模态语义信息推理得到跨模态的语义信息推理结果，包括：

将视觉表征经过跨模态迁移转换为语义表征；

语义表征通过语义解码器生成跨模态的语义信息推理结果。

4.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法，其特征在于，所述融合视觉分类表征和高阶语义表征生成融合表征，具体为：

F_f＝τ(fusion(τ(F_vc),τ(F_h)))

其中，视觉分类表征F_vc和高阶语义表征F_h；fusion(.)是指表征的融合操作，如表征拼接、求和、取最大值和取最小值操作，τ(.)是指一层全连接层后接ReLU(.)激活函数；F_f表示融合表征。

5.基于跨模态语义表征学习和融合的图像分类系统，其特征在于，包括：

图像处理模块，被配置为将获取的图像编码为视觉表征；

将跨模态的语义信息推理结果通过嵌入映射生成语义嵌入；

所述重构语义关系矩阵的构成，具体为：

其中i，j分别表示矩阵中的行坐标和列坐标；

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于跨模态语义表征学习和融合的图像分类方法中的步骤。

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于跨模态语义表征学习和融合的图像分类方法中的步骤。