CN116824584A

CN116824584A - 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法

Info

Publication number: CN116824584A
Application number: CN202310804760.7A
Authority: CN
Inventors: 刘兵; 刘浩; 王栋; 刘明明; 周勇
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-29

Abstract

本发明公开了一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，包括：提取图像的区域特征得到输入向量输入至预设的条件变分Transformer模型，得到图像的相应描述语句；该模型包括变分推断编码器和生成器；将模型使用序列化条件自编码中的变分下界机理进行预训练；再采用自省对抗学习策略进行微调，在不额外添加判别器的前提下，通过对抗学习自我评估生成的描述语句来实现图像描述的多样化。本发明采用序列化条件变分自编码架构，与条件变分Transformer模型相结合，解决了模型受限于单一映射的问题；采用自省对抗学习策略，缓解了模型受限于人工评价指标的问题，提升了多样化图像描述的性能。

Description

一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法

技术领域

本发明属于计算机视觉和自然语言处理技术领域，具体涉及一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法。

背景技术

图像描述生成作为多模态机器学习的基础性研究课题，旨在让机器理解图像的内容，并且以自然语言的形式自动生成图像所对应的文本。对于人类来说描述一张图片的内容是很轻松的，但是对于机器来说是极具挑战性的。同时图像描述还具有重要科学研究和应用价值。在图像检索和分类领域，有助于提升图像内容检索和分类的准确度。在婴幼儿早教领域，与语音识别技术相结合有助于儿童快速成长，感知世界。在视觉辅助领域，帮助视力障碍人群理解图像信息，弥补视觉缺陷。在智慧医疗领域，可以自动生成医学图像诊断报告，为智能诊疗提供技术支撑。

随着深度学习在人工智能领域取得的重大突破，基于深度编码器-解码器网络的图像描述成为了目前的主流方法。这类方法通常使用卷积神经网络(ConvolutionalNeural Network，CNN)作为图像编码器提取视觉特征，然后利用循环神经网络(RecurrentNeural Network，RNN)作为解码器将视觉特征转换为对应的描述文本。

近年来，自然语言处理中的Transformer架构开始被引入图像描述领域，并取得了比CNN-RNN模型更好的图像描述性能。尽管Transformer模型在一定程度上提升了图像描述生成的指标，但受限于深度学习的“黑盒”映射，模型受限于单一映射和人工评价指标的问题，倾向于生成由简单重复短语所组成的唯一描述，无法保证描述的多样性。

发明内容

解决的技术问题：针对上述技术问题，本发明提供了一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，采用序列化条件变分自编码架构，并与基于Transformer的图像描述方法相结合，进而解决模型受限于单一映射的问题；采用自省对抗学习策略，在不额外添加判别器的前提下，通过对抗学习思想自我评估生成的描述语句，进而缓解模型受限于人工评价指标的问题，从而提升多样化图像描述的性能。

技术方案：一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，包括步骤如下：

步骤1、获取图像，并提取该图像的区域特征得到输入向量；

步骤2、将上述向量输入预设的条件变分Transformer模型，得到图像的相应描述语句；其中，所述预设的条件变分Transformer模型包括变分推断编码器和生成器，所述的变分推断编码器和生成器均由掩码自注意力层、交叉注意力层、归一化残差层和前馈神经网络组成；

步骤3、将上述预设的条件变分Transformer模型使用序列化条件自编码中的变分下界机理进行模型的预训练；

步骤4、将上述预训练的模型采用自省对抗学习策略进行微调，在不额外添加判别器的前提下，通过对抗学习思想自我评估生成的描述语句，来实现图像描述的多样化。

优选的，所述步骤1中的图像采用Faster R-CNN目标检测算法提取图像的区域特征。

优选的，所述步骤1中向量由区域特征通过线性层降维后获得。

优选的，所述步骤2的具体步骤如下：

步骤2-1、将所述向量输入所述变分推断编码器中，并在所述变分推断编码器中先经过特征编码网络得到视觉与文本混合语义特征，后将视觉与文本混合语义特征同时输入后验推断子网络以及先验近似子网络得到编码结果；

步骤2-2、将所述编码结果输入所述生成器中，得到图像所对应的描述语句。

进一步的，所述步骤2-1中，特征编码网络由N层的注意力模块组成。

进一步的，所述步骤2-1中，将所述视觉与文本混合语义特征输入后验推断子网络进行计算，得到第一计算结果W^q；其中，计算公式为：

W^q＝LayerNorm(MultiHead(W⁰，W⁰，W⁰)+W⁰)

其中，表示单词嵌入后的向量进行位置编码后得到的输入向量；

将所述第一计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征F^q；其中，计算公式为：

F^q＝LayerNorm(MultiHead(W^q，V^N，V^N)+W^q)

其中，M为图像的区域特征数量，T为单词的个数；

将所述特征F^q分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差，并通过重参数化技巧采样后验隐变量。

更进一步的，所述步骤2-1中，将所述关注结果输入先验近似子网络进行计算，得到第二计算结果W^p；其中，计算公式为：

W^p＝LayerNorm(MaskedMultiHead(W⁰，W⁰，W⁰)+W⁰)其中，

将所述第二计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征F^p；其中，计算公式为：

F^p＝LayerNorm(MultiHead(W^p，V^N，V^N)+W^p)

其中，M为图像的区域特征数量；

将所述特征F^p分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差，并通过重参数化技巧采样先验隐变量。

更加进一步的，在模型训练阶段，所述编码结果为：将后验隐变量与特征F^p进行拼接操作和全连接层降维后的特征；在模型测试阶段，所述编码结果为：将先验隐变量与特征F^p进行拼接操作和全连接层降维后的特征。

优选的，所述步骤3中，预训练过程为：采用交叉熵损失衡量生成的描述和人工标注描述之间的相似性，采用KL损失通过最小化近似后验和条件先验之间的KL散度来正则化变分推断编码器。

优选的，所述步骤4中，自省对抗学习策略的微调采用如下公式：

其中[·]⁺＝max(0，·)，m为positive margin，sg(·)表示反向传播在此时停止，α和β为权衡参数，L_XE表示交叉熵损失，L_KL表示KL损失，x^g表示人工标注的真实描述语句，x^p表示生成器采样得到的描述语句。

有益效果：本发明通过将序列化条件自编码架构与Transformer模型相结合，实现图像到文本的一对多映射，通过给定的图像作为条件采样任意个数的隐空间向量实现任意个数描述的生成，可以有效解决当前图像描述中Transformer模型受限于单一映射的问题。同时，设计了一种新的应用于文本生成任务的自省对抗学习策略，主要针对文本离散难以反向传播以及模型受限于人工评价的问题，通过gumbe1 softmax技巧将生成描述回传至编码器进行对抗学习，从而进一步优化生成描述语句的质量。

附图说明

图1为本发明中条件变分Transformer模型的架构图；

图2为本发明中自省对抗学习策略的训练流程图；

图3为本发明实施例的方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步描述。

实施例1

如图1和图3所示，一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，包括步骤如下：

步骤1、获取图像，并采用Faster R-CNN目标检测算法提取该图像的区域特征，将该区域特征通过线性层降维后得到输入向量。

步骤2、将上述向量输入预设的条件变分Transformer模型，得到图像的相应描述语句；其中，所述预设的条件变分Transformer模型包括变分推断编码器和生成器，所述的变分推断编码器和生成器均由掩码自注意力层、交叉注意力层、归一化残差层和前馈神经网络组成。

步骤2-1、将所述向量输入所述变分推断编码器中，并在所述变分推断编码器中先经过特征编码网络得到视觉与文本混合语义特征，后将视觉与文本混合语义特征同时输入后验推断子网络以及先验近似子网络得到编码结果。

具体的，将所述向量输入特征编码网络(特征编码网络是由N个注意力模块组成的编码器)，经注意力、残差归一化等操作后得到视觉与文本混合语义特征V^N；

将所述视觉与文本混合语义特征输入后验推断子网络进行计算，得到第一计算结果W^q；其中，计算公式为：

W^q＝LayerNorm(MultiHead(W⁰，W⁰，W⁰)+W⁰)

F^q＝LayerNorm(MultiHead(W^q，V^N，V^N)+W^q)

其中，M为图像的区域特征数量，T为单词的个数；

将所述特征F^q分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差，并通过重参数化技巧采样后验隐变量z_t；计算公式为：

其中分别采用两个前馈神经网络生成均值与方差，并通过重参数技巧z_t＝μ_t+σ_t⊙∈，∈～N(0，I)从N(z_t，μ_t，σ_t)采样得到z_t；

将所述视觉与文本混合语义特征输入先验近似子网络进行计算，得到第二计算结果W^p；其中，计算公式为：

W^p＝LayerNom(MaskedMultiHead(W⁰，W⁰，W⁰)+W⁰)

其中，

F^p＝LayerNorm(MultiHead(W^p，V^N，V^N)+W^p)

其中，M为图像的区域特征数量；

将所述特征F^p分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差，并通过重参数化技巧采样先验隐变量z_t；计算公式为：

其中先验隐变量z_t为符合均值μ_t(z_t-1，x_＜t，I)和标准差σ_t(z_t-1，x_＜t，I)的多元高斯分布；

步骤2-2、将所述编码结果输入所述生成器中，得到图像所对应的描述语句；其中生成器由标准的Transformer解码器和Gumbel采样器组成。在模型训练阶段，所述编码结果为：将后验隐变量与先验近似子网络中视觉特征和文本特征融合后的特征F^p进行拼接操作和全连接层降维到512维后的特征；在模型测试阶段，所述编码结果为：将先验隐变量与特征F^p进行拼接操作和全连接层降维后的512维特征。

步骤3、将上述预设的条件变分Transformer模型使用序列化条件自编码中的变分下界机理进行模型的预训练，将一幅图像和其对应的描述文本映射到一组隐变量中，对图像和描述之间的一对多关系进行建模；其公式为：

其中交叉熵损失L_XE用于衡量生成的描述和人工标注描述之间的相似性，KL损失L_KL通过最小化近似后验和条件先验之间的KL散度来正则化变分推断编码器。

步骤4、将上述预训练的模型采用自省对抗学习策略进行微调，在不额外添加判别器的前提下，通过对抗学习思想自我评估生成的描述语句，来实现图像描述的多样化；其公式如下：

其中[·]⁺＝max(0，·)，m为positive margin，sg(·)表示反向传播在此时停止，α和β为权衡参数。

如图2所示，E_q和E_p分别为后验推断子网络和先验近似子网络，用于生成后验和先验隐变量。将所述隐变量传至生成器分别采样得到描述x^g和x^p。编码器和生成器通过最小化L_KL(I，x)和损失L_XE(x，x^g)进行联合训练。此外，当L_KL＝(I，sg(x^g))≤m时，编码器E和生成器G通过L_E和L_G损失进行最小-最大博弈。同时编码器通过最大化L_KL(I，sg(x^g))，将人工标注的描述与和生成器采样得到的描述x^g、x^p区分开来，而生成器则经过对抗训练以生成具有较小L_KL(I，x^r)的描述语句。

下面基于上述基于条件变分Transformer的多样化图像描述方法进行仿真实验，本实施实例的实现方法入前步骤1～4所述，不再详细阐述具体的步骤，下面仅针对实验结果展示其效果。

本方法中条件变分Transformer模型的图像特征、单词嵌入和隐变量的维度均为512。具体地，使用预训练的Faster R-CNNr来提取每幅图像的网格特征，且维度为2048并将其线性映射到512维向量。在生成器中，使用单词嵌入并加上位置编码作为后验推断子网络和先验近似子网络的输入。此外，视觉编码器和生成器均是由N＝3的注意力块组成的，其中多头注意力的头数为8。在训练阶段，实验利用Adam优化算法和warmup学习率预热技巧来优化模型，并在交叉熵损失下训练30个回合。超参数m根据经验设置为100，超参数α＝β＝1.0，在测试阶段，在进行准确性评价度量时束宽设置为2，而在多样性评价度量时束宽设置为1。此外，所述方法中的生成器可以分别使用Softmax和Gumbel Softmax操作与波束搜索结合对一组描述进行采样。

表1 MSCOCO数据集“M-RNN”测试集上使用Oracle重新排序后准确性的性能对比

表2 MSCOCO数据集“M-RNN”测试集上使用Consensus重新排序后多样性的性能对比

表1为本发明(Ours)与其他方法在MSCOCO“M-RNN”测试集上使用Oracle重新排序后准确性的性能对比，其中“sample”表示每个图像采样出的描述数量，最佳结果进行了加粗。Oracle重排使用每个指标的最大得分对不同的描述进行排序并选择最好的描述，每个Oracle评估分数都是测试集的平均值。本实验通过采样20和100个隐变量，传至生成器解码出描述语句。如表1所示，本发明(Ours)在采样20个和100个描述上得到的各个准确性评价指标得分都优于所对比的方法。

表2进一步评估了不同模型在MSCOCO数据集“M-RNN”测试集上使用Consensus重排后最好的五个句子的多样性指标得分。从表2可以看出，本发明在所有多样性指标中的性能更好。尤其是本发明生成了19.82/20(99.1％)和97.84/1000(97.8％)个独一无二的描述语句。根据20和100个采样的结果，本发明与最新的模型不相上下。与现有方法相比，本发明的mBLEU-4指标得分更低，这表明它生成的不同描述之间有着显著的差异。在Div-1和Div-2指标上，本发明显著优于其它方法，例如，它在20和100个采样中分别获得0.73和0.61的Div-2指标得分，这表明了本发明在提高多样化图像描述的有效性。

综上，本发明在准确性度量和多样性度量上较现有的方法都有显著的性能提高，这充分的说明了本方法都够生成既准确又多样的描述，进一步表明本方法的有效性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于此，在所属技术领域的技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下可以作出的各种变化，都处于本发明权利要求的保护范围之内。

Claims

1.一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，包括步骤如下：

步骤1、获取图像，并提取该图像的区域特征得到输入向量；

2.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤1中的图像采用Faster R-CNN目标检测算法提取图像的区域特征。

3.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤1中向量由区域特征通过线性层降维后获得。

4.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤2的具体步骤如下：

5.根据权利要求4所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤2-1中，特征编码网络由N层的注意力模块组成。

6.根据权利要求4所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤2-1中，将所述视觉与文本混合语义特征输入后验推断子网络进行计算，得到第一计算结果W^q；其中，计算公式为：

W^q＝LayerNorm(MultiHead(W⁰,W⁰,W⁰)+W⁰)

F^q＝LayerNorm(MultiHead(W^q,V^N,V^N)+W^q)

其中，M为图像的区域特征数量，T为单词的个数；

7.根据权利要求6所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤2-1中，将所述视觉与文本混合语义特征输入先验近似子网络进行计算，得到第二计算结果W^p；其中，计算公式为：

W^p＝LayerNorm(MaskedMultiHead(W⁰，W⁰，W⁰)+W⁰)

其中，

F^p＝LayerNorm(MultiHead(W^p,V^N,V^N)+W^p)

其中，M为图像的区域特征数量；

8.根据权利要求7所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，在模型训练阶段，所述编码结果为：将后验隐变量与特征F^p进行拼接操作和全连接层降维后的特征；在模型测试阶段，所述编码结果为：将先验隐变量与特征F^p进行拼接操作和全连接层降维后的特征。

9.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤3中，预训练过程为：采用交叉熵损失衡量生成的描述和人工标注描述之间的相似性，采用KL损失通过最小化近似后验和条件先验之间的KL散度来正则化变分推断编码器。

10.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法，其特征在于，所述步骤4中，自省对抗学习策略的微调采用如下公式：