CN118015389A

CN118015389A - 基于混合条件变分自编码的多样化图像描述生成方法

Info

Publication number: CN118015389A
Application number: CN202311416291.8A
Authority: CN
Inventors: 刘明明; 刘兵; 李穗; 王栋; 范学慧; 张行; 张海燕; 戚海永; 马衍颂
Original assignee: Jiangsu Jianzhu Institute
Current assignee: Jiangsu Jianzhu Institute
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-05-10
Anticipated expiration: 2043-10-30
Also published as: CN118015389B

Abstract

本发明提供了一种基于混合条件变分自编码的多样化图像描述生成方法，包括：分别获取输入的图像和文本的视觉特征和生成文本描述，引入句子级全局隐向量和单词级序列隐向量，构建混合条件变分自编码生成模型；获取基于时间步的变分证据下界，利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界。

Description

基于混合条件变分自编码的多样化图像描述生成方法

技术领域

本发明涉及一种图像数据处理技术，特别是一种基于混合条件变分自编码的多样化图像描述生成方法。

背景技术

图像描述生成，旨在生成语法正确且与图像语义匹配的描述语句，在图像理解领域引起了极大的关注。随着近年来深度学习技术的兴起，受神经机器翻译启发的编解码(Encoder-Decoder)框架在图像描述领域中被广泛采用。其中卷积神经网络(Convolutional Neural Networks，CNN)作为编码器提取图像特征，解码器则采用循环神经网络(Recurrent Neural Network models，RNN)将图像特征解码成对应的描述，或者直接采用Transformer模型实现整个编码器解码器架构。这些方法已经在一些准确性评价指标上取得了显著的性能提升。然而，现有模型大多关注从图像空间到文本空间的确定性映射，导致严重的模式坍塌问题。

为了解决模式坍塌问题，生成对抗网络(Generative Adversarial Network，GAN)和变分自编码器(VariationalAuto Encoders，VAE)引入图像描述生成模型，从而赋予模型一对多映射的能力。尽管基于GAN的图像描述模型可以有效提高句子多样性，但是这种模型很难兼顾句子的准确性指标。现有的基于条件变分自编码器的图像描述模型在多样性和准确性之间取得了一个较好的平衡。然而，这些模型通常引入全局或序列隐向量作为模型的隐层表示，忽视了全局和序列隐向量之间的依赖关系，严重限制了隐向量空间的表示能力和描述性能的提升。此外，这些模型大多基于传统的长短时期记忆网络(Long Short TermMemory，LSTM)构建，导致不能充分利用图像和文本的全局信息，以及无法提供并行训练支撑。

发明内容

本发明提供了一种基于混合条件变分自编码的多样化图像描述生成方法，包括：

分别获取输入的图像和文本的视觉特征I和生成文本描述x，引入句子级全局隐向量g和单词级序列隐向量s＝[s₁，s₂，...，s_T]，构建混合条件变分自编码生成模型，其中T表示描述语句中单词个数；

获取基于时间步的变分证据下界，利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界；其中

混合条件变分自编码生成模型为：

p_θ(x,g,s|I)＝p_θ(g|I)p_θ(s|I,g)p_θ(x|I,g,s)

其中，p_θ(g|I)、p_θ(s|I,g)、p_θ(x|I,g,s)为先验条件分布；

基于时间步的变分证据下界为：

其中，表示用于生成单词序列的对数似然，D_KL(q_φ1(g|I,x)||p_θ(g|I))表示句子级全局隐向量g的后验分布q_φ1(g|I,x)和条件先验p_θ(g|I)之间的KL散度，/>表示每个时间步单词对应的序列隐向量s_t的后验q_φ2(s_t|s_＜t,x,I,g)和条件先验p_θ(s_t|s_＜t,x_＜t,I,g)之间的KL散度之和。

进一步地，全局条件变分编码网络处理数据的过程包括：

对于视觉特征I，采用预训练的SwinTransformer提取图像网格特征V⁰，图像网格特征V⁰输入到由N个注意力块组成的编码器中得到视觉特征V^N

其中，当l＝N-1时获得第N个注意力块的输出，即V^l+1＝V^N，MSA表示多头自注意力模块，AN表示残差归一化模块，FFN表示前馈网络层；

对于输入的长度为T的文本描述语句x＝{x₁,x₂,...,x_T}，通过单词嵌入和位置编码将描述语句转换为输入至由N个注意力块组成的编码器中得到文本特征W^N：

描述语句是单词序列，W⁰是内部表示；

抽取视觉特征V^N和文本特征W^N的全局特征表示。

进一步地，抽取视觉特征V^N和文本特征W^N的全局特征表示的过程包括：

引入一个可学习向量作为查询向量并通过交叉注意力模块自适应地将非固定长度的向量融合为单一向量

其中，Q_c,V_A和W_A分别为图像和文本描述的全局表示；

V_A和W_A进行拼接后经过一个前馈层生成后验全局隐向量

V_A也同时输入一个前馈层生成先验全局隐向量g’；

后验全局隐向量和先验全局隐向量g通过KL散度进行对齐得到全局隐向量g。

进一步地，将q_φ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布q_φ1(g|I,x)＝N(g；μ；σ)，使用前馈网络将V_A和W_A映射为均值μ(x,I)与标准差σ(x,I)，并通过重参数技巧采样得到/>

进一步地，先验分支网络p_θ(g|I)使用前馈网络将V_A映射为均值与标准差，通过重参数采样技巧得到先验全局隐向量g’；

进一步地，对后验概率模型q_φ2(s_t|s_＜t,x,I,g)进行建模参数化为后验推断子网络，后验推断子网络中操作的具体过程包括：

将单词嵌入后的高维语义向量进行位置编码得到输入向量U⁰；

将U⁰与全局隐向量g逐一相加得到融合向量W⁰，输入多头自注意模块并经过AN层得

W^q＝AN(MSA(W⁰,W⁰,W⁰)+W⁰)

通过多头交叉注意模块和残差归一化层将特征W^q与视觉特征V^N进行交互融合

F^q＝AN(CA(W^q,V^N,V^N)+W^q)

使用两个前馈网络层生成均值与方差，并通过重参数技巧从后验概率q_φ2(s_t|s_＜t,x,I,g)的多元高斯分布N(s_t；μ_t,σ_t)中采样得到后验序列隐向量/>t∈{0,1,...,T}。

进一步地，对先验概率模型p_θ(s_t|s_＜t,x_＜t,I,g)进行建模参数化为先验近似子网络，先验近似子网络中操作的具体过程包括：

将输入向量U⁰和全局隐向量g融合后输入掩码多头自注意模块；

将提取的语义特征先后输入共享的多头交叉注意模块以及AN和FFN层，实现对先验概率的参数化；

使用前馈网络层生成均值与方差，并通过重参数技巧从先验概率先验概率模型p_θ(s_t|s_＜t,x_＜t,I,g)的多元高斯分布N(s_t；μ_t,σ_t)中采样得到s_t'。

进一步地，后验序列隐向量和先验序列隐向量s_t'通过KL散度进行对齐得到单词级序列隐向量s。

进一步地，解码网络中数据操作的具体过程为：

序列条件变分编码网络输的特征经过线性层降维；

利用掩码多头自注意模块和残差归一化模块模块提取文本语义特征；

将文本语义特征与图像视觉特征V^N一同输入一个交叉注意力模块模块，获得加权视觉特征；

加权视觉特征依次经过残差归一化模块与前馈网络层与文本语义特征进行融合；

通过线性层和Softmax操作预测词汇表中单词出现的概率。

本发明提出了一种混合条件变分自编码生成模型，并推导了条件似然的变分证据下界，通过最大化变分证据下界构建了一个新颖的多样化图像描述生成框架HCVA-T-IC。该框架与现有发放相比，具有以下优点：(1)能够将混合条件变分自编码与Transformer模型进行端到端的无缝融合，利用全局隐向量空间表征句子级多样性，同时将序列隐向量引入编解码过程，以提升每个时间步生成单词的多样性；(2)通过扩展句子级和单词级的隐向量表示空间，克服了现有多样化图像描述生成模型的局限性，因而更适用于多样化图像描述生成任务。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1为本发明的方法流程示意图。

图2为本发明全局条件变分编码网络流程示意图。

图3为本发明序列条件变分编码网络和解码网络流程示意图。

图4为实施例一描述语句生成过程中的视觉注意力可视化示意图。

图5为实施例一中各种模型生成描述结果的定性对比示意图，其中带有横线单词为错误单词，浅色单词为重复单词。

具体实施方式

一种基于混合条件变分自编码的多样化图像描述生成方法，包括以下步骤：

步骤S100，分别获取输入的图像和文本的视觉特征I和生成文本描述x，引入句子级全局隐向量g和单词级序列隐向量s＝[s₁，s₂，...，s_T]，T表示描述语句中单词个数，构建混合条件变分自编码生成模型；

步骤S200，获取基于时间步的变分证据下界；

步骤S300，利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界。

步骤S100中，混合条件变分自编码生成模型为：

其中，p_θ(g|I)、p_θ(s|I,g)为先验条件分布，采用变分方法进行近似求解。

步骤S100中，从先验条件分布p_θ(g|I)中采样一个句子级全局隐向量g；从先验条件分布p_θ(s|I,g)中采样一组单词级序列隐向量s＝[s₁，s₂，...，s_T]；从条件分布p_θ(x|I,g,s)中生成一个描述语句x。

步骤S200中，对模型(1)中每个数据点的条件似然的变分形式为：

logp_θ(x|I)＝D_KL(q_φ(g,s|I,x)||p_θ(g,s|I,x))+L(q_φ(g,s|I,x)；x) (2)

L(q_φ(g,s|I,x)；x)＝E_qφ(g,s|I,x)[-logq_φ(g,s|I,x)+logp_θ(x,g,s|I)] (3)

其中q_φ(g,s|I,x)为近似后验概率分布，D_KL(q_φ(g,s|I,x)||p_θ(g,s|I,x))≥0为KL散度，L(q_φ(g,s|I,x)；x)为对数条件似然p_θ(x|I)的变分证据下界。

结合图2，q_φ(g,s|I,x)＝q_φ1(g|I,x)q_φ2(s|I,x,g)，则模型(3)等价表示为：

通过使用乘积规则和实践因子分解，模型(4)表示为基于时间步的变分证据下界：

模型(5)中，表示用于生成单词序列的对数似然，D_KL(q_φ1(g|I,x)||p_θ(g|I))表示句子级全局隐向量g的后验分布q_φ1(g|I,x)和条件先验p_θ(g|I)之间的KL散度，/>表示每个时间步单词对应的序列隐向量s_t的后验q_φ2(s_t|s_＜t,x,I,g)和条件先验p_θ(s_t|s_＜t,x_＜t,I,g)之间的KL散度之和。

结合图1，构建图像描述解码网络、全局条件变分编码网络和条件序列变分编码网络优化模型(5)。其中图像描述解码网络对应模型(5)中的第一项，即单词序列条件生成模型，其输入条件为图像I、描述语句x、句子级全局隐向量g与单词级序列隐向量s；全局条件变分编码网络和条件序列变分编码网络分别对应模型(5)中的第二项和第三项，用于参数化对应的条件后验与先验概率模型。

结合图2，全局条件变分编码网络为双分支编码网分别使用了N层Transformer编码器将视觉特征I和文本描述语句x映射为高维语义向量。具体的对于输入图像的处理过程包括：

步骤S301，对于视觉特征I，采用预训练的Swin Transformer提取图像网格特征V⁰；

步骤S302，输入到由N个注意力块组成的编码器中得到视觉特征V^N

其中，当l＝N-1时获得第N个注意力块的输出，即V^l+1＝V^N。

MSA表示多头自注意力模块(Multi-head Self-Attention)，AN表示残差归一化模块(Add&Layer Norm)，FFN表示前馈网络层(Feed Forward Network)。

对于输入的长度为T的文本描述语句x＝{x₁,x₂,...,x_T}，T表示描述语句中单词个数，的处理过程包括：

步骤S311，通过单词嵌入和位置编码将描述语句转换为描述语句是单词序列，W⁰是内部表示；

步骤S312，输入至由N个注意力块组成的编码器中得到文本特征W^N：

抽取视觉特征V^N和文本特征W^N的全局特征表示，具体过程为：

步骤S320，引入一个可学习向量作为查询向量并通过交叉注意力(Cross-Attention，CA)模块自适应地将非固定长度的向量融合为单一向量

其中，Q_c,V_A和W_A分别为图像和文本描述的全局表示；

步骤S321，V_A和W_A进行拼接后经过一个前馈层生成后验全局隐向量V_A也同时输入一个前馈层生成先验全局隐向量g’；

步骤S322，将q_φ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布q_φ1(g|I,x)＝N(g；μ；σ)，使用前馈网络将V_A和W_A映射为均值μ(x,I)与标准差σ(x,I)，并通过重参数技巧采样得到/>(0,I)为向量。

图2中，为了区分后验和先验分支生成的全局隐向量，分别使用和g表示。

步骤S321中，先验分支网络p_θ(g|I)使用前馈网络将V_A，映射为均值与标准差，通过重参数采样技巧得到先验全局隐向量g’；

步骤S324，后验全局隐向量和先验全局隐向量g’通过KL散度进行对齐得到全局隐向量g，然后将后验全局隐向量/>输入序列条件变分编码网络。

结合图3，在全局条件变分编码网络构建基础上，进一步构造序列条件变分编码网络和解码网络，分别对后验概率模型q_φ2(s_t|s_＜t,x,I,g)、先验概率模型p_θ(s_t|s_＜t,x_＜t,I,g)以及单词序列生成模型p_θ(x_t|x_＜t,I,s_≤t,g)进行建模，并分别参数化为后验推断子网络、先验近似子网络和解码网络。

后验推断子网络和先验近似子网络组成了序列条件变分编码网络，序列条件变分编码网络采用Swin-Transformer提取图像网格视觉特征V⁰，将其输入到由N个注意力块组成的编码器中得到视觉特征V^N，V^N和文本描述一起输入后验推断子网络和先验近似子网络执行双路径的变分推断。为了降低计算复杂性，分别将先验和后验模型简化为p_θ(s_t|s_＜t,x_＜t,I,g)和q_φ2(s_t|s_＜t,x,I,g)。

具体的，后验推断子网络中操作的具体过程包括：

步骤S401，将单词嵌入后的高维语义向量进行位置编码得到输入向量U⁰；

步骤S402，将U⁰与全局隐向量g逐一相加得到融合向量W⁰，输入多头自注意模块并经过AN层得

步骤S403，通过多头交叉注意模块和残差归一化层将特征Wq与视觉特征V^N进行交互融合

F^q＝AN(CA(W^q,V^N,V^N)+W^q) (10)

步骤S404，使用两个前馈网络层(FeedForward)生成均值与方差，并通过重参数技巧从后验概率q_φ2(s_t|s_＜t,x,I,g)的多元高斯分布N(s_t；μ_t,σ_t)中采样得到/>t∈{0,1,...,T}。

后验概率q_φ2(s_t|s_＜t,x,I,g)的隐向量依赖于视觉特征I、整个文本描述x、全局隐向量g和前一个序列隐向量/>

先验近似子网络中操作的具体过程为：

步骤S411，将输入向量U⁰和全局隐向量g融合后输入掩码多头自注意模块(MaskedSelf-Attention)，以保证推断序列隐嵌入s_t仅利用第t步之前生成的单词；

步骤S412，将提取的语义特征先后输入共享的多头交叉注意模块以及AN和FFN层，实现对先验概率的参数化；

步骤S413，使用前馈网络层(FeedForward)生成均值与方差，并通过重参数技巧从先验概率先验概率模型p_θ(s_t|s_＜t,x_＜t,I,g)的多元高斯分布N(s_t；μ_t,σ_t)中采样得到s_t'。

图3中，为了区分后验和先验分支生成的序列隐向量，分别使用和s’表示，后验序列隐向量/>和先验序列隐向量s’通过KL散度进行对齐得到单词级序列隐向量s。

在后验推断子网络和先验近似子网络中的多头交叉注意模块(Cross-Attention)中，需要对网络权重进行共享，以保证后验全局隐向量g^～和先验全局隐向量g的输出一致性。

后验推断子网络和先验近似子网络获得的序列隐向量s和g需要与描述语句每个单词词嵌入向量进行逐个拼接，并作为解码网络的输入。

在解码网络中，图像描述生成框架中的解码网络p_θ(x_t|x_＜t,I,s_≤t,g)与Transformer解码器结构类似。具体过程为：

步骤S501，序列条件变分编码网络输的特征经过线性层降维；

步骤S502，利用掩码多头自注意模块(Masked Self-Attention)和残差归一化模块(Add&Layer Norm)模块提取文本语义特征；

步骤S503，将文本语义特征与图像视觉特征V^N一同输入一个交叉注意力模块(Cross-Attention)模块，获得加权视觉特征；

步骤S504，加权视觉特征依次经过残差归一化模块(Add&Layer Norm)与前馈网络层(Feed Forward Network)与文本语义特征进行融合；

步骤S505，通过线性层和Softmax操作预测词汇表中单词出现的概率。

实施例一

在测试阶段，对上述模型进行测试。测试过程中，在全局条件变分编码网络中仅对图像进行输入。在序列条件变分编码网络中，先验概率模型p_θ(s_t|s_＜t,x_＜t,I,g)不依赖完整文本描述x，仅依赖部分生成的单词，用于在测试阶段采样s_t进行解码；后验推断子网络不进行测试。

定量与定性实验中所对比的图像描述方法均在MSCOCO数据集上进行训练与测试。为了公平对比，与现有方法均采用常用的m-RNN数据集划分方法^[2]，其中训练集118287张图像，验证集4000张图像，测试集1000张图像，且每张图像均有5条由人工标注的描述语句与之对应。

0实验采用了4种在图像描述任务中广泛使用的评价指标来评价模型所生成描述的准确性，包括BLEU@N、METEOR、ROUGE-L、CIDEr。其中，BLEU通过计算生成文本和参考文本之间n-gram的精准率(precision)来评价生成文本的精确性；METEOR在BLEU的基础上进一步考虑了召回率(recall)，使得所生成描述在保证精确性前提下更加人性化和贴合自然的描述内容；ROUGE是通过比较生成文本和人工标注文本相同的部分，实现对句子中单词的重复率以及排列顺序的相似度的计算CIDEr是通过比较生成文本和人工标注文本相同的部分，实现对句子中单词的重复率以及排列顺序的相似度的计算。

传统的图像描述模型对于单张测试图像利用生成的单个描述进行评价指标的计算，而图像多样化描述生成模型需要针对生成的一组描述进行评价。目前大多采用Oracle重排序(Oracle re-ranking)计算Best-1 Accuracy指标。具体地，Oracle重排使用测试图像的真实描述作为指标计算参考描述，其中在生成的一组描述中，每个指标得分最高的描述被选为Best-1，然后计算所有测试图像的Best-1准确性评价指标的平均值。

(1)多样性指标

目前图像多样化描述方法大多采用Consensus重排序(Consensus re-ranking)的方式统计和对比多样性指标。在Consensus重排序中，对于一张生成了n个描述的测试图像，首先计算其与训练集中相似度最高的K个图像，然后将n个描述分别与这K个相似图像的M个真实描述计算CIDEr分数。其中得分最高的描述被选为Best-1描述。

多样性指标使用Best-1accuracy consensus re-ranking的排序方式，最终选取单张图片得分最高的Best-5个描述：

1)Uniqueness：测试集所有图像生成的Best-5个描述中，不重复的描述所占比例。

2)Novel：测试集生成的描述与训练集中真实描述不重复的描述个数。

3)mBleu：对于每一张测试图像的Best-5，分别计算其中一个描述与其余四个描述的Bleu-4分数，取单张图像五个描述分数的平均后，再取测试集平均。

4)Div-1：计算每一张测试图像的Best-5中不重复的1-gram在五个描述总1-gram长度中所占比例，并取测试集平均。

5)Div-2：使用2-gram替换1-gram，计算方法同Div-1。

(2)实验设置

所提出的模型在训练中的图像特征、单词嵌入和隐变量的维度均设置为512。在视觉编码器中，本实施例使用预训练的Swin-Transformer来提取每幅图像的网格特征，且维度为1536并将其线性映射到512维向量。在生成器中，使用单词嵌入并加上位置编码作为后验推断网络和先验近似网络的输入。此外，视觉编码器和生成器均是由3层的注意力块组成的，其中多头注意力的头数为8。在训练阶段，设置批大小为10，利用Adam优化算法和warmup学习率预热技巧来优化提出的模型。在学习率为5×10^-6和交叉熵与KL散度损失函数下训练30个回合。平衡因子α和β分别设置为0。1。在测试阶段，为了对比的公平性，与对比方法使用相同的束搜索参数。在进行准确性评价度量时束搜索宽度设置为2，而在多样性评价度量时的束搜索宽度设置为1。此外，本实施例的实验环境为PyTorch＝3。8。2、CUDA＝10。2和1个Nvidia GTX 3080GPU。

(3)实验结果定量分析

首先将本实施例与主流多样化图像描述方法进行对比。表1列出了各方法在MSCOCO数据集上使用。

表1 MSCOCO数据集上的“M-RNN”划分和Oracle重新排序条件下各方法准确性对比

表2 MSCOCO数据集上使用“M-RNN”划分和Consensus重新排序后多样性的性能对比(↑表示数值越大性能越好，↓含义相反)

“M-RNN”划分和Oracle重排序后统计的准确性结果，其中“sample”表示每个方法采样生成的描述语句数量，最佳结果进行了加粗显示。具体地，与对比方法保持一致，实验中通过分别利用先验分支网络采样20和100个隐变量，然后输入解码网络生成多样化的描述语句。如表1所示，HCVA-T-IC在两种采样下获得的各个准确性评价指标得分均优于其他对比方法。特别是，在与人工评价相关性较好的CIDEr指标上，HCVA-T-IC显著优于其他方法。具体地，在采样20个全局与序列隐向量的情况下，相比于目前最优的COS-CVAE，获得了6.3的CIDEr分数提升。特别在采样100个隐向量的情况下，相比COS-CVAE准确性分数提升了19.2。此外，HCVA-T-IC模型在生成过程中没有引入其他的额外信息，而AG-CVAE、POS和COS-CVAE方法分别在推理过程中利用了目标对象信息、PoS标签和增强的上下文信息。因此，所提出的HCVA-T-IC模型具有更好的准确性。表2进一步评估了不同模型使用Consensus重排后获得的最优五个句子的多样性指标得分。从表2可以看出，Div-BS的Uniqueness分数最高，但在其它指标上的多样性得分较低，这是因为Div-BS倾向于生成重复的n-gram。HCVA-T-IC模型在所有多样性指标中的综合性能更好。尤其是在两种采样下，HCVA-T-IC的Uniqueness指标分别达到了99.3％和98.4％。在mBlue、Div-1和Div-2指标上，HCVA-T-IC显著优于其它方法，在20和100个采样中分别获得0.72和0.60的Div-2指标得分，相比COS-CVAE分别提升了38％和20％。这充分证实了HCVA-T-IC模型在提高多样化图像描述的有效性。此外，与最优的COS-CVAE相比，在多样性指标mBleu上相比COS-CVAE分别显著提升了11.5％和9％，这表明它生成的不同描述之间有着显著的差异。此外，在多样化描述生成中HCVA-T-IC不需要额外进行数据增强预处理工作，相比于COS-CVAE更易于实际应用。

综合以上分析，在准确性和多样性指标上，本实施例提出的HCVA-T-IC多样化图像描述模型均明显优于现有主流多样化图像描述方法，能够生成更加准确和多样的描述语句。

表3 MSCOCO数据集上的“M-RNN”划分和Oracle重新排序条件下准确性消融实验

表4 MSCOCO数据集上使用“M-RNN”划分和Consensus重新排序后多样性消融实验

表3和表4分别列出了所提出的HCVA-T-IC模型在不用采样下的消融实验结果。其中，GCVA-T-IC和SCVA-T-IC分别表示仅使用句子级全局隐向量和单词级序列隐向量的图像描述生成模型。从中可以看出，GCVA-T-IC在CIDEr准确性指标上优于SCVA-T-IC，在多样性指标上均低于SCVA-T-IC。这是由于GCVA-T-IC侧重于句子语法结构多样性的建模，而SCVA-T-IC关注单词级多样性的表征，因此SCVA-T-IC倾向于生成更多样的语句。然而，SCVA-T-IC多样性的提升以牺牲准确性为代价。相比于GCVA-T-IC和SCVA-T-IC，HCVA-T-IC模型融合了两种模型的优点，在绝大部分实验指标上均获得了更好的性能，同时提升了图像描述的准确性和多样性。

(4)实验结果定性分析

为了更好地定性评估所提出方法的有效性。对HCVA-T-IC模型生成描述过程中的视觉注意力权重进行可视化。图4展示了在每个时间步生成的单词及其对应的Transformer解码网络最后一层的注意力权重热图。从图中可以看出，本实施例的方法可以针对生成的语句关注到与语义最相关的图像区域，而一些与图像无关的词的注意力权重分布则较为稀疏。图5进一步定性对比了各方法从相同的两个测试图像采样得到的描述语句。直观地说，与其他方法相比，本实施例生成的描述更加准确和多样。如图5第二幅图像及其对应描述所示，HCVA-T-IC可以准确识别出图像中的鸟的数量，而其它方法则生成了不准确的量词和错误的单词。此外，对比方法倾向于生成高频n-gram的短语，而本实施例提出的HCVA-T-IC方法均可以生成更连贯和精细的描述，例如，生成的描述中包含了形容词“brown andwhite”，以及不常见的单词“identical”、“wading across”等。

Claims

1.一种基于混合条件变分自编码的多样化图像描述生成方法，其特征在于，包括：

混合条件变分自编码生成模型为：

p_θ(x,g,s|I)＝p_θ(g|I)p_θ(s|I,g)p_θ(x|I,g,s)

其中，p_θ(g|I)、p_θ(s|I,g)、p_θ(x|I,g,s)为先验条件分布；

基于时间步的变分证据下界为：

2.根据权利要求1所述的方法，其特征在于，全局条件变分编码网络处理数据的过程包括：

对于视觉特征I，采用预训练的Swin Transformer提取图像网格特征V⁰，图像网格特征V⁰输入到由N个注意力块组成的编码器中得到视觉特征V^N

描述语句是单词序列，W⁰是内部表示；

抽取视觉特征V^N和文本特征W^N的全局特征表示。

3.根据权利要求2所述的方法，其特征在于，抽取视觉特征V^N和文本特征W^N的全局特征表示的过程包括：

其中，Q_c,V_A和W_A分别为图像和文本描述的全局表示；

V_A和W_A进行拼接后经过一个前馈层生成后验全局隐向量

V_A也同时输入一个前馈层生成先验全局隐向量g’；

4.根据权利要求3所述的方法，其特征在于，将q_φ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布q_φ1(g|I,x)＝N(g；μ；σ)，使用前馈网络将V_A和W_A映射为均值μ(x,I)与标准差σ(x,I)，并通过重参数技巧

采样得到/>

5.根据权利要求3所述的方法，其特征在于，先验分支网络p_θ(g|I)使用前馈网络将V_A映射为均值与标准差，通过重参数采样技巧得到先验全局隐向量g’。

6.根据权利要求3所述的方法，其特征在于，对后验概率模型q_φ2(s_t|s_＜t,x,I,g)进行建模参数化为后验推断子网络，后验推断子网络中操作的具体过程包括：

W^q＝AN(MSA(W⁰,W⁰,W⁰)+W⁰)

F^q＝AN(CA(W^q,V^N,V^N)+W^q)

使用两个前馈网络层生成均值与方差，并通过重参数技巧从后验概率q_φ2(s_t|s_＜t,x,I,g)的多元高斯分布N(s_t；μ_t,σ_t)中采样得到后验序列隐向量

7.根据权利要求6所述的方法，其特征在于，对先验概率模型p_θ(s_t|s_＜t,x_＜t,I,g)进行建模参数化为先验近似子网络，先验近似子网络中操作的具体过程包括：

8.根据权利要求7所述的方法，其特征在于，后验序列隐向量和先验序列隐向量s_t'通过KL散度进行对齐得到单词级序列隐向量s。

9.根据权利要求8所述的方法，其特征在于，解码网络中数据操作的具体过程为：

序列条件变分编码网络输的特征经过线性层降维；

通过线性层和Softmax操作预测词汇表中单词出现的概率。