CN118015389A - 基于混合条件变分自编码的多样化图像描述生成方法 - Google Patents

基于混合条件变分自编码的多样化图像描述生成方法 Download PDF

Info

Publication number
CN118015389A
CN118015389A CN202311416291.8A CN202311416291A CN118015389A CN 118015389 A CN118015389 A CN 118015389A CN 202311416291 A CN202311416291 A CN 202311416291A CN 118015389 A CN118015389 A CN 118015389A
Authority
CN
China
Prior art keywords
network
global
vector
coding
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311416291.8A
Other languages
English (en)
Other versions
CN118015389B (zh
Inventor
刘明明
刘兵
李穗
王栋
范学慧
张行
张海燕
戚海永
马衍颂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute of Architectural Technology
Original Assignee
Jiangsu Institute of Architectural Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute of Architectural Technology filed Critical Jiangsu Institute of Architectural Technology
Priority to CN202311416291.8A priority Critical patent/CN118015389B/zh
Publication of CN118015389A publication Critical patent/CN118015389A/zh
Application granted granted Critical
Publication of CN118015389B publication Critical patent/CN118015389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于混合条件变分自编码的多样化图像描述生成方法,包括:分别获取输入的图像和文本的视觉特征和生成文本描述,引入句子级全局隐向量和单词级序列隐向量,构建混合条件变分自编码生成模型;获取基于时间步的变分证据下界,利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界。

Description

基于混合条件变分自编码的多样化图像描述生成方法
技术领域
本发明涉及一种图像数据处理技术,特别是一种基于混合条件变分自编码的多样化图像描述生成方法。
背景技术
图像描述生成,旨在生成语法正确且与图像语义匹配的描述语句,在图像理解领域引起了极大的关注。随着近年来深度学习技术的兴起,受神经机器翻译启发的编解码(Encoder-Decoder)框架在图像描述领域中被广泛采用。其中卷积神经网络(Convolutional Neural Networks,CNN)作为编码器提取图像特征,解码器则采用循环神经网络(Recurrent Neural Network models,RNN)将图像特征解码成对应的描述,或者直接采用Transformer模型实现整个编码器解码器架构。这些方法已经在一些准确性评价指标上取得了显著的性能提升。然而,现有模型大多关注从图像空间到文本空间的确定性映射,导致严重的模式坍塌问题。
为了解决模式坍塌问题,生成对抗网络(Generative Adversarial Network,GAN)和变分自编码器(VariationalAuto Encoders,VAE)引入图像描述生成模型,从而赋予模型一对多映射的能力。尽管基于GAN的图像描述模型可以有效提高句子多样性,但是这种模型很难兼顾句子的准确性指标。现有的基于条件变分自编码器的图像描述模型在多样性和准确性之间取得了一个较好的平衡。然而,这些模型通常引入全局或序列隐向量作为模型的隐层表示,忽视了全局和序列隐向量之间的依赖关系,严重限制了隐向量空间的表示能力和描述性能的提升。此外,这些模型大多基于传统的长短时期记忆网络(Long Short TermMemory,LSTM)构建,导致不能充分利用图像和文本的全局信息,以及无法提供并行训练支撑。
发明内容
本发明提供了一种基于混合条件变分自编码的多样化图像描述生成方法,包括:
分别获取输入的图像和文本的视觉特征I和生成文本描述x,引入句子级全局隐向量g和单词级序列隐向量s=[s1,s2,...,sT],构建混合条件变分自编码生成模型,其中T表示描述语句中单词个数;
获取基于时间步的变分证据下界,利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界;其中
混合条件变分自编码生成模型为:
pθ(x,g,s|I)=pθ(g|I)pθ(s|I,g)pθ(x|I,g,s)
其中,pθ(g|I)、pθ(s|I,g)、pθ(x|I,g,s)为先验条件分布;
基于时间步的变分证据下界为:
其中,表示用于生成单词序列的对数似然,DKL(qφ1(g|I,x)||pθ(g|I))表示句子级全局隐向量g的后验分布qφ1(g|I,x)和条件先验pθ(g|I)之间的KL散度,/>表示每个时间步单词对应的序列隐向量st的后验qφ2(st|s<t,x,I,g)和条件先验pθ(st|s<t,x<t,I,g)之间的KL散度之和。
进一步地,全局条件变分编码网络处理数据的过程包括:
对于视觉特征I,采用预训练的SwinTransformer提取图像网格特征V0,图像网格特征V0输入到由N个注意力块组成的编码器中得到视觉特征VN
其中,当l=N-1时获得第N个注意力块的输出,即Vl+1=VN,MSA表示多头自注意力模块,AN表示残差归一化模块,FFN表示前馈网络层;
对于输入的长度为T的文本描述语句x={x1,x2,...,xT},通过单词嵌入和位置编码将描述语句转换为输入至由N个注意力块组成的编码器中得到文本特征WN
描述语句是单词序列,W0是内部表示;
抽取视觉特征VN和文本特征WN的全局特征表示。
进一步地,抽取视觉特征VN和文本特征WN的全局特征表示的过程包括:
引入一个可学习向量作为查询向量并通过交叉注意力模块自适应地将非固定长度的向量融合为单一向量
其中,Qc,VA和WA分别为图像和文本描述的全局表示;
VA和WA进行拼接后经过一个前馈层生成后验全局隐向量
VA也同时输入一个前馈层生成先验全局隐向量g’;
后验全局隐向量和先验全局隐向量g通过KL散度进行对齐得到全局隐向量g。
进一步地,将qφ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布qφ1(g|I,x)=N(g;μ;σ),使用前馈网络将VA和WA映射为均值μ(x,I)与标准差σ(x,I),并通过重参数技巧采样得到/>
进一步地,先验分支网络pθ(g|I)使用前馈网络将VA映射为均值与标准差,通过重参数采样技巧得到先验全局隐向量g’;
进一步地,对后验概率模型qφ2(st|s<t,x,I,g)进行建模参数化为后验推断子网络,后验推断子网络中操作的具体过程包括:
将单词嵌入后的高维语义向量进行位置编码得到输入向量U0
将U0与全局隐向量g逐一相加得到融合向量W0,输入多头自注意模块并经过AN层得
Wq=AN(MSA(W0,W0,W0)+W0)
通过多头交叉注意模块和残差归一化层将特征Wq与视觉特征VN进行交互融合
Fq=AN(CA(Wq,VN,VN)+Wq)
使用两个前馈网络层生成均值与方差,并通过重参数技巧从后验概率qφ2(st|s<t,x,I,g)的多元高斯分布N(st;μtt)中采样得到后验序列隐向量/>t∈{0,1,...,T}。
进一步地,对先验概率模型pθ(st|s<t,x<t,I,g)进行建模参数化为先验近似子网络,先验近似子网络中操作的具体过程包括:
将输入向量U0和全局隐向量g融合后输入掩码多头自注意模块;
将提取的语义特征先后输入共享的多头交叉注意模块以及AN和FFN层,实现对先验概率的参数化;
使用前馈网络层生成均值与方差,并通过重参数技巧从先验概率先验概率模型pθ(st|s<t,x<t,I,g)的多元高斯分布N(st;μtt)中采样得到st'。
进一步地,后验序列隐向量和先验序列隐向量st'通过KL散度进行对齐得到单词级序列隐向量s。
进一步地,解码网络中数据操作的具体过程为:
序列条件变分编码网络输的特征经过线性层降维;
利用掩码多头自注意模块和残差归一化模块模块提取文本语义特征;
将文本语义特征与图像视觉特征VN一同输入一个交叉注意力模块模块,获得加权视觉特征;
加权视觉特征依次经过残差归一化模块与前馈网络层与文本语义特征进行融合;
通过线性层和Softmax操作预测词汇表中单词出现的概率。
本发明提出了一种混合条件变分自编码生成模型,并推导了条件似然的变分证据下界,通过最大化变分证据下界构建了一个新颖的多样化图像描述生成框架HCVA-T-IC。该框架与现有发放相比,具有以下优点:(1)能够将混合条件变分自编码与Transformer模型进行端到端的无缝融合,利用全局隐向量空间表征句子级多样性,同时将序列隐向量引入编解码过程,以提升每个时间步生成单词的多样性;(2)通过扩展句子级和单词级的隐向量表示空间,克服了现有多样化图像描述生成模型的局限性,因而更适用于多样化图像描述生成任务。
下面结合说明书附图对本发明做进一步描述。
附图说明
图1为本发明的方法流程示意图。
图2为本发明全局条件变分编码网络流程示意图。
图3为本发明序列条件变分编码网络和解码网络流程示意图。
图4为实施例一描述语句生成过程中的视觉注意力可视化示意图。
图5为实施例一中各种模型生成描述结果的定性对比示意图,其中带有横线单词为错误单词,浅色单词为重复单词。
具体实施方式
一种基于混合条件变分自编码的多样化图像描述生成方法,包括以下步骤:
步骤S100,分别获取输入的图像和文本的视觉特征I和生成文本描述x,引入句子级全局隐向量g和单词级序列隐向量s=[s1,s2,...,sT],T表示描述语句中单词个数,构建混合条件变分自编码生成模型;
步骤S200,获取基于时间步的变分证据下界;
步骤S300,利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界。
步骤S100中,混合条件变分自编码生成模型为:
pθ(x,g,s|I)=pθ(g,s|I)pθ(x|I,g,s)=pθ(g|I)pθ(s|I,g)pθ(x|I,g,s) (1)
其中,pθ(g|I)、pθ(s|I,g)为先验条件分布,采用变分方法进行近似求解。
步骤S100中,从先验条件分布pθ(g|I)中采样一个句子级全局隐向量g;从先验条件分布pθ(s|I,g)中采样一组单词级序列隐向量s=[s1,s2,...,sT];从条件分布pθ(x|I,g,s)中生成一个描述语句x。
步骤S200中,对模型(1)中每个数据点的条件似然的变分形式为:
logpθ(x|I)=DKL(qφ(g,s|I,x)||pθ(g,s|I,x))+L(qφ(g,s|I,x);x) (2)
L(qφ(g,s|I,x);x)=Eqφ(g,s|I,x)[-logqφ(g,s|I,x)+logpθ(x,g,s|I)] (3)
其中qφ(g,s|I,x)为近似后验概率分布,DKL(qφ(g,s|I,x)||pθ(g,s|I,x))≥0为KL散度,L(qφ(g,s|I,x);x)为对数条件似然pθ(x|I)的变分证据下界。
结合图2,qφ(g,s|I,x)=qφ1(g|I,x)qφ2(s|I,x,g),则模型(3)等价表示为:
通过使用乘积规则和实践因子分解,模型(4)表示为基于时间步的变分证据下界:
模型(5)中,表示用于生成单词序列的对数似然,DKL(qφ1(g|I,x)||pθ(g|I))表示句子级全局隐向量g的后验分布qφ1(g|I,x)和条件先验pθ(g|I)之间的KL散度,/>表示每个时间步单词对应的序列隐向量st的后验qφ2(st|s<t,x,I,g)和条件先验pθ(st|s<t,x<t,I,g)之间的KL散度之和。
结合图1,构建图像描述解码网络、全局条件变分编码网络和条件序列变分编码网络优化模型(5)。其中图像描述解码网络对应模型(5)中的第一项,即单词序列条件生成模型,其输入条件为图像I、描述语句x、句子级全局隐向量g与单词级序列隐向量s;全局条件变分编码网络和条件序列变分编码网络分别对应模型(5)中的第二项和第三项,用于参数化对应的条件后验与先验概率模型。
结合图2,全局条件变分编码网络为双分支编码网分别使用了N层Transformer编码器将视觉特征I和文本描述语句x映射为高维语义向量。具体的对于输入图像的处理过程包括:
步骤S301,对于视觉特征I,采用预训练的Swin Transformer提取图像网格特征V0
步骤S302,输入到由N个注意力块组成的编码器中得到视觉特征VN
其中,当l=N-1时获得第N个注意力块的输出,即Vl+1=VN
MSA表示多头自注意力模块(Multi-head Self-Attention),AN表示残差归一化模块(Add&Layer Norm),FFN表示前馈网络层(Feed Forward Network)。
对于输入的长度为T的文本描述语句x={x1,x2,...,xT},T表示描述语句中单词个数,的处理过程包括:
步骤S311,通过单词嵌入和位置编码将描述语句转换为描述语句是单词序列,W0是内部表示;
步骤S312,输入至由N个注意力块组成的编码器中得到文本特征WN
抽取视觉特征VN和文本特征WN的全局特征表示,具体过程为:
步骤S320,引入一个可学习向量作为查询向量并通过交叉注意力(Cross-Attention,CA)模块自适应地将非固定长度的向量融合为单一向量
其中,Qc,VA和WA分别为图像和文本描述的全局表示;
步骤S321,VA和WA进行拼接后经过一个前馈层生成后验全局隐向量VA也同时输入一个前馈层生成先验全局隐向量g’;
步骤S322,将qφ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布qφ1(g|I,x)=N(g;μ;σ),使用前馈网络将VA和WA映射为均值μ(x,I)与标准差σ(x,I),并通过重参数技巧采样得到/>(0,I)为向量。
图2中,为了区分后验和先验分支生成的全局隐向量,分别使用和g表示。
步骤S321中,先验分支网络pθ(g|I)使用前馈网络将VA,映射为均值与标准差,通过重参数采样技巧得到先验全局隐向量g’;
步骤S324,后验全局隐向量和先验全局隐向量g’通过KL散度进行对齐得到全局隐向量g,然后将后验全局隐向量/>输入序列条件变分编码网络。
结合图3,在全局条件变分编码网络构建基础上,进一步构造序列条件变分编码网络和解码网络,分别对后验概率模型qφ2(st|s<t,x,I,g)、先验概率模型pθ(st|s<t,x<t,I,g)以及单词序列生成模型pθ(xt|x<t,I,s≤t,g)进行建模,并分别参数化为后验推断子网络、先验近似子网络和解码网络。
后验推断子网络和先验近似子网络组成了序列条件变分编码网络,序列条件变分编码网络采用Swin-Transformer提取图像网格视觉特征V0,将其输入到由N个注意力块组成的编码器中得到视觉特征VN,VN和文本描述一起输入后验推断子网络和先验近似子网络执行双路径的变分推断。为了降低计算复杂性,分别将先验和后验模型简化为pθ(st|s<t,x<t,I,g)和qφ2(st|s<t,x,I,g)。
具体的,后验推断子网络中操作的具体过程包括:
步骤S401,将单词嵌入后的高维语义向量进行位置编码得到输入向量U0
步骤S402,将U0与全局隐向量g逐一相加得到融合向量W0,输入多头自注意模块并经过AN层得
步骤S403,通过多头交叉注意模块和残差归一化层将特征Wq与视觉特征VN进行交互融合
Fq=AN(CA(Wq,VN,VN)+Wq) (10)
步骤S404,使用两个前馈网络层(FeedForward)生成均值与方差,并通过重参数技巧从后验概率qφ2(st|s<t,x,I,g)的多元高斯分布N(st;μtt)中采样得到/>t∈{0,1,...,T}。
后验概率qφ2(st|s<t,x,I,g)的隐向量依赖于视觉特征I、整个文本描述x、全局隐向量g和前一个序列隐向量/>
先验近似子网络中操作的具体过程为:
步骤S411,将输入向量U0和全局隐向量g融合后输入掩码多头自注意模块(MaskedSelf-Attention),以保证推断序列隐嵌入st仅利用第t步之前生成的单词;
步骤S412,将提取的语义特征先后输入共享的多头交叉注意模块以及AN和FFN层,实现对先验概率的参数化;
步骤S413,使用前馈网络层(FeedForward)生成均值与方差,并通过重参数技巧从先验概率先验概率模型pθ(st|s<t,x<t,I,g)的多元高斯分布N(st;μtt)中采样得到st'。
图3中,为了区分后验和先验分支生成的序列隐向量,分别使用和s’表示,后验序列隐向量/>和先验序列隐向量s’通过KL散度进行对齐得到单词级序列隐向量s。
在后验推断子网络和先验近似子网络中的多头交叉注意模块(Cross-Attention)中,需要对网络权重进行共享,以保证后验全局隐向量g和先验全局隐向量g的输出一致性。
后验推断子网络和先验近似子网络获得的序列隐向量s和g需要与描述语句每个单词词嵌入向量进行逐个拼接,并作为解码网络的输入。
在解码网络中,图像描述生成框架中的解码网络pθ(xt|x<t,I,s≤t,g)与Transformer解码器结构类似。具体过程为:
步骤S501,序列条件变分编码网络输的特征经过线性层降维;
步骤S502,利用掩码多头自注意模块(Masked Self-Attention)和残差归一化模块(Add&Layer Norm)模块提取文本语义特征;
步骤S503,将文本语义特征与图像视觉特征VN一同输入一个交叉注意力模块(Cross-Attention)模块,获得加权视觉特征;
步骤S504,加权视觉特征依次经过残差归一化模块(Add&Layer Norm)与前馈网络层(Feed Forward Network)与文本语义特征进行融合;
步骤S505,通过线性层和Softmax操作预测词汇表中单词出现的概率。
实施例一
在测试阶段,对上述模型进行测试。测试过程中,在全局条件变分编码网络中仅对图像进行输入。在序列条件变分编码网络中,先验概率模型pθ(st|s<t,x<t,I,g)不依赖完整文本描述x,仅依赖部分生成的单词,用于在测试阶段采样st进行解码;后验推断子网络不进行测试。
定量与定性实验中所对比的图像描述方法均在MSCOCO数据集上进行训练与测试。为了公平对比,与现有方法均采用常用的m-RNN数据集划分方法[2],其中训练集118287张图像,验证集4000张图像,测试集1000张图像,且每张图像均有5条由人工标注的描述语句与之对应。
0实验采用了4种在图像描述任务中广泛使用的评价指标来评价模型所生成描述的准确性,包括BLEU@N、METEOR、ROUGE-L、CIDEr。其中,BLEU通过计算生成文本和参考文本之间n-gram的精准率(precision)来评价生成文本的精确性;METEOR在BLEU的基础上进一步考虑了召回率(recall),使得所生成描述在保证精确性前提下更加人性化和贴合自然的描述内容;ROUGE是通过比较生成文本和人工标注文本相同的部分,实现对句子中单词的重复率以及排列顺序的相似度的计算CIDEr是通过比较生成文本和人工标注文本相同的部分,实现对句子中单词的重复率以及排列顺序的相似度的计算。
传统的图像描述模型对于单张测试图像利用生成的单个描述进行评价指标的计算,而图像多样化描述生成模型需要针对生成的一组描述进行评价。目前大多采用Oracle重排序(Oracle re-ranking)计算Best-1 Accuracy指标。具体地,Oracle重排使用测试图像的真实描述作为指标计算参考描述,其中在生成的一组描述中,每个指标得分最高的描述被选为Best-1,然后计算所有测试图像的Best-1准确性评价指标的平均值。
(1)多样性指标
目前图像多样化描述方法大多采用Consensus重排序(Consensus re-ranking)的方式统计和对比多样性指标。在Consensus重排序中,对于一张生成了n个描述的测试图像,首先计算其与训练集中相似度最高的K个图像,然后将n个描述分别与这K个相似图像的M个真实描述计算CIDEr分数。其中得分最高的描述被选为Best-1描述。
多样性指标使用Best-1accuracy consensus re-ranking的排序方式,最终选取单张图片得分最高的Best-5个描述:
1)Uniqueness:测试集所有图像生成的Best-5个描述中,不重复的描述所占比例。
2)Novel:测试集生成的描述与训练集中真实描述不重复的描述个数。
3)mBleu:对于每一张测试图像的Best-5,分别计算其中一个描述与其余四个描述的Bleu-4分数,取单张图像五个描述分数的平均后,再取测试集平均。
4)Div-1:计算每一张测试图像的Best-5中不重复的1-gram在五个描述总1-gram长度中所占比例,并取测试集平均。
5)Div-2:使用2-gram替换1-gram,计算方法同Div-1。
(2)实验设置
所提出的模型在训练中的图像特征、单词嵌入和隐变量的维度均设置为512。在视觉编码器中,本实施例使用预训练的Swin-Transformer来提取每幅图像的网格特征,且维度为1536并将其线性映射到512维向量。在生成器中,使用单词嵌入并加上位置编码作为后验推断网络和先验近似网络的输入。此外,视觉编码器和生成器均是由3层的注意力块组成的,其中多头注意力的头数为8。在训练阶段,设置批大小为10,利用Adam优化算法和warmup学习率预热技巧来优化提出的模型。在学习率为5×10-6和交叉熵与KL散度损失函数下训练30个回合。平衡因子α和β分别设置为0。1。在测试阶段,为了对比的公平性,与对比方法使用相同的束搜索参数。在进行准确性评价度量时束搜索宽度设置为2,而在多样性评价度量时的束搜索宽度设置为1。此外,本实施例的实验环境为PyTorch=3。8。2、CUDA=10。2和1个Nvidia GTX 3080GPU。
(3)实验结果定量分析
首先将本实施例与主流多样化图像描述方法进行对比。表1列出了各方法在MSCOCO数据集上使用。
表1 MSCOCO数据集上的“M-RNN”划分和Oracle重新排序条件下各方法准确性对比
表2 MSCOCO数据集上使用“M-RNN”划分和Consensus重新排序后多样性的性能对比(↑表示数值越大性能越好,↓含义相反)
“M-RNN”划分和Oracle重排序后统计的准确性结果,其中“sample”表示每个方法采样生成的描述语句数量,最佳结果进行了加粗显示。具体地,与对比方法保持一致,实验中通过分别利用先验分支网络采样20和100个隐变量,然后输入解码网络生成多样化的描述语句。如表1所示,HCVA-T-IC在两种采样下获得的各个准确性评价指标得分均优于其他对比方法。特别是,在与人工评价相关性较好的CIDEr指标上,HCVA-T-IC显著优于其他方法。具体地,在采样20个全局与序列隐向量的情况下,相比于目前最优的COS-CVAE,获得了6.3的CIDEr分数提升。特别在采样100个隐向量的情况下,相比COS-CVAE准确性分数提升了19.2。此外,HCVA-T-IC模型在生成过程中没有引入其他的额外信息,而AG-CVAE、POS和COS-CVAE方法分别在推理过程中利用了目标对象信息、PoS标签和增强的上下文信息。因此,所提出的HCVA-T-IC模型具有更好的准确性。表2进一步评估了不同模型使用Consensus重排后获得的最优五个句子的多样性指标得分。从表2可以看出,Div-BS的Uniqueness分数最高,但在其它指标上的多样性得分较低,这是因为Div-BS倾向于生成重复的n-gram。HCVA-T-IC模型在所有多样性指标中的综合性能更好。尤其是在两种采样下,HCVA-T-IC的Uniqueness指标分别达到了99.3%和98.4%。在mBlue、Div-1和Div-2指标上,HCVA-T-IC显著优于其它方法,在20和100个采样中分别获得0.72和0.60的Div-2指标得分,相比COS-CVAE分别提升了38%和20%。这充分证实了HCVA-T-IC模型在提高多样化图像描述的有效性。此外,与最优的COS-CVAE相比,在多样性指标mBleu上相比COS-CVAE分别显著提升了11.5%和9%,这表明它生成的不同描述之间有着显著的差异。此外,在多样化描述生成中HCVA-T-IC不需要额外进行数据增强预处理工作,相比于COS-CVAE更易于实际应用。
综合以上分析,在准确性和多样性指标上,本实施例提出的HCVA-T-IC多样化图像描述模型均明显优于现有主流多样化图像描述方法,能够生成更加准确和多样的描述语句。
表3 MSCOCO数据集上的“M-RNN”划分和Oracle重新排序条件下准确性消融实验
表4 MSCOCO数据集上使用“M-RNN”划分和Consensus重新排序后多样性消融实验
表3和表4分别列出了所提出的HCVA-T-IC模型在不用采样下的消融实验结果。其中,GCVA-T-IC和SCVA-T-IC分别表示仅使用句子级全局隐向量和单词级序列隐向量的图像描述生成模型。从中可以看出,GCVA-T-IC在CIDEr准确性指标上优于SCVA-T-IC,在多样性指标上均低于SCVA-T-IC。这是由于GCVA-T-IC侧重于句子语法结构多样性的建模,而SCVA-T-IC关注单词级多样性的表征,因此SCVA-T-IC倾向于生成更多样的语句。然而,SCVA-T-IC多样性的提升以牺牲准确性为代价。相比于GCVA-T-IC和SCVA-T-IC,HCVA-T-IC模型融合了两种模型的优点,在绝大部分实验指标上均获得了更好的性能,同时提升了图像描述的准确性和多样性。
(4)实验结果定性分析
为了更好地定性评估所提出方法的有效性。对HCVA-T-IC模型生成描述过程中的视觉注意力权重进行可视化。图4展示了在每个时间步生成的单词及其对应的Transformer解码网络最后一层的注意力权重热图。从图中可以看出,本实施例的方法可以针对生成的语句关注到与语义最相关的图像区域,而一些与图像无关的词的注意力权重分布则较为稀疏。图5进一步定性对比了各方法从相同的两个测试图像采样得到的描述语句。直观地说,与其他方法相比,本实施例生成的描述更加准确和多样。如图5第二幅图像及其对应描述所示,HCVA-T-IC可以准确识别出图像中的鸟的数量,而其它方法则生成了不准确的量词和错误的单词。此外,对比方法倾向于生成高频n-gram的短语,而本实施例提出的HCVA-T-IC方法均可以生成更连贯和精细的描述,例如,生成的描述中包含了形容词“brown andwhite”,以及不常见的单词“identical”、“wading across”等。

Claims (9)

1.一种基于混合条件变分自编码的多样化图像描述生成方法,其特征在于,包括:
分别获取输入的图像和文本的视觉特征I和生成文本描述x,引入句子级全局隐向量g和单词级序列隐向量s=[s1,s2,...,sT],构建混合条件变分自编码生成模型,其中T表示描述语句中单词个数;
获取基于时间步的变分证据下界,利用全局条件变分编码网络、条件序列变分编码网络和解码网络优化变分证据下界;其中
混合条件变分自编码生成模型为:
pθ(x,g,s|I)=pθ(g|I)pθ(s|I,g)pθ(x|I,g,s)
其中,pθ(g|I)、pθ(s|I,g)、pθ(x|I,g,s)为先验条件分布;
基于时间步的变分证据下界为:
其中,表示用于生成单词序列的对数似然,DKL(qφ1(g|I,x)||pθ(g|I))表示句子级全局隐向量g的后验分布qφ1(g|I,x)和条件先验pθ(g|I)之间的KL散度,/>表示每个时间步单词对应的序列隐向量st的后验qφ2(st|s<t,x,I,g)和条件先验pθ(st|s<t,x<t,I,g)之间的KL散度之和。
2.根据权利要求1所述的方法,其特征在于,全局条件变分编码网络处理数据的过程包括:
对于视觉特征I,采用预训练的Swin Transformer提取图像网格特征V0,图像网格特征V0输入到由N个注意力块组成的编码器中得到视觉特征VN
其中,当l=N-1时获得第N个注意力块的输出,即Vl+1=VN,MSA表示多头自注意力模块,AN表示残差归一化模块,FFN表示前馈网络层;
对于输入的长度为T的文本描述语句x={x1,x2,...,xT},通过单词嵌入和位置编码将描述语句转换为输入至由N个注意力块组成的编码器中得到文本特征WN
描述语句是单词序列,W0是内部表示;
抽取视觉特征VN和文本特征WN的全局特征表示。
3.根据权利要求2所述的方法,其特征在于,抽取视觉特征VN和文本特征WN的全局特征表示的过程包括:
引入一个可学习向量作为查询向量并通过交叉注意力模块自适应地将非固定长度的向量融合为单一向量
其中,Qc,VA和WA分别为图像和文本描述的全局表示;
VA和WA进行拼接后经过一个前馈层生成后验全局隐向量
VA也同时输入一个前馈层生成先验全局隐向量g’;
后验全局隐向量和先验全局隐向量g通过KL散度进行对齐得到全局隐向量g。
4.根据权利要求3所述的方法,其特征在于,将qφ1(g|I,x)建模为均值μ(x,I)和标准差σ(x,I)的高斯分布qφ1(g|I,x)=N(g;μ;σ),使用前馈网络将VA和WA映射为均值μ(x,I)与标准差σ(x,I),并通过重参数技巧
采样得到/>
5.根据权利要求3所述的方法,其特征在于,先验分支网络pθ(g|I)使用前馈网络将VA映射为均值与标准差,通过重参数采样技巧得到先验全局隐向量g’。
6.根据权利要求3所述的方法,其特征在于,对后验概率模型qφ2(st|s<t,x,I,g)进行建模参数化为后验推断子网络,后验推断子网络中操作的具体过程包括:
将单词嵌入后的高维语义向量进行位置编码得到输入向量U0
将U0与全局隐向量g逐一相加得到融合向量W0,输入多头自注意模块并经过AN层得
Wq=AN(MSA(W0,W0,W0)+W0)
通过多头交叉注意模块和残差归一化层将特征Wq与视觉特征VN进行交互融合
Fq=AN(CA(Wq,VN,VN)+Wq)
使用两个前馈网络层生成均值与方差,并通过重参数技巧从后验概率qφ2(st|s<t,x,I,g)的多元高斯分布N(st;μtt)中采样得到后验序列隐向量
7.根据权利要求6所述的方法,其特征在于,对先验概率模型pθ(st|s<t,x<t,I,g)进行建模参数化为先验近似子网络,先验近似子网络中操作的具体过程包括:
将输入向量U0和全局隐向量g融合后输入掩码多头自注意模块;
将提取的语义特征先后输入共享的多头交叉注意模块以及AN和FFN层,实现对先验概率的参数化;
使用前馈网络层生成均值与方差,并通过重参数技巧从先验概率先验概率模型pθ(st|s<t,x<t,I,g)的多元高斯分布N(st;μtt)中采样得到st'。
8.根据权利要求7所述的方法,其特征在于,后验序列隐向量和先验序列隐向量st'通过KL散度进行对齐得到单词级序列隐向量s。
9.根据权利要求8所述的方法,其特征在于,解码网络中数据操作的具体过程为:
序列条件变分编码网络输的特征经过线性层降维;
利用掩码多头自注意模块和残差归一化模块模块提取文本语义特征;
将文本语义特征与图像视觉特征VN一同输入一个交叉注意力模块模块,获得加权视觉特征;
加权视觉特征依次经过残差归一化模块与前馈网络层与文本语义特征进行融合;
通过线性层和Softmax操作预测词汇表中单词出现的概率。
CN202311416291.8A 2023-10-30 2023-10-30 基于混合条件变分自编码的多样化图像描述生成方法 Active CN118015389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311416291.8A CN118015389B (zh) 2023-10-30 2023-10-30 基于混合条件变分自编码的多样化图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311416291.8A CN118015389B (zh) 2023-10-30 2023-10-30 基于混合条件变分自编码的多样化图像描述生成方法

Publications (2)

Publication Number Publication Date
CN118015389A true CN118015389A (zh) 2024-05-10
CN118015389B CN118015389B (zh) 2024-06-25

Family

ID=90951112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311416291.8A Active CN118015389B (zh) 2023-10-30 2023-10-30 基于混合条件变分自编码的多样化图像描述生成方法

Country Status (1)

Country Link
CN (1) CN118015389B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022006621A1 (en) * 2020-07-06 2022-01-13 Harrison-Ai Pty Ltd Method and system for automated generation of text captions from medical images
US20230214662A1 (en) * 2018-09-18 2023-07-06 Insilico Medicine Ip Limited Subset conditioning using variational autoencoder with a learnable tensor train induced prior
WO2023154320A1 (en) * 2022-02-08 2023-08-17 Senem Velipasalar Thermal anomaly identification on building envelopes as well as image classification and object detection
CN116824584A (zh) * 2023-07-03 2023-09-29 中国矿业大学 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法
CN116912599A (zh) * 2023-08-11 2023-10-20 江苏建筑职业技术学院 基于条件变分自编码和对比学习的图像多样化描述方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230214662A1 (en) * 2018-09-18 2023-07-06 Insilico Medicine Ip Limited Subset conditioning using variational autoencoder with a learnable tensor train induced prior
WO2022006621A1 (en) * 2020-07-06 2022-01-13 Harrison-Ai Pty Ltd Method and system for automated generation of text captions from medical images
WO2023154320A1 (en) * 2022-02-08 2023-08-17 Senem Velipasalar Thermal anomaly identification on building envelopes as well as image classification and object detection
CN116824584A (zh) * 2023-07-03 2023-09-29 中国矿业大学 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法
CN116912599A (zh) * 2023-08-11 2023-10-20 江苏建筑职业技术学院 基于条件变分自编码和对比学习的图像多样化描述方法

Also Published As

Publication number Publication date
CN118015389B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
CN112487182B (zh) 文本处理模型的训练方法、文本处理方法及装置
Liu et al. An end-to-end trainable neural network model with belief tracking for task-oriented dialog
CN108733792B (zh) 一种实体关系抽取方法
US20230274420A1 (en) Method and system for automated generation of text captions from medical images
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
CN113656570A (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113127624B (zh) 问答模型的训练方法及装置
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN112214591B (zh) 一种对话预测的方法及装置
WO2020155619A1 (zh) 带情感的机器聊天方法、装置、计算机设备及存储介质
CN111699497A (zh) 使用离散潜变量的序列模型的快速解码
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
JP2023539954A (ja) 多次元ディープニューラルネットワーク
CN114969278A (zh) 一种基于知识增强图神经网络的文本问答模型
CN117762499B (zh) 任务指令构建方法和任务处理方法
CN117034961B (zh) 一种基于bert的中法互译质量测评方法
US20240037335A1 (en) Methods, systems, and media for bi-modal generation of natural languages and neural architectures
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN117807984A (zh) 一种错因解析生成方法、装置、存储介质及设备
CN118015389B (zh) 基于混合条件变分自编码的多样化图像描述生成方法
CN112765955A (zh) 一种中文指代表达下的跨模态实例分割方法
Ma Research on Computer Intelligent Proofreading System for English Translation Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant