CN116824584A - 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法 - Google Patents
一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法 Download PDFInfo
- Publication number
- CN116824584A CN116824584A CN202310804760.7A CN202310804760A CN116824584A CN 116824584 A CN116824584 A CN 116824584A CN 202310804760 A CN202310804760 A CN 202310804760A CN 116824584 A CN116824584 A CN 116824584A
- Authority
- CN
- China
- Prior art keywords
- introspection
- image
- conditional
- network
- variation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 12
- 230000009466 transformation Effects 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000000007 visual effect Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000013507 mapping Methods 0.000 abstract description 7
- 238000005259 measurement Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101100171060 Caenorhabditis elegans div-1 gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,包括:提取图像的区域特征得到输入向量输入至预设的条件变分Transformer模型,得到图像的相应描述语句;该模型包括变分推断编码器和生成器;将模型使用序列化条件自编码中的变分下界机理进行预训练;再采用自省对抗学习策略进行微调,在不额外添加判别器的前提下,通过对抗学习自我评估生成的描述语句来实现图像描述的多样化。本发明采用序列化条件变分自编码架构,与条件变分Transformer模型相结合,解决了模型受限于单一映射的问题;采用自省对抗学习策略,缓解了模型受限于人工评价指标的问题,提升了多样化图像描述的性能。
Description
技术领域
本发明属于计算机视觉和自然语言处理技术领域,具体涉及一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法。
背景技术
图像描述生成作为多模态机器学习的基础性研究课题,旨在让机器理解图像的内容,并且以自然语言的形式自动生成图像所对应的文本。对于人类来说描述一张图片的内容是很轻松的,但是对于机器来说是极具挑战性的。同时图像描述还具有重要科学研究和应用价值。在图像检索和分类领域,有助于提升图像内容检索和分类的准确度。在婴幼儿早教领域,与语音识别技术相结合有助于儿童快速成长,感知世界。在视觉辅助领域,帮助视力障碍人群理解图像信息,弥补视觉缺陷。在智慧医疗领域,可以自动生成医学图像诊断报告,为智能诊疗提供技术支撑。
随着深度学习在人工智能领域取得的重大突破,基于深度编码器-解码器网络的图像描述成为了目前的主流方法。这类方法通常使用卷积神经网络(ConvolutionalNeural Network,CNN)作为图像编码器提取视觉特征,然后利用循环神经网络(RecurrentNeural Network,RNN)作为解码器将视觉特征转换为对应的描述文本。
近年来,自然语言处理中的Transformer架构开始被引入图像描述领域,并取得了比CNN-RNN模型更好的图像描述性能。尽管Transformer模型在一定程度上提升了图像描述生成的指标,但受限于深度学习的“黑盒”映射,模型受限于单一映射和人工评价指标的问题,倾向于生成由简单重复短语所组成的唯一描述,无法保证描述的多样性。
发明内容
解决的技术问题:针对上述技术问题,本发明提供了一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,采用序列化条件变分自编码架构,并与基于Transformer的图像描述方法相结合,进而解决模型受限于单一映射的问题;采用自省对抗学习策略,在不额外添加判别器的前提下,通过对抗学习思想自我评估生成的描述语句,进而缓解模型受限于人工评价指标的问题,从而提升多样化图像描述的性能。
技术方案:一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,包括步骤如下:
步骤1、获取图像,并提取该图像的区域特征得到输入向量;
步骤2、将上述向量输入预设的条件变分Transformer模型,得到图像的相应描述语句;其中,所述预设的条件变分Transformer模型包括变分推断编码器和生成器,所述的变分推断编码器和生成器均由掩码自注意力层、交叉注意力层、归一化残差层和前馈神经网络组成;
步骤3、将上述预设的条件变分Transformer模型使用序列化条件自编码中的变分下界机理进行模型的预训练;
步骤4、将上述预训练的模型采用自省对抗学习策略进行微调,在不额外添加判别器的前提下,通过对抗学习思想自我评估生成的描述语句,来实现图像描述的多样化。
优选的,所述步骤1中的图像采用Faster R-CNN目标检测算法提取图像的区域特征。
优选的,所述步骤1中向量由区域特征通过线性层降维后获得。
优选的,所述步骤2的具体步骤如下:
步骤2-1、将所述向量输入所述变分推断编码器中,并在所述变分推断编码器中先经过特征编码网络得到视觉与文本混合语义特征,后将视觉与文本混合语义特征同时输入后验推断子网络以及先验近似子网络得到编码结果;
步骤2-2、将所述编码结果输入所述生成器中,得到图像所对应的描述语句。
进一步的,所述步骤2-1中,特征编码网络由N层的注意力模块组成。
进一步的,所述步骤2-1中,将所述视觉与文本混合语义特征输入后验推断子网络进行计算,得到第一计算结果Wq;其中,计算公式为:
Wq=LayerNorm(MultiHead(W0,W0,W0)+W0)
其中,表示单词嵌入后的向量进行位置编码后得到的输入向量;
将所述第一计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征Fq;其中,计算公式为:
Fq=LayerNorm(MultiHead(Wq,VN,VN)+Wq)
其中,M为图像的区域特征数量,T为单词的个数;
将所述特征Fq分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差,并通过重参数化技巧采样后验隐变量。
更进一步的,所述步骤2-1中,将所述关注结果输入先验近似子网络进行计算,得到第二计算结果Wp;其中,计算公式为:
Wp=LayerNorm(MaskedMultiHead(W0,W0,W0)+W0)其中,
将所述第二计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征Fp;其中,计算公式为:
Fp=LayerNorm(MultiHead(Wp,VN,VN)+Wp)
其中,M为图像的区域特征数量;
将所述特征Fp分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差,并通过重参数化技巧采样先验隐变量。
更加进一步的,在模型训练阶段,所述编码结果为:将后验隐变量与特征Fp进行拼接操作和全连接层降维后的特征;在模型测试阶段,所述编码结果为:将先验隐变量与特征Fp进行拼接操作和全连接层降维后的特征。
优选的,所述步骤3中,预训练过程为:采用交叉熵损失衡量生成的描述和人工标注描述之间的相似性,采用KL损失通过最小化近似后验和条件先验之间的KL散度来正则化变分推断编码器。
优选的,所述步骤4中,自省对抗学习策略的微调采用如下公式:
其中[·]+=max(0,·),m为positive margin,sg(·)表示反向传播在此时停止,α和β为权衡参数,LXE表示交叉熵损失,LKL表示KL损失,xg表示人工标注的真实描述语句,xp表示生成器采样得到的描述语句。
有益效果:本发明通过将序列化条件自编码架构与Transformer模型相结合,实现图像到文本的一对多映射,通过给定的图像作为条件采样任意个数的隐空间向量实现任意个数描述的生成,可以有效解决当前图像描述中Transformer模型受限于单一映射的问题。同时,设计了一种新的应用于文本生成任务的自省对抗学习策略,主要针对文本离散难以反向传播以及模型受限于人工评价的问题,通过gumbe1 softmax技巧将生成描述回传至编码器进行对抗学习,从而进一步优化生成描述语句的质量。
附图说明
图1为本发明中条件变分Transformer模型的架构图;
图2为本发明中自省对抗学习策略的训练流程图;
图3为本发明实施例的方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步描述。
实施例1
如图1和图3所示,一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,包括步骤如下:
步骤1、获取图像,并采用Faster R-CNN目标检测算法提取该图像的区域特征,将该区域特征通过线性层降维后得到输入向量。
步骤2、将上述向量输入预设的条件变分Transformer模型,得到图像的相应描述语句;其中,所述预设的条件变分Transformer模型包括变分推断编码器和生成器,所述的变分推断编码器和生成器均由掩码自注意力层、交叉注意力层、归一化残差层和前馈神经网络组成。
步骤2-1、将所述向量输入所述变分推断编码器中,并在所述变分推断编码器中先经过特征编码网络得到视觉与文本混合语义特征,后将视觉与文本混合语义特征同时输入后验推断子网络以及先验近似子网络得到编码结果。
具体的,将所述向量输入特征编码网络(特征编码网络是由N个注意力模块组成的编码器),经注意力、残差归一化等操作后得到视觉与文本混合语义特征VN;
将所述视觉与文本混合语义特征输入后验推断子网络进行计算,得到第一计算结果Wq;其中,计算公式为:
Wq=LayerNorm(MultiHead(W0,W0,W0)+W0)
其中,表示单词嵌入后的向量进行位置编码后得到的输入向量;
将所述第一计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征Fq;其中,计算公式为:
Fq=LayerNorm(MultiHead(Wq,VN,VN)+Wq)
其中,M为图像的区域特征数量,T为单词的个数;
将所述特征Fq分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差,并通过重参数化技巧采样后验隐变量zt;计算公式为:
其中分别采用两个前馈神经网络生成均值与方差,并通过重参数技巧zt=μt+σt⊙∈,∈~N(0,I)从N(zt,μt,σt)采样得到zt;
将所述视觉与文本混合语义特征输入先验近似子网络进行计算,得到第二计算结果Wp;其中,计算公式为:
Wp=LayerNom(MaskedMultiHead(W0,W0,W0)+W0)
其中,
将所述第二计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征Fp;其中,计算公式为:
Fp=LayerNorm(MultiHead(Wp,VN,VN)+Wp)
其中,M为图像的区域特征数量;
将所述特征Fp分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差,并通过重参数化技巧采样先验隐变量zt;计算公式为:
其中先验隐变量zt为符合均值μt(zt-1,x<t,I)和标准差σt(zt-1,x<t,I)的多元高斯分布;
步骤2-2、将所述编码结果输入所述生成器中,得到图像所对应的描述语句;其中生成器由标准的Transformer解码器和Gumbel采样器组成。在模型训练阶段,所述编码结果为:将后验隐变量与先验近似子网络中视觉特征和文本特征融合后的特征Fp进行拼接操作和全连接层降维到512维后的特征;在模型测试阶段,所述编码结果为:将先验隐变量与特征Fp进行拼接操作和全连接层降维后的512维特征。
步骤3、将上述预设的条件变分Transformer模型使用序列化条件自编码中的变分下界机理进行模型的预训练,将一幅图像和其对应的描述文本映射到一组隐变量中,对图像和描述之间的一对多关系进行建模;其公式为:
其中交叉熵损失LXE用于衡量生成的描述和人工标注描述之间的相似性,KL损失LKL通过最小化近似后验和条件先验之间的KL散度来正则化变分推断编码器。
步骤4、将上述预训练的模型采用自省对抗学习策略进行微调,在不额外添加判别器的前提下,通过对抗学习思想自我评估生成的描述语句,来实现图像描述的多样化;其公式如下:
其中[·]+=max(0,·),m为positive margin,sg(·)表示反向传播在此时停止,α和β为权衡参数。
如图2所示,Eq和Ep分别为后验推断子网络和先验近似子网络,用于生成后验和先验隐变量。将所述隐变量传至生成器分别采样得到描述xg和xp。编码器和生成器通过最小化LKL(I,x)和损失LXE(x,xg)进行联合训练。此外,当LKL=(I,sg(xg))≤m时,编码器E和生成器G通过LE和LG损失进行最小-最大博弈。同时编码器通过最大化LKL(I,sg(xg)),将人工标注的描述与和生成器采样得到的描述xg、xp区分开来,而生成器则经过对抗训练以生成具有较小LKL(I,xr)的描述语句。
下面基于上述基于条件变分Transformer的多样化图像描述方法进行仿真实验,本实施实例的实现方法入前步骤1~4所述,不再详细阐述具体的步骤,下面仅针对实验结果展示其效果。
本方法中条件变分Transformer模型的图像特征、单词嵌入和隐变量的维度均为512。具体地,使用预训练的Faster R-CNNr来提取每幅图像的网格特征,且维度为2048并将其线性映射到512维向量。在生成器中,使用单词嵌入并加上位置编码作为后验推断子网络和先验近似子网络的输入。此外,视觉编码器和生成器均是由N=3的注意力块组成的,其中多头注意力的头数为8。在训练阶段,实验利用Adam优化算法和warmup学习率预热技巧来优化模型,并在交叉熵损失下训练30个回合。超参数m根据经验设置为100,超参数α=β=1.0,在测试阶段,在进行准确性评价度量时束宽设置为2,而在多样性评价度量时束宽设置为1。此外,所述方法中的生成器可以分别使用Softmax和Gumbel Softmax操作与波束搜索结合对一组描述进行采样。
表1 MSCOCO数据集“M-RNN”测试集上使用Oracle重新排序后准确性的性能对比
表2 MSCOCO数据集“M-RNN”测试集上使用Consensus重新排序后多样性的性能对比
表1为本发明(Ours)与其他方法在MSCOCO“M-RNN”测试集上使用Oracle重新排序后准确性的性能对比,其中“sample”表示每个图像采样出的描述数量,最佳结果进行了加粗。Oracle重排使用每个指标的最大得分对不同的描述进行排序并选择最好的描述,每个Oracle评估分数都是测试集的平均值。本实验通过采样20和100个隐变量,传至生成器解码出描述语句。如表1所示,本发明(Ours)在采样20个和100个描述上得到的各个准确性评价指标得分都优于所对比的方法。
表2进一步评估了不同模型在MSCOCO数据集“M-RNN”测试集上使用Consensus重排后最好的五个句子的多样性指标得分。从表2可以看出,本发明在所有多样性指标中的性能更好。尤其是本发明生成了19.82/20(99.1%)和97.84/1000(97.8%)个独一无二的描述语句。根据20和100个采样的结果,本发明与最新的模型不相上下。与现有方法相比,本发明的mBLEU-4指标得分更低,这表明它生成的不同描述之间有着显著的差异。在Div-1和Div-2指标上,本发明显著优于其它方法,例如,它在20和100个采样中分别获得0.73和0.61的Div-2指标得分,这表明了本发明在提高多样化图像描述的有效性。
综上,本发明在准确性度量和多样性度量上较现有的方法都有显著的性能提高,这充分的说明了本方法都够生成既准确又多样的描述,进一步表明本方法的有效性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于此,在所属技术领域的技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下可以作出的各种变化,都处于本发明权利要求的保护范围之内。
Claims (10)
1.一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,包括步骤如下:
步骤1、获取图像,并提取该图像的区域特征得到输入向量;
步骤2、将上述向量输入预设的条件变分Transformer模型,得到图像的相应描述语句;其中,所述预设的条件变分Transformer模型包括变分推断编码器和生成器,所述的变分推断编码器和生成器均由掩码自注意力层、交叉注意力层、归一化残差层和前馈神经网络组成;
步骤3、将上述预设的条件变分Transformer模型使用序列化条件自编码中的变分下界机理进行模型的预训练;
步骤4、将上述预训练的模型采用自省对抗学习策略进行微调,在不额外添加判别器的前提下,通过对抗学习思想自我评估生成的描述语句,来实现图像描述的多样化。
2.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤1中的图像采用Faster R-CNN目标检测算法提取图像的区域特征。
3.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤1中向量由区域特征通过线性层降维后获得。
4.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤2的具体步骤如下:
步骤2-1、将所述向量输入所述变分推断编码器中,并在所述变分推断编码器中先经过特征编码网络得到视觉与文本混合语义特征,后将视觉与文本混合语义特征同时输入后验推断子网络以及先验近似子网络得到编码结果;
步骤2-2、将所述编码结果输入所述生成器中,得到图像所对应的描述语句。
5.根据权利要求4所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤2-1中,特征编码网络由N层的注意力模块组成。
6.根据权利要求4所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤2-1中,将所述视觉与文本混合语义特征输入后验推断子网络进行计算,得到第一计算结果Wq;其中,计算公式为:
Wq=LayerNorm(MultiHead(W0,W0,W0)+W0)
其中,表示单词嵌入后的向量进行位置编码后得到的输入向量;
将所述第一计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征Fq;其中,计算公式为:
Fq=LayerNorm(MultiHead(Wq,VN,VN)+Wq)
其中,M为图像的区域特征数量,T为单词的个数;
将所述特征Fq分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差,并通过重参数化技巧采样后验隐变量。
7.根据权利要求6所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤2-1中,将所述视觉与文本混合语义特征输入先验近似子网络进行计算,得到第二计算结果Wp;其中,计算公式为:
Wp=LayerNorm(MaskedMultiHead(W0,W0,W0)+W0)
其中,
将所述第二计算结果与关注结果通过交叉注意力层和归一化残差层进行交互得到融合后的特征Fp;其中,计算公式为:
Fp=LayerNorm(MultiHead(Wp,VN,VN)+Wp)
其中,M为图像的区域特征数量;
将所述特征Fp分别输入先验近似子网络和后验推断子网络中的前馈神经网络生成均值和方差,并通过重参数化技巧采样先验隐变量。
8.根据权利要求7所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,在模型训练阶段,所述编码结果为:将后验隐变量与特征Fp进行拼接操作和全连接层降维后的特征;在模型测试阶段,所述编码结果为:将先验隐变量与特征Fp进行拼接操作和全连接层降维后的特征。
9.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤3中,预训练过程为:采用交叉熵损失衡量生成的描述和人工标注描述之间的相似性,采用KL损失通过最小化近似后验和条件先验之间的KL散度来正则化变分推断编码器。
10.根据权利要求1所述的一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法,其特征在于,所述步骤4中,自省对抗学习策略的微调采用如下公式:
其中[·]+=max(0,·),m为positive margin,sg(·)表示反向传播在此时停止,α和β为权衡参数,LXE表示交叉熵损失,LKL表示KL损失,xg表示人工标注的真实描述语句,xp表示生成器采样得到的描述语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804760.7A CN116824584A (zh) | 2023-07-03 | 2023-07-03 | 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804760.7A CN116824584A (zh) | 2023-07-03 | 2023-07-03 | 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824584A true CN116824584A (zh) | 2023-09-29 |
Family
ID=88116394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310804760.7A Pending CN116824584A (zh) | 2023-07-03 | 2023-07-03 | 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824584A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556024A (zh) * | 2024-01-10 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 知识问答方法以及相关设备 |
CN118015389A (zh) * | 2023-10-30 | 2024-05-10 | 江苏建筑职业技术学院 | 基于混合条件变分自编码的多样化图像描述生成方法 |
-
2023
- 2023-07-03 CN CN202310804760.7A patent/CN116824584A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118015389A (zh) * | 2023-10-30 | 2024-05-10 | 江苏建筑职业技术学院 | 基于混合条件变分自编码的多样化图像描述生成方法 |
CN118015389B (zh) * | 2023-10-30 | 2024-06-25 | 江苏建筑职业技术学院 | 基于混合条件变分自编码的多样化图像描述生成方法 |
CN117556024A (zh) * | 2024-01-10 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 知识问答方法以及相关设备 |
CN117556024B (zh) * | 2024-01-10 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 知识问答方法以及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Cogvideo: Large-scale pretraining for text-to-video generation via transformers | |
Xing et al. | Hierarchical recurrent attention network for response generation | |
CN116824584A (zh) | 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法 | |
US20200402497A1 (en) | Systems and Methods for Speech Generation | |
CN110110337B (zh) | 翻译模型训练方法、介质、装置和计算设备 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN110457661A (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN114611670A (zh) | 一种基于师生协同的知识蒸馏方法 | |
Dogan et al. | Semi-supervised image attribute editing using generative adversarial networks | |
Zeng et al. | Controllable mind visual diffusion model | |
CN111563148A (zh) | 一种基于词组多样性的对话生成方法 | |
CN114416948A (zh) | 一种基于语义感知的一对多对话生成方法及装置 | |
CN117216223A (zh) | 对话文本的生成方法和装置、存储介质及电子设备 | |
CN116561533B (zh) | 一种教育元宇宙中虚拟化身的情感演化方法及终端 | |
KR20220066554A (ko) | Qa 모델을 이용하여 지식 그래프를 구축하는 방법, 장치 및 컴퓨터 프로그램 | |
CN117095669A (zh) | 基于变分自动编码的情感语音合成方法、系统、设备及介质 | |
CN116610795A (zh) | 文本检索方法及装置 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 | |
Wang | The application of intelligent speech recognition technology in the tone correction of college piano teaching | |
CN115796187A (zh) | 一种基于对话结构图约束的开放域对话方法 | |
Qiu et al. | Adversarial Latent Representation Learning for Speech Enhancement. | |
Chen et al. | Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion | |
CN115269844B (zh) | 模型的处理方法、装置、电子设备和存储介质 | |
Bao | Improving speech emotion recognition via generative adversarial networks | |
CN113627146B (zh) | 基于知识约束的两步式辟谣文本生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |