CN113344036A - 一种基于动态词嵌入的多模态Transformer的图像描述方法 - Google Patents

一种基于动态词嵌入的多模态Transformer的图像描述方法 Download PDF

Info

Publication number
CN113344036A
CN113344036A CN202110537165.2A CN202110537165A CN113344036A CN 113344036 A CN113344036 A CN 113344036A CN 202110537165 A CN202110537165 A CN 202110537165A CN 113344036 A CN113344036 A CN 113344036A
Authority
CN
China
Prior art keywords
image
word embedding
attention
elmo
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110537165.2A
Other languages
English (en)
Inventor
曾凯
杨文瑞
朱艳
沈韬
刘英莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110537165.2A priority Critical patent/CN113344036A/zh
Publication of CN113344036A publication Critical patent/CN113344036A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于动态词嵌入的多模态Transformer的图像描述方法,属于人工智能的领域。本发明构建了一种同时进行模态内与模态间注意力的模型,实现了多模态信息的融合,将卷积神经网络与Transformer进行桥接,并将图像信息以及文本信息在同一向量空间进行融合,提高了模型进行语言描述的准确率;减少了图像描述领域存在的语义鸿沟问题,本发明相对于使用Bottom‑up与LSTM的基线模型在BLEU‑1、BLEU‑2、BLEU‑3、BLEU‑4、ROUGE‑L、CIDEr‑D上都有提高。

Description

一种基于动态词嵌入的多模态Transformer的图像描述方法
技术领域
本发明涉及一种基于动态词嵌入的多模态Transformer的图像描述方法,属于人工智能技术领域。
背景技术
多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起,多模态深度学习已在社会生产中的各个方面有了众多应用,起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。例如:在语音识别中,人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息,可以帮助消除相似语音的歧义,以及通过肢体行为和语音来判断说话者的情绪等等。
采用自然语言对图像中的内容进行描述,被称作为图像字幕描述。语义不仅需要计算机识别图像的对象和属性,还需要理解他们的关系,生成语法语义正确的自然语言。最早应用的图像处理方法是借助传统的机器学习加以实现,例如通过图像处理算子对图像进行特征提取,再借助支持向量机(SVM)划分图像类型,从而得到图像目标。据此得到的目标与属性即为生成语句的基础,而实际中使用本方法时取得的效果未达到预期。深入探索本领域研究历程,划分图像语义描述为三种类型,分别为基于检索的图像描述、基于模板的图像描述及基于深度学习的图像描述。
基于检索的方法是指使用基本的图像处理算法,提取出图像的特征值,并且检测出图像的目标,获取其相应的标签信息,然后根据所得到的标签信息在相应的语料库中进行检索,寻找最为匹配的的描述作为图像的标题然而,这种方法只能对一幅图像进行标题的生成,而且只能生成语料库中的标题,标题不具有多样性,有些刻板生硬,并且不能准确直观的描述出图像中目标的相对关系,导致两幅出现了相同目标但位置关系完全不同的图像生成的标题却是相同的。基于模板的方法,主要使用相对成熟的计算机视觉技术来进行图像信息的特征提取,这里的图像信息既包括图像中的目标,业包括目标的属性,然后将这些检测到的目标填入模板。这种方法在很大程度上解决了生成文本不够丰富的问题。但是由于该方法对人为设置的模板以及语法模型十分的依赖,所以导致生成的自然语言描述的结构也十分的单一。近年来。随着技术的不断发展,使用神经网络来进行图像描述的方法变得成熟,使用卷积神经网络(CNN)来进行图像特征值的提取,使用循环神经网络(RNN)来进行描述的生成的这种编码解码框架成为主流。虽然基于CNN-RNN框架的图像描述算法已经取得了很好的准确率,但是仍然存在不足:现在有基于CNN-RNN的方法都大多在进行当前的主要工作都是在不同的模态间引入注意力机制,寻求图像与文本之间的注意力得分,而忽略了模态内的自注意力,即寻求图像特征与文本描述模态内的自我注意,这使得图像底层视觉信息和最终的自然语言描述存在明显的语义鸿沟,导致模型不能很好表示图像目标之间的语义关系。
发明内容
本发明提供了一种基于动态词嵌入的多模态Transformer的图像描述方法,本方法使用的是多模态深度学习模型,使用模态间与模态内注意力的联合建模方式,对输入的数据进行建模,从而生成相应的描述,解决了传统方法中只是用模态间注意力而导致模型对语义理解不够全面并且效果较差的问题,具体包括以下步骤:
(1)使用图像特征提取器组件,选中图像的显著区域,对图像进行图像特征的提取:对图像中的目标进行特征提取,生成更有意义的图像特征矩阵。
(2)使用Transformer的图像特征编码器组件,对图像特征进行编码。
(3)使用文本特征编码器,对文本信息进行包含上下文信息的特征提取与动态编码:对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,再经过基于掩码的多头注意力组件进行文本特征向量的生成。
(4)使用Transformer解码器组件,使用多头注意力层进行图像信息与文本信息的相互学习,并生成对应的文本描述。
进一步的,本发明步骤(1)中)中所述图像的显著区域,对图像中的目标进行特征提取:对已经得到的图像目标区域,使用PCA提取出图像目标区域中的主要信息。
Figure BDA0003070228530000021
再将的得到的主要信息
Figure BDA0003070228530000022
进行线性变化,使其变化到与输入至下一步骤相同的特征维度:
Figure BDA0003070228530000023
其中I为图像中的目标区域信息,
Figure BDA0003070228530000024
为经过PCA分析后的主要信息,
Figure BDA0003070228530000025
为经过PCA分析后的次要信息,X为最终的到的特征向量,WL为线性变化系数矩阵。
进一步的,本发明步骤(2)中使用多模态Transformer的编码器进行图像特征的编码,具体为:
Zf=TE(X)3
公式中:X代表输入的图像数据,TE代表Transformer中的编码操作。
进一步的,本发明中步骤(3)中所述对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,具体为:首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码,接着将描述语句输入至标准词嵌入编码器,最后对输入的语句进行特征表示进行注意力加权,生成包含上下文信息并且语义更加丰富的描述语句的词向量Y:
Yelmo=ELMo(C) 4
Ynorm=Wn·C 5
其中Yelmo代表生成的ELMo词嵌入矩阵,ELMo代表ELMo词嵌入编码操作,C代表描述语句生成的token矩阵,Wn代表线性变化的系数矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵。
进一步的,所述对输入的语句进行特征表示的注意力加权,具体为:使用注意力机制,对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量,如下所示:首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a:
a=SA(Ynorm,αYelmo))6
Y=a×Yelmo 7
其中a为所得的注意力得分矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵。Yelmo代表生成的ELMo词嵌入矩阵,α为权重匹配系数。
进一步的,所述权重匹配系数α,每经过10000次迭代减少十倍。
进一步的,步骤(3)所述经过基于掩码的多头注意力组件进行文本特征向量的生成;具体为:使用基于掩码的多头注意力,进行描述语句Y的自注意力加权,得到带权重的序列特征Rm
Rm=Mask_MHA(Y,Y,Y) 8
其中,Y为语句中的特征向量表示,Mask_MHA代表基于掩码的多头注意力计算。
进一步的,步骤(4)所述使用多头注意力层进行图像信息与文本信息的相互学习,具体为:多头注意力模块对于图像数据Zf以及次Rm进行归一化注意力计算,得到由图像信息导向的图像描述注意力加权矩阵Rf
Figure BDA0003070228530000031
Figure BDA0003070228530000032
其中
Figure BDA0003070228530000033
Figure BDA0003070228530000034
代表经过归一化后的特征矩阵,MHA代表多头注意力操作,Rf代表有图像信息导向的描述矩阵。
本发明与现有技术相比的优点和技术效果:
(1)使用PCA方法对图像信息进行预处理,获得更有意义的主要图像信息。
(2)提出了针对图像字幕描述任务中的多模态Transformer模型,模型采用模态内注意与模态间注意力的联合建模方式,通过这些注意力在深度上的堆叠,提升了模型对图像的语义描述能力。
(3)提出使用ELMo词嵌入与标准词嵌入联合编码的方式,对不同语境下的词语进行包含上下文信息的词嵌入编码,使得模型对语义的理解有了很大提高;减少了图像描述领域存在的语义鸿沟问题。
(4)在联合编码的过程中使用注意力加权方法,根据不同的权重匹配系数,获得更有意义的词嵌入编码。
附图说明
图1是本发明方法流程示意图;
图2是本发明方法及模型的结构示意图;
图3是本发明的描述生成图;
图4是图像的注意力特征图;
图5是图像模态内部的注意力可视化;
图6是图像与文本模态间的注意力可视化;
图7是文本模态内部的注意力可视化。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明,但本发明的保护范围并不限于所述内容。
实施例1
一种基于动态词嵌入的多模态Transformer的图像描述方法,如下如图1、2所示,具体包括以下步骤:
(1)使用图像特征提取器组件,选中图像的显著区域,对图像进行图像特征的提取:对图像中的目标进行特征提取,生成更有意义的图像特征矩阵,如图4所示;对图像中每个目标框中的目标进行特征提取,生成图像的特征矩阵,大小为(1024*46)。
其中,所述图像的显著区域,对图像中的目标进行特征提取:对已经得到的图像目标区域,使用PCA提取出图像目标区域中的主要信息。
Figure BDA0003070228530000051
再将的得到的主要信息
Figure BDA0003070228530000052
进行线性变化,使其变化到与输入至下一步骤相同的特征维度:
Figure BDA0003070228530000053
其中I为图像中的目标区域信息,
Figure BDA0003070228530000054
为经过PCA分析后的主要信息,
Figure BDA0003070228530000055
为经过PCA分析后的次要信息,X为最终的到的特征向量,WL为线性变化系数矩阵。
(2)使用多模态Transformer的图像特征编码器组件,对图像特征进行编码,得到图像与图像之间的关系,具体为:
Zf=TE(X) 3
公式中:X代表输入的图像数据,TE代表Transformer中的编码操作;如图5所示,得到图像与图像之间的注意力关系。
(3)使用文本特征编码器,对文本信息进行包含上下文信息的特征提取与动态编码:对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,再经过基于掩码的多头注意力组件进行文本特征向量的生成。
进一步的,对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,具体为:首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码,接着将描述语句输入至标准词嵌入编码器,最后对输入的语句进行特征表示进行注意力加权,生成包含上下文信息并且语义更加丰富的描述语句的词向量Y:
Yelmo=ELMo(C) 4
Ynorm=Wn·C 5
其中Yelmo代表生成的ELMo词嵌入矩阵,ELMo代表ELMo词嵌入编码操作,C代表描述语句生成的token矩阵,Wn代表线性变化的系数矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵。
进一步的,对输入的语句进行特征表示的注意力加权,具体为:使用注意力机制,对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量,如下所示:首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a:
a=SA(Ynorm,αYelmo)) 6
Y=a×Yelmo 7
其中a为所得的注意力得分矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵;Yelmo代表生成的ELMo词嵌入矩阵,α为权重匹配系数。
进一步的,权重匹配系数α,每经过10000次迭代减少十倍,初始值为1。
进一步的,经过基于掩码的多头注意力组件进行文本特征向量的生成;具体为:使用基于掩码的多头注意力,进行描述语句Y的自注意力加权,如图6所示,得到带权重的序列特征Rm
Rm=Mask_MHA(Y,Y,Y))8
其中,Y为语句中的特征向量表示,Mask_MHA代表基于掩码的多头注意力计算。
(4)使用Transformer解码器组件,使用多头注意力层进行图像信息与文本信息的相互学习,并生成对应的文本描述。其中,所述使用多头注意力层进行图像信息与文本信息的相互学习,具体为:多头注意力模块对于图像数据Zf以及次Rm进行归一化注意力计算,得到由图像信息导向的图像描述注意力加权矩阵Rf,如图7所示:
Figure BDA0003070228530000061
Figure BDA0003070228530000062
其中
Figure BDA0003070228530000063
Figure BDA0003070228530000064
代表经过归一化后的特征矩阵,MHA代表多头注意力操作,Rf代表有图像信息导向的描述矩阵。
本实施例相对于使用Bottom-up与LSTM的基线模型在BLEU-1、BLEU-2、BLEU-3、BLEU-4、ROUGE-L、CIDEr-D上分别有均有提高。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于,包括以下步骤:
(1)使用图像特征提取器组件,选中图像的显著区域,对图像进行图像特征的提取:对图像中的目标进行特征提取,生成更有意义的图像特征矩阵;
(2)使用Transformer的图像特征编码器组件,对图像特征进行编码;
(3)使用文本特征编码器,对文本信息进行包含上下文信息的特征提取与动态编码:对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,再经过基于掩码的多头注意力组件进行文本特征向量的生成;
(4)使用Transformer解码器组件,使用多头注意力层进行图像信息与文本信息的相互学习,并生成对应的文本描述。
2.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(1)中所述图像的显著区域,对图像中的目标进行特征提取:对已经得到的图像目标区域,使用PCA提取出图像目标区域中的主要信息:
Figure FDA0003070228520000011
再将的得到的主要信息
Figure FDA0003070228520000012
进行线性变化,使其变化到与输入至下一步骤相同的特征维度:
Figure FDA0003070228520000013
其中I为图像中的目标区域信息,
Figure FDA0003070228520000014
为经过PCA分析后的主要信息,
Figure FDA0003070228520000015
为经过PCA分析后的次要信息,X为最终的到的特征向量,WL为线性变化系数矩阵。
3.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(2)中所述使用多模态Transformer的编码器进行图像特征的编码,具体为:
Zf=TE(X) 3
公式中:X代表输入的图像数据,TE代表Transformer中的编码操作。
4.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(3)中所述对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,具体为:首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码,接着将描述语句输入至标准词嵌入编码器,最后对输入的语句进行特征表示进行注意力加权,生成包含上下文信息并且语义更加丰富的描述语句的词向量Y:
Yelmo=ELMo(C) 4
Ynorm=Wn·C 5
其中Yelmo代表生成的ELMo词嵌入矩阵,ELMo代表ELMo词嵌入编码操作,C代表描述语句生成的token矩阵,Wn代表线性变化的系数矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵。
5.根据权利要求4所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:所述对输入的语句进行特征表示的注意力加权,具体为:使用注意力机制,对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量,如下所示:首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a:
a=SA(Ynorm,αYelmo)) 6
Y=a×Yelmo 7
其中a为所得的注意力得分矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵;Yelmo代表生成的ELMo词嵌入矩阵,α为权重匹配系数。
6.根据权利要求5所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:所述权重匹配系数α,每经过10000次迭代减少十倍。
7.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(3)所述经过基于掩码的多头注意力组件进行文本特征向量的生成;具体为:使用基于掩码的多头注意力,进行描述语句Y的自注意力加权,得到带权重的序列特征Rm
Rm=Mask_MHA(Y,Y,Y) 8
其中,Y为语句中的特征向量表示,Mask_MHA代表基于掩码的多头注意力计算。
8.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(4)所述使用多头注意力层进行图像信息与文本信息的相互学习,具体为:多头注意力模块对于图像数据Zf以及次Rm进行归一化注意力计算,得到由图像信息导向的图像描述注意力加权矩阵Rf
Figure FDA0003070228520000021
Figure FDA0003070228520000022
其中
Figure FDA0003070228520000023
Figure FDA0003070228520000024
代表经过归一化后的特征矩阵,MHA代表多头注意力操作,Rf代表有图像信息导向的描述矩阵。
CN202110537165.2A 2021-07-19 2021-07-19 一种基于动态词嵌入的多模态Transformer的图像描述方法 Pending CN113344036A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110537165.2A CN113344036A (zh) 2021-07-19 2021-07-19 一种基于动态词嵌入的多模态Transformer的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110537165.2A CN113344036A (zh) 2021-07-19 2021-07-19 一种基于动态词嵌入的多模态Transformer的图像描述方法

Publications (1)

Publication Number Publication Date
CN113344036A true CN113344036A (zh) 2021-09-03

Family

ID=77469040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110537165.2A Pending CN113344036A (zh) 2021-07-19 2021-07-19 一种基于动态词嵌入的多模态Transformer的图像描述方法

Country Status (1)

Country Link
CN (1) CN113344036A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988274A (zh) * 2021-11-11 2022-01-28 电子科技大学 一种基于深度学习的文本智能生成方法
CN114581543A (zh) * 2022-03-28 2022-06-03 济南博观智能科技有限公司 一种图像描述方法、装置、设备、存储介质
CN115994668A (zh) * 2023-02-16 2023-04-21 浙江非线数联科技股份有限公司 智慧社区资源管理系统
CN116310984A (zh) * 2023-03-13 2023-06-23 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法
WO2023196014A1 (en) * 2022-04-05 2023-10-12 Innopeak Technology, Inc. Object prior embedded network for query-agnostic image retrieval

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581470A (zh) * 2020-05-15 2020-08-25 上海乐言信息科技有限公司 用于对话系统情景匹配的多模态融合学习分析方法和系统
CN112131449A (zh) * 2020-09-21 2020-12-25 西北大学 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN112487949A (zh) * 2020-11-27 2021-03-12 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581470A (zh) * 2020-05-15 2020-08-25 上海乐言信息科技有限公司 用于对话系统情景匹配的多模态融合学习分析方法和系统
CN112131449A (zh) * 2020-09-21 2020-12-25 西北大学 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN112487949A (zh) * 2020-11-27 2021-03-12 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨文瑞,沈韬,朱艳,曾凯,刘英莉: "融合 ELMo 词嵌入的多模态Transformer 的图像描述算法", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113988274A (zh) * 2021-11-11 2022-01-28 电子科技大学 一种基于深度学习的文本智能生成方法
CN113988274B (zh) * 2021-11-11 2023-05-12 电子科技大学 一种基于深度学习的文本智能生成方法
CN114581543A (zh) * 2022-03-28 2022-06-03 济南博观智能科技有限公司 一种图像描述方法、装置、设备、存储介质
WO2023196014A1 (en) * 2022-04-05 2023-10-12 Innopeak Technology, Inc. Object prior embedded network for query-agnostic image retrieval
CN115994668A (zh) * 2023-02-16 2023-04-21 浙江非线数联科技股份有限公司 智慧社区资源管理系统
CN116310984A (zh) * 2023-03-13 2023-06-23 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法
CN116310984B (zh) * 2023-03-13 2024-01-30 中国科学院微电子研究所 基于Token采样的多模态视频字幕生成方法

Similar Documents

Publication Publication Date Title
CN113344036A (zh) 一种基于动态词嵌入的多模态Transformer的图像描述方法
WO2019085779A1 (zh) 机器处理及文本纠错方法和装置、计算设备以及存储介质
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN115577161A (zh) 融合情感资源的多模态情感分析模型
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN117851871A (zh) 一种境外互联网社交阵地多模态数据识别方法
CN117010500A (zh) 一种多源异构知识联合增强的视觉知识推理问答方法
CN115952263A (zh) 一种融合机器阅读理解的问答方法
CN114463688A (zh) 一种跨模态上下文编码的对话情感识别方法及系统
CN114446324A (zh) 一种基于声学和文本特征的多模态情感识别方法
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN116611459B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN115795026A (zh) 基于对比学习的中文文本摘要生成方法
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication