CN111046966B - 基于度量注意力机制的图像字幕生成方法 - Google Patents
基于度量注意力机制的图像字幕生成方法 Download PDFInfo
- Publication number
- CN111046966B CN111046966B CN201911306345.9A CN201911306345A CN111046966B CN 111046966 B CN111046966 B CN 111046966B CN 201911306345 A CN201911306345 A CN 201911306345A CN 111046966 B CN111046966 B CN 111046966B
- Authority
- CN
- China
- Prior art keywords
- image
- input
- gate
- attention mechanism
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于度量注意力机制的图像字幕生成方法,属于计算机视觉与图像字幕处理任务。本发明模型首先提取图像的特征结合生成具有低级语义的字幕,然后利用注意力机制提取图像的特定区域结合低级语义信息生成高级字幕。利用度量学习学习和真实标签之间的差异,对于符合阈值的输出,不符合阈值的,利用本发明提出的注意力模块,该模块重新结合图像和语义信息以及历史信息生成新的字幕。本发明是一种新型生成图像字幕的方法,不需要人工描述,即可完成大量的图像字幕任务。
Description
技术领域
本发明属于计算机视觉与图像字幕处理任务,提出了一种基于度量注意力机制MAM(MeasureAttention Mechanism)的图像字幕生成方法,可以有效的把图片中的视觉数据映射成文字数据,从而描述图片的内容。
技术背景
图像字幕对于人们理解图像是一项具有挑战性的工作。图像字幕的任务是用自然语言描述来描述输入图像。它有许多实际应用,如帮助盲人理解图像的内容,拍照片就可以马上生成合适的描述文字,省去了用户手动编辑。然而,图像字幕是一个具有挑战性的领域。不仅需要对图像中的物体进行描述,还需要用类似人的句子来表达信息。它不同于传统的图像语义理解。其主要任务是使机器识别出与人相似的图像和真实文字。因此,现提出一种精准和智能的图像字幕生成方法还是非常有必要的。
早期的图像处理方法大多都是基于传统的机器学习方法,如使用支持向量机等进行分类得到图像中的目标,进而作为生成句子的依据。深度学习的出现极大的促进了计算机视觉的发展,图像的特征提取受到了卷积神经网络(Convolutional Neural Network,CNN)的发展,识别率有了大大的提高。在图像字幕的任务中,使用CNN作为提取图像特征的编码器成为了多数的方法。谷歌在2014年率先采用了这种方法。
获取了图像信息紧接着就要把视觉信息转化成文字信息,目前多数采用的是基于生成的方法。利用循环神经网络(RecurrentNeuralNetwork,RNN)对特征图中含有文字的部分进行解码,从而达到对图像中文本识别的目的。
一般来说传统的编码——解码已经可以产生比较好的结果,随着注意力机制在机器翻译领域的成功应用,2016年Xu et al.首次提出把注意力机制应用到图像字幕的任务中去,并取得了较好的结果。它的主要思想就是把获取的图像特征对其进行注意力加权处理再用RNN进行解码。除了图像的注意力机制,语言特征的注意力机制也是当下研究的一个热门探究方向。
在解码方面,一般我们都是直接图像的特征进行提取,但是一次提取可能面临的问题是并不能完全的提取图像中的信息。在编码阶段,传统的RNN存在梯度弥散和梯度消失问题,不利于句子的生成。同时,很多方法都是把最后解码的文字最后的输出,并没有学习和真实样本之间的差异性,无法更好的描述图像的主题。因此,需要一种更好的模型,一方面可以提取更加丰富的图像信息,另一方面可以更加的准确的描述图像中所包含的信息。
发明内容
针对上述存在的问题,本发明提出了一种基于度量注意力机制的图像字幕生成方法来进行图像字幕的生成。先将图像使用CNN进行特征的提取,然后引入注意力机制提取图像的高级特征,将二者结合,生成字幕,充分的利用图像的低级和和高级特征。引入度量学习,学习生成的字幕和标签之间的差异,当达到阈值时就输出,否则重新学习,直到达到满足的条件。从而达到更加准确的生成图像字幕的目的。
本发明的技术方案:
基于度量注意力机制的图像字幕生成方法,步骤如下:
目标是给定一幅图片,将字幕作为图像预测的条件概率:
其中I表示输入的图像,θ是模型的参数;S等价为一个句子中的单词S=(S0,...,St+1),则上述(1)又描述为:
步骤1、首先读取数据集的图片,使用卷积神经网络(Convolutional NeuralNetwork,CNN)作为编码器,对图像的特征进行提取,得到如下的特征向量:
其中D表示提取特征的维度,xi表示特征图对应的D维特征向量,L是特征图的高和宽的乘积;
步骤2、使用长短神经网络(Long Short-Term Memory,LSTM)生成具有低级语义的字幕:
i1 t=σ(Wixxt+Wihht-1) (4)
f1 t=σ(Wfxxt+Wfhht-1) (5)
ot 1=σ(Woxxt+Wohht-1) (6)
c1 t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1) (7)
h1 t=ot⊙tanh(ct) (8)
其中,第一步输入x是公式(3)中的V,it、ft、ct和ot分别代表输入门、遗忘门、记忆细胞和输出门,ht代表隐藏层,Wix、Wfx、Wox、Wcx和Wch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态,σ、Wfh、Wih、Woh分别为sigmoid函数,遗忘门,输入门和输出门隐藏层的参数⊙表示向量的乘法运算;公式(4)-(8)上角标1代表的是低级语义字幕生成过程由(4)-(8)得
ht+1=f(ht,xt) (9)
其中xt表示LSTM的输入,在第一个单元中,xt代表的是图像特征,在另外的单元中代表的是上下文单词的特征;通过训练,来获得模型的参数θ;
步骤3、通过注意力机制获取图像中的特定区域,以此来获得图像的高级语义信息;再结合步骤2中得到的低级语义的字幕,得到具有高级语义信息的字幕。在时刻t,都能得到一组权重,代表着在图像中的重要程度。
i2 t=σ(Wixxt+Wihht-1+WizZt) (10)
f2 t=σ(Wfxxt+Wfhht-1+WfzZt) (11)
o2 t=σ(Woxxt+Wohht-1+WozZt) (12)
c2 t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1+WczZt) (13)
h2 t=ot⊙tanh(ct) (14)
其中Wiz、Wfz、Woz、Wcz为输入门、遗忘门、输出门和细胞状态的训练参数。注意力机制在解码的过程中使用了上下文向量Zt得到:
Zt=Φ({ai},{αi}) (15)
其中,Φ表示给定一个图像的向量和对应的权重的函数。ai代表的是图像位置为i的向量,αi代表的是相关联的权重矩阵。
对于公式(15)中的αi计算如下:
eti=fatt(ai,ht-1) (16)
其中,eti为t位置时刻全局注意力的输出,fatt(·)为全局注意力机制函数,ati为t时刻ai对应的权重;
对于公式(16)中的ht-1表示的是上一个时刻解码器中的隐含层向量,
注意力公式为:
fatt=βTtanh(W1ht-1+W2ai) (18)
其中,fatt为全局注意力机制,β为隐藏层状态,W1和W2为隐藏层参数。
最后得到一个上下文向量:
其中αti由公式17得到
使用LSTM作为解码器:
f(yt-1,ht-1,ct)=softmax(Wot) (20)
其中yt-1表示的是词向量,Wot表示的是输出门的参数。
步骤4、本发明引入了度量学习,学习和真实标签之间的差异,从而让字幕更加的准确和生动。对于不符合阈值的,会输入进一个新的注意力模块,该模块重新结合了图像的内容和语义信息,作为新的字幕生成。
对于一个的要学习的度量矩阵M,为了保持M距离的非负性和对称性,因此我们要保证M要是正定或者半正定矩阵。即M要有正交基底,使得
M=PPT (21)
优化的目标函数为:
其中,P为属性权重,Ωi为与xi属于同类别的样本下标集合,xs表示的是样本,对于上式,采用随机梯度下降法SGD求解。
然后对于不理想的生成字幕输入新的注意力模块:
wt=E(xt) (23)
zt=softmax(i⊙ct) (25)
xt=wt+zt (26)
其中,当t=1时,xt=X表示输入的是图像的特征,当t>1表示的是输入的是词嵌入向量;wt为词嵌入矩阵,代表的是当前时刻之前所产生的所有单词信息,E代表的是词嵌入模型,由此获得词嵌入矩阵。zt代表的是重新结合图像和语义信息相结合的矩阵。最后,把得到的新的图像和语义信息的和作为LSTM的输入,带入上述公式(10)-(14)重新生成字幕;
步骤5、由此,本发明就可以生成字幕,得到了模型概率分布P(S|I),为了学习本发明的模型,我们采用了最小交叉熵来进行学习。
采用和度量学习一样的随机梯度下降法SGD来训练模型。
本发明的有益效果:提出了一种新型生成图像字幕的方法,不需要人工描述,即可完成大量的图像字幕任务。为了更加详细的学习图像中的内容,本发明分别针对低级和高级图像特征结合语义指导生成字幕。引入度量学习,学习和真实样本之间的差异性,从而使生成的字幕更加的准确。对于效果不好的,输入新的注意模块,重新指导生成。利用以上的优点,实现对图像字幕的生成。
附图说明
图1为本发明的整个网络框架示意图;
图2为注意力模块的结构示意图;
图3为整个网络的训练流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加的清楚,结合上述所给的技术方案和附图,进一步的说明本发明的具体使用方式。
步骤1、首先读取数据集的图片,使用GoogleNet作为编码器,对图像的特征进行提取,可以得到如下的特征向量:
其中D表示提取特征的维度,vi表示特征图对应的D维特征向量,L是特征图的高和宽的乘积。本发明的L=7×7,D的大小取2048。最后我们得到一个49×512维的矩阵。
步骤2、使用长短神经网络(LongShort-TermMemory,LSTM)生成具有低级语义的字幕。我们使用512维的词嵌入矩阵,以用来保证和图像特征具有相同的维度。因为标签中含有大量的重复单词,为了加速训练时间,我们把标签映射成字典的形式。
ht+1=f(ht,xt) (2)
其中xt表示LSTM的输入,在第一个单元中,xt代表的是图像特征,在另外的单元中代表的是上下文单词的特征。通过训练,来获得模型的参数θ。
步骤3、通过注意力机制获取图像中的特定区域,以此来获得图像的高级语义信息。再结合步骤2中得到的低级字幕,得到具有高级语义信息的字幕。在时刻t,都可以得到一组权重,代表着在图像中的重要程度。
注意力公式为:
fatt=βTtanh(W1ht-1+W2ai) (3)
最后得到一个上下文向量:
我们使用LSTM作为解码器:
f(yt-1,ht-1,ct)=softmax(Wot) (5)
步骤4、发明中的度量学习,主要学习和真实标签之间的差异,从而让字幕更加的准确和生动。对于不符合阈值的,会输入进一个新的注意力模块,该模块重新结合了图像的内容和语义信息,作为新的字幕生成。该处的阈值我们设置为0.7
优化的目标函数为:
其中xi表示的是样本,对于上式,我们采用随机梯度下降法(SGD)求解。
然后对于不理想的生成字幕输入进注意力模块:
wt=E(xt) (7)
zt=softmax(i⊙ct) (9)
xt=wt+zt (10)
其中的E代表的是词嵌入模型,由此我们可以获得词嵌入矩阵。zt代表的是重新结合图像和语义信息相结合的矩阵。最后,我们把二者的和作为LSTM的输入。
步骤5、由此,本发明就可以生成字幕,得到了模型概率分布P(S|I),为了学习本发明的模型,我们采用了最小交叉熵来进行学习。对于CNN来说,我们设置学习率为1×10-5,我们的语言模型的学习率设置为4×10-4,beamsize我们设置为2的时候效果最好。本发明的语言模型中,隐藏层的个数设置为512,我们所采用的minibatch为16。
我们采用和度量学习一样的随机梯度下降(SGD)来训练我们的模型。
本发明提出了一种新型生成图像字幕的方法,不需要人工描述,即可完成大量的图像字幕任务。为了更加详细的学习图像中的内容,本发明分别针对低级和高级图像特征结合语义指导生成字幕。引入度量学习,学习和真实样本之间的差异性,从而使生成的字幕更加的准确。对于效果不好的,输入新的注意模块,重新指导生成。利用以上的优点,实现对图像字幕的生成。
下面通过本发明提供的方法对图像字幕数据集进行预测,该数据集包含了8000张图片,其中包含了6000张的训练集、1000张的验证集和1000张测试集。每张图片还包含了几句描述图像内容的句子。
预测结果表明基于的方法比人工节约了65%的时间,并且生成字幕的准确率也符合预期的要求。因此,本发明所提出来的方法可以有效的描述图像的内容。
Claims (1)
1.基于度量注意力机制的图像字幕生成方法,其特征在于,步骤如下:
目标是给定一幅图片,将字幕作为图像预测的条件概率:
其中I表示输入的图像,θ是模型的参数;S等价为一个句子中的单词S=(S0,...,St+1),则上述(1)又描述为:
步骤1、首先读取数据集的图片,使用卷积神经网络CNN作为编码器,对图像的特征进行提取,得到如下的特征向量:
其中D表示提取特征的维度,xi表示特征图对应的D维特征向量,L是特征图的高和宽的乘积;
步骤2、使用长短神经网络LSTM生成具有低级语义的字幕:
i1 t=σ(Wixxt+Wihht-1) (4)
f1 t=σ(Wfxxt+Wfhht-1) (5)
ot 1=σ(Woxxt+Wohht-1) (6)
c1 t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1) (7)
h1 t=ot⊙tanh(ct) (8)
其中,第一步输入x是公式(3)中的X,i1 t、f1 t、c1 t和ot 1分别代表输入门、遗忘门、记忆细胞和输出门,h1 t代表隐藏层,Wix、Wfx、Wox、Wcx和Wch为度量注意力机制的输入门、遗忘门、输出门、更新的细胞状态,σ、Wfh、Wih、Woh分别为sigmoid函数,遗忘门,输入门和输出门隐藏层的参数⊙表示向量的乘法运算;公式(4)-(8)上角标1代表的是低级语义字幕生成过程,由(4)-(8)得:
ht+1=f(ht,xt) (9)
其中xt表示LSTM的输入,在第一个单元中,xt代表的是图像特征,在另外的单元中代表的是上下文单词的特征;通过训练,来获得模型的参数θ;
步骤3、通过注意力机制获取图像中的特定区域,以此来获得图像的高级语义信息;再结合步骤2中得到的低级语义的字幕,得到具有高级语义信息的字幕;在时刻t,都能得到一组权重,代表着在图像中的重要程度;
i2 t=σ(Wixxt+Wihht-1+WizZt) (10)
f2 t=σ(Wfxxt+Wfhht-1+WfzZt) (11)
o2 t=σ(Woxxt+Wohht-1+WozZt) (12)
c2 t=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1+WczZt) (13)
h2 t=ot⊙tanh(ct) (14)
其中Wiz、Wfz、Woz、Wcz为输入门、遗忘门、输出门和细胞状态的训练参数;注意力机制在解码的过程中使用了上下文向量Zt得到:
Zt=Φ({ai},{αi}) (15)
其中,Φ表示给定一个图像的向量和对应的权重的函数;ai代表的是图像位置为i的向量,αi代表的是相关联的权重矩阵;
对于公式(15)中的αi计算如下:
eti=fatt(ai,ht-1) (16)
其中,eti为t位置时刻全局注意力的输出,fatt(·)为全局注意力机制函数,ati为t时刻ai对应的权重;
对于公式(16)中的ht-1表示的是上一个时刻解码器中的隐含层向量,
注意力公式为:
fatt=βTtanh(W1ht-1+W2ai) (18)
其中,fatt为全局注意力机制,β为隐藏层状态,W1和W2为隐藏层参数;
最后得到一个上下文向量:
其中αti由公式17得到
使用LSTM作为解码器:
f(yt-1,ht-1,ct)=softmax(Wot) (20)
其中yt-1表示的是词向量,Wot表示的是输出门的参数;
步骤4、引入度量学习,学习和真实标签之间的差异;对于不符合阈值的,会输入进一个新的注意力模块,该模块重新结合了图像的内容和语义信息,作为新的字幕生成;
对于一个的要学习的度量矩阵M,M要是正定或者半正定矩阵;即M要有正交基底,使得
M=HHT (21)
优化的目标函数为:
其中,H为属性权重,Ωs为与xi属于同类别的样本下标集合,xs表示的是样本,对于上式,采用随机梯度下降法SGD求解;
然后对于不理想的生成字幕输入新的注意力模块:
wt=E(xt) (23)
zt=softmax(i⊙ct) (25)
xt=wt+zt (26)
其中,当t=1时,xt=X表示输入的是图像的特征,当t>1表示的是输入的是词嵌入向量;wt为词嵌入矩阵,代表的是当前时刻之前所产生的所有单词信息,E代表的是词嵌入模型,由此获得词嵌入矩阵;zt代表的是重新结合图像和语义信息相结合的矩阵;最后,把得到的新的图像和语义信息的和作为LSTM的输入,带入上述公式(10)-(14)重新生成字幕;
步骤5、生成字幕的同时得到了模型概率分布P(S|I),采用最小交叉熵对模型进行学习;
采用和度量学习一样的随机梯度下降法SGD来训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911306345.9A CN111046966B (zh) | 2019-12-18 | 2019-12-18 | 基于度量注意力机制的图像字幕生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911306345.9A CN111046966B (zh) | 2019-12-18 | 2019-12-18 | 基于度量注意力机制的图像字幕生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046966A CN111046966A (zh) | 2020-04-21 |
CN111046966B true CN111046966B (zh) | 2022-04-05 |
Family
ID=70237077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911306345.9A Active CN111046966B (zh) | 2019-12-18 | 2019-12-18 | 基于度量注意力机制的图像字幕生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046966B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116685A (zh) * | 2020-09-16 | 2020-12-22 | 中国石油大学(华东) | 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法 |
CN116310984B (zh) * | 2023-03-13 | 2024-01-30 | 中国科学院微电子研究所 | 基于Token采样的多模态视频字幕生成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2431919A1 (en) * | 2010-09-16 | 2012-03-21 | Thomson Licensing | Method and device of determining a saliency map for an image |
US20150235073A1 (en) * | 2014-01-28 | 2015-08-20 | The Trustees Of The Stevens Institute Of Technology | Flexible part-based representation for real-world face recognition apparatus and methods |
KR102480323B1 (ko) * | 2018-03-22 | 2022-12-23 | 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 | 비디오 시간 세그먼트를 검색하는 방법과 시스템 |
CN109726696B (zh) * | 2019-01-03 | 2023-04-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN110147457B (zh) * | 2019-02-28 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 图文匹配方法、装置、存储介质及设备 |
CN110020682B (zh) * | 2019-03-29 | 2021-02-26 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110110140A (zh) * | 2019-04-19 | 2019-08-09 | 天津大学 | 基于注意力扩展编解码网络的视频摘要方法 |
CN110413737B (zh) * | 2019-07-29 | 2022-10-14 | 腾讯科技(深圳)有限公司 | 一种同义词的确定方法、装置、服务器及可读存储介质 |
-
2019
- 2019-12-18 CN CN201911306345.9A patent/CN111046966B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111046966A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
Sumbul et al. | SD-RSIC: Summarization-driven deep remote sensing image captioning | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
Ko et al. | Sign language recognition with recurrent neural network using human keypoint detection | |
CN110083710B (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN111046966B (zh) | 基于度量注意力机制的图像字幕生成方法 | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
Puscasiu et al. | Automated image captioning | |
Zhu et al. | Multi-scale temporal network for continuous sign language recognition | |
Raj et al. | Deep learning based video captioning in bengali | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN116432605B (zh) | 融入先验知识的作文评语生成方法及装置 | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
Chaithra et al. | Image caption generator using deep learning | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN113609355B (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 | |
CN115186683A (zh) | 一种基于跨模态翻译的属性级多模态情感分类方法 | |
CN115512191A (zh) | 一种联合问答的图像自然语言描述方法 | |
Cho et al. | Design of image generation system for DCGAN-based kids' book text | |
Raut | An Advanced Image Captioning using combination of CNN and LSTM | |
YV et al. | Image captioning with attention based model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |