CN115936073A - 一种语言导向卷积神经网络及视觉问答方法 - Google Patents

一种语言导向卷积神经网络及视觉问答方法 Download PDF

Info

Publication number
CN115936073A
CN115936073A CN202310122178.2A CN202310122178A CN115936073A CN 115936073 A CN115936073 A CN 115936073A CN 202310122178 A CN202310122178 A CN 202310122178A CN 115936073 A CN115936073 A CN 115936073A
Authority
CN
China
Prior art keywords
language
oriented
convolution
layer
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310122178.2A
Other languages
English (en)
Other versions
CN115936073B (zh
Inventor
张苗辉
罗根
周奕毅
吴志勇
纪荣嵘
古和今
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Original Assignee
ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES filed Critical ENERGY RESEARCH INSTITUTE OF JIANGXI ACADEMY OF SCIENCES
Priority to CN202310122178.2A priority Critical patent/CN115936073B/zh
Publication of CN115936073A publication Critical patent/CN115936073A/zh
Application granted granted Critical
Publication of CN115936073B publication Critical patent/CN115936073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,公开一种语言导向卷积神经网络及视觉问答方法,所述语言导向卷积神经网络包括多组语言导向卷积模块,每组语言导向卷积模块后接最大池化层;所述语言导向卷积模块包含卷积层、归一化层和全连接层,输入图片经过卷积层卷积操作提取视觉特征,接着经过一个归一化层和输入通过门控机制进行加权相加,得到的结果经过全连接层和残差连接得到最终的输出;所述语言导向卷积模块通过视觉特征和语言特征经注意力机制得到语言导向的注意力特征;利用语言导向的注意力特征来预测卷积核参数以及门控参数。本发明能够通过语言信息来自适应地学习相关的视觉内容,从而提高视觉问答任务的精度。

Description

一种语言导向卷积神经网络及视觉问答方法
技术领域
本发明属于图像处理技术领域,具体涉及视觉问答和跨模态融合,特别涉及一种语言导向卷积神经网络及视觉问答方法。
背景技术
视觉问答技术,是一种基于视觉和语言的多模态任务。给定关于图像的某个自然语言问题,视觉问答需要根据问题和图像来给出答案。 在现有的方法和文献中,视觉问答的模型通常先利用一个在大型图像数据集上预训练的卷积神经网络来提取图片特征,然后利用语言编码器来提取语言特征,最后通过跨模态交互的方式将两种特征融合在一起用于预测问题的答案。这种建模的方式在结构上非常依赖于预训练的卷积神经网络来得到视觉信息。而由于得到的视觉信息通常是与语言无关的,因此预训练的卷积神经网络显得非常冗余。 与此同时,在方法上,现有的视觉问答系统更注重在跨模态交互上的研究。如何得到更好的视觉-本文之间的融合是这些方法关注的重点,而对于视觉内容的学习,现有方法仍然存在一定的瓶颈。具体来说,现有的方法难以根据语言信息来自适应地学习视觉内容,这使得视觉内容的学习局限于预训练的卷积神经网络。而语言信息中通常蕴藏着更为丰富的物体信息和细粒度内容,因此无法从语言中学习视觉内容就阻碍了视觉问答模型的进一步提升。
发明内容
本发明的目的提供一种语言导向卷积神经网络及视觉问答方法,本发明不依赖于视觉卷积神经网络来提取视觉特征,而直接通过语言来学习视觉内容并完成视觉问答任务。
为了达成上述目的,本发明的技术方案是:一种语言导向卷积神经网络,其具体结构是:从输入到输出依次包括第一全连接层、第一最大池化层、第一层的两个语言导向卷积模块、第二最大池化层、第二层的一个语言导向卷积模块、第三最大池化层、第三层的两个语言导向卷积模块、第四最大池化层、第四层的四个语言导向的卷积模块、第五最大池化层、第五层的一个语言导向卷积模块、分类器;
所述语言导向卷积模块包含卷积层、归一化层和第二全连接层,输入图片经过卷积层卷积操作提取视觉特征,接着经过一个归一化层和输入通过门控机制进行加权相加,得到的结果经过第二全连接层和残差连接得到最终的输出;
所述语言导向卷积模块通过视觉特征I和语言特征Q经注意力机制得到语言导向的注意力特征C;接着,利用语言导向的注意力特征C来预测卷积核参数Wconv以及门控参数Wgate;根据得到的卷积核参数Wconv和门控参数Wgate,卷积核参数通过卷积操作提取视觉信息,同时门控参数控制视觉信息的输出,完成语言导向卷积模块操作的计算,更新视觉特征,并通过一个两层的映射和残差连接得到更新后的视觉特征I′。
进一步优选,经过预处理的视觉特征I∈Rh×w×di,以及经过语言编码器处理的语言特征Q∈Rl×de ,通过注意力机制来计算语言导向的注意力特征C∈Rh×w×d,其中,R代表实数集,h代表高度,w代表宽度,d代表语言导向的注意力特征的维度,di代表视觉特征的维度,de代表语言特征的维度,l代表语言特征的长度;
语言导向的注意力特征计算过程如下:
M=((I+P)Wq)(QWk)T
C=M(QWv);
其中,Wq∈Rdi×d、Wk∈Rde×d和Wv∈Rde×d为三个不同的可学习参数矩阵,分别称为查询矩阵、键值矩阵和权重矩阵,分别将特征映射到不同的参数空间;P∈Rh×w×d表示位置编码,M∈Rh×w×h×w为注意力矩阵;利用语言导向的注意力特征预测出卷积操作的卷积核参数Wconv∈Rh×w×(γ×β×g)和门控参数Wgate∈Rh×w×d
Wconv=σ(CW0)W1;
Wgate=σ(CW0)W2;
其中,W0、W1、W2分别为共享的第一层映射权重、卷积核预测的第二层映射权重和门控预测的第三层映射权重,σ为激活函数,γ、β分别表示卷积核的长和宽,g表示卷积的分组数。
进一步优选,通过语言导向的注意力特征预测出的卷积核参数的权重来对视觉特征I进行卷积运算,同时利用语言导向的注意力特征预测出的门控参数来进行残差连接,并得到更新后的视觉特征:I′=dyconv(I;Wconv)+G(I;Wgate)= I*Wconv+max(I*Wgate,0);其中,dyconv(I;Wconv)表示卷积操作,G(I;Wgate)表示门控操作,I′为更新后的视觉特征,*表示卷积运算操作,max()表示取最大运算。
本发明还提供一种基于语言导向卷积神经网络的视觉问答方法,用于根据RGB图像和自然语言问题,给出相应的回答,包括如下步骤:
步骤1,选择进行视觉问答的数据集,对选定的数据集进行预处理操作,制作训练集、验证集、测试集;设置输入的RGB图像的大小,利用预训练好的词向量Glove来将语言转换成特征向量,接着利用LSTM作为语言编码器,得到语言特征;
步骤2,构建语言导向卷积神经网络;
步骤3,使用训练集训练语言导向卷积神经网络,并使用验证集进行验证,使用测试集进行测试;
步骤4,利用训练好的语言导向卷积神经网络完成视觉问答任务。
进一步优选,在语言导向卷积神经网络训练阶段,给定问题答案的标签,利用交叉熵损失函数来计算标签和预测答案之间的损失,然后通过梯度反向传播来更新网络的参数,从而完成语言导向卷积神经网络的训练。
进一步优选,训练所用到的交叉熵损失函数的计算方法是:
对视觉特征通过一层全连接运算来预测出答案所属的答案类别:Pans=SoftMax(I0W0);其中,Pans为预测的答案,W0∈Rd×t为共享的第一层映射权重,d代表语言导向的注意力特征的维度,t表示答案数量,I0为网络更新后的视觉特征,SoftMax函数为:
;
式中,x为输入特征,e为自然对数;
训练过程中给定的正确答案为Gans,则交叉熵损失函数记为:
;
式中,Gans为正确答案,为交叉熵损失函数。
本发明的有益效果:构建了语言导向卷积神经网络,利用RGB图像和自然语言作为输入,其预测由语言信息来控制,将视觉特征和语言特征输入到语言导向卷积神经网络得到预测结果。该语言导向卷积神经网络能够通过语言信息来自适应地学习相关的视觉内容,从而提高视觉问答任务的精度。
附图说明
图1是本发明所述语言导向卷积神经网络的示意图。
图2是单个语言导向的卷积模块示意图。
图3是语言导向的注意力特征生成示意图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
参照图1,一种语言导向卷积神经网络(LConvNet),它能够不依赖于传统卷积神经网络来提取视觉信息,而仅仅依靠语言导向的卷积模块完成视觉问答任务。语言导向卷积神经网络(LConvNet)具体结构是:从输入到输出依次包括了一个16维(16-d)的第一全连接层、一个2×2(步长为2且尺度为2)的最大池化层、两个16维卷积核大小为3的语言导向卷积模块(16-d LConv ×2)、一个2×2的最大池化层、一个64维卷积核大小为7的语言导向卷积模块(64-d LConv ×1)、一个2×2的最大池化层、两个128维卷积核大小为7的语言导向卷积模块(128-d LConv×2)、一个2×2的最大池化层、四个256维卷积核大小为7的语言导向的卷积模块(256-d LConv×4)、一个2×2的最大池化层、一个512维卷积核大小为7的语言导向卷积模块(512-d LConv×1)、一个分类器(包含了池化层和全连接层)。LConvNet执行视觉问答任务的具体特征是:将图片和问题输入到LConvNet中,经过LConvNet的处理并通过分类器预测出每个答案的概率分布,最终取概率最大的作为最终答案。
语言导向卷积模块(LConv)的结构如图2所示,包含卷积层、归一化层和第二全连接层,输入图片经过卷积层卷积操作提取视觉特征,接着经过一个归一化层和输入通过门控机制进行加权相加,得到的结果经过第二全连接层和残差连接得到最终的输出。它能够根据语言信息来调整视觉内容的学习,从而即完成对视觉信息的提取,又达到跨模态交互的目的。
参照图3,语言导向卷积模块通过视觉特征I和语言特征Q经注意力机制得到语言导向的注意力特征C。接着,利用语言导向的注意力特征C来预测卷积核参数Wconv以及门控参数Wgate;根据得到的卷积核参数Wconv和门控参数Wgate,卷积核参数通过卷积操作提取视觉信息,同时门控参数能够控制视觉信息的输出,完成语言导向卷积模块操作的计算,更新视觉特征,并通过一个两层的映射和残差连接得到更新后的视觉特征。
具体而言,经过预处理的视觉特征I∈R h×w×di,以及经过语言编码器处理的语言特征Q∈Rl×de ,通过注意力机制来计算语言导向的注意力特征C∈Rh×w×d,其中,R代表实数集,h代表高度,w代表宽度,d代表语言导向的注意力特征的维度,di代表视觉特征的维度,de代表语言特征的维度,l代表语言特征的长度;
语言导向的注意力特征计算过程如下:
M=((I+P)Wq)(QWk)T
0040.C=M(QWv);
其中,Wq∈Rdi×d、Wk∈Rde×d和Wv∈Rde×d为三个不同的可学习参数矩阵,分别称为查询矩阵、键值矩阵和权重矩阵,分别将特征映射到不同的参数空间;P∈Rh×w×d表示位置编码,M∈Rh×w×h×w为注意力矩阵;利用语言导向的注意力特征预测出卷积操作的卷积核参数Wconv∈Rh×w×(γ×β×g)和门控参数Wgate∈Rh×w×d
Wconv=σ(CW0)W1;
Wgate=σ(CW0)W2;
其中,W0、W1、W2分别为共享的第一层映射权重、卷积核预测的第二层映射权重和门控预测的第三层映射权重,σ为激活函数,γ、β分别表示卷积核的长和宽,g表示卷积的分组数。
结合图2,通过语言导向的注意力特征预测出的卷积核参数的权重来对视觉特征I进行卷积运算,同时利用语言导向的注意力特征预测出的门控参数来进行残差连接,并得到更新后的视觉特征:I′=dyconv(I;Wconv)+G(I;Wgate)= I*Wconv+max(I*Wgate,0);其中,dyconv(I;Wconv)表示卷积操作,G(I;Wgate)表示门控操作,I′为更新后的视觉特征,*表示卷积运算操作,max()表示取最大运算。
本实施例提供一种基于语言导向卷积神经网络的视觉问答方法,用于根据RGB图像和自然语言问题,给出相应的回答;包括如下步骤:
步骤1,选择进行视觉问答的数据集,对选定的数据集进行预处理操作,制作训练集、验证集、测试集;设置输入的RGB图像的大小为224×224×3,输入图像数值上除以255,描述语言的最长文本输入设置为15;接着,针对于输入的描述语言,我们首先利用预训练好的词向量Glove来将语言转换成特征向量,接着利用LSTM作为语言编码器,得到语言特征。
步骤2,构建语言导向卷积神经网络(LConvNet)。
步骤3,使用训练集训练语言导向卷积神经网络,并使用验证集进行验证,使用测试集进行测试。在语言导向卷积神经网络训练阶段,给定问题答案的标签,我们利用交叉熵损失函数来计算标签和预测答案之间的损失,然后通过梯度反向传播来更新网络的参数,从而完成语言导向卷积神经网络的训练。训练过程中,所用到的交叉熵损失函数的计算方法是:
对视觉特征通过一层全连接运算来预测出答案所属的答案类别:Pans=SoftMax(I0W0);其中,Pans为预测的答案,W0∈Rd×t为共享的第一层映射权重,d代表语言导向的注意力特征的维度,t表示答案数量,I0为网络更新后的视觉特征,SoftMax函数为:
;
式中,x为输入特征,e为自然对数;
训练过程中给定的正确答案为Gans,则交叉熵损失函数记为:
;
式中,Gans为正确答案,为交叉熵损失函数。
通过梯度反向传播,可以在训练过程中优化网络的参数训练过程中,使用Adam优化器,并设置初始学习率和批大小分别为0.0001和64。每轮训练结束后,在验证集上进行验证,并取验证集上的最佳模型来用于测试集测试。
步骤4,利用训练好的语言导向卷积神经网络完成视觉问答任务。在部署过程中为了得到预测的答案,我们对Pans进行进一步的运算:ans=argmax(Pans);ans即为部署过程中网络预测得到的答案。
采用上述方案后,本发明利用语言导向卷积神经网络来完成视觉问答任务,与传统的方法不同,本发明不依赖于视觉卷积神经网络来提取视觉特征,而直接通过语言来学习视觉内容并完成视觉问答任务。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种语言导向卷积神经网络,其特征是:从输入到输出依次包括第一全连接层、第一最大池化层、第一层的两个语言导向卷积模块、第二最大池化层、第二层的一个语言导向卷积模块、第三最大池化层、第三层的两个语言导向卷积模块、第四最大池化层、第四层的四个语言导向的卷积模块、第五最大池化层、第五层的一个语言导向卷积模块、分类器;
所述语言导向卷积模块包含卷积层、归一化层和第二全连接层,输入图片经过卷积层卷积操作提取视觉特征,接着经过一个归一化层和输入通过门控机制进行加权相加,得到的结果经过第二全连接层和残差连接得到最终的输出;
所述语言导向卷积模块通过视觉特征I和语言特征Q经注意力机制得到语言导向的注意力特征C;接着,利用语言导向的注意力特征C来预测卷积核参数Wconv以及门控参数Wgate;根据得到的卷积核参数Wconv和门控参数Wgate,卷积核参数通过卷积操作提取视觉信息,同时门控参数控制视觉信息的输出,完成语言导向卷积模块操作的计算,更新视觉特征,并通过一个两层的映射和残差连接得到更新后的视觉特征I′。
2.根据权利要求1所述的语言导向卷积神经网络,其特征是:经过预处理的视觉特征I∈R h×w×di,以及经过语言编码器处理的语言特征Q∈Rl×de ,通过注意力机制来计算语言导向的注意力特征C∈Rh×w×d,其中,R代表实数集,h代表高度,w代表宽度,d代表语言导向的注意力特征的维度,di代表视觉特征的维度,de代表语言特征的维度,l代表语言特征的长度;
语言导向的注意力特征计算过程如下:
M=((I+P)Wq)(QWk)T
C=M(QWv);
其中,Wq∈Rdi×d、Wk∈Rde×d和Wv∈Rde×d为三个不同的可学习参数矩阵,分别称为查询矩阵、键值矩阵和权重矩阵,分别将特征映射到不同的参数空间;P∈Rh×w×d表示位置编码,M∈Rh×w×h×w为注意力矩阵;利用语言导向的注意力特征预测出卷积操作的卷积核参数Wconv∈Rh ×w×(γ×β×g)和门控参数Wgate∈Rh×w×d
Wconv=σ(CW0)W1;
Wgate=σ(CW0)W2;
其中,W0、W1、W2分别为共享的第一层映射权重、卷积核预测的第二层映射权重和门控预测的第三层映射权重,σ为激活函数,γ、β分别表示卷积核的长和宽,g表示卷积的分组数。
3.根据权利要求2所述的语言导向卷积神经网络,其特征是:通过语言导向的注意力特征预测出的卷积核参数的权重来对视觉特征I进行卷积运算,同时利用语言导向的注意力特征预测出的门控参数来进行残差连接,并得到更新后的视觉特征:I′=dyconv(I;Wconv)+G(I;Wgate)= I*Wconv+max(I*Wgate,0);其中,dyconv(I;Wconv)表示卷积操作,G(I;Wgate)表示门控操作,I′为更新后的视觉特征,*表示卷积运算操作,max()表示取最大运算。
4.一种基于语言导向卷积神经网络的视觉问答方法,用于根据RGB图像和自然语言问题,给出相应的回答,其特征是,包括如下步骤:
步骤1,选择进行视觉问答的数据集,对选定的数据集进行预处理操作,制作训练集、验证集、测试集;设置输入的RGB图像的大小,利用预训练好的词向量Glove来将语言转换成特征向量,接着利用LSTM作为语言编码器,得到语言特征;
步骤2,构建如权利要求1所述的语言导向卷积神经网络;
步骤3,使用训练集训练语言导向卷积神经网络,并使用验证集进行验证,使用测试集进行测试;
步骤4,利用训练好的语言导向卷积神经网络完成视觉问答任务。
5.根据权利要求4所述的基于语言导向卷积神经网络的视觉问答方法,其特征是:在语言导向卷积神经网络训练阶段,给定问题答案的标签,利用交叉熵损失函数来计算标签和预测答案之间的损失,然后通过梯度反向传播来更新网络的参数,从而完成语言导向卷积神经网络的训练。
6.根据权利要求5所述的基于语言导向卷积神经网络的视觉问答方法,其特征是:训练所用到的交叉熵损失函数的计算方法是:
对视觉特征通过一层全连接运算来预测出答案所属的答案类别:Pans=SoftMax(I0W0);其中,Pans为预测的答案,W0∈Rd×t为共享的第一层映射权重,d代表语言导向的注意力特征的维度,t表示答案数量,I0为网络更新后的视觉特征,SoftMax函数为:
;
式中,x为输入特征,e为自然对数;
训练过程中给定的正确答案为Gans,则交叉熵损失函数记为:
;
式中,Gans为正确答案,为交叉熵损失函数。
CN202310122178.2A 2023-02-16 2023-02-16 一种语言导向卷积神经网络及视觉问答方法 Active CN115936073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310122178.2A CN115936073B (zh) 2023-02-16 2023-02-16 一种语言导向卷积神经网络及视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310122178.2A CN115936073B (zh) 2023-02-16 2023-02-16 一种语言导向卷积神经网络及视觉问答方法

Publications (2)

Publication Number Publication Date
CN115936073A true CN115936073A (zh) 2023-04-07
CN115936073B CN115936073B (zh) 2023-05-16

Family

ID=85823779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310122178.2A Active CN115936073B (zh) 2023-02-16 2023-02-16 一种语言导向卷积神经网络及视觉问答方法

Country Status (1)

Country Link
CN (1) CN115936073B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
WO2020192433A1 (zh) * 2019-03-26 2020-10-01 中国科学技术大学 多语言文本检测识别方法和设备
CN114913403A (zh) * 2022-07-18 2022-08-16 南京信息工程大学 基于度量学习的视觉问答方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
WO2020192433A1 (zh) * 2019-03-26 2020-10-01 中国科学技术大学 多语言文本检测识别方法和设备
CN110347860A (zh) * 2019-07-01 2019-10-18 南京航空航天大学 基于卷积神经网络的深度图像描述方法
CN114913403A (zh) * 2022-07-18 2022-08-16 南京信息工程大学 基于度量学习的视觉问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MING YANG: "Symmetrical irregular local features for fine-grained visual classification", 《NEUROCOMPUTING》 *
沈文祥;秦品乐;曾建潮;: "基于多级特征和混合注意力机制的室内人群检测网络", 计算机应用 *

Also Published As

Publication number Publication date
CN115936073B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110647619B (zh) 一种基于问题生成和卷积神经网络的常识问答方法
CN108959246A (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN111008293A (zh) 基于结构化语义表示的视觉问答方法
WO2023160472A1 (zh) 一种模型训练方法及相关设备
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109948149A (zh) 一种文本分类方法及装置
CN110909736A (zh) 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN110516070A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN115221846A (zh) 一种数据处理方法及相关设备
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及系统
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN112926655B (zh) 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN115936073B (zh) 一种语言导向卷积神经网络及视觉问答方法
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant