CN111368118B - 一种图像描述生成方法、系统、装置和存储介质 - Google Patents
一种图像描述生成方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN111368118B CN111368118B CN202010090659.6A CN202010090659A CN111368118B CN 111368118 B CN111368118 B CN 111368118B CN 202010090659 A CN202010090659 A CN 202010090659A CN 111368118 B CN111368118 B CN 111368118B
- Authority
- CN
- China
- Prior art keywords
- features
- network
- adopting
- block
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种图像描述生成方法、系统、装置和存储介质,其中方法包括以下步骤:获取图片信息;采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;所述多种特征包括区块特征、目标特征和文本特征。本发明的图像描述模型在训练过程中,融合了区块特征、目标特征和文,基于多种特征进行融合,根据不同特征表示的语义层级不同,高语义层级的特征向量可以为底层的特征向量起到信息指导的作用,低语义层级的特征向量可以为高层级的特征向量起到信息,使得生成的句子描述更加准确,提高图像描述的效果,可广泛应用于数据处理技术领域。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种图像描述生成方法、系统、装置和存储介质。
背景技术
图像描述是指以图像为输入,通过模型和计算来输出对应图像的描述图像内容的自然语言(英文、中文等)句子。生成的句子是能够描述图像内容的句子。目前在建立用于图像描述的模型中,为了避免造成较大的损失函数值,训练过程中模型总是倾向于生成一些比较宽泛性的句子,这样生成的句子中常常会丢失图像中的某些细节信息,导致句子的信息不够丰富。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能够提供更多细节信息的图像描述生成方法、系统、装置和存储介质。
本发明所采用的第一技术方案是:
一种图像描述生成方法,包括以下步骤:
获取图片信息;
采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;
所述多种特征包括区块特征、目标特征和文本特征。
进一步,还包括建立图像描述模型的步骤,具体包括以下步骤:
采用预设网络提取图像数据集的区块特征、目标特征及文本特征;
采用刺激性关注机制对区块特征进行处理后,将目标特征、文本特征及处理后的区块特征输入transformer模块;
采用多模融合映射模块对输入transformer模块的特征进行特征融合,获得融合特征;
结合融合特征和预设的损失函数对网络进行训练,并在训练完成后,获得图像描述模型。
进一步,所述采用预设网络提取图像数据集的区块特征、目标特征及文本特征这一步骤,具体包括以下步骤:
采用第一预设神经网络提取图像数据集的区块特征,所述第一预设神经网络为深度残差网络;
采用第二预设神经网络提取图像数据集的目标特征,所述第二预设神经网络为用于目标检测的卷积神经网络;
采用第三预设神经网络提取图像数据集的文本特征,所述第三预设神经网络为用于文本分类的卷积神经网络。
进一步,所述采用刺激性关注机制对区块特征进行处理这一步骤,具体为:
基于SALICON数据集训练获得显著目标预测网络,根据显著目标预测网络获得刺激性关注机制网络;
将区块特征输入刺激性关注机制网络进行处理后,获得处理后的区块特征。
进一步,所述刺激性关注机制网络的公式表达式为:
其中,所述I′代表经过处理后的区块特征,所述Wv代表卷积核数量为2048,卷积核大小为1的卷积层,所述代表矩阵对应元素的乘法计算,所述Wssal代表利用显著目标预测网络的得到的卷积层,所述I代表输入的区块特征,所述∈代表一个超参。
进一步,还包括以下步骤:
在将目标特征、文本特征及处理后的区块特征分别输入transformer模块的编码器后,采用动态卷积重构transformer模块中的自关注机制,以减少模型参数量。
进一步,所述动态卷积的计算公式如下:
DynamicConv(x,i,c)=DepthwiseConv(X,softmax(f(Xi)h,:),i,c)
其中,所述DepthwiseConv()代表深度卷积的计算公式,所述X代表代表输入,f()为可训练的线性函数,所示i为输出特征图上的一个元素,所述c为输出的特征图通道。
本发明所采用的第二技术方案是:
一种图像描述生成系统,包括:
图片获取模块,用于获取图片信息;
图像描述模块,用于采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;
所述多种特征包括区块特征、目标特征和文本特征。
本发明所采用的第三技术方案是:
一种图像描述生成装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的第四技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明的图像描述模型在训练过程中,融合了区块特征、目标特征和文,基于多种特征进行融合,根据不同特征表示的语义层级不同,高语义层级的特征向量可以为底层的特征向量起到信息指导的作用,低语义层级的特征向量可以为高层级的特征向量起到信息,使得生成的句子描述更加准确,提高图像描述的效果。
附图说明
图1是实施例中一种图像描述生成方法的步骤流程图;
图2是实施例中图像描述模型的整个网络结构示意图;
图3是实施例中多模态融合结构示意图;
图4是实施例中一种图像描述生成系统的结构框图。
具体实施方式
如图1所示,本实施例提供了一种图像描述生成方法包括以下步骤:
S101、获取图片信息;
S102、采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;
所述多种特征包括区块特征、目标特征和文本特征。
为了避免图像中的细节信息丢失,本实施例采用并有效融合了不同模态的特征,具体包括区块特征、目标特征和文本特征,使得生成的句子结构更具多元化,描述的信息更加丰富,能够根据生成以不同内容为主题的句子,其中,所述区块特征为采用预设图像分类模型从图像提取的特征,所述目标特征为采用预设目标检测模型从图像提取的特征,文本特征为采用预设语义分类模型从图像提取的特征。本实施例的图像描述模型在训练过程中采用了多轨合作机制,基于多种特征进行融合,根据不同特征表示的语义层级不同,高语义层级的特征向量可以为底层的特征向量起到信息指导的作用,低语义层级的特征向量可以为高层级的特征向量起到信息,使得生成的句子描述更加准确,模型效果得到提升。
当前国内外关于图像描述领域对transformer的研究非常匮乏,使用transformer构造结合其他网络结构构造更加复杂的模型仍然存在很多空白区。本实施例中,参照图2和图3,采用transformer来构建图像描述模型,具体的步骤如下所示:
S1、采用预设网络提取图像数据集的区块特征、目标特征及文本特征;
其中,采用三个预设的网络来分别提取区块特征、目标特征及文本特征三种特征,以下具体对每个特征的提取方式进行详细说明。
提取区块特征的步骤为:采用第一预设神经网络提取图像数据集的区块特征,所述第一预设神经网络为深度残差网络。具体如步骤S1.1-S1.2:
S1.1:采用第一预设神经网络提取图像数据集的区块特征,所述第一预设神经网络为在ImageNet数据集上预训练过的深度残差网络(具体为ResNet-101结构),在提取图像特征时,不需要增加额外训练改变任何模型参数,直接将卷积神经网络的最后一层卷积层的输出作为区块特征;
S1.2:在提取区块特征时,针对不同尺寸的图片,可采用自适应空间均值池化层来获取统一尺寸的特征图(即区块特征),所述特征图可以为尺寸为2048*14*14的特征图;也可以为尺寸为512*14*14的特征图,通过缩小特征图的尺寸,可加快特征提取的运算速度。
提取目标特征的步骤为:采用第二预设神经网络提取图像数据集的目标特征,所述第二预设神经网络为用于目标检测的卷积神经网络。具体地如步骤S1.3:
S1.3:采用第二预设神经网络提取图像数据集的目标特征,所述第二预设神经网络为在MSCOCO数据集上预训练过的卷积神经网络(具体可采用Faster RCNN),将第二预设神经网络作为目标检测模型,用来提取图像上的局部目标特征。为了加强模型鲁棒性,可采用在每张图片上提取置信度最高的15个目标特征VO,目标特征维度为15*2048。
提取文本特征的步骤为:采用第三预设神经网络提取图像数据集的文本特征,所述第三预设神经网络为用于文本分类的卷积神经网络。具体地如步骤S1.4:
S1.4:采用第三预设神经网络提取图像数据集的文本特征,所述第三预设神经网络为卷积神经网络(具体可采用ResNet),使用三预设神经网络训练一个K=2000,即2000个分类的文本预测器,2000个分类是指在数据集中出现频率最高的2000个和视觉描述有关的词汇。每次输入图片生成的特征图,再输入嵌入层得到文本特征Vt,每次只取置信度最高的10个单词作为关注机制的输入,文本特征大小为10*2048。
S2、采用刺激性关注机制对区块特征进行处理后,将目标特征、文本特征及处理后的区块特征输入transformer模块。
所述刺激性关注机制为基于SALICON数据集训练获得显著目标预测网络,根据显著目标预测网络获得刺激性关注机制网络。通过上述步骤得到区块特征后,对区块特征做进一步的处理,具体步骤如下:为了建立刺激性关注机制,先在SALICON数据集上训练一个显著目标预测网络,所述显著目标预测网络主要由卷积层构成,卷积核大小均为1,第一层卷积核数量是2048,第二层的卷积核数量是1,显著目标预测网络的前向传播过程如公式(1)所示:
S=softmax(Wmδ(WsalI)) (1)
其中,Wsal为第一卷积层的权值、Wm为第二卷积层的权值,δ是激活函数,I是输入的特征图,S是显著目标权值图。网络训练完成后,保留第一层卷积层的参数Wsal,用于刺激性关注机制网络的初始化。
将区块特征输入第一个卷积核数量2048,卷积大小为1的额外卷积层Wv,获得第一个特征图;将区块特征输入利用利用显著目标预测网络的得到的Wsal层,得到的特征加上一个超参μ,并引入一个对数函数来减弱Wsal和Wv的共适应性,获得第二个特征图;最后,将上述得到的两个特征图进行矩阵相乘,刺激性关注机制用公式(2)表示:
其中,I是输入的特征图,I′经过刺激性关注机制处理过得特征图。经过刺激性关注机制后得到的区块特征表标记为Vp。
最后,将区块特征Vp、目标特征VO、和文本特征Vt输入transformer模块。
S3、采用动态卷积重构transformer模块中的自关注机制,以减少模型参数量,加快运算速度;
其中,步骤S3具体包括步骤S3.1-S3.3:
S3.1:Transfoemer由编码器和解码器两部分组成,分别将VO、Vp、Vt输入编码器,描述句子的嵌入层向量输入解码器,嵌入层的形状为17*2048(17是指将句子最大长度限制为17,大于此长度则选择截取前17个单词即可)。
S3.2:为了减少模型参数量,我们采用新的网络结构替代自关注模块,具体操作是将嵌入层特征输入一层全连接网络,将特征维度扩展为两倍,接着讲得到特征输入一个线性门单元GLU,线性门单元值指将特征一半的数值输入Sigmoid函数得到一个0到1之间的值,再将这个值乘以剩下的那一半的数值得到比原来特征更加精细化的特征;
S3.3:将特征输入动态卷积,动态卷积计算公式如下:
DynamicConv(x,i,c)=DepthwiseConv(X,softmax(f(Xi)h,:),i,c) (4)
其中,公式(3)是深度卷积的计算公式,k是卷积核的尺寸,i是输出特征图上的一个元素,c是输出的特征图通道。公式(4)是动态卷积的计算公式,其中f是一个可训练的线性模块。
S4、采用多模融合映射模块对输入transformer模块的特征进行特征融合,获得融合特征;
其中,步骤S4具体包括步骤S4.1-S4.5:
S4.1:将在步骤S1中获得的3种特征分别输入3个transformer编码器,得到的三种特征记为文本特征At,目标特征Ao,区块特征Ap,接着通过不同模态的特征融合使得视觉特征信息质量更高,特征融合采用多模融合映射模块;
S4.2:对于文本特征,为了将另外两种特征(即区块特征和目标特征)中信息作为引导信息融合入文本特征,首先将区块特征和目标特征中的所有特征向量取均值,再将得到特征进行复制,使它的尺寸和文本特征相同,如用公式(5)表示:
S4.3:将获得的特征和文本特征融合时可以采取不同的方式,比如相乘或者相加;
S4.4:同样的,如果需要将将另外两种特征分别融合入区块特征或目标特征,采取S4.2、S4.3的操作即可;
S4.5:将最后得到的融合特征输入transformer解码器。
S5、结合融合特征和预设的损失函数对网络进行训练,并在训练完成后,获得图像描述模型。
在本实施例中,选用交叉熵函数作为训练时的损失函数,通过最小化交叉熵函数的数值进行训练网络,交叉熵函数用公式(6)所示:
其中,Yt表示ground-truth的单词,θ0:i表示相对于不同解码器的参数,把所有的损失函数加在一起时,公式表示如下:
最后训练完成后,获得图像描述模型,将需要进行图像描述的图片输入该图像描述模型中,即可得到对应的描述信息。
在本实施例中,由于有效融合了不同模态的特征,使得生成的句子结构更具多元化,描述的信息更加丰富,能够根据生成以不同内容为主题的句子。由于采用了多轨合作机制,根据不同特征表示的语义层级不同,高语义层级的特征向量可以为底层的特征向量起到信息指导的作用,低语义层级的特征向量可以为高层级的特征向量起到信息,使得生成的句子描述更加准确,模型效果得到提升。在transformer本身自关注机制的基础上引入了其他关注机制,使得模型能够根据图像中某个较大较明显主体生成句子的同时关注的周围其他细小主体。通过使用动态卷积重构自关注机制,减少模型参数量,加快运算速度。
如图4所示,本实施例还提供了一种图像描述生成系统,包括:
图片获取模块,用于获取图片信息;
图像描述模块,用于采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;
所述多种特征包括区块特征、目标特征和文本特征。
本实施例的一种图像描述生成系统,可执行本发明方法实施例所提供的一种图像描述生成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供了一种图像描述生成装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本实施例的一种图像描述生成装置,可执行本发明方法实施例所提供的一种图像描述生成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述方法。
本实施例的一种存储介质,可执行本发明方法实施例所提供的一种图像描述生成方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (6)
1.一种图像描述生成方法,其特征在于,包括以下步骤:
获取图片信息;
采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;
所述多种特征包括区块特征、目标特征和文本特征;
还包括建立图像描述模型的步骤,具体包括以下步骤:
采用预设网络提取图像数据集的区块特征、目标特征及文本特征;
采用刺激性关注机制对区块特征进行处理后,将目标特征、文本特征及处理后的区块特征输入transformer模块;
采用多模融合映射模块对输入transformer模块的特征进行特征融合,获得融合特征;
结合融合特征和预设的损失函数对网络进行训练,并在训练完成后,获得图像描述模型;
所述采用预设网络提取图像数据集的区块特征、目标特征及文本特征这一步骤,具体包括以下步骤:
采用第一预设神经网络提取图像数据集的区块特征,所述第一预设神经网络为深度残差网络;
采用第二预设神经网络提取图像数据集的目标特征,所述第二预设神经网络为用于目标检测的卷积神经网络;
采用第三预设神经网络提取图像数据集的文本特征,所述第三预设神经网络为用于文本分类的卷积神经网络;
所述采用刺激性关注机制对区块特征进行处理这一步骤,具体为:
基于SALICON数据集训练获得显著目标预测网络,根据显著目标预测网络获得刺激性关注机制网络;
将区块特征输入刺激性关注机制网络进行处理后,获得处理后的区块特征;
所述刺激性关注机制网络的公式表达式为:
2.根据权利要求1所述的一种图像描述生成方法,其特征在于,还包括以下步骤:
在将目标特征、文本特征及处理后的区块特征分别输入transformer模块的编码器后,采用动态卷积重构transformer模块中的自关注机制,以减少模型参数量。
3.根据权利要求2所述的一种图像描述生成方法,其特征在于,所述动态卷积的计算公式如下:
DynamicConv(x,i,c)=DepthwiseConv(X,softmax(f(Xi)h),i,c)
其中,所述DepthwiseConv()代表深度卷积的计算公式,所述X代表输入,f()为可训练的线性函数,所示i为输出特征图上的一个元素,所述c为输出的特征图通道。
4.一种图像描述生成系统,其特征在于,包括:
图片获取模块,用于获取图片信息;
图像描述模块,用于采用基于融合多种特征的图像描述模型对图片信息进行处理后,获得描述信息;
所述多种特征包括区块特征、目标特征和文本特征;
还包括建立图像描述模型的步骤,具体包括以下步骤:
采用预设网络提取图像数据集的区块特征、目标特征及文本特征;
采用刺激性关注机制对区块特征进行处理后,将目标特征、文本特征及处理后的区块特征输入transformer模块;
采用多模融合映射模块对输入transformer模块的特征进行特征融合,获得融合特征;
结合融合特征和预设的损失函数对网络进行训练,并在训练完成后,获得图像描述模型;
所述采用预设网络提取图像数据集的区块特征、目标特征及文本特征这一步骤,具体包括以下步骤:
采用第一预设神经网络提取图像数据集的区块特征,所述第一预设神经网络为深度残差网络;
采用第二预设神经网络提取图像数据集的目标特征,所述第二预设神经网络为用于目标检测的卷积神经网络;
采用第三预设神经网络提取图像数据集的文本特征,所述第三预设神经网络为用于文本分类的卷积神经网络;
所述采用刺激性关注机制对区块特征进行处理这一步骤,具体为:
基于SALICON数据集训练获得显著目标预测网络,根据显著目标预测网络获得刺激性关注机制网络;
将区块特征输入刺激性关注机制网络进行处理后,获得处理后的区块特征;
所述刺激性关注机制网络的公式表达式为:
其中,所述I′代表经过处理后的区块特征,所述Wv代表卷积核数量为2048,卷积核大小为1的卷积层,所述°代表矩阵对应元素的乘法计算,所述Wsal代表利用显著目标预测网络的得到的卷积层,所述I代表输入的区块特征,所述∈代表一个超参。
5.一种图像描述生成装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-3任一项所述的一种图像描述生成方法。
6.一种存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-3任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010090659.6A CN111368118B (zh) | 2020-02-13 | 2020-02-13 | 一种图像描述生成方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010090659.6A CN111368118B (zh) | 2020-02-13 | 2020-02-13 | 一种图像描述生成方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368118A CN111368118A (zh) | 2020-07-03 |
CN111368118B true CN111368118B (zh) | 2023-04-18 |
Family
ID=71206236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010090659.6A Active CN111368118B (zh) | 2020-02-13 | 2020-02-13 | 一种图像描述生成方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368118B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016573B (zh) * | 2020-10-16 | 2021-04-30 | 北京世纪好未来教育科技有限公司 | 弹幕生成方法、装置、电子设备及计算机存储介质 |
CN112801234B (zh) * | 2021-04-12 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于神经网络的图像诗句描述生成方法、装置和设备 |
CN113298151A (zh) * | 2021-05-26 | 2021-08-24 | 中国电子科技集团公司第五十四研究所 | 一种基于多级特征融合的遥感图像语义描述方法 |
CN113591770B (zh) * | 2021-08-10 | 2023-07-18 | 中国科学院深圳先进技术研究院 | 基于人工智能导盲的多模态融合障碍物检测方法及装置 |
CN114387430A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN114627353B (zh) * | 2022-03-21 | 2023-12-12 | 北京有竹居网络技术有限公司 | 一种图像描述生成方法、装置、设备、介质及产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
-
2020
- 2020-02-13 CN CN202010090659.6A patent/CN111368118B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844442A (zh) * | 2016-12-16 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 基于fcn特征提取的多模态循环神经网络图像描述方法 |
CN106845499A (zh) * | 2017-01-19 | 2017-06-13 | 清华大学 | 一种基于自然语言语义的图像目标检测方法 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN110188779A (zh) * | 2019-06-03 | 2019-08-30 | 中国矿业大学 | 一种图像语义描述的生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111368118A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368118B (zh) | 一种图像描述生成方法、系统、装置和存储介质 | |
Parmar et al. | Zero-shot image-to-image translation | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN110134968B (zh) | 基于深度学习的诗歌生成方法、装置、设备及存储介质 | |
CN110147806B (zh) | 图像描述模型的训练方法、装置及存储介质 | |
CN113343705B (zh) | 一种基于文本语义的细节保持图像生成方法及系统 | |
CN113569892A (zh) | 图像描述信息生成方法、装置、计算机设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN116910572B (zh) | 基于预训练语言模型的三维内容生成模型训练方法及装置 | |
CN111949824A (zh) | 基于语义对齐的视觉问答方法和系统、存储介质 | |
CN114610851A (zh) | 意图识别模型的训练方法、意图识别方法、设备及介质 | |
CN116206314A (zh) | 模型训练方法、公式识别方法、装置、介质及设备 | |
CN115359314A (zh) | 模型训练方法、图像编辑方法、装置、介质与电子设备 | |
CN117252957A (zh) | 根据文字描述生成带精确文字图片的方法、装置及存储介质 | |
CN116167362A (zh) | 模型训练方法、中文文本纠错方法、电子设备和存储介质 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
CN111368531B (zh) | 翻译文本处理方法、装置、计算机设备和存储介质 | |
CN117197268A (zh) | 图像生成方法、装置及存储介质 | |
CN117094365A (zh) | 图文生成模型的训练方法、装置、电子设备及介质 | |
CN112528989A (zh) | 一种图像语义细粒度的描述生成方法 | |
CN116306906A (zh) | 一种翻译模型训练方法、语音翻译方法及相关设备 | |
CN115204366A (zh) | 模型生成方法、装置、计算机设备和存储介质 | |
CN113554549A (zh) | 文本图像的生成方法、装置、计算机设备和存储介质 | |
CN112509559A (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 | |
CN114792388A (zh) | 图像描述文字生成方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |