CN108073941A - 一种基于深度学习的图像语义生成方法 - Google Patents

一种基于深度学习的图像语义生成方法 Download PDF

Info

Publication number
CN108073941A
CN108073941A CN201611035273.5A CN201611035273A CN108073941A CN 108073941 A CN108073941 A CN 108073941A CN 201611035273 A CN201611035273 A CN 201611035273A CN 108073941 A CN108073941 A CN 108073941A
Authority
CN
China
Prior art keywords
image
convolutional neural
neural network
training
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611035273.5A
Other languages
English (en)
Inventor
张威
周治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201611035273.5A priority Critical patent/CN108073941A/zh
Publication of CN108073941A publication Critical patent/CN108073941A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的图像语义生成方法,该方法包括以下步骤:第一,通过图像整体语义生成要求,构建结合卷积神经网络和长段时间记忆网络的模型结构;第二,将人工标注好的图像输入到预训练好的卷积神经网络;第三,将人工标注的图像语义描述与卷积神经网络提取到的图像特征输入到长段时间记忆网络中;第四,根据生成的图像语义描述与人工标注信息进行计算其损失函数;第五,根据损失函数,反向传播优化卷积神经网络和长段时间记忆网络各个参数。本发明应用卷积神经网络技术和长短时间记忆网络生成图像语义描述。

Description

一种基于深度学习的图像语义生成方法
技术领域
本发明涉及一种图像语义生成方法,尤其涉及基于深度学习的图像语义生成方法,属于图像处理技术领域。
背景技术
近年来,随着图像数量的剧增,人们迫切地需要实现图像内容的高效标注,以实现大规模图像的有效检索与管理。从模式识别的角度来看,将图像标注问题视为根据内容给图像分配一组标签,其中如何选取表征图像内容的合适特征,将在很大程度上影响标注性能。由于众所周知的语义鸿沟问题,现有技术进行图像语义标注时很难达到令人满意的结果。近年来,等人提出利用深度神经网络,从训练集中有效地训练特征。不同类型的深度神经网络,已成功应用于各种语言及信息检索。这些方法通过深度结构、深度学习从训练数据中发现隐藏的数据结构及有效的表征特征,提高了系统性能。
现有的图像语义标注方法主要有以下两种实现方式。第一种是由计算机在整幅图像上提取特征,并对图像进行分类识别,也即,将整幅图像作为分类器的输入。然而,很多近似类别的图像的整体相似度很高,例如,不同型号的三厢轿车的图像可能只在若干细节上有区别,而从整幅图像上提取的特征往往不足以准确对这种细粒度的图像分类进行区分,语义标注效果差。
第二种则是由人工确定图像的显著性区域,这些显著性区域可以体现不同的细粒度图像之间的差别,例如,不同品牌的车型的车标,不同品种的猫的眼睛。而后,再对这些显著性区域提取特征,进行细粒度的图像语义标注。但是,由于图像数据库中的像的数量巨大,要为每幅图像人工确定其显著性区域,显然会消耗极大的人力资源,限制了这种解决方案的可行性。
更重要的是,以上两种方法都只能对于图像中具体目标进行标注,无法描述图像中各个目标之间存在的语义关联,也就是说,以上方法只能指明图中存在什么物体,但是无法“理解”图中物体之间正在“做什么”。因此,只有解决这一问题,才能使图像语义的自动理解更进一步发展。
发明内容
本发明的目的在于提出一种基于深度学习的图像语义生成方法,该方法首先使用了卷积神经网络CNN提取图像高层语义特征,有效避免了使用底层图像特征表达图像含义时产生的“语义鸿沟”问题。然后将提取的图像高层特征输入到训练好的长短时间记忆LSTM网络中生成图像的描述语句。该方法可以生成图像内容的描述性语句,远远优于传统的只能对图像中目标进行单独标注的方法。
本发明采取的技术方案为:一种基于深度学习的图像语义生成方法,该方法主要包括以下步骤:
步骤1:通过图像整体语义生成要求,构建结合卷积神经网络和长段时间记忆网络的模型结构;
步骤2:通过训练数据,根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法对所述预训练好卷积神经网络进行训练得到卷积神经网络模型;
步骤3:利用卷积神经网络提取的图像的高层特征与标注好的语义信息,根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法对长短时间记忆网络进行训练得到长短时间记忆网络模型,使用长短时间记忆网络对图像内容进行预测输出;
步骤4:根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型。
在本发明步骤2所述的深度神经网络中,为了避免网络在训练过程中陷入“过度拟合”的问题,本发明采取了一个预先训练的卷积神经网络。预训练卷积神经网络分别由输入层,卷积层,池化层、全连接层和输出层构成,并且使用前向传导、反向传播和梯度下降优化算法进行模型的优化。
在上述的前向传导过程中,主要是数据由输入层到最终的输出层的处理过程。所述的输入层与卷积层的计算方法如下:假设第l层为输入层(也可以为上一次的卷积层或者池化层),第l+1层为卷积层,则输入层与卷积层之间的计算公式为:
其中表示上一层的输入数据,为卷积层数据,Q为输入层数据集合,表示输入层与卷积层之间的权重矩阵,为预设偏置项,*为卷积操作,f为激活函数,在本发明中,激活函数设置为ReLu函数。
卷积层和池化层之间的计算过程如下:
其中表示卷积层数据,表示池化层数据,为乘积因子,down(·)表示下采样函数,本发明中采用平均值池化方法;
所述的全连接层将卷积神经网络的最后一个池化层数据拼接成一个一维数据向量;输出层将全连接层数据进行激活函数处理得到训练数据的输出概率;
上述的反向传播的具体实施方法如下:
首先,构造卷积神经网络的整体代价函数,采用平方误差代价函数表示,则有:
其中,c表示训练样本的个数,表示第n个样本的第k个输出;
对所述输出层的每个单元i计算其输出残差:
其中,为输出层l中节点i对应的残差,为该节点对应的输入加权和;以此类推,针对l层之前的每个层,其节点的残差的计算方法为:
分别对权重矩阵和偏置项计算偏导:
其中,为权重矩阵的偏导,为偏置项的偏导。
上述的梯度下降优化的具体实施方法如下:
其中,为更新后的权重矩阵,为更新后的偏置项,α为模型的学习比例。
本发明步骤3中所提LSTM网络结构如图1所示。本发明使用长短时间记忆网络预测模型读到图像时生成的语义的单词,我们使用多个LSTM网络串行结构对单词进行预测。在训练过程中,前一个LSTM网络的预测输出与真实语义信息一起输入到下一个LSTM网络的输入。
LSTM网络模型的核心在于记忆单元c将当前时刻的输入信息与之前时刻的信息联系起来 决定当前时刻的输出单词,LSTM结构中主要存在四种门结构,分别为遗忘门ft,记忆门ct,输入门it和输出门ot。遗忘门决定是否要丢弃当前时刻的记忆门中的信息,输入门决定是否读入当前时刻的输入信息,输出门决定是都要输出当前时刻记忆门中的信息。四种门的定义和更新方法如下:
it=σ(Wixxt+Wimmt-1) (10)
ft=σ(Wfxxt+Wfmmt-1) (11)
ot=σ(Woxxt+Wommt-1) (12)
ct=ft⊙ct-1+it⊙h(Wcxxt+Wcmmt-1) (13)
mt=ot⊙ct (14)
pt+1=Softmax(mt) (15)
其中⊙表示卷积操作,W表示参数矩阵。
本发明步骤4中所提的完整的基于深度学习的图像语义生成模型如图2所示。所述模型中,使用最小化损失函数确定卷积神经网络提取的图像特征对应的正确描述,损失函数定义如下:
Ld=-logp(S|I;θ) (16)
那么,最小化损失函数公式为:
θ是模型参数,I表示图像,S表示图像对应的语义描述。
上述中:
在训练阶段,(S|I)是作为训练数据对同时输入。
通过以上步骤,本发明实现了一种利用卷积神经网络和长短时间记忆网络模型来产生图像语义描述的方法。
本发明具有以下优点:
1、本发明所提供的基于深度学习的图像语义生成方法能够对图像中的各个目标进行语义关联,能够给出图像内容的完整描述,这是之前方法无法实现的功能。
2、本发明在使用卷积神经网络提取图像高层语义特征阶段使用预训练好的卷积神经网络以避免网络陷入“过拟合”问题。
3、本发明采用先分离再联合的训练方法,可以有效提高模型的性能。
附图说明
图1为本发明所用长短时间记忆网络
图2为本发明所构建基于深度学习的图像语义生成模型
图3为本发明图像语义生成流程图
具体实施方案
为解决当前图像标注方法只能针对单个目标进行标注,无法将图像中各概念主题联系的问题,本发明提供了一种基于深度学习的图像语义生成方法。
下面结合说明书附图对本发明作进一步详细说明。
步骤1:由于在训练数据集中,需要人工对图像语义内容进行描述,此项工作需要花费大量的人力和精力,因此,在模型训练时不可能会有足够多的训练样本。但是,如果训练数据不足,会使神经网络产生“过拟合”问题。为了解决这个问题,我们使用一种预训练好的卷积神经网络模型。
预训练好的卷积神经网络模型是使用现有的图片数量比较大的样本库图片进行卷积神经网络进行训练,这些样本库包括但不限于在图片分类、人脸识别等常用样本库,使用这些样本库中图片作为训练数据,训练数据经过卷积、池化、全连接和输出等过程,完成一次前向传导,其中卷积和池化相当于对图像进行特征提取,而全连接和输出相当于分类器对特征进行分类;反向传导以训练误差最小的原则迭代地计算误差函数相对于权重矩阵和偏置项的偏导;同时,梯度下降利用所述偏导进行权重矩阵和偏置项的更新,使得整体误差越来越小,最终获得训练好的各层之间的权重矩阵和偏置项,即卷积神经网络模型。经由这些步骤得到预训练好的卷积神经网络。
步骤2:通过预训练卷积神经网络提取图像的高层特征和人工标注好的图像语义信息对长短时间记忆网络进行训练。
此步骤中,所用训练图像为有人工标注图像语义的图片。利用预训练好的卷积神经网络提取训练图像的高层语义特征,将特征输入到长短时间记忆网络中,此处值得注意的是,该特征只在每次迭代训练的初始阶段输入到长短时间记忆网络中。如图2中长短时间记忆网络预测部分显示,接下来每次将前一LSTM网络的预测输出与正确的图像语义信息一起输入到下一个LSTM网络中。经过多次迭代训练,得到训练好的长短时间记忆网络。
步骤3:根据设定的结果损失函数,利用前向传导、反向传播和梯度下降优化算法训练数 据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型。
将训练好的卷积神经网络和长短时间记忆网络进行联合训练。将训练图片输入到卷积神经网络,同时,长短时间记忆网络读取该图片的语义信息进行联合训练,得到该图像的语义输出,根据语义输出与标准语义信息之间的差值进行反向传导对整个网络进行优化。经过多次迭代,达到设定精度要求。
在训练模型时,使用卷积神经网络提取的图像的高层语义特征作为第一个长短时间记忆网络的输入,如图2所示,其中
x-1=CNN(I) (19)
xt=WeSt,t∈{0...N-1} (20)
pt+1=LSTM(xt),t∈{0...N-1} (21)
经过训练后的基于深度学习的图像语义生成方法能够实现较好的理解图像的内容。

Claims (4)

1.一种基于深度学习的图像语义生成方法;其特征在于,所述的方法基于深度学习的图像语义生成主要包含如下步骤:
步骤1:通过图像整体语义生成要求,构建一种结合卷积神经网络和长段时间记忆网络的模型结构;
步骤2:为解决“过拟合”问题,使用其他数据预训练卷积神经网络,得到预训练好的卷积神经网络,通过训练数据对所述预训练好卷积神经网络进行训练得到卷积神经网络模型;
步骤3:通过卷积神经网络提取的图像高层特征和正确的语义信息对长短时间记忆网络进行训练得到长短时间记忆网络模型,然后通过训练数据对卷积神经网络和长短时间记忆网络进行联合训练得到最终的图像语义产生模型;
步骤4:将图像输入到得到的模型中,生成图像内容的语义描述。
2.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:在步骤1中所使用结合卷积神经网络和长段时间记忆网络的模型结构,为了能够完整提取图像内容语义,设计一种结合卷积神经网络和长短时间记忆网络的图像语义生成模型;使用卷积神经网络提取图像的高层语义特征,可以有效避免“语义鸿沟”问题,卷积神经网络提取的特征只在第一次输入到长短时间记忆网络中,有:
x-1=CNN(I)
其中CNN()表示提取卷积神经网络特征;
长短时间记忆网络根据提取的图像特征和正确的语义信息进行预测图像对应特征生成的对应单词,有:
pt+1=LSTM(xt),t∈{0...N-1}
其中,LSTM()表示对输入xt进行长短时间记忆网络运算,N为输入单词个数;
整体网络根据最小化损失函数来确定模型最后的语义输出,损失函数定义如下:
Ld=-log p(S|I;θ)
那么,最小化损失函数公式为:
θ是模型参数,I表示图像,S表示图像对应的语义描述。
3.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:在步骤2中使用预训练好的卷积神经网络替代原始卷积神经网络;训练数据过少会导致深度神经网络训练过程中出现的“过拟合”,使用预训练的卷及神经网络避免过拟合问题;在将卷积神经网络应用于图像语义生成之前,使用其他样本数目较多的数据库对卷积神经网络进行训练,训练完成后再使用图像语义生成所用图像库对预训练好的卷积神经网络进行训练,得到卷积神经网络模型。
4.根据权利要求1所述的一种基于深度学习的图像语义生成方法,其特征在于:步骤2,步骤3中联合构成的先单独训练再联合训练模型的方法;首先对卷积神经网络进行训练,得到训练好的卷积神经网络模型,然后使用该模型提取图像的高层特征与训练使用语义信息对长短时间记忆网络进行训练,得到训练好的长短时间记忆模型,在长短时间记忆网络训练过程中,卷积神经网络参数保持不变;最后对卷积神经网络和长短时间记忆网络联合训练,训练过程中,卷积神经网络参数和长短时间记忆网络参数均会进行优化。
CN201611035273.5A 2016-11-17 2016-11-17 一种基于深度学习的图像语义生成方法 Pending CN108073941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611035273.5A CN108073941A (zh) 2016-11-17 2016-11-17 一种基于深度学习的图像语义生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611035273.5A CN108073941A (zh) 2016-11-17 2016-11-17 一种基于深度学习的图像语义生成方法

Publications (1)

Publication Number Publication Date
CN108073941A true CN108073941A (zh) 2018-05-25

Family

ID=62161633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611035273.5A Pending CN108073941A (zh) 2016-11-17 2016-11-17 一种基于深度学习的图像语义生成方法

Country Status (1)

Country Link
CN (1) CN108073941A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960330A (zh) * 2018-07-09 2018-12-07 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN109035761A (zh) * 2018-06-25 2018-12-18 复旦大学 基于辅助监督学习的行程时间估计方法
CN109063772A (zh) * 2018-08-02 2018-12-21 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109410496A (zh) * 2018-10-25 2019-03-01 北京交通大学 入侵预警方法、装置及电子设备
CN109474352A (zh) * 2018-12-24 2019-03-15 哈尔滨工程大学 一种基于深度学习的水声正交频分复用通信方法
CN109492669A (zh) * 2018-10-15 2019-03-19 北京市商汤科技开发有限公司 图像描述方法及装置、电子设备和存储介质
CN109636049A (zh) * 2018-12-19 2019-04-16 浙江工业大学 一种结合道路网络拓扑结构与语义关联的拥堵指数预测方法
CN109978139A (zh) * 2019-03-20 2019-07-05 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110929099A (zh) * 2019-11-28 2020-03-27 杭州趣维科技有限公司 一种基于多任务学习的短视频帧语义提取方法及系统
CN111063410A (zh) * 2019-12-20 2020-04-24 京东方科技集团股份有限公司 一种医学影像文本报告的生成方法及装置
CN111080551A (zh) * 2019-12-13 2020-04-28 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN111488979A (zh) * 2019-01-28 2020-08-04 斯特拉德视觉公司 设备上持续学习用于分析输入数据的神经网络的方法及装置
CN111553371A (zh) * 2020-04-17 2020-08-18 中国矿业大学 一种基于多特征提取的图像语义描述方法及系统
CN111858349A (zh) * 2020-07-23 2020-10-30 深圳慕智科技有限公司 一种基于图像语义切割合并的语义扩增方法
CN113767420A (zh) * 2019-04-24 2021-12-07 富士胶片株式会社 学习方法及装置、程序、学习完毕模型以及文本生成装置
CN113890795A (zh) * 2021-09-09 2022-01-04 广州杰赛科技股份有限公司 大规模mimo信道估计模型的构建方法、装置及介质
CN117495147A (zh) * 2023-12-22 2024-02-02 中国石油大学(华东) 一种考虑段间压裂工艺差异的裂缝网络扩展智能预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096568A (zh) * 2016-06-21 2016-11-09 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096568A (zh) * 2016-06-21 2016-11-09 同济大学 一种基于cnn和卷积lstm网络的行人再识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ORIOL VINYALS等: "Show and Tell: A Neural Image Caption Generator", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
R. KIROS等: "Unifying visual-semantic embeddings with multimodal neural language models", 《ARXIV:ORG/PDF/1411.2539.PDF》 *
汤鹏杰等: "基于GoogLeNet多阶段连带优化的图像描述", 《井冈山大学学报(自然科学版)》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109035761A (zh) * 2018-06-25 2018-12-18 复旦大学 基于辅助监督学习的行程时间估计方法
CN108960330A (zh) * 2018-07-09 2018-12-07 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN109145946A (zh) * 2018-07-09 2019-01-04 暨南大学 一种智能图像识别和描述方法
CN109145946B (zh) * 2018-07-09 2022-02-11 暨南大学 一种智能图像识别和描述方法
CN108960330B (zh) * 2018-07-09 2021-09-10 西安电子科技大学 基于快速区域卷积神经网络的遥感图像语义生成方法
CN109063772A (zh) * 2018-08-02 2018-12-21 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109063772B (zh) * 2018-08-02 2022-05-10 广东工业大学 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN109492669A (zh) * 2018-10-15 2019-03-19 北京市商汤科技开发有限公司 图像描述方法及装置、电子设备和存储介质
CN109492669B (zh) * 2018-10-15 2020-10-20 北京市商汤科技开发有限公司 图像描述方法及装置、电子设备和存储介质
CN109410496A (zh) * 2018-10-25 2019-03-01 北京交通大学 入侵预警方法、装置及电子设备
CN109636049A (zh) * 2018-12-19 2019-04-16 浙江工业大学 一种结合道路网络拓扑结构与语义关联的拥堵指数预测方法
CN109636049B (zh) * 2018-12-19 2021-10-29 浙江工业大学 一种结合道路网络拓扑结构与语义关联的拥堵指数预测方法
CN109474352B (zh) * 2018-12-24 2021-07-06 三亚哈尔滨工程大学南海创新发展基地 一种基于深度学习的水声正交频分复用通信方法
CN109474352A (zh) * 2018-12-24 2019-03-15 哈尔滨工程大学 一种基于深度学习的水声正交频分复用通信方法
CN111488979B (zh) * 2019-01-28 2023-11-07 斯特拉德视觉公司 设备上持续学习用于分析输入数据的神经网络的方法及装置
CN111488979A (zh) * 2019-01-28 2020-08-04 斯特拉德视觉公司 设备上持续学习用于分析输入数据的神经网络的方法及装置
CN109978139B (zh) * 2019-03-20 2021-06-04 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN109978139A (zh) * 2019-03-20 2019-07-05 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN113767420A (zh) * 2019-04-24 2021-12-07 富士胶片株式会社 学习方法及装置、程序、学习完毕模型以及文本生成装置
CN110188819A (zh) * 2019-05-29 2019-08-30 电子科技大学 一种基于信息增益的cnn和lstm图像高层语义理解方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110929099A (zh) * 2019-11-28 2020-03-27 杭州趣维科技有限公司 一种基于多任务学习的短视频帧语义提取方法及系统
CN110929099B (zh) * 2019-11-28 2023-07-21 杭州小影创新科技股份有限公司 一种基于多任务学习的短视频帧语义提取方法及系统
CN111080551A (zh) * 2019-12-13 2020-04-28 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111080551B (zh) * 2019-12-13 2023-05-05 太原科技大学 基于深度卷积特征和语义近邻的多标签图像补全方法
CN111063410B (zh) * 2019-12-20 2024-01-09 京东方科技集团股份有限公司 一种医学影像文本报告的生成方法及装置
CN111063410A (zh) * 2019-12-20 2020-04-24 京东方科技集团股份有限公司 一种医学影像文本报告的生成方法及装置
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN111275780B (zh) * 2020-01-09 2023-10-17 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN111553371A (zh) * 2020-04-17 2020-08-18 中国矿业大学 一种基于多特征提取的图像语义描述方法及系统
CN111858349A (zh) * 2020-07-23 2020-10-30 深圳慕智科技有限公司 一种基于图像语义切割合并的语义扩增方法
CN113890795B (zh) * 2021-09-09 2023-06-23 广州杰赛科技股份有限公司 大规模mimo信道估计模型的构建方法、装置及介质
CN113890795A (zh) * 2021-09-09 2022-01-04 广州杰赛科技股份有限公司 大规模mimo信道估计模型的构建方法、装置及介质
CN117495147A (zh) * 2023-12-22 2024-02-02 中国石油大学(华东) 一种考虑段间压裂工艺差异的裂缝网络扩展智能预测方法
CN117495147B (zh) * 2023-12-22 2024-03-22 中国石油大学(华东) 一种考虑段间压裂工艺差异的裂缝网络扩展智能预测方法

Similar Documents

Publication Publication Date Title
CN108073941A (zh) 一种基于深度学习的图像语义生成方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN108829677B (zh) 一种基于多模态注意力的图像标题自动生成方法
CN106845411B (zh) 一种基于深度学习和概率图模型的视频描述生成方法
CN114241282A (zh) 一种基于知识蒸馏的边缘设备场景识别方法及装置
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
Zhang et al. A survey on machine learning techniques for auto labeling of video, audio, and text data
CN111125406A (zh) 一种基于自适应聚类学习的视觉关系检测方法
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN115131613B (zh) 一种基于多向知识迁移的小样本图像分类方法
Bilkhu et al. Attention is all you need for videos: Self-attention based video summarization using universal transformers
CN113626589A (zh) 一种基于混合注意力机制的多标签文本分类方法
US11948078B2 (en) Joint representation learning from images and text
CN111639186A (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111508000A (zh) 基于参数空间噪声网络的深度强化学习目标跟踪方法
CN114925205B (zh) 基于对比学习的gcn-gru文本分类方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
CN117152851B (zh) 基于大模型预训练的人脸、人体协同聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180525