CN107844743A - 一种基于多尺度分层残差网络的图像多字幕自动生成方法 - Google Patents

一种基于多尺度分层残差网络的图像多字幕自动生成方法 Download PDF

Info

Publication number
CN107844743A
CN107844743A CN201710896059.7A CN201710896059A CN107844743A CN 107844743 A CN107844743 A CN 107844743A CN 201710896059 A CN201710896059 A CN 201710896059A CN 107844743 A CN107844743 A CN 107844743A
Authority
CN
China
Prior art keywords
subtitle
residual error
conv
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710896059.7A
Other languages
English (en)
Other versions
CN107844743B (zh
Inventor
田彦
王勋
黄刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201710896059.7A priority Critical patent/CN107844743B/zh
Publication of CN107844743A publication Critical patent/CN107844743A/zh
Application granted granted Critical
Publication of CN107844743B publication Critical patent/CN107844743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度分层残差网络的图像多字幕自动生成方法,该方法应用了改进的漏斗网络捕捉多尺度目标信息。首先在构建漏斗框架网络时提出了一种密集连接聚合残差块,为了解决梯度消失和梯度爆炸问题,进一步提出了残差LSTM。该方法取得了较高的实验性能,在多字幕获取任务上有明显优势。

Description

一种基于多尺度分层残差网络的图像多字幕自动生成方法
技术领域
本发明涉及多字幕获取技术,具体涉及一种基于多尺度分层残差网络的图像多字幕自动生成方法。
背景技术
多字幕获取就是获得一幅图像中非固定数量的类别目标描述语。这项工作是很多重要应用的基础服务,例如语义图像搜索、聊天机器人的视觉智能、社交媒体分享的图像和视频、帮助人们感知周围世界等等。
目前的研究结合了卷积神经网络和循环神经网络从图像特征图上预测字幕。但是在完善性能上遇到了一些瓶颈:1)目标检测在计算机视觉上仍然是开放性的问题;2)从图像特征空间到描述空间是一个非线性的多模态的映射;3)更深的网络更容易学习这种非线性映射关系,但是更深的网络容易引起梯度消失或者梯度爆炸问题。
最近残差学习网络及其扩展网络在非线性和多模型分类问题上表现突出,主要是因为它通过残差层解决了梯度消失的问题,进而利用加深的网络提升了准确度。尽管残差学习网络在分类任务中进行了很多的探索,但是其在多字幕获取这样的序列预测任务上仍存在限制。
目前的多字幕获取方法大致可以分为几类:
基于检索的方法:基于检索的方法利用卷积神经网络提取目标特征,然后评估图像特征和对应的描述词来预测图像字幕。
基于序列的方法:基于序列的方法通过卷积神经网络和循环神经网络推导出对时间序列的描述。
基于检测的方法:虽然基于序列的方法在字幕获取任务上实现了很高的准确度,但是它往往容易忽略图像上的细节,因此提出了基于检测的方法来解决这类问题。首先通过基于卷积神经网络的检测器获得图像上存在的目标,然后集合语言模型给出合适的描述语。
发明内容
本发明提供了一种基于多尺度分层残差网络的图像多字幕自动生成方法,该方法能够有效提高字幕获取的准确率。
本发明实施方式提供了一种基于多尺度分层残差网络的图像多字幕自动生成方法,包括以下步骤:
(1)设计多字幕生成模型:所述多字幕生成模型包括用于图像特征图提取与目标检测的卷积神经网络检测模型、用于字幕预测的循环神经网络预测模型复合而成;
在所述卷积神经网络检测模型中,将卷积神经网络中的残差块修改为密集连接聚合残差块;
在所述循环神经网络预测模型中,将循环神经网络的相邻两层之间提供一个梯度传播捷径;
所述多字幕生成模型的损失函数L定义为:
L=Ldet+αLbbox+βLcap
其中,Ldet、Lbbox和Lcap分别为检测损失、边框定位损失、标题预测损失,α和β是影响因子;
(2)生成多字幕:利用合格的训练样本对所述多字幕生成模型进行训练,得到训练好的多字幕生成模型,测试时候给定待获取字幕图像,将训练好的多字幕生成模型执行前向传递,得到多字幕生成结果。
在卷积神经网络检测模型中,根据提取的特征图得到目标框和目标类别,然后在循环神经网络预测模型中根据目标框和目标类别得到字幕。
作为优选,所述密集连接聚合残差块为:
将卷积神经网络的残差块中的依次连接的3层基础卷积层Conv1、Conv2、Conv3分别划分成n个并行的小基础卷积层Conv1 i、Conv2 i、Conv3 i,并以序号相同的小基础卷积层Conv1 i、Conv2 i、Conv3 i依次连接形成残差小块,n个残差小块并联融合成聚合残差块,i=1,2,3,……,n,且聚合残差块的连接顺序为归一化层-激活层-卷积层;
在所述小基础卷积层Conv2 i与所述聚合残差块的前一网络层之间设有一条梯度传播捷径,形成密集连接聚合残差块。
本发明实施方式将残差块修改聚合残差块,在保证计算量的同时增加了网络深度和宽度,这样使得特征提取的更精确。同时,本发明实施方式在聚合残差块的基础上引入一条捷径。该捷径的引入不仅解决了梯度消失问题,而且加强了特征的传播,增加了特征重用,从本质上减少了参数。
本发明实施方式将将循环神经网络的相邻两层之间提供一个用于梯度传播的捷径,该捷径的引入解决了梯度消失和梯度爆炸问题。空间域的捷径和时域单元的更新分离开来会使解决梯度消失和梯度爆炸问题更加灵活。
作为优选,对所述多字幕生成模型进行训练的过程为:
对于卷积神经网络检测模型,利用ImageNet数据集上训练的权值和服从标准差为0.01的高斯分布的权值初始化网络;
对于循环神经网络预测模型,采用Visual Genome和MS-COCO数据集对该预测模型进行微调。
作为优选,所述卷积神经网络检测模型包括设于残差块后的漏斗结构。当图像分辨率降到最低后网络开始上采样,融合不同尺度的特征,上采样方式为元素级相加,得到的不同尺度特征图用来获取多尺度候选框,漏斗的拓扑结构是对称的,因此,特征图输出层在其后的结构中都有层与其对应。
作为优选,所述检测损失Ldet、边框定位损失Lbbox、标题预测损失Lcap分别为:
检测损失
其中,ci是检测框i所属的实际前景/背景信息(前景为1,背景为0),pi是通过本发明提供的卷积神经网络所预测的前景概率;
边框定位损失
其中,Gi是物体i在图像中的实际位置,Pi是通过本发明提供的卷积神经网络所预测的物体i在图像中的位置;
标题预测损失
其中,wi是真实字幕中第i个单词信息(真实单词为1,其余单词为0),ri是通过本发明提供的循环神经网络所预测的第i个单词概率。
影响因子的选择直接影响多字幕提取的精度,作为优选,所述影响因子α取值为0.05~0.15,影响因子β取值为0.01~0.1。进一步优选,所述影响因子α取值为0.1,影响因子β取值为0.05。
作为优选,所述循环神经网络预测模型的方程式更新如下:
ht=ot⊙[ψ(ct)+Wxxt]
其中,Wx是残差LSTM的输入映射矩阵,xt和ht分别为残差LSTM层在时刻t的输入变量和隐含变量,ct表示记忆单元,ot是决定是否输出新记忆单元的输出门函数。ψ表示双曲线正切函数,⊙是矩阵逐点乘积操作。
所述多字幕生成模型训练阶段采用GPU进行计算。
相比于现有技术,本发明具有的有益效果为:
(1)漏斗结构的增加,能够在特征图提取时捕获到多尺度目标信息。
(2)密集连接聚合残差块的增加,能够在特征图提取时在保证计算量的同时增加了网络深度和宽度,且解决了梯度消失问题、加强特征的传播,增加了特征重用。
(3)梯度传播捷径的增加,进一步解决了多字幕获取过程中梯度消失和梯度爆炸问题。
附图说明
图1是本发明实施例提供的多字幕生成模型的框架示意图;
图2是本发明实施例提供的原始残差块的结构示意图;
图3是本发明实施例提供的聚合残差块的结构示意图;
图4是本发明实施例提供的密集连接聚合残差块结构示意图;
图5是图1提供的框架示意图中的漏斗结构示意图;
图6是图1提供的框架示意图中的残差LSTM的结构示意图;
图7是图1提供的多字幕生成模型在数据集Visual Genome上的测试结果示例图;
图8是图1提供的多字幕生成模型在数据集MS-COCO上的测试结果示例图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
本实施例提供的多字幕获取方法可以获得一副图像中非固定数量的类别目标描述语,且可以应用到语义图像搜索、聊天机器人的视觉智能、社交媒体分享的图像和视频的字幕获取等。
采用本实施方式基于多尺度分层残差网络的图像多字幕自动生成方法对图像中的目标进行语义描述的过程包括训练和测试两个部分。下面在阐述这两个部分之前会着重介绍本实施例所采用的多字幕生成模型。
图1是本发明实施例提供的多字幕生成模型的框架示意图,参见图1,该模型框架包括连接的卷积神经网络检测模型和循环神经网络预测模型。
在图1中,conv代表卷积操作,箭头上方矩阵代表该层输出尺寸,Block表示本实施例提出的残差块结构,pooling代表池化操作,FC为全连接层,Hourglass为本实施例提出的漏斗结构。concate代表多层特征的融合操作。
卷积神经网络检测模型开始于一个7×7的卷积层,卷积步长为2;然后是一个残差块Block1、最大池化层Max Pooling,分辨率相较于输入降低了4倍;随后是残差块Block2、Block3、Block4和漏斗结构Hourglass,用来获取多尺度候选框,这里假设可以获得K个候选框;接下来是卷积层Conv2和兴趣域池化层Rol Pooling。以上的卷积神经网络结构具有三点优势:(1)特征图的通道数明显降低(从512降为64);(2)滑动窗口分类器更加简单;(3)在卷积层Conv2里卷积核大小由3×3修改为1×1,限制了卷积层的感知域。
此外,在卷积神经网络模型中还加了两层全卷积层FC1和FC2来实现跨通道交互和信息集成,同时也加入了特征图的线性组合和通过增加卷积核通道数目来增加维度。区域特征通过1×1的卷积层Conv3和Conv4来获取检测得分和边界框的偏移量。
经过卷积神经网络检测模型特征提取后得到B个最高置信度得分的目标图像,这些目标图像的特征图串联输入至循环神经网络预测模型进行目标图像的字幕预测,也就是获取多字幕。循环神经网络预测模型包括残差LSTM网络。
图2是本发明实施例提供的原始残差块的结构示意图。原始残差块包括依次连接的是1×1×64的基础卷积层Conv1、3×3×64的基础卷积层Conv2、1×1×C的基础卷积层Conv3,该三个基础卷积层相当于三个滤波器,另外,原始残差块还包括1×1×C卷积层Convm,用来匹配维度,且原始残差块的连接顺序为卷积层Conv-归一化层BN-激活层RELU,C为正整数。
图2所示的原始残差块虽特征提取性能很好,但是权值参数过多难以优化,本实施例提出了如图3所示的聚合残差块,在聚合残差块中,将基础卷积层Conv1、Conv2、Conv3划分16个并行的1×1×4的小基础卷积层Conv1 i、3×3×4的小基础卷积层Conv2 i、1×1×C/16的小基础卷积层Conv3 i,i=1,2,3,……,16,并序号相同的小基础卷积层Conv1 i、Conv2 i、Conv3 i依次连接后形成残差小块,16个残差小块并联聚合concate后,再与匹配维度卷积层Convm合成聚合残差块。由于基础卷积层Conv3本身尺度就是不确定的C,所以C/16仍然不确定,因此1×1×C的基础卷积层Conv3表示16个1×1×C/16Conv3 i。聚合残差块的连接顺序为归一化层BN-激活层RELU-卷积层Conv。
通过图3所示的聚合残差块使得输入值通过卷积层转化为一些低维的特征然后以并联的方式融合。这种分开-转化-融合的操作期望能达到大的稠密的层所具有的表达能力,并且这些操作的计算复杂度要远远低于原始残差块。
如图4所示,本实施例在图3所示的聚合残差块基础上,在小基础卷积层Conv2 i与前一网络层Former layer之间连接一条梯度传播捷径,形成密集连接聚合残差块,这种密集连接聚合残差块不仅解决了梯度消失问题,而且加强了特征的传播,增加了特征重用,从本质上减少了权值参数。每个分支里所有前一网络层Former layer的特征图用作小基础卷积层Conv2 i的输入,小基础卷积层Conv2 i的输出又作为后一网络层Latter layer的输入。
图5是图1提供的框架示意图中的漏斗结构示意图。如图5所示,sub-pixel conv表示亚像素卷积操作,步长为2的卷积层用来提取特征并降低特征的分辨率。下采样时每个网络分支在池化前加入密集连接聚合残差块,当分辨率降到最低后网络开始上采样融合不同尺度的特征,上采样方式为元素级相加,得到的不同尺度特征图用来获取多尺度候选框,漏斗的拓扑结构是对称的,因此特征图输出层在其后的结构中都有层与其对应。
循环神经网络的训练最大的瓶颈是梯度消失和梯度爆炸问题,然而残差网络的提出刚好解决了这一问题,在超过100层的网络训练中也能达到不错的效果,目前在目标检测和分类任务重应用广泛,残差网络和关键技术是在层与层之间提供了一个用于梯度传播的捷径。原始的残差LSTM只是简单地在LSTM输出上加入了一个没有缩放的输入路径,但是随着层的增加路径不断积累,导致算法性能显著损失。没有合适的缩放残差LSTM输出的方差将会持续增加。因此,本实施例提供了一种如图6所示的残差LSTM,空间域的捷径和时域单元的更新分离开来会使解决梯度消失和梯度爆炸问题更加灵活。不同于高速LSTM,本实施例所提出的残差LSTM不用在一个内存ct里计算高速路径。在LSTM输出ht加入一条捷径传入梯度就能解决梯度消失和梯度爆炸问题。
图6描述了残差LSTM层的结构,在输入xt和输出ht之前有一条梯度传递捷径shortcut,虽然梯度传递捷径可以是任何较低的输出层,但是本发明使用以前的输出层。残差LSTM的方程式更新如下:
ht=ot⊙[ψ(ct)+Wxxt]
其中,Wx是残差LSTM的输入映射矩阵,xt和ht分别为残差LSTM层在时刻t的输入变量和隐含变量,ct表示记忆单元,ot是决定是否输出新记忆单元的输出门函数。ψ表示双曲线正切函数,⊙是矩阵逐点乘积操作。
本实施例所提出的残差LSTM在空间捷径连接处用了一个输出层,而不是内存单元,这样对于时间梯度流的干预会少很多。残差LSTM结构通过一条快速捷径学习非线性的残差映射,因此每个新的层不用浪费时间和资源去前一层获得相似的输出。本实施例的残差LSTM重用了一个LSTM矩阵作为阀门网络。就一个普通的LSTM网络而言,超过10%的可学习参数可以通过快速LSTM从残差LSTM网络里得到保存。
本实施例中,多字幕生成模型的损失函数L定义为:
L=Ldet+αLbbox+βLcap
其中,α和β是影响因子,本实施例中,选择α=0.1和β=0.05;
检测损失
其中,ci是检测框i所属的实际前景/背景信息(前景为1,背景为0),pi是通过本实施例提供的网络所预测的前景概率。
边框定位损失
其中,Gi是物体i在图像中的实际位置,Pi是通过本实施例提供的网络所预测的物体i在图像中的位置。
标题预测损失
其中,wi是真实字幕中第i个单词信息(真实单词为1,其余单词为0),ri是通过本实施例提供的网络所预测的第i个单词概率。
以上模型建立完毕后,对多字幕生成模型进行训练,训练的过程为:
预训练(Pre-train)阶段:对于卷积神经网络检测模型,用ImageNet数据集上训练的权值初始化Conv1和Block1、Block2、Block3、Block4,其他初始化的权值服从标准差为0.01的高斯分布。
也可以选用一些其他数据集对卷积神经网络检测模型进行训练,确定每一层的权值。
微调(Fine-tuning)阶段:对于循环神经网络预测模型,在Visual Genome和MS-COCO数据集上微调模型。
此处模型训练阶段采用GPU进行计算。
多字幕生成模型训练好后,对该模型进行测试,获取多字幕。本实施例中测试模型具体为:
给定测试图像,将训练得到的多字幕生成模型执行一次前向传递得到若干个高置信度的区域候选框,在一定IoU门限下采用非极大抑制,得到基于本实施例提出的多字幕生成模型的测试结果,在数据集Visual Genome上的测试结果如图7,在MS-COCO数据集上的测试结果如图8,图7、图8中的方框为字幕获取框。
利用本实施例对图像进行多字幕获取,相比于目前主流字幕获取方法Full imageRNN、全卷积定位网络(fully convolutional localization network,FCLN)、和T-LSTM,算法性能明显提高。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多尺度分层残差网络的图像多字幕自动生成方法,包括以下步骤:
(1)设计多字幕生成模型:所述多字幕生成模型包括用于图像特征图提取与目标检测的卷积神经网络检测模型、用于字幕预测的循环神经网络预测模型复合而成;
在所述卷积神经网络检测模型中,将卷积神经网络中的残差块修改为密集连接聚合残差块;
在所述循环神经网络预测模型中,将循环神经网络的相邻两层之间提供一个梯度传播捷径;
所述多字幕生成模型的损失函数L定义为:
L=Ldet+αLbbox+βLcap
其中,Ldet、Lbbox和Lcap分别为检测损失、边框定位损失、标题预测损失,α和β是影响因子;
(2)生成多字幕:利用合格的训练样本对所述多字幕生成模型进行训练,得到训练好的多字幕生成模型,测试时候给定待生成字幕图像,将训练好的多字幕生成模型执行前向传递,得到多字幕生成结果。
2.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述密集连接聚合残差块为:
将卷积神经网络的残差块中的依次连接的3层基础卷积层Conv1、Conv2、Conv3分别划分成n个并行的小基础卷积层Conv1 i、Conv2 i、Conv3 i,并以序号相同的小基础卷积层Conv1 i、Conv2 i、Conv3 i依次连接形成残差小块,n个残差小块并联融合成聚合残差块,i=1,2,3,……,n,且聚合残差块的连接顺序为归一化层-激活层-卷积层;
在所述小基础卷积层Conv2 i与所述聚合残差块的前一网络层之间设有一条梯度传播捷径,形成密集连接聚合残差块。
3.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,对所述多字幕生成模型进行训练的过程为:
对于卷积神经网络检测模型,利用ImageNet数据集上训练的权值和服从标准差为0.01的高斯分布的权值初始化网络;
对于循环神经网络预测模型,采用Visual Genome和MS-COCO数据集对该预测模型进行微调。
4.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述卷积神经网络检测模型包括设于残差块后的漏斗结构。
5.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述检测损失Ldet、边框定位损失Lbbox、标题预测损失Lcap分别为:
检测损失
其中,ci是检测框i所属的实际前景/背景信息,pi是预测的前景概率。
边框定位损失
其中,Gi是物体i在图像中的实际位置,Pi是预测的物体i在图像中的位置;
标题预测损失
其中,wi是真实字幕中第i个单词信息,ri是预测的第i个单词概率。
6.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述影响因子α取值为0.05~0.15,影响因子β取值为0.01~0.1。
7.如权利要求6所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述影响因子α取值为0.1,影响因子β取值为0.05。
8.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述循环神经网络预测模型的方程式更新如下:
ht=ot⊙[ψ(ct)+Wxxt]
其中,Wx是残差LSTM的输入映射矩阵,xt和ht分别为残差LSTM层在时刻t的输入变量和隐含变量,ct表示记忆单元,ot是决定是否输出新记忆单元的输出门函数。ψ表示双曲线正切函数,⊙是矩阵逐点乘积操作。
9.如权利要求1所述的基于多尺度分层残差网络的图像多字幕自动生成方法,其特征在于,所述多字幕生成模型训练阶段采用GPU进行计算。
CN201710896059.7A 2017-09-28 2017-09-28 一种基于多尺度分层残差网络的图像多字幕自动生成方法 Active CN107844743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710896059.7A CN107844743B (zh) 2017-09-28 2017-09-28 一种基于多尺度分层残差网络的图像多字幕自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710896059.7A CN107844743B (zh) 2017-09-28 2017-09-28 一种基于多尺度分层残差网络的图像多字幕自动生成方法

Publications (2)

Publication Number Publication Date
CN107844743A true CN107844743A (zh) 2018-03-27
CN107844743B CN107844743B (zh) 2020-04-28

Family

ID=61662076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710896059.7A Active CN107844743B (zh) 2017-09-28 2017-09-28 一种基于多尺度分层残差网络的图像多字幕自动生成方法

Country Status (1)

Country Link
CN (1) CN107844743B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549866A (zh) * 2018-04-12 2018-09-18 上海海事大学 基于密集卷积神经网络的遥感飞机识别方法
CN108846475A (zh) * 2018-05-30 2018-11-20 华侨大学 一种分段密集连接型深度网络构建方法
CN108875826A (zh) * 2018-06-15 2018-11-23 武汉大学 一种基于粗细粒度复合卷积的多分支对象检测方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108961237A (zh) * 2018-06-28 2018-12-07 安徽工程大学 一种基于卷积神经网络的低剂量ct图像分解方法
CN109035184A (zh) * 2018-06-08 2018-12-18 西北工业大学 一种基于单位可变形卷积的密集连接方法
CN109068174A (zh) * 2018-09-12 2018-12-21 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109472757A (zh) * 2018-11-15 2019-03-15 央视国际网络无锡有限公司 一种基于生成对抗神经网络的图像去台标方法
CN109493308A (zh) * 2018-11-14 2019-03-19 吉林大学 基于条件多判别生成对抗网络的医疗图像合成与分类方法
CN109886114A (zh) * 2019-01-18 2019-06-14 杭州电子科技大学 一种基于聚合变换特征提取策略的舰船目标检测方法
CN110633713A (zh) * 2019-09-20 2019-12-31 电子科技大学 一种基于改进lstm的图像特征提取方法
CN110795976A (zh) * 2018-08-03 2020-02-14 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备
CN111626937A (zh) * 2020-05-28 2020-09-04 成都三零凯天通信实业有限公司 一种人像超分辨率重建方法
CN111652054A (zh) * 2020-04-21 2020-09-11 北京迈格威科技有限公司 关节点检测方法、姿态识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170098153A1 (en) * 2015-10-02 2017-04-06 Baidu Usa Llc Intelligent image captioning
CN105938485A (zh) * 2016-04-14 2016-09-14 北京工业大学 一种基于卷积循环混合模型的图像描述方法
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549866A (zh) * 2018-04-12 2018-09-18 上海海事大学 基于密集卷积神经网络的遥感飞机识别方法
CN108846475A (zh) * 2018-05-30 2018-11-20 华侨大学 一种分段密集连接型深度网络构建方法
CN108846475B (zh) * 2018-05-30 2021-10-26 华侨大学 一种分段密集连接型深度网络构建方法
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108875807B (zh) * 2018-05-31 2022-05-27 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109035184A (zh) * 2018-06-08 2018-12-18 西北工业大学 一种基于单位可变形卷积的密集连接方法
CN108875826A (zh) * 2018-06-15 2018-11-23 武汉大学 一种基于粗细粒度复合卷积的多分支对象检测方法
CN108875826B (zh) * 2018-06-15 2021-12-03 武汉大学 一种基于粗细粒度复合卷积的多分支对象检测方法
CN108961237A (zh) * 2018-06-28 2018-12-07 安徽工程大学 一种基于卷积神经网络的低剂量ct图像分解方法
CN108961237B (zh) * 2018-06-28 2020-08-21 安徽工程大学 一种基于卷积神经网络的低剂量ct图像分解方法
CN110795976A (zh) * 2018-08-03 2020-02-14 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备
US11605211B2 (en) 2018-08-03 2023-03-14 Huawei Cloud Computing Technologies Co., Ltd. Object detection model training method and apparatus, and device
CN109068174B (zh) * 2018-09-12 2019-12-27 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109068174A (zh) * 2018-09-12 2018-12-21 上海交通大学 基于循环卷积神经网络的视频帧率上变换方法及系统
CN109493308A (zh) * 2018-11-14 2019-03-19 吉林大学 基于条件多判别生成对抗网络的医疗图像合成与分类方法
CN109472757A (zh) * 2018-11-15 2019-03-15 央视国际网络无锡有限公司 一种基于生成对抗神经网络的图像去台标方法
CN109886114A (zh) * 2019-01-18 2019-06-14 杭州电子科技大学 一种基于聚合变换特征提取策略的舰船目标检测方法
CN110633713A (zh) * 2019-09-20 2019-12-31 电子科技大学 一种基于改进lstm的图像特征提取方法
CN111652054A (zh) * 2020-04-21 2020-09-11 北京迈格威科技有限公司 关节点检测方法、姿态识别方法及装置
CN111652054B (zh) * 2020-04-21 2023-11-03 北京迈格威科技有限公司 关节点检测方法、姿态识别方法及装置
CN111626937A (zh) * 2020-05-28 2020-09-04 成都三零凯天通信实业有限公司 一种人像超分辨率重建方法

Also Published As

Publication number Publication date
CN107844743B (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN107844743A (zh) 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN110163108A (zh) 基于双路径特征融合网络的鲁棒声呐目标检测方法
CN111046917B (zh) 基于深度神经网络的对象性增强目标检测方法
Zhu et al. Tiny object tracking: A large-scale dataset and a baseline
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN111046928A (zh) 定位精准的单阶段实时通用目标检测器及方法
CN106600613A (zh) 基于嵌入式gpu的改进lbp红外目标检测方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN114241307B (zh) 基于自注意力网络的合成孔径雷达飞机目标识别方法
CN112818777B (zh) 一种基于密集连接与特征增强的遥感图像目标检测方法
CN111950635B (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN114937153B (zh) 弱纹理环境下基于神经网络的视觉特征处理系统及方法
CN116109649A (zh) 一种基于语义错误修正的3d点云实例分割方法
Xu et al. MMT: Mixed-Mask Transformer for Remote Sensing Image Semantic Segmentation
CN113283278B (zh) 一种抗干扰的激光水下目标识别仪
Li et al. Enhancing Feature Fusion Using Attention for Small Object Detection
Narmadha et al. Robust Deep Transfer Learning Based Object Detection and Tracking Approach.
CN114494893A (zh) 基于语义重用上下文特征金字塔的遥感图像特征提取方法
Wu et al. Corrosion detection method of transmission line components in mining area based on multiscale enhanced fusion
Zhao et al. E-commerce picture text recognition information system based on deep learning
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN117496131B (zh) 一种电力作业现场安全行为识别方法及系统
Zhao et al. Salient Object Detection Based on Transformer and Multi-scale Feature Fusion
Liu et al. A YOLOX Object Detection Algorithm Based on Bidirectional Cross-scale Path Aggregation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant