CN106650813B - 一种基于深度残差网络和lstm的图像理解方法 - Google Patents

一种基于深度残差网络和lstm的图像理解方法 Download PDF

Info

Publication number
CN106650813B
CN106650813B CN201611226528.6A CN201611226528A CN106650813B CN 106650813 B CN106650813 B CN 106650813B CN 201611226528 A CN201611226528 A CN 201611226528A CN 106650813 B CN106650813 B CN 106650813B
Authority
CN
China
Prior art keywords
image
lstm
natural language
residual error
depth residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611226528.6A
Other languages
English (en)
Other versions
CN106650813A (zh
Inventor
胡丹
袁东芝
余卫宇
李楚怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201611226528.6A priority Critical patent/CN106650813B/zh
Publication of CN106650813A publication Critical patent/CN106650813A/zh
Application granted granted Critical
Publication of CN106650813B publication Critical patent/CN106650813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度残差网络和LSTM的图像理解方法。所述方法首先构建一个深度残差网络模型提取图像的抽象特征并保存为特征矩阵;然后LSTM模型中的动态注意机制根据特征矩阵动态地生成合适的特征向量,最后LSTM模型根据特征向量生成成自然语言(英语)。本发明利用了深度残差网络在图像特征提取和LSTM对时序序列建模方面的优势,深度残差网络和LSTM模型成了一个编码‑解码框架,将图像内容信息转化成自然语言,达到提取图像的深层次信息的目的。

Description

一种基于深度残差网络和LSTM的图像理解方法
技术领域
本发明涉及图像语义理解、深度学习领域,特别是一种基于深度残差网络和LSTM(Long Short-term Memory)的图像理解方法。
背景技术
图像理解是指对图像语义的理解。它是以图像为对象,知识为核心,研究图像中何位置有何目标、目标之间的相互关系、图像是何场景的一门科学。
图像理解输入的是图像数据,输出的是知识,属于图像处理研究领域的高层内容。其重点是在图像目标识别的基础上进一步研究图像中各目标的性质及其相互关系,并得出对图像内容含义的理解以及对原来客观场景的解释,进而指导和规划行为。
目前常用的图像理解方法主要是基于底层特征与分类器相结合的方法,先使用小波变换、尺度不变特征变换(SIFT)、边缘提取等图像处理算法对图像进行特征提取,然后使用潜在狄利克雷分布(LDA)、隐马尔科夫模型(HMM)、支持向量机(SVM)等图像识别和推理算法对提取出的特征进行分类识别并建立语义模型。从算法实现上来看,目前常用的图像理解算法存在泛化性差、鲁棒性低、局部依赖性强、实现困难、识别率低等缺点。
发明内容
本发明公布了一种基于深度残差网络和LSTM的图像理解方法,该方法利用了深度残差网络在图像特征提取和LSTM对时序序列建模方面的优势,深度残差网络和LSTM模型成了一个编码-解码框架,将图像内容信息转化成自然语言,达到提取图像的深层次信息的目的。
本发明的目的通过以下的技术方案实现:基于深度残差网络和LSTM的图像理解方法,其特征在于:应用于从输入图像中提取抽象特征的深度残差网络模型、根据抽象特征生成自然语言的LSTM模型;具体包括如下步骤:
S1:下载训练数据集;
S2:对步骤S1数据集中的数据进行预处理;
S3:训练深度残差网络模型;
S4:训练LSTM模型;
S5:用步骤S3中训练好的深度残差网络模型提取待识别图像的抽象特征;
S6:将步骤S5中提取的特征输入到步骤S4训练好的LSTM模型中,LSTM模型根据特征生成自然语言。
优选的,步骤S1中下载训练数据集:分别从http://www.image-net.org、http://mscoco.org这两个网站下载ImageNet、MS-COCO公共图像数据集;ImageNet数据集分为训练图像集和测试图像集,MS-COCO数据集分为训练图像集合测试图像集,对应的,每张图片有5个用于描述其内容信息的自然语句。
优选的,步骤S2预处理包括对ImageNet数据集和MS-COCO数据集两种情况:
对于ImageNet数据集:每一张图像,将图像缩放到256×256大小,然后从图像上中下左右5处截取5张大小为224×224的标准尺寸图像,并将标准尺寸图像与其相对应的类别成对保存,一个“标准尺寸图像-类别”对作为一个数据;
对于MS-COCO数据集,预处理的步骤如下:
S2.1、将每一个自然语句与其对应的图像成对保存,一个“图像-自然语言语句”对作为一个数据;
S2.2、将“图像-自然语言语句”对中的图像维持长宽比不变并缩放,剪成224×224的标准尺寸图像,并将标准尺寸图像与其相对应的自然语言语句成对保存,一个“标准尺寸图像-自然语言语句”对作为一个数据;
S2.3、统计所有自然语言语句中出现过的单词,去重,排序,单词总个数记为K;用1×K的列向量来表示所有单词,列向量中下标为单词序号处置1,其他位置0,这样一个向量称为单词向量,所有的“单词-单词向量”对构成一个长度为K的字典DIC;
S2.4、将“图像-自然语言语句”对中的自然语言语句用基于字典DIC的单词向量表示,一个长度为C的自然语言语句y可以表示为:
优选的,步骤S3中训练深度残差网络模型:包含46个卷积块(用“conv+下标”表示)、2个池化层、1个全连接层和1个softmax分类器;在每个卷积块中,先用批归一化(BN)方法对数据归一化,然后使用修正线性单元(ReLu)对数据进行非线性变换,最后进行卷积操作。训练时使用随机梯度下降(SGD)和反向传播方法(BP),用预处理后的ImageNet数据集(“标准尺寸图像-类别”对)作为样本;对于每个样本,标准尺寸图像在网络中向前传播,经过softmax层后输出预测类别,再将预测类别与实际类别的差异反向传播到网络头部,反向传播过程中使用随机梯度下降算法调整网络参数。重复样本输入的过程,直到网络收敛。
优选的,步骤S4中训练LSTM模型:LSTM模型的基本结构由LSTM神经元构成。LSTM模型包含C层LSTM神经元(C为预先设定的自然语言语句的最大长度),能依次输出C个单词;这里使用的是预处理后的MS-COCO数据集(“标准尺寸图像-自然语言语句”对)作为样本;训练LSTM模型步骤如下:
S4.1、将标准尺寸图像输入到步骤S3的深度残差网络中,从conv5_3_c卷积块末端提取抽象特征矩阵,大小为7*7*2048=49*2048,用 表示;
S4.2、对于每一时刻t,根据以下公式动态生成一个图像内容向量:
eti=fatt(ai,ht-1)
其中,ai是抽象矩阵a中的向量,ht-1是上一时刻的隐藏状态量,fatt是一个基于多层感知机的注意力模型,能够自动确定时刻t更注意的抽象特征,αti是与ai对应的权重,是动态生成的图像内容向量;
S4.3、对于每一时刻t,LSTM神经元的前向传导过程可以表示为:
ht=ot tanh(ct)
其中,σ是sigmoid函数,σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分别表示t时刻输入门、遗忘门、记忆单元、输出门、隐藏层所对应的状态变量;Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc为LSTM模型学习到的权重矩阵,bi、bf、bc、bo是LSTM模型学习到的偏置项,是一个随机初始化的嵌入矩阵,m是一个常数,yt-1是上一时刻LSTM模型输出的单词;t=0时的ct、ht按下面公式初始化:
其中,finit,c、finit,h是两个独立的多层感知机;
S4.4、对于每一时刻t,通过最大化下面式子来求得输出的单词yt:
其中, λ是一个常数,C是样本中自然语言语句的最大长度;
S4.5、根据交叉熵损失计算预测自然语言语句和样本中自然语言语句的差异,然后使用反向传播算法(BP)和基于RMSProp的随机梯度下降(SGD)算法训练,令交叉熵最小。
S4.6、对于MS-COCO数据集中的每一个样本,重复S4.1-S4.5步骤。
S4.7、重复S4.1-S4.6步骤20次。
优选的,步骤S5中提取待识别图像的特征的具体步骤为:
S7.1:使用步骤S2中对Imagenet数据集的图像进行预处理;
S7.2:将预处理后的图像输入到步骤S3训练好的深度残差网络中,从最底层卷积块末端提取抽象特征矩阵,大小为7*7*2048=49*2048。
优选的,步骤S6中LSTM模型根据图像特征生成自然语言语句,对于每一时刻t,t的数值大于等于0,小于样本中自然语言语句的最大长度的数值,使用步骤S4.1-S4.4生成一个单词,所有单词依次连接构成自然语言语句。
本发明与现有技术相比,具有如下优点和有益效果:
1、本方法采用深度学习理论,使用大量图像样本训练深度残差网络模型和LSTM模型,能自动学习到图像中的普遍模式,鲁棒性强,适用范围广。
2、本发明方法采用的深度残差网络具有50层的极深结构,能够充分提取图像中的抽象特征;同时,本发明方法采用了LSTM模型,能够恰当地对自然语言等时序序列建模,将特征向量转化成自然语言。深度残差网络与LSTM网络结合,显著提升了图像理解的准确度。
3、本发明引入了一种动态注意机制,能够根据深度残差网络提取到的特征矩阵动态的生成合适特征向量,使得LSTM具有动态聚焦到图像的不同位置的优点。
附图说明
图1为本发明实施例的一种基于深度残差网络和LSTM的图像理解方法的具体流程图;
图2为本发明实施例的一种基于深度残差网络和LSTM的图像理解方法中步骤(3)的深度残差网络模型结构;
图3为本发明实施例的一种基于深度残差网络和LSTM的图像理解方法中步骤(3)的深度残差网络模型中卷积块的具体结构;
图4为本发明实施例的一种基于深度残差网络和LSTM的图像理解方法中步骤(4)的LSTM模型中LSTM神经元的结构。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为本发明的方法流程图,包括如下步骤:
(1)、下载训练数据集:分别从http://www.image-net.org、http://mscoco.org这两个网站下载ImageNet、MS-COCO公共图像数据集。ImageNet数据集分为训练图像集和测试图像集,训练图像集含有1000个类别的图片,每个类别1300张,测试图像集含50000张图片;MS-COCO数据集分为训练图像集合测试图像集,训练图像集包含82783张图片,测试图像集包含40504张图片,对应的,每张图片有5个用于描述其内容信息的自然语句。
(2)、预处理:
对于ImageNet数据集:每一张图像,将图像缩放到256×256大小,然后从图像上中下左右5处截取5张大小为224×224的标准尺寸图像,并将标准尺寸图像与其相对应的类别成对保存,一个“标准尺寸图像-类别”对作为一个数据;
对于MS-COCO数据集,预处理的步骤如下:
2.1、将每一个自然语句与其对应的图像成对保存,一个“图像-自然语言语句”对作为一个数据;
2.2、将“图像-自然语言语句”对中的图像维持长宽比不变并缩放,剪成224×224的标准尺寸图像,并将标准尺寸图像与其相对应的自然语言语句成对保存,一个“标准尺寸图像-自然语言语句”对作为一个数据;
2.3、统计所有自然语言语句中出现过的单词,去重,排序,单词总个数记为K;用1×K的列向量来表示所有单词,列向量中下标为单词序号处置1,其他位置0,这样一个向量称为单词向量,所有的“单词-单词向量”对构成一个长度为K的字典DIC;
2.4、将“图像-自然语言语句”对中的自然语言语句用基于字典DIC的单词向量表示,一个长度为C的自然语言语句y可以表示为:
(3)、训练深度残差网络模型:深度残差网络结构如图2所示,包含46个卷积块(用“conv+下标”表示)、2个池化层、1个全连接层和一个softmax分类器。在每个卷积块中,先用批归一化(BN)方法对数据归一化,然后使用修正线性单元(ReLu)对数据进行非线性变换,最用进行卷积操作。训练时使用随机梯度下降(SGD)和反向传播方法(BP),用预处理后的ImageNet数据集(“标准尺寸图像-类别”对)作为样本。具体参数已在图2中标明,例如,“conv2_1_a,1*1,64,1”表示该卷积块名称为conv2_1_a,卷积核大小为1×1,步长为1,输出64个特征图。
(4)、训练LSTM模型:图4所示的是LSTM模型的基本结构由LSTM神经元组成。LSTM模型包含C层LSTM神经元(C为预先设定的自然语言语句的最大长度),能依次输出C个单词。这里使用的是预处理后的MS-COCO数据集(“标准尺寸图像-自然语言语句”对)作为样本。训练LSTM模型步骤如下:
4.1、将标准尺寸图像输入到步骤(3)的深度残差网络中,从conv5_3_c卷积块末端提取抽象特征矩阵,大小为7*7*2048=49*2048,用 表示;
4.2、对于每一时刻t,根据以下公式动态生成一个图像内容向量:
eti=fatt(ai,ht-1)
其中,ai是抽象矩阵a中的向量,ht-1是上一时刻的隐藏状态量,fatt是一个基于多层感知机的注意力模型,能够自动确定时刻t更注意的抽象特征,αti是与ai对应的权重,是动态生成的图像内容向量;
4.3、对于每一时刻t,LSTM神经元的前向传导过程可以表示为:
ht=ot tanh(ct)
其中,σ是sigmoid函数,σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分别表示t时刻输入门、遗忘门、记忆单元、输出门、隐藏层所对应的状态变量。Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc为LSTM、模型学习到的权重矩阵,bi、bf、bc、bo是LSTM模型学习到的偏置项,是一个随机初始化的嵌入矩阵,m是一个常数,yt-1是上一时刻LSTM模型输出的单词;t=0时的ct、ht按下面公式初始化:
其中,finit,c、finit,h是两个独立的多层感知机;
4.4、对于每一时刻t,通过最大化下面式子来求得输出的单词yt
其中, λ是一个常数,C是样本中自然语言语句的最大长度;
4.5、根据交叉熵损失计算预测自然语言语句和样本中自然语言语句的差异,然后使用反向传播算法(BP)和基于RMSProp的随机梯度下降(SGD)算法训练,令交叉熵最小。
4.6、对于MS-COCO数据集中的每一个样本,重复4.1-4.5步骤。
4.7、重复4.1-4.6步骤20次。
(5)、用步骤(3)中训练好的深度残差网络模型提取待识别图像的抽象特征。首先使用步骤(2)中对Imagenet数据集的图像进行预处理,然后将预处理后的图像输入到步骤(3)训练好的深度残差网络中,从最底层卷积块末端提取抽象特征矩阵,大小为7*7*2048=49*2048。
(6)、将步骤(5)中提取的抽象特征输入到步骤(4)训练好的LSTM模型中,对于每一时刻t,t的数值大于等于0,小于样本中自然语言语句的最大长度的数值,使用步骤S4.1-S4.4生成一个单词,所有单词依次连接构成自然语言语句。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度残差网络和LSTM的图像理解方法,其特征在于:应用于从输入图像中提取抽象特征的深度残差网络模型、根据抽象特征生成自然语言的LSTM模型;具体包括如下步骤:
S1:下载训练数据集;
S2:对步骤S1数据集中的数据进行预处理;
S3:训练深度残差网络模型;
S4:训练LSTM模型;
S5:用步骤S3中训练好的深度残差网络模型提取待识别图像的抽象特征;
S6:将步骤S5中提取的特征输入到步骤S4训练好的LSTM模型中,LSTM模型根据特征生成自然语言语句。
2.根据权利要求1所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,所述的步骤S1中的数据集为下载ImageNet、MS-COCO两个公共图像数据集。
3.根据权利要求1所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,步骤S2预处理包括对ImageNet数据集和MS-COCO数据集两种情况:
对于ImageNet数据集:每一张图像,将图像缩放到256×256大小,然后从图像上中下左右5处截取5张大小为224×224的标准尺寸图像,并将标准尺寸图像与其相对应的类别成对保存,一个“标准尺寸图像-类别”对作为一个数据;
对于MS-COCO数据集,预处理的步骤如下:
S2.1、将每一个自然语言语句与其对应的图像成对保存,一个“图像-自然语言语句”对作为一个数据;
S2.2、将“图像-自然语言语句”对中的图像维持长宽比不变并缩放,剪成224×224的标准尺寸图像,并将标准尺寸图像与其相对应的自然语言语句成对保存,一个“标准尺寸图像-自然语言语句”对作为一个数据;
S2.3、统计所有自然语言语句中出现过的单词,去重,排序,单词总个数记为K;用1×K的列向量来表示所有单词,列向量中下标为单词序号处置1,其他位置0,这样一个向量称为单词向量,所有的“单词-单词向量”对构成一个长度为K的字典DIC;
S2.4、将“图像-自然语言语句”对中的自然语言语句用基于字典DIC的单词向量表示,一个长度为C的自然语言语句y可以表示为:
4.根据权利要求1所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,所述步骤S3中深度残差网络模型的结构包含多层卷积块、池化层、全连接层和softmax分类器;在每个卷积块中,先用批归一化方法对数据归一化,然后使用修正线性单元对数据进行非线性变换,最后进行卷积操作。
5.根据权利要求1或4所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,所述步骤S3中训练深度残差网络模型使用随机梯度下降和反向传播方法,用预处理后的ImageNet数据集中“标准尺寸图像-类别”对作为样本;对于每个样本,标准尺寸图像在网络中向前传播,经过softmax层后输出预测类别,再将预测类别与实际类别的差异反向传播到网络头部,反向传播过程中使用随机梯度下降算法调整网络参数;重复样本输入的过程,直到网络收敛。
6.根据权利要求1所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,所述步骤S4中,LSTM模型包含C层LSTM神经元,其中C为预先设定的自然语言语句的最大长度,依次输出C个单词;使用预处理后的MS-COCO数据集“标准尺寸图像-自然语言语句”对作为样本;训练LSTM模型步骤如下:
S4.1、将标准尺寸图像输入到步骤S3的深度残差网络中,最底层卷积块末端提取抽象特征矩阵,大小为7*7*2048=49*2048,抽象矩阵a={a1,...,ai,...,aL},其中L=49,D=2048,1≤i≤L;
S4.2、对于每一时刻t,根据以下公式动态生成一个图像内容向量:
eti=fatt(ai,ht-1)
其中,ai是抽象矩阵a中的向量,ht-1是上一时刻的隐藏状态量,fatt是一个基于多层感知机的注意力模型,能够自动确定时刻t更注意的抽象特征,αti是与ai对应的权重,是动态生成的图像内容向量;
S4.3、对于每一时刻t,LSTM神经元的前向传导过程可以表示为:
ht=ot tanh(ct)
其中,σ是sigmoid函数,σ(x)=(1+e-x)-1,it、ft、ct、ot、ht分别表示t时刻输入门、遗忘门、记忆单元、输出门、隐藏层所对应的状态变量;Wi、Ui、Zi、Wf、Uf、Zf、Wo、Uo、Zo、Wc、Uc、Zc为LSTM模型学习到的权重矩阵,bi、bf、bc、bo是LSTM模型学习到的偏置项,是一个随机初始化的嵌入矩阵,m是一个常数,yt-1是上一时刻LSTM模型输出的单词;t=0时的ct、ht按下面公式初始化:
其中,finit,c、finit,h是两个独立的多层感知机;
S4.4、对于每一时刻t,通过求解以下最优化问题来求得输出的单词yt
其中, λ是一个常数,C是样本中自然语言语句的最大长度;
S4.5、对于每一时刻t,根据交叉熵损失计算预测自然语言语句和样本中自然语言语句的差异,然后使用反向传播算法和基于RMSProp的随机梯度下降算法训练,令交叉熵最小;
S4.6、对于MS-COCO数据集中的每一个样本,重复S4.1-S4.5步骤;
S4.7、重复S4.1-S4.6步骤20次。
7.根据权利要求1所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,所述S5中提取待识别图像的特征的具体步骤为:
S7.1、使用步骤S2中对Imagenet数据集的图像进行预处理;
S7.2、将预处理后的图像输入到步骤S3训练好的深度残差网络中,从最底层卷积块末端提取抽象特征矩阵,大小为7*7*2048=49*2048。
8.根据权利要求6所述的一种基于深度残差网络和LSTM的图像理解方法,其特征在于,所述步骤S6中LSTM模型根据特征生成自然语言语句,对于每一时刻t,t的数值大于等于0,小于样本中自然语言语句的最大长度的数值,使用步骤S4.1-S4.4生成一个单词,所有单词依次连接构成自然语言语句。
CN201611226528.6A 2016-12-27 2016-12-27 一种基于深度残差网络和lstm的图像理解方法 Active CN106650813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611226528.6A CN106650813B (zh) 2016-12-27 2016-12-27 一种基于深度残差网络和lstm的图像理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611226528.6A CN106650813B (zh) 2016-12-27 2016-12-27 一种基于深度残差网络和lstm的图像理解方法

Publications (2)

Publication Number Publication Date
CN106650813A CN106650813A (zh) 2017-05-10
CN106650813B true CN106650813B (zh) 2019-11-15

Family

ID=58832759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611226528.6A Active CN106650813B (zh) 2016-12-27 2016-12-27 一种基于深度残差网络和lstm的图像理解方法

Country Status (1)

Country Link
CN (1) CN106650813B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101984B (zh) * 2017-06-20 2022-04-08 北京中科奥森数据科技有限公司 一种基于卷积神经网络的图像识别方法及装置
CN107368831B (zh) * 2017-07-19 2019-08-02 中国人民解放军国防科学技术大学 一种自然场景图像中的英文文字和数字识别方法
CN107590443A (zh) * 2017-08-23 2018-01-16 上海交通大学 基于深度残差学习的限制级直播视频自动检测方法与系统
CN107657271B (zh) * 2017-09-02 2019-11-15 西安电子科技大学 基于长短时记忆网络的高光谱图像分类方法
CN107608943B (zh) * 2017-09-08 2020-07-28 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN109558774A (zh) * 2017-09-27 2019-04-02 中国海洋大学 基于深度残差网络和支持向量机的物体自动识别系统
CN107844743B (zh) * 2017-09-28 2020-04-28 浙江工商大学 一种基于多尺度分层残差网络的图像多字幕自动生成方法
CN107633520A (zh) * 2017-09-28 2018-01-26 福建帝视信息科技有限公司 一种基于深度残差网络的超分辨率图像质量评估方法
CN107742128A (zh) * 2017-10-20 2018-02-27 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN107766894B (zh) * 2017-11-03 2021-01-22 吉林大学 基于注意力机制和深度学习的遥感图像自然语言生成方法
CN108090558B (zh) * 2018-01-03 2021-06-08 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108111860B (zh) * 2018-01-11 2020-04-14 安徽优思天成智能科技有限公司 基于深度残差网络的视频序列丢失帧预测恢复方法
CN108427729A (zh) * 2018-02-23 2018-08-21 浙江工业大学 一种基于深度残差网络与哈希编码的大规模图片检索方法
CN108549926A (zh) * 2018-03-09 2018-09-18 中山大学 一种用于精细化识别车辆属性的深度神经网络及训练方法
CN108416059B (zh) * 2018-03-22 2021-05-18 北京市商汤科技开发有限公司 图像描述模型的训练方法和装置、设备、介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN109670164A (zh) * 2018-04-11 2019-04-23 东莞迪赛软件技术有限公司 基于深层多词嵌入Bi-LSTM残差网络的健康舆情分析方法
CN108648195B (zh) * 2018-05-09 2022-06-28 联想(北京)有限公司 一种图像处理方法及装置
CN108921911B (zh) * 2018-08-01 2021-03-09 中国科学技术大学 结构化图片自动转换为源代码的方法
CN109146858B (zh) * 2018-08-03 2021-09-17 诚亿电子(嘉兴)有限公司 自动光学检验设备问题点二次校验方法
CN109117781B (zh) * 2018-08-07 2020-09-08 北京一维大成科技有限公司 多属性识别模型的建立方法、装置及多属性识别方法
CN109559799A (zh) * 2018-10-12 2019-04-02 华南理工大学 医学图像语义描述方法、描述模型的构建方法及该模型
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109846477B (zh) * 2019-01-29 2021-08-06 北京工业大学 一种基于频带注意力残差网络的脑电分类方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110032739B (zh) * 2019-04-18 2021-07-13 清华大学 中文电子病历命名实体抽取方法及系统
CN110399788A (zh) * 2019-06-13 2019-11-01 平安科技(深圳)有限公司 图像的au检测方法、装置、电子设备及存储介质
CN111667495A (zh) * 2020-06-08 2020-09-15 北京环境特性研究所 一种图像场景解析方法和装置
CN114338199B (zh) * 2021-12-30 2024-01-09 广东工业大学 一种基于注意力机制的恶意流量检测方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9202144B2 (en) * 2013-10-30 2015-12-01 Nec Laboratories America, Inc. Regionlets with shift invariant neural patterns for object detection
CN104463878A (zh) * 2014-12-11 2015-03-25 南京理工大学 一种新的深度图像局部描述符方法
CN105631479B (zh) * 2015-12-30 2019-05-17 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN105930841B (zh) * 2016-05-13 2018-01-26 百度在线网络技术(北京)有限公司 对图像进行自动语义标注的方法、装置与计算机设备

Also Published As

Publication number Publication date
CN106650813A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106650813B (zh) 一种基于深度残差网络和lstm的图像理解方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
Sharma et al. Era of deep neural networks: A review
CN108733792B (zh) 一种实体关系抽取方法
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
Donahue et al. Long-term recurrent convolutional networks for visual recognition and description
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110110323B (zh) 一种文本情感分类方法和装置、计算机可读存储介质
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
Zhang et al. Exploring question understanding and adaptation in neural-network-based question answering
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN112347248A (zh) 一种方面级文本情感分类方法及系统
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN109977199A (zh) 一种基于注意力池化机制的阅读理解方法
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN110851594A (zh) 一种基于多通道深度学习模型的文本分类方法及其装置
Sadr et al. Convolutional neural network equipped with attention mechanism and transfer learning for enhancing performance of sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant