CN110188819A - 一种基于信息增益的cnn和lstm图像高层语义理解方法 - Google Patents
一种基于信息增益的cnn和lstm图像高层语义理解方法 Download PDFInfo
- Publication number
- CN110188819A CN110188819A CN201910459249.1A CN201910459249A CN110188819A CN 110188819 A CN110188819 A CN 110188819A CN 201910459249 A CN201910459249 A CN 201910459249A CN 110188819 A CN110188819 A CN 110188819A
- Authority
- CN
- China
- Prior art keywords
- image
- convolutional neural
- semantic
- neural networks
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000007787 long-term memory Effects 0.000 claims abstract description 15
- 238000013480 data collection Methods 0.000 claims abstract description 7
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims 1
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于信息增益的CNN和LSTM图像高层语义理解方法,包括构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读;构建改进卷积神经网络,是利用大规模图像语义数据集构建并改进卷积神经网络;构建联合神经网络,是利用改进的卷积神经网络和长短期记忆网络构建联合神经网络;数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;图像语义解读,是将图像特征输入训练完成的模型中进行图像语义解读。本发明改进了传统的图像与文本信息的图像语义理解模型,提出了一种新的卷积神经网络和长短期记忆网络的结合方法,能够显著的提升图像语义解读的效果。
Description
技术领域
本发明涉及图像语义理解领域,尤其涉及一种基于信息增益的CNN和LSTM图像高层语义理解方法。
背景技术
图像语义理解近年来已经成为计算机科学领域的热点研究领域。传统的图像语义理解是综合性的交叉学科,涉及到图像工程,计算机视觉,人工智能和认知学等领域。随着机器学习在近几年的快速发展,图像语义理解问题也从传统经典的算法也过渡到利用神经网络训练的目前主流的图像理解算法。图像语义理解,目前的方法集中在以下几个方面:
(1)基于图像分类的方法
图像分类问题需要更好的获得输入图像的特征向量,并基于特征向量学习优化。传统的算法使用常见的图像特征是HOG特征。HOG特征是将归一化的图像分割成若干个像素块,计算每个像素块的亮度梯度并将所有的像素块的亮度梯度进行串联。
(2)基于图像检索的方法
在传统的图像理解算法技术中,图像分类,相似图像索引是主要的研究方向。图像分类问题需要更好的获得输入图像的特征向量,并基于特征向量学习优化。传统的算法使用常见的图像特征是HOG特征。HOG特征是将归一化的图像分割成若干个像素块,计算每个像素块的亮度梯度并将所有的像素块的亮度梯度进行串联。
(3)基于深度学习的方法
编码器-解码器是RNN用常用来进行sequence-to-sequence学习和机器翻译的应用。近年来,该架构不再拘泥于RNN对文本信息的处理,基于CNN的编码器-解码器作为图像高层语义理解的另外一种思路。
如何准确、有效的解读输入图像中的高层语义,已经成为一个重要的研究课题。图像语义理解的重点是将图像中的特征提取、编码与循环递归网络进行解码的准确性。经过长足发展的卷积神经网络可以很好的完成图像特征提取和编码工作,具有记忆功能的LSTM网络可以胜任解码已经编码成功的图像特征。
因此,需要一种基于信息增益的CNN和LSTM图像高层语义理解方法来显著有效的解读图像中的高层语义。
发明内容
为了解决上述问题,本发明提出一种基于信息增益的CNN和LSTM图像高层语义理解方法。
一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于包括:构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读;
所述构建改进卷积神经网络,是利用大规模图像语义数据集构建并改进卷积神经网络;
所述构建卷积神经网络和长短期记忆网络联合神经网络,是利用改进的卷积神经网络和长短期记忆网络构建联合神经网络;
所述数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;
所述图像语义解读,是将图像特征输入训练完成的模型中进行图像语义解读。
进一步的,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,所述构建改进卷积神经网络采用以下步骤:
S11:获取公开的大规模图像语义数据构建大规模图像语义数据集;
S12:将所述数据集处理为固定大小的224*224RGB图像,作为卷积神经网络的输入;
S13:输入图像通过5层卷积层,卷积核大小为3*3,步长为1个像素,填充为1个像素;
S14:空间池化由五个最大池化层进行,步长为2,网络最后是三个全连接层,将最后的全连接层输出1000维向量作为后续的LSTM网络的输入。
进一步的,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,卷积神经网络中所有隐藏层都使用ReLU作为激活函数并增加Dropout随机失活。
进一步的,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,所述构建卷积神经网络和长短期记忆网络联合神经网络,包括如下子步骤:
S21:利用卷积神经网络输出的全连接层1000维特征,作为LSTM网络的输入;
S22:使用信息增益作为模型的损失函数,联合神经网络中度量图像特征分布和语义特征分布相似程度,满足
其中,P和Q表示两种概率分布,P表示数据真实分布,Q表示数据的理论分布或者P的近似分布;
S23:损失函数计算的误差δ,经过反向传播,调节卷积神经网络中的超参数矩阵,从而得到权重的更新,更新的权重和偏移量会重新作用于卷积层,重新选择特征区域,直到图文联合分布的误差小于阈值为止;
S24:使用LSTM网络的神经单元构建语义解码网络部分,使用Softmax产生语义预测。
进一步的,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,信息增益损失函数在LSTM网络中的反向传播过程中满足:
(1)i≠j情况下:qj关于θi的偏导数经过链式法则变换得出如下公式,其中按Softmax函数的形式可以简化,其中θ表示神经网络中的参数:
(2)i=j情况下:,qj关于θi的偏导数如下所示:
将定义域全部连接可以获得推导过程如下:
进一步的,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,对数据预处理包括以下子步骤:
S31:将训练集中的图像对应的场景进行嵌入化处理,其中词典规格为训练集中的词汇总量,每位单词向量的维度是256,同时保证场景单词向量和训练集中的图像一一对应;
S32:采用规模为5000的语义文本词典集;
S33:确定训练集中的每一张图像对应的五个参考语义,每次训练的过程选取其中一个进行对应训练。
进一步的,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于:图像语义解读包括以下子步骤:
S41:模型建立卷积神经网络;
S42:加载训练好的模型,通过模型中的参数矩阵,选取图像特征;
S43:通过LSTM网络的语义解读部分,使用softmax函数计算最高的预测分数,用以表示图像语义。
本发明的有益效果在于:改进了传统的卷积神经网络中的特征分布相似度量的损失函数,提出了一种新的CNN和LSTM图像高层语义理解方法的方法,进而提出了一种新的神经网络模型,能够显著有效的解读图像中的高层语义。
附图说明
图1是本发明的系统结构框图;
图2为CNN和LSTM图像高层语义理解模型网络结构;
图3为改进的参数反向传播示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
本实施例中,如图1、图2所示,一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于包括:构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读;
所述构建改进卷积神经网络,是利用大规模图像语义数据集构建并改进卷积神经网络;
所述构建卷积神经网络和长短期记忆网络联合神经网络,是利用改进的卷积神经网络和长短期记忆网络构建联合神经网络;
所述数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;
所述图像语义解读,是将图像特征输入训练完成的模型中进行图像语义解读。
构建改进卷积神经网络采用以下步骤:
S11:获取公开的大规模图像语义数据构建大规模图像语义数据集;
S12:将所述数据集处理为固定大小的224*224RGB图像,作为卷积神经网络的输入;
S13:输入图像通过5层卷积层,卷积核大小为3*3,步长为1个像素,填充为1个像素;
S14:空间池化由五个最大池化层进行,步长为2,网络最后是三个全连接层,将最后的全连接层输出1000维向量作为后续的LSTM网络的输入。
卷积神经网络中所有隐藏层都使用ReLU作为激活函数并增加Dropout随机失活。
构建卷积神经网络和长短期记忆网络联合神经网络,包括如下子步骤:
S21:利用卷积神经网络输出的全连接层1000维特征,作为LSTM网络的输入;
S22:使用信息增益作为模型的损失函数,联合神经网络中度量图像特征分布和语义特征分布相似程度,满足
其中,P和Q表示两种概率分布,P表示数据真实分布,Q表示数据的理论分布或者P的近似分布;
S23:损失函数计算的误差δ,经过反向传播,调节卷积神经网络中的超参数矩阵,从而得到权重的更新,更新的权重和偏移量会重新作用于卷积层,重新选择特征区域,直到图文联合分布的误差小于阈值为止。如图3所示,其中,λW表示卷积层中的共享权重,b表示偏移量;
S24:使用LSTM网络的神经单元构建语义解码网络部分,使用Softmax函数产生语义预测。
信息增益损失函数在LSTM网络中的反向传播过程中满足:
(1)i≠j情况下:qj关于θi的偏导数经过链式法则变换得出如下公式,其中按Softmax函数的形式可以简化,其中θ表示神经网络中的参数:
(2)i=j情况下:qj关于θi的偏导数如下所示:
将定义域全部连接可以获得推导过程如下:
对数据预处理包括以下子步骤:
S31:将训练集中的图像对应的场景进行嵌入化处理,其中词典规格为训练集中的词汇总量,每位单词向量的维度是256,同时保证场景单词向量和训练集中的图像一一对应;
S32:采用规模为5000的语义文本词典集;
S33:确定训练集中的每一张图像对应的五个参考语义,每次训练的过程选取其中一个进行对应训练。
图像语义解读包括以下子步骤:
S41:模型建立卷积神经网络;
S42:加载训练好的模型,通过模型中的参数矩阵,选取图像特征;
S43:通过LSTM网络的语义解读部分,使用softmax函数计算最高的预测分数,用以表示图像语义。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和单元并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、ROM、RAM等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于包括:构建改进的卷积神经网络、构建卷积神经网络和长短期记忆网络联合神经网络、数据预处理和图像语义解读;
所述构建改进卷积神经网络,是利用大规模图像语义数据集构建并改进卷积神经网络;
所述构建卷积神经网络和长短期记忆网络联合神经网络,是利用改进的卷积神经网络和长短期记忆网络构建联合神经网络;
所述数据预处理,是将图像进行数据增强的操作,同时将场景的文本标签实现嵌入操作完成数据预处理;
所述图像语义解读,是将图像特征输入训练完成的模型中进行图像语义解读。
2.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,所述构建改进卷积神经网络采用以下步骤:
S11:获取公开的大规模图像语义数据构建大规模图像语义数据集;
S12:将所述数据集处理为固定大小的224*224 RGB图像,作为卷积神经网络的输入;
S13:输入图像通过5层卷积层,卷积核大小为3*3,步长为1个像素,填充为1个像素;
S14:空间池化由五个最大池化层进行,步长为2,网络最后是三个全连接层,将最后的全连接层输出1000维向量作为后续的LSTM网络的输入。
3.根据权利要求2所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,卷积神经网络中所有隐藏层都使用ReLU作为激活函数并增加Dropout随机失活。
4.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,所述构建卷积神经网络和长短期记忆网络联合神经网络,包括如下子步骤:
S21:利用卷积神经网络输出的全连接层1000维特征,作为LSTM网络的输入;
S22:使用信息增益作为模型的损失函数,联合神经网络中度量图像特征分布和语义特征分布相似程度,满足
其中,P和Q表示两种概率分布,P表示数据真实分布,Q表示数据的理论分布或者P的近似分布;
S23:损失函数计算的误差δ,经过反向传播,调节卷积神经网络中的超参数矩阵,从而得到权重的更新,更新的权重和偏移量会重新作用于卷积层,重新选择特征区域,直到图文联合分布的误差小于阈值为止;
S24:使用LSTM网络的神经单元构建语义解码网络部分,使用Softmax产生语义预测。
5.根据权利要求4所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,信息增益损失函数在LSTM网络中的反向传播过程中满足:
(1)i≠j情况下:qj关于θi的偏导数经过链式法则变换得出如下公式,其中按Softmax函数的形式可以简化,其中θ表示神经网络中的参数:
(2)i=j情况下:qj关于θi的偏导数如下所示:
将定义域全部连接可以获得推导过程如下:
6.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于,对数据预处理包括以下子步骤:
S31:将训练集中的图像对应的场景进行嵌入化处理,其中词典规格为训练集中的词汇总量,每位单词向量的维度是256,同时保证场景单词向量和训练集中的图像一一对应;
S32:采用规模为5000的语义文本词典集;
S33:确定训练集中的每一张图像对应的五个参考语义,每次训练的过程选取其中一个进行对应训练。
7.根据权利要求1所述的一种基于信息增益的CNN和LSTM图像高层语义理解方法,其特征在于:图像语义解读包括以下子步骤:
S41:模型建立卷积神经网络;
S42:加载训练好的模型,通过模型中的参数矩阵,选取图像特征;
S43:通过LSTM网络的语义解读部分,使用softmax函数计算最高的预测分数,用以表示图像语义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910459249.1A CN110188819A (zh) | 2019-05-29 | 2019-05-29 | 一种基于信息增益的cnn和lstm图像高层语义理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910459249.1A CN110188819A (zh) | 2019-05-29 | 2019-05-29 | 一种基于信息增益的cnn和lstm图像高层语义理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110188819A true CN110188819A (zh) | 2019-08-30 |
Family
ID=67718782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910459249.1A Pending CN110188819A (zh) | 2019-05-29 | 2019-05-29 | 一种基于信息增益的cnn和lstm图像高层语义理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188819A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930408A (zh) * | 2019-10-15 | 2020-03-27 | 浙江大学 | 基于知识重组的语义图像压缩方法 |
CN110969187A (zh) * | 2019-10-30 | 2020-04-07 | 创意信息技术股份有限公司 | 一种图谱迁移的语义分析方法 |
CN111291672A (zh) * | 2020-01-22 | 2020-06-16 | 广州图匠数据科技有限公司 | 一种联合图像文本识别和模糊判断方法、装置及存储介质 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN113359212A (zh) * | 2021-06-22 | 2021-09-07 | 中国石油天然气股份有限公司 | 一种基于深度学习的储层特征预测方法及模型 |
WO2023201963A1 (zh) * | 2022-04-18 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 图像理解方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391646A (zh) * | 2017-07-13 | 2017-11-24 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN107506717A (zh) * | 2017-08-17 | 2017-12-22 | 南京东方网信网络科技有限公司 | 无约束场景中基于深度变换学习的人脸识别方法 |
US20180005079A1 (en) * | 2016-07-01 | 2018-01-04 | Ricoh Co., Ltd. | Active View Planning By Deep Learning |
CN108073941A (zh) * | 2016-11-17 | 2018-05-25 | 江南大学 | 一种基于深度学习的图像语义生成方法 |
CN108694200A (zh) * | 2017-04-10 | 2018-10-23 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN109359608A (zh) * | 2018-10-25 | 2019-02-19 | 电子科技大学 | 一种基于深度学习模型的人脸识别方法 |
US20190138826A1 (en) * | 2016-11-14 | 2019-05-09 | Zoox, Inc. | Spatial and Temporal Information for Semantic Segmentation |
-
2019
- 2019-05-29 CN CN201910459249.1A patent/CN110188819A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180005079A1 (en) * | 2016-07-01 | 2018-01-04 | Ricoh Co., Ltd. | Active View Planning By Deep Learning |
US20190138826A1 (en) * | 2016-11-14 | 2019-05-09 | Zoox, Inc. | Spatial and Temporal Information for Semantic Segmentation |
CN108073941A (zh) * | 2016-11-17 | 2018-05-25 | 江南大学 | 一种基于深度学习的图像语义生成方法 |
CN108694200A (zh) * | 2017-04-10 | 2018-10-23 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
CN107391646A (zh) * | 2017-07-13 | 2017-11-24 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN107506717A (zh) * | 2017-08-17 | 2017-12-22 | 南京东方网信网络科技有限公司 | 无约束场景中基于深度变换学习的人脸识别方法 |
CN109359608A (zh) * | 2018-10-25 | 2019-02-19 | 电子科技大学 | 一种基于深度学习模型的人脸识别方法 |
Non-Patent Citations (5)
Title |
---|
WHELPOKJI: "KL-divergence", 《HTTPS://BLOG.CSDN.NET/LIUDINGBOBO/ARTICLE/DETAILS/84099785》 * |
杜亚伟: "图像高层语义理解的关键问题研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
王宏宇: "网络不良图片识别技术研究", 《电脑知识与技术》 * |
赵斌 等: "基于图像语义分割和CNN模型的老人跌倒检测", 《计算机系统与应用》 * |
郭永兴: "基于深度信念网络的排序学习算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930408A (zh) * | 2019-10-15 | 2020-03-27 | 浙江大学 | 基于知识重组的语义图像压缩方法 |
CN110969187A (zh) * | 2019-10-30 | 2020-04-07 | 创意信息技术股份有限公司 | 一种图谱迁移的语义分析方法 |
CN111291672A (zh) * | 2020-01-22 | 2020-06-16 | 广州图匠数据科技有限公司 | 一种联合图像文本识别和模糊判断方法、装置及存储介质 |
CN111291672B (zh) * | 2020-01-22 | 2023-05-12 | 广州图匠数据科技有限公司 | 一种联合图像文本识别和模糊判断方法、装置及存储介质 |
CN111340006A (zh) * | 2020-04-16 | 2020-06-26 | 深圳市康鸿泰科技有限公司 | 一种手语识别方法及系统 |
CN113359212A (zh) * | 2021-06-22 | 2021-09-07 | 中国石油天然气股份有限公司 | 一种基于深度学习的储层特征预测方法及模型 |
CN113359212B (zh) * | 2021-06-22 | 2024-03-15 | 中国石油天然气股份有限公司 | 一种基于深度学习的储层特征预测方法及模型 |
WO2023201963A1 (zh) * | 2022-04-18 | 2023-10-26 | 苏州浪潮智能科技有限公司 | 图像理解方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188819A (zh) | 一种基于信息增益的cnn和lstm图像高层语义理解方法 | |
Zhou et al. | A comprehensive survey on pretrained foundation models: A history from bert to chatgpt | |
Sau et al. | Deep model compression: Distilling knowledge from noisy teachers | |
CN110929515B (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
CN108121975B (zh) | 一种联合原始数据和生成数据的人脸识别方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN108717439A (zh) | 一种基于注意力机制和特征强化融合的中文文本分类方法 | |
CN110349229B (zh) | 一种图像描述方法及装置 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
Huang et al. | Twin contrastive learning with noisy labels | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN110852089B (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
Kembuan et al. | Convolutional neural network (CNN) for image classification of indonesia sign language using tensorflow | |
Choudhary et al. | Inference-aware convolutional neural network pruning | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN111339256A (zh) | 用于文本处理的方法和装置 | |
CN116543289B (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN114648005A (zh) | 一种多任务联合学习的多片段机器阅读理解方法及装置 | |
Jones | Deep learning for image enhancement and visibility improvement | |
CN114218439A (zh) | 一种基于自驱动孪生采样和推理的视频问答方法 | |
Xiang et al. | E-CapsGan: Generative adversarial network using capsule network as feature encoder | |
Qian et al. | Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning | |
CN114612748B (zh) | 一种基于特征解耦的跨模态视频片段检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190830 |