CN106845499A - 一种基于自然语言语义的图像目标检测方法 - Google Patents
一种基于自然语言语义的图像目标检测方法 Download PDFInfo
- Publication number
- CN106845499A CN106845499A CN201710044580.8A CN201710044580A CN106845499A CN 106845499 A CN106845499 A CN 106845499A CN 201710044580 A CN201710044580 A CN 201710044580A CN 106845499 A CN106845499 A CN 106845499A
- Authority
- CN
- China
- Prior art keywords
- target
- natural language
- image
- rcnn
- object detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
- G06V10/424—Syntactic representation, e.g. by using alphabets or grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于自然语言语义的图像目标检测方法,该方法的输入包括待检测图像以及待检测目标的自然语言短语描述,首先通过卷积神经网络计算待检测图像的全局特征图,然后将全局特征图输入RPN网络计算备选目标集,计算的备选目标集由RoI池化层提取备选目标的区域特征图,最后以图像全局特征图、备选目标区域的局部特征图和位置信息作为上下文结合查询短语的词向量表示作为LSTM模块的输入计算目标区域产生查询短语的条件概率,根据条件概率返回检测结果。本发明将自然语言处理模块LSTM模型融入到Faster‑RCNN框架中,利用Faster‑RCNN框架共享计算的特点与卷积网络在图像特征提取上的优势提高基于自然语言语义的目标检测效率与精度。
Description
技术领域
本发明属于图像分析识别技术领域,特别涉及一种基于自然语言语义的图像目标检测方法。
背景技术
图像目标识别是计算机视觉领域研究的核心任务之一,近年来随着深度学习在图像领域的成功应用,目标识别的研究也取得了突破性的进展,检测的精度相比传统的方法取得了很大的提高,在某些领域已经被商业化的应用到了人们的生活中,比如阿里巴巴的刷脸支付、智能交通道路目标识别等。但是传统的目标识别方法的识别结果往往是一些事先定义好的某个类别的物体,比如人脸、车等,而一幅图像中包含的内容远远不止一些相互独立的物体,还包含了物体的属性、物体的空间关系、物体的逻辑关系等信息,这些信息不能够只用一些类标签进行描述,而是需要使用自然语言进行描述,这也是更符合人类思维的描述方式。
图像目标识别任务包括目标备选集的产生、备选目标的特征抽取、备选目标的分类以及备选目标的位置修正等4个基本子任务,Faster-RCNN模型是传统目标识别方法的典型代表,该方法利用深度卷积神经网络结合RPN网络来解决这4个子任务,其中用于产生目标备选集的RPN网络本质上也是一个深度卷积神经网络,所以整个模型可以以一种端到端的方式进行训练,相比之前的以不同的方法来分别解决这些子任务的目标识别方法,Faster-RCNN在训练的效率以及识别的精度上有了很大的提升,但是Faster-RCNN模型的识别对象仍只是预先定义好类标的物体,并不能结合自然语言进行目标识别。现有的结合自然语言进行目标检测的方法例如SCRC模型(spatial context recurrent convnet),大部分利用了非深度学习的方法来产生目标备选集,例如选择性搜索等,然后再用卷积神经网络和长短期记忆模型(LSTM)分别提取图像和自然语言的特征进行目标检测,整个框架不支持端到端的训练,检测的效率与精度有待提高。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于自然语言语义的图像目标检测方法,将Faster-RCNN模型中的分类器模块替换为处理自然语言信息的LSTM模块,同时利用Faster-RCNN模型中的RPN网络来产生目标备选集,通过结合目标的自然语言描述进行图像目标检测,实现了一种支持端到端计算的网络结构,提高了目标检测的效率与精度。
为了实现上述目的,本发明采用的技术方案是:
一种基于自然语言语义的图像目标检测方法,包括以下基本步骤:
(1)在ImageNet数据集上,训练Faster-RCNN模块的Fast-RCNN卷积神经网络以及RPN网络部分;
(2)利用训练好的Faster-RCNN模块提取的图像特征训练LSTM模块;
(3)输入图像和目标查询短语到模型中进行图像目标检测。即,对于训练好的模型,给定一个图像以及要查询的目标的自然语言短语描述,从图像中即可检测出相应目标。
上述步骤1的具体过程为:Faster-RCNN网络由RPN网络和Fast-RCNN网络通过共享卷积层组成,采用4步交替训练来训练模型,第一步先训练RPN网络。第二步使用RPN网络作为目标备选集产生模块来训练Fast-RCNN网络。第三步将Fast-RCNN的卷积层网络权值赋予RPN网络的卷积层,然后固定RPN网络的卷积层不变,单独训练RPN网络的分类层和回归层。第三步后RPN网络和Fast-RCNN网络实现了卷积层共享,第四步固定共享卷积层和RPN不变,训练Fast-RCNN其余的网络层。这四步的交替训练可以迭代进行多次,训练过程中使用误差的反向传播算法计算梯度,使用随机梯度下降算法更新网络权值。
上述步骤2的具体过程为:训练LSTM模型的数据集为ReferIt数据集,训练样本是个三元组[I,R,D],其中I表示输入图像,R表示图像上的目标,D表示对目标的描述,一张图片可以有多个目标,每个目标可以有多个描述,模型训练的目标是最大化目标区域产生对应自然语言描述的似然函数,表示为损失函数其中N表示图片数目,其中,N表示图像数目,Mi表示第i张图像中的目标数目,Dij表示第i个图像的第j个目标的描述短语的个数,Si,j,d表示自然语言描述短语,概率p(Si,j,d|context)就表示了图像中的目标区域产生对应自然语言描述的条件概率。LSTM模型参数可以使用在大型语料库上训练好的LSTM语言模型的参数来初始化,然后在ReferIt数据集上使用误差的反向传播与随机梯度下降算法来调整模型的参数直至达到收敛条件。
上述步骤3的具体过程为:首先将图像输入共享卷积神经网络提取图像的特征图,该卷积神经网络主要由若干的卷积层和池化层构成,每个卷积层都用一个卷积核对上一层得到的特征图做卷积操作,然后将卷积得到的结果用激活函数做非线性变化,这里的激活函数主要使用增强线性单元Relu,其函数形式为f(x)=max(0,x),将卷积层的计算结果通过池化层的下采样操作后就可以得到下一层的特征图。卷积神经网络计算的特征图作为RPN网络的输入,由RPN网络计算目标备选集,其中每个备选目标是一个矩形区域表明可能是物体的目标区域,一个目标区域由4个数值[x,y,w,h]确定,其中x和y表示矩形区域的左上角坐标,w和h表示区域的宽和高。目标备选集结合图像的特征图经过ROI(Region ofinterest)池化层可以直接得到备选目标区域的特征。最后,LSTM模块将图像的全局特征、备选区域的局部特征以及备选区域的位置信息作为上下文,计算该备选区域产生目标查询短语描述的条件概率条件概率最大备选目标区域就是图像目标识别的结果。
与现有技术相比,本发明的有益效果是:
1、使用RPN网络来产生目标备选集,通过共享卷积神经网络使得产生目标备选集的计算代价基本为零。
2、在计算条件概率时引入目标位置以及图像全局特征等上下文信息,可以提高识别的精度。
3、通过将LSTM模型结合到Faster-RCNN框架中,使得整个检测过程可以端到端的计算完成,进一步提高检测效率。
附图说明
图1为本发明的基于自然语言语义的图像目标检测方法流程图。
具体实施方式
为了更具体地叙述本发明,下面结合附图和具体实施方式对本发明的技术方案进行详细说明。
本发明如图1所示,包括如下步骤:
1.在ImageNet数据集上训练Faster-RCNN模块的共享卷积神经网络和RPN网络部分。
2.使用ReferIt数据集中给出的带目标自然语义标注的图像数据训练LSTM模型。
3.对于训练好的模型,给定一个图像以及要查询的目标的自然语言短语描述,从图像中检测出相应目标。
具体地,对于输入的图像,首先利用共享卷积神经网络提取图像的特征图,卷积神经网络由一系列的卷积、激活函数激活以及池化操作构成,其中卷积操作可以表示为其中I表示图像的像素值,W表示卷积核权值,进行卷积后使用激活函数进行非线性变换,常见的激活函数包括增强线性单元f(x)=max(0,x)、双曲正切函数等,池化操作主要进行信息的下采样,可以通过取最大值或者取平均值的方式进行。为了增加模型的泛化能力,对部分卷积层的计算结果进行LRN操作(local response normalization),LRN操作可以表示为其中表示第i个卷积核在图像(x,y)位置的经过激活的卷积计算结果,整个式子相当于对每个卷积核的计算结果用其相邻的卷积核计算结果进行归一化。
目标备选集的产生由RPN网络完成,RPN网络在卷积层抽取的特征图上用滑窗遍历每个位置,在每个位置生成k个anchor,每个anchor可以理解为一个小矩形区域,对于每个anchor通过分类层和回归层分别计算得分与位置坐标,计算的得分表示对应anchor属于目标区域的概率,在进行检测时,得分最高的若干个anchor就可以作为目标备选集输出。RPN网络得到的目标备选集可能存在很多重复的目标区域,可以采用非极大值抑制算法来消除重复的备选目标,该算法以得分最高的目标区域为准,筛除与之重叠面积较大的备选目标。
在训练RPN网络时,需要将每个anchor分为正样例和负样例,区分方法是将产生的anchor与已知的目标区域进行比较,如果存在某个已经的目标区域与anchor的重叠率达到某个阈值,通常取0.7,那么就将该anchor归为正样本,如果anchor与所有的目标区域的重叠率都很低,就将该anchor归为负样本,正样本anchor分配类标1,负样本anchor分配类标0,判断某个anchor是否为目标区域就对应了一个分类问题。RPN网络的任务可以细分为anchor的分类与位置的预测,可以使用多任务的损失函数来同时针对这两个目标进行训练,损失函数表示为其中pi表示网络分类输出,pi *表示anchor实际类标,ti表示网络预测的位置,ti *表示已知目标区域的位置。
RoI池化层使用最大池操作将备选区域的特征图转换为一个H×W的固定大小的特征图,具体的做法是,将大小为w×h的目标备选区域细分为H×W个子区域,每个子区域的大小为然后对每个子区域内的特征值取最大值保留得到H×W的固定大小的特征图。
得到备选目标区域的特征图后,需要计算该目标区域产生目标查询短语的条件概率其中si表示查询语句中第i个单词的词向量表示,词向量表示是指首先根据词典将单词表示为one-hot向量e,然后使用特征矩阵W得到单词的词向量表示W×e,其中特征矩阵W的每一行为词典中每个单词的特征向量。c表示上下文信息,这里的上下文信息包括查询图像的全局特征图F1,备选目标区域的局部特征图F2以及备选目标区域的位置信息L,将这三者拼接为一个向量表示C=[F1,F2,L],用C初始化LSTM隐藏状态的初始值h0和细胞状态的初始值C0,计算条件概率p(st|s1,s2,....,st-1,c)可以用公式表示为:
p(st|s1,s2,....,st-1,c)=softmax(ht),其中ht表示t时刻LSTM模型的隐藏状态向量,t时刻的隐藏状态可由t时刻的细胞状态和输出门计算得到:ht=tanh(Ct)pt,细胞状态Ct和输出门pt的计算可以表示为:
ft=σ(bf+Ufxt+Wfht-1)
gt=σ(bg+Ugxt+Wght-1)
It=tanh(bI+UIxt+WIht-1)
Ct=ftCt-1+gtIt
pt=σ(bp+Upxt+Wpht-1)
公式中的xt表示查询短语中第t个单词的词向量表示st。计算出每个备选目标区域的条件概率P(S|c)后,取条件概率最大的区域作为目标检测的结果。
以上对本发明所提供的一种基于自然语言语义的图像目标检测方法进行了详细介绍,本文对本发明的原理进行了阐述,以上详细步骤的用于帮助理解本发明的方法及核心思想;同时,对于本领域的技术人员,根据本发明的思想,在具体的实现方式上均会有变化和改进之处,这些变化和改进均属于本发明的保护范围之内。
Claims (9)
1.一种基于自然语言语义的图像目标检测方法,其特征在于,包括如下步骤:
(1)训练Faster-RCNN模块的Fast-RCNN卷积神经网络以及RPN网络部分;
(2)利用训练好的Faster-RCNN模块提取的图像特征训练LSTM模块;
(3)输入图像和目标查询短语到模型中进行图像目标检测。
2.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(1)中训练Faster-RCNN模块的具体过程如下:
模型训练在ImageNet的目标检测数据集上采用4步交替训练来进行,第一步先训练RPN网络;第二步使用RPN网络作为目标备选集产生模块来训练Fast-RCNN网络;第三步将Fast-RCNN的卷积层网络权值赋予RPN网络的卷积层,然后固定RPN网络的卷积层不变,单独训练RPN网络的分类层和回归层;第三步后RPN网络和Fast-RCNN网络实现了卷积层共享,第四步固定共享卷积层和RPN不变,训练Fast-RCNN其余的网络层。
3.根据权利要求2所述基于自然语言语义的图像目标检测方法,其特征在于,所述4步交替训练迭代进行多次,训练过程中使用误差的反向传播算法计算梯度,使用随机梯度下降算法更新网络权值。
4.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(2)中训练LSTM模型的数据集为ReferIt数据集,训练样本是个三元组[I,R,D],其中I表示输入图像,R表示图像上的目标,D表示对目标的描述,一张图片有任意个目标,每个目标有任意个描述,模型训练的目标是最大化目标区域产生对应自然语言描述的似然函数,表示为损失函数其中,N表示图像数目,Mi表示第i张图像中的目标数目,Dij表示第i个图像的第j个目标的描述短语的个数,Si,j,d表示自然语言描述短语,概率p(Si,j,d|context)就表示了图像中的目标区域产生对应自然语言描述的条件概率。
5.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(2)中LSTM模型计算条件概率p(Si,j,d|context)时以图像的全局特征F1,备选目标区域的局部特征F2以及备选目标区域的位置信息L作为上下文信息context=[F1,F2,L]。
6.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(2)中使用图像的全局特征F1,备选目标区域的局部特征F2以及备选目标区域的位置信息L这些上下文信息来初始化LSTM模型的隐藏状态h0和细胞状态C0。
7.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(2)中LSTM模型计算条件概率p(Si,j,d|context)时以查询短语的词向量表示作为时序数据输入,利用公式计算备选目标区域产生查询短语的条件概率,其中si表示查询语句中第i个单词的词向量表示,词向量表示是指首先根据词典将单词表示为one-hot向量e,然后使用特征矩阵W得到单词的词向量表示W×e,其中特征矩阵W的每一行为词典中每个单词的特征向量。
8.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,所述步骤(3)中进行图像目标检测时利用Fast-RCNN卷积网络提取图像全局特征图,RPN网络根据图像全局特征图产生备选目标集,其中RPN网络和Fast-RCNN网络通过共享卷积网络部分实现计算共享,使得产生目标备选集的计算代价基本降为零。
9.根据权利要求1所述基于自然语言语义的图像目标检测方法,其特征在于,步骤(3)将LSTM模块加入到Faster-RCNN框架中,实现了一个支持端到端计算的可以结合自然语言进行图像目标检测的完整网络框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710044580.8A CN106845499A (zh) | 2017-01-19 | 2017-01-19 | 一种基于自然语言语义的图像目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710044580.8A CN106845499A (zh) | 2017-01-19 | 2017-01-19 | 一种基于自然语言语义的图像目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106845499A true CN106845499A (zh) | 2017-06-13 |
Family
ID=59119771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710044580.8A Pending CN106845499A (zh) | 2017-01-19 | 2017-01-19 | 一种基于自然语言语义的图像目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845499A (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451607A (zh) * | 2017-07-13 | 2017-12-08 | 山东中磁视讯股份有限公司 | 一种基于深度学习的典型人物的身份识别方法 |
CN107578062A (zh) * | 2017-08-19 | 2018-01-12 | 四川大学 | 一种基于属性概率向量引导注意模式的图片描述方法 |
CN107766894A (zh) * | 2017-11-03 | 2018-03-06 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
CN108319633A (zh) * | 2017-11-17 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
CN108984515A (zh) * | 2018-05-22 | 2018-12-11 | 广州视源电子科技股份有限公司 | 错别字检测方法、装置及计算机可读存储介质、终端设备 |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN109522913A (zh) * | 2017-09-18 | 2019-03-26 | 同方威视技术股份有限公司 | 检查方法和检查设备以及计算机可读介质 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109711463A (zh) * | 2018-12-25 | 2019-05-03 | 广东顺德西安交通大学研究院 | 基于注意力的重要对象检测方法 |
CN110033469A (zh) * | 2019-04-01 | 2019-07-19 | 北京科技大学 | 一种亚像素边缘检测方法及系统 |
CN110070124A (zh) * | 2019-04-15 | 2019-07-30 | 广州小鹏汽车科技有限公司 | 一种基于生成式对抗网络的图像扩增方法及系统 |
CN110188772A (zh) * | 2019-05-22 | 2019-08-30 | 清华大学深圳研究生院 | 基于深度学习的中文图像描述方法 |
CN110287875A (zh) * | 2019-06-25 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、电子设备和存储介质 |
CN110555337A (zh) * | 2018-05-30 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 一种指示对象的检测方法、装置以及相关设备 |
CN110688976A (zh) * | 2019-10-09 | 2020-01-14 | 创新奇智(北京)科技有限公司 | 基于图像识别的门店比对方法 |
WO2020010975A1 (zh) * | 2018-07-11 | 2020-01-16 | 腾讯科技(深圳)有限公司 | 图像目标检测方法、装置、存储介质及电子设备 |
CN111103629A (zh) * | 2018-10-25 | 2020-05-05 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法、装置、nvr设备及安检系统 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111368118A (zh) * | 2020-02-13 | 2020-07-03 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111709945A (zh) * | 2020-07-17 | 2020-09-25 | 成都三零凯天通信实业有限公司 | 一种基于深度局部特征的视频拷贝检测方法 |
CN111931593A (zh) * | 2020-07-16 | 2020-11-13 | 上海无线电设备研究所 | 一种基于深度神经网络和时频图像序列的弱目标检测方法 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112308081A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN113065431A (zh) * | 2021-03-22 | 2021-07-02 | 浙江理工大学 | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 |
CN113204666A (zh) * | 2021-05-26 | 2021-08-03 | 杭州联汇科技股份有限公司 | 一种基于文字查找匹配图片的方法 |
CN113420738A (zh) * | 2021-08-24 | 2021-09-21 | 中国地质大学(武汉) | 自适应网络遥感图像分类方法、计算机设备及存储介质 |
CN113420783A (zh) * | 2021-05-27 | 2021-09-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于图文匹配的智能人机交互方法及装置 |
CN113537255A (zh) * | 2020-11-09 | 2021-10-22 | 成都中医药大学 | 一种基于图像标注深度学习算法模型的药材和饮片的识别方法 |
CN114037831A (zh) * | 2021-07-20 | 2022-02-11 | 星汉智能科技股份有限公司 | 图像深度密集描述方法、系统及存储介质 |
CN115830721A (zh) * | 2022-11-02 | 2023-03-21 | 深圳市新良田科技股份有限公司 | 活体检测方法、装置、终端设备和可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
-
2017
- 2017-01-19 CN CN201710044580.8A patent/CN106845499A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020111A (zh) * | 2012-10-29 | 2013-04-03 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
CN103020111B (zh) * | 2012-10-29 | 2015-06-17 | 苏州大学 | 基于词汇树层次语义模型的图像检索方法 |
Non-Patent Citations (4)
Title |
---|
RONGHANG HU ET.AL: "Segmentation from Natural Language Expressions", 《ARXIV:1603.06180V1 [CS.CV]》 * |
RONGHANG HU.ET.AL: "Natural Language Object Retrieval", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 * |
SHAOQING REN,ET.AL: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV:1506.01497V3 [CS.CV]》 * |
YUE CAO ET.AL: "Deep Visual-Semantic Hashing for Cross-Modal Retrieval", 《IN PROCEEDINGS OF THE 22ND ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 * |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451607A (zh) * | 2017-07-13 | 2017-12-08 | 山东中磁视讯股份有限公司 | 一种基于深度学习的典型人物的身份识别方法 |
CN107578062A (zh) * | 2017-08-19 | 2018-01-12 | 四川大学 | 一种基于属性概率向量引导注意模式的图片描述方法 |
CN109522913A (zh) * | 2017-09-18 | 2019-03-26 | 同方威视技术股份有限公司 | 检查方法和检查设备以及计算机可读介质 |
CN107766894A (zh) * | 2017-11-03 | 2018-03-06 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
CN107766894B (zh) * | 2017-11-03 | 2021-01-22 | 吉林大学 | 基于注意力机制和深度学习的遥感图像自然语言生成方法 |
CN108319633A (zh) * | 2017-11-17 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置及服务器、系统、存储介质 |
CN108984515A (zh) * | 2018-05-22 | 2018-12-11 | 广州视源电子科技股份有限公司 | 错别字检测方法、装置及计算机可读存储介质、终端设备 |
CN110555337A (zh) * | 2018-05-30 | 2019-12-10 | 腾讯科技(深圳)有限公司 | 一种指示对象的检测方法、装置以及相关设备 |
CN110555337B (zh) * | 2018-05-30 | 2022-12-06 | 腾讯科技(深圳)有限公司 | 一种指示对象的检测方法、装置以及相关设备 |
US11176404B2 (en) * | 2018-07-11 | 2021-11-16 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for detecting object in image, and storage medium thereof |
WO2020010975A1 (zh) * | 2018-07-11 | 2020-01-16 | 腾讯科技(深圳)有限公司 | 图像目标检测方法、装置、存储介质及电子设备 |
CN109255352A (zh) * | 2018-09-07 | 2019-01-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN109255352B (zh) * | 2018-09-07 | 2021-06-22 | 北京旷视科技有限公司 | 目标检测方法、装置及系统 |
CN111103629A (zh) * | 2018-10-25 | 2020-05-05 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法、装置、nvr设备及安检系统 |
CN109543820B (zh) * | 2018-11-23 | 2022-09-23 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109711463B (zh) * | 2018-12-25 | 2023-04-07 | 广东顺德西安交通大学研究院 | 基于注意力的重要对象检测方法 |
CN109711463A (zh) * | 2018-12-25 | 2019-05-03 | 广东顺德西安交通大学研究院 | 基于注意力的重要对象检测方法 |
CN110033469A (zh) * | 2019-04-01 | 2019-07-19 | 北京科技大学 | 一种亚像素边缘检测方法及系统 |
CN110033469B (zh) * | 2019-04-01 | 2021-08-27 | 北京科技大学 | 一种亚像素边缘检测方法及系统 |
CN110070124A (zh) * | 2019-04-15 | 2019-07-30 | 广州小鹏汽车科技有限公司 | 一种基于生成式对抗网络的图像扩增方法及系统 |
CN110188772A (zh) * | 2019-05-22 | 2019-08-30 | 清华大学深圳研究生院 | 基于深度学习的中文图像描述方法 |
CN110287875A (zh) * | 2019-06-25 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、电子设备和存储介质 |
CN110287875B (zh) * | 2019-06-25 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、电子设备和存储介质 |
CN110688976A (zh) * | 2019-10-09 | 2020-01-14 | 创新奇智(北京)科技有限公司 | 基于图像识别的门店比对方法 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111368118A (zh) * | 2020-02-13 | 2020-07-03 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111368118B (zh) * | 2020-02-13 | 2023-04-18 | 中山大学 | 一种图像描述生成方法、系统、装置和存储介质 |
CN111931593B (zh) * | 2020-07-16 | 2024-04-26 | 上海无线电设备研究所 | 一种基于深度神经网络和时频图像序列的弱目标检测方法 |
CN111931593A (zh) * | 2020-07-16 | 2020-11-13 | 上海无线电设备研究所 | 一种基于深度神经网络和时频图像序列的弱目标检测方法 |
CN111709945B (zh) * | 2020-07-17 | 2023-06-30 | 深圳市网联安瑞网络科技有限公司 | 一种基于深度局部特征的视频拷贝检测方法 |
CN111709945A (zh) * | 2020-07-17 | 2020-09-25 | 成都三零凯天通信实业有限公司 | 一种基于深度局部特征的视频拷贝检测方法 |
CN112085837B (zh) * | 2020-09-10 | 2022-04-26 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112308081A (zh) * | 2020-11-05 | 2021-02-02 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN112308081B (zh) * | 2020-11-05 | 2023-05-30 | 南强智视(厦门)科技有限公司 | 一种基于注意力机制的图像目标预测方法 |
CN113537255A (zh) * | 2020-11-09 | 2021-10-22 | 成都中医药大学 | 一种基于图像标注深度学习算法模型的药材和饮片的识别方法 |
CN113065431A (zh) * | 2021-03-22 | 2021-07-02 | 浙江理工大学 | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 |
CN113204666A (zh) * | 2021-05-26 | 2021-08-03 | 杭州联汇科技股份有限公司 | 一种基于文字查找匹配图片的方法 |
CN113420783A (zh) * | 2021-05-27 | 2021-09-21 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于图文匹配的智能人机交互方法及装置 |
CN114037831A (zh) * | 2021-07-20 | 2022-02-11 | 星汉智能科技股份有限公司 | 图像深度密集描述方法、系统及存储介质 |
CN113420738B (zh) * | 2021-08-24 | 2021-11-09 | 中国地质大学(武汉) | 自适应网络遥感图像分类方法、计算机设备及存储介质 |
CN113420738A (zh) * | 2021-08-24 | 2021-09-21 | 中国地质大学(武汉) | 自适应网络遥感图像分类方法、计算机设备及存储介质 |
CN115830721A (zh) * | 2022-11-02 | 2023-03-21 | 深圳市新良田科技股份有限公司 | 活体检测方法、装置、终端设备和可读存储介质 |
CN115830721B (zh) * | 2022-11-02 | 2024-05-03 | 深圳市新良田科技股份有限公司 | 活体检测方法、装置、终端设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845499A (zh) | 一种基于自然语言语义的图像目标检测方法 | |
CN111539469B (zh) | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 | |
Qi et al. | StagNet: An attentive semantic RNN for group activity and individual action recognition | |
CN110378281A (zh) | 基于伪3d卷积神经网络的组群行为识别方法 | |
CN104217214B (zh) | 基于可配置卷积神经网络的rgb‑d人物行为识别方法 | |
CN107818302A (zh) | 基于卷积神经网络的非刚性多尺度物体检测方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN108549893A (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN107368845A (zh) | 一种基于优化候选区域的Faster R‑CNN目标检测方法 | |
CN108416394A (zh) | 基于卷积神经网络的多目标检测模型构建方法 | |
CN107229904A (zh) | 一种基于深度学习的目标检测与识别方法 | |
CN110046572A (zh) | 一种基于深度学习的地标建筑物识别与检测方法 | |
CN109697435A (zh) | 人流量监测方法、装置、存储介质及设备 | |
CN107169435A (zh) | 一种基于雷达仿真图像的卷积神经网络人体动作分类方法 | |
CN106970615A (zh) | 一种深度强化学习的实时在线路径规划方法 | |
CN108846350A (zh) | 容忍年龄变化的人脸识别方法 | |
CN109817276A (zh) | 一种基于深度神经网络的蛋白质二级结构预测方法 | |
CN110110602A (zh) | 一种基于三维残差神经网络和视频序列的动态手语识别方法 | |
CN110321862B (zh) | 一种基于紧致三元损失的行人再识别方法 | |
CN108805080A (zh) | 基于上下文的多层次深度递归网络群体行为识别方法 | |
CN109886269A (zh) | 一种基于注意力机制的交通广告牌识别方法 | |
CN110956158A (zh) | 一种基于教师学生学习框架的遮挡行人再标识方法 | |
CN112949647A (zh) | 三维场景描述方法、装置、电子设备和存储介质 | |
Ćosović et al. | CNN classification of the cultural heritage images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |