CN109711463A - 基于注意力的重要对象检测方法 - Google Patents

基于注意力的重要对象检测方法 Download PDF

Info

Publication number
CN109711463A
CN109711463A CN201811594302.0A CN201811594302A CN109711463A CN 109711463 A CN109711463 A CN 109711463A CN 201811594302 A CN201811594302 A CN 201811594302A CN 109711463 A CN109711463 A CN 109711463A
Authority
CN
China
Prior art keywords
attention
image
important object
object detection
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811594302.0A
Other languages
English (en)
Other versions
CN109711463B (zh
Inventor
宋凌云
杨宽
刘均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Original Assignee
GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY filed Critical GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY
Priority to CN201811594302.0A priority Critical patent/CN109711463B/zh
Publication of CN109711463A publication Critical patent/CN109711463A/zh
Application granted granted Critical
Publication of CN109711463B publication Critical patent/CN109711463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明一种基于注意力的重要对象检测算法,包括步骤1,建立基于注意力的重要对象检测模型;步骤2,基于注意力的对象定位对基于注意力的重要对象检测模型进行训练;步骤3,利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。通过考虑人类视觉系统的特点,人类在识别图像时并不会察看图像的所有区域,而是会立即被图像中感兴趣的区域吸引而重点观察这些区域,从而进一步识别和理解整幅图像的语义。从而本发明将图像检测算法和图像注释算法结合起来,利用图像注释算法提供的注意力,快速检测图像中最有可能最在重点对象的区域,大大减少了图像中重点对象的检测时间,提高了对象检测的准确率。

Description

基于注意力的重要对象检测方法
技术领域
本发明属于计算机应用领域、人工智能、图像理解、对象检测和图像注释的自动生成领域,特别涉及一种基于注意力的重要对象检测方法。
背景技术
随着数码设备的普及和移动互联网络的发展,图像数据量出现了爆炸性增长。在现实生活中,网络搜索引擎、车辆和脸部识别系统、行人追踪等系统都对图像的自动理解有很高的需求。如何提高图像识别算法的精度和效率,对图像资源进行有效的检索和管理是当前计算机视觉领域研究的重要课题。对象检测是图像自动理解任务中的核心和重点,它不仅要求识别出图像中出现了哪些对象,而且要求算法给出对象在图像中的具体位置。传统的对象检测算法对图像所有可能位置进行了扫描和识别,不仅需要花费大量时间和计算资源,而且存在准确率低的缺点。
发明内容
针对现有技术中存在的问题,本发明提供一种基于注意力的重要对象检测方法,计算量相对较小、准确率高,能够提高计算机的图像存储、检索和管理能力。
本发明是通过以下技术方案来实现:
基于注意力的重要对象检测方法,包括如下步骤,
步骤1,建立基于注意力的重要对象检测模型;
步骤1.1,编码;
对图像数据集中的每一幅图像通过编码器进行编码,编码为一个和对应图像成设定比例大小的三维的特征图;
步骤1.2,解码;
将特征图解码为一句对应图像的文本描述,将文本描述进行分词得到的所有词语分别作为标签,对于每个标签得到一个与对应图像相同尺寸的注意力图,注意力图的每个位置数值的大小表示对应图像中每个位置对于对应标签的重要程度;
步骤2,基于注意力的对象定位对基于注意力的重要对象检测模型进行训练;
步骤2.1,根据注意力图,选取注意力超过设定阈值的区域,用深度卷积网络识别所选取区域中所包含的对象类别,并生成代表重要对象位置的矩形框区域;
步骤2.2,利用感兴趣区域池化抽取矩形框区域的特征,将得到的特征向量并送入全连接层和softmax分类器,计算所选矩形框区域在各个标签上的概率分布;选取概率值最大的标签作为矩形框区域对应的标签;
步骤2.3,重复步骤2.1和2.2处理所有的注意力图后,利用所得概率分布进行基于Noisy-Or的多示例多标签分类,计算整个对应图像在各个标签上的预测概率值基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差,利用反向传播算法训练基于注意力的重要对象检测模型的参数;
步骤3,利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。
优选的,具体包括如下步骤,
步骤1.1,基于卷积神经网络,对图像数据集D中的每一幅图像Id进行图像编码,得到图像Id的特征图V=[v1,v2,…,vm];其中,1≤d≤D,m是特征图长和宽的乘积;
步骤1.2,在T个时刻内,通过LSTM模型构建基于长短时记忆单元的循环神经网络;通过循环神经网络将特征图解码为对应图像的文本描述和关于文本描述的注意力图αt=[αt1t2,…,αtm];注意力图即为特征图上每个位置对于对应标签的注意力权重;
步骤2.1,
首先,基于LSTM模型,计算第t个时刻的图像注意力向量
其次,基于注意力向量xt,LSTM模型的隐状态向量ht和前一个标签wt-1,根据如下公式预测第t个时刻的标签wt
p(wt|V,wt-1)∝exp(Po(yt-1+Phht+Pzxt))
其中,参数Po,Ph,和Pz是被随机初始化的;隐状态向量ht和向量ct被两个独立的多层感知机初始化,所述多层感知机的输入是向量vi的平均值,yt-1表示图像前一个标签的编码向量;
然后,根据当前时刻即第t个时刻在特征图中每个位置的注意力权重,生成两个尺寸的矩形框,表示和标签wt描述的对象关联性最大的两个区域;
步骤2.2,在特征图V上,对每个矩形框内的区域做感兴趣区域池化,得到每个矩形框内图像区域的固定长度的特征向量;
将上述特征向量输入全连接层和softmax的分类器,得到这两个图像区域在标签wt上的概率,记为此时整幅图像在标签wt上的概率记为
步骤2.3,由基于Noisy-Or的多示例多标签分类方法,
计算得到整幅图像在标签wt上的预测概率基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差,利用反向传播算法训练基于注意力的重要对象检测模型的参数;
步骤3,利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。
进一步,步骤1.1中,所述的卷积神经网络包括依次设置的5个卷积块,1个特征融合层和1个卷积层。
再进一步,步骤1.2中,所述的长短时记忆单元如下,
it=σ(Wiyt-1+Uiht-1+Eixt+bi),
ft=σ(Wfyt-1+Ufht-1+Efxt+bf),
ct=ftct-1+ittanh(Wcyt-1+Ucht-1+Ecxt+bc),
ot=σ(Woyt-1+Uoht-1+Eoxt+bo),
ht=ottanh(ct),
其中,W,U,Z表示权重矩阵,b表示偏置向量,σ表示sigmoid方程,即σ(n)=1/(1+e-n),yt表示图像标签的编码向量,xt表示生成词wt时所用的注意力向量。
再进一步,步骤1.2中,在第t个时刻,所述的注意力图可以表示为由一个多层感知机和一个softmax分类器计算得来,过程如下:
αt=softmax(Msst+b),
其中,Mv∈Rk×C,Mh∈Rk×d和Ms∈Rk,表示转换矩阵,目的是将V和ht-1映射到一个共享空间中;b∈R1和bs∈Rk是偏置,d表示向量ht的维度;符号表示矩阵和向量的加法,即将矩阵的每一列都和向量的对应元素相加。
进一步,所述Softmax分类器的定义如下:
其中,j=1,2,…,K.z是Softmax分类器的分类对象。
进一步,步骤2.1中,在t=0时刻,ht和ct表示为h0和c0,h0和c0的计算过程如下:
其中,分别表示两个不同多层感知机的方程。
进一步,步骤2.2中,感兴趣区域池化的具体步骤如下,
a.根据输入图像,将感兴趣区域映射到特征图的对应位置;
b.将映射后的区域划分成相同大小的矩阵块,矩阵块的个数与期望的输出向量维度相同;
c.然后对每个矩阵块,提取矩阵中的最大值,将所有矩阵块的最大值拼接得到特征向量。
与现有技术相比,本发明具有以下有益的技术效果:
本发明基于注意力的对象检测方法,通过考虑人类视觉系统的特点,人类在识别图像时并不会察看图像的所有区域,而是会立即被图像中感兴趣的区域吸引而重点观察这些区域,从而进一步识别和理解整幅图像的语义。从而本发明将图像检测算法和图像注释算法结合起来,利用图像注释算法提供的注意力,快速检测图像中最有可能最在重点对象的区域,大大减少了图像中重点对象的检测时间,提高了对象检测的准确率。
附图说明
图1为本发明实例中所述方法的逻辑框图。
图2为本发明实例中所述的图像特征编码网络示意图。
图3a为本发明实例中所述的原始图像。
图3b为本发明实例中所述的原始图像上覆盖注意力图后得到的图像。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明基于注意力的对象检测方法,主要包含三个模块:1)图像编码器。2)解码器。3)基于注意力的对象定位;如图1所示:
第一、二个模块采用流行的编码-解码结构,包括编码器和解码器。
编码器是一个卷积神经网络,目的是将一个图像编码为一个和图像成设定比例大小的拥有三个维度的特征图。
解码器是一个循环神经网络,目的是将编码器输出的特征图解码为一句图像的文本描述,如图1所示的,“两个小孩在踢足球”。解码器在生成图像的文本描述的同时会针对文本描述的任意一个标签输出一个与原图相同尺寸的注意力图,注意力图的每个位置数值的大小表示原图像中每个位置对于对应标签的重要程度,即该位置的数值越大该位置越有可能是图像中对于标签有意义对象。
第三个模块进行基于注意力的对象定位,具体过程是:首先根据解码器模块生成的注意力图,选取注意力较大的区域,用深度卷积网络识别所选取区域中所包含的对象类别,并生成代表重要对象位置的矩形框。然后利用感兴趣区域池化抽取矩形框区域的特征,将得到的特征向量并送入全连接层和softmax分类器,计算所选矩形框区域在各个标签上的概率分布,最后利用所得概率分布进行基于Noisy-Or的多示例多标签分类,计算整个图像在各个标签类别上的预测概率值基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差,利用反向传播算法训练基于注意力的重要对象检测模型的参数;
最后,利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。
本优选实例中,将本发明的方案分为三个部分:图像编码器、解码器和词语定位。具体如下所述:
1.图像编码器
图像特征质量的好坏,是决定后面图像特征解码及注释预测性能的重要特征。我们构建了一个卷积神经网络作为编码器来抽取图像的特征,如图2所示:
具体地,输入的图像I的尺寸为224×224,我们用图2所示的图像特征编码网络将图像I编码为一个三维的特征图。该图像特征编码网络由5个卷积块,1个特征融合层和1个卷积层组成,前5个卷积块(即block1~block5)中包含的卷积层的数目分别为2,2,3,3,3。前5个卷积块中的每个卷积层所用的卷积核大小为3×3,卷积核的数目分别为64,128,256,512,512。将第3、4、5个卷积块中最后一个卷积层生成的特征图通过平均池化缩放到一个相同的尺寸,即和卷积块5生成的特征图尺寸相同,然后将这些缩放后的特征图连接起来,组合成一个三维的特征融合层,其厚度为1280,长和宽均为14。在这个特征融合层的后面接一个卷积层,卷积核conv的大小是1×1,卷积核的数目为512,输出一个厚度为512,长和宽均为14的特征图,记为V=[v1,v2,…,vm](1≤i≤m),其中vi∈R512表示特征图中每个位置的向量,m是特征图长和宽的乘积。
2.解码器
解码器的目的是将编码器输出的特征图中的图像特征解码为图像的文本描述。我们使用一个基于注意力的循环神经网络作为解码器,将图像的编码特征解码为图像的标签,同时生成一个原图大小的注意力图,如图3b是由图3a的注意力图覆盖在图3a上之后得到的图像,白色区域是我们所采用的循环神经网络在预测某个标签时注意力集中的地方。
解码器所用的循环神经网络是基于长短时记忆单元,LSTM构建的,在第t个时刻,长短时记忆单元的定义如下:
it=σ(Wiyt-1+Uiht-1+Eixt+bi), (1)
ft=σ(Wfyt-1+Ufht-1+Efxt+bf), (2)
ct=ftct-1+ittanh(Wcyt-1+Ucht-1+Ecxt+bc), (3)
ot=σ(Woyt-1+Uoht-1+Eoxt+bo), (4)
ht=ottanh(ct), (5)
其中,W,U,Z表示权重矩阵,b表示偏置向量,σ表示sigmoid方程,即σ(n)=1/(1+e-n),yt表示图像标签的编码向量,xt表示生成词wt时所用的注意力向量。xt的计算定义如下:
其中,αti表示特征图V上第i个位置上的注意力权重。在第t个时刻,注意力图可以表示为αt=[αt1t2,…,αtm],由一个多层感知机和一个softmax分类器计算得来,过程如下:
αt=softmax(Msst+b), (7)
其中,Mv∈Rk×C,Mh∈Rk×d和Ms∈Rk,表示转换矩阵,目的是将V和ht-1映射到一个共享空间中。b∈R1和bs∈Rk是偏置,d表示向量ht的维度。符号表示矩阵和向量的加法,即将矩阵的每一列都和向量的对应元素相加。
Softmax分类器的定义如下:
基于注意力向量xt,LSTM的隐状态向量ht和前一个标签wt-1,我们可以预测下一个标签,公式可以表示为:
p(wt|V,wt-1)∝exp(Po(yt-1+Phht+Pzxt)), (10)
其中,参数Po,Ph,和Pz是被随机初始化的,yt-1表示图像前一个标签的编码向量。隐状态向量ht和隐状态向量ct被两个独立的多层感知机初始化,多层感知机的输入是向量vi的平均值。在t=0时刻,ht和ct表示为h0和c0,h0和c0计算过程如下:
其中,分别表示两个不同多层感知机的方程。
根据LSTM在每个时刻生成的特征图,我们可以生成两种尺寸的矩形框,即4×4和8×8,分别对应原图中64×64和128×128的区域。随后我们通过感兴趣区域池化方法,在特征图V上抽取注意力区域的固定长度的特征向量。
其中,感兴趣区域池化方法具体操作如下:
1)根据输入图像,将感兴趣区域映射到特征图的对应位置;
2)将映射后的区域划分成相同大小的矩阵块,块的个数与期望的输出向量维度相同;
3)然后对每个矩阵块,提取矩阵中的最大值,将所有矩阵块的最大值拼接就得到特征向量。
具体地,假设图像有T个词,则LSTM模型通过T个时刻生成T个预测标签,每个时刻内生成一个注意力图。根据t,1≤t≤T,时刻的注意力图,生成两个矩形框,表示图像中和词wt描述的对象关联性最大的两个区域,将这两个区域的特征分别送入后面的全连接层和softmax分类器,会得到这两个图像区域在标签wt上的概率,记为此时整幅图像在标签wt上的预测概率记为
我们用基于Noisy-Or的多示例多标签分类方法计算过程如下:
基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差,利用反向传播算法训练基于注意力的重要对象检测模型的参数;
利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测,检测时通过完成训练的基于注意力的重要对象检测模型,所得到的对应标签的特征图,即为对重要对象的检测结果。
此时,我们得到了每个文本词(包括形容词,动词和名词)所描述的对象的位置和类别。因为图像的文本描述的重点往往是图像中重要的语义对象,因此我们的方法能够从图像级别的语义描述中学习到图中重要语义对象的类别和位置,即完成弱监督的对象检测,同时还可以避免背景信息,如天空,马路等的干扰,提高对象(如行人,动物等)检测效率。
具体模型训练的描述为表1。
表1基于注意力的重要对象模型训练方法

Claims (8)

1.基于注意力的重要对象检测方法,其特征在于,包括如下步骤,
步骤1,建立基于注意力的重要对象检测模型;
步骤1.1,编码;
对图像数据集中的每一幅图像通过编码器进行编码,编码为一个和对应图像成设定比例大小的三维的特征图;
步骤1.2,解码;
将特征图解码为一句对应图像的文本描述,将文本描述进行分词得到的所有词语分别作为标签,对于每个标签得到一个与对应图像相同尺寸的注意力图,注意力图的每个位置数值的大小表示对应图像中每个位置对于对应标签的重要程度;
步骤2,基于注意力的对象定位对基于注意力的重要对象检测模型进行训练;
步骤2.1,根据注意力图,选取注意力超过设定阈值的区域,用深度卷积网络识别所选取区域中所包含的对象类别,并生成代表重要对象位置的矩形框区域;
步骤2.2,利用感兴趣区域池化抽取矩形框区域的特征,将得到的特征向量并送入全连接层和softmax分类器,计算所选矩形框区域在各个标签上的概率分布;选取概率值最大的标签作为矩形框区域对应的标签;
步骤2.3,重复步骤2.1和2.2处理所有的注意力图后,利用所得概率分布进行基于Noisy-Or的多示例多标签分类,计算整个对应图像在各个标签上的预测概率值基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差,利用反向传播算法训练基于注意力的重要对象检测模型的参数;
步骤3,利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。
2.根据权利要求1所述的基于注意力的重要对象检测方法,其特征在于,具体包括如下步骤,
步骤1.1,基于卷积神经网络,对图像数据集D中的每一幅图像Id进行图像编码,得到图像Id的特征图V=[v1,v2,…,vm];其中,1≤d≤D,m是特征图长和宽的乘积;
步骤1.2,在T个时刻内,通过LSTM模型构建基于长短时记忆单元的循环神经网络;通过循环神经网络将特征图解码为对应图像的文本描述和关于文本描述的注意力图αt=[αt1t2,…,αtm];注意力图即为特征图上每个位置对于对应标签的注意力权重;
步骤2.1,
首先,基于LSTM模型,计算第t个时刻的图像注意力向量
其次,基于注意力向量xt,LSTM模型的隐状态向量ht和前一个标签wt-1,根据如下公式预测第t个时刻的标签wt
p(wt|V,wt-1)∝exp(Po(yt-1+Phht+Pzxt))
其中,参数Po,Ph,和Pz是被随机初始化的;隐状态向量ht和向量ct被两个独立的多层感知机初始化,所述多层感知机的输入是向量vi的平均值,yt-1表示图像前一个标签的编码向量;
然后,根据当前时刻即第t个时刻在特征图中每个位置的注意力权重,生成两个尺寸的矩形框,表示和标签wt描述的对象关联性最大的两个区域;
步骤2.2,在特征图V上,对每个矩形框内的区域做感兴趣区域池化,得到每个矩形框内图像区域的固定长度的特征向量;
将上述特征向量输入全连接层和softmax的分类器,得到这两个图像区域在标签wt上的概率,记为此时整幅图像在标签wt上的概率记为
步骤2.3,由基于Noisy-Or的多示例多标签分类方法,
计算得到整幅图像在标签wt上的预测概率基于获得的预测概率使用平方差损失函数计算基于注意力的重要对象检测模型的预测概率值与真实概率值之间的误差,利用反向传播算法训练基于注意力的重要对象检测模型的参数;
步骤3,利用完成训练的基于注意力的重要对象检测模型对图像的重要对象进行检测。
3.根据权利要求2所述的基于注意力的重要对象检测方法,其特征在于,步骤1.1中,所述的卷积神经网络包括依次设置的5个卷积块,1个特征融合层和1个卷积层。
4.根据权利要求2所述的基于注意力的重要对象检测方法,其特征在于,步骤1.2中,所述的长短时记忆单元如下,
it=σ(Wiyt-1+Uiht-1+Eixt+bi),
ft=σ(Wfyt-1+Ufht-1+Efxt+bf),
ct=ftct-1+it tanh(Wcyt-1+Ucht-1+Ecxt+bc),
ot=σ(Woyt-1+Uoht-1+Eoxt+bo),
ht=ot tanh(ct),
其中,W,U,Z表示权重矩阵,b表示偏置向量,σ表示sigmoid方程,即σ(n)=1/(1+e-n),yt表示图像标签的编码向量,xt表示生成词wt时所用的注意力向量。
5.根据权利要求2所述的基于注意力的重要对象检测方法,其特征在于,步骤1.2中,在第t个时刻,所述的注意力图可以表示为αt=[αt1t2,…,αtm],由一个多层感知机和一个softmax分类器计算得来,过程如下:
αt=softmax(Msst+b),
其中,Mv∈Rk×C,Mh∈Rk×d和Ms∈Rk,表示转换矩阵,目的是将V和ht-1映射到一个共享空间中;b∈R1和bs∈Rk是偏置,d表示向量ht的维度;符号表示矩阵和向量的加法,即将矩阵的每一列都和向量的对应元素相加。
6.根据权利要求5所述的基于注意力的重要对象检测方法,其特征在于,所述Softmax分类器的定义如下:
其中,j=1,2,…,K.z是Softmax分类器的分类对象。
7.根据权利要求2所述的基于注意力的重要对象检测方法,其特征在于,步骤2.1中,在t=0时刻,ht和ct表示为h0和c0,h0和c0的计算过程如下:
其中,分别表示两个不同多层感知机的方程。
8.根据权利要求1或2所述的基于注意力的重要对象检测方法,其特征在于,步骤2.2中,感兴趣区域池化的具体步骤如下,
a.根据输入图像,将感兴趣区域映射到特征图的对应位置;
b.将映射后的区域划分成相同大小的矩阵块,矩阵块的个数与期望的输出向量维度相同;
c.然后对每个矩阵块,提取矩阵中的最大值,将所有矩阵块的最大值拼接得到特征向量。
CN201811594302.0A 2018-12-25 2018-12-25 基于注意力的重要对象检测方法 Active CN109711463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811594302.0A CN109711463B (zh) 2018-12-25 2018-12-25 基于注意力的重要对象检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811594302.0A CN109711463B (zh) 2018-12-25 2018-12-25 基于注意力的重要对象检测方法

Publications (2)

Publication Number Publication Date
CN109711463A true CN109711463A (zh) 2019-05-03
CN109711463B CN109711463B (zh) 2023-04-07

Family

ID=66258146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811594302.0A Active CN109711463B (zh) 2018-12-25 2018-12-25 基于注意力的重要对象检测方法

Country Status (1)

Country Link
CN (1) CN109711463B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276715A (zh) * 2019-05-14 2019-09-24 北京邮电大学 一种图像去夜方法和装置
CN110276269A (zh) * 2019-05-29 2019-09-24 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110321943A (zh) * 2019-06-25 2019-10-11 中国科学院自动化研究所 基于半监督深度学习的ct图像分类方法、系统、装置
CN110335261A (zh) * 2019-06-28 2019-10-15 山东科技大学 一种基于时空循环注意力机制的ct淋巴结检测系统
CN110348537A (zh) * 2019-07-18 2019-10-18 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110443191A (zh) * 2019-08-01 2019-11-12 北京百度网讯科技有限公司 用于识别物品的方法和装置
CN110442723A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
CN111062938A (zh) * 2019-12-30 2020-04-24 科派股份有限公司 基于机器学习的板材涨塞检测系统和检测方法
CN111539355A (zh) * 2020-04-27 2020-08-14 东北电力大学 一种基于深层神经网络的光伏板异物检测系统及检测方法
CN112232746A (zh) * 2020-11-03 2021-01-15 金陵科技学院 基于注意力加权的冷链物流需求估计方法
WO2021008398A1 (zh) * 2019-07-12 2021-01-21 五邑大学 基于注意力机制的多尺度sar图像识别方法及装置
CN113449801A (zh) * 2021-07-08 2021-09-28 西安交通大学 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113469172A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 目标定位、模型训练、界面交互方法及设备
CN113538604A (zh) * 2020-04-21 2021-10-22 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN113569817A (zh) * 2021-09-23 2021-10-29 山东建筑大学 基于图像区域定位机制的驾驶人注意力分散检测方法
WO2023100052A1 (en) * 2021-12-02 2023-06-08 International Business Machines Corporation Object detection considering tendency of object location

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120087580A1 (en) * 2010-01-26 2012-04-12 Gwangju Institute Of Science And Technology Vision image information storage system and method thereof, and recording medium having recorded program for implementing method
US8774517B1 (en) * 2007-06-14 2014-07-08 Hrl Laboratories, Llc System for identifying regions of interest in visual imagery
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN108229519A (zh) * 2017-02-17 2018-06-29 北京市商汤科技开发有限公司 图像分类的方法、装置及系统
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8774517B1 (en) * 2007-06-14 2014-07-08 Hrl Laboratories, Llc System for identifying regions of interest in visual imagery
US20120087580A1 (en) * 2010-01-26 2012-04-12 Gwangju Institute Of Science And Technology Vision image information storage system and method thereof, and recording medium having recorded program for implementing method
US20180143966A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial Attention Model for Image Captioning
CN106845499A (zh) * 2017-01-19 2017-06-13 清华大学 一种基于自然语言语义的图像目标检测方法
CN108229519A (zh) * 2017-02-17 2018-06-29 北京市商汤科技开发有限公司 图像分类的方法、装置及系统
CN109033321A (zh) * 2018-07-18 2018-12-18 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIFENG GE 等,: "Multi-evidence Filtering and Fusion for Multi-label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, vol. 2018, 17 December 2018 (2018-12-17), pages 1277 - 1286 *
ZHONGLIANG YANG 等,: "Image Captioning with Object Detection and Localization", 《ICIG 2017: IMAGE AND GRAPHICS》, vol. 2017, 29 December 2017 (2017-12-29), pages 109 *
罗建豪 等,: "基于深度卷积特征的细粒度图像分类研究综述", 《自动化学报》, vol. 43, no. 8, 31 August 2017 (2017-08-31), pages 1306 - 1318 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276715A (zh) * 2019-05-14 2019-09-24 北京邮电大学 一种图像去夜方法和装置
CN110276715B (zh) * 2019-05-14 2020-07-17 北京邮电大学 一种图像去夜方法和装置
CN110276269A (zh) * 2019-05-29 2019-09-24 西安交通大学 一种基于注意力机制的遥感图像目标检测方法
CN110321943A (zh) * 2019-06-25 2019-10-11 中国科学院自动化研究所 基于半监督深度学习的ct图像分类方法、系统、装置
CN110335261A (zh) * 2019-06-28 2019-10-15 山东科技大学 一种基于时空循环注意力机制的ct淋巴结检测系统
WO2021008398A1 (zh) * 2019-07-12 2021-01-21 五邑大学 基于注意力机制的多尺度sar图像识别方法及装置
CN110348537A (zh) * 2019-07-18 2019-10-18 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
US11481574B2 (en) 2019-07-18 2022-10-25 Beijing Sensetime Technology Development Co., Ltd. Image processing method and device, and storage medium
CN110443191A (zh) * 2019-08-01 2019-11-12 北京百度网讯科技有限公司 用于识别物品的方法和装置
US11610328B2 (en) 2019-08-01 2023-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for identifying item
CN110442723A (zh) * 2019-08-14 2019-11-12 山东大学 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法
CN111062938B (zh) * 2019-12-30 2022-12-30 科派股份有限公司 基于机器学习的板材涨塞检测系统和检测方法
CN111062938A (zh) * 2019-12-30 2020-04-24 科派股份有限公司 基于机器学习的板材涨塞检测系统和检测方法
CN113469172B (zh) * 2020-03-30 2022-07-01 阿里巴巴集团控股有限公司 目标定位、模型训练、界面交互方法及设备
CN113469172A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 目标定位、模型训练、界面交互方法及设备
CN113538604A (zh) * 2020-04-21 2021-10-22 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN113538604B (zh) * 2020-04-21 2024-03-19 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN111539355A (zh) * 2020-04-27 2020-08-14 东北电力大学 一种基于深层神经网络的光伏板异物检测系统及检测方法
CN112232746A (zh) * 2020-11-03 2021-01-15 金陵科技学院 基于注意力加权的冷链物流需求估计方法
CN112232746B (zh) * 2020-11-03 2023-08-22 金陵科技学院 基于注意力加权的冷链物流需求估计方法
CN113449801A (zh) * 2021-07-08 2021-09-28 西安交通大学 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN113569817A (zh) * 2021-09-23 2021-10-29 山东建筑大学 基于图像区域定位机制的驾驶人注意力分散检测方法
CN113569817B (zh) * 2021-09-23 2021-12-21 山东建筑大学 基于图像区域定位机制的驾驶人注意力分散检测方法
WO2023100052A1 (en) * 2021-12-02 2023-06-08 International Business Machines Corporation Object detection considering tendency of object location
US11967137B2 (en) 2021-12-02 2024-04-23 International Business Machines Corporation Object detection considering tendency of object location

Also Published As

Publication number Publication date
CN109711463B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109711463A (zh) 基于注意力的重要对象检测方法
Chen et al. An edge traffic flow detection scheme based on deep learning in an intelligent transportation system
You et al. Image-based appraisal of real estate properties
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
CN112084331A (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN112232199A (zh) 基于深度学习的佩戴口罩检测方法
Wang et al. Robust AUV visual loop-closure detection based on variational autoencoder network
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN110334622A (zh) 基于自适应特征金字塔的行人检索方法
Li et al. Multi-view crowd congestion monitoring system based on an ensemble of convolutional neural network classifiers
Dubey et al. Improving small objects detection using transformer
Hong et al. USOD10K: a new benchmark dataset for underwater salient object detection
CN114743139A (zh) 视频场景检索方法、装置、电子设备及可读存储介质
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
CN116578738B (zh) 一种基于图注意力和生成对抗网络的图文检索方法和装置
CN112149528A (zh) 一种全景图目标检测方法、系统、介质及设备
CN115018215B (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
Yu et al. Visual Perception and Control of Underwater Robots
Liu et al. CMLocate: A cross‐modal automatic visual geo‐localization framework for a natural environment without GNSS information
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115170662A (zh) 基于yolov3和卷积神经网络的多目标定位方法
CN112015937A (zh) 一种图片地理定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant