CN112686256B - 一种无需训练且无监督的目标协同定位方法、系统及装置 - Google Patents
一种无需训练且无监督的目标协同定位方法、系统及装置 Download PDFInfo
- Publication number
- CN112686256B CN112686256B CN202110006946.9A CN202110006946A CN112686256B CN 112686256 B CN112686256 B CN 112686256B CN 202110006946 A CN202110006946 A CN 202110006946A CN 112686256 B CN112686256 B CN 112686256B
- Authority
- CN
- China
- Prior art keywords
- convolution activation
- target
- heat map
- location
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种无需训练且无监督的目标协同定位方法、系统及装置,该方法包括:获取图像集合;将图像集合输入到预训练的CNN模型并得到特征集;对卷积激活张量进行降维,返回特征向量;根据卷积激活张量和特征向量,生成热图;基于热图生成边界框,完成目标协同定位。该系统包括:数据获取模块,卷积激活张量生成模块、特征向量生成模块、热图生成模块和边界框生成模块。该装置包括存储器以及用于执行上述无需训练且无监督的目标协同定位方法的处理器。通过使用本发明,能够解决计算机视觉中目标协同定位的问题同时提高现有模型的可重用性。本发明作为一种无需训练且无监督的目标协同定位方法、系统及装置,可广泛应用于目标定位领域。
Description
技术领域
本发明涉及目标定位领域,尤其涉及一种无需训练且无监督的目标协同定位方法、系统及装置。
背景技术
目标协同定位也称也称为无监督对象发现,是计算机视觉中的一个基本问题,它要求找出一组对象图像中的公共对象,并返回围绕该对象的边界框,我们可以从该边界框内提取关于对象丰富的特征帮助我们的下游任务,例如检测。同时在深度学习领域,我们经常用到在大型数据集ImageNet预训练后的模型权重作为基础,然后在这之上,用我们自己的数据集进行训练。但是数据集标注过程中需要耗费了巨大的人力,财力,因为当前的深度学习模型需要大量准确的注释,包括图像级标签,位置级标签(边界框和关键点)和像素级标签。
发明内容
为了解决上述技术问题,本发明的目的是提供一种无需训练且无监督的目标协同定位方法、系统及装置,解决计算机视觉中目标协同定位的问题同时提高现有模型的可重用性,使得用户可以无需训练很方便地利用现有模型可以完成定位任务。
本发明所采用的第一技术方案是:一种无需训练且无监督的目标协同定位方法,包括以下步骤:
获取数据,得到图像集合;
将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集;
基于TSNE算法对特征集中的卷积激活张量进行降维,返回特征向量;
根据卷积激活张量和特征向量,生成热图;
基于热图构建二值矩阵并生成边界框,完成目标协同定位。
进一步,所述预训练的CNN模型的获得步骤具体包括:
在深度学习框架上下载在ImageNet上预训练过的模型,并将预训练过的模型中的全连接层进行删除,得到预训练的CNN模型。
进一步,所述将图像集合输入到预训练的CNN模型,得到卷积激活张量这一步骤,其具体还包括:
将图像集合中的图像逐张输入到预训练的CNN模型,进行前向传播,得到h×w×d大小的卷积激活张量;
收集所有的卷积激活张量,得到特征集。
进一步,所述根据卷积激活张量和特征向量,生成热图这一步骤,其具体包括:
根据卷积激活张量生成卷积激活张量均值;
将特征集中所有的卷积激活张量减去卷积激活张量均值,然后对卷积激活张量的每个空间位置乘上特征向量进行通道加权求和,生成热图。
进一步,通过如下公式生成热图:
上式中,i,j表示单个位置,Hi,j表示热图,Gi,j,k表示图像经过模型得到的特征图,Pk表示特征向量,d表示维度,k表示第k维。
本发明所采用的第二技术方案是:一种无需训练且无监督的目标协同定位系统,包括:
数据获取模块,获取数据,得到图像集合;
卷积激活张量生成模块,将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集;
特征向量生成模块,基于TSNE算法对特征集中的卷积激活张量进行降维,返回特征向量;
热图生成模块,根据卷积激活张量和特征向量,生成热图;
边界框生成模块,基于热图构建二值矩阵并生成边界框,完成目标协同定位。
本发明所采用的第三技术方案是:一种无需训练且无监督的目标协同定位装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种无需训练且无监督的目标协同定位方法。
本发明方法、系统及装置的有益效果是:本发明利用在ImageNet上预训练后的模型提取特征,然后通过无监督的降维方法TSNE提取该组图像之间最相似的特征描述实现目标协同定位。
附图说明
图1是本发明一种无需训练且无监督的目标协同定位方法的步骤流程图;
图2是本发明一种无需训练且无监督的目标协同定位系统的结构框图;
图3是本发明具体实施例激活张量描述符集合;
图4是本发明具体实施例方法的总体框架;
图5是本发明具体实施例特征图增强框架。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图4,本发明提供了一种无需训练且无监督的目标协同定位方法,该方法包括以下步骤:
S1、获取数据,得到图像集合;
具体地,准备一个图像集合,要求该集合图像中拥有同类物体,或者大部分图像拥有同类物体,因为任务是目标协同定位,需要利用图像与图像之间相似的信息。
S2、将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集;
具体地,将图片输入S2中的网络中,进行前向传播,得到h×w×d大小的卷积激活张量,改变维数为hw×d,假设该组图像数目为n,那么可以得到了n个大小的卷积激活张量,然后将这些激活张量收集为一个特征集Gall,大小为nhw×d。
S3、基于TSNE算法对特征集中的卷积激活张量进行降维,返回特征向量;
具体地,将中激活张量从高维空间嵌入到两维空间,其中第0维为该组图像最相似的深度描述符的集合即拥有的同类对象,返回该特征向量P,大小为(d,)。另外,该步骤中的TSNE为机器学习中的一种降维技术,TSNE技术能把CNN输出的高维数据降维到2维或3维,它的核心思想就是保证在低维上数据的分布与原始特征空间的分布相似性高,这里利用TSNE找出每组图像之间最相似的深度描述符。
S4、根据卷积激活张量和特征向量,生成热图;
具体地,将获取的每个hw×d大小的卷积激活张量G减去其均值然后对的每个空间位置乘上特征向量P进行通道加权并求和以获得最终的热图,大小为(h,w)。
S5、基于热图构建二值矩阵并生成边界框,完成目标协同定位。
具体地,基于热图生成对应大小为0,1的二值矩阵,对应热图上大于0的区域该二值矩阵对应位置值为1,其他为0,然后通过最大连通区域分析生成边界框。
进一步作为本方法的优选实施例,所述预训练的CNN模型的获得步骤具体包括:
在深度学习框架上下载在ImageNet上预训练过的模型,并将预训练过的模型中的全连接层进行删除,得到预训练的CNN模型。
进一步作为本方法的优选实施例,所述将图像集合输入到预训练的CNN模型,得到卷积激活张量这一步骤,其具体还包括:
将图像集合中的图像逐张输入到预训练的CNN模型,进行前向传播,得到h×w×d大小的卷积激活张量;
收集所有的卷积激活张量,得到特征集。
具体地,S3中返回的是整组图像在卷积后的激活张量集合而不是单张图像。因为找出整组图像间的最大相似性。每一张图像对应的卷积激活张量大小为h×w×d,所以对应的2-D特征图为S={Sn}(n=1,....d),对于卷积层输出的每个特征图x而言,xi,j对应回原图的一个小的像素块,例如输入大小为(448,448)通过模型SE_ResNet50卷积后大小维(14,14,2048),那么就这对应原图14×14个小块,也就是局部特征,而深度方向上的每个(1,1,2048)的向量我们称为深度描述符,描述符集合为X={x(i,j)}如图3所示。
进一步作为本方法优选实施例,所述根据卷积激活张量和特征向量,生成热图这一步骤,其具体包括:
根据卷积激活张量生成卷积激活张量均值;
将特征集中所有的卷积激活张量减去卷积激活张量均值,然后对卷积激活张量的每个空间位置乘上特征向量进行通道加权求和,生成热图。
具体地,将激活卷积激活张量G减去均值是为了将输入数据各个维度的数据都中心化到0了,这么做的目的是减小计算量。
进一步作为本方法优选实施例,所述热图的生成公式如下:
上式中,i,j表示单个位置,Hi,j表示热图,Gi,j,k表示图像经过模型得到的特征图,Pk表示特征向量,d表示维度,k表示第k维。
进一步作为本方法的优选实施例,参照图5,将步骤S3替换为:将原图、原图逆时针旋转90度和原图逆时针旋转270度并行输入网络中提取特征,最后生成了3组h×w×d的特征向量X0、X1、X2然后将X1、X2旋转回原图方向,最后通过分配权重逐通道加和形成增强后的特征向量:
具体地,该方案主要针对特征图进行增强,方法很直观,通过图像旋转为我们的网络然后对特征图进行融合,生成更具有代表性、特征更鲁棒的特征图,可以理解为一种特征增强。
本发明对卷积层生成的特征图从深度方向上进行挖掘,然后通过TSNE技术找出同组图像间最相似的深度描述子,不需要任何标签信息,不需要任何训练过程,只需要一组拥有同类物体的图像集合和开源的经过ImageNet预训练过的CNN模型就能完成协同定位。
如图2所示,一种无需训练且无监督的目标协同定位系统,包括:
数据获取模块,获取数据,得到图像集合;
卷积激活张量生成模块,将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集;
特征向量生成模块,基于TSNE算法对特征集中的卷积激活张量进行降维,返回特征向量;
热图生成模块,根据卷积激活张量和特征向量,生成热图;
边界框生成模块,基于热图构建二值矩阵并生成边界框,完成目标协同定位。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种无需训练且无监督的目标协同定位装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所述一种无需训练且无监督的目标协同定位方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (6)
1.一种无需训练且无监督的目标协同定位方法,其特征在于,包括以下步骤:
获取数据,得到图像集合;
将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集;
基于TSNE算法对特征集中的卷积激活张量进行降维,返回特征向量;
根据卷积激活张量和特征向量,生成热图;
基于热图构建二值矩阵并生成边界框,完成目标协同定位;
所述热图的生成公式如下:
上式中,i,j表示单个位置,Hi,j表示热图,Gi,j,k表示图像经过模型得到的特征图,Pk表示特征向量,d表示维度,k表示第k维。
2.根据权利要求1所述一种无需训练且无监督的目标协同定位方法,其特征在于,所述预训练的CNN模型的获得步骤具体包括:
在深度学习框架上下载在ImageNet上预训练过的模型,并将预训练过的模型中的全连接层进行删除,得到预训练的CNN模型。
3.根据权利要求2所述一种无需训练且无监督的目标协同定位方法,其特征在于,所述将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集这一步骤,其具体还包括:
将图像集合中的图像逐张输入到预训练的CNN模型,进行前向传播,得到h×w×d大小的卷积激活张量;
收集所有的卷积激活张量,得到特征集。
4.根据权利要求3所述一种无需训练且无监督的目标协同定位方法,其特征在于,所述根据卷积激活张量和特征向量,生成热图这一步骤,其具体包括:
根据卷积激活张量生成卷积激活张量均值;
将特征集中所有的卷积激活张量减去卷积激活张量均值,然后对卷积激活张量的每个空间位置乘上特征向量进行通道加权求和,生成热图。
5.一种无需训练且无监督的目标协同定位系统,其特征在于,包括:
数据获取模块,用于获取数据,得到图像集合;
卷积激活张量生成模块,用于将图像集合输入到预训练的CNN模型并将生成的卷积激活张量进行收集,得到特征集;
特征向量生成模块,基于TSNE算法对特征集中的卷积激活张量进行降维,返回特征向量;
热图生成模块,用于根据卷积激活张量和特征向量,生成热图;
边界框生成模块,基于热图构建二值矩阵并生成边界框,完成目标协同定位;
所述热图的生成公式如下:
上式中,i,j表示单个位置,Hi,j表示热图,Gi,j,k表示图像经过模型得到的特征图,Pk表示特征向量,d表示维度,k表示第k维。
6.一种无需训练且无监督的目标协同定位装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-4任一项所述一种无需训练且无监督的目标协同定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110006946.9A CN112686256B (zh) | 2021-01-05 | 2021-01-05 | 一种无需训练且无监督的目标协同定位方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110006946.9A CN112686256B (zh) | 2021-01-05 | 2021-01-05 | 一种无需训练且无监督的目标协同定位方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686256A CN112686256A (zh) | 2021-04-20 |
CN112686256B true CN112686256B (zh) | 2023-10-20 |
Family
ID=75457274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110006946.9A Active CN112686256B (zh) | 2021-01-05 | 2021-01-05 | 一种无需训练且无监督的目标协同定位方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686256B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108594321A (zh) * | 2018-05-02 | 2018-09-28 | 深圳市唯特视科技有限公司 | 一种基于数据增强的弱监督目标定位方法 |
CN109255364A (zh) * | 2018-07-12 | 2019-01-22 | 杭州电子科技大学 | 一种基于深度卷积生成对抗网络的场景识别方法 |
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN110569901A (zh) * | 2019-09-05 | 2019-12-13 | 北京工业大学 | 一种基于通道选择的对抗消除弱监督目标检测方法 |
-
2021
- 2021-01-05 CN CN202110006946.9A patent/CN112686256B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019136946A1 (zh) * | 2018-01-15 | 2019-07-18 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108594321A (zh) * | 2018-05-02 | 2018-09-28 | 深圳市唯特视科技有限公司 | 一种基于数据增强的弱监督目标定位方法 |
CN109255364A (zh) * | 2018-07-12 | 2019-01-22 | 杭州电子科技大学 | 一种基于深度卷积生成对抗网络的场景识别方法 |
CN110569901A (zh) * | 2019-09-05 | 2019-12-13 | 北京工业大学 | 一种基于通道选择的对抗消除弱监督目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112686256A (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | SaliencyGAN: Deep learning semisupervised salient object detection in the fog of IoT | |
Hu et al. | Sqn: Weakly-supervised semantic segmentation of large-scale 3d point clouds | |
Lei et al. | Coupled adversarial training for remote sensing image super-resolution | |
Liao et al. | DR-GAN: Automatic radial distortion rectification using conditional GAN in real-time | |
Son et al. | Urie: Universal image enhancement for visual recognition in the wild | |
CN114255238A (zh) | 一种融合图像特征的三维点云场景分割方法及系统 | |
CN112990116B (zh) | 基于多注意力机制融合的行为识别装置、方法和存储介质 | |
CN110490959B (zh) | 三维图像处理方法及装置、虚拟形象生成方法以及电子设备 | |
CN109522807B (zh) | 基于自生成特征的卫星影像识别系统、方法及电子设备 | |
CN111414953A (zh) | 点云分类方法和装置 | |
Talukdar et al. | Data augmentation on synthetic images for transfer learning using deep CNNs | |
CN112184547B (zh) | 红外图像的超分辨率方法及计算机可读存储介质 | |
Ge et al. | Neural-sim: Learning to generate training data with nerf | |
Han et al. | Realflow: Em-based realistic optical flow dataset generation from videos | |
CN116097307A (zh) | 图像的处理方法及相关设备 | |
CN115713632A (zh) | 一种基于多尺度注意力机制的特征提取方法及装置 | |
CN113988164B (zh) | 一种面向代表点自注意力机制的轻量级点云目标检测方法 | |
CN115100717A (zh) | 特征提取模型的训练方法、卡通对象的识别方法及装置 | |
CN112528978B (zh) | 人脸关键点的检测方法、装置、电子设备及存储介质 | |
Zhang et al. | Video extrapolation in space and time | |
CN112686256B (zh) | 一种无需训练且无监督的目标协同定位方法、系统及装置 | |
Jiang et al. | Unsupervised contrastive learning with simple transformation for 3D point cloud data | |
CN113487713B (zh) | 一种点云特征提取方法、装置及电子设备 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 | |
JP2011070283A (ja) | 顔画像高解像度化装置、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |