CN106778773B - 图片中目标物的定位方法及装置 - Google Patents

图片中目标物的定位方法及装置 Download PDF

Info

Publication number
CN106778773B
CN106778773B CN201611051830.2A CN201611051830A CN106778773B CN 106778773 B CN106778773 B CN 106778773B CN 201611051830 A CN201611051830 A CN 201611051830A CN 106778773 B CN106778773 B CN 106778773B
Authority
CN
China
Prior art keywords
heat map
convolution
target object
processing
original picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611051830.2A
Other languages
English (en)
Other versions
CN106778773A (zh
Inventor
陈志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201611051830.2A priority Critical patent/CN106778773B/zh
Publication of CN106778773A publication Critical patent/CN106778773A/zh
Application granted granted Critical
Publication of CN106778773B publication Critical patent/CN106778773B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开是关于一种图片中目标物的定位方法及装置。方法包括:根据已训练的FCN的输入维度以及原始图片的分辨率,对原始图片进行缩放处理,得到缩放后的图片;将缩放后的图片输入到FCN中,通过FCN的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;将第一图像特征处理成具有不同分辨率的至少一个第二图像特征;基于FCN中并且位于前设定个数的卷积层之后的卷积层,对至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图;基于至少一个热度图,确定目标物在原始图片中的位置区域。本公开技术方案可以对目标物实现多尺度的检测,大大提高目标物的识别效率。

Description

图片中目标物的定位方法及装置
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图片中目标物的定位方法及装置。
背景技术
当通过已训练的全卷积神经网络(Full Convolutional Neural Networks,简称为FCN)模型对图片中的人脸进行检测时,通过该FCN模型得到一热度图(heat map),通过在热度图中识别目标物(例如,人脸)所在区域的概率。受限于相机的镜头与目标物之间的空间距离,会导致目标物在图片中所占的尺寸是不固定的,因此相关技术在对目标物进行识别检测时需要根据具体情形对图片缩放多次,从而实现多尺度的检测,以提高识别准确率。由于需要对图片进行多次缩放,会降低目标物的识别效率。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种图片中目标物的定位方法及装置,用以提高识别目标物的效率。
根据本公开实施例的第一方面,提供一种图片中目标物的定位方法,包括:
根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对所述原始图片进行缩放处理,得到缩放后的图片;
将所述缩放后的图片输入到所述全卷积神经网络中,通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层,对所述至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值;
基于所述至少一个热度图,确定所述目标物在所述原始图片中的位置区域。
在一实施例中,所述基于所述至少一个热度图确定目标物在所述原始图片中的位置区域,可包括:
在所述至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点;
确定所述多个坐标点在所述原始图片中各自对应的像素点;
基于所述多个坐标点在所述原始图片中各自对应的像素点,确定所述目标物在所述原始图片中对应的候选框集合,得到所述至少一个热度图各自对应的候选框集合;
基于所述至少一个热度图各自对应的候选框集合,确定所述目标物在所述原始图片中的位置区域。
在一实施例中,所述基于所述至少一个热度图各自对应的候选框集合,确定所述目标物在所述原始图片中的位置区域,可包括:
基于非极大值抑制算法,对所述至少一个热度图各自对应的候选框集合进行合并,得到所述至少一个热度图各自对应的一个候选框;
基于所述非极大值抑制算法,对所述至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为所述目标物在所述原始图片中的位置区域。
在一实施例中,所述将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征,可包括:
通过连接在所述前设定个数的卷积层之后的空间金字塔池化网络将所述第一图像特征池化为具有不同分辨率的至少一个第二图像特征;或者,
根据两个以上的不同预设缩放比例对所述第一图像特征进行下采样,得到具有不同分辨率的至少一个第二图像特征。
根据本公开实施例的第二方面,提供一种图片中目标物的定位装置,包括:
缩放处理模块,被配置为根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对所述原始图片进行缩放处理,得到缩放后的图片;
第一处理模块,被配置为将所述缩放处理模块缩放后的图片输入到所述全卷积神经网络中,通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
第二处理模块,被配置为将所述第一处理模块得到的所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
第三处理模块,被配置为基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层,对所述第二处理模块得到的所述至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值;
确定模块,被配置为基于所述第三处理模块得到的所述至少一个热度图,确定所述目标物在所述原始图片中的位置区域。
在一实施例中,所述确定模块可包括:
第一确定子模块,被配置为在所述至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点;
第二确定子模块,被配置为确定所述第一确定子模块确定的所述多个坐标点在所述原始图片中各自对应的像素点;
第三确定子模块,被配置为基于所述第二确定子模块确定的所述多个坐标点在所述原始图片中各自对应的像素点,确定所述目标物在所述原始图片中对应的候选框集合,得到所述至少一个热度图各自对应的候选框集合;
第四确定子模块,被配置为基于所述第三确定子模块确定的所述至少一个热度图各自对应的候选框集合,确定所述目标物在所述原始图片中的位置区域。
在一实施例中,所述第四确定子模块具体可被配置为:
基于非极大值抑制算法,对所述至少一个热度图各自对应的候选框集合进行合并,得到所述至少一个热度图各自对应的一个候选框;
基于所述非极大值抑制算法,对所述至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为所述目标物在所述原始图片中的位置区域。
在一实施例中,所述第二处理模块可包括:
池化子模块,被配置为通过连接在所述前设定个数的卷积层之后的空间金字塔池化网络将所述第一图像特征池化为具有不同分辨率的至少一个第二图像特征;或者,
下采样子模块,被配置为根据两个以上的不同预设缩放比例对所述第一图像特征进行下采样,得到具有不同分辨率的至少一个第二图像特征。
根据本公开实施例的第三方面,提供一种图片中目标物的定位装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对所述原始图片进行缩放处理,得到缩放后的图片;
将所述缩放后的图片输入到所述全卷积神经网络中,通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层,对所述至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值;
基于所述至少一个热度图,确定所述目标物在所述原始图片中的位置区域。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过将前设定个数的卷积层卷积处理后的第一图像特征处理成具有不同分辨率的至少一个第二图像特征,再对至少一个第二图像特征进行卷积处理后,得到具有不同分辨率的至少一个热度图,基于该至少一个热度图确定目标物在原始图片中的位置区域,整个识别过程中并未对原始图像进行多次缩放,即可对目标物实现多尺度的检测,大大提高了目标物的识别效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1A是根据一示例性实施例示出的图片中目标物的定位方法的流程图。
图1B是根据一示例性实施例示出的图片中目标物的定位方法的场景图。
图2A是根据另一示例性实施例示出的图片中目标物的定位方法的流程图。
图2B是根据图2A所示实施例步骤204的流程图。
图3是根据一示例性实施例示出的一种图片中目标物的定位装置的框图。
图4是根据一示例性实施例示出的另一种图片中目标物的定位装置的框图。
图5是根据一示例性实施例示出的一种适用于图片中目标物的定位装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1A是根据一示例性实施例示出的图片中目标物的定位方法的流程图,图1B是根据一示例性实施例示出的图片中目标物的定位方法的场景图;该用于图片中目标物的定位方法可以应用在电子设备(例如:智能手机、平板电脑)上,可以通过在电子设备上安装应用的方式实现,如图1A所示,该图片中目标物的定位方法包括以下步骤S101-S105:
在步骤S101中,根据已训练的FCN的输入维度以及原始图片的分辨率,对原始图片进行缩放处理,得到缩放后的图片。
在一实施例中,由于输入的原始图片的分辨率大小不能确定,而FCN的输入维度通常已经固定,为了使FCN对原始图片能够正常处理,可以通过图1B所示的缩放处理模块11根据原始图片的分辨率以及FCN的输入维度对原始图片进行缩放,例如,原始图片的分辨率为2400*3200,FCN的输入维度为1200*1600,则可以将原始图片进行四分之一的缩小处理,使得缩放后的图片的分辨率为1200*1600。如图1B所示,FCN10可包括第一卷积模块12、池化模块13和第二卷积模块14。
在步骤S102中,将缩放后的图片输入到FCN中,通过FCN的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征。
在一实施例中,前设定个数的具体数字可以依据FCN所包含的卷积层的层数来确定,例如,以FCN为alexnet神经网络为例进行示例性说明,可以通过第五卷积层(conv-5)之前的卷积层对缩放后的图片进行卷积处理,通过第五卷积层的卷积处理后,得到了该缩放后的图片在第五卷积层的图像特征表示,该图像特征表示在本公开中被称为第一图像特征。本领域技术人员可以理解的是,还可以在第一个全连接(fc6)之后的卷积层(fc6-cov)对第五卷积层卷积后的图片特征表示继续进行卷积处理,得到步骤S102中所述的第一图像特征,或者,第二个全连接(fc7)之后的卷积层(fc7-cov)对fc6-cov卷积处理得到图像特征表示后,得到步骤S102中所述的第一图像特征,也即,本公开对FCN中的前设定个数不做限制,可根据对原始图片的实际处理需求来确定具体的前设定个数。如图1B所示,在第一卷积模块12中,包括了FCN的前设定个数的卷积层,通过第一卷积模块12的卷积处理,可以得到第一图像特征。
在步骤S103中,将第一图像特征处理成具有不同分辨率的至少一个第二图像特征。
在一实施例中,与上述步骤S102中的描述相对应,可以通过在conv-5之后的池化(Pooling)层替换成一个空间金字塔池化(Spatial Pyramid Pooling,简称为SPP)网络,该SPP网络具有至少一个尺度,因此第一图像特征通过SPP网络池化后,可得到具有不同分辨率的至少一个第二图像特征,该第二图像特征仍为经过SPP池化后的图像特征表示,图1B所示的池化模块13可包括本公开所述的SPP网络。在另一实施例中,可以通过在conv-5之后的池化(Pooling)层替换成具有不同缩小比例的下采样模块,通过该下采样模块将第一图像特征所方程具有不同分辨率的第二图像特征。
在步骤S104中,基于全卷积神经网络中并且位于前设定个数的卷积层之后的卷积层,对至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,至少一个热度图上的每一个坐标点对应的值为目标物在原始图片上的概率值。
在一实施例中,如图1B所示,第二卷积模块14可包括FCN中处理第一卷积模块12所包含的卷积层之外的其它卷积层,通过第二卷积模块14的卷积处理后,针对至少一个第二图像特征中的每一个第二图像特征,可输出对应的一个热度图,因此通过第二卷及模块14的处理后,可得到至少一个热度图,至少一个热度图的分辨率例如分别为,12*16、6*8、3*4,在基于热度图所表示的概率值进行识别时,还可以对热度图进行上采样(即,图像插值),得到具有更大分辨率的热度图,从而便于通过热度图识别目标物。在一实施例中,该热度图对应的同一颜色的不同深度或者不同的颜色可以表示对应位置是否为目标物的概率值,颜色越深,表示该点对应的区域为目标物的概率值越大,热度图的示意具体可参见相关技术,本公开不再详述。在一实施例中,目标物可以为任何具有设定特征的物体,例如,人脸、车牌号、动物头像等等。
在步骤S105中,基于至少一个热度图,确定目标物在原始图片中的位置区域。
在一实施例中,计算模块15可以对每一个热度图对应一个候选框集合,基于候选框集合来确定目标物最终在原始图片上的位置区域。
本实施例中,通过将前设定个数的卷积层卷积处理后的第一图像特征处理成具有不同分辨率的至少一个第二图像特征,再对至少一个第二图像特征进行卷积处理后,得到具有不同分辨率的至少一个热度图,基于该至少一个热度图确定目标物在原始图片中的位置区域,整个识别过程中并未对原始图像进行多次缩放,即可对目标物实现多尺度的检测,大大提高了目标物的识别效率。
在一实施例中,基于至少一个热度图确定目标物在原始图片中的位置区域,可包括:
在至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点;
确定多个坐标点在原始图片中各自对应的像素点;
基于多个坐标点在原始图片中各自对应的像素点,确定目标物在原始图片中对应的候选框集合,得到至少一个热度图各自对应的候选框集合;
基于至少一个热度图各自对应的候选框集合,确定目标物在原始图片中的位置区域。
在一实施例中,基于至少一个热度图各自对应的候选框集合,确定目标物在原始图片中的位置区域,可包括:
基于非极大值抑制算法,对至少一个热度图各自对应的候选框集合进行合并,得到至少一个热度图各自对应的一个候选框;
基于非极大值抑制算法,对至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为目标物在原始图片中的位置区域。
在一实施例中,将第一图像特征处理成具有不同分辨率的至少一个第二图像特征,可包括:
通过连接在前设定个数的卷积层之后的空间金字塔池化网络将第一图像特征池化为具有不同分辨率的至少一个第二图像特征;或者,
根据两个以上的不同预设缩放比例对第一图像特征进行下采样,得到具有不同分辨率的至少一个第二图像特征。
具体如何定位目标物在图片中的位置的,请参考后续实施例。
至此,本公开实施例提供的上述方法,可以对目标物实现多尺度的检测,大大提高目标物的识别效率。
下面以具体实施例来说明本公开实施例提供的技术方案。
图2A是根据另一示例性实施例示出的图片中目标物的定位方法的流程图,图2B是根据图2A所示实施例步骤204的流程图;本实施例利用本公开实施例提供的上述方法,以如何基于至少一个热度图确定目标物在原始图片中的位置区域为例进行示例性说明,如图2A所示,包括如下步骤:
在步骤S201中,在至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点。
例如,若至少一个热度图中的其中一个热度图的大小为12*16,对应192个概率值,可以将该192个概率值顺次与预设阈值进行比较,确定该热度图上是否存在大于该预设阈值的概率值。
在步骤S202中,确定多个坐标点在原始图片中各自对应的像素点。
在一实施例中,可以根据热度图与缩放处理后的图片的映射关系,确定概率值大于预设阈值的坐标点在原始图片中各自对应的像素点,该映射关系可以通过相关技术中的映射方法得到,本公开不再详述。与上述步骤S201的描述相对应,例如,热度图上的【5,6】、【5,5】、【6,5】等坐标点的概率值大于预设阈值,则可以将【5,6】、【5,5】、【6,5】映射到原始图片上。
在步骤S203中,基于多个坐标点在原始图片中各自对应的像素点,确定目标物在原始图片中对应的候选框集合,得到至少一个热度图各自对应的候选框集合。
与上述步骤S202的描述相对应,例如,基于【5,6】、【5,5】、【6,5】,可以得到三个候选框,该三个候选框可视为分辨率为12*16的热度图对应的一个候选框集合。同理,分辨率为6*8的热度图对应一个候选框集合,分辨率为3*4的热度图对应一个候选框集合。
在步骤S204中,基于至少一个热度图各自对应的候选框集合,确定目标物在原始图片中的位置区域。
在一实施例中,如图2B所示,步骤S204可包括如下流程:
在步骤S211中,基于非极大值抑制算法,对至少一个热度图各自对应的候选框集合进行合并,得到至少一个热度图各自对应的一个候选框。
在一实施例中,对于至少一个热度图各自对应的候选框集合的合并方法,可以参见相关技术中关于非极大值抑制算法对候选框合并的描述,本公开不再详述,通过对每一个候选框集合进行合并之后,每一个热度图对应一个候选框。
在步骤S212中,基于非极大值抑制算法,对至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为目标物在原始图片中的位置区域。
同理,对于至少一个热度图各自对应的候选框进行合并方法,可以参见相关技术中关于非极大值抑制算法对候选框合并的描述,本公开不再详述,通过对至少一个热度图各自对应的候选框集合进行合并之后,得到最终的一个候选框,该候选框即可视为本公开中目标物所在的位置区域。
本实施例中,通过对至少一个热度图各自对应的候选框集合进行合并,再次对计算得到的至少一个热度图各自对应的候选框进行合并,由于每一个热度图对应一个尺度,因此通过本实施例最终得到的候选框中包含了多个尺度下目标物的概率,实现了多尺度识别目标物的基础上,能够确保目标物的定位精度。
本领域技术人员可以理解的是,由于在FCN中增加了SSP或者下采样模块,因此需要对相关技术中的FCN全卷积的协议进行修改,例如,可以通过在conv-5之后的池化(Pooling)层修改成一个空间金字塔池化(Spatial Pyramid Pooling,简称为SPP)网络,之后,通过海量的包含有目标物的样本图片对修改后的FCN进行训练即可,本公开对如何训练FCN不做详述。
图3是根据一示例性实施例示出的一种图片中目标物的定位装置的框图,如图3所示,图片中目标物的定位装置包括:
缩放处理模块31,被配置为根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对原始图片进行缩放处理,得到缩放后的图片;
第一处理模块32,被配置为将缩放处理模块31缩放后的图片输入到全卷积神经网络中,通过全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
第二处理模块33,被配置为将第一处理模块32得到的第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
第三处理模块34,被配置为基于全卷积神经网络中并且位于前设定个数的卷积层之后的卷积层,对第二处理模块33得到的至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,至少一个热度图上的每一个坐标点对应的值为目标物在原始图片上的概率值;
确定模块35,被配置为基于第三处理模块34得到的至少一个热度图,确定目标物在原始图片中的位置区域。
与上述图1B相对应,其中,缩放处理模块31与缩放处理模块11所实现的功能相同,第一处理模块32与第一卷积模块12所实现的功能相同,第二处理模块33中的一个实现方式是池化模块13,第三处理模块34与第二卷机模块14所实现的功能相同,确定模块35与计算模块15所实现的功能相同。
图4是根据一示例性实施例示出的另一种图片中目标物的定位装置的框图,如图4所示,在上述图3所示实施例的基础上,在一实施例中,确定模块35可包括:
第一确定子模块351,被配置为在至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点;
第二确定子模块352,被配置为确定第一确定子模块351确定的多个坐标点在原始图片中各自对应的像素点;
第三确定子模块353,被配置为基于第二确定子模块352确定的多个坐标点在原始图片中各自对应的像素点,确定目标物在原始图片中对应的候选框集合,得到至少一个热度图各自对应的候选框集合;
第四确定子模块354,被配置为基于第三确定子模块确定353的至少一个热度图各自对应的候选框集合,确定目标物在原始图片中的位置区域。
在一实施例中,第四确定子模块354具体可被配置为:
基于非极大值抑制算法,对至少一个热度图各自对应的候选框集合进行合并,得到至少一个热度图各自对应的一个候选框;
基于非极大值抑制算法,对至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为目标物在原始图片中的位置区域。
在一实施例中,第二处理模块33可包括:
池化子模块331,被配置为通过连接在前设定个数的卷积层之后的空间金字塔池化网络将第一图像特征池化为具有不同分辨率的至少一个第二图像特征;或者,
下采样子模块332,被配置为根据两个以上的不同预设缩放比例对第一图像特征进行下采样,得到具有不同分辨率的至少一个第二图像特征。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种适用于图片中目标物的定位装置的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电源组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理部件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
处理器520被配置为:
根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对原始图片进行缩放处理,得到缩放后的图片;
将缩放后的图片输入到全卷积神经网络中,通过全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
将第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
基于全卷积神经网络中并且位于前设定个数的卷积层之后的卷积层,对至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,至少一个热度图上的每一个坐标点对应的值为目标物在原始图片上的概率值;
基于至少一个热度图,确定目标物在原始图片中的位置区域。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (9)

1.一种图片中目标物的定位方法,其特征在于,应用于电子设备,所述方法包括:
根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对所述原始图片进行缩放处理,得到缩放后的图片;
将所述缩放后的图片输入到所述全卷积神经网络中,通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层,对所述至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值;
基于所述至少一个热度图,确定所述目标物在所述原始图片中的位置区域。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个热度图确定目标物在所述原始图片中的位置区域,包括:
在所述至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点;
确定所述多个坐标点在所述原始图片中各自对应的像素点;
基于所述多个坐标点在所述原始图片中各自对应的像素点,确定所述目标物在所述原始图片中对应的候选框集合,得到所述至少一个热度图各自对应的候选框集合;
基于所述至少一个热度图各自对应的候选框集合,确定所述目标物在所述原始图片中的位置区域。
3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个热度图各自对应的候选框集合,确定所述目标物在所述原始图片中的位置区域,包括:
基于非极大值抑制算法,对所述至少一个热度图各自对应的候选框集合进行合并,得到所述至少一个热度图各自对应的一个候选框;
基于所述非极大值抑制算法,对所述至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为所述目标物在所述原始图片中的位置区域。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征,包括:
通过连接在所述前设定个数的卷积层之后的空间金字塔池化网络将所述第一图像特征池化为具有不同分辨率的至少一个第二图像特征;或者,
根据两个以上的不同预设缩放比例对所述第一图像特征进行下采样,得到具有不同分辨率的至少一个第二图像特征。
5.一种图片中目标物的定位装置,其特征在于,应用于电子设备,所述装置包括:
缩放处理模块,被配置为根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对所述原始图片进行缩放处理,得到缩放后的图片;
第一处理模块,被配置为将所述缩放处理模块缩放后的图片输入到所述全卷积神经网络中,通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
第二处理模块,被配置为将所述第一处理模块得到的所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
第三处理模块,被配置为基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层,对所述第二处理模块得到的所述至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值;
确定模块,被配置为基于所述第三处理模块得到的所述至少一个热度图,确定所述目标物在所述原始图片中的位置区域。
6.根据权利要求5所述的装置,其特征在于,所述确定模块包括:
第一确定子模块,被配置为在所述至少一个热度图的每一个热度图上,确定概率值大于预设阈值的多个坐标点;
第二确定子模块,被配置为确定所述第一确定子模块确定的所述多个坐标点在所述原始图片中各自对应的像素点;
第三确定子模块,被配置为基于所述第二确定子模块确定的所述多个坐标点在所述原始图片中各自对应的像素点,确定所述目标物在所述原始图片中对应的候选框集合,得到所述至少一个热度图各自对应的候选框集合;
第四确定子模块,被配置为基于所述第三确定子模块确定的所述至少一个热度图各自对应的候选框集合,确定所述目标物在所述原始图片中的位置区域。
7.根据权利要求6所述的装置,其特征在于,所述第四确定子模块具体被配置为:
基于非极大值抑制算法,对所述至少一个热度图各自对应的候选框集合进行合并,得到所述至少一个热度图各自对应的一个候选框;
基于所述非极大值抑制算法,对所述至少一个热度图各自对应的候选框进行合并,将合并后的候选框确定为所述目标物在所述原始图片中的位置区域。
8.根据权利要求5所述的装置,其特征在于,所述第二处理模块包括:
池化子模块,被配置为通过连接在所述前设定个数的卷积层之后的空间金字塔池化网络将所述第一图像特征池化为具有不同分辨率的至少一个第二图像特征;或者,
下采样子模块,被配置为根据两个以上的不同预设缩放比例对所述第一图像特征进行下采样,得到具有不同分辨率的至少一个第二图像特征。
9.一种图片中目标物的定位装置,其特征在于,应用于电子设备,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率,对所述原始图片进行缩放处理,得到缩放后的图片;
将所述缩放后的图片输入到所述全卷积神经网络中,通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理,得到经过该前设定个数的卷积层卷积处理的第一图像特征;
将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征;
基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层,对所述至少一个第二图像特征分别进行卷积处理,得到具有不同分辨率的至少一个热度图,所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值;
基于所述至少一个热度图,确定所述目标物在所述原始图片中的位置区域。
CN201611051830.2A 2016-11-23 2016-11-23 图片中目标物的定位方法及装置 Active CN106778773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611051830.2A CN106778773B (zh) 2016-11-23 2016-11-23 图片中目标物的定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611051830.2A CN106778773B (zh) 2016-11-23 2016-11-23 图片中目标物的定位方法及装置

Publications (2)

Publication Number Publication Date
CN106778773A CN106778773A (zh) 2017-05-31
CN106778773B true CN106778773B (zh) 2020-06-02

Family

ID=58912234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611051830.2A Active CN106778773B (zh) 2016-11-23 2016-11-23 图片中目标物的定位方法及装置

Country Status (1)

Country Link
CN (1) CN106778773B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229495B (zh) * 2017-06-23 2020-07-17 北京市商汤科技开发有限公司 目标对象检测方法、装置、电子设备和存储介质
CN109325385A (zh) * 2017-07-31 2019-02-12 株式会社理光 目标检测和区域分割方法、装置和计算机可读存储介质
CN107492115B (zh) * 2017-08-30 2021-01-01 北京小米移动软件有限公司 目标对象的检测方法及装置
CN107748867A (zh) * 2017-10-20 2018-03-02 北京小米移动软件有限公司 目标对象的检测方法及装置
CN108121952B (zh) * 2017-12-12 2022-03-08 北京小米移动软件有限公司 人脸关键点定位方法、装置、设备及存储介质
CN107992894B (zh) * 2017-12-12 2022-02-08 北京小米移动软件有限公司 图像识别方法、装置及计算机可读存储介质
CN108154113A (zh) * 2017-12-22 2018-06-12 重庆邮电大学 基于全卷积网络热度图的跌倒事件检测方法
CN110876602B (zh) * 2018-09-06 2021-06-04 珠海格力电器股份有限公司 洗碗机的控制方法、装置以及洗碗机
CN109902631B (zh) * 2019-03-01 2021-02-26 北京视甄智能科技有限公司 一种基于图像金字塔的快速人脸检测方法
CN109961045B (zh) * 2019-03-25 2021-10-22 联想(北京)有限公司 一种位置信息提示方法、装置及电子设备
CN112712124B (zh) * 2020-12-31 2021-12-10 山东奥邦交通设施工程有限公司 一种基于深度学习的多模块协同物体识别系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023023A (zh) * 2015-07-15 2015-11-04 福州大学 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法
CN105426919A (zh) * 2015-11-23 2016-03-23 河海大学 基于显著性指导非监督特征学习的图像分类方法
CN105844234A (zh) * 2016-03-21 2016-08-10 商汤集团有限公司 一种基于头肩检测的人数统计的方法及设备
CN106096605A (zh) * 2016-06-02 2016-11-09 史方 一种基于深度学习的图像模糊区域检测方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104680508B (zh) * 2013-11-29 2018-07-03 华为技术有限公司 卷积神经网络和基于卷积神经网络的目标物体检测方法
EP3204888A4 (en) * 2014-10-09 2017-10-04 Microsoft Technology Licensing, LLC Spatial pyramid pooling networks for image processing
CN105654067A (zh) * 2016-02-02 2016-06-08 北京格灵深瞳信息技术有限公司 一种车辆检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105023023A (zh) * 2015-07-15 2015-11-04 福州大学 一种用于计算机辅助诊断的乳腺b超图像特征自学习提取方法
CN105426919A (zh) * 2015-11-23 2016-03-23 河海大学 基于显著性指导非监督特征学习的图像分类方法
CN105844234A (zh) * 2016-03-21 2016-08-10 商汤集团有限公司 一种基于头肩检测的人数统计的方法及设备
CN106096605A (zh) * 2016-06-02 2016-11-09 史方 一种基于深度学习的图像模糊区域检测方法及装置

Also Published As

Publication number Publication date
CN106778773A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106778773B (zh) 图片中目标物的定位方法及装置
CN106651955B (zh) 图片中目标物的定位方法及装置
CN109670397B (zh) 人体骨骼关键点的检测方法、装置、电子设备及存储介质
CN107798669B (zh) 图像去雾方法、装置及计算机可读存储介质
CN109522910B (zh) 关键点检测方法及装置、电子设备和存储介质
CN107992848B (zh) 获取深度图像的方法、装置及计算机可读存储介质
CN106557759B (zh) 一种标志牌信息获取方法及装置
CN107944367B (zh) 人脸关键点检测方法及装置
CN111461182B (zh) 图像处理方法、图像处理装置及存储介质
CN107967459B (zh) 卷积处理方法、装置及存储介质
CN112945207B (zh) 目标定位方法及装置、电子设备和存储介质
CN105678296B (zh) 确定字符倾斜角度的方法及装置
CN110796012B (zh) 图像处理方法、装置、电子设备及可读存储介质
CN107992894B (zh) 图像识别方法、装置及计算机可读存储介质
US9665925B2 (en) Method and terminal device for retargeting images
CN107730443B (zh) 图像处理方法、装置及用户设备
CN107239758B (zh) 人脸关键点定位的方法及装置
CN109934168B (zh) 人脸图像映射方法及装置
CN112331158B (zh) 终端显示调节方法、装置、设备及存储介质
EP3905660A1 (en) Method and device for shooting image, and storage medium
CN115147466A (zh) 图像配准方法及装置、图像处理方法及装置以及存储介质
CN108062787B (zh) 三维人脸建模方法及装置
CN114418865A (zh) 图像处理方法、装置、设备及存储介质
CN112148815B (zh) 一种基于共享地图的定位方法及装置、电子设备和存储介质
CN116740158B (zh) 图像深度确定方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant