CN111178192A - 一种图像中目标对象的位置识别方法及装置 - Google Patents
一种图像中目标对象的位置识别方法及装置 Download PDFInfo
- Publication number
- CN111178192A CN111178192A CN201911310867.6A CN201911310867A CN111178192A CN 111178192 A CN111178192 A CN 111178192A CN 201911310867 A CN201911310867 A CN 201911310867A CN 111178192 A CN111178192 A CN 111178192A
- Authority
- CN
- China
- Prior art keywords
- image
- target object
- frames
- frame set
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本公开关于一种图像中目标对象的位置识别方法及装置,所述方法包括:利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合;当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像;利用第二位置识别方式,对所述第二图像中的所述目标对象进行位置识别,生成包含所述目标对象的第二位置框集合;在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据所述目标位置框生成所述目标对象的位置识别结果。
Description
技术领域
本公开涉及计算机领域,尤其涉及一种图像中目标对象的位置识别方法及装置。
背景技术
针对图像中的目标对象进行位置识别,是图像处理中较为常见的技术手段,且广泛应用在多个领域。比如可以对图像中的人进行位置识别,从而可以实现行人监控;可以对图像中的车进行位置识别,从而可以据此实现交通管理,等。
然而在实际中,图像内通常会有出现目标对象之间边界模糊、甚至重叠的情况,这对识别目标对象的位置而言造成了较大难度,所以需要一种方案,可以对图像中的目标对象进行较为准确的位置识别。
发明内容
本公开提供一种图像中目标对象的位置识别方法及装置,以至少解决相关技术中对图像内出现目标对象边界模糊甚至重叠时,识别目标对象位置较为困难的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像中目标对象的位置识别方法,包括:
利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合,所述第一位置识别方式根据所述第一图像的图像特征确定;
当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像;
利用第二位置识别方式,对所述第二图像中的所述目标对象进行位置识别,生成包含所述目标对象的第二位置框集合,所述第二位置识别方式根据所述第二图像的图像特征确定;
在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据所述目标位置框生成所述目标对象的位置识别结果。
根据本公开实施例的第二方面,提供一种图像中目标对象的位置识别装置,包括,:位置预识别单元、图像生成单元、以及识别结果生成单元,其中,
位置预识别单元,被配置为执行利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合,所述第一位置识别方式根据所述第一图像的图像特征确定;
图像生成单元,被配置为执行当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像;
位置预识别单元,被配置为执行利用第二位置识别方式,对所述第二图像中的所述目标对象进行位置识别,生成包含所述目标对象的第二位置框集合,所述第二位置识别方式根据所述第二图像的图像特征确定;
识别结果生成单元,被配置为执行在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据所述目标位置框生成所述目标对象的位置识别结果。
根据本公开实施例的第三方面,提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面或第一方面的任一种可能实现方式所述的图像中目标对象的位置识别方法。
根据本公开实施例的第四方面,提供了一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或第一方面的任一种可能实现方式所述的图像中目标对象的位置识别方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,当所述计算机程序产品中的指令由终端的处理器执行时,使得终端能够执行如第一方面或第一方面的任一种可能实现方式所述的图像中目标对象的位置识别方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
可以先利用适用于第一图像的第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含目标对象的第一位置框集合,在生成出的第一位置框集合当中,当存在至少两个位置框出现交集时,则可以确定包含该至少两个位置框的区域,并对第一图像中的该区域执行图像截取和图像上采样,生成第二图像,据此可以再利用适用于第二图像的第二位置识别方式,对第二图像中的目标对象进行位置识别,进而再生成包含目标对象的第二位置框集合,此后,可以在确定出的位置集合中中,查找不与其他位置框出现交集的目标位置框,并根据目标位置生成该目标对象的位置识别结果。
也即,先对图像中的目标对象进行位置识别,得到对应的位置框集合,若存在目标对象重叠、即位置框有公共边界的情况时,可以从图像中对包含重叠目标对象的区域进行截取并放大分辨率,以便再次对截取放大后的图像进行目标对象位置识别。如此往复,则可以在目标对象较为密集的图像中,提高对目标对象的位置识别效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种图像中目标对象的位置识别方法的流程图。
图2是根据一示例性实施例示出的第一图像的示意图。
图3是根据一示例性实施例示出的对第一图像中的目标对象进行位置识别的示意图。
图4是根据一示例性实施例示出的第二图像的示意图。
图5是根据一示例性实施例示出的对第二图像中的目标对象进行位置识别的示意图。
图6是根据一示例性实施例示出的一种图像中目标对象的位置识别装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
图8是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种图像中目标对象的位置识别方法的流程图,该方法可以用于多种终端中,比如可以应用在服务端中,包括以下步骤。
在步骤S11中,利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含目标对象的第一位置框集合。
图像可以通过不同像素点,显示出不同的对象,而像素点在图像中的不同位置排布则可以决定不同对象显示的不同位置。出于不同的需求,可以对图像中的对象进行位置识别。比如,在旅游景点,采集到的图像中可以包含多个人物,而出于客流量统计的需求,可以根据一定的时间间隔,通过位置识别统计采集的图像中的人物个数,从而可以统计出特定时间段内的客流量;又如在公共道路上,采集到的图像中可以包含多个车辆,出于对车流量、车速、违章行为进行监控等需求,也可以根据一定的时间间隔,对图像中的车辆进行位置识别。则本步骤就可以对图像中的目标对象进行位置识别,本步骤可以将图像称为第一图像。
这里的目标对象就可以是在第一图像中期望进行位置识别的对象,比如该目标对象就可以是人物、车辆,等。而在实际应用中,为了达到对单一对象的位置识别目的,目标对象可以是单一对象,比如可以是人物,那么除人物以外的对象均可以不进行位置识别。如图2所示,为第一图像的示意图,可以将人物设定为目标对象,则本实施例可以识别出人物的位置。当然为了实现对多个对象同时进行位置识别的目的,目标对象也可以是多个对象,比如人物和车辆、人脸和车牌等。
在图像处理领域,可以有多种方式对图像中的对象进行位置识别,这种功能可以称为对象检测、或目标检测。比如目前较为流行的基于深度学习的Faster RCNN算法、MaskRCNN算法,以及Faster RCNN算法的理论基础R-CNN算法、Fast R-CNN算法等,均可以实现对图像中的目标对象进行位置识别的效果。又如YOLO算法,SSD算法等,还如Cascade R-CNN算法等,也具有目标检测功能,也可以实现在图像中对目的对象进行位置识别的效果。
具体地,以Faster RCNN算法为例进行介绍。可以先对图像进行特征提取,比如可以通过VGG(由Visual Geometry Group提出)网络、Inception网络、ResNet(ResidualNetwork,残差网络),从而得到卷积特征图(conv feature map);将该卷积特征图输入至RPN(Region Proposal Network,区域推荐网络),进行类别回归、检测框回归等,再通过执行NMS(non maximum suppression,非极大值抑制)操作,从而得到较为准确的建议检测框;此后,可以根据确定出的建议检测框,在卷积特征图中截取对应区域的卷积特征图,执行池化操作(比如可以将卷积特征图输入RoI Pooling层、或RoI Align层等),从而可以更为准确地确定出包含目标对象的检测框,进而完成对目标对象的位置识别,生成出了包含目标对象的位置框,这里可以生成目标对象对应的第一位置框集合,而这里的第一位置框集合,可以包括一个或多个。
在实际应用中,不同的目标检测算法具有不同的优点,且针对不同图像特征的图像也可能具有不同的、较为适用的算法。所以在本步骤中,可以利用第一位置识别方式,对第一图像中的目标对象进行位置识别,从而生成包含目标对象的第一位置框集合,这里的第一位置识别方式可以是根据第一图像的图像特征而确定的。
具体地,不同的图像由于尺寸、像素数量、颜色、对象类别、对象数量等因素,具有不同的图像特征。而上文所述的具有对象检测功能的不同算法,也分别具有各自的优缺点。比如,对于YOLO算法,对目标对象的检测速度较快,对图像中背景的误识别率较低,适用于形状较为固定的物品对象;而对于Faster RCNN算法,识别对象的精准度较高,计算量较大,所以识别的速度会受影响;对于SSD算法,速度和精准度均有较好表现,但对于尺寸较小对象的位置识别,则性能较弱。
所以本步骤便可以先对第一图像、以及其中的目标对象预先进行图像特征提取,比如可以截取第一图像中的一个或多个局部图像,并提取出尺寸、像素数量、目标对象的尺寸、数量等图像特征,据此,则可以根据预设的适用关系,确定出合适的位置识别方式,比如可以根据识别位置的精准度、速度、计算量等方面作为确定位置识别方式的依据,从而使得根据图像特征确定出的位置识别方式,可以在精准度较高的前提下,提高识别效率,节省计算量。
在实际应用中,也可以根据不同的需求,预先设置使用关系,比如在速度优先的情况下,不同的图像特征如何对应不同的位置识别方式,在精准度优先的情况下如何对应,在节省计算量优先的情况又如何对应。具体比如,若目标对象为人物,那么在不同时段的出现数量通常不同,由此便可以预先设定不同时段对应的不同需求,从而可以根据图像的特征,结合不同需求,确定出对应的位置识别方式。
可见,根据图像特征确定位置识别方式,可以在精准度较高的前提下,达到提高识别效率,节省计算量的效果,也可以达到满足不同需求的效果。
在实际用中,可以利用一种对象检测算法,也可以同时利用多种对象检测算法,也即可以综合多种方式的位置识别结果,生成出包含目标对象的第一位置框集合。比如,可以利用三种不同的算法,YOLO、Faster RCNN、以及Cascade R-CNN分别对图像中的目标对象进行位置识别,从而生成出三组结果,此时可以将位置框数量最多的一组,确定为最终的结果;或者将位置框面积最小的一组(平均面积最小、总面积最小)作为最终的结果;又或者当三组结果存在重叠时,也即某一个目标对象被确定出不同大小的三个位置框,则可以将位置框最小的结果,作为这个目标对象的位置框结果,等。
如图3所示,为对第一图像中的目标对象进行位置识别的示意图,图中的虚线框则可以表示对人物进行位置识别而生成出的第一位置框。
在实际应用中,随着图像采集设备的不断强化升级,采集到的图像的分辨率会越来越高,图像会越来越清晰,但分辨率变高就意味这像素点增多,而在图像处理过程中,像素点的多少与消耗的处理资源往往成正比,与位置识别效率往往成反比。比如,图像采集设备,采集到的原始图像通常具有较高的分辨率,而此时则需要消耗大量的处理资源和处理时间,去完成目标对象位置识别,也就影响了位置识别的效率。
所以出于对节省处理资源、提高位置识别效率等考虑、以及图像中目标对象数量的考虑,可以将图像缩小至一个预设的尺寸,比如可以通过图像下采样(subsampled)的方式,生成缩略图,减少像素点,从而有利于较快的完成对目标对象进行位置识别。例如,针对目标对象数量较少的图像,降低分辨率并不会严重影响对目标对象的位置识别结果,反而较高分辨率可能会导致耗时较长,不仅浪费处理资源,还降低了位置识别效率。此时,便可以将图像进行下采样,从而提高位置识别效率。
类似地,出于对准确性的考虑,还可以将图像放大至一个预设的尺寸,比如就可以通过图像上采样(upsampling)的方式,生成比原始图像分辨率更高的图像,从而有利于较为准确的实现目标对象的位置识别。例如,针对目标对象数量较多的图像,分辨率较低,会严重影响对目标对象的位置识别结果,所以可以适当提高图像分辨率,从而可以提高准确率。
也即,可选的,在本步骤之前,该方法还可以包括:从原始图像中截取局部原始图像,对该局部原始图像中的目标对象进行位置识别,生成包含目标对象的原始位置框集合;根据该原始位置框集合中出现交集的位置框比例,确定图像上采样或图像下采样的比例;根据确定出的比例,对该原始图像执行图像上采样或图像下采样,生成第一图像。
具体地,原始图像可以是利用图像采集设备采集到的图像,而根据前文介绍,可以通过图像上采样,增加图像的像素点数量,使图像分辨率更高,从而可以更准确地进行位置识别,而通过图像下采样,可以减少图像的像素点数量,使使图像分辨率更低,从而可以更高效地进行位置识别。
所以在本步骤执行之前,可以预先从原始图像中截取出局部原始图像,这里截取局部原始图像的依据,可以是预先设定的某个坐标区域,比如可以是以左上角坐标(X1,Y1)和右下角坐标(X2,Y2)组成的矩形区域;也可以结合相对于原始图像尺寸而预定的某个尺寸比例,比如可以取原始图像尺寸中宽、高的20%,作为局部原始图像的尺寸,等。
在截取到局部原始图像后,可以利用位置识别方式,对局部原始图像中的目标对象进行位置识别,生成包含目标对象的原始位置框集合。这里,可以类似于前文所述的方式,对目标对象进行位置识别。
在确定出是原始位置框集合后,可以确定出集合内出现交集的位置框比例。可以理解地,若出现交集的位置框比例越高,则说明目标对象之间存在边界迷糊、重叠的情况越多,若出现交集的位置框比例越低,则说明目标对象之间存在边界迷糊、重叠的情况越少。据此,则可以确定图像上采样或图像下采样的比例,具体地可以设定不同的阈值,当高于某个阈值时,确定图像上采样的比例,当低于某个阈值时,确定图像下采样的比例。此后则可以根据确定出的比例,对原始图像执行图像上采样或图像下采样,生成第一图像,以便执行本步骤。
通过预先对局部原始图像内的目标对象进行位置识别,并根据重叠情况,确定图像上采样或下采样的比例,也可以在精准度较高的前提下,达到提高识别效率,节省计算量的效果。
在步骤S12中,当第一位置框集合中存在至少两个位置框出现交集时,确定包含该至少两个位置框的区域,并对第一图像中的该区域执行图像截取以及图像上采样,生成第二图像。
在实际的应用中,目标对象可能由于现实空间中的位置关系、以及采集图像时采集设备的角度,导致图像中的目标对象可能存在距离较近、甚至接触、重叠的情况,也即图像中的目标对象较为密集,这就使得在对目标对象进行位置识别时,难免出现确定出的位置框存在交集的情况,甚至一个位置框可以包含住多个对象的情况。
如图3所示,中间的两个人物,由于在图像中出现了接触,也即像素点直接接触密切,所以导致确定出的位置误差较大,右侧人物的位置框相对于该人物明显偏大,而右侧的两个人物中,左侧人物的位置框相对于该人物也明显偏大。所以为了能够在目标对象较为密集的图像中,提高对单个目标对象的位置识别效果,本实施例可以对图像中的特定局部区域进行分辨率放大,并对放大后的图像重新进行目标对象位置识别。
具体地,在第一图像内确定出的第一位置框集合中,当存在至少两个位置框出现交集时,则可以表明目标对象在第一图像中存在了距离较近、接触或重叠的情况,此时,便可以确定包含该至少两个位置框的区域,并根据确定出的区域,对第一图像中的该区域执行图像截取,以及进行图像上采样,以便对这个区域的图像进行放大。这里,图像截取的方式则可以利用坐标点实现,比如,在确定出有交集的至少两个第一位置框时,可以获取该至少两个第一位置框的坐标,从而确定出包含该至少两个位置框的区域坐标,从而进行图像截取。图像上采样已经在前文介绍,可以用于提高分辨率。
如图4所示,为第二图像的示意图,图4中的左图和右图,分别对应第一图像中中间位置的两个人物、以及右侧位置的两个人物,由于两组人物中,根据第一图像进行位置识别的两个人物的位置框存在交集,所以就可以从第一图像中进行截图,并通过执行图像上采样,得到分辨率较高的图像。需要说明的是,这里的第二图像,可以是比在第一图像中对应的位置的分辨率要高,而与第一图像的整体分辨率不存在明显关系。图4通过对包含两个人物的图像进行放大尺寸,示意出比第一图像中两个人物对应的位置分辨率要高。
如图4所示,包含至少两个目标对象的区域,可以是针对第一图像得到的该至少两个目标对象的位置框并集。也即,为了节省处理资源、提高位置识别效率,本步骤当第一位置框集合中存在至少两个位置框出现交集时,确定包含该至少两个位置框的区域,并对第一图像中的该区域执行图像截取以及图像上采样,生成第二图像的步骤,可以包括:当第一位置框集合中存在至少两个位置框出现交集时,确定包含该至少两个位置框的并集区域,并对第一图像中的该并集区域执行图像截取以及图像上采样,生成第二图像。
在实际应用中,可能存在一个位置框中包含另一个位置框的情况,则该至少两个位置框对应的目标对象极有可能在图像中出现了位置重叠的情况,即如图3中的右侧两个人物。那么为了能够提高对图像内目标对象的位置识别准确性,可选的,本步骤当第一位置框集合中存在至少两个位置框出现交集时,确定包含该至少两个位置框的区域,并对第一图像中的该区域执行图像截取以及图像上采样,生成第二图像的步骤可以包括:当第一位置框集合中存在至少两个位置框具有包含关系时,确定包含至少两个位置框的区域,并对第一图像中的该区域执行图像截取以及图像上采样,生成第二图像。如图3所示,右侧两个人物的位置框具有包含关系,外侧位置框包含住内侧位置框,则可以根据外侧位置框所表示的区域,对第一图像执行图像截取以及图像上采样,生成如图4中右图所示的第二图像。
对于上述两种位置框存在交集的情况,均可以通过前文介绍的获取位置框坐标的方式实现,比如,可以根据至少两个出线交集的位置框的坐标,确定出并集区域,或包含该至少两个位置框的区域,从而进行图像截取以及图像上采样。
在实际应用中,由于目标对象在图像中的不同位置,至少两个位置框在出现交集时,也可以有不同的情况,正如图4所示的情况,可以理解地,出现至少两个位置框出现交集的情况越严重,那么对目标对象的位置识别就越困难,然而在出现交集较为严重的情况下,加大图像上采样的力度,则可以在一定程度上提高对目标对象的位置识别精准度,所以可选的,当第一位置框集合中存在至少两个位置框出现交集时,确定包含该至少两个位置框的区域,并对第一图像中的该区域执行图像截取以及图像上采样,生成第二图像的步骤,可以包括:当第一位置框集合中存在至少两个位置框出现交集时,确定包含该至少两个位置框的区域;根据该至少两个位置框的交集比例,确定图像上采样的采样比例;对第一图像中的该区域执行图像截取,并按照确定出的采样比例进行图像上采样,生成第二图像。
具体地,如图3所示,中间侧两个人物和右侧两个人物,第一位置框出现交集的比例是不同的,比如中间两个人物的位置框出现交集的比例可能在80%至90%,而右侧两个人物的位置框出现交集的比例可以是100%。由于交集比例越大,对于识别人物的位置就越困难,所以便可以根据交集比例,根据预设的对应关系,确定出图像上采样的采样比例。比如交集在10%至30%时,采样比例为1级,交集在30%至60%时,采样比例为2级,交集在60%以上时,采样比例为3级,等。这里的等级便可以是指进行图像上采样时,添加像素点的数量等,具体不做限定,可以设定,级别越高则图像的分辨率越高,图像更清晰。在确定出采样比例后,便可以类似于上文所述进行图像截取和图像上采样。
根据至少两个位置框出现交集的比例,确定图像上采样的比例,从而使交集比例越大,则采样比例越高,以致上采样后的图像越清晰,则越有利于达到准确识别出目标对象的位置的效果。
在步骤S13中,利用第二位置识别方式,对第二图像中的目标对象进行位置识别,生成包含目标对象的第二位置框集合。
在前述步骤已经生成了相对于第一图像分辨率更高的第二图像,则本步骤就可以利用与步骤S11中介绍的类似方式,对第二图像中的目标对象进行位置识别,从而生成包含目标对象的第二位置框集合。具体地,在对第二图像中的目标对象进行位置识别时,也可以根据第二图像的图像特征确定适用于第二图像的位置识别方式,从而达到提高识别效率,节省计算量的效果,也可以达到满足不同需求的效果。当然,可能由于第二图像与第一图像中的图像特征类似,使得第二位置识别方式与第一位置识别方式相同。
由于第二图像相对于第一图像中对应的区域具有较高的分辨率,所以就可以在一定程度上提高对密集目标对象中目标对象的位置识别准确性。如图5所示,为对第二图像中的目标对象进行位置识别的示意图,可以从示意中看出,对放大后的图像进行目标对象位置识别后,则可以较为准确地确定出两个人物分别对应的位置框。
可以理解地,若在对第二图像进行对象位置识别后,依旧存在至少两个第二位置框出现交集的情况,则可以继续通过重复执行步骤S12和步骤S13,进行位置识别。
而在实际应用中,可能会存在目标对象接触或重叠较为严重的情况,如图5中右图所示,可能经过多次的图像上采样,依旧无法达到理想位置识别效果,所以在实际中,也可以预设一个图像上采样的次数,比如4次、5次,等,也即预设出执行本方法的循环次数。
在步骤S14中,在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据该目标位置框生成目标对象的位置识别结果。
具体地,在经过前述步骤,对图像中的目标对象进行位置识别后,可能依旧存在位置框之间出现交集的情况,比如图5中的情况,那么此时,就可以在确定出的位置看集合中,查找不与其他位置框出现交集的目标位置框,比如图3中左侧的两个人物,对应的位置框均不与其他位置框出现交集,而这种位置框很有可能只包含单个目标对象,则可以根据该目标位置框生成目标对象的位置识别结果。
而生成的方式,则可以获取目标位置框在图像中的位置坐标,并在第一图像或原始图像中划出。在前述步骤中,对第一图像进行了截取、以及图像上采样,在开始处理时,也可以对原始图像进行图像上采样或图像下采样,那么对于在对图像进行处理时,均可以存储相对于原始图像、或第一图像的相对坐标,从而可以将目标位置框更好地还原到原始图像或第一图像上。
当然在实际应用中,也可以根据不同的需求,输出目标位置框坐标,目标位置框的统计结果,等。比如,目标对象的位置识别结果可以是对目标对象的统计数量,则本步骤就可以将目标位置框的数量作为目标对象的统计数量进行结果输出。
在实际应用中,步骤S14与前述各步骤中不存在前后执行的关系,比如在执行步骤S11后,也可以执行本步骤,在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,而在执行步骤S13后,同样可以执行本步骤,确定出目标位置框。也即在不断重复执行步骤S11至S13的过程中,也可以不断地执行不受S14,从而识别出目标对象的位置。
根据上述实施例,可以先对第一图像中的目标对象进行位置识别,生成包含目标对象的位置框,在生成出的位置框当中,当存在至少两个目标对象的位置框出现交集时,则可以根据包含该至少两个目标对象的区域,对第一图像执行截取和上采样,生成第二图像,此后可以再对第二图像中的目标对象进行位置识别,进而再生成包含目标对象的位置框。
也即,可以先利用适用于第一图像的第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含目标对象的第一位置框集合,在生成出的第一位置框集合当中,当存在至少两个位置框出现交集时,则可以确定包含该至少两个位置框的区域,并对第一图像中的该区域执行图像截取和图像上采样,生成第二图像,据此可以再利用适用于第二图像的第二位置识别方式,对第二图像中的目标对象进行位置识别,进而再生成包含目标对象的第二位置框集合,此后,可以在确定出的位置集合中中,查找不与其他位置框出现交集的目标位置框,并根据目标位置生成该目标对象的位置识别结果。
也即,先对图像中的目标对象进行位置识别,得到对应的位置框集合,若存在目标对象重叠、即位置框有公共边界的情况时,可以从图像中对包含重叠目标对象的区域进行截取并放大分辨率,以便再次对截取放大后的图像进行目标对象位置识别。如此往复,则可以在目标对象较为密集的图像中,提高对目标对象的位置识别效果。
图6是根据一示例性实施例示出的一种图像中目标对象的位置识别装置框图。该装置包括位置预识别单元21、图像生成单元22、以及识别结果生成单元23,其中,
位置预识别单元21,被配置为可以执行利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含目标对象的第一位置框集合,第一位置识别方式根据第一图像的图像特征确定;
图像生成单元22,被配置为可以执行当第一位置框集合中存在至少两个位置框出现交集时,确定包含至少两个位置框的区域,并对第一图像中的区域执行图像截取以及图像上采样,生成第二图像;
位置预识别单元21,被配置为可以执行利用第二位置识别方式,对第二图像中的目标对象进行位置识别,生成包含目标对象的第二位置框集合,第二位置识别方式根据第二图像的图像特征确定;
识别结果生成单元23被配置为可以执行在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据目标位置框生成目标对象的位置识别结果。
可选的,图像生成单元22,被配置为可以执行:
当第一位置框集合中存在至少两个位置框出现交集时,确定包含至少两个位置框的区域;
根据至少两个位置框的交集比例,确定图像上采样的采样比例;
对第一图像中的区域执行图像截取,并按照采样比例进行图像上采样,生成第二图像。
可选的,装置还包括:图像预处理单元,被配置为可以执行:利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含目标对象的第一位置框集合的步骤之前,
从原始图像中截取局部原始图像,对局部原始图像中的目标对象进行位置识别,生成包含目标对象的原始位置框集合;
根据原始位置框集合中出现交集的位置框比例,确定图像上采样或图像下采样的比例;
根据比例,对原始图像执行图像上采样或图像下采样,生成第一图像。
可选的,图像生成单元22,被配置为可以执行:
当第一位置框集合中存在至少两个位置框出现交集时,确定包含至少两个位置框的并集区域,并对第一图像中的并集区域执行图像截取以及图像上采样,生成第二图像。
可选的,图像生成单元22,被配置为可以执行:
当第一位置框集合中存在至少两个位置框具有包含关系时,确定包含至少两个位置框的区域,并对第一图像中的区域执行图像截取以及图像上采样,生成第二图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备的框图。该电子设备可以被提供为一种终端,包括处理器31;
以及用于存储处理器可执行指令的存储器32,
其中,处理器31可以被配置为执行上述可执行指令,以实现上述实施例中描述的图像中目标对象的位置识别方法。
本公开还提供了一种包括指令的存储介质,例如包括指令的存储器32,上述指令可由图7的电子设备中的处理器31执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是根据一示例性实施例示出的一种服务器的框图。该服务器可以被提供为一种终端,包括处理器41;以及用于存储处理器可执行指令的存储器42,其中,处理器41可以被配置为执行上述可执行指令,以实现上述实施例中描述的图像中目标对象的位置识别方法。
本公开还提供了一种计算机程序产品,计算机程序产品在处理器上执行时,实现上述实施例中描述的图像中目标对象的位置识别方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种图像中目标对象的位置识别方法,其特征在于,包括:
利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合,所述第一位置识别方式根据所述第一图像的图像特征确定;
当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像;
利用第二位置识别方式,对所述第二图像中的所述目标对象进行位置识别,生成包含所述目标对象的第二位置框集合,所述第二位置识别方式根据所述第二图像的图像特征确定;
在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据所述目标位置框生成所述目标对象的位置识别结果。
2.根据权利要求1所述的图像中目标对象的位置识别方法,其特征在于,所述当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像的步骤包括:
当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域;
根据所述至少两个位置框的交集比例,确定图像上采样的采样比例;
对所述第一图像中的所述区域执行图像截取,并按照所述采样比例进行图像上采样,生成第二图像。
3.根据权利要求1所述的图像中目标对象的位置识别方法,其特征在于,所述利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合的步骤之前,所述方法还包括:
从原始图像中截取局部原始图像,对所述局部原始图像中的目标对象进行位置识别,生成包含所述目标对象的原始位置框集合;
根据所述原始位置框集合中出现交集的位置框比例,确定图像上采样或图像下采样的比例;
根据所述比例,对所述原始图像执行图像上采样或图像下采样,生成第一图像。
4.根据权利要求1所述的图像中目标对象的位置识别方法,其特征在于,所述当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的特定区域,并对所述第一图像中的所述特定区域执行图像截取以及图像上采样,生成第二图像的步骤包括:
当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的并集区域,并对所述第一图像中的所述并集区域执行图像截取以及图像上采样,生成第二图像。
5.根据权利要求1所述的图像中目标对象的位置识别方法,其特征在于,所述当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的特定区域,并对所述第一图像中的所述特定区域执行图像截取以及图像上采样,生成第二图像的步骤包括:
当所述第一位置框集合中存在至少两个位置框具有包含关系时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像。
6.一种图像中目标对象的位置识别装置,其特征在于,包括:位置预识别单元、图像生成单元、以及识别结果生成单元,其中,
位置预识别单元,被配置为执行利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合,所述第一位置识别方式根据所述第一图像的图像特征确定;
图像生成单元,被配置为执行当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域,并对所述第一图像中的所述区域执行图像截取以及图像上采样,生成第二图像;
位置预识别单元,被配置为执行利用第二位置识别方式,对所述第二图像中的所述目标对象进行位置识别,生成包含所述目标对象的第二位置框集合,所述第二位置识别方式根据所述第二图像的图像特征确定;
识别结果生成单元,被配置为执行在确定出的位置框集合中,查找不与其他位置框出现交集的目标位置框,并根据所述目标位置框生成所述目标对象的位置识别结果。
7.根据权利要求6所述的图像中目标对象的位置识别装置,其特征在于,所述图像生成单元,被配置为执行:
当所述第一位置框集合中存在至少两个位置框出现交集时,确定包含所述至少两个位置框的区域;
根据所述至少两个位置框的交集比例,确定图像上采样的采样比例;
对所述第一图像中的所述区域执行图像截取,并按照所述采样比例进行图像上采样,生成第二图像。
8.根据权利要求6所述的图像中目标对象的位置识别装置,其特征在于,所述装置还包括:图像预处理单元,被配置为执行:利用第一位置识别方式,对第一图像中的目标对象进行位置识别,生成包含所述目标对象的第一位置框集合的步骤之前,
从原始图像中截取局部原始图像,对所述局部原始图像中的目标对象进行位置识别,生成包含所述目标对象的原始位置框集合;
根据所述原始位置框集合中出现交集的位置框比例,确定图像上采样或图像下采样的比例;
根据所述比例,对所述原始图像执行图像上采样或图像下采样,生成第一图像。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的图像中目标对象的位置识别方法。
10.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的图像中目标对象的位置识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310867.6A CN111178192B (zh) | 2019-12-18 | 2019-12-18 | 一种图像中目标对象的位置识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310867.6A CN111178192B (zh) | 2019-12-18 | 2019-12-18 | 一种图像中目标对象的位置识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178192A true CN111178192A (zh) | 2020-05-19 |
CN111178192B CN111178192B (zh) | 2023-08-22 |
Family
ID=70653920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911310867.6A Active CN111178192B (zh) | 2019-12-18 | 2019-12-18 | 一种图像中目标对象的位置识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178192B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832557A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 电网巡检方法、装置、电子设备及存储介质 |
CN112613560A (zh) * | 2020-12-24 | 2021-04-06 | 哈尔滨市科佳通用机电股份有限公司 | 一种基于Faster R-CNN的铁路动车头罩前开闭破损故障识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130064425A1 (en) * | 2011-09-13 | 2013-03-14 | Canon Kabushiki Kaisha | Image recognizing apparatus, image recognizing method, and program |
US20180075290A1 (en) * | 2016-09-09 | 2018-03-15 | Microsoft Technology Licensing, Llc | Object detection based on joint feature extraction |
CN110059617A (zh) * | 2019-04-17 | 2019-07-26 | 北京易达图灵科技有限公司 | 一种目标物体的识别方法及装置 |
CN110263730A (zh) * | 2019-06-24 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN110532984A (zh) * | 2019-09-02 | 2019-12-03 | 北京旷视科技有限公司 | 关键点检测方法、手势识别方法、装置及系统 |
-
2019
- 2019-12-18 CN CN201911310867.6A patent/CN111178192B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130064425A1 (en) * | 2011-09-13 | 2013-03-14 | Canon Kabushiki Kaisha | Image recognizing apparatus, image recognizing method, and program |
US20180075290A1 (en) * | 2016-09-09 | 2018-03-15 | Microsoft Technology Licensing, Llc | Object detection based on joint feature extraction |
CN110059617A (zh) * | 2019-04-17 | 2019-07-26 | 北京易达图灵科技有限公司 | 一种目标物体的识别方法及装置 |
CN110263730A (zh) * | 2019-06-24 | 2019-09-20 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN110532984A (zh) * | 2019-09-02 | 2019-12-03 | 北京旷视科技有限公司 | 关键点检测方法、手势识别方法、装置及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832557A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 电网巡检方法、装置、电子设备及存储介质 |
CN112613560A (zh) * | 2020-12-24 | 2021-04-06 | 哈尔滨市科佳通用机电股份有限公司 | 一种基于Faster R-CNN的铁路动车头罩前开闭破损故障识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111178192B (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717489B (zh) | Osd的文字区域的识别方法、装置及存储介质 | |
CN109635656A (zh) | 基于神经网络的车辆属性识别方法、装置、设备及介质 | |
CN110491132B (zh) | 基于视频帧图片分析的车辆违停检测方法及装置 | |
CN110942071A (zh) | 一种基于车牌分类和lstm的车牌识别方法 | |
CN109492642B (zh) | 车牌识别方法、装置、计算机设备及存储介质 | |
CN107122777A (zh) | 一种基于视频文件的车辆分析系统及分析方法 | |
CN111259878A (zh) | 一种检测文本的方法和设备 | |
CN108399424B (zh) | 一种点云分类方法、智能终端及存储介质 | |
CN109472262A (zh) | 车牌识别方法、装置、计算机设备及存储介质 | |
CN114067186B (zh) | 一种行人检测方法、装置、电子设备及存储介质 | |
CN112651953B (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
CN113313083B (zh) | 文本检测方法及装置 | |
CN109034136A (zh) | 图像处理方法、装置、摄像设备及存储介质 | |
CN103093201A (zh) | 车标定位识别方法及系统 | |
CN111178192B (zh) | 一种图像中目标对象的位置识别方法及装置 | |
CN109447117A (zh) | 双层车牌识别方法、装置、计算机设备及存储介质 | |
KR102285269B1 (ko) | 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법 | |
CN117315406B (zh) | 一种样本图像处理方法、装置及设备 | |
CN112101323B (zh) | 标题列表的识别方法、系统、电子设备及存储介质 | |
CN111126248A (zh) | 一种遮挡下的车辆识别方法及装置 | |
Dhar et al. | Interval type-2 fuzzy set and human vision based multi-scale geometric analysis for text-graphics segmentation | |
EP4207066A1 (en) | Object tracking method and apparatus, device, and a computer-readable storage medium | |
Liu et al. | A simple and fast text localization algorithm for indoor mobile robot navigation | |
CN114550060A (zh) | 周界入侵识别方法、系统及电子设备 | |
CN113313143B (zh) | 一种车牌检测方法、装置以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |