CN103324949A - 从图像中识别物体的方法和装置 - Google Patents

从图像中识别物体的方法和装置 Download PDF

Info

Publication number
CN103324949A
CN103324949A CN2012100772239A CN201210077223A CN103324949A CN 103324949 A CN103324949 A CN 103324949A CN 2012100772239 A CN2012100772239 A CN 2012100772239A CN 201210077223 A CN201210077223 A CN 201210077223A CN 103324949 A CN103324949 A CN 103324949A
Authority
CN
China
Prior art keywords
image
feature vector
node
training feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100772239A
Other languages
English (en)
Other versions
CN103324949B (zh
Inventor
郝凯
陈克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210077223.9A priority Critical patent/CN103324949B/zh
Publication of CN103324949A publication Critical patent/CN103324949A/zh
Application granted granted Critical
Publication of CN103324949B publication Critical patent/CN103324949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种从图像中识别物体的方法和装置,其中,该方法包括:在待检测图像的不同抽取位置上获取对应的特征向量;在预先建立的检索树中查找到与每一个特征向量最相似的一个节点上的训练特征向量;获取每一个查找到的训练特征向量所属的物体类别以及训练特征向量所对应的位置与物体中心之间的相对位置关系;统计每一张投票图像上每个点作为物体中心的估计位置的次数,当投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出待检测图像上存在该投票图像所对应的物体类别的物体。本申请解决了现有技术中由于将当前位置的局部特征向量与数据库中的局部特征向量一一进行比较而导致的检测时间较长的技术问题。

Description

从图像中识别物体的方法和装置
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种从图像中识别物体的方法和装置。
背景技术
图像物体检测是涉及计算机数字图像处理和模式识别领域的一项技术,其目的是检测图像中是否存在某种具有语义信息的物体,所谓的语义就是数据对应的现实世界中的事物所代表的概念的含义诸如人脸、行人或车辆等。现有技术中一般根据图像像素亮度值的分布,计算某位置的局部特征向量,并根据图像子区域内局部特征向量的组合来判断该区域是否包含待检测物体。
然而,针对图像中的物体识别,目前提出了一种通过投票方法来估计物体中心的位置和置信程度的方法。如图1所示,该方法分为训练阶段S102和检测阶段S104。
其中,S102中的训练阶段包括以下步骤:
S1:确定待检测物体的类别,将待检测物体所属类别的标准图像作为训练图像,在训练图像上人工标注物体的中心位置,例如,当待检测物体是人时,可以选择一些标准的人物图像作为训练图像。
S2:在训练图像上从左到右、从上到下依次在不同位置计算其局部特征向量;
S3:将局部特征向量和该局部特征向量对应的位置与物体中心位置的相对位置关系存入计算机数据库中。
其中,S104中的检测阶段包括以下步骤:
S1:建立与待检测图像同样大小的图像作为投票图像,将投票图像上的每个位置的置信程度初始化为0;
S2:计算待检测图像每个位置的局部特征向量,将当前位置的局部特征向量与数据库中的每一个特征向量进行一一比较,寻找与当前的局部特征向量最为接近的一个或多个特征向量,称为相似特征向量;
S3:根据当前位置、以及所查找到的相似特征向量与物体中心位置之间的位置关系,得到对应于投票图像中的待检测物体的物体中心的估计位置,将“投票图像中的该位置是物体中心”所对应的该位置的置信程度加1;
S4:预先为置信程度设置一个预定阈值,当投票图像中某个位置作为物体的中心的置信程度达到预定阈值时,则判断出该待检测图像中存在该物体。
通过上述描述可知,在识别图像中的物体的过程中,需要将当前位置的局部特征向量与数据库中的局部特征向量一一进行比较,假设待检测图像中可以提取m个局部特征向量,数据库中保存了n个局部特征向量,则整个物体检测过程需要进行m*n次比较才能完成。在实际运用过程中,n越大,检测结果越精确,但是随着n的增加相应的计算量也会增加,一般情况下n是一个非常大的值。同时上述方法对待检测图像每一次只能针对一类物体进行检测,而实际应用中待检测物体的种类繁多,需要重复执行多次检测过程才能判断待检测图像中是否有待检测物体,当需要对多种物体进行检测的时候,时间开销太大。
针对相关技术中上述问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种从图像中识别物体的方法和装置,以至少解决现有技术中由于将当前位置的局部特征向量与数据库中的局部特征向量一一进行比较而导致的检测时间较长的技术问题。
根据本申请的一个方面,提供了一种从图像中识别物体的方法,其包括:在待检测图像的不同抽取位置上获取对应的特征向量;在预先建立的检索树中查找到与每一个特征向量最相似的一个节点上的训练特征向量,其中,检索树中的每一个节点上具有由预定数量的训练特征向量聚类得到的一个训练特征向量;获取每一个查找到的训练特征向量所属的物体类别以及训练特征向量所对应的位置与物体中心之间的相对位置关系;对每一个特征向量,根据与该特征向量对应的训练特征向量与物体中心之间的相对位置关系以及该特征向量对应的抽取位置的坐标得到在该训练特征向量所对应的物体类别的投票图像上物体中心的估计位置,其中,每一个待识别的物体类别对应一张投票图像;统计每一张投票图像上每个点作为物体中心的估计位置的次数,当投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出待检测图像上存在该投票图像所对应的物体类别的物体。
优选地,通过以下步骤建立检索树:从第一检测图像库中提取预定数量的用于建立检索树的图像,提取每一个用于建立检索树的图像中的局部特征向量;对所有局部特征向量执行聚类操作得到多个聚类中心,将检索树的第一层节点设置为与多个聚类中心一一对应;对检索树中每一层上的每个节点对应的聚类中心进行聚类操作,将聚类得到的聚类中心设置为与该节点的子节点一一对应;对检索树进行训练操作。
优选地,对检索树进行训练操作的步骤包括:从第二检测图像库中提取预定数量的用于训练检索树的图像,提取每一个用于训练检索树的图像中的训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的与物体中心之间的相对位置关系;在检索树中查找与每一个训练特征向量最相似的一个节点,并将该训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的位置与物体中心之间的相对位置关系设置在该最相似的一个节点上。
优选地,在预先建立的检索树中查找到与每一个特征向量最相似的一个节点上的训练特征向量的步骤包括:逐层判断每一个特征向量与预先建立的检索树上每一层的节点上的训练特征向量的相似度;若相似度大于预定阈值,则该相似度对应的节点为与该特征向量最相似的一个节点,并获取该节点上的训练特征向量。
优选地,检索树包括:高度为(h+1)的k叉树,其中,h和k均为自然数。
根据本申请的另一方面,提供了一种从图像中识别物体的装置,其包括:第一获取单元,用于在待检测图像的不同抽取位置上获取对应的特征向量;查找单元,用于在预先建立的检索树中查找到与每一个特征向量最相似的一个节点上的训练特征向量,其中,检索树中的每一个节点上具有由预定数量的训练特征向量聚类得到的一个训练特征向量;获取单元,用于获取每一个查找到的训练特征向量所属的物体类别以及训练特征向量所对应的位置与物体中心之间的相对位置关系;确定单元,用于对每一个特征向量,根据与该特征向量对应的训练特征向量与物体中心之间的相对位置关系以及该特征向量对应的抽取位置的坐标,得到在该训练特征向量所对应的物体类别的投票图像上物体中心的估计位置,其中,每一个待识别的物体类别对应一张投票图像;统计单元,用于统计每一张投票图像上每个点作为物体中心的估计位置的次数,当投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出上存在该投票图像所对应的物体类别的物体。
优选地,该装置还包括建立单元,用于建立检索树。
优选地,建立单元包括:提取模块,用于从第一检测图像库中提取预定数量的用于建立检索树的图像,提取每一个用于建立检索树的图像中的局部特征向量;设置模块,用于对所有局部特征向量执行聚类操作得到多个聚类中心,将检索树的第一层节点设置为与多个聚类中心一一对应;聚类模块,用于对检索树中每一层上的每个节点对应的聚类中心进行聚类操作,将聚类得到的聚类中心设置为与该节点的子节点一一对应;训练模块,用于对检索树进行训练操作。
优选地,训练模块包括:提取子模块,用于在对检索树进行训练的过程中从第二检测图像库中提取预定数量的用于训练检索树的图像,提取每一个用于训练检索树的图像中的训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的与物体中心之间的相对位置关系;设置子模块,用于在检索树中查找与每一个训练特征向量最相似的一个节点,并将该训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的位置与物体中心之间的相对位置关系设置在该最相似的一个节点上。
优选地,查找单元包括:判断模块,用于逐层判断每一个特征向量与预先建立的检索树上每一层的节点上的训练特征向量的相似度;获取模块,用于在相似度大于预定阈值时,确定该相似度对应的节点为与该特征向量最相似的一个节点,并获取该节点上的训练特征向量。
通过本申请的技术方案,能够达到以下有益效果:
1)在本申请中,采用了树形检索结构进行物体识别,并且用检索树中的每一个节点对应一个特征向量的聚类中心。由于预先对特征向量进行了聚类操作,这样,使得计算的次数(其中,计算的次数与检测的速度相对应)与数据库中的特征向量的个数(其中,数据库中的特征向量的个数与检测的精度相对应)无关,而与预先建立的检索树的结构有关,从而在相同的检测精度要求下可以提高检测速度;
2)本申请采用并行投票的方法,通过同时在每一个物体类别中统计每一个不同的所述估计位置出现的次数,进而达到在一轮检测过程中完成对多种类别物体的检测的效果。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据相关技术的从图像中识别物体的方法的流程图;
图2是根据本申请实施例的从图像中识别物体的系统的结构示意图;
图3是根据本申请实施例的从图像中识别物体的装置的一种优选的结构示意图;
图4是根据本申请实施例的从图像中识别物体的装置的另一种优选的结构示意图;
图5是根据本申请实施例的从图像中识别物体的装置的又一种优选的结构示意图;
图6是根据本申请实施例的从图像中识别物体的装置的又一种优选的结构示意图;
图7是根据本申请实施例的检索树的一种优选示意图;
图8是根据本申请实施例的从图像中识别物体的方法的一种优选流程图;
图9是根据本申请实施例的从图像中识别物体的方法的另一种优选流程图;
图10是根据本申请实施例的从图像中识别物体的方法的又一种优选流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在描述本申请的各实施例的进一步细节之前,将参考图2来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中,除非另外指明,否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此,可以理解,有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它,这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而,尽管在上述上下文中描述本申请,但它并不意味着限制性的,如本领域的技术人员所理解的,后文所描述的动作和操作的各方面也可用硬件来实现。
转向附图,其中相同的参考标号指代相同的元素,本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例,并且不应认为是关于此处未明确描述的替换实施例而限制本申请。
图2示出了可用于这些设备的一个示例计算机体系结构的示意图。出于描述的目的,所绘的体系结构仅为合适环境的一个示例,并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图2所示的任一组件或其组合具有任何依赖或需求。
本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于,个人计算机、服务器,多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。
在其最基本的配置中,图2中的从图像中识别物体的系统200至少包括:一个网站的服务器202以及一个或多个客户端204。服务器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置;客户端204可以包括:微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中,“从图像中识别物体的系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合。从图像中识别物体的系统200甚至可以是分布式的,以实现分布式功能。
如本申请所使用的,术语“模块”、“组件”或“单元”可以指在从图像中识别物体的系统200上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在从图像中识别物体的系统200上执行(例如,作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现,但是硬件或软件和硬件的组合的实现也是可能并被构想的。
实施例1
图3是根据本申请实施例的从图像中识别物体的装置的一种优选的结构示意图,优选的,本实施例中的装置位于服务器202上或者客户端204上。
根据本申请的另一方面,提供了一种从图像中识别物体的装置,如图3所示,该装置包括:第一获取单元302,用于在待检测图像的不同抽取位置上获取对应的特征向量;查找单元304,用于在预先建立的检索树中查找到与每一个特征向量最相似的一个节点上的训练特征向量,其中,检索树中的每一个节点上具有由预定数量的训练特征向量聚类得到的一个训练特征向量;第二获取单元306,用于获取每一个查找到的训练特征向量所属的物体类别以及训练特征向量所对应的位置与物体中心之间的相对位置关系;确定单元308,用于对每一个特征向量,根据与该特征向量对应的训练特征向量与物体中心之间的相对位置关系以及该特征向量对应的抽取位置的坐标,得到在该训练特征向量所对应的物体类别的投票图像上物体中心的估计位置,其中,每一个待识别的物体类别对应一张投票图像;统计单元310,用于统计每一张投票图像上每个点作为物体中心的估计位置的次数,当投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出上存在该投票图像所对应的物体类别的物体。
在上述优选的实施例中,采用了树形检索结构对图像中的物体进行识别,并且用检索树中的每一个节点对应一个特征向量的聚类中心。由于预先对特征向量进行了聚类操作,这样,使得计算的次数与数据库中的特征向量的个数无关,而仅仅与预先建立的检索树的结构有关,从而在相同的检测精度的要求下可以提高检测的速度。
在一个优选实施方式中,如图4所示,该装置还包括建立单元312,用于建立检索树。该建立单元312包括:提取模块402,用于从第一检测图像库中提取预定数量的用于建立检索树的图像,提取每一个用于建立检索树的图像中的局部特征向量;设置模块404,用于对所有局部特征向量执行聚类操作得到多个聚类中心,将检索树的第一层节点设置为与多个聚类中心一一对应;聚类模块406,用于对检索树中每一层上的每个节点对应的聚类中心进行聚类操作,将聚类得到的聚类中心设置为与该节点的子节点一一对应;训练模块408,用于对检索树进行训练操作。在本优选实施例中,通过对局部特征向量的多层次聚类形成检索树,大大提高了检测速度,同时保证了检测速度不会受到训练样本数的影响。
在一个优选实施方式中,如图5所示,训练模块408包括:提取子模块502,用于在对检索树进行训练的过程中从第二检测图像库中提取预定数量的用于训练检索树的图像,提取每一个用于训练检索树的图像中的训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的与物体中心之间的相对位置关系;设置子模块504,用于在检索树中查找与每一个训练特征向量最相似的一个节点,并将该训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的位置与物体中心之间的相对位置关系设置在该最相似的一个节点上。在本优选实施例中,通过对特征向量的训练和挂靠,并记录各类物体的所述类别及该训练特征向量所对应的与物体中心之间的相对位置,保证了对图像中物体进行检测时更精确快速的定位,进而达到了增加训练样本提高检测精度而不影响检测速度的目的。
在一个优选实施方式中,如图6所示,查找单元304包括:判断模块602,用于逐层判断每一个特征向量与预先建立的检索树上每一层的节点上的训练特征向量的相似度;获取模块604,用于在相似度大于预定阈值时,确定该相似度对应的节点为与该特征向量最相似的一个节点,并获取该节点上的训练特征向量。
在一个优选实施方式中,可以同时建立多张投票图像,同时对多张投票图像对应的物体类别进行检测,通过上述方式解决了现有技术中当需要对多类物体进行检测的时候,要重复执行多次检测过程的问题,可以实现一次对多类物体检测的目的,进而达到了简化检索步骤,加快检索速度的效果。
优选的,上述的检索树可以是:高度为(h+1)的k叉树,其中,h和k均为自然数。在本优选实施例中,检索树采用k叉树的形式存储,在检测过称中,在对待检测图像提取m个特征向量的情况下,总共只需要比较m*k*h次,大大提高了检索的速度,同时可以实现对多类别的物体同时进行检测的目的。
以下结合具体的检索树来描述上述优选实施例中的从图像中识别物体的方法。图7示出了一个h为3,k为2的检索树,节点N1-N7上设置有聚类得到的多层次的聚类中心,叶子节点L1-L8上分别设置(挂靠)有训练特征向量(T1-T8)的叶子节点。采用上述优选实施例中的方法,可以首先将从待测图像中抽取的特征向量(T0)和h=1层的节点(包括:N2和N3)上的训练特征向量(T2和T3)进行比较。如果T2与T0的相似度大于T3与T0的相似度(即,T0与T2更接近),则将T0和h=2层的N2的子节点(包括:N4和N5)上的训练特征向量(T4和T5)进行比较,否则,将T0和h=2层的N3的子节点上的训练特征向量(T6和T7)进行比较。逐层执行上述比较操作直到查找到与特征向量T0的相似度最大的叶子节点,例如,在一种优选的示例中,叶子节点L2与特征向量T0的相似度最大。通过上述的检测方法,对于每个抽取的特征向量,只需要进行3*2次的比较,也就是6次就可以找到其对应的相似特征向量。然而,如果采用现有技术中的比较策略,则需要将T0与每一个训练特征向量进行比较,这样需要进行8次比较操作。可见,在训练特征向量均为8个的条件下(即,检测精度相同),本申请在相同的检测精度要求下可以减少检测方法中的比较步骤,即,提高了检测速度。
上述示例是在h和k的取值都很小的情况下的示意性例子,实际应用中,h和k都是很大的数值,对于比较步骤的速度提高将更为明显。
实施例2
在图3-图6所示的从图像中识别物体的装置的基础上,本申请提供了一种优选的从图像中识别物体的方法。如图8所示,该从图像中识别物体的方法可以包括如下步骤:
S802,在待检测图像的不同抽取位置上获取对应的特征向量;
S804,在预先建立的检索树中查找到与每一个上述特征向量最相似的一个节点上的训练特征向量,其中,上述检索树中的每一个节点上具有由预定数量的训练特征向量聚类得到的一个训练特征向量;
S806,获取每一个上述查找到的训练特征向量所属的物体类别以及训练特征向量所对应的位置与物体中心之间的相对位置关系;
优选的,上述的物体类别可以为人物、树木以及动物的具体类别等。
S808,对每一个上述特征向量,根据与该特征向量对应的训练特征向量与物体中心之间的相对位置关系以及该特征向量对应的上述抽取位置的坐标得到在该训练特征向量所对应的物体类别的投票图像上物体中心的估计位置;
其中,每一个待识别的物体类别对应一张投票图像;优选的,对每种预识别的物体类别建立一张投票图像,该投票图像的大小与待检测图像的大小相同;
S810,统计每一张上述投票图像上每个点作为物体中心的估计位置的次数,当投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出所述待检测图像上存在该投票图像所对应的物体类别的物体。
在上述优选的实施例中,采用了树形检索结构对图像中的物体进行识别,并且用检索树中的每一个节点对应一个特征向量的聚类中心。由于预先对特征向量进行了聚类操作,这样,使得计算的次数与数据库中的特征向量的个数无关,而仅仅与预先建立的检索树的结构有关,从而在相同的检测精度的要求下可以提高检测的速度。可以同时建立多张投票图像,以对应多种物体类别,通过对多个物体类别同时进行检测,解决了现有技术中当需要对多类物体进行检测的时候,要重复执行多次检测过程的问题,可以实现一次对多类物体检测的目的,进而达到了简化检索步骤,加快检索速度的效果。
本申请还对识别过程进行了改进,以便达到同时对多个物体类别进行检测的技术效果。为了实现上述目的,具体地,在本申请各个优选的实施例的基础上,提供了一种优选的识别步骤,即,在上述步骤S810中,在每一个上述物体类别中统计每一个不同的上述估计位置出现的次数的步骤包括:同时在每一个上述物体类别中统计每一个不同的上述估计位置出现的次数。
优选的,建立上述检索树的步骤包括:从第一检测图像库中提取预定数量的用于建立上述检索树的图像,提取每一个用于建立上述检索树的图像中的局部特征向量;对所有局部特征向量执行聚类操作得到多个聚类中心,将上述检索树的第一层节点设置为与上述多个聚类中心一一对应;对上述检索树中每一层上的每个节点对应的聚类中心进行聚类操作,将聚类得到的聚类中心设置为与该节点的子节点一一对应;对上述检索树进行训练操作。在上述优选实施方式中,第一检测图像库可以包括自然图像库中的多张图像,图像中的物体的形态可以不是非常标准的,因在这一步中只是为了实现聚类,并未成为真正的检索树,聚类操作就是将相近的特征向量作为一类,相近程度越高在聚类操作中被视作一类的可能性越大,同时两个特征向量的相似程度越高,在聚类后形成的检索树之间的位置越接近。在本优选实施例中,通过对局部特征向量的多层次聚类形成检索树,大大提高了检测速度,同时保证了检测速度不会受到训练样本数的影响。
在一个优选实施方式中,对上述检索树进行训练操作的步骤包括:从第二检测图像库中提取预定数量的用于训练上述检索树的图像,提取每一个用于训练上述检索树的图像中的训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的与物体中心之间的相对位置关系;在上述检索树中查找与每一个上述训练特征向量相似的一个节点,并将该训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量对应的位置与物体中心之间的相对位置关系设置在该最相似的一个节点上。在上述优选实施方式中,第二检测图像库是一些人工选取的标准图像库,例如,可以包括人物、树木等的一些比较标准的图像,即,在这些标准图像中就仅仅有一类物体的出现,对于人物图像,在标准图像中就只有人物,同时这些人物都是和真实的人物形态和特征十分相符的图像,对于花草树木的图像在标准图像中就只有对应的花草树木,从而可以实现准确的检索树的训练。在本优选实施例中,通过对特征向量的训练和挂靠,并记录各类物体的所述类别及该训练特征向量所对应的与物体中心之间的相对位置,保证了对图像中物体进行检测时更精确快速的定位,进而达到了增加训练样本提高检测精度而不影响检测速度的目的。
优选的,在预先建立的检索树中查找到与每一个上述特征向量相似的一个节点上的训练特征向量的步骤包括:逐层判断每一个上述特征向量与上述预先建立的检索树上每一层的节点上的训练特征向量的相似度;若相似度大于预定阈值,则该相似度对应的节点为与该特征向量最相似的一个节点,并获取该节点上的训练特征向量。在本优选实施例中,通过找到与待检测物体的特征向量最接近的训练特征向量,提高了识别的准确性。
在上述各个优选实施方式中,检索树可以是:高度为(h+1)的k叉树,其中,h和k均为自然数。在本优选实施例中,检索树采用k叉树的形式存储,在检测过称中,在对待检测图像提取m个特征向量的情况下,总共只需要比较m*k*h次,大大提高了检索的速度,同时可以实现对多类别的物体同时进行检测的目的。
以下结合具体的检索树来描述上述优选实施例中的从图像中识别物体的方法。图7示出了一个h为3,k为2的检索树,节点N1-N7上设置有聚类得到的多层次的聚类中心,叶子节点L1-L8上分别设置(挂靠)有训练特征向量(T1-T8)的叶子节点。采用上述优选实施例中的方法,可以首先将从待测图像中抽取的特征向量(T0)和h=1层的节点(包括:N2和N3)上的训练特征向量(T2和T3)进行比较。如果T2与T0的相似度大于T3与T0的相似度(即,T0与T2更接近),则将T0和h=2层的N2的子节点(包括:N4和N5)上的训练特征向量(T4和T5)进行比较,否则,将T0和h=2层的N3的子节点上的训练特征向量(T6和T7)进行比较。逐层执行上述比较操作直到查找到与特征向量T0的相似度最大的叶子节点,例如,在一种优选的示例中,叶子节点L2与特征向量T0的相似度最大。通过上述的检测方法,对于每个抽取的特征向量,只需要进行3*2次的比较,也就是6次就可以找到其对应的相似特征向量。然而,如果采用现有技术中的比较策略,则需要将T0与每一个训练特征向量进行比较,这样需要进行8次比较操作。可见,在训练特征向量均为8个的条件下(即,检测精度相同),本申请在相同的检测精度要求下可以减少检测方法中的比较步骤,即,提高了检测速度。
实施例3
如图9所示,本申请实施例提供了另一种从图像中识别物体的方法流程图;该方法包括如下步骤(S902-S906):
步骤S902:建立初始化的k叉树,为接下来的K叉树的构建提供基础。
优选的,可以通过以下步骤来建立初始化的k叉树:
S1:从自然界中的物体对应图像中抽取尽可能多的局部特征向量,对自然图像库中的每张图像分别处理,提取其中的局部特征向量,构成特征向量合集;
S2:对特征向量合集进行多层次聚类操作,每次聚类后得到k个聚类中心,用聚类中心建立初始化k叉树:首先在k叉树的第0层初始化一个父节点;然后把所有特征向量聚成K类,形成k个聚类中心,在第1层构成初始父节点的k个子节点;接下来对k个子类分别进行k聚类,构成k2个聚类中心,作为第2层的子节点分别隶属与第一层对应的父节点;如此迭代进行,最终建立一个高度为h+1的k叉树,该树有kh个叶子节点,代表特征向量集合的kh个聚类中心。
步骤S904:对初始化的k叉树进行训练得到k叉检索树,为接下来物体检测过程提供基础。
优选的,可以通过以下步骤训练得到k叉检索树:
S1:训练图像库中的内容包含多类待检测物体的标准图,人工对这些标准图标注物体中心位置;
S2:依次从每张图像中抽取局部特征向量,并记录其所属物体类别和抽取位置与物体中心位置的相对关系;
S3:将训练图像中抽取出的特征向量从初始k叉树的第1层开始,与k个节点进行一一比较,选择与之最相近的一个节点,并与之k个子节点一一比较,如此迭代进行,直到该特征向量挂靠到一个与之最相近的叶子节点上;
S4:完成训练集中所有特征向量的挂靠过程,得到K叉检索树,优选的,当K=2时,得到的2叉检索树如图7所示。
S906:根据建立的K叉检索树对物体进行检测,此步骤的目的是判断待检测图像中是否存在特定类别的物体,输出判断结果。
优选的,可以通过以下步骤对物体进行检测:
S1:在待检测图像的不同位置抽取特征向量,得到特征向量集合,记录其抽取位置;
S2:对每一个特征向量通过k叉检索树找到与之最为接近的叶子节点,获得该叶子节点下挂靠的训练特征向量,即相似特征向量;
S3:对每一个相似特征向量取得其所属类别和与物体中心的相对关系,将抽取位置和相对关系相加,获得物体中心的估计位置,在对应类别的投票图像中该估计位置是物体中心的置信程度加1;
S4:统计每张投票图像每个位置是物体中心的置信程度,如果某位置的置信程度超过事先规定的阈值,则判定从图像中检测到该物体。
现有技术中假设待检测图像中可以提取m个局部特征向量,数据库中保存了n个局部特征向量,则整个物体检测过程需要进行m*n次比较才能完成。在实际运用过程中,n越大,检测结果越精确,但是随着n的增加相应的计算量也会增加,一般情况下n是一个非常大的值。在本申请的实施例中,检测过程中,每一个特征向量经过h*k次比较便可以找到相似特征向量,因此检测过程总共需要比较m*h*k次。由此可见,这样的比较策略可以保证检测速度与训练样本的多少无关,因此可以达到通过增加训练样本数提高检测精度而不影响检测方法速度的目的。
优选的,如图10所示对多类别的物体进行检测的步骤包括:
步骤S1002:在训练图像的每一个位置,记录其局部特征向量、与物体中心位置的相对关系和所属类别三个属性;
步骤S1004:将训练图像的局部特征向量通过逐层比较挂靠到与之最相似的叶子节点上;优选的,最相似的叶子节点上记录的特征向量与所述训练图像的局部特征向量的相似度最大;
步骤S1006:假设共有c类待检测物体,为一张待检测图像建立一张投票图像,并将所有置信程度值初始化为0,其中,每张投票图像对应于一类待检测物体,投票图像是和待检测图像相同大小的一张空白图像,是作为后续进行置信程度判断时候用于统计的图像;
步骤S1008:通过树形结构查询待检测图像中的特征向量的相似特征向量;
步骤S1010:按照相似特征向量所属类别在对应的投票图像上进行置信度投票,所谓置信度投票就是按照预先存储的相似特征向量计算待检测图像每个位置的局部特征向量,将当前位置的局部特征向量与数据库中的每一个特征向量进行一一比较,寻找与当前特征向量最为接近的一个或多个特征向量,作为相似特征向量;将当前位置的位置坐标与查找到的相似特征向量与物体中心位置的相对位置相加,得到对应于投票图像中的待检测物体的物体中心的估计位置,将投票图像中的该位置是物体中心的置信程度加1。
步骤S1012:统计每张投票图像每个位置是物体中心的置信程度,如果某位置的置信程度超过事先规定的阈值,则判定在待检测图像中存在该类物体。
通过同时建立多张投票图像,采用并行投票的策略可以在一轮检索过程完成后,得到多类物体的检测结果,大大加快了检测速度。当然,投票图像只是本申请的示意性实施例仅用于解释本申请,并不构成对本申请的不当限定。
通过以上的描述可知,本申请具有以下优势:
1)利用K叉检索树可以保证检测速度与训练样本的多少无关,因此大大提高了检索的速度,同时可以在不影响检测速度的情况下通过增加训练样本数提高检测的精度
2)采用并行投票的方法,通过建立多张的投票图像,可以在一轮检索过程中,完成对多类别物体的检测,大大加快了检测的速度。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种从图像中识别物体的方法,其特征在于,包括:
在待检测图像的不同抽取位置上获取对应的特征向量;
在预先建立的检索树中查找到与每一个所述特征向量最相似的一个节点上的训练特征向量,其中,所述检索树中的每一个节点上具有由预定数量的训练特征向量聚类得到的一个训练特征向量;
获取每一个所述查找到的训练特征向量所属的物体类别以及所述训练特征向量所对应的位置与物体中心之间的相对位置关系;
对每一个所述特征向量,根据与该特征向量对应的所述训练特征向量与物体中心之间的相对位置关系以及该特征向量对应的所述抽取位置的坐标得到在该训练特征向量所对应的物体类别的投票图像上物体中心的估计位置,其中,每一个待识别的物体类别对应一张投票图像;
统计每一张所述投票图像上每个点作为物体中心的估计位置的次数,当所述投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出所述待检测图像上存在该投票图像所对应的物体类别的物体。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤建立所述检索树:
从第一检测图像库中提取预定数量的用于建立所述检索树的图像,提取每一个用于建立所述检索树的图像中的局部特征向量;
对所有局部特征向量执行聚类操作得到多个聚类中心,将所述检索树的第一层节点设置为与所述多个聚类中心一一对应;
对所述检索树中每一层上的每个节点对应的聚类中心进行聚类操作,将聚类得到的聚类中心设置为与该节点的子节点一一对应;
对所述检索树进行训练操作。
3.根据权利要求2所述的方法,其特征在于,对所述检索树进行训练操作的步骤包括:
从第二检测图像库中提取预定数量的用于训练所述检索树的图像,提取每一个用于训练所述检索树的图像中的训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的与物体中心之间的相对位置关系;
在所述检索树中查找与每一个所述训练特征向量最相似的一个节点,并将该训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的位置与物体中心之间的相对位置关系设置在该最相似的一个节点上。
4.根据权利要求1所述的方法,其特征在于,在预先建立的检索树中查找到与每一个所述特征向量最相似的一个节点上的训练特征向量的步骤包括:
逐层判断每一个所述特征向量与所述预先建立的检索树上每一层的节点上的训练特征向量的相似度;
若相似度大于预定阈值,则该相似度对应的节点为与该特征向量最相似的一个节点,并获取该节点上的训练特征向量。
5.根据权利要求1所述的方法,其特征在于,所述检索树包括:高度为(h+1)的k叉树,其中,h和k均为自然数。
6.一种从图像中识别物体的装置,其特征在于,包括:
第一获取单元,用于在待检测图像的不同抽取位置上获取对应的特征向量;
查找单元,用于在预先建立的检索树中查找到与每一个所述特征向量最相似的一个节点上的训练特征向量,其中,所述检索树中的每一个节点上具有由预定数量的训练特征向量聚类得到的一个训练特征向量;
第二获取单元,用于获取每一个所述查找到的训练特征向量所属的物体类别以及所述训练特征向量所对应的位置与物体中心之间的相对位置关系;
确定单元,用于对每一个所述特征向量,根据与该特征向量对应的所述训练特征向量与物体中心之间的相对位置关系以及该特征向量对应的所述抽取位置的坐标,得到在该训练特征向量所对应的物体类别的投票图像上物体中心的估计位置,其中,每一个待识别的物体类别对应一张投票图像;
统计单元,用于统计每一张所述投票图像上每个点作为物体中心的估计位置的次数,当所述投票图像上的一个点作为物体中心的次数大于预定阈值时,则判断出所述上存在该投票图像所对应的物体类别的物体。
7.根据权利要求6所述的装置,其特征在于,还包括建立单元,用于建立所述检索树。
8.根据权利要求7所述的装置,其特征在于,所述建立单元包括:
提取模块,用于从第一检测图像库中提取预定数量的用于建立所述检索树的图像,提取每一个用于建立所述检索树的图像中的局部特征向量;
设置模块,用于对所有局部特征向量执行聚类操作得到多个聚类中心,将所述检索树的第一层节点设置为与所述多个聚类中心一一对应;
聚类模块,用于对所述检索树中每一层上的每个节点对应的聚类中心进行聚类操作,将聚类得到的聚类中心设置为与该节点的子节点一一对应;
训练模块,用于对所述检索树进行训练操作。
9.根据权利要求8所述的装置,其特征在于,所述训练模块包括:
提取子模块,用于在对所述检索树进行训练的过程中从第二检测图像库中提取预定数量的用于训练所述检索树的图像,提取每一个用于训练所述检索树的图像中的训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的与物体中心之间的相对位置关系;
设置子模块,用于在所述检索树中查找与每一个所述训练特征向量最相似的一个节点,并将该训练特征向量、该训练特征向量所属的物体类别以及该训练特征向量所对应的位置与物体中心之间的相对位置关系设置在该最相似的一个节点上。
10.根据权利要求6所述的装置,其特征在于,所述查找单元包括:
判断模块,用于逐层判断每一个所述特征向量与所述预先建立的检索树上每一层的节点上的训练特征向量的相似度;
获取模块,用于在相似度大于预定阈值时,确定该相似度对应的节点为与该特征向量最相似的一个节点,并获取该节点上的训练特征向量。
CN201210077223.9A 2012-03-21 2012-03-21 从图像中识别物体的方法和装置 Active CN103324949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210077223.9A CN103324949B (zh) 2012-03-21 2012-03-21 从图像中识别物体的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210077223.9A CN103324949B (zh) 2012-03-21 2012-03-21 从图像中识别物体的方法和装置

Publications (2)

Publication Number Publication Date
CN103324949A true CN103324949A (zh) 2013-09-25
CN103324949B CN103324949B (zh) 2016-09-28

Family

ID=49193677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210077223.9A Active CN103324949B (zh) 2012-03-21 2012-03-21 从图像中识别物体的方法和装置

Country Status (1)

Country Link
CN (1) CN103324949B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239566A (zh) * 2014-09-28 2014-12-24 小米科技有限责任公司 视频搜索的方法及装置
CN107423757A (zh) * 2017-07-14 2017-12-01 北京小米移动软件有限公司 聚类处理方法及装置
CN108460389A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
WO2019029714A1 (zh) * 2017-08-11 2019-02-14 腾讯科技(深圳)有限公司 基于图像内容的展示对象确定方法、装置、介质及设备
CN110249349A (zh) * 2017-02-06 2019-09-17 高通股份有限公司 用于定制共享车辆中的舒适性的系统和方法
CN111651624A (zh) * 2020-06-11 2020-09-11 浙江大华技术股份有限公司 一种图像检索方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7995820B2 (en) * 2007-03-30 2011-08-09 Siemens Medical Solutions Usa, Inc. System and method for detection of fetal anatomies from ultrasound images using a constrained probabilistic boosting tree
CN102279929A (zh) * 2010-06-13 2011-12-14 中国科学院电子学研究所 一种基于对象语义树模型的遥感人造地物目标识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7995820B2 (en) * 2007-03-30 2011-08-09 Siemens Medical Solutions Usa, Inc. System and method for detection of fetal anatomies from ultrasound images using a constrained probabilistic boosting tree
CN102279929A (zh) * 2010-06-13 2011-12-14 中国科学院电子学研究所 一种基于对象语义树模型的遥感人造地物目标识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
安萌等: "基于Hough树林的空间有形目标特征训练与检测识别方法", 《红外与激光工程》 *
林琳等: "基于聚类的图像拷贝检测技术仿真", 《计算机仿真》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239566A (zh) * 2014-09-28 2014-12-24 小米科技有限责任公司 视频搜索的方法及装置
CN110249349A (zh) * 2017-02-06 2019-09-17 高通股份有限公司 用于定制共享车辆中的舒适性的系统和方法
CN110249349B (zh) * 2017-02-06 2020-10-09 高通股份有限公司 用于定制共享车辆中的舒适性的系统和方法
CN108460389A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN108460389B (zh) * 2017-02-20 2021-12-03 阿里巴巴集团控股有限公司 一种识别图像中对象的类型预测方法、装置及电子设备
CN107423757A (zh) * 2017-07-14 2017-12-01 北京小米移动软件有限公司 聚类处理方法及装置
CN107423757B (zh) * 2017-07-14 2020-10-09 北京小米移动软件有限公司 聚类处理方法及装置
WO2019029714A1 (zh) * 2017-08-11 2019-02-14 腾讯科技(深圳)有限公司 基于图像内容的展示对象确定方法、装置、介质及设备
US11200444B2 (en) 2017-08-11 2021-12-14 Tencent Technology (Shenzhen) Company Limited Presentation object determining method and apparatus based on image content, medium, and device
CN111651624A (zh) * 2020-06-11 2020-09-11 浙江大华技术股份有限公司 一种图像检索方法及装置
CN111651624B (zh) * 2020-06-11 2023-09-19 浙江大华技术股份有限公司 一种图像检索方法及装置

Also Published As

Publication number Publication date
CN103324949B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN107153789B (zh) 利用随机森林分类器实时检测安卓恶意软件的方法
CN104200237B (zh) 一种基于核化相关滤波高速自动多目标跟踪方法
CN103324949A (zh) 从图像中识别物体的方法和装置
CN104679818B (zh) 一种视频关键帧提取方法及系统
CN106294344B (zh) 视频检索方法和装置
CN104376003B (zh) 一种视频检索方法及装置
CN105184260B (zh) 一种图像特征提取方法及行人检测方法及装置
CN110059807A (zh) 图像处理方法、装置和存储介质
CN105095884B (zh) 一种基于随机森林支持向量机的行人识别系统及处理方法
CN112734775A (zh) 图像标注、图像语义分割、模型训练方法及装置
CN109509222B (zh) 直线类物体的检测方法及装置
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN105404886A (zh) 特征模型生成方法和特征模型生成装置
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN104281572B (zh) 一种基于互信息的目标匹配方法及其系统
CN108229566B (zh) 一种层次性分类方法及装置
CN103226835A (zh) 基于在线初始化梯度增强回归树的目标跟踪方法及系统
Vishal et al. Accurate localization by fusing images and GPS signals
CN110175615A (zh) 模型训练方法、域自适应的视觉位置识别方法及装置
KR101386513B1 (ko) 공간적 피라미드 기반의 가중 비오에프 히스토그램 및 랜덤 포레스트를 이용한 사람 행동 인식 방법
Kriminger et al. Online active learning for automatic target recognition
CN110533699A (zh) 基于光流法的像素变化的动态多帧测速方法
CN105844204B (zh) 人体行为识别方法和装置
CN110737788B (zh) 快速的三维模型索引建立及检索方法
Kanji Unsupervised part-based scene modeling for visual robot localization

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1185697

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1185697

Country of ref document: HK