CN103870798B - 对象检测方法、对象检测设备以及图像拾取设备 - Google Patents
对象检测方法、对象检测设备以及图像拾取设备 Download PDFInfo
- Publication number
- CN103870798B CN103870798B CN201210550321.XA CN201210550321A CN103870798B CN 103870798 B CN103870798 B CN 103870798B CN 201210550321 A CN201210550321 A CN 201210550321A CN 103870798 B CN103870798 B CN 103870798B
- Authority
- CN
- China
- Prior art keywords
- grader
- candidate
- query object
- unit
- classification device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/248—Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
- G06V30/2504—Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及对象检测方法、对象检测设备和图像拾取设备。该对象检测方法包括:通用模型存储步骤,事先离线地存储用于特定对象类型的通用模型,所述通用模型描述预计在所述特定对象类型的单个对象中共同存在的多个部件;样本图像接收步骤,接收对一个或多个样本图像的输入,所述一个或多个样本图像中的每一个均包含同一查询对象,所述查询对象是所述特定对象类型的对象;对象检测器创建步骤,利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器;以及对象检测步骤,利用所创建的专用于所述查询对象的检测器,从目的图像中检测所述查询对象。根据本发明,可以以高灵活度精确地检测出特定对象类型的各种对象。
Description
技术领域
本发明涉及一种对象检测方法、对象检测设备以及包含所述对象检测设备的图像拾取设备。
背景技术
在对象识别、图像检索以及图像注册等的处理中,对图像中的视觉对象进行的分析是重要的。在很多应用领域中都涉及这样的处理,所述很多应用领域诸如是(安保用途的)监视、视频取证以及用于计算机辅助诊断的医疗图像分析等。特别地,由于对于发展与真实世界相关的系统的需求的增长,对象识别已吸引了越来越多的关注。
在常规对象识别方法中,使用基于学习/训练的分类器,对于所述基于学习/训练的分类器,分类器参数的学习/训练过程是不可缺少的。然而,使用一个对象(例如,狗)的具体样本而通过学习/训练过程获得的分类器可能不能对于另一对象(例如,猫)获得好的性能。为了使分类器对于其它对象获得好的性能,不得不使用所述另一对象的具体样本来重新执行另一学习/训练过程,以便将分类器从用于所述一个对象的分类器修改为用于所述另一对象的分类器。这并不灵活而且花费很长时间。
用于解决以上问题的一种方法是训练用于特定对象类型(例如,包括狗和猫的宠物)的通用分类器,但是这种通用分类器将使精度下降,并且检测出用户并不关心的对象。例如,即使用户仅希望在图像中检测出狗,也会从该图像中检测出猫。
在美国专利申请公布No.US2010014721A1以及美国专利公告No.US7558408B1、No.US7555148B1和No.US7551755B1中讨论了用于解决以上问题的另一方法。这些专利文献中公开的方法首先使用某一对象类型的通用分类器(例如,用于宠物的分类器)来定位图像中的候选对象的位置,然后使用具体分类器(例如,用于猫的分类器)来判断该候选对象是否恰好是感兴趣的对象。该方法已被用于照相机中。根据这种方法,可以由用户事先注册若干个具体分类器(例如,用于猫的分类器、用于一种狗的分类器和用于另一种狗的分类器),并且,用户可以在拍摄图片之前选择用于要聚焦的对象的具体分类器之一。该照相机可被配置为自动聚焦于从取景器中显示的图像检测到的对象。
然而,本发明的发明人发现,上述专利文献中公开的方法也并不足够好,这是因为能够被检测的具体对象还是有限的,而且仅仅由用户事先注册的具体对象才能被检测到。
发明内容
在对象检测技术中通常涉及两个步骤,即训练的步骤和检测的步骤。在训练的步骤中,通过使用对象的一个或更多个样本进行训练来获得分类器。然后,在检测的步骤中,这样获得的分类器被用于检测对象。为了获得稳定且精确的分类器,对于训练一般需要相当大量的样本,而相当大量的样本将导致增大的计算量,这使得训练是耗费时间的。在需要实时训练分类器的情况下,或者在计算能力有限的情况下(例如在应用嵌入式系统的情况下),常规技术无法满足要求。另一方面,如果试图通过简单减少样本数量来缩短用于训练分类器的时间,则通过这样的训练获得的分类器将不会足够稳定,并且对于诸如对象的姿态、照明条件或视角等因素将会非常敏感。
因此,本发明所要解决的技术问题之一是提供用于对象检测的新技术,该用于对象检测的新技术对于各种对象都具有灵活性和精确性。此外,还期望该新技术具有可接受的效率。
为了解决至少一个技术问题,本发明提供一种对象检测方法,包括:通用模型存储步骤,事先离线地存储用于特定对象类型的通用模型,所述通用模型描述预计在所述特定对象类型的单个对象中共同存在的多个部件;样本图像接收步骤,接收对一个或多个样本图像的输入,所述一个或多个样本图像中的每一个均包含同一查询对象,所述查询对象是所述特定对象类型的对象;对象检测器创建步骤,利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器;以及对象检测步骤,利用所创建的专用于所述查询对象的检测器,从目的图像中检测所述查询对象。
此外,为了解决上述技术问题,本发明提供一种对象检测设备,包括:通用模型存储单元,被配置为事先离线地存储用于特定对象类型的通用模型,所述通用模型描述预计在所述特定对象类型的单个对象中共同存在的多个部件;样本图像接收单元,被配置为接收对一个或多个样本图像的输入,所述一个或多个样本图像中的每一个均包含同一查询对象,所述查询对象是所述特定对象类型的对象;对象检测器创建单元,被配置为利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器;以及对象检测单元,被配置为利用所创建的专用于所述查询对象的检测器,从目的图像中检测所述查询对象。
此外,本发明提供一种图像拾取设备,包括:摄影光学系统;成像单元,被配置为执行成像以形成图像;如上所述的对象检测设备,被配置为使用户能够输入或选择查询对象,以及在所形成的图像中检测所述查询对象;和成像控制单元,被配置为根据检测到的查询对象执行成像控制。
得益于根据本发明的方法和设备,由于查询对象可被用于创建检测器,因此该特定对象类型的各种对象都能够以高灵活性被精确检测。此外,由于从事先离线存储的通用模型创建检测器,因此检测的效率也可以是高的。
更具体地,本说明书中的公开内容提供一种组合用于检测具体对象的离线训练和在线查询的机制。耗费时间的用于训练分类器的步骤被事先离线地仅执行一次,而在在线查询步骤期间将分类器专门化。以这种方式,施加给在线计算模块的计算量减小,而即使对于嵌入式系统也能实时执行操作。根据本发明的一些实施例,用户能够输入(查询)要被检测的对象,然后使系统在图像中检测查询的对象。此外,根据本发明的一些实施例,由于通过在离线阶段期间使用大量样本进行训练来获得分类器,因此对象检测具有高的精确度和强健性,并且还具有对对象差异的合理的容忍度。从参照附图的以下描述,本发明的其他特性特征和优点将变得清晰。
附图说明
并入说明书并且构成说明书的一部分的附图图示了本发明的实施例,并且与描述一起用于说明本发明的原理。
图1是示出能够实施本发明的实施例的计算机系统的示例性硬件配置的框图。
图2是示出根据本发明的实施例的对象检测方法的流程图。
图3a和3b示出通用模型的一些例子。
图4a和4b示出使得用户能够在样本图像中标记部件的用户界面的例子。
图5示出根据本发明的示例性实施例的对象检测器创建步骤的示例性处理。
图6是示出根据示例性实施例的包括多个部件之间的位置关系的通用模型的示意图。
图7示出根据一个示例性实施例的使用通用模型来生成部件分类器的方法的例子。
图8示出根据示例性实施例的部件分类器生成步骤的示例性处理的流程图。
图9示出根据另一示例性实施例的使用通用模型来生成部件分类器的方法的例子。
图10示出根据再另一个示例性实施例的使用通用模型来生成部件分类器的方法的例子。
图11示出根据该再另一个示例性实施例的部件分类器生成步骤的示例性处理的流程图。
图12示出根据示例性实施例的对象检测步骤的示例性处理的流程图。
图13示出根据示例性实施例的第一检测子步骤和第二检测子步骤的示例性处理的流程图。
图14是示出根据示例性实施例的对象检测设备的示例性配置的框图。
图15是示出根据示例性实施例的图像拾取设备的示例性配置的框图。
具体实施方式
以下,将参照附图详细描述本发明的实施例。
请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM 1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。例如,该计算机系统可被适配为适于被装入照相机的计算机系统。
图2是示出根据实施例的对象检测方法的流程图。在图2所示的对象检测方法中,要从目的图像中检测出特定对象类型的查询对象。
在步骤S2100中,事先离线地存储用于特定对象类型的通用模型。所述通用模型能够描述特定对象类型的对象的通用特征。更特别地,所述通用模型能够描述预计在所述特定对象类型的单个对象中共同存在的多个部件。
图3a和3b示出通用模型的一些例子。根据图3a的例子,所述特定对象类型是“哺乳动物的脸”,而预计在所述特定对象类型的单个对象中共同存在的多个部件例如是“耳朵”、“眼睛”、“鼻子”、“嘴”和“毛发”。根据图3b的例子,所述特定对象类型是“交通工具的正面视图”,而预计在所述特定对象类型的单个对象中共同存在的多个部件例如是“挡风玻璃”、“后视镜”、“头灯”和“车牌”。
图3a和图3b中示出的通用模型的例子仅仅是示例性的和说明性的。可以根据具体应用来设计各种通用模型。例如,可以将特定对象类型定义为“人体”,由通用模型描述的多个部件可以包括“胳膊”、“腿”、“头”和“躯干”。
根据实施例,通用模型被事先离线地存储,并且该通用模型可被用于要被在线输入的任何查询对象,只要该查询对象属于该特定对象类型即可。在这里,查询对象意味着要从目的图像中检测的对象。在特定对象类型是“哺乳动物的脸”的情况下(图3a中所示的例子),查询对象例如可以是具体的猫的脸、具体的狗的脸、或者具体的人的脸等等。
在步骤S2200中,接收一个或多个样本图像的输入。所述一个或多个样本图像各包括作为所述特定对象类型的对象的同一查询对象。所述样本图像可以是具有归一化尺寸的图像。
也就是说,可以仅有一个样本图像,或者可以有多个(即两个或更多个)样本图像。当有多个样本图像时,样本图像可以是不同的图像,但是包括属于所述特定对象类型的同一查询对象。对于图3a所示的例子,查询对象例如可以是特定猫的脸,而所述一个或多个样本图像可以是包含该特定猫的脸的一个或多个图像。
在步骤S2300中,利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器。
在此步骤中,使用在样本图像中呈现的查询对象,从通用模型来创建检测器。该检测器是专用于检测该查询对象的检测器。对于图3a所示的例子,使用哺乳动物的脸的通用模型和包括特定猫的脸的一个或多个样本图像来创建该检测器,以便专门检测该特定猫的脸。
步骤S2300可以在输入查询对象之后在线地被执行。
在步骤S2400中,使用所创建的专用于所述查询对象的检测器来从目的图像检测所述查询对象。所述目的图像可以是来自数据库诸如图像库的图像,或者可以是由照相机实时拍摄的图像,或者可以是来自视频的一帧。所述目的地图像可以是具有归一化尺寸的图像。
根据本实施例的方法,由于通过使用查询对象从通用模型在线创建具体检测器,本方法对于各种对象都具有灵活性,并且不限于事先注册的对象。此外,由于通用模型是离线地被生成和存储的,因此检测的效率是能够令人接受的。
根据本发明的一个实施例,在样本图像接收步骤S2200中,可以接收或者生成对所述一个或多个样本图像中的各个部件的标记。
对各个部件的标记可以是由用户执行的。在这种情况下,可以提供用户界面以有助于所述标记。
图4a和4b示出使用户能够标记样本图像中的部件的用户界面的例子。
在图4a示出的例子中,在屏幕上示出代表各个部件的按钮。在选择一个按钮之后,用户可以指出或者圈出样本图像中的相应部件。例如,用户可选择部件“眼睛”(图4a中的部件按钮上的阴影意味着该部件被选中),然后在样本图像中圈出眼睛区域(在图4a中用虚线示出由用户标记的圆圈)。
在图4b所示的例子中,代表各个部件的圆圈示出在屏幕上,用户可以拖动圆圈和调整圆圈尺寸以使得它们包围样本图像中的相应部件。如图4b所示,一只耳朵和一只眼睛已被用户标记出。
虽然图4a和4b示出在样本图像中标记各个部件的一些例子,但本发明不限于此。也可以自动生成标记而无用户介入。例如,可以使用通用模型中的分类器在样本图像中标记各个部件。也可以使用用于该特定对象类型的其它检测器在样本图像中标记各个部件。此外,还可以首先自动执行标记,然后用户手动进行调整。
此外,虽然没有在图4a和4b中示出,还可以从样本图像中标记出整个查询对象(本例子中为猫的脸)。
可以接收并且存储标记出的各个部件的位置和尺寸以供之后使用。也可存储标记出的查询对象的位置和尺寸以供之后使用。
此外,可以对于相应部件存储标记出的图像区域以供之后使用。
图5示出根据本发明的示例性实施例的对象检测器创建步骤S2300的示例性处理。
如图5所示,步骤S2300可以包括部件分类器生成步骤S2310和部件分类器组合步骤S2320。
在步骤S2310中,使用通用模型中的各个部件与所述一个或多个样本图像中标记出的各个部件之间的匹配,生成专用于所述查询对象的各个部件的多个部件分类器。
再以图3a所示的例子为例,可以在图3a所示的部件(哺乳动物的眼睛和耳朵等)与图4a和4b所示的部件(特定的猫的眼睛和耳朵等)之间执行匹配,并且根据匹配的结果生成专用于该特定的猫的部件的多个部件分类器。例如,将生成专用于该特定的猫的眼睛的眼睛分类器,且将生成专用于该特定的猫的耳朵的耳朵分类器,等等。
在步骤S2320中,在步骤S2310中对应于各个部件生成的部件分类器被组合以创建专用于所述查询对象的检测器。
在此可以采用组合部件分类器的各种方式。
例如,该组合可以被设计为使得:在多于预定数量或多于预定比例(例如,约60%)的部件被所述多个部件分类器检测到的情况下(这意味着候选图像区域应该包括足够的部件),所创建的专用于所述查询对象的检测器判断为检测到查询对象。例如,在通用模型中总共有7个部件(即两个眼睛、两个耳朵、一个嘴、一个毛发和一个鼻子)的情况下,该组合可被设计为,在通过相应部件分类器在候选图像区域中检测到4个或更多个部件时,使得在候选图像区域中检测出查询对象。
通用模型也可以进一步包括多个部件之间的位置关系。
图6是示出根据示例性实施例的包括多个部件之间的位置关系的通用模型的示意图。
使用哺乳动物的脸作为例子,部件之间的位置关系例如可以是:眼睛在毛发下方,鼻子在眼睛下方,嘴在鼻子下方,等等。
在这种情况下,所述组合可以被设计为使得:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到(这意味着候选图像区域应该包括足够的部件)并且进一步地,检测到的部件之间满足所述位置关系(这意味着检测到的部件应满足预定关系)的情况下,专用于所述查询对象的检测器判断为检测到所述查询对象。根据这种组合,即使在候选图像区域中分别检测到所有部件,如果该关系是错误的(例如,如果一只眼睛在嘴下面或者一只耳朵在眼睛之间),则该检测器也将不认为在候选图像区域中检测到查询对象。
对于用于定义部件之间的位置关系的方法和用于判断两个位置关系是否彼此匹配的方法,例如可以使用部分模型方法(例如见PedroFelzenszwalb等人的“ADiscriminatively Trained,Multiscale,Deformable Part Model”,IEEE Conference onComputer Vision andPattern Recognition,2008.CVPR 2008,2008年6月23-28日,第1-8页)以及图形相似度度量方法(例如见Laura Zager的“graphsimilarity and matching”,Thesis for Master of Science,MassachusettsInstitute of Technology,2005年)。
也可以采用用于定义所述组合的其它方法。例如,可以计算从各个部件分类器获得的分类分数(例如概率分数或置信度分数)的和或平均值,并且在所述和或平均值大于预定阈值的情况下,检测器确定为检测到查询对象。也就是说,在此可设计和使用任何组合。
以下将描述通用模型和部件分类器生成步骤S2310的一些示例性实施例。
图7示出根据一个示例性实施例的使用通用模型来生成部件分类器的方法的例子。
根据本示例性实施例的通用模型包括多个分类器组,所述多个分类器组中的每个分类器组都对应于所述多个部件之一。所述多个分类器组中的每个分类器组都包括用于描述所述特定对象类型的相应部件的多种不同特征实例的多个候选分类器。例如,通用模型包括用于眼睛的分类器组1和用于耳朵的分类器组2,如图7所示。虽然未示出,但是通用模型还可包括用于鼻子的分类器组3、用于毛发的分类器组4和用于嘴的分类器组5。在此,不同的特征实例是指具有不同特征值的特征,其代表不同的外观。不同的特征实例例如可以包括不同颜色、不同形状或者不同纹理等。
以分类器组1为例,分类器组1可包括多个候选分类器,即对应于特定的人的眼睛的候选分类器11、对应于特定的猫的眼睛的候选分类器12、以及对应于特定的狗的眼睛的候选分类器13。类似地,分类器组2可包括多个候选分类器,即对应于特定的猫的耳朵的候选分类器21、对应于特定的狗的耳朵的候选分类器22、以及对应于另一特定的狗的耳朵的候选分类器23。
每个候选分类器都是通过利用相应的训练样本事先离线地被训练而被生成的。例如,一个眼睛的候选分类器是通过利用该类型的眼睛的训练样本事先离线地被训练而被生成的。多种特征和训练/学习方法都可用于生成候选分类器。例如,可以使用公知的HOG特征(有向梯度的直方图)和SVM(支持向量机)方法。分类器的一个简单例子可以定义一个特征空间,该特征空间包括一个或多个特征(特征阵列)作为特征点在特征空间中的坐标,并且,分类器对于输入图像输出的分类分数被计算为特征空间中的中心点(例如,通过多个训练图像产生的特征阵列的统计模型的均值)与描述该输入图像的特征点之间的距离d的函数f(d)。该函数f(d)不限于特定的函数,只要它是随着该距离d的增大而严格单调减小的函数即可。计算该距离之前,也可先将各特征除以相应特征的方差而将各特征归一化或者按照特定应用对各特征进行加权。
对于用于生成用于诸如眼睛、鼻子和耳朵之类的器官的候选分类器的方法,例如可以使用在Nicolas Gourier Daniela Hall James L.Crowley的“Facial FeaturesDetection Robust to Pose,Illuminationand Identity”,IEEE InternationalConference on Systems,Man andCybernetics,2004年,第617-622页,vol.1;NelloCristianini和JohnShawe-Taylor的“An Introduction to Support Vector Machinesandother kernel-based learning methods”,Cambridge University Press,2000.ISBN0-521-78019-5([2]SVM Book);以及Corinna Cortes和V.Vapnik的“Support-VectorNetworks”,Machine Learning,20,第273-297页,1995中提出的方法。
虽然以上作为例子提及了一些分类器,但是可以使用所有类型的分类器,只要该分类器能够将图像作为输入,并且输出指示图像包含该部件的概率或置信度的分类分数即可。可以设置阈值,使得如果分类器输出的分类分数高于该阈值,则分类器就确定为图像包含该部件。
在这个示例性实施例中,在部件分类器生成步骤S2310中,对于每个部件,从相应分类器组中选择对于描述所述查询对象的该部件最优的候选分类器,作为用于该部件的部件分类器。
例如,当样本图像是图4a或4b所示的样本图像时,对于描述所述查询对象(样本图像中所示的猫)的眼睛最优的候选分类器可以是候选分类器12(圆的猫眼睛),并且将从分类器组1中选择候选分类器12作为用于眼睛的部件分类器。类似地,将从分类器组2中选择候选分类器21作为用于耳朵的部件分类器。以这种方式,对于每个分类器组,选择对于描述所述查询对象(在本例子中为特定的猫)的各个部件最优的候选分类器,并且将这些最优候选分类器作为用于查询对象的部件分类器。
图8示出根据示例性实施例的部件分类器生成步骤S2310的示例性处理的流程图。
如图8所示,部件分类器生成步骤S2310可以包括分类器分数获得步骤S2311和选择步骤S2312。
在步骤S2311中,对于每个分类器组中的每个候选分类器,通过使在各个样本图像中标记的相应部件通过该候选分类器而获得的分类分数被相加或取平均值,以获得该候选分类器的分类器分数。
对于图7所示的例子,假设有两个样本图像(第一样本图像和第二样本图像),并且,候选分类器11从第一和第二样本图像获得的分类分数分别为0.3和0.2,候选分类器12从第一和第二样本图像获得的分类分数分别为0.8和0.7,候选分类器13从第一和第二样本图像获得的分类分数分别为0.4和0.5。在这种情况下,当候选分类器的分类器分数由分类分数的平均值表示时,候选分类器11的分类器分数为(0.3+0.2)/2=0.25,候选分类器12的分类器分数为(0.8+0.7)/2=0.75,而候选分类器13的分类器分数为(0.4+0.5)/2=0.45。
在步骤S2312中,对于每个分类器组,具有最大分类器分数的候选分类器被认为对于描述查询对象的相应部件是“最优”的,并且被选择作为用于相应部件的部件分类器。
仍对于图7所示的例子,由于如以上计算的那样,候选分类器12具有最大分类器分数,候选分类器12将被选择作为描述查询对象的眼睛最优的部件分类器。
以类似的方式,每个部件将具有通过利用样本图像从相应分类器组选择出的一个部件分类器,并且,这些部件分类器可以被组合为专用于查询对象的检测器。如前文所述,该组合可按照需要或者以合适方式被设计。
根据本示例性实施例,由于事先离线准备包含候选分类器的通用模型,不必在每次要检测新的查询对象时构建具体分类器,因此,检测效率可以是高的。此外,由于对于每个部件可以有若干个候选分类器,因此该方法对于各种对象都具有足够的灵活性和精确性。例如,在事先使用四个不同对象来训练各个候选分类器时,N个分类器组中的每个分类器组将具有四个候选分类器,并且理论上可以通过组合这些候选分类器而从通用模型生成4N种可能的检测器。
图9示出根据另一示例性实施例的使用通用模型来生成部件分类器的方法的例子。
根据本示例性实施例的通用模型包括多个粗分类器,所述多个粗分类器分别对应于多个部件。所述多个粗分类器中的每一个可以描述特定对象类型的相应部件的相应通用特征。所述通用特征可以包括颜色、形状、纹理、直方图特征、或其组合等。通用特征可以具有适用于描述该特定类型的所有对象的相对宽的值范围。例如,在用于哺乳动物的眼睛的粗分类器中,眼睛的长宽比(长度与宽度的比值)可以被定义为在0.8~2的范围内(或者是均值为1.4且方差为0.6的统计模型)。
在此示例性实施例中,可以使用粗分类器在样本图像中自动标记出各个部件。
根据此示例性实施例,在部件分类器生成步骤S2310中,对于每个部件,由相应的粗分类器描述的相应通用特征被进一步限定(改进)为根据所述查询对象的部件的相应的具体特征,由此从相应粗分类器生成用于描述相应的具体特征的相应部件分类器。
对于图9所示的例子,哺乳动物的眼睛的通用特征(例如,0.8~2的长宽比)可被进一步限定(改进)为依据图4a和4b中所示的特定的猫的具体特征。例如,当样本图像示出长宽比为1的眼睛时,眼睛的该具体特征(眼睛的长宽比)例如可被改进为0.8~1.2(或者均值为1且方差为均值的20%的统计模型),这比0.8~2更为具体。对于另一个例子,当两个样本图像示出长宽比为1的眼睛和长宽比为1.2的眼睛时,眼睛的该具体特征(眼睛的长宽比)例如可被改进为0.9~1.3(或者均值为(1+1.2)/2且方差为(1.2-1)的统计模型),这比0.8~2更为具体。以这种方式,可以从粗分类器生成具有这种具体特征的部件分类器。
此外,或者作为替换方案,可以通过添加新的特征而将通用特征(特征阵列)改进为具体特征阵列。例如,眼睛的通用特征可能仅包括长宽比特征,并且可以通过添加颜色特征和纹理特征而将该通用特征改进为更加具体的特征阵列。
以类似的方式,每个部件将具有通过使用样本图像从通用模型的相应粗分类器生成的一个部件分类器,并且这些部件分类器可以被组合成专用于查询对象的检测器。该组合可如前所述根据需要被设计或者以合适的方式被设计。
图10示出根据再另一个示例性实施例的使用通用模型来生成部件分类器的方法的例子。
根据本实施例的通用模型包括分别对应于多个部件的多个不完整分类器。所述多个不完整分类器中的每一个具有尚未确定的特征参数。
不完整分类器可以具有通用的构造,但是该通用构造的一个或多个特征参数未被确定。例如,分类器可以具有颜色和长宽比作为其特征,但是颜色和长宽比的中心值(统计模型的均值)和/或方差尚未被确定。
根据此示例性实施例,在部件分类器生成步骤S2310中,对于每个部件,根据所述查询对象的该部件来确定相应的不完整分类器的特征参数,从而从相应的不完整分类器形成特征参数已被确定的相应的部件分类器。
图11示出根据再另一个示例性实施例的部件分类器生成步骤的示例性处理的流程图。
如图11所示,部件分类器生成步骤S2310可以包括特征参数计算步骤S2313和组合计算步骤S2314。
在步骤S2313中,对于每个部件,通过根据所述一个或多个样本图像中的每一个样本图像中所标记的该部件来确定相应的不完整分类器的特征参数,计算该样本图像的该部件的特征参数。
在步骤S2314中,对于每个部件,通过组合所述一个或多个样本图像的该部件的特征参数,计算用于相应的部件分类器的特征参数。
在此,组合所述特征参数例如可以是求这些特征参数的平均值。也可以按照其它方式来组合这些特征参数。也可以从对多个特征参数的组合来获得其它值。例如,可以组合来自一个样本图像的等于2的特征参数和来自另一个样本图像的等于4的特征参数,使得获得均值3和方差2,作为查询对象的特征参数。因此,该组合不限于任何具体的组合。
对于图10所示的例子,用于眼睛的不完整分类器可以包括涉及颜色特征和形状特征的模型,但是尚未确定该模型的参数。例如,当两个样本图像示出长宽比为1且RGB颜色为(50,150,200)的眼睛,以及长宽比为1.2且RGB颜色为(30,170,220)的眼睛时,查询对象的眼睛模型的均值(特征空间的中心点)可被确定为作为这两个样本图像的参数的平均值的长宽比1.1和RGB颜色(40,160,210)。以这种方式,可以从不完整分类器生成参数已被确定的部件分类器。
以类似的方式,每个部件将具有通过使用样本图像从通用模型的相应不完整分类器生成的一个部件分类器,并且这些部件分类器可以被组合成专用于查询对象的检测器。该组合可如前所述根据需要被设计或者以合适的方式被设计。
图12示出根据示例性实施例的对象检测步骤S2400的示例性处理的流程图。
如图12所示,步骤S2400可以包括候选图像区域确定步骤S2410、第一检测子步骤S2420和第二检测子步骤S2430。
在步骤S2410中,通过使用滑动窗而在目的图像中确定候选图像区域。滑动窗的初始尺寸可以被确定为能够包含查询对象的可能图像的最小尺寸,并且可以根据具体应用而被确定。
在步骤S2420中,检测是否在候选图像区域中存在多个部件中的至少一些。例如,在步骤S2420中,可以使用步骤S2300中生成的专用于查询对象的检测器的部件分类器来检测候选图像区域中的部件。
然后,在步骤S2430中,根据步骤S2420中的检测结果,确定是否在候选图像区域中检测到查询对象。
请注意,在步骤S2400中使用专用于查询对象的检测器来检测查询对象,因此步骤S2400中的具体检测方式可以对应于步骤S2300中生成检测器的具体方式。因此,虽然步骤S2410~S2430示出用于步骤S2400的示例性处理,但是可以采用其它检测方式,只要使用在步骤S2300中生成的专用于查询对象的检测器即可。
图13示出根据示例性实施例的第一检测子步骤S2420和第二检测子步骤S2430的示例性处理的流程图。
如图13所示,步骤S2420可以包括分割步骤S2421和部件检测步骤S2422。
在步骤S2421中,候选图像区域被分割成多个部分候选区域。部分候选区域的尺寸可以通过候选图像区域的尺寸和最大预期部件与查询对象之间的比率而被确定,并且可以根据具体应用而被确定。根据一个示例性实施例,在步骤S2200中,不仅部件而且查询对象(此例子中为猫的脸)的位置和尺寸可以被标记,并且,可以根据步骤S2200中执行的标记来确定最大预期部件与查询对象之间的比率。
在步骤S2422中,所述多个部件分类器中的每一个被用于检测是否在所述部分候选区域中的一个或多个中存在相应部件。更特别地,对于每个部件以及对于每个部分候选区域,通过使用相应的部件分类器,检测该部件是否存在于该部分候选区域中。可以存储关于哪个部分候选区域被检测出包含哪个部件的检测结果。
如图13所示,步骤S2430可以包括组合确定步骤S2431,该步骤S2431通过组合步骤S2420中的各个部件的检测结果来确定是否在候选图像区域中检测到所述查询对象。
在这里,该组合可以对应于在生成专用于查询对象的检测器时使用的组合。
例如,在步骤S2431中,在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到的情况下,可确定为在候选图像区域中检测到查询对象。
再例如,在步骤S2431中,在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到并且检测到的部件之间满足一定位置关系的情况下,可确定为在候选图像区域中检测到查询对象。在这种情况下,部件检测步骤S2422还需要包括部件位置确定步骤,在检测到部分候选区域包含部件的情况下确定该部件在候选图像区域中的位置。可以用各种方式确定部件的位置。例如,部件的位置可以根据部分候选区域的位置而被确定,或者可以通过检测部件的中心(几何中心或重心)的坐标而被确定。
再例如,该组合也可被设计为使得在通过所述多个部件分类器获得的分类分数的加权和大于预定阈值的情况下在候选图像区域中检测到查询对象。
由于可以使用组合部件分类器的各种方式来生成检测器,因此可以使用组合各个部件的检测结果的相应方式,并且这些方式不限于已经例示的那些。
如图12所示,步骤S2400还可以包括候选图像区域更新步骤S2440和对象定位步骤S2450。
判断是否满足预定条件。如果不满足预定条件,则流程进行到步骤S2440,在步骤S2440中,更新候选图像区域。然后,流程回到步骤S2410,并且对于更新后的候选图像区域执行候选图像区域确定步骤S2410、第一检测子步骤S2420和第二检测子步骤S2430。
在此,可以根据具体应用任意定义所述预定条件。例如,该预定条件可以是候选图像区域达到了最大尺寸(例如,目的图像的尺寸)。再例如,该预定条件可以是已经有足够数目的候选图像区域被检测为包含查询对象。
可以通过偏移滑动窗来执行候选图像区域的更新。此外,当滑动窗已遍历了整个目的图像时,该滑动窗可以被偏移到其初始位置,并且被调整尺寸(例如,尺寸递增一个预定量)。
如果满足了预定条件,则流程进行到步骤S2450,在步骤S2450中,根据检测出查询对象的候选图像区域,确定查询对象在目的图像中的位置。
有可能将多于一个候选图像区域检测为包含查询对象。在这种情况下,可以通过例如对被检测为包含查询对象的多个候选图像区域的中心位置和尺寸取平均值来确定查询对象的位置(中心位置和尺寸)。
通过参照图12描述的示例性处理,在检测到查询对象的情况下,也可以确定查询对象在目的图像中的位置。
图14是示出根据本发明的示例性实施例的对象检测设备2000的示例性配置的框图。
对象检测设备2000包括:通用模型存储单元2100,被配置为事先离线地存储用于特定对象类型的通用模型,所述通用模型描述预计在所述特定对象类型的单个对象中共同存在的多个部件;样本图像接收单元2200,被配置为接收对一个或多个样本图像的输入,所述一个或多个样本图像中的每一个均包含同一查询对象,所述查询对象是所述特定对象类型的对象;对象检测器创建单元2300,被配置为利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器;以及对象检测单元2400,被配置为利用所创建的专用于所述查询对象的检测器,从目的图像中检测所述查询对象。
单元2100、2200、2300和2400可以被配置为分别执行步骤S2100、S2200、S2300和S2400的处理。
根据示例性实施例,所述样本图像接收单元2200还可被配置为接收或生成对所述一个或多个样本图像中的各个部件的标记。在这种情况下,对象检测器创建单元2300可包括部件分类器生成单元2310,被配置为利用所述通用模型中的各部件与在所述一个或多个样本图像中标记出的各部件之间的匹配,生成专用于所述查询对象的各部件的多个部件分类器。
对象检测器创建单元2300还可包括部件分类器组合单元2320,被配置为通过组合对应于各个部件的所生成的部件分类器,创建所述专用于所述查询对象的检测器。
根据本发明的示例性实施例,对象检测单元2400可以包括:候选图像区域确定单元2410,被配置为利用滑动窗确定目的图像中的候选图像区域;第一检测子单元2420,被配置为检测所述候选图像区域中是否存在所述多个部件中的至少一些;和第二检测子单元2430,被配置为根据所述第一检测子单元中的检测结果,确定是否在所述候选图像区域中检测到所述查询对象。
根据本发明的示例性实施例,对象检测单元2400还可以包括:候选图像区域更新单元2440,被配置为,如果不满足预定条件,则更新候选图像区域,所述候选图像区域确定单元、所述第一检测子单元和所述第二检测子单元在更新后的候选图像区域上进行操作;和对象定位单元2450,被配置为根据从哪些候选图像区域中检测到所述查询对象,确定所述查询对象在所述目的图像中的位置。
根据一些可能的实施例,部件分类器生成单元2310可被配置为执行步骤S2310中执行的处理(例如,步骤S2311和S2312中的处理或步骤S2313和S2314中的处理)。
例如,部件分类器生成单元2310可以包括:分类器分数获得单元2311,被配置为对于每个分类器组中的每个候选分类器,对各样本图像中所标记的相应部件通过该候选分类器所获得的分类分数进行求和或求平均值,以获得该候选分类器的分类器分数;和选择单元2312,被配置为对于每个分类器组,选择具有最大的分类器分数的候选分类器,作为相应部件的部件分类器。
再例如,部件分类器生成单元2310可以包括:特征参数计算单元2313,被配置为对于每个部件,通过根据所述一个或多个样本图像中的每一个样本图像中所标记的该部件来确定相应不完整分类器的所述特征参数,计算该样本图像的该部件的特征参数;以及组合计算单元2314,被配置为对于每个部件,通过组合所述一个或多个样本图像的该部件的特征参数,计算相应部件分类器的特征参数。
此外,第一检测子单元2420可以被配置为执行步骤S2420中执行的处理(例如,步骤S2421和S2422中的处理)。
例如,第一检测子单元2420可以包括:分割单元2421,被配置为将所述候选图像区域分割成多个部分候选区域;和部件检测单元2422,被配置为利用所述多个部件分类器中的每一个,检测是否有一个或多个部分候选区域中存在相应部件。
此外,所述第二检测子单元2430可以被配置为执行步骤S2430中执行的处理(例如步骤S2431中的处理)。例如,第二检测子单元2430可以包含:组合确定单元2431,被配置为通过组合在所述第一检测子单元中的对于各个部件的检测结果,确定是否在所述候选图像区域中检测到所述查询对象。
此外,组合确定单元2431可以包括:用于在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到的情况下,确定为在所述候选图像区域中检测到所述查询对象的单元。
以上描述的单元和以下要描述的单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些模块可以是硬件单元(诸如场可编程门阵列、数字信号处理器或专用集成电路等)和/或软件模块(诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的模块。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
此外,由各种单元构成的上述装置可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外,计算机当然可以具有其他硬件或者软件部件。
根据实施例,由于通用模型被事先离线地生成和存储,不必在每次要检测新的查询对象时都构建检测器的整个模型,因此可以提高检测的效率。此外,由于通过使用特定查询对象从通用模型在线地创建具体检测器,因此该方法对于各种对象都具有灵活性和精确性,而且不限于事先注册的对象。
本发明可被用于许多应用中。根据本发明的对象检测设备2000例如可被应用于图像拾取设备。
图15是示出根据示例性实施例的图像拾取设备3000的示例性配置的框图。
如图15所示,图像拾取设备3000可以包括:摄影光学系统3100,其可例如包括用于拍摄的光学元件;成像单元3200,被配置为执行成像以形成图像,该成像单元3200可以包括诸如CCD传感器或CMOS传感器之类的成像传感器;上述的对象检测设备2000,被配置为使用户能够输入或选择查询对象,以及在所形成的图像中检测所述查询对象;和成像控制单元3300,被配置为根据检测到的查询对象执行成像控制。
根据本发明的示例性实施例,所述成像控制可以包括:如果检测到查询对象,则增大拍摄的分辨率。以这种方式,除非在捕获的图像中出现特定对象,否则图像拾取设备可以操作于节能模式(具有低分辨率)。
根据本发明的另一示例性实施例,所述成像控制可以包括:如果检测到查询对象,则使拍摄光学系统3100聚焦于检测出的查询对象。以这种方式,图像拾取设备3000可被配置为聚焦于所感兴趣的对象。
根据本发明的再另一示例性实施例,所述成像控制可以包括:在检测到查询对象时,使拍摄光学系统3100保持跟踪所检测到的查询对象,以使得查询对象持续出现在要形成的图像中。在此示例性实施例中,拍摄光学系统3100可以被配置有使得该拍摄光学系统3100能够根据成像控制而自动旋转的机械结构。以这种方式,图像拾取设备3000可保持跟踪感兴趣的对象,并且尽可能多地获得感兴趣的对象的图像。
可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。
Claims (34)
1.一种对象检测方法,包括:
通用模型存储步骤,事先离线地存储用于特定对象类型的通用模型,所述通用模型描述预计在所述特定对象类型的单个对象中共同存在的多个部件;
样本图像接收步骤,接收对一个或多个样本图像的输入,所述一个或多个样本图像中的每一个均包含同一查询对象,所述查询对象是所述特定对象类型的对象;
对象检测器创建步骤,利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器;以及
对象检测步骤,利用所创建的专用于所述查询对象的检测器,从目的图像中检测所述查询对象,
其中,所述通用模型包含分别与所述多个部件对应的多个分类器组,所述多个分类器组中的每个分类器组包含用于描述所述特定对象类型的相应部件的多种不同特征实例的多个候选分类器。
2.根据权利要求1的对象检测方法,其中
在所述样本图像接收步骤中,还接收或生成对所述一个或多个样本图像中的各部件的标记,以及
所述对象检测器创建步骤包含:部件分类器生成步骤,利用所述通用模型中的各部件与在所述一个或多个样本图像中标记出的各部件之间的匹配,生成专用于所述查询对象的各部件的多个部件分类器。
3.根据权利要求2的对象检测方法,其中
在所述部件分类器生成步骤中,对于每个部件,从相应的分类器组中选择对于描述所述查询对象的该部件而言最佳的候选分类器,作为部件分类器。
4.根据权利要求3的对象检测方法,其中
所述部件分类器生成步骤包含:
分类器分数获得步骤,对于每个分类器组中的每个候选分类器,对各样本图像中所标记的相应部件通过该候选分类器所获得的分类分数进行求和或求平均值,以获得该候选分类器的分类器分数,和
选择步骤,对于每个分类器组,选择具有最大的分类器分数的候选分类器,作为相应部件的部件分类器。
5.根据权利要求2的对象检测方法,其中
所述通用模型包含分别与所述多个部件对应的多个粗分类器,所述多个粗分类器中的每个粗分类器用于描述所述特定对象类型的相应部件的相应通用特征,以及
在所述部件分类器生成步骤中,对于每个部件,通过根据所述查询对象的该部件而将相应粗分类器所描述的相应通用特征进一步限定为相应具体特征,从相应粗分类器生成描述所述相应具体特征的相应部件分类器。
6.根据权利要求2的对象检测方法,其中
所述通用模型包含分别与所述多个部件对应的多个不完整分类器,所述多个不完整分类器中的每一个具有尚未确定的特征参数,以及
在所述部件分类器生成步骤中,对于每个部件,通过根据所述查询对象的该部件来确定相应不完整分类器的所述特征参数,分别从相应不完整分类器形成特征参数均已被确定的相应部件分类器。
7.根据权利要求6的对象检测方法,其中
所述部件分类器生成步骤包含:
特征参数计算步骤,对于每个部件,通过根据所述一个或多个样本图像中的每一个样本图像中所标记的该部件来确定相应不完整分类器的所述特征参数,计算该样本图像的该部件的特征参数;以及
组合计算步骤,对于每个部件,通过组合所述一个或多个样本图像的该部件的特征参数,计算相应部件分类器的特征参数。
8.根据权利要求2-7中任一项的对象检测方法,其中
所述对象检测器创建步骤还包含:部件分类器组合步骤,通过组合对应于各个部件的所生成的部件分类器,创建所述专用于所述查询对象的检测器。
9.根据权利要求8的对象检测方法,其中
所述组合使得:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到的情况下,所述专用于所述查询对象的检测器判断为检测到所述查询对象。
10.根据权利要求8的对象检测方法,其中
所述通用模型还包含所述多个部件之间的位置关系,以及
所述组合使得:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到并且检测到的部件之间满足所述位置关系的情况下,所述专用于所述查询对象的检测器判断为检测到所述查询对象。
11.根据权利要求2的对象检测方法,其中
所述对象检测步骤包含:
候选图像区域确定步骤,利用滑动窗确定目的图像中的候选图像区域;
第一检测子步骤,检测所述候选图像区域中是否存在所述多个部件中的至少一些;和
第二检测子步骤,根据在所述第一检测子步骤中的检测结果,确定是否在所述候选图像区域中检测到所述查询对象。
12.根据权利要求11的对象检测方法,其中
所述第一检测子步骤包含:
分割步骤,将所述候选图像区域分割成多个部分候选区域;和
部件检测步骤,利用所述多个部件分类器中的每一个,检测是否有一个或多个部分候选区域中存在相应部件,以及
所述第二检测子步骤包含:
组合确定步骤,通过组合在所述第一检测子步骤中的对于各个部件的检测结果,确定是否在所述候选图像区域中检测到所述查询对象。
13.根据权利要求12的对象检测方法,其中
所述组合确定步骤包括:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到的情况下,确定为在所述候选图像区域中检测到所述查询对象。
14.根据权利要求12的对象检测方法,其中
所述通用模型还包含所述多个部件之间的位置关系,
所述部件检测步骤包括:部件位置确定步骤,如果检测为一个部分候选区域包含部件,则确定所述部件在所述候选图像区域中的位置,以及
所述组合确定步骤包括:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到并且检测到的部件之间满足所述位置关系的情况下,确定为在所述候选图像区域中检测到所述查询对象。
15.根据权利要求11的对象检测方法,其中
所述对象检测步骤还包括:
候选图像区域更新步骤,如果不满足预定条件,则更新候选图像区域,在更新后的候选图像区域中执行所述候选图像区域确定步骤、所述第一检测子步骤和所述第二检测子步骤;和
对象定位步骤,根据从哪些候选图像区域中检测到所述查询对象,确定所述查询对象在所述目的图像中的位置。
16.一种对象检测设备,包括:
通用模型存储单元,被配置为事先离线地存储用于特定对象类型的通用模型,所述通用模型描述预计在所述特定对象类型的单个对象中共同存在的多个部件;
样本图像接收单元,被配置为接收对一个或多个样本图像的输入,所述一个或多个样本图像中的每一个均包含同一查询对象,所述查询对象是所述特定对象类型的对象;
对象检测器创建单元,被配置为利用所述通用模型和所述一个或多个样本图像,创建专用于所述查询对象的检测器;以及
对象检测单元,被配置为利用所创建的专用于所述查询对象的检测器,从目的图像中检测所述查询对象,
其中,所述通用模型包含分别与所述多个部件对应的多个分类器组,所述多个分类器组中的每个分类器组包含用于描述所述特定对象类型的相应部件的多种不同特征实例的多个候选分类器。
17.根据权利要求16的对象检测设备,其中
所述样本图像接收单元还被配置为接收或生成对所述一个或多个样本图像中的各部件的标记,以及
所述对象检测器创建单元包含:部件分类器生成单元,被配置为利用所述通用模型中的各部件与在所述一个或多个样本图像中标记出的各部件之间的匹配,生成专用于所述查询对象的各部件的多个部件分类器。
18.根据权利要求17的对象检测设备,其中
所述部件分类器生成单元还被配置为,对于每个部件,从相应的分类器组中选择对于描述所述查询对象的该部件而言最佳的候选分类器,作为部件分类器。
19.根据权利要求18的对象检测设备,其中
所述部件分类器生成单元包含:
分类器分数获得单元,被配置为对于每个分类器组中的每个候选分类器,对各样本图像中所标记的相应部件通过该候选分类器所获得的分类分数进行求和或求平均值,以获得该候选分类器的分类器分数,和
选择单元,被配置为对于每个分类器组,选择具有最大的分类器分数的候选分类器,作为相应部件的部件分类器。
20.根据权利要求17的对象检测设备,其中
所述通用模型包含分别与所述多个部件对应的多个粗分类器,所述多个粗分类器中的每个粗分类器用于描述所述特定对象类型的相应部件的相应通用特征,以及
所述部件分类器生成单元还被配置为,对于每个部件,通过根据所述查询对象的该部件而将相应粗分类器所描述的相应通用特征进一步限定为相应具体特征,从相应粗分类器生成描述所述相应具体特征的相应部件分类器。
21.根据权利要求17的对象检测设备,其中
所述通用模型包含分别与所述多个部件对应的多个不完整分类器,所述多个不完整分类器中的每一个具有尚未确定的特征参数,以及
所述部件分类器生成单元还被配置为,对于每个部件,通过根据所述查询对象的该部件来确定相应不完整分类器的所述特征参数,分别从相应不完整分类器形成特征参数均已被确定的相应部件分类器。
22.根据权利要求21的对象检测设备,其中
所述部件分类器生成单元包含:
特征参数计算单元,被配置为对于每个部件,通过根据所述一个或多个样本图像中的每一个样本图像中所标记的该部件来确定相应不完整分类器的所述特征参数,计算该样本图像的该部件的特征参数;以及
组合计算单元,被配置为对于每个部件,通过组合所述一个或多个样本图像的该部件的特征参数,计算相应部件分类器的特征参数。
23.根据权利要求17-22中任一项的对象检测设备,其中
所述对象检测器创建单元还包含:部件分类器组合单元,被配置为通过组合对应于各个部件的所生成的部件分类器,创建所述专用于所述查询对象的检测器。
24.根据权利要求23的对象检测设备,其中
所述组合使得:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到的情况下,所述专用于所述查询对象的检测器判断为检测到所述查询对象。
25.根据权利要求23的对象检测设备,其中
所述通用模型还包含所述多个部件之间的位置关系,以及
所述组合使得:在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到并且检测到的部件之间满足所述位置关系的情况下,所述专用于所述查询对象的检测器判断为检测到所述查询对象。
26.根据权利要求17的对象检测设备,其中
所述对象检测单元包含:
候选图像区域确定单元,被配置为利用滑动窗确定目的图像中的候选图像区域;
第一检测子单元,被配置为检测所述候选图像区域中是否存在所述多个部件中的至少一些;和
第二检测子单元,被配置为根据所述第一检测子单元的检测结果,确定是否在所述候选图像区域中检测到所述查询对象。
27.根据权利要求26的对象检测设备,其中
所述第一检测子单元包含:
分割单元,被配置为将所述候选图像区域分割成多个部分候选区域;和
部件检测单元,被配置为利用所述多个部件分类器中的每一个,检测是否有一个或多个部分候选区域中存在相应部件,以及
所述第二检测子单元包含:
组合确定单元,被配置为通过组合所述第一检测子单元的对于各个部件的检测结果,确定是否在所述候选图像区域中检测到所述查询对象。
28.根据权利要求27的对象检测设备,其中
所述组合确定单元包括:用于在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到的情况下,确定为在所述候选图像区域中检测到所述查询对象的单元。
29.根据权利要求27的对象检测设备,其中
所述通用模型还包含所述多个部件之间的位置关系,
所述部件检测单元包括:部件位置确定单元,被配置为如果检测为一个部分候选区域包含部件,则确定所述部件在所述候选图像区域中的位置,
所述组合确定单元包括:用于在多于预定数量或多于预定比例的部件被所述多个部件分类器检测到并且检测到的部件之间满足所述位置关系的情况下,确定为在所述候选图像区域中检测到所述查询对象的单元。
30.根据权利要求26的对象检测设备,其中
所述对象检测单元还包括:
候选图像区域更新单元,被配置为,如果不满足预定条件,则更新候选图像区域,所述候选图像区域确定单元、所述第一检测子单元和所述第二检测子单元在更新后的候选图像区域上进行操作;和
对象定位单元,被配置为根据从哪些候选图像区域中检测到所述查询对象,确定所述查询对象在所述目的图像中的位置。
31.一种图像拾取设备,包括:
摄影光学系统;
成像单元,被配置为执行成像以形成图像;
根据权利要求16-30中的任一项的对象检测设备,被配置为使用户能够输入或选择查询对象,以及在所形成的图像中检测所述查询对象;和
成像控制单元,被配置为根据检测到的查询对象执行成像控制。
32.根据权利要求31的图像拾取设备,其中
所述成像控制包括:如果检测到查询对象,则增大拍摄的分辨率。
33.根据权利要求31的图像拾取设备,其中
所述成像控制包括:如果检测到查询对象,则使拍摄光学系统聚焦于检测出的查询对象。
34.根据权利要求31的图像拾取设备,其中
所述成像控制包括:如果检测到查询对象,则使拍摄光学系统保持跟踪所检测到的查询对象,以使得查询对象持续出现在要形成的图像中。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210550321.XA CN103870798B (zh) | 2012-12-18 | 2012-12-18 | 对象检测方法、对象检测设备以及图像拾取设备 |
US14/107,436 US9171230B2 (en) | 2012-12-18 | 2013-12-16 | Object detection method, object detection apparatus and image pickup apparatus |
JP2013260667A JP5890825B2 (ja) | 2012-12-18 | 2013-12-17 | オブジェクト検出方法、オブジェクト検出装置及び撮像装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210550321.XA CN103870798B (zh) | 2012-12-18 | 2012-12-18 | 对象检测方法、对象检测设备以及图像拾取设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103870798A CN103870798A (zh) | 2014-06-18 |
CN103870798B true CN103870798B (zh) | 2017-05-24 |
Family
ID=50909317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210550321.XA Active CN103870798B (zh) | 2012-12-18 | 2012-12-18 | 对象检测方法、对象检测设备以及图像拾取设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9171230B2 (zh) |
JP (1) | JP5890825B2 (zh) |
CN (1) | CN103870798B (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965115B1 (en) * | 2013-03-14 | 2015-02-24 | Hrl Laboratories, Llc | Adaptive multi-modal detection and fusion in videos via classification-based-learning |
US9349055B1 (en) * | 2013-06-26 | 2016-05-24 | Google Inc. | Real-time image-based vehicle detection based on a multi-stage classification |
CN104159071A (zh) * | 2014-07-11 | 2014-11-19 | 深圳瞭望通达科技有限公司 | 一种基于云服务的智能目标识别装置、系统及方法 |
JP6524475B2 (ja) * | 2015-01-16 | 2019-06-05 | 株式会社レイトロン | 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 |
CN105989339B (zh) * | 2015-02-16 | 2020-02-14 | 佳能株式会社 | 用于检测目标的方法和装置 |
US20170228929A1 (en) * | 2015-09-01 | 2017-08-10 | Patrick Dengler | System and Method by which combining computer hardware device sensor readings and a camera, provides the best, unencumbered Augmented Reality experience that enables real world objects to be transferred into any digital space, with context, and with contextual relationships. |
US9984314B2 (en) * | 2016-05-06 | 2018-05-29 | Microsoft Technology Licensing, Llc | Dynamic classifier selection based on class skew |
US10861184B1 (en) | 2017-01-19 | 2020-12-08 | X Development Llc | Object pose neural network system |
CN108804971A (zh) * | 2017-04-26 | 2018-11-13 | 联想新视界(天津)科技有限公司 | 一种图像识别系统、增强现实显示设备和图像识别方法 |
US10540390B1 (en) * | 2017-08-07 | 2020-01-21 | Amazon Technologies, Inc. | Image-based item identification |
CN107909088B (zh) * | 2017-09-27 | 2022-06-28 | 百度在线网络技术(北京)有限公司 | 获取训练样本的方法、装置、设备和计算机存储介质 |
CN107742536B (zh) * | 2017-10-16 | 2021-04-06 | 成都黑杉科技有限公司 | 信息处理的方法及装置 |
US10740647B2 (en) | 2018-03-14 | 2020-08-11 | Adobe Inc. | Detecting objects using a weakly supervised model |
US10706525B2 (en) * | 2018-05-22 | 2020-07-07 | Midea Group Co. Ltd. | Methods and systems for improved quality inspection |
CN110019960A (zh) * | 2018-09-05 | 2019-07-16 | 深圳市商汤科技有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN109407630B (zh) * | 2018-09-21 | 2020-08-21 | 深圳新视智科技术有限公司 | 参数计算的方法、装置、终端及可读存储介质 |
US10373323B1 (en) * | 2019-01-29 | 2019-08-06 | StradVision, Inc. | Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles |
CN110086986B (zh) * | 2019-04-22 | 2020-08-28 | 北京电影学院 | 可自由旋转的影像显示同步控制方法及系统 |
CN110135483A (zh) * | 2019-04-30 | 2019-08-16 | 北京百度网讯科技有限公司 | 训练图像识别模型的方法、装置及相关设备 |
CN110287934B (zh) * | 2019-07-02 | 2022-12-02 | 北京搜狐互联网信息服务有限公司 | 一种对象检测方法、装置、客户端及服务器 |
US11302033B2 (en) | 2019-07-22 | 2022-04-12 | Adobe Inc. | Classifying colors of objects in digital images |
US11107219B2 (en) | 2019-07-22 | 2021-08-31 | Adobe Inc. | Utilizing object attribute detection models to automatically select instances of detected objects in images |
US11468550B2 (en) | 2019-07-22 | 2022-10-11 | Adobe Inc. | Utilizing object attribute detection models to automatically select instances of detected objects in images |
US11631234B2 (en) | 2019-07-22 | 2023-04-18 | Adobe, Inc. | Automatically detecting user-requested objects in images |
US11468110B2 (en) | 2020-02-25 | 2022-10-11 | Adobe Inc. | Utilizing natural language processing and multiple object detection models to automatically select objects in images |
US11055566B1 (en) * | 2020-03-12 | 2021-07-06 | Adobe Inc. | Utilizing a large-scale object detector to automatically select objects in digital images |
US11587234B2 (en) | 2021-01-15 | 2023-02-21 | Adobe Inc. | Generating class-agnostic object masks in digital images |
US11972569B2 (en) | 2021-01-26 | 2024-04-30 | Adobe Inc. | Segmenting objects in digital images utilizing a multi-object segmentation model framework |
CN113011503B (zh) * | 2021-03-17 | 2021-11-23 | 彭黎文 | 一种电子设备的数据取证方法、存储介质及终端 |
WO2022239164A1 (ja) * | 2021-05-12 | 2022-11-17 | 三菱電機株式会社 | 部品検索装置、部品検索プログラム及び部品検索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7551755B1 (en) * | 2004-01-22 | 2009-06-23 | Fotonation Vision Limited | Classification and organization of consumer digital images using workflow, and face detection and recognition |
CN102105904A (zh) * | 2008-08-11 | 2011-06-22 | 欧姆龙株式会社 | 检测用信息登录装置、对象物体检测装置、电子设备、检测用信息登录装置的控制方法、对象物体检测装置的控制方法、检测用信息登录装置控制程序、对象物体检测装置控制程序 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7564994B1 (en) * | 2004-01-22 | 2009-07-21 | Fotonation Vision Limited | Classification system for consumer digital images using automatic workflow and face detection and recognition |
US7558408B1 (en) | 2004-01-22 | 2009-07-07 | Fotonation Vision Limited | Classification system for consumer digital images using workflow and user interface modules, and face detection and recognition |
US7555148B1 (en) | 2004-01-22 | 2009-06-30 | Fotonation Vision Limited | Classification system for consumer digital images using workflow, face detection, normalization, and face recognition |
US7751602B2 (en) * | 2004-11-18 | 2010-07-06 | Mcgill University | Systems and methods of classification utilizing intensity and spatial data |
JP4525523B2 (ja) * | 2005-08-23 | 2010-08-18 | コニカミノルタホールディングス株式会社 | 認証システム、認証方法およびプログラム |
US7657089B2 (en) * | 2006-02-21 | 2010-02-02 | Microsoft Corporation | Automatic classification of photographs and graphics |
US7680341B2 (en) * | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
EP2023288A4 (en) * | 2006-05-10 | 2010-11-10 | Nikon Corp | OBJECT RECOGNITION DEVICE, OBJECT RECOGNITION PROGRAM, AND METHOD FOR OBTAINING IMAGE RECORDING SERVICE |
JP4732311B2 (ja) * | 2006-11-29 | 2011-07-27 | キヤノン株式会社 | 撮像装置及びその制御方法及びプログラム及び記憶媒体 |
WO2010050334A1 (ja) * | 2008-10-30 | 2010-05-06 | コニカミノルタエムジー株式会社 | 情報処理装置 |
JP2010136190A (ja) * | 2008-12-05 | 2010-06-17 | Nikon Corp | 電子カメラ |
JP2010146395A (ja) * | 2008-12-19 | 2010-07-01 | Olympus Corp | 画像処理装置、画像処理方法、画像処理プログラム、及び、電子機器 |
US8306265B2 (en) * | 2009-01-12 | 2012-11-06 | Eastman Kodak Company | Detection of animate or inanimate objects |
US8433140B2 (en) * | 2009-11-02 | 2013-04-30 | Microsoft Corporation | Image metadata propagation |
JP5554987B2 (ja) | 2009-12-28 | 2014-07-23 | キヤノン株式会社 | オブジェクト識別装置及びその制御方法 |
JP5739428B2 (ja) * | 2010-08-04 | 2015-06-24 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 画像分類装置、方法、プログラム、プログラムを記録する記録媒体及び集積回路 |
JP5510287B2 (ja) * | 2010-11-22 | 2014-06-04 | カシオ計算機株式会社 | 被写体検出装置、被写体検出方法及びプログラム |
CN102741882B (zh) * | 2010-11-29 | 2015-11-25 | 松下电器(美国)知识产权公司 | 图像分类装置、图像分类方法、集成电路、模型制作装置 |
-
2012
- 2012-12-18 CN CN201210550321.XA patent/CN103870798B/zh active Active
-
2013
- 2013-12-16 US US14/107,436 patent/US9171230B2/en not_active Expired - Fee Related
- 2013-12-17 JP JP2013260667A patent/JP5890825B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7551755B1 (en) * | 2004-01-22 | 2009-06-23 | Fotonation Vision Limited | Classification and organization of consumer digital images using workflow, and face detection and recognition |
CN102105904A (zh) * | 2008-08-11 | 2011-06-22 | 欧姆龙株式会社 | 检测用信息登录装置、对象物体检测装置、电子设备、检测用信息登录装置的控制方法、对象物体检测装置的控制方法、检测用信息登录装置控制程序、对象物体检测装置控制程序 |
Also Published As
Publication number | Publication date |
---|---|
CN103870798A (zh) | 2014-06-18 |
JP5890825B2 (ja) | 2016-03-22 |
JP2014130583A (ja) | 2014-07-10 |
US20140176752A1 (en) | 2014-06-26 |
US9171230B2 (en) | 2015-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103870798B (zh) | 对象检测方法、对象检测设备以及图像拾取设备 | |
JP7190842B2 (ja) | 情報処理装置、情報処理装置の制御方法及びプログラム | |
JP6844038B2 (ja) | 生体検出方法及び装置、電子機器並びに記憶媒体 | |
WO2022121283A1 (zh) | 车辆关键点信息检测和车辆控制 | |
TWI416068B (zh) | 跨感測器間之物體追蹤方法與系統 | |
CN109117879B (zh) | 图像分类方法、装置及系统 | |
JP4663013B2 (ja) | 色類別方法、色認識方法及び色認識装置 | |
Chandrakar et al. | Animal detection based on deep convolutional neural networks with genetic segmentation | |
JP5366756B2 (ja) | 情報処理装置及び情報処理方法 | |
US10079974B2 (en) | Image processing apparatus, method, and medium for extracting feature amount of image | |
JP5836095B2 (ja) | 画像処理装置、画像処理方法 | |
Ali et al. | A real-time deformable detector | |
JP2000306095A (ja) | 画像照合・検索システム | |
WO2009129457A1 (en) | Movement correction in mri using a camera | |
JP5671224B2 (ja) | 画像処理装置、画像処理方法 | |
JP2018120283A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN116051736A (zh) | 一种三维重建方法、装置、边缘设备和存储介质 | |
CN111598065A (zh) | 深度图像获取方法及活体识别方法、设备、电路和介质 | |
JP2017174259A (ja) | 動体計数装置及びプログラム | |
JP6253397B2 (ja) | 物体検出装置 | |
JP3962517B2 (ja) | 顔面検出方法及びその装置、コンピュータ可読媒体 | |
JP2006293720A (ja) | 顔検出装置、顔検出方法、及び顔検出プログラム | |
JP2021047538A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP6893812B2 (ja) | 物体検出装置 | |
JP6717049B2 (ja) | 画像解析装置、画像解析方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |