CN103778406B - 对象检测方法及设备 - Google Patents
对象检测方法及设备 Download PDFInfo
- Publication number
- CN103778406B CN103778406B CN201210398301.5A CN201210398301A CN103778406B CN 103778406 B CN103778406 B CN 103778406B CN 201210398301 A CN201210398301 A CN 201210398301A CN 103778406 B CN103778406 B CN 103778406B
- Authority
- CN
- China
- Prior art keywords
- value
- eye pupil
- subject area
- confidence
- pupil region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/11—Hand-related biometrics; Hand pose recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了对象检测方法及设备。更特别地,提供了一种检测图像中的多个对象区域的方法,所述多个对象区域具有相似的特定结构特征,该方法包括:估计步骤,用于估计所述多个对象区域的特定结构特征的公共初始值;以及确定步骤,用于基于所估计的公共初始值,确定所述多个对象区域中的每一个的特定结构特征的最终值及该特定结构特征的最终位置。
Description
技术领域
本发明涉及用于图像中的对象的检测的方法和设备。更具体而言,本发明涉及用于检测图像中的具有相似的特定结构特征的多个对象区域的方法和设备。
背景技术
近年来,对象检测广泛应用于图像处理、计算机视觉以及模式识别,并且在其中起到了重要作用。常见的一种对象检测是检测图像中的具有相似甚至相同特征的对象(例如人的瞳孔等),并且存在多种用于这样的对象检测的技术。
下文将以人脸图像中的瞳孔检测为例来说明当前的现有技术中的用于检测图像中的具有相似甚至相同特征的多个对象的技术。
对于瞳孔检测,由于瞳孔中心与虹膜中心相近并且眼睛虹膜的形状大致为圆形,因此实际上,虹膜边界被检测并且被用于估计瞳孔中心。已知的最好的并且被最透彻研究的算法或许是基于J.Daugman,“High Confidence Visual Recognition of Persons by aTest of Statistical Independence”,PAMI,1993(下文被称为Daugman)中所描述的工作的算法,该算法使用积分微分算子来找到虹膜的圆形边界。另一种公知的算法是基于R.Wildes,“Iris Recognition:An Emerging Biometric Technology”,Proc.IEEE,1997所采用的圆形霍夫(Hough)变换。
但是,这些通常的方法主要是尽力精确地定位单个眼睛图像中的瞳孔中心,也就是说,独立地确定各眼睛中的瞳孔中心,而没有关注人脸图像中的左眼与右眼之间的关系。因此,通常的方法所得到的结果显示两个瞳孔的半径尺寸之间的差异非常大,如图13A所示。
此外,这些通常的方法中的另一缺陷是当照片环境的不确定性(例如不均匀的光)以及周围对象的局部环状黑暗区域(例如,眼眉、眼镜、头发等)在图像中显现时,这些通常的方法的检测结果变得不可靠。
美国专利No.7197166公开了一种虹膜提取方法,该方法能够精确地确定数字人脸图像中的虹膜的位置和大小。该方法使用人脸图像中的左眼与右眼之间的关系来定位虹膜,并且如示出了该方法的关键流程图的图2所示,该方法包括以下步骤:粗略检测人脸图像中的两个眼睛的位置,并且测量这两个位置之间的距离;根据该距离定义两个矩形搜索区域(这两个矩形的尺度(scale)与该距离有关);以及对于每个矩形搜索区域独立地精确定位虹膜。尽管该方法采用两个眼睛的位置之间的距离来确定虹膜或瞳孔的矩形搜索区域,但是该方法没有考虑这两个虹膜的相似特征(例如,相同的半径)。这可能导致最终虹膜位置不准确。
如上所述,仍需要一种能够准确检测图像中的具有相似特征的多个对象区域的方法。
发明内容
本发明正是针对图像中的具有相似特征的多个对象区域的检测而被开发出的,并且旨在解决如上所述的问题。
根据本发明的一个方面,提供了一种检测图像中的多个对象区域的方法,所述多个对象区域具有相似的特定结构特征,该方法包括:估计步骤,用于估计所述多个对象区域的特定结构特征的公共初始值;以及确定步骤,用于基于所估计的公共初始值,确定所述多个对象区域中的每一个的特定结构特征的最终值及该特定结构特征的最终位置。
根据本发明的另一个方面,提供了一种检测图像中的多个对象区域的设备,所述多个对象区域具有相似的特定结构特征,该设备包括:估计单元,被配置为估计所述多个对象区域的特定结构特征的公共初始值;以及确定单元,被配置为基于所估计的公共初始值,确定所述多个对象区域中的每一个的特定结构特征的最终值及该特定结构特征的最终位置。
根据本发明的另一方面,提供了一种用于检测人脸图像中的两个眼睛瞳孔区域的方法,所述两个眼睛瞳孔区域具有相似的半径,所述方法包括:估计步骤,用于估计所述两个眼睛瞳孔区域的半径的公共初始值;以及确定步骤,用于基于所估计的公共初始值,对于所述两个眼睛瞳孔区域中的每一个单独地确定该眼睛瞳孔区域的半径的最终值以及该眼睛瞳孔区域的最终中心。
根据本发明的另一方面,提供了一种用于检测人脸图像中的两个眼睛瞳孔区域的设备,所述两个眼睛瞳孔区域具有相似的半径,所述设备包括:估计单元,被配置为估计所述两个眼睛瞳孔区域的半径的公共初始值;以及确定单元,被配置为基于所估计的公共初始值,对于所述两个眼睛瞳孔区域中的每一个单独地确定该眼睛瞳孔区域的半径的最终值以及该眼睛瞳孔区域的最终中心。
[有益效果]
本发明中所提出的解决方案采用一种对象类别的多个区域(即多个对象区域)之中的相似特定结构特征来精确确定该多个区域的位置。更具体而言,本发明中所提出的解决方案通过考虑该对象类别的多个区域之间的相似性并且单独考虑该对象类别的多个区域中的每一个在图像中的实际位置检测该对象类别的多个区域,由此可简单地解决上述通常的方法的问题,并且实现精确的对象检测以便精确确定图像中的该对象类别的多个区域中的每一个的位置和特定结构特征。
从参照附图的示例性实施例的以下描述,本发明的其它特征将变得清晰。
附图说明
并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在附图中,相似的附图标记指示相似的项目。
图1是示出可实现本发明的实施例的计算机系统的示例性硬件配置的框图。
图2是说明示出现有技术所公开的方法的图示。
图3A是示出根据本发明的基本实施例的方法的流程图,图3B是示出估计步骤中的处理的流程图,并且图3C是示出确定步骤中的处理流程图。
图4是示出根据本发明的基本实施例的设备的框图。
图5A至5D示出示例1中的检测方法的过程,其中图5A是输入图像中的两个眼睛瞳孔区域的示意图,图5B示意性地示出相对于两个眼睛瞳孔区域的估计过程,图5C示意性地示出相对于两个眼睛瞳孔区域的确定过程,并且图5D示意性地示出示例1的检测结果。
图6示意性地示出两个眼睛瞳孔区域之间的距离。
图7示意性地示出用于两个眼睛瞳孔区域的置信值计算的倾斜校正。
图8A和8B示意性地示出反光点(specular reflection)校正。
图9示意性地示出对于对象区域的局部区域预处理。
图10是示出根据本发明的眼睛瞳孔区域检测的优选实现的流程图。
图11是示出根据本发明的眼睛瞳孔区域检测设备的框图。
图12示出图像中的眼睛瞳孔区域的一些检测结果。
图13A和13B示出通过现有技术的常用方法以及根据本发明的方法所获得的检测结果之间的比较。
图14示出拳头图像中的手指的宽度。
图15示意性地示出相邻手指之间的缝隙的剩余的梯度信息。
图16A和16B示出平行线到霍夫空间的映射。
图17示出用于霍夫变换中的参数ρθ的累加单元的划分。
图18示意性地示出所计算的两个拳头中的手指的宽度的公共初始值以及相应的位置。
图19示意性地示出两个拳头中的手指的最终宽度以及相应的最终位置。
图20是示出根据本发明的拳头检测的优选实现的流程图。
图21示出通过本发明的拳头检测实现的准确手指定位。
具体实施方式
下文将参照附图详细描述本发明的实施例。
应注意,在附图中相似的附图标记和字母指示相似的项目,因此一旦一个项目在一个附图中被定义,则对于随后的附图无需再对其进行论述。
首先,将解释在本公开的上下文中的一些术语的含义。
在本说明书的上下文中,图像可指的是许多类型的图像,诸如彩色图像、灰度图像等。由于本发明的过程主要针对灰度图像执行,因此在下文,除非另外说明,否则本说明书中的图像将指的是包括许多像素的灰度图像。
应注意,本发明的过程也可应用于其它类型的图像(诸如彩色图像),只要这样的图像可被转换成灰度图像即可,并且本发明的过程可针对转换后的灰度图像执行。
在本公开中,术语“第一”、“第二”等仅仅用于区分元素或者步骤,而不是要指示时间顺序、优先选择或者重要性。
图像中的对象区域对应于一种对象类别的多个区域之中的区域。该对象类别的多个区域通常为该对象类别的两个或更多个区域并且具有相似的特征、尤其是结构特征,因此图像中的对象区域在它们之中也具有相似的结构特征。
对象区域的检测可对应于对象区域的结构特征和位置的检测,并且尤其是该对象区域的特定结构特征以及该对象区域的对应于该特定结构特征的位置的检测。
对象区域的结构特征通常是表示这样的对象区域的特性(例如对象区域的形状等)的特征,并且通常可依赖于对象类别被用多种参数表示。其中,对象区域的特定结构特征是示出对象区域的特性的最具代表性的结构特征,并且通常是依赖于对象类别的特定参数。例如,当对象区域是图像中的圆形及准圆形区域(诸如人瞳孔、眼镜等)时,该特定结构特征可以是该对象区域的半径,而当该对象区域是矩形或线形区域时,该特定结构特征可以是该对象区域的宽度或长度。
对象区域的对应于所检测的特定结构特征的位置通常是该对象区域中的如下位置,即所检测的特定结构特征在该位置处被定位并且可以是该对象区域中的依赖于该对象区域的形状的特定位置。例如,当对象区域是图像中的圆形及准圆形区域时,要被检测的该对象区域的位置通常是该对象区域的圆心,而当该对象区域是矩形或线形区域时,要被检测的该对象区域的位置可以是其宽度或长度的端点,或者这样的矩形或线形区域的沿其宽度或长度方向的中点。
图1是示出可实施本发明的实施例的计算机系统1000的硬件配置的框图。
如图1所示,计算机系统包括计算机1110。计算机1110包括处理单元1120、系统存储器1130、不可移除非易失性存储器接口1140、可移除非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190、和输出外围接口1195,它们通过系统总线1121连接。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序模块1136和一些程序数据1137驻留在RAM 1132中。
不可移除非易失性存储器1141(诸如硬盘)连接到不可移除非易失性存储器接口1140。不可移除非易失性存储器1141例如可存储操作系统1144、应用程序1145、其它程序模块1146以及一些程序数据1147。
可移除非易失性存储器(例如软盘驱动器1151和CD-ROM驱动器1155)连接到可移除非易失性存储器接口1150。例如,软盘1152可插入软盘驱动器1151,并且CD(紧致盘)1156可插入CD-ROM驱动器1155。
诸如鼠标1161和键盘1162的输入设备连接到用户输入接口1160。
计算机1110可通过网络接口1170连接到远程计算机1180。例如,网络接口1170可经局域网1171连接到远程计算机1180。可替换地,网络接口1170可连接到调制解调器(调制器-解调器)1172,并且调制解调器1172经广域网1173连接到远程计算机1180。
远程计算机1180可包括诸如硬盘的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图1所示的计算机系统仅是说明性的,并且决不打算限制本发明、其应用或者使用。
图1所示的计算机系统可对于任一实施例被实现为孤立计算机,或者设备中的处理系统,其中可去除一个或多个不必要的组件或者可添加一个或多个附加的组件。
[基本实施例]
下文将参照图3A至3C描述根据本发明的基本实施例的对象检测方法,图3A至3C示出根据本发明的基本实施例的方法中的过程。
根据本发明的基本实施例的方法是用于检测图像中的多个对象区域的方法,该多个对象区域具有相似的特定结构特征并且可包含两个或更多个这样的对象区域。
在步骤S100(下文将称为估计步骤)中,该多个对象区域的特定结构特征的公共初始值被估计。
在步骤S200(下文将被称为确定步骤)中,基于所估计的该多个对象区域的特定结构特征的公共初始值,该多个对象区域中的每一个的特定结构特征的最终值及其最终位置被单独地确定,其中该最终位置是对象区域中的与该确定的最终值对应的位置。
下文将参照图3B描述估计步骤中的过程。
在步骤S101中,设定该多个对象区域的特定结构特征的公共初始值的估计范围。
在步骤S102中,对于该估计范围中的每一个值,计算该多个对象区域中的每一个的置信值(confidence score),并且对所计算的该多个对象区域中的各对象区域的置信值进行求和。
在步骤S103中,该估计范围中的与所计算的该多个对象区域中的各对象区域的置信值之和之中的最大值相对应的值被选择作为该多个对象区域的特定结构特征的公共初始值。因此,该多个对象区域的特定结构特征将具有相同的初始值。
步骤S101中所设定的估计范围可在考虑了依赖于对象类别的该多个对象区域的各自特性的情况下被设定,并且通常可在考虑了该多个对象区域之间的相对位置关系(诸如它们之间的距离等)的情况下被考虑。
对象区域的置信值可通过本领域中已知的多种算法(诸如Daugman中公开的积分微分算子)来计算,因此为了清楚起见,其细节在此部分中将不再被描述。
在基本实施例中,对象区域的对于一个特定结构特征值的置信值可以是在该对象区域中的各位置处计算的该对象区域的置信值之中的最大值。在一种实现中,在S102中计算对象区域的对于一个特定结构特征值的置信值的过程可包括:计算该对象区域中的各位置处的对于该特定结构特征值的置信值,并且选择所计算的该对象区域的各位置处的置信值之中的最大值作为该对象区域的对于该特定结构特征值的置信值。该计算中的对象区域中的位置可指的是该对象区域中的在该处定位该特定结构特征的像素位置。该置信值的计算还可相对于该对象区域以其他方法实现。
此外,在一种实现中,这样的计算可被在该对象区域中包含的预定数量的位置处执行以加速该计算,并且该预定数量的位置可由操作者根据预定准则来选择。
下文将参照图3C描述确定步骤中的处理。
在步骤S201中,基于特定结构特征的公共初始值设定该特定结构特征的最终值的确定范围。
在步骤S202中,对于该多个对象区域中的每一个,计算该对象区域对于该确定范围中的每一个值的置信值。
在步骤S203中,对于该多个对象区域中的每一个,选择该确定范围中的使得该对象区域的置信值为最大的值作为该对象区域的特定结构特征的最终值,并指定该对象区域中的在该处对象区域的置信值最大(即,在该处该特定结构特征的最终值被定位)的位置作为该对象区域的特定结构特征的最终位置。这里的该对象区域的置信值最大指得是对象区域对于确定范围中的所有值所获得的置信值集合中的最大值。
在这样的确定步骤中,在步骤S202中计算对象区域的对于特定结构特征值的置信值可被以与该估计步骤中的方式类似的方式实现,也就是说,计算该对象区域中的各位置处的对于该特定结构特征值的置信值,并且选择所计算的该对象区域中的各位置处的置信值之中的最大值作为该对象区域的对于该特定结构特征值的置信值。
可替换地,在该确定步骤中要计算的置信值也可被从该估计步骤中的置信值的计算结果中获得。例如,在确定范围小于该估计范围的情况下,也就是说,确定范围的端点位置被包含在该估计范围中的情况下,在确定步骤中要被计算的置信值可被从估计步骤中的置信值的计算结果直接获得。
最终位置是该对象区域的对应于该特定结构特征的最终值的位置,并且如上所述,通常是该对象区域中的在该处定位该特定结构特征的位置,并且可以是该对象区域中的依赖于该对象区域的形状的特定位置。例如,当该对象区域是圆形或者准圆形区域时,该最终位置通常是该对象区域的圆心,并且当该对象区域是矩形或线形区域时,该最终位置通常是其宽度或长度的端点位置或者是这样的矩形或者线形区域的其宽度或长度方向上的中心位置。
通过上述过程,可准确地检测图像中的对象区域。
通常,对于根据本发明的基本实施例的方法的输入图像,在公共初始值的估计进行之前,输入图像中的对象区域的初始形状以及尺度可利用本领域公知的技术被粗略检测,因此根据基本实施例的方法中的过程可基于粗略检测结果被执行。粗略检测可被以本领域公知的多种技术来执行,因此将不再详细描述。
为了进一步提高对象区域检测的精确度,在估计步骤中的过程被执行之前,输入图像中的对象区域可被适当地校正。
通常,输入图像中可存在多种缺陷。其中,在对象区域中可出现作为对象区域中的最亮点的反光点,并且将不可避免地破坏该对象区域的结构并且不利地影响对象区域检测的精确度。因此,为了进一步提高检测精确度,输入图像中出现的反光点可被首先校正。
图像中的反光点可被多种技术进行校正,并且常见的一种方法是校正对象区域中的反光点区域的灰度值。反光点区域是输入图像中的包含反光点的区域,并且其大小通常根据精确度和计算效率之间的折中的考虑来设置。例如,由于反光点作为输入图像中的最亮点在输入图像中出现,因此具有前5%的亮度密度(brightness intensity)的区域将被设定为要被校正的特定区域。即使一些非反光点(例如,由于过饱和导致的亮的眼睑区域)被校正,(对于眼睛结构而言)仅造成很小的伤害或者不造成伤害。
在校正过程的一种实现中,反光点区域可被输入图像中的全局阈值填充,该全局阈值可指示某一灰度值。例如,全局阈值可被设定为对象区域的平均灰度的70%。更具体而言,反光点区域中的灰度值可被用全局阈值替代。当然,校正还可通过本领域中的任何其它技术来实现。
如上所述,对象区域的置信值的计算可针对该对象区域中的每一位置执行。因此,对象区域中包含的将执行置信值计算的像素位置的数量对于对象区域的置信值的计算速度具有很大影响。
为了加速对象区域的置信值的计算而不对计算精度造成不利影响,该方法可包括预处理步骤,该预处理步骤用于预处理该对象区域以减小将执行置信值的计算的区域。
在预处理步骤中,多个对象区域中的每一个被处理以便获得对象区域中的如下这样的局部区域,最终位置可能在该局部区域中出现。在一种实现中,该局部区域可依赖于对象区域的灰度图像的灰度密度(grey intensity)分布被确定。例如,这样的灰度图像中的具有预定大小和形状的并且具有最低灰度密度的区域将被确定为局部区域。
当然,该预处理可针对二值化图像执行,并且在这样的二值化图像中,局部区域将依赖于对象区域的二值化图像的黑像素密度分布被确定。例如,这样的二值化图像中的具有预定大小和形状的具有最大数量的黑像素的区域将被确定为局部区域。
图4是示出根据本发明的基本实施例的对象区域检测设备的框图。该设备400可包括被配置用于估计多个对象区域的特定结构特征的公共初始值的估计单元401,以及被配置用于基于所估计的该多个对象区域的特定结构特征的公共初始值,单独地确定该多个对象区域中的每一个的特定结构特征的最终值及其最终位置的确定单元402,其中该最终位置是对象区域中的与该确定的最终值对应的位置。
该估计单元401可包括被配置用于设定该多个对象区域的特定结构特征的公共初始值的估计范围的单元4011,被配置用于对于该估计范围中的每一个值,计算该多个对象区域中的每一个的置信值,并且对所计算的该多个对象区域中的各对象区域的置信值进行求和的单元4012,以及被配置用于选择该估计范围中的与所计算的该多个对象区域中的各对象区域的置信值之和之中的最大相对应的值作为该多个对象区域的特定结构特征的公共初始值的单元4013。
该确定单元402可包括被配置用于基于特定结构特征的公共初始值设定该特定结构特征的最终值的确定范围的单元4021,被配置用于对于该多个对象区域中的每一个,计算该对象区域对于该确定范围中的每一个值的置信值的单元4022,以及被配置用于对于该多个对象区域中的每一个,选择该确定范围中的使得该对象区域的置信值为最大的值作为该对象区域的特定结构特征的最终值,并指定在该处该对象区域的置信值为最大的该对象区域中的位置作为该对象区域的特定结构特征的最终位置的单元4023。
[良好效果]
如上所述,本实施例中所提出的方案不仅考虑了对象类别的多个区域中的相似性,而且还单独考虑了图像中的多个区域中的每一个的实际位置,因此可简单地解决这些通常的方法的问题并且实现精确的对象检测。
此外,用于校正图像中的缺陷的校正处理以及用于获得局部区域的预处理可分别进一步提高检测精度并且使计算加速。当然,这样两个处理可被组合以实现检测精度的提高以及计算加速两者。
下文,将描述本发明的基本实施例的针对不同对象类别的两个示例以有助于本发明的方案的透彻理解。应注意,这两个示例仅仅是说明性的,并且本发明的方案不因此受限,而是可应用于任何其它类型的具有相似特定结构特征的目标区域。
[示例1]
下文将以人眼瞳孔为例来描述本发明的对象检测的方法。
在这样的情况下,要被检测的图像中的多个对象区域可包括人脸中的两个眼睛瞳孔,并且实际上要检测眼睛瞳孔区域的圆形边界。由于人眼瞳孔通常为圆形形状,因此对象区域被确定为圆形形状,该对象区域的特定结构特征为该对象区域的圆形边界所限定的圆的半径,并且对应于该特定结构特征的对象区域的位置为该对象区域的圆形边界所限定的圆的圆心。
下文将参照人眼瞳孔的情况下来描述上述基本实施例的方法中的过程。应注意,具有圆形形状的任何其它类型的对象(诸如眼镜等)可被类似地处理和检测。
在这样的人眼瞳孔检测情况下,首先估计两个眼睛瞳孔区域中的每一个的半径的公共初始值,然后基于所估计的该两个眼睛瞳孔区域中的半径的公共初始值来单独地确定该眼睛瞳孔区域中的每一个的半径的最终值以及对应的中心。
应注意,当在图像中存在多张人脸时,根据本发明的人眼瞳孔检测过程将对于图像中的每张人脸中的两个眼睛瞳孔执行。
下文将参照图5A和5B描述用于眼睛瞳孔区域的半径的公共初始值估计的过程,其中图5A是输入图像中的两个眼睛瞳孔区域的示意图,并且图5B示意性地示出对于两个眼睛瞳孔区域的估计过程。
在估计过程中,首先例如根据图像中的两个眼睛的相对位置关系来设定眼睛瞳孔区域的半径的估计范围。
估计范围可被表示为[rmin,rmax],其中rmin和rmax与两个眼睛的位置之间的距离de有关,并且如图6所示,距离 其中(xleft,yleft),(xright,yright)指示左眼和右眼在x-y平面内的位置的二维坐标。在一种实现中,该范围可被设定为rmin=de/8和rmax=de/4。
距离de以及眼睛瞳孔区域的半径的公共初始值的估计范围通常可基于粗略检测的眼睛位置被设定。
如上所述,输入图像中的对象区域通常可被首先粗略地定位。对于图像中的眼睛瞳孔区域,图像中的人脸可被使用人脸检测器检测,然后可从人脸的边界框(boundingbox)来估计人脸的初始形状和尺度。在一种实现中,可使用如Huang C,Ai H Z,Wu B,Lao SH.“Boosting nested cascade detector for multi-view face detection”,Proceedings of the 17th International Conference on PatternRecognition.Washington D.C.,USA:IEEE.2004.pp:415-418公开的基于增强型嵌套的级联分类器(boosting nested cascade detector)的多视角人脸检测器(multi-view facedetector),并且人脸检测器可提供人脸位置。
因此,图像中的两个眼睛位置可基于人脸位置被粗略地检测,并且眼睛位置可以是被粗略检测的眼睛的中心,如图5A所示。在一种实现中,两个眼睛的区域大小以及相对位置可经由Tim Cootes,“An Introduction to Active Shape Models”,Image Processingand Analysis,2000中所描述的人脸对准(face alignment)(诸如描述的主动形状模型(Active Shape Model,ASM))获得。因此,可从粗略检测的两个眼睛的相对位置来确定距离de,由此可设定眼睛瞳孔区域的半径的公共初始值的估计范围。
然后,如图5B所示,单独地计算该眼睛瞳孔区域中的每一个的对于估计范围中的每个半径值的置信值。如基本实施例中所示,眼睛瞳孔区域对于一个半径值的置信值也可在该眼睛瞳孔区域中的每一位置处被计算,并且该眼睛瞳孔区域中的所有位置处的对于该半径值的置信值之中的最大值被选择为该眼睛瞳孔区域的对于该半径值的置信值。
对于针对每一半径值的置信值,可使用已知的并且被透彻研究过的由Daugman提出的虹膜定位算法。如M.Shamsi,P.Bt Saad,S.Bt Ibrahim,and A.R.Kenari,“FastAlgorithm for Iris Localization Using Daugman Circular Integro DifferentialOperator”in Proc.Soft Computing and Pattern Recognition(SOCPAR),2009公开的,Daugman使用如式(1)中所示的积分微分算子来找到虹膜的圆形边界:
其中,I(x,y)代表位置(x,y)处的图像强度(image intensity),Gσ(r)是具有高斯尺度(Gaussian scale)σ的平滑函数,并且*代表卷积。该算子根据沿中心坐标(x0,y0)和半径r的圆弧ds的增加的归一化的I(x,y)的轮廓积分的半径r搜索模糊化偏导数(blurredpartial derivative)中的最大值。为了计算积分微分算子,需要计算虹膜边缘的圆形轮廓(circle contour)上的内侧像素值和外侧像素值之间的差值。在本发明中,将该差值取做置信值。
考虑到从计算开销的观点来计算圆形轮廓上的所有像素的该差值很明显是不可能的,可调整圆形采样(circle sample)的上限和下限。圆形采样估计了对于计算积分微分算子在圆形轮廓上应该访问多少个点。其还对应于圆形轮廓周围的角划分(angledivision)。在一种实现中,可从被粗略定位的初始瞳孔中心中选择少于10个像素的相邻点来计算积分微分算子,这样可大大缩窄瞳孔中心的搜索范围并且加速瞳孔定位。应注意,这样的操作主要旨在减少计算开销,而并非是必要的。
此外,如Zhifei Xu and Pengfei Shi,“A Robust and Accurate Method forPupil Features Extraction”,ICPR,2006中所公开的,瞳孔的上部部分和下部部分通常被眼睑和眼睫毛遮蔽。在本发明的一种实现中,这些部分没有被抛弃,而是对于这些部分施加较小的权重值。这是因为总边缘点的数量小并且这些部分的边缘点有时具有重要的用于瞳孔参数检测的信息。被加权的值如式(2)被定义:
其中θ指示正被确定的眼睛瞳孔的当前圆周上的点的角度。
在式(2)中,瞳孔的下部部分的加权值大于上部部分的加权值,这是因为与瞳孔的下部部分相比,上部部分被眼睑和眼睫毛更频繁地遮蔽。此外,通过考虑被眼睑和眼睫毛遮蔽的可能性,加权值相对于θ线性减小。
通过加权算子,可提高求解瞳孔的边界的梯度信息的精确性,因此也可提高置信值的精确性。
但是,在眼睛倾斜时每个边缘点的加权值改变。这仍可能导致置信值不精确。因此,为了进一步提高置信值的精确性,需要提前找到旋转角度(即,头倾斜角)。
基于通过人脸对准所获得的每个眼睛特征点的坐标,左眼和右眼的中心坐标可被获得。相应地可获得旋转角θr,如图7所示。一旦旋转角θr被获得,则修正后的角度等于mod(θ_θr+360,360),其中θ指示正被确定的眼睛瞳孔的当前圆周上的点的角度。然后,可利用上述等式(2)和修正后的角度来修正该加权值。
因此,将如上所述地获得图像中的两个眼睛瞳孔区域的置信值。
接下来,将如以下等式那样将两个眼睛瞳孔区域的对于相同半径值ri的置信值求和:
Score(ri)=Score Left(ri)+Score Right(ri)
其中,Score Left(ri)和Score Right(ri)分别指示左眼瞳孔区域和右眼瞳孔区域对于相同半径值ri的置信值。
因此,估计范围中的与最大和值Score(ri)对应的半径ri可被选择作为这两个眼睛瞳孔区域的半径的公共初始值,并且眼睛瞳孔区域的与该半径对应的中心也可被确定,表示为PL(xi,yi)和PR(xi,yi),分别指示左眼瞳孔和右眼瞳孔的中心。
下文将参照图5C描述确定两个眼睛瞳孔区域的半径的最终值以及它们相应的位置的过程。
在此过程中,基于所计算的两个眼睛瞳孔区域的半径的公共初始值,可单独地确定各眼睛瞳孔区域中的半径的最终值以及其相应的中心。
确定过程中所使用的确定范围基于所计算的公共初始值被设定,并且通常可表示为[R-Δr,R+Δr],其中R是所计算的公共初始值,并Δr可在考虑了精确度和效率的情况下被设定并且通常与R相关。在一种实现中,Δr可被设定为R/5。
然后,对于确定范围[R-Δr,R+Δr]中的每个半径值,可单独计算两个眼睛瞳孔区域中的每一个的置信值,并且对于两个眼睛瞳孔区域中的每一个,确定范围中的使得其置信值最大的半径值将是该眼睛瞳孔区域的半径的最终值,也就是说,眼睛瞳孔区域的最佳半径,并且与该半径的最终值对应的中心将是眼睛瞳孔区域的圆心。应注意在这样的确定过程中,对于该范围[R-Δr,R+Δr]的左眼和右眼各自的最大置信值(即积分微分值)DLeftmax和DRightmax被单独计算。
特别地,对于眼睛瞳孔区域的针对确定范围中的半径值的置信值的计算,常用的方式是以与估计步骤中类似的方式针对确定范围中的半径值计算该眼睛瞳孔区域的置信值,也就是说,计算该眼睛瞳孔区域中的每一个位置处的对于该半径值的置信值,并且选择所有位置处的置信值之中的最大值作为该眼睛瞳孔区域对于该半径值的置信值。
可替代地,如同估计过程中的计算那样,可对于眼睛瞳孔区域中的预定数量的位置执行该计算。
可替代地,可基于在上述估计过程中所确定的中心执行该计算,也就是说,在确定过程的计算中,在上述估计过程中确定的中心可保持不变,并且仅在确定范围中改变半径值。
此外,在另一种实现中,在确定范围通常被包含在估计范围的情况下,置信值结果也可从估计步骤中所获得的计算结果中直接获得,从而进一步减少计算开销。
通过上述过程,对应于图像中的瞳孔的边界的圆形的半径和中心将被精确地确定,使得该图像中的眼睛瞳孔区域可被精确地确定,如图5D所示。
此外,如上所述,为了进一步提高检测精度,图像中的眼睛瞳孔区域可针对其中的反光点被预先校正,如图8A至8B所示。
一般来说,在眼睛图像中可出现反光点,在用户佩戴眼镜时尤其如此,并且反光点可表现为眼睛图像中的最亮点,如图8A所示。
在此示例的实现中,眼睛图像中的具有前5%的亮度密度的区域将被选择作为对于准确性和计算效率之间的折中要被校正的适应性区域。然后,使用眼睛图像中的指示某一灰度值的全局阈值来填充这些区域。该全局阈值可被设定为平均灰度的70%。反光点去除的结果如图8B所示。
此外,两个眼睛瞳孔区域可被预先处理以减小计算开销并且加速计算。
受到积分图像的启发,在此示例中使用矩形滑动窗来搜索瞳孔中心。此矩形滑动窗的高度和宽度可分别被设定为(de/8+1)和(de/8+3)。眼睛瞳孔图像中的滑动窗口下的具有最低灰度密度的区域将被选择作为在其中可能出现最终位置的局部区域,并且滑动窗口下的具有最低灰度密度的区域的中心被估计为大致的瞳孔中心,如图9中的左侧部分所示。
如上所述的预处理针对灰度图像被描述,并且局部区域的选择是基于灰度密度的。但是,预处理的实现并不因此受限,其还可针对二值化图像,并且在这样的情况下,局部区域的选择是基于黑像素密度,也就是说,滑动窗口下的具有最大数量的黑像素的区域将为该局部区域,并且其中心将被估计为大致瞳孔中心,如图9中的右侧部分所示。
因此,眼睛瞳孔区域的置信值的计算将被在这样的局部区域中进行,因此计算开销将被降低。在一种实现中,置信值的计算可对于这样的局部区域中的每一个位置进行。在另一种实现中,置信值的计算甚至可基于这样的局部区域的估计中心进行,以便进一步减小计算开销。
该滑动窗可以是依赖于图像的其它形状,例如圆形滑动窗。出于算法优化考虑,与圆形滑动窗相比,基于矩形滑动窗,积分图像搜索过程的可大大加速。首先,不需要计算眼睛图像中的每一个像素的积分。然后,对于矩形滑动窗下面的任何矩形区域,仅四个顶点的积分值需要被用于确定矩形区域的灰度值的总和。
下文,将参照图10的流程图描述根据本发明的眼睛瞳孔区域检测的优选实现,以便有助于眼睛瞳孔区域检测的透彻理解。请注意,根据本发明的眼睛瞳孔区域检测过程不因此受限,并且这样的流程图中的一些步骤(诸如反光点校正和预处理步骤)也可被省略而不会不利地影响根据本发明的眼睛瞳孔区域检测过程的基本有利效果。
在步骤S1001中,图像中的两个眼睛瞳孔区域如上所述地针对反光点被校正。
在步骤S1002中,这两个眼睛瞳孔区域如上所述地分别被预处理以找到它们各自的局部区域。
在步骤S1003中,以与上文所述的方式类似的方式来估计两个眼睛瞳孔区域的半径的公共初始值。
更具体而言,设定两个眼睛瞳孔区域的半径的估计范围,然后对于该估计范围中的每一个值,计算两个眼睛瞳孔区域中的每一个的在其各自的局部区域中的置信值,估计范围中的与所计算的各眼睛瞳孔区域的在其各自的局部区域中的置信值之和之中的最大值对应的值被选择作为这两个眼睛瞳孔区域的半径的公共初始值。
在步骤S1004中,基于所估计的公共初始值,以与上述方式相似的方式单独确定两个眼睛瞳孔区域中的每一个的半径的最终值以及其中心。
更具体而言,基于所估计的半径的公共初始值设定两个眼睛瞳孔区域中的每一个的对于最终半径的确定范围,然后对于两个眼睛瞳孔区域中的每一个,该确定范围中的使得该眼睛瞳孔区域在其相应的局部区域中的置信值最大的值被选择作为半径的最终值,并且与该半径的最终值对应的该眼睛瞳孔区域的中心被指定为该眼睛瞳孔区域的最终中心。
图11是示出根据本发明的眼睛瞳孔区域检测设备的框图。
设备1100可包括被配置用于估计两个眼睛瞳孔区域的半径的公共初始值的估计单元1101,以及被配置用于基于所估计的公共初始值,对于两个眼睛瞳孔区域中的每一个,单独地确定该眼睛瞳孔区域的半径的最终值及该眼睛瞳孔区域的最终中心的确定单元1102。
该估计单元1101可包括被配置用于设定该两个眼睛瞳孔区域的半径的公共初始值的估计范围的单元,被配置用于对于该估计范围中的每一个值,计算该两个眼睛瞳孔区域中的每一个的置信值,并且对所计算的该两个眼睛瞳孔区域中的各眼睛瞳孔区域的置信值进行求和的单元,以及被配置用于选择该估计范围中的与所计算的该两个眼睛瞳孔区域中的各眼睛瞳孔区域的置信值之和之中的最大值相对应的值作为公共初始值的单元。
该确定单元1102可包括被配置用于基于公共初始值设定该半径的最终值的确定范围的单元,被配置用于对于两个眼睛瞳孔区域中的每一个,计算该眼睛瞳孔区域对于该确定范围中的每一个值的置信值的单元,以及被配置用于对于两个眼睛瞳孔区域中的每一个,选择该确定范围中的使得该眼睛瞳孔区域的置信值为最大的值作为该眼睛瞳孔区域的半径的最终值,并指定该眼睛瞳孔区域中的在该处该眼睛瞳孔区域的置信值为最大的位置作为该眼睛瞳孔区域的最终中心的单元。
该设备1100可进一步包括被配置用于针对两个眼睛瞳孔区域中的每一个执行反光点校正的眼睛瞳孔区域校正单元1103,以及被配置用于对于两个眼睛瞳孔区域中的每一个,预处理该眼睛瞳孔区域以获得该眼睛瞳孔区域中的可能出现最终中心的局部区域的眼睛瞳孔区域预处理单元1104。
图12示出了图像中的眼睛瞳孔区域的一些检测结果,其中清楚可见,所检测的瞳孔的圆形边界精确地与瞳孔的轮廓相一致并且瞳孔的圆形边界的大小基本相同。
[良好效果]
本发明的发明人已经测试了在包括超过5000张图像的人脸数据集上基于单个眼睛的人眼瞳孔检测方案(即本领域中的常用技术)的性能与根据本发明的方案的性能,其中,使用错误检测率来评估该方法,并且超过5个像素(即,所检测的位置与真实位置之间的距离)的结果将被认为是错误检测结果。基于单个眼睛的瞳孔检测方案的错误检测图像的数量为217。表1给出了本发明的方案与基于单个眼睛的瞳孔检测方案在该217个图像上的性能比较。从表1可见,本发明实现了包含瞳孔中心与半径的瞳孔检测的性能的显著提高。
表1
图13A和13B可视地示出通过本领域中的常用技术与根据本发明的方法所获得的检测结果之间的比较,其中图13A示出说明通过本领域中的常用技术获得的检测结果的示图,并且图13B示出说明根据本发明的瞳孔检测方法获得的检测结果的示图。很明显,通过本领域中的常用技术获得的瞳孔的圆形边界通常与相应瞳孔的轮廓不一致,甚至不能被正确地定位,并且两个瞳孔的圆形边界的大小彼此不同,而这两个瞳孔通常应相同。另一方面,通过本发明获得的瞳孔的圆形边界可被正确地定位,并且与相应瞳孔的轮廓一致,并且两个瞳孔的圆形边界的大小几乎相同。因此,本发明显著改进了瞳孔检测。
[示例2]
下文将以人的拳头为例来描述本发明的对象检测方法。
在这样的情况下,要被检测的图像中的多个对象区域是拳头图像中的手指,并且实际上要检测手指的宽度。由于拳头可被抽象地表现为矩形或线形形状,对象区域的特定结构特征是由手指的边界(也就是手指之间的缝隙)限定的手指的宽度,并且该对象区域的与该特定结构特征对应的位置是代表该对象区域的宽度的线的端点,或者该线的在该对象区域的宽度方向上的中点。
下文,将参照拳头手指的情况来描述检测方法中的过程。应注意,具有矩形或线形形状的任何其它类型的对象(诸如腿等)也可被类似地处理和检测。
在这样的拳头检测情况下,将首先估计拳头图像中所包含的手指区域中的每一个的宽度的公共初始值,然后基于所估计的宽度的公共初始值,单独地确定拳头图像中所包含的手指区域中的每一个的宽度的最终值以及代表该宽度的线的对应端点。
在估计过程中,首先对于如图14所示的具有一对拳头的输入图像来设定手指的宽度的估计范围,其中该宽度可以是两个相邻手指之间的缝隙的距离。估计范围[dmin,dmax]可根据拳头图像的大小被设定(诸如两个拳头中的每一个的高度Fh;宽度Fw)。在此示例中,dmin=Fw/6,和dmax=Fw/3。应注意,拳头图像的大小可被预先粗略确定。
接下来,将从该估计范围中选择拳头中的手指的距离的公共初始值。该选择也可基于对于该估计范围的图像中的手指区域的置信值的计算,并且这样的置信值的计算可使用对于每一拳头的霍夫变换。
更具体而言,可通过肤色分割(skin segmentation)对图像进行预处理以获得拳头区域。在此示例中,如A.K.Jain,“Face Detection inColor Images”,PAMI,2002中所公开的,YCrCb颜色空间被用于分割两个拳头区域。
然后,通过使用用于二值化图像的索贝尔(Sobel)算子来执行边缘检测。
此外,所有背景信息可被去除,并且如图15所示,仅相邻手指之间的缝隙的梯度信息被获得。
接下来,对于所获得的梯度信息,执行霍夫变换以便计算对于估计范围中的每一个值的置信值。
图15中的线可被利用式(3)在极坐标空间中表示。参数θ和ρ分别为该线的角度以及该线距原点的距离。
ρ=x·cosθ+y·sinθ (3)
假定一个像素与八个相邻像素之间的关系如下所示,其中A5=F(x,y),A1=f(x-1,y-1),A2=f(x,y-1),……
A1 | A2 | A3 |
A4 | A5 | A6 |
A7 | A8 | A9 |
根据索贝尔算子,梯度矢量由式(4)表示。
Gx=(A7+2A8+A9)-(A1+2A2+A3)
Gy=(A3+2A6+A9)-(A1+2A4+A7) (4)
因此,梯度信息的方向角可被如下地计算:
由此,从线至原点的距离可通过使用式(3)和(5)被确定。假定ρ1,ρ2,ρ3分别代表从线l1,l2,l3的集合至原点的距离。如图16A和16B所示,图16A中的平行线l1,l2,l3上的A、B、C对应于图16B中的点(ρ1,θ),(ρ2,θ),和(ρ3,θ)。
如图17所示,霍夫变换将极坐标空间再划分成累加单元(accumulator unit),其中(ρmin,ρmax)和(θmin,θmax)是两个参数的预期范围。
累加单元中的每个单元描述了极坐标空间中的一个离散点。可通过使图像中的每个特征点变为对于θ的每个离散值来计算对应的ρ。当所计算的值(即ρ)落在一个网格(grid)内时,累加单元对于极坐标空间执行加1的运算。这使得在图像中执行线提取作为通过累加计数来寻找最大值。
对于两个拳头中的参数d,需要针对两个拳头中的每一个单独地找到对于相同di的最大累加值,并且缝隙上的点的位置(例如,A1,B1,C1,A2…)被视作对应于与最大累加值对应的距离的位置,如图18所示。最大累加值被视作拳头图像的置信值。对于每个di,可获得两个拳头的最大累加值之和。对应于该最大和值的距离可被表示为D,即对于距离d的公共初始值。
下文将描述拳头检测的确定过程。在该确定过程中,可基于该公共初始值单独地确定每个拳头图像中的距离的最终值及其对应的位置。
确定范围被设为[D-Δd,D+Δd],其中在此示例中Δd=D/5。然后,对于每个拳头图像,可对于上述确定范围中的每个距离值计算拳头图像中的累加值,并且与最大的累加值对应的距离值将被确定为最终距离值,并且对应于该最终距离值的位置将是最终位置。如图19所示,左侧拳头图像和右侧拳头图像的最终距离dLeft和dRight被单独地确定,并且每个手指的与这样的最终距离对应的最终位置(例如,AL,BL,CL,AR…)将被确定。
该确定过程中的累加值的计算可被以与估计过程中的方式类似的方式执行。可替换地,该确定过程中的累加值可被从估计过程中获得的计算结果直接获得。
通过此示例中的检测,每个拳头的距离以及对应的位置可被更精确地获得。
下文将参照图20的流程图描述根据本发明的拳头检测的优选实现,以便有助于本发明的拳头检测的透彻理解。应注意,根据本发明的拳头检测过程并不因此受限。
在步骤S2001中,设定拳头图像中所包含的手指区域的宽度的估计范围,并且以与上文所述方式类似的方式估计拳头图像中包含的手指区域的宽度的公共初始值。
在步骤S2002中,基于该估计的公共初始值以与上文所述方式类似的方式单独地确定每个手指区域的宽度的最终值及其端点。
图21给出了通过此示例所实现的一些结果,并且通过根据本发明的方法确定的手指的宽度精确地与拳头图像中的手指图像一致。
[工业应用性]
本发明可用于多种应用。例如,本发明可应用于检测和跟踪图像中的具有相似结构特征的多个对象区域的运动。
更具体而言,在一种实现中,将利用根据本发明的方法来检测多个对象区域,并且可利用多个对象区域中的每一个的特定结构特征的最终值以及对应位置来确定该多个对象区域的运动方向,从而可检测并跟踪该多个对象区域的运动。因此,可获得具有该多个对象区域的运动信息的图像。
一个示例是自动检测和跟踪人脸图像中的注视(gaze)。首先,可通过根据本发明的方法精确地检测人脸图像中的瞳孔。然后,可根据瞳孔的中心来确定视线和头部倾斜角度以定位注视方向,从而可实现注视检测和跟踪。因此,可获得具有注视信息的图像。
另外,可采用多种方式来实行本发明的方法和系统。例如,可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的,并且除非另外具体说明,否则本发明的方法的步骤不限于上文具体描述的顺序。此外,在一些实施例中,本发明还可具体化为记录介质中记录的程序,包括用于实施根据本发明的方法的机器可读指令。因此,本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。
虽然已经参考示例实施例描述了本发明,应当理解,本发明不限于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释,以便包含所有这些修改以及等同结构和功能。
Claims (24)
1.一种检测图像中的多个对象区域的方法,所述多个对象区域具有相似的特定结构特征,该方法包括:
估计步骤,用于估计所述多个对象区域的特定结构特征的公共初始值;以及
确定步骤,用于基于所估计的公共初始值,对于所述多个对象区域中的每一个单独地确定该对象区域的特定结构特征的最终值及该特定结构特征的最终位置,
其中,所述估计步骤包括:
设定所述多个对象区域的特定结构特征的公共初始值的估计范围;
对于所述估计范围中的每一个值,计算所述多个对象区域中的每一个的置信值,并且对所计算的所述多个对象区域中的各对象区域的置信值求和;以及
选择所述估计范围中的与所计算的所述多个对象区域中的各对象区域的置信值之和之中的最大值相对应的值作为所述公共初始值。
2.根据权利要求1所述的方法,其中,所述确定步骤包括:
基于所述公共初始值设定所述特定结构特征的最终值的确定范围;
对于所述多个对象区域中的每一个,计算该对象区域对于所述确定范围中的每一个值的置信值;以及
对于所述多个对象区域中的每一个,选择所述确定范围中的使得该对象区域的置信值最大的值作为该对象区域的特定结构特征的最终值,并指定该对象区域中的该对象区域的置信值最大的位置作为该对象区域的特定结构特征的最终位置。
3.根据权利要求1所述的方法,其中,对象区域的特定结构特征为限定对象区域的形状的结构特征。
4.根据权利要求1或2所述的方法,其中,计算对象区域对于一个特定结构特征值的置信值包括:
在该对象区域中的每一位置处,计算该对象区域对于该特定结构特征值的置信值,并且
选择在该对象区域中的所有位置处的该对象区域的置信值之中的最大值作为该对象区域对于该特定结构特征值的置信值。
5.根据权利要求1所述的方法,进一步包括对象区域预处理步骤,用于对于所述多个对象区域中的每一个,预先处理该对象区域以获得该对象区域中的在其中可能出现所述最终位置的局部区域;并且
其中,针对所述局部区域执行所述估计步骤和所述确定步骤。
6.一种用于检测人脸图像中的两个眼睛瞳孔区域的方法,所述两个眼睛瞳孔区域具有相似的半径,所述方法包括:
估计步骤,用于估计所述两个眼睛瞳孔区域的半径的公共初始值;以及
确定步骤,用于基于所估计的公共初始值,对于所述两个眼睛瞳孔区域中的每一个单独地确定该眼睛瞳孔区域的半径的最终值以及该眼睛瞳孔区域的最终中心,
其中,所述估计步骤包括:
设定所述两个眼睛瞳孔区域的半径的公共初始值的估计范围;
对于所述估计范围中的每一个值,计算所述两个眼睛瞳孔区域中的每一个的置信值,并且对所计算的所述两个眼睛瞳孔区域中的各眼睛瞳孔区域的置信值求和;以及
选择所述估计范围中的与所计算的所述两个眼睛瞳孔区域中的各眼睛瞳孔区域的置信值之和之中的最大值对应的值作为所述公共初始值。
7.根据权利要求6所述的方法,其中,所述确定步骤包括:
基于所述公共初始值设定所述半径的最终值的确定范围;
对于所述两个眼睛瞳孔区域中的每一个,计算该眼睛瞳孔区域对于所述确定范围中的每一个值的置信值;以及
对于所述两个眼睛瞳孔区域中的每一个,选择所述确定范围中的使得该眼睛瞳孔区域的置信值最大的值作为该眼睛瞳孔区域的半径的最终值,并指定该眼睛瞳孔区域中的该眼睛瞳孔区域的置信值最大的位置作为所述眼睛瞳孔区域的最终中心。
8.根据权利要求6或7所述的方法,其中,计算眼睛瞳孔区域对于一个半径值的置信值包括:
在该眼睛瞳孔区域中的每一位置处,计算该眼睛瞳孔区域对于该半径值的置信值,并且
选择该眼睛瞳孔区域中的所有位置处的该眼睛瞳孔区域的置信值之中的最大值作为该眼睛瞳孔区域对于该半径值的置信值。
9.根据权利要求6所述的方法,进一步包括预处理步骤,用于对于所述两个眼睛瞳孔区域中的每一个,预先处理该眼睛瞳孔区域以获得该眼睛瞳孔区域中的在其中可能出现该眼睛瞳孔区域的最终中心的局部区域;并且
其中,针对所述局部区域执行所述估计步骤和所述确定步骤。
10.根据权利要求9所述的方法,其中,所述预处理步骤进一步包括:对于所述两个眼睛瞳孔区域中的每一个,
利用具有预定大小的矩形滑动窗来扫描该眼睛瞳孔区域,并且
指定该眼睛瞳孔区域中的位于所述矩形滑动窗下的具有最小灰度密度的区域为所述局部区域。
11.根据权利要求10所述的方法,其中,所述预定大小与该眼睛瞳孔区域的大小相关。
12.根据权利要求6所述的方法,其中,所述估计范围基于所述两个眼睛瞳孔区域之间的距离被确定。
13.一种检测图像中的多个对象区域的设备,所述多个对象区域具有相似的特定结构特征,该设备包括:
估计单元,被配置为估计所述多个对象区域的特定结构特征的公共初始值;以及
确定单元,被配置为基于所估计的公共初始值,对于所述多个对象区域中的每一个单独地确定该对象区域的特定结构特征的最终值及该特定结构特征的最终位置,
其中,所述估计单元包括:
被配置用于设定所述多个对象区域的特定结构特征的公共初始值的估计范围的单元;
被配置用于对于所述估计范围中的每一个值,计算所述多个对象区域中的每一个的置信值,并且对所计算的所述多个对象区域中的各对象区域的置信值求和的单元;以及
被配置用于选择所述估计范围中的与所计算的所述多个对象区域中的各对象区域的置信值之和之中的最大值相对应的值作为所述公共初始值的单元。
14.根据权利要求13所述的设备,其中,所述确定单元包括:
被配置用于基于所述公共初始值设定所述特定结构特征的最终值的确定范围的单元;
被配置用于对于所述多个对象区域中的每一个,计算该对象区域对于所述确定范围中的每一个值的置信值的单元;以及
被配置用于对于所述多个对象区域中的每一个,选择所述确定范围中的使得该对象区域的置信值最大的值作为该对象区域的特定结构特征的最终值,并指定该对象区域中的该对象区域的置信值最大的位置作为该对象区域的特定结构特征的最终位置的单元。
15.根据权利要求13所述的设备,其中,对象区域的特定结构特征为限定对象区域的形状的结构特征。
16.根据权利要求13或14所述的设备,其中,计算对象区域对于一个特定结构特征值的置信值包括:
在该对象区域中的每一位置处,计算该对象区域对于该特定结构特征值的置信值,并且
选择在该对象区域中的所有位置处的该对象区域的置信值之中的最大值作为该对象区域对于该特定结构特征值的置信值。
17.根据权利要求13所述的设备,进一步包括对象区域预处理单元,被配置为对于所述多个对象区域中的每一个,预先处理该对象区域以获得该对象区域中的在其中可能出现所述最终位置的局部区域;并且
其中,所述估计单元和所述确定单元针对所述局部区域执行操作。
18.一种用于检测人脸图像中的两个眼睛瞳孔区域的设备,所述两个眼睛瞳孔区域具有相似的半径,所述设备包括:
估计单元,被配置为估计所述两个眼睛瞳孔区域的半径的公共初始值;以及
确定单元,被配置为基于所估计的公共初始值,对于所述两个眼睛瞳孔区域中的每一个单独地确定该眼睛瞳孔区域的半径的最终值以及该眼睛瞳孔区域的最终中心,
其中,所述估计单元包括:
被配置用于设定所述两个眼睛瞳孔区域的半径的公共初始值的估计范围的单元;
被配置用于对于所述估计范围中的每一个值,计算所述两个眼睛瞳孔区域中的每一个的置信值,并且对所计算的所述两个眼睛瞳孔区域中的各眼睛瞳孔区域的置信值求和的单元;以及
被配置用于选择所述估计范围中的与所计算的所述两个眼睛瞳孔区域中的各眼睛瞳孔区域的置信值之和之中的最大值对应的值作为所述公共初始值的单元。
19.根据权利要求18所述的设备,其中,所述确定单元包括:
被配置用于基于所述公共初始值设定所述半径的最终值的确定范围的单元;
被配置用于对于所述两个眼睛瞳孔区域中的每一个,计算该眼睛瞳孔区域对于所述确定范围中的每一个值的置信值的单元;以及
被配置用于对于所述两个眼睛瞳孔区域中的每一个,选择所述确定范围中的使得该眼睛瞳孔区域的置信值最大的值作为该眼睛瞳孔区域的半径的最终值,并指定该眼睛瞳孔区域中的该眼睛瞳孔区域的置信值最大的位置作为该眼睛瞳孔区域的最终中心的单元。
20.根据权利要求18或19所述的设备,其中,计算眼睛瞳孔区域对于一个半径值的置信值包括:
在该眼睛瞳孔区域中的每一位置处,计算该眼睛瞳孔区域对于该半径值的置信值,并且
选择该眼睛瞳孔区域中的所有位置处的该眼睛瞳孔区域的置信值之中的最大值作为该眼睛瞳孔区域对于该半径值的置信值。
21.根据权利要求18所述的设备,进一步包括预处理单元,被配置为对于所述两个眼睛瞳孔区域中的每一个,预先处理该眼睛瞳孔区域以获得该眼睛瞳孔区域中的在其中可能出现该眼睛瞳孔区域的最终中心的局部区域;并且
其中,所述估计单元和所述确定单元针对所述局部区域执行操作。
22.根据权利要求21所述的设备,其中,所述预处理单元进一步包括被配置用于对于所述两个眼睛瞳孔区域中的每一个,
利用具有预定大小的矩形滑动窗来扫描该眼睛瞳孔区域,并且
指定该眼睛瞳孔区域中的位于所述矩形滑动窗下的具有最小灰度密度的区域为所述局部区域的单元。
23.根据权利要求22所述的设备,其中,所述预定大小与眼睛瞳孔区域的大小相关。
24.根据权利要求18所述的设备,其中,所述估计范围基于所述两个眼睛瞳孔区域之间的距离被确定。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210398301.5A CN103778406B (zh) | 2012-10-19 | 2012-10-19 | 对象检测方法及设备 |
US14/058,115 US9135506B2 (en) | 2012-10-19 | 2013-10-18 | Method and apparatus for object detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210398301.5A CN103778406B (zh) | 2012-10-19 | 2012-10-19 | 对象检测方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103778406A CN103778406A (zh) | 2014-05-07 |
CN103778406B true CN103778406B (zh) | 2018-03-09 |
Family
ID=50485371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210398301.5A Active CN103778406B (zh) | 2012-10-19 | 2012-10-19 | 对象检测方法及设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9135506B2 (zh) |
CN (1) | CN103778406B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10147017B2 (en) * | 2014-06-20 | 2018-12-04 | Qualcomm Incorporated | Systems and methods for obtaining structural information from a digital image |
CN104463096B (zh) * | 2014-10-30 | 2017-12-26 | 北京天诚盛业科技有限公司 | 双目虹膜图像检测方法和装置 |
CN107209345B (zh) * | 2014-12-26 | 2018-10-16 | 富士胶片株式会社 | 对焦控制装置、摄像装置、对焦控制方法及介质 |
US9830708B1 (en) | 2015-10-15 | 2017-11-28 | Snap Inc. | Image segmentation of a video stream |
US10417495B1 (en) * | 2016-08-08 | 2019-09-17 | Google Llc | Systems and methods for determining biometric information |
CN107292242B (zh) * | 2017-05-31 | 2020-07-07 | 华为技术有限公司 | 一种虹膜识别方法和终端 |
CN110046645A (zh) * | 2019-03-04 | 2019-07-23 | 三峡大学 | 一种基于主成分分析与bp神经网络的藻类水华预测方法 |
US10726631B1 (en) * | 2019-08-03 | 2020-07-28 | VIRNECT inc. | Augmented reality system and method with frame region recording and reproduction technology based on object tracking |
CN112183502B (zh) * | 2020-11-26 | 2021-02-12 | 湖北亿咖通科技有限公司 | 驾驶员的驾驶状态确定方法、计算机存储介质及电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5550928A (en) * | 1992-12-15 | 1996-08-27 | A.C. Nielsen Company | Audience measurement system and method |
TWI224287B (en) | 2003-01-23 | 2004-11-21 | Ind Tech Res Inst | Iris extraction method |
JP4983684B2 (ja) * | 2008-03-26 | 2012-07-25 | セイコーエプソン株式会社 | 画像処理装置、画像処理方法、画像処理のためのコンピュータプログラム |
JP2010033305A (ja) * | 2008-07-29 | 2010-02-12 | Hitachi Ltd | 画像情報処理方法、及び装置 |
CN101359365B (zh) * | 2008-08-07 | 2011-04-13 | 电子科技大学中山学院 | 一种基于最大类间方差和灰度信息的虹膜定位方法 |
CN101893858B (zh) * | 2010-07-15 | 2012-01-25 | 华中科技大学 | 一种用于控制用户眼睛与电子设备屏幕之间距离的方法 |
-
2012
- 2012-10-19 CN CN201210398301.5A patent/CN103778406B/zh active Active
-
2013
- 2013-10-18 US US14/058,115 patent/US9135506B2/en not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
"一种改进的虹膜定位方法";孙彩堂,周春光,刘向东,兰淑丽;《小型微型计算机系统》;20060731;第27卷(第7期);第1335-1336页第2.1、2.2节 * |
"基于眼睛特征跟踪的眼睛状态跟踪";曹倩霞,罗大庸,李顺;《计算机测量与控制》;20071231;第15卷(第12期);第1794-1797页第2.2节,图2 * |
"眼睛状态参数图像检测及其在瞌睡检测中的应用";成二康;《中国优秀硕士学位论文全文数据库信息科技辑》;20100715(第07期);第26-28页第3.1节 * |
Also Published As
Publication number | Publication date |
---|---|
US9135506B2 (en) | 2015-09-15 |
CN103778406A (zh) | 2014-05-07 |
US20140112535A1 (en) | 2014-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103778406B (zh) | 对象检测方法及设备 | |
US11775056B2 (en) | System and method using machine learning for iris tracking, measurement, and simulation | |
CN109344724B (zh) | 一种证件照自动背景替换方法、系统及服务器 | |
US10564446B2 (en) | Method, apparatus, and computer program for establishing a representation of a spectacle lens edge | |
Zheng et al. | A robust method for eye features extraction on color image | |
Chen et al. | A highly accurate and computationally efficient approach for unconstrained iris segmentation | |
JP4723834B2 (ja) | 映像に基づいたフォトリアリスティックな3次元の顔モデリング方法及び装置 | |
US7643659B2 (en) | Facial feature detection on mobile devices | |
KR100682889B1 (ko) | 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치 | |
US7953253B2 (en) | Face detection on mobile devices | |
US8682073B2 (en) | Method of pupil segmentation | |
WO2017036160A1 (zh) | 人脸识别的眼镜消除方法 | |
US8755607B2 (en) | Method of normalizing a digital image of an iris of an eye | |
KR20230150397A (ko) | 눈 포즈 측정을 사용한 눈꺼풀 형상 추정 | |
CN111524080A (zh) | 脸部皮肤特征的识别方法、终端及计算机设备 | |
EP2339507B1 (en) | Head detection and localisation method | |
US20120155726A1 (en) | method and system of determining a grade of nuclear cataract | |
WO2003081532A1 (en) | Method and apparatus for the automatic detection of facial features | |
US20120274756A1 (en) | Method of capturing image data for iris code based identification of vertebrates | |
CN106570447B (zh) | 基于灰度直方图匹配的人脸照片太阳镜自动去除方法 | |
JP2000137792A (ja) | 眼部検出装置 | |
Parikh et al. | Effective approach for iris localization in nonideal imaging conditions | |
Malek et al. | Automated optic disc detection in retinal images by applying region-based active aontour model in a variational level set formulation | |
Chen et al. | A computational efficient iris extraction approach in unconstrained environments | |
Niemeijer et al. | Automatic Detection of the Optic Disc, Fovea and Vacular Arch in Digital Color Photographs of the Retina. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |