具体实施方式
在下面的描述中,本发明的一些实施例将被描述为软件程序和/或算法流程图。本领域技术人员将容易认识到,这样的软件的等同物也能以硬件来构造。因为图像处理算法和系统是公知的,所以当前的描述将特别针对形成根据本发明的方法的一部分、或者与根据本发明的方法更直接地协作的算法和系统。在此未被专门示出或描述的、这种算法和系统的其它方面以及用于产生并以别的方式处理随其涉及的图像信号的硬件和/或软件,可以从本领域公知的这样的系统、算法、部件和单元中进行选择。给定如在下面的说明书中所阐述的描述,其所有的软件实施都是常规的,并且在这种领域的普通技术手段之内。
本发明能够被实施在计算机硬件和计算机化的设备中。例如,该方法可以在数字照相机或其他数字图像捕获装置、数字打印机、因特网服务器、信息亭和个人计算机上执行。参考图1,说明了一个用于实施本发明的计算机系统。尽管为了说明优选实施例的目的而示出该计算机系统,但是本发明不限于所示的计算机系统,而是可被用于例如在数字照相机、蜂窝电话、便携式计算装置、家用计算机、信息亭、零散或批量的相片洗印加工中发现的任何电子处理系统上,或者被用于任何其它用于处理数字图像的系统上。该计算机系统包括一个基于微处理器的单元20(在此也被称为数字图像处理器)以用于接收和处理软件程序以及用于执行其它处理功能。数字图像处理器20处理来自诸如照相机、扫描仪或计算机图像生成软件之类的图像捕获装置10的图像。数字图像处理器20可被用来处理数字图像,以便通过使图像输出装置产生一个好看的图像的方式来对数字图像的整体亮度、色阶、图像结构等进行调整。数字图像处理器20与总控计算机40(也是一个基于微处理器的单元)连接以用于交换数据和命令。总控计算机40和数字图像处理器20可以是两个不同的微处理器,或者每一个的功能可被一个单独的物理微处理器来执行。数字图像处理器20常常向图像输出装置30(例如打印机)输出图像以用于显示该图像。显示装置50被电连接到数字图像处理器20以用于显示与该软件有关的用户相关信息,比如通过图形用户接口。键盘60也经由总控计算机40被连接到基于微处理器的单元20来允许用户向该软件输入信息。作为对使用键盘60进行输入的替代,鼠标也可被用于移动在显示装置50上的选择器并选择该选择器置于其上的一个项目,这是本领域所公知的。
为了提供一种向总控计算机40和数字图像处理器20输入软件程序和其它信息的手段,一个通常包含软件程序的光盘只读存储器(CD-ROM)被插入总控计算机40。另外,软盘也可以包含软件程序,并被插入总控计算机40来输入软件程序。更进一步,正如本领域所公知的,总控计算机40可被编程以在内部存储软件程序。总控计算机40可以具有到外部网络(例如局域网或因特网)的网络连接,例如电话线或无线连接。
图像也可以经由个人计算机卡(PC卡)被显示于显示装置50上,例如,正如先前所公知的,一个包含以电子的方式体现在该卡中的数字化图像的PCMCIA卡(基于个人计算机存储卡国际协会的规范)。
图像输出装置30提供最终图像。该输出装置30可以是打印机或其它提供纸张或其它硬拷贝的最终图像的输出装置。该输出装置30也可以是提供作为数字文件的最终图像的输出装置。图像输出装置30也可以包括输出(例如打印的图像和存储单元(比如CD或DVD)上的数字文件)的组合。数字图像和其他数据被存储在诸如外部硬盘驱动器、闪存介质、对CD-ROM或DVD介质进行写入的驱动器等等之类的离线存储器装置70上。
一幅数字图像包含一个或多个数字图像通道或颜色分量。每个数字图像通道都是像素的一个二维阵列。每个像素值涉及由成像捕获装置接收到的与像素的物理区域相对应的光量。对于彩色成像应用,一幅数字图像通常将由红色、绿色和蓝色数字图像通道组成。运动成像应用可以被认为是数字图像的序列。本领域技术人员将认识到,本发明可被应用于(但不限于)任何这里提到的应用的数字图像通道。虽然数字图像通道被描述为以行和列排列的像素值的二维阵列,但是本领域技术人员将认识到,本发明可被应用于具有同等效果的非直线阵列。本领域技术人员还将认识到,下文描述为用处理后的像素值代替原始像素值的数字图像处理步骤在功能上等同于,把相同的处理步骤描述为用处理后的像素值生成新的数字图像,同时保留原始像素值。
应当注意,本发明可在软件和/或硬件的组合中实施,并且不限于物理连接的和/或位于相同的物理位置内的装置。图1所示的一个或多个装置可以位于远方并可经由网络连接。一个或多个装置可以直接或经由网络无线连接,例如通过射频链路。
本发明可以被用于各种用户背景和环境中。示例性的背景和环境包括但不限于批量数字相片洗印加工(其包括诸如拍摄、数字处理、打印输出之类的示例性处理步骤或阶段)、零散数字相片洗印加工(拍摄、数字处理、打印输出)、家庭打印(家用扫描胶片或数字图像、数字处理、打印输出)、桌面软件(对数字印刷品应用算法以使其更好或甚至仅使其改变的软件)、数字实现(来自介质或经由web的数字图像输入,数字处理,在介质上以数字形式、经由web以数字形式、或者在硬拷贝印刷品上打印的图像输出)、信息亭(数字或扫描输入、数字处理、数字或硬拷贝输出)、移动装置(例如可用作处理单元、显示单元、或给出处理指令的单元的PDA或蜂窝电话)、以及作为通过万维网提供的服务。
在所有情况下,本发明可以是独立的,或者可以是一个更大的系统解决方案的一个部件。而且,人机接口(例如扫描或输入,数字处理,对用户的显示(如果需要的话),用户请求或处理指令的输入(如果需要的话),输出)均可处于相同或不同的装置和物理位置上,并且这些装置和位置之间的通信可以经由公共或专用的网络连接,或者是基于介质的通信。在与本发明的前述公开相一致的情况下,本发明的方法可以是全自动的,可以具有用户输入(全部或部分手动),可以具有用户或操作者的检查来接收或拒绝结果,或者可以由元数据(可以由用户提供的、由测量装置(例如在照相机中)提供的、或者由算法确定的元数据)加以辅助。此外,所述算法可以与多种工作流用户接口方案相连。
本发明包含在此描述的实施例的组合。提到“一个特定实施例”等等是指存在于本发明的至少一个实施例中的特征。单独提到“一个实施例”或“特定实施例”等等不一定是指相同的一个或多个实施例;然而,这样的实施例不是互斥的,除非被指明如此或者对本领域技术人员来说显然如此。
在图2中说明该方法的第一实施例。分析数字图像和视频集合104以识别其中的人的身份。对数字图像或视频104的集合中的人的识别允许建立一个数据库120,该数据库使数字图像或视频104和在数字图像或视频104中的人的身份相关。因此,可以查询122数据库120,以找到那些包含所查询的感兴趣的人的图像和视频。数据库120可以采取任何形式。例如通过把个人分类118插入到数字图像或视频104的文件头中,数据库120可以分布在许多文件上。例如,一个对“Jim”的图像的查询122返回包含一组含有感兴趣的人“Jim”的数字图像或视频104的查询结果124。接着查询结果124可以被返回。查询结果124是一组含有所查询的感兴趣的人的数字图像或视频104。查询结果124的数字图像和视频104可以被显示在如图1所示的显示装置50上以供用户检查。
在该系统中,数字图像或视频104被传送到捕获信息提取器108。捕获信息提取器108确定与集合的数字图像和视频104的捕获有关的捕获信息112,并输出所得到的信息,其中与特定数字图像或视频104有关的捕获信息112与该特定数字图像或视频104相关联。捕获信息112可以是捕获特定数字图像或视频104的时间、捕获图像或视频的位置、焦距、对象距离、像素的行和列的数目、放大倍数、是否开启了闪光灯、是否激活了自拍器等。特定图像或视频104的捕获信息112由捕获信息提取器108通过几种方法中的一种来确定。时常地,捕获信息112被嵌入数字图像或视频104的文件头中。例如,EXIF图像格式(描述于WWW.exif.org)允许图像或视频捕获装置在文件头中存储与该图像或视频相关联的信息。“日期\时间”条目与图像被捕获的日期和时间相关联。在一些情况下,数字图像或视频由扫描胶片产生,并且图像捕获时间通过对打印在图像区域(通常在图像的左下角)中的日期(在捕获时常常这样做)的检测来确定。一幅照片被打印的日期常常被打印在打印材料的背面。可选择地,一些胶片系统在胶片上含有磁性层来存储诸如捕获日期之类的信息。捕获信息提取器108使用最适当的方法来提取图像的捕获信息112。优选地,数字图像和视频的来源是数字照相机,并且捕获信息提取器108从图像文件信息中提取捕获信息。
摄影者确定器138还对该集合的图像和视频进行分析,以便确定每幅图像和视频的特定摄影者的身份。当使用EXIF文件格式时,摄影者的身份例如可以被存储在“照相机所有者”、“图像创建者”、“摄影者”或“版权”标签中。图像或视频的摄影者的身份可以在捕获视频之前、期间或之后被手动输入。此外,已经描述了包含下述装置的几种照相机(例如在美国专利申请公布US 2002/0080256A1中),所述装置用于从摄影者提取生物测定信息,识别摄影者,并且然后利用摄影者的身份来对图像作注释。无论如何,摄影者确定器138发现摄影者132的身份,并将该信息传送给个人识别分类器114。在一些情况下,摄影者132可能无法被摄影者确定器138识别。在这种情况下,摄影者132是“未知的”。例如,当拥有照相机的人正在度假并且要求陌生人利用她的(正度假的照相机所有者)照相机在标志性建筑的前面捕获她的图像时,可能会出现这种情况。诸如在美国专利申请US 2002/0080256A1中描述的照相机只能可行地识别来自潜在照相机用户的小集合(例如主要用户可能是照相机所有者,而次要用户是照相机所有者的朋友和家人)的摄影者,所述潜在照相机用户的简档是照相机已知的。在这种情况下,陌生人利用照相机所捕获的图像将被摄影者确定器138简单地识别为“未知的”摄影者132。
图像捕获时间可以被包含在捕获信息112中,并且可以在时间上精确到分钟,例如2004年3月27日10:17 AM。或者图像捕获时间可以不大精确,例如2004年或2004年3月。图像捕获时间可以采取概率分布函数的形式,例如具有95%的置信度的2004年3月27日+/-2天。图像捕获时间被输入到个人识别分类器114。
个人查找器(finder)106识别在数字视频或数字图像中的一个或多个人。优选地,人通过面部检测被找到。检测人脸的方法在数字图像处理的领域中是公知的。例如,一种用于找到图像中的人脸的面部检测方法在下列文章中被描述:Jones,M.J.;Viola,P.,“Fast Multi-view FaceDetection”,IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2003。而且,一旦面部被检测出来,面部特征(例如眼睛、鼻子、嘴等)也可以使用公知的方法来定位,例如由Yuille等人在“FeatureExtraction from Faces Using Deformable Templates”,Int.Journal of Comp.Vis.,Vol.8,Iss.2,1992,pp.99-111中所描述的方法。作者描述了一种使用具有模板匹配的能量最小化来定位嘴、眼睛和虹膜/巩膜边界的方法。面部特征也可以使用由T.F.Cootes和C.J.Taylor的“ConstrainedActive Appearance Models”,8th International Conference on ComputerVision,volume 1,pages 748-754.IEEE Computer Society Press,July 2001描述的主动表观模型来找到。
可选择地,也可以使用不同的面部特征。例如,一个实施例可以基于由M Turk和A.Pentland在“Eigenfaces for Recognition”Journal ofCognitive Neuroscience.Vol 3,No.1.71-86,1991中描述的面部相似性量度。通过把面部的图像投影到一组描述面部表观的可变性的主成分函数来获得面部描述符。任何两张脸之间的相似性通过计算把每张脸投影到相同的一组函数所获得的多个特征的欧氏距离来测量。在这种情况下,表观模型可描述同一张脸的多幅图像在这些主成分函数上的投影的均值和协方差。相似性量度(例如通过图4的比较器140来计算)可以计算一张新脸到该模型的均值的Mahalonobis距离。
表观模型和相似性测量可以包括诸如本征脸、面部测量、颜色/纹理信息、小波特征等之类的几个不同特征类型的组合。
个人查找器106输出作为被个人查找器106检测到的人的定量描述的个人特征110。优选地,个人查找器106为每个被检测到的人输出一组个人特征110。优选地,个人特征是与特定面部特征相关联的82个特征点的位置,这是使用与前述Cootes等人的主动表观模型类似的方法找到的。一幅面部图像的面部特征点的可视表示作为说明被示出在图3A和3B中。可选择地,个人特征110可以另外利用诸如眼睛颜色、皮肤颜色、脸型等之类的可定量描述符来表示。个人特征110也可以是特定特征点之间的距离或者由连接各组特定特征点的线形成的角。一旦人和面部特征被个人查找器106定位,颜色提示就容易地从数字图像或视频104中被提取出来。个人特征110被输入到个人识别分类器114。
M个感兴趣的人的表观模型集合1161-116M从所存储的数字数据库被输入到个人识别分类器114,以确定被个人查找器106检测到并用个人特征110表示的每个人的身份。表观模型1161-116M包含与感兴趣的特定人相关联的一组特征。感兴趣的个人的每个表观模型包括多个子模型,例如描述感兴趣的人在不同年龄的表观的模型,正如在上面引用的同时待审的申请即顺序号为11/116,729的美国专利申请中所述的那样。或者,子模型可以描述具有不同表观的感兴趣的人的表观(例如一个子模型表示感兴趣的人具有脸毛的表观,另一个子模型表示感兴趣的人没有脸毛的表观)。表观模型将在下面被更详细地讨论。感兴趣的人是对在数字图像和视频104的集合中进行识别来说重要的人。例如,在一个有小孩的家庭中,每个孩子都可能会是感兴趣的人,因为对于家长来说,识别在数字媒体集合的每个照片和视频104中各个孩子的出现将是有用的和有价值的。作为主要摄影者的前述照相机所有者可以是可作为任何次要摄影者(即照相机所有者的朋友和家人)的感兴趣的人。个人识别分类器114的目的是使用表观模型1161-116M、图像捕获信息112和个人特征110中的一个或多个来确定由个人查找器106检测到的人是否就是感兴趣的特定人。这通过将检测到的人的个人特征110与感兴趣的特定人的表观模型116的特征进行比较来实现。个人识别分类器114输出个人分类118。典型地,当与检测到的人相关联的个人特征110类似于与感兴趣的特定人m相关联的表观模型116m时,个体识别分类器输出由个人查找器106检测到的人是感兴趣的特定人m的高概率。优选地,个人分类118是个人查找器106检测到的人正是感兴趣的人的可能性(概率)。个人分类118可以是二进制指示符(例如真或假),其指示该分类器对与个人特征110相关联的人是否就是感兴趣的人的判定。
通过对在集合的每个数字图像或视频104中检测到的每个人重复应用个人识别分类器114,所有被个人查找器106检测到的人都被按照各自正是感兴趣的特定人的可能性进行分类。
个人分类118然后可以与包含检测到的人的数字图像或视频相关联。例如,在数据库120中图像可以被标记或者注释为包含感兴趣的人“Mary”。此外,个人分类118信息可以与个人特征110相关联。此外,图像还可以利用由个人查找器106检测到的人在数字图像或视频内的位置来标记,其中所述检测到的人被个人识别分类器114确定为感兴趣的人。此外,个人分类118的可能性或概率也可以被添加到数据库120的注释中。当对包含感兴趣的特定人的数字图像或视频104进行查询122时,搜索数据库120,并且将适当的查询结果124通过诸如图1的显示装置50之类的用户接口返回给用户。
个人识别分类器如下使用摄影者132信息:当图像捕获信息112表明照相机的自拍器被用来捕获特定图像或视频时,那么个人识别分类器114输出个人分类118,所述个人分类118表明数字图像或视频104包含摄影者132的高的可能性(概率)。例如,该概率在0.75至1.0的范围内,这取决于特定摄影者132。这由下述事实引起,在大多数时间,照相机自拍器被用来提供这样的时间,即允许摄影者132激活照相机,然后奔跑以便被包括在由照相机在特定数字图像或视频104中所捕获的场景中。
同样,当图像捕获信息112表明照相机的图像或视频捕获经由远程控制被激活时,那么个人识别分类器114输出个人分类118,所述个人分类118表明数字图像或视频104包含摄影者132的中等可能性(概率)。这由下述事实引起,时常地,利用远程控制来激活照相机的图像或视频捕获,以便提供这样的时间,即允许摄影者132处于由照相机在特定数字图像或视频104中所捕获的场景中。然而,照相机捕获程序的远程激活还可以被用来避免使照相机抖动。为此,与表明摄影者132位于数字图像或视频104中的个人分类118相关联的概率在0.5至0.9的范围内,这取决于特定摄影者132。
图4示出个人识别分类器114的更详细的视图。对于由个人查找器106所提取的每组个人特征110,比较器140都将所述个人特征110与表示M个感兴趣的个人的M个表观模型1161-M的每一个进行比较,并输出M个分数的分数集合142,所述分数表明由个人查找器找到的特定人是第m个感兴趣的人的可能性或概率。比较器140例如可以计算在个人特征110和M个表观模型中每一个之间的欧氏距离。或者,比较器140可以计算距M个表观模型的每一个的Mahalanobis距离,以便产生分数集合142。此外,比较器140可以是任何分类器,例如但不限于高斯最大似然、神经网络、支持向量机等等。优选地,分数集合142的第m个条目表明与该组个人特征110相对应的特定面部是第m个感兴趣的人的概率。
分数集合142被传送给分数调节器144,以便根据与摄影者132和捕获信息112有关的信息来调节分数,产生调节后的分数集合。分数调节器144考虑到分数集合的可能性或概率,并且如下改进分数。根据捕获信息112来调节分数集合142中的分数。当捕获信息112表明自拍器标志被用来捕获数字图像或视频104时,那么如果第m个人是数字图像或视频104的摄影者132,则增加第m个感兴趣的人的分数。以这种方式,当自拍器被用来捕获数字图像或视频104时,分数调节器144考虑摄影者132出现在数字图像或视频104中的先验概率(即事件A的先验概率是在没有任何其他数据的情况下A出现的概率)。同样,当捕获信息112表明数字图像或视频104是利用激活照相机的捕获机构的远程信号被捕获的时,那么如果第m个人是数字图像或视频104的摄影者132,则增加第m个感兴趣的人的分数。分数调节器144输出由个人查找器106检测到的人的个人分类118。个人分类118可以是由分数调节器144进行调节之后的分数集合142。或者,假如分数大于阈值T0,则个人分类118可以是在调节后的分数集合中具有最高相应分数的感兴趣的人的身份。
在概念上,为了产生个人分类118,个人识别分类器114优选地计算:
P(x=m|f),即在给定个人特征110f的证据的情况下由个人查找器106检测到的人是人m的概率。按照贝叶斯法则,对m个感兴趣的人的每一个都可以利用下述公式来计算该量:
P(x=m|f)=P(f|x=m)P(x=m)/P(f)
项P(f|x=m)是在已知所述人是第m个感兴趣的人时个人特征f的观测概率。这可以通过考虑第m个感兴趣的人的表观模型116来得到,其中所述表观模型116描述了第m个感兴趣的人的表观的变化。项P(x=m)是先验概率,并且是图像或视频中的人是感兴趣的人m的概率。先验概率作为摄影者132的身份的函数来变化。例如,妻子和丈夫共享一部照相机。在妻子是摄影者的图像中所出现的人中,60%是婴儿,20%是丈夫,以及20%是其他。当丈夫是摄影者时,照片中所出现的人的40%是婴儿,20%是妻子,5%是丈夫,以及35%是其他。因此,当个人识别分类器114知道摄影者132的身份时,与该摄影者132相关联的摄影者内容简档130可以由分数调节器144用来以适当的方式正确地调节分数集合142。在该优选实施例中,摄影者内容简档130包含感兴趣的人出现在特定摄影者的图像和视频中的先验概率。优选地,分数集合142包含概率P(f|x=m),并且分数调节器144通过利用在摄影者内容简档130中规定的先验概率P(x=m)进行乘法加权来调节分数。
特定摄影者的摄影者内容简档130是通过使用户手动地验证由特定摄影者捕获的图像或视频集合中的人的身份来生成的。然后,计算先验概率并将其存储在摄影者内容简档130中。先验概率可以考虑捕获信息112。例如,摄影者132具有一组先验概率和第二组先验概率,所述第一组先验概率描述了当捕获信息112表明自拍器功能开启时一个人是第m个感兴趣的人的概率,所述第二组先验概率描述了当捕获信息112表明自拍器功能关闭时一个人是第m个感兴趣的人的概率。例如,下表给出了图像或视频中的给定人对于两个不同摄影者以及当自拍器功能关闭和开启时是第m个感兴趣的人的先验概率。
|
摄影者是感兴趣的人0 |
摄影者是感兴趣的人1 |
第M个感兴趣的人 |
自拍器开启 |
自拍器关闭 |
自拍器开启 |
自拍器关闭 |
0 |
0.3 |
0.0 |
0.3 |
0.2 |
1 |
0.3 |
0.3 |
0.3 |
0.0 |
2 |
0.2 |
0.4 |
0.3 |
0.6 |
未知 |
0.2 |
0.3 |
0.1 |
0.2 |
因此,数字图像或视频104的摄影者132连同与数字图像或视频104有关的捕获信息112一起被识别。与摄影者132相对应的摄影者内容简档130被用来确定数字图像或视频104中的人的身份。
图5示出一个利用摄影者132的身份来识别数字图像或视频104内的对象或分类数字图像或视频本身的可选实施例。来自集合的数字图像或视频104被传送给特征提取器152以便提取特征160,所述特征被传送给对象分类器164。
另外,感兴趣的对象1171-M的表观模型被传送给对象分类器。比较器140将从图像或视频中提取的特征160与感兴趣的对象1171-M的表观模型进行比较,从而产生分数集合142。优选地,分数集合142包括特征160与感兴趣的特定对象m有关的概率。
摄影者132的身份和捕获信息112被传送给分数调节器144。分数调节器144加载摄影者内容简档130,所述摄影者内容简档130描述了特定对象m处于图像或视频中的先验概率,并且相应地调节分数集合142以便产生调节后的分数集合,从而生成分类118,所述分类118被存储在数据库120中,以备如前所述的查询。可选择地,摄影者内容简档130描述了图像是感兴趣的对象的先验概率。与摄影者132相关联的摄影者内容简档130描述了图像表示感兴趣的对象的概率。
例如,对象分类器164可以具有确定图像是“室内的”还是“室外的”图像的目标。然而,不同的摄影者捕获了其室内与室外图像的不同比例。例如,摄影者0捕获30%的室内图像和70%的室外图像,而摄影者1捕获30%的室内图像和70%的室外图像。该信息由与摄影者132的身份相对应的摄影者内容简档130来提供。因此,关于特定摄影者的先验概率的知识允许分数调节器144充分地考虑先验概率并改善对象分类器164的综合性能。
该实例中的对象分类器164将图像的状态分类为室内或室外图像。其他对象分类器164可被用来确定图像是自然场景还是人工场景。此外,对象分类器164可被用来确定图像是日落图像或者不是日落图像。
对象分类器164还可以被用来查找图像内的特定对象。例如,个人识别分类器114是被用来识别场景内的各个对象的对象分类器的一个实例。在另一个实施例中,对象分类器164被用来检测红眼缺陷的存在(其在单幅图像中可能发生0次、1次或者多次)。对象分类器164确定图像是否表示感兴趣的对象。
此外,除摄影者132的身份之外,摄影者内容简档130还可以依赖于捕获信息112。例如,下表是摄影者内容简档130,并且示出基于在捕获信息112中包含的图像捕获的月份由给定摄影者捕获的给定图像或视频是“室内的”或者“室外的”的概率。在这种情况下,“室内的”和“室外的”是这样的感兴趣对象,其利用由对象分类器164用来将图像分类为室内图像或室外图像的表观模型来描述。
|
摄影者0 |
摄影者1 |
|
室内 |
室外 |
室内 |
室外 |
1月-3月 |
0.3 |
0.7 |
0.5 |
0.5 |
4月-6月 |
0.5 |
0.5 |
0.3 |
0.7 |
7月-9月 |
0.6 |
0.4 |
0.2 |
0.8 |
10月-12月 |
0.4 |
0.6 |
0.8 |
0.2 |
摄影者内容简档130已经显示出包括单个图像或视频的分类的先验概率信息。另外,假定先前的图像例如是室外的,那么摄影者内容简档130可以包含与特定图像(或视频)是室外的概率有关的信息。该信息可以被存储为状态转移矩阵,正如在马尔可夫链和隐藏马尔可夫模型的研究中通常所用的那样。因为状态转移矩阵与摄影者的照相行为有关,所以状态转移矩阵依赖于摄影者的身份识别。例如,摄影者2的状态转移矩阵:
|
对于摄影者2而言,图像或视频n+1是下述的概率 |
当图像n是: |
室内 |
室外 |
室内 |
0.8 |
0.2 |
|
对于摄影者2而言,图像或视频n+1是下述的概率 |
室外 |
0.3 |
0.7 |
转移矩阵是先验概率的特例。转移矩阵可以依赖于捕获信息112,例如在图像n和图像n+1之间的时间间隔。例如,如果在两幅图像之间的时间间隔大(例如3天),那么状态转移矩阵是:
|
对于摄影者2而言,图像或视频n+1是下述的概率 |
当图像n是: |
室内 |
室外 |
室内 |
0.6 |
0.4 |
室外 |
0.43 |
0.57 |
一旦校正的摄影者内容简档130是已知的,则隐藏马尔可夫模型就可以连同状态转移矩阵一起被用来确定图像的状态(在这种情况下,确定图像是室内的还是室外的。)
捕获信息112和摄影者132的身份被用来选择正确的摄影者内容简档130,从而输入到对象分类器164中。在另一个实施例中,知道摄影者的身份还允许更精确的图像取向检测。通常,矩形图像以四种可能的观察取向来适当地观察。Luo在美国专利申请公布US 2003/0152289A1中教导了这样一种方法:基于语义对象和场景布局检测并且采用估计图像取向的判优方法,自动地确定对于图像而言这四个取向中的哪一个是正确的。水平、垂直1、垂直2和倒置水平的先验概率被记录为70%-14%-14%-2%。图6A示出图像以横向取向的实例。图6B-6D示出分别具有垂直1、垂直2和倒置水平的取向的图像。
通常,摄影者捕获水平取向的横向场景(即摄影者在拍摄场景时很少使照相机倒置)。然而,对于具有高度大于宽度的宽高比的垂直或纵向场景而言,存在两种可能的照相机取向。大多数摄影者仅利用这些位置之一来拍摄“垂直的”照片。知道摄影者的身份确定了摄影者的个人行为,因此改善了其在确定图像取向时的性能。
以下示出示例的取向概率与摄影者矩阵(图5的摄影者概率简档130):
|
摄影者0 |
摄影者1 |
水平 |
0.850 |
0.650 |
倒置 |
0.005 |
0.010 |
垂直1 |
0.125 |
0.030 |
|
摄影者0 |
摄影者1 |
垂直2 |
0.020 |
0.310 |
已改善的图像取向确定性能改善了随后的利用了取向的先验知识的图像理解算法的性能。关于其他摄影者的特定捕获特性(场景的类型、照相机设置、捕获的典型位置和时间)的知识提供了这样的附加信息,其可以改善随后的图像增强、图像组织以及图像管理算法的性能。例如,知道摄影者是否不具有稳定的手(导致在图像捕获期间过度的照相机运动)可以向随后的图像增强算法发信通知以便更积极地校正图像的模糊。又一个实例是,如果摄影者趋向于不保持照相机与地平线相齐,则知道摄影者的身份可以向图像增强算法发信通知使图像水平。