CN103270535A - 用于跟踪脸部部分的方法、装置和计算机程序产品 - Google Patents

用于跟踪脸部部分的方法、装置和计算机程序产品 Download PDF

Info

Publication number
CN103270535A
CN103270535A CN2011800401904A CN201180040190A CN103270535A CN 103270535 A CN103270535 A CN 103270535A CN 2011800401904 A CN2011800401904 A CN 2011800401904A CN 201180040190 A CN201180040190 A CN 201180040190A CN 103270535 A CN103270535 A CN 103270535A
Authority
CN
China
Prior art keywords
face
frame
detection window
brightness projection
tracks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800401904A
Other languages
English (en)
Other versions
CN103270535B (zh
Inventor
V·慕尼恩德
P·米施拉
赵昶衍
K·戈文达劳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN103270535A publication Critical patent/CN103270535A/zh
Application granted granted Critical
Publication of CN103270535B publication Critical patent/CN103270535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本发明提供方法、装置和计算机程序产品。该方法包括在多媒体内容的多个帧中的帧中检测脸部部分。该方法还包括在帧的至少一个后续帧中跟踪脸部部分。当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪。执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。

Description

用于跟踪脸部部分的方法、装置和计算机程序产品
技术领域
各种实现方式总体上涉及用于跟踪脸部部分的方法、装置和计算机程序产品。
背景技术
图像处理在诸如视频编辑、视频压缩、安全和监控、人类计算机交互等应用中越来跨得到使用。图像处理通常涉及在图像帧和/或视频帧的序列中检测脸部,并且继而在后续图像中随后跟踪脸部。
普遍使用基于模式识别的检测器来执行脸部检测,该检测器是计算密集的任务以便用于每个帧。在检测到脸部时执行脸部的跟踪。脸部的跟踪要求在后继帧中的任何帧中未遗漏脸部,这意味着脸部的跟踪必须稳健。
然而,脸部的跟踪可能不是稳健的,因为性能可能受基于模式识别的检测器的准确性限制。这可能导致在帧之间中遗漏一些脸部。在失去对脸部的跟踪时,可以再次执行脸部的检测以用于检测脸部并且后续跟踪脸部。作为结果,可能需要再次利用计算密集的基于模式识别的检测器,由此造成每个帧的计算数目增加。
发明内容
提供用于脸部部分跟踪的方法、装置和计算机程序产品。
在一个方面中,提供一种方法。该方法包括在多媒体内容的多个帧中的帧中检测脸部部分。该方法还包括在帧的至少一个后续帧中跟踪脸部部分。当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪。执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。
在一个实施例中,在帧中检测脸部部分包括提供被配置用于向帧中的像素集上叠加的检测窗。随后,基于至少一个分类函数层评估由检测窗界定的像素集以用于在像素集中检测脸部部分。按照第一步进大小向像素集的邻近像素集上遍历检测窗。基于至少一个分类函数层评估邻近像素集以用于在邻近像素集中检测脸部部分。
在一个实施例中,在多个帧中的相继帧中按照预定义大小移位检测窗的起始点以用于检测脸部部分。在一个实施例中,评估由检测窗界定的像素集包括基于至少一个分类函数层中的第一分类函数层评估像素集。评估被配置用于针对一个或者多个定向角度来执行并且还被配置用于计算用于一个或者多个定向角度中的至少一个定向角度的分类分数。选择具有计算的分类分数中的最大分数的角度作为脸部部分的定向角度。通过基于至少一个分类函数层执行像素集的评估来在像素集中检测脸部部分,其中评估被配置用于针对脸部部分的定向角度来执行。
在一个实施例中,针对多个比例中的一个或者多个比例在帧中执行脸部部分的检测,并且跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目,其中多个比例代表脸部部分的多个大小。在一个实施例中,应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从帧去除非脸部部分。纹理滤波器可以基于帧中的局部二进制模式。在一个实施例中,检测脸部部分基于帧中的模式识别。
在一个实施例中,脸部部分的跟踪包括在至少一个后续帧的一个后续帧中的兴趣区域中检测脸部部分,其中兴趣区域对应于帧中的其中检测到脸部部分的区域。另外,脸部部分的跟踪可以被配置用于针对多个比例中的所选数目的比例来执行,其中所选数目的比例可以基于在帧中针对其检测到脸部部分的比例来选择。在一个实施例中,在检测到脸部部分时停用兴趣区域以用于排除在兴趣区域中进一步跟踪脸部部分。
在一个实施例中,基于亮度投影距离和颜色直方图距离中的至少一个距离执行颜色跟踪。在一个实施例中,颜色跟踪包括计算用于至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图,其中兴趣区域对应于帧中的其中检测到脸部部分的区域。基于用于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于每个测试检测窗的亮度投影距离。基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于每个测试检测窗的颜色直方图距离。另外,基于用于每个测试检测窗的亮度投影距离和颜色直方图距离在兴趣区域中确定脸部部分的存在。
在一个实施例中,基于参考水平亮度投影与用于每个测试检测窗的计算的水平亮度投影之差以及参考竖直亮度投影与用于每个测试检测窗的计算的竖直亮度投影之差计算用于每个测试检测窗的亮度投影距离。另外,基于参考颜色直方图与用于每个测试测试检测窗的计算的颜色直方图之差计算用于每个测试检测窗的颜色直方图距离。
在一个实施例中,如果亮度投影距离的最小值低于第一阈值并且颜色直方图距离低于第二阈值,则确定脸部部分存在。另外,如果亮度投影距离的最小值在第一阈值与第三阈值之间并且颜色直方图距离的最小值低于第四阈值,则可以确定脸部部分存在。另外,如果亮度投影距离的最小值大于第三阈值,则可以确定脸部部分不存在。
在一个实施例中,在失去对脸部部分的跟踪时和在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧跟踪脸部部分时执行颜色跟踪。在一个实施例中,在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时针对其中跟踪脸部部分的一个或者多个兴趣区域计算参考颜色直方图。
在另一方面中,提供一种装置。该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器。至少一个存储器和计算机程序代码被配置用于与至少一个处理器一起使该装置至少在多媒体内容的多个帧中的帧中检测脸部部分。还使该装置在帧的至少一个后续帧中跟踪脸部部分。还使该装置当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪。执行颜色跟踪用于在至少一个后续帧中重新跟踪脸部部分。
在一个实施例中,至少部分地还使该装置通过提供被配置用于向帧中的像素集上叠加的检测窗来在帧中检测脸部部分。基于至少一个分类函数层评估由检测窗界定的像素集以用于在像素集中检测脸部部分。另外,按照第一步进大小向像素集的邻近像素集上遍历检测窗。基于至少一个分类函数层评估邻近像素集以用于在邻近像素集中检测脸部部分。
在一个实施例中,至少部分地还使该装置在多个帧中的相继帧中按照预定义大小移位检测窗的起始点以用于检测脸部部分。在一个实施例中,至少部分地还使该装置通过基于至少一个分类函数层中的第一分类函数层评估像素集来评估由检测窗界定的像素集。评估被配置用于针对一个或者多个定向角度来执行并且还被配置用于计算用于一个或者多个定向角度中的至少一个定向角度的分类分数。另外,选择具有计算的分类分数中的最大分数的角度作为脸部部分的定向角度。通过基于至少一个分类函数层执行像素集的评估来在像素集中检测脸部部分,其中评估被配置用于针对脸部部分的定向角度来执行。
在一个实施例中,至少部分地还使该装置配置针对多个比例中的一个或者多个比例在帧中执行脸部部分的检测,并且跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目,其中多个比例代表脸部部分的多个大小。在一个实施例中,至少部分地还使该装置应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从帧去除非脸部部分。纹理滤波器可以基于帧中的局部二进制模式。在一个实施例中,至少部分地还使该装置基于帧中的模式识别检测脸部部分。
在一个实施例中,至少部分地还使该装置通过在至少一个后续帧的一个后续帧中的兴趣区域中检测脸部部分来执行脸部部分的跟踪,其中兴趣区域对应于帧中的其中检测到脸部部分的区域。在一个实施例中,至少部分地还使该装置配置针对多个比例中的所选数目的比例执行的脸部部分的跟踪,所选数目的比例基于在帧中针对其检测到脸部部分的比例来选择。另外,可以在检测到脸部部分时停用兴趣区域以用于排除在兴趣区域中进一步跟踪脸部部分。
在一个实施例中,至少部分地还使该装置基于亮度投影距离和颜色直方图距离中的至少一个距离执行颜色跟踪。在一个实施例中,至少部分地还使该装置通过计算用于至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图来执行颜色跟踪,兴趣区域对应于帧中的其中检测到脸部部分的区域。可以基于用于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于每个测试检测窗的亮度投影距离。可以基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于每个测试检测窗的颜色直方图距离。可以基于用于每个测试检测窗的的亮度投影距离和颜色直方图距离确定脸部部分在兴趣区域中的存在。
在一个实施例中,至少部分地还使该装置基于参考水平亮度投影与用于每个测试检测窗的计算的水平亮度投影之差以及参考竖直亮度投影与用于每个测试检测窗的计算的竖直亮度投影之差计算用于每个测试检测窗的亮度投影距离。在一个实施例中,至少部分地还使该装置基于参考颜色直方图与用于每个测试检测窗的计算的颜色直方图之差计算用于每个测试检测窗的颜色直方图距离。
在一个实施例中,至少部分地还使该装置如果亮度投影距离的最小值低于第一阈值并且颜色直方图距离低于第二阈值则确定脸部部分存在。另外,如果亮度投影距离的最小值在第一阈值与第三阈值之间并且颜色直方图距离的最小值低于第四阈值,则可以确定脸部部分存在。另外,如果亮度投影距离的最小值大于第三阈值,则可以确定脸部部分不存在。
在一个实施例中,至少部分地还使该装置在失去对脸部部分的跟踪时和在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时执行颜色跟踪。在一个实施例中,至少部分地还使该装置在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时针对其中跟踪脸部部分的一个或者多个兴趣区域计算参考颜色直方图。
在又一方面中,提供一种计算机程序产品。该计算机程序产品包括至少一个计算机可读存储介质,计算机可读存储介质包括指令集,指令集在由一个或者多个处理器执行时使装置至少执行在多媒体内容的多个帧中的帧中检测脸部部分。在帧的至少一个后续帧中跟踪脸部部分。当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪。执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。
在一个实施例中,至少部分地还使该装置通过提供被配置用于向帧中的像素集上叠加的检测窗来在帧中检测脸部部分。基于至少一个分类函数层评估由检测窗界定的像素集以用于在像素集中检测脸部部分。另外,按照第一步进大小向像素集的邻近像素集上遍历检测窗。基于至少一个分类函数层评估邻近像素集以用于在邻近像素集中检测脸部部分。
在一个实施例中,至少部分地还使该装置在多个帧中的相继帧中按照预定义大小移位检测窗的起始点以用于检测脸部部分。在一个实施例中,至少部分地还使该装置通过基于至少一个分类函数层中的第一分类函数层评估像素集来评估由检测窗界定的像素集。评估被配置用于针对一个或者多个定向角度来执行并且还被配置用于计算用于一个或者多个定向角度中的至少一个定向角度的分类分数。另外,选择具有计算的分类分数中的最大分数的角度作为脸部部分的定向角度。通过基于至少一个分类函数层执行像素集的评估来在像素集中检测脸部部分,其中评估被配置用于针对脸部部分的定向角度来执行。
在一个实施例中,至少部分地还使该装置配置针对多个比例中的一个或者多个比例在帧中执行的帧中的脸部部分的检测,并且跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目,其中多个比例代表脸部部分的多个大小。在一个实施例中,至少部分地还使该装置应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从帧去除非脸部部分。纹理滤波器可以基于帧中的局部二进制模式。在一个实施例中,至少部分地还使该装置基于帧中的模式识别检测脸部部分。
在一个实施例中,至少部分地还使该装置通过在至少一个后续帧的一个后续帧中的兴趣区域中检测脸部部分来执行脸部部分的跟踪,其中兴趣区域对应于帧中的其中检测到脸部部分的区域。在一个实施例中,至少部分地还使该装置配置针对多个比例中的所选数目的比例执行的脸部部分的跟踪,所选数目的比例基于在帧中针对其检测到脸部部分的比例来选择。另外,可以在检测到脸部部分时停用兴趣区域以用于排除在兴趣区域中进一步跟踪脸部部分。
在一个实施例中,至少部分地还使该装置基于亮度投影距离和颜色直方图距离中的至少一个距离执行颜色跟踪。在一个实施例中,至少部分地还使该装置通过计算用于至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图来执行颜色跟踪,兴趣区域对应于帧中的其中检测到脸部部分的区域。可以基于用于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于每个测试检测窗的亮度投影距离。可以基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于每个测试检测窗的颜色直方图距离。可以基于用于每个测试检测窗的亮度投影距离和颜色直方图距离确定脸部部分在兴趣区域中的存在。
在一个实施例中,至少部分地还使该装置基于参考水平亮度投影与用于每个测试检测窗的计算的水平亮度投影之差以及参考竖直亮度投影与用于每个测试检测窗的计算的竖直亮度投影之差计算用于每个测试检测窗的亮度投影距离。在一个实施例中,至少部分地还使该装置基于参考颜色直方图与用于每个测试检测窗的计算的颜色直方图之差计算颜色直方图距离。
在一个实施例中,至少部分地还使该装置如果亮度投影距离的最小值低于第一阈值并且颜色直方图距离低于第二阈值则确定脸部部分存在。另外,如果亮度投影距离的最小值在第一阈值与第三阈值之间并且颜色直方图距离的最小值低于第四阈值,则可以确定脸部部分存在。另外,如果亮度投影距离的最小值大于第三阈值,则可以确定脸部部分不存在。
在一个实施例中,至少部分地还使该装置在失去对脸部部分的跟踪时和在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时执行颜色跟踪。在一个实施例中,至少部分地还使该装置在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时针对其中跟踪脸部部分的一个或者多个兴趣区域计算参考颜色直方图。
在又一方面中,提供一种方法。该方法包括在多媒体内容的多个帧中的帧中检测脸部部分。该方法还包括在帧的至少一个后续帧中跟踪脸部部分。随后,当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪。执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。通过计算用于至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图来执行颜色跟踪,其中兴趣区域对应于帧中的其中检测到脸部部分的区域。基于用于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于每个测试检测窗的亮度投影距离。基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于每个测试检测窗的颜色直方图距离。另外,基于用于每个测试检测窗的亮度投影距离和颜色直方图距离在兴趣区域中确定脸部部分的存在。
在一个实施例中,基于参考水平亮度投影与用于每个测试检测窗的计算的水平亮度投影之差以及参考竖直亮度投影与用于每个测试检测窗的计算的竖直亮度投影之差计算用于每个测试检测窗的亮度投影距离。另外,基于参考颜色直方图与用于每个测试检测窗的计算的颜色直方图之差计算用于每个测试检测窗的颜色直方图距离。
在一个实施例中,如果亮度投影距离的最小值低于第一阈值并且颜色直方图距离低于第二阈值,则确定脸部部分存在。另外,如果亮度投影距离的最小值在第一阈值与第三阈值之间并且颜色直方图距离的最小值低于第四阈值,则可以确定脸部部分存在。另外,如果亮度投影距离的最小值大于第三阈值,则可以确定脸部部分不存在。
在又一方面中,提供一种装置。该装置包括用于在多媒体内容的多个帧中的帧中检测脸部部分的装置。另外,该装置包括用于在帧的至少一个后续帧中跟踪脸部部分的装置。另外,该装置包括用于当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪的装置。执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。
在又一方面中,提供一种计算机程序。该计算机程序包括指令集,指令集在由装置执行时使该装置至少执行在多媒体内容的多个帧中的帧中检测脸部部分。还使该装置至少在帧的至少一个后续帧中跟踪脸部部分。当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪。执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。
附图说明
本公开内容的上述和其它特征以及效果及实现它们的方式将通过参照结合附图对本公开内容的实施例的下文描述而变得更清楚并且将通过参照下文描述而得到更好地理解,在附图中:
图1是根据一个实施例的图示脸部部分的帧的示意图;
图2是描绘根据一个实施例的用于在多个帧中跟踪脸部部分的示例方法的流程图;
图3A和图3B是图示根据一个实施例的从一个或者多个定向角度选择脸部部分的定向角度的示意图;
图4A和图4B是图示根据一个实施例的帧中的检测窗和帧的相继帧中的具有移位的起始点的检测窗的示意图;
图5是根据一个实施例的用于执行脸部部分的颜色跟踪的方法的流程图;
图6是图示根据一个实施例的用于执行脸部部分的颜色跟踪的逻辑序列的示意图;
图7是根据一个实施例的用于在多个帧中跟踪脸部部分的装置的框图;
图8是根据一个实施例的移动终端的示图;并且
图9是根据一个实施例的计算机系统的示图。
具体实施方式
提供用于在帧中跟踪脸部部分的方法、装置和计算机程序产品。该方法、装置和计算机程序产品有助于减少在检测脸部部分时的计算数目。一旦完成检测,脸部部分的稳健实时跟踪确保不遗漏脸部部分。另外,使用更少计算来实现脸部部分的稳健跟踪。
如这里描述的那样,装置可以用于捕获和/或处理多媒体内容,比如图像帧或者视频帧。这样的装置的示例包括但不限于数码相机、摄像放像机、任何类型的移动终端、固定终端或者包括移动手持机的便携终端、多媒体计算机、多媒体平板计算机、因特网节点、通信器、台式计算机、膝上型计算机、个人数字助理(PDA)、音频和/或视频播放器、电子书设备、游戏设备或者其任何组合。多媒体内容的处理可以至少部分地包括在图像帧中检测对象(比如脸部部分)并且在后续图像帧中进一步跟踪对象。在图像帧中跟踪对象可以在视频编辑、视频压缩、安全和监控、人类计算机交互等中得以应用。
在一个实施例中,可以在相对高速率(比如每秒30帧)执行装置对多媒体内容的捕获。因而,在帧中实时检测对象并且后续跟踪对象可能是计算密集的并且是复杂的操作。可能在跟踪操作期间遗漏对象从而引起重新执行计算密集的对象检测操作。可能需要执行对象的稳健跟踪以用于确保在跟踪操作期间不遗漏对象。
如这里描述的那样,可以在多媒体内容的多个帧中的帧中检测对象,比如脸部部分。可以在至少一个后续帧中跟踪检测到的脸部部分。可以在失去对脸部部分的跟踪时执行脸部部分的颜色跟踪以用于重新跟踪脸部部分,由此确保稳健的跟踪操作。如这里所用的术语“帧”可以指代在装置中包括的图像帧和/或视频帧。另外,如这里所用的术语“脸部部分”可以指代人类的脸部、动物的脸部或者由装置在帧中完整地或者部分地捕获的对象的实质部分。另外,如这里所用的术语“颜色跟踪”指代使用亮度和颜色值来执行的跟踪操作并且这样可以不同于使用模式识别来执行的跟踪操作。可以在基于模式识别的跟踪遗漏对象(比如脸部部分)并且可能需要重新跟踪对象时使用颜色跟踪。如这里描述的那样,“颜色跟踪”指代使用特征(比如亮度和颜色)的跟踪,并且以别的方式使用的术语“跟踪”可以指代完全保持在帧中跟踪脸部部分或者基于模式识别执行跟踪。
在图1至图9中具体描述方法、装置和计算机程序产品。
图1是图示根据一个实施例的脸部部分的帧的示意图。帧100可以例如是装置中的多媒体内容的一部分。多媒体内容可以包括多个帧,比如帧100。多媒体内容的示例可以是视频帧序列或者图像帧序列。装置的示例包括但不限于数码相机、摄像放像机、任何类型的移动终端、固定终端或者包括移动手持机的便携终端、多媒体计算机、多媒体平板计算机、因特网节点、通信器、台式计算机、膝上型计算机、个人数字助理(PDA)、音频和/或视频播放器、电子书设备、游戏设备或者其任何组合。在帧100之后的多媒体内容中的一个或者多个帧也可以包括脸部部分102。可以先在帧100中检测并且随后在后续帧中跟踪脸部部分102。脸部框104可以如图1中所示放置于检测到的脸部部分102之上。脸部框104可以指代矩形形状的轮廓,该轮廓被配置用于标识帧100中的包括脸部部分102的区域。当在后续帧中跟踪脸部部分102时,脸部框104可以跟随脸部部分102的移动以用于在后续帧中定位于脸部部分102之上。
如这里描述的那样,各种实施例提供用于在多个帧中跟踪脸部部分的方法。另外,这里描述的各种实施例有助于在多个帧中的帧中检测脸部部分。在多个帧中的至少一个后续帧中跟踪检测到的脸部部分。在失去对脸部部分的跟踪时,执行脸部部分的颜色跟踪。执行脸部跟踪的颜色跟踪以重新跟踪脸部部分,由此确保脸部部分的稳健跟踪。在以下描述中通过使用流程图和示意图说明各种实施例。
图2是描绘根据一个实施例的用于在多个帧中跟踪脸部部分的示例方法的流程图。可以理解,为了描述方法200,这里可以参照图1。帧(比如包括脸部部分,比如如脸部部分102的帧100)可以是多媒体内容的多个帧的一部分。
在202,在装置中的多媒体内容的多个帧中的帧中检测脸部部分。在一个实施例中,在帧中检测脸部部分涉及到提供检测窗。检测窗可以被配置用于向帧中的像素集上叠加。因而,检测窗可以是M x N个像素大小。在一个实施例中,检测窗可以初始地定位于帧的最左上角。
可以基于至少一个分类函数层评估帧的由检测窗界定的像素集以用于在像素集中检测脸部部分。在一个形式中,分类函数通常基于脸部部分的特征集和对应阈值函数。特征集的示例包括但不限于双眼和嘴部部分。每个阈值函数具有用于相关联的特征的预定义特征阈值,该特征阈值指示该特征存在于检测窗中。在一个实施例中,评估检测窗中的像素集涉及到基于至少一个分类函数层中的第一分类函数层评估像素集。评估可以被配置用于计算用于一个或者多个定向角度的分类分数。在一个实施例中,一个或者多个定向角度可以对应于比如从零度至360度定向的所有可能定向角度。可以选择如下角度作为脸部部分的定向角度,该角度具有用于第一分类函数层的计算的分类分数中的最大分数。通过用脸部部分的如上述计算的定向角度、基于至少一个分类函数层执行像素集的评估来检测脸部部分。
在图3A和图3B中进一步说明对帧在检测窗中的像素集的评估。图3A和图3B是图示根据一个实施例的从一个或者多个定向角度选择脸部部分定向角度的示意图。图3A描绘用于选择脸部部分的定向角度的逻辑序列300a的示意表示。在图3A中描绘检测窗为块302。检测窗被配置用于向帧的像素集上叠加。检测窗定位于帧中的像素集之上,并且针对一个或者多个定向角度在第一分类函数层(在图3A中描绘为“层1”)之上评估由检测窗界定的像素集。例如,在图3A中,块304指代模型1,其中针对第一定向角度(角度1),在第一分类函数层之上评估像素集。块306指代模型2,其中针对第二定向角度(角度2),在第一分类函数层之上评估像素集。块308指代模型x,其中针对第x个定向角度(角度x),针对第一分类函数层评估像素集。以这一方式,在第一分类函数层之上针对一个或者多个定向角度评估像素集。角度(比如角度1、角度2至角度x)可以是从0度到360度定向角度中的任何角度。
针对一个或者多个定向角度,在第一分类函数层之上评估像素集。像素集的评估与分类分数相关联,该分类分数对应于针对其评估像素集的定向角度。在310,选择具有最大分数的定向角度作为脸部部分的定向角度(下文可互换地称为角度A)。针对脸部部分的定向角度,针对至少一个分类函数层评估像素集。在图3B中说明这一点。
图3B描绘逻辑序列300b的示意表示,该逻辑序列用于在至少一个分类函数层之上评估像素集以用于检测脸部部分。再次描绘检测窗为块302。利用被选择为脸部部分的所选定向角度(在图3B中描绘为角度A)的定向角度,在分类函数层(比如层1、层2和层n)之上评估由检测窗界定的像素集。在图3B中,块312指代模型A,其中利用被选择为脸部部分的定向角度的定向角度,针对分类函数层1评估像素集。如果在模型A中的评估期间检测到脸部部分(在图3B中描绘为“是”),则针对下一分类函数层评估像素集。如果在模型A中的评估期间未检测到脸部部分(在图3B中描绘为“否”),则在块316中将像素集归类为非脸部部分并且不针对像素集执行进一步评估。类似地,利用针对剩余分类函数层中的每个分类函数层作为脸部部分的定向角度的定向角度,针对所有剩余分类函数层评估像素集直至由块314描绘的分类函数层n。如果针对特定分类函数层,未检测到脸部部分,则在块316中停止像素的评估并且将像素集归类为非脸部部分。然而,如果针对剩余分类函数层中的每个分类函数层检测到存在脸部部分,则在块318确定在像素集中检测到脸部部分。在一个实施例中,可以在至少一个分类函数层中的所有分类函数层之上评估像素集以用于评估检测窗中的像素集。
在评估检测窗中的像素集时,在一个实施例中,可以向像素集的邻近像素集上遍历检测窗。在一个实施例中,可以按照第一步进大小向邻近像素集上遍历检测窗。可以基于至少一个分类函数层评估邻近像素集以用于在邻近像素集中检测脸部部分。在一个实施例中,用于在帧中检测脸部部分的第一步进大小在x和y方向上相对大。用于与四分之一视频图形阵列(QVGA)对应的帧的、在x和y方向上的大第一步进大小的示例可以分别是六个像素和四个像素。因而,初始地放置于与帧的最左上角对应的(0,0)的检测窗可以在x方向上遍历到(6,0)而在y方向上为(0,4)。
在向邻近像素集上遍历检测窗时,可以如在图3A和图3B中说明的那样执行邻近像素集的评估,并且因而可以在邻近像素集中检测脸部部分。跨越整个帧区域遍历检测窗以用于在帧中检测脸部部分。
在一个实施例中,针对多个比例中的一个或者多个比例在帧中执行脸部部分的检测,并且跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目,其中多个比例代表脸部部分的多个大小。例如,比例0至9可以代表在帧中可能的小脸部部分大小到最大脸部部分大小之间的脸部部分大小。例如,小脸部部分大小可以是20x20脸部大小,而最大脸部部分大小可以是200x200脸部部分大小。因此,可以针对各种比例执行脸部部分的检测以标识帧中的与各种比例对应的脸部大小。另外,跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目。例如,如果将针对十个比例执行脸部部分的检测,则可以针对第一个帧仅评估比例0至7并且可以针对后续帧评估比例8至9而不是跨越一个帧针对所有十个比例执行脸部部分的检测。在一个示例中,这样的方式可以在跨越多个帧划分计算负荷时有用。因此,可以处理多个帧中的所有帧。根据脸部部分的检测和/或跟踪的复杂性以及取景器应用的帧速率,跨越多个帧划分在其之上执行脸部部分的检测的比例数目。
在一个实施例中,跨越帧应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从帧去除非脸部部分。在一个实施例中,在评估检测窗中的像素集之前执行皮肤滤波器和纹理滤波器中的至少一个滤波器的应用。在一个实施例中,纹理滤波器基于局部二进制模式(LBP)。因而,基于LBP评估在帧中的每个位置的检测窗并且相应地将该检测窗与“1”和“0”之一相关联。仅选择具有在某一阈值以上的1(或者0)的连续得分(run)的那些检测窗以针对多个分类函数层来评估。将具有0(或者1)串(例如,在行中的阈值为三)的检测窗归类为非脸部部分并且从针对至少一个分类函数层的评估中丢弃这些检测窗。在一个示例中,这样的方式减少用于在帧中检测脸部部分的计算时间。
在多个帧中执行脸部部分的检测。针对多个帧中的其中未检测到脸部部分的帧,继而针对脸部部分的存在来评估帧的相继帧。当在帧中检测到脸部部分时,在相继帧中跟踪脸部部分。
在一个实施例中,按照预定义大小在多个帧中的相继帧中移位检测窗的起始点(例如,相位)以用于检测脸部部分。可以执行这样的方式以减轻用于在帧内遍历检测窗的在x和y方向上的大步进大小的影响。在一个实施例中,预定义大小在x和y方向上是三。在多个帧中的四个相继帧中的起始点则可以是(0,0)、(0,3)、(3,0)和(3,3)。按照大第一步进大小遍历检测窗并且在相继帧中移位起始点可以等效于将更少步进大小用于检测窗;然而,通过这样做,实现了减少用于检测脸部部分的计算数目。例如,与步进大小为三比较,可以针对等于六的步进大小需要数目为1/4的计算,并且计算可以针对每个帧得以减少75%。在一个示例中,通过在相继帧中移位起始点,如与在一个帧中检测脸部部分相比可以在4个帧中检测脸部部分,然而,用减少的计算数目检测相同脸部部分,由此减少在跟踪脸部部分期间的峰时间。在图4A和图4B中描绘在相继帧中移位起始点。
图4A和4B是图示根据一个实施例的帧中的检测窗和帧的相继帧中的具有移位的起始点的检测窗的示意图。在图4A中,屏幕截图400a描绘用于在帧中对检测窗定位的起始点。对起始点定位以使得检测窗的最左上角例如在(0,0)与帧的最左上角重合。用于帧中的检测窗的步进大小是六。因此,检测窗将随后遍历到(6,0)和(0,6)之一。图4B描绘用于图示图4A中描绘的帧的相继帧中的检测窗的起始点的屏幕截图400b。按照等于三的预定义大小移位检测窗的起始点。因而,描绘检测窗的最左上角为定位于(3,0)。由于用于遍历检测窗的步进大小是六,检测窗将随后遍历到(3,6)以用于检测脸部部分。因而,在图4B中描绘的帧之后的帧中,检测窗的起始点可以分别是(0,3)和(3,3)。
在一个实施例中,用于检测窗的步进大小可以在x和y方向上不同。例如,可以选择在x方向上的步进大小为六,并且可以选择在y方向上的步进大小为四。因而,检测窗在帧内的位置可以是((0,0),(6,0)....(0,4)(6,4)…),并且在相继帧中移位起始点时,检测窗在相继帧内的位置可以是((3,2),(9,2)....(3,6),(9,6)…)。
如这里描述的那样,在检测到脸部部分时,执行脸部部分的跟踪。再次参照图2,在204,当在帧中检测到脸部部分时,在多个帧中的至少一个后续帧中执行脸部部分的跟踪。跟踪脸部部分可以涉及到在至少一个后续帧的一个后续帧中的兴趣区域中检测脸部部分。兴趣区域对应于帧中的其中检测到脸部部分的区域。例如,针对帧中的大小为M x N的检测到的脸部部分,可以配置在帧中的检测到的脸部部分的坐标上居中的、大小为2M x2N的兴趣区域。针对在其中检测到脸部部分的帧之后的帧,在对应兴趣区域(例如,具有与帧中的其中检测到脸部部分的区域匹配的坐标的区域)中执行脸部部分的跟踪,例如,脸部部分的检测。
可以如在202说明的那样执行在兴趣区域中检测脸部部分,例如,可以提供检测窗并且可以评估由检测窗界定的兴趣区域中的像素集以用于检测脸部部分。可以如在图3A和图3B中说明的那样执行评估,例如,可以针对至少一个分类函数层中的第一分类函数层并且针对一个或者多个定向角度评估兴趣区域中的像素集。针对定向角度,可以计算分类分数并且选择具有最大分数的角度作为脸部部分的定向角度。继而,可以利用被选择为脸部部分的定向角度的定向角度、针对至少一个分类函数层评估像素集。可以通过跨越兴趣区域遍历检测窗并且随后评估由检测窗界定的每个像素集来在兴趣区域中检测脸部部分。在一个实施例中,以第二步进大小执行脸部部分的跟踪,例如,在兴趣区域中按照第二步进大小遍历检测窗。在一个实施例中,第二步进大小是两个像素。
在一个实施例中,脸部部分的跟踪被配置用于针对多个比例中的所选数目的比例来执行。可以基于已经在帧中针对其检测到脸部部分的比例来选择所选数目的比例。例如,如果在帧(先前帧)中在比例7检测到脸部部分,则可以针对在比例7上居中的仅三个比例(例如,比例6、比例8和比例9)执行在后续帧中执行的脸部部分的跟踪。在一个示例中,这样的方式可以用于减少在跟踪脸部部分期间的计算数目。在一个实施例中,在检测到脸部部分时,停用兴趣区域以用于排除在兴趣区域中进一步跟踪脸部部分。
在一个实施例中,在跟踪脸部部分期间,在任何比例,如果在兴趣区域中检测到的脸部部分实例数目超过阈值计数,则合并脸部部分的实例并且可以确定检测到脸部部分而未针对兴趣区域、针对剩余比例执行脸部部分的跟踪。
可以在后续帧的兴趣区域中跟踪脸部部分。然而,可能在跟踪操作期间失去对脸部部分的跟踪。再次参照图2,在206,当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪以用于在后续帧中重新跟踪脸部部分。在一个实施例中,当在兴趣区域中检测脸部部分失败时启动脸部部分的颜色跟踪。脸部部分的颜色跟踪基于亮度投影距离和颜色直方图距离中的至少一个距离。
图5是根据一个实施例的用于执行脸部部分的颜色跟踪的方法的流程图。当在多个帧中的至少一个后续帧中执行脸部部分时,针对其中检测到脸部部分的每个帧存储和更新检测到的脸部部分的ref_face_data。ref_face_data包括兴趣区域(例如,帧中的在先前帧中在其中检测到脸部部分的区域)的亮度信息(在亮度平面上的水平和竖直投影)和颜色直方图。在一个实施例中,将ref_face_data抽选(decimate)成20x20大小的窗,并且在20x20的窗上计算投影以减少计算。在大小为W x H的脸部部分上的水平亮度投影是通过针对特定行对所有列求和来获得的大小为1x H的矢量。类似地,在大小为W x H的脸部部分上的竖直亮度投影是通过针对特定列对所有行求和而获得的大小为1x W的矢量。在一个实施例中,可以根据抽选的ref_face_data计算并且可以针对红色、绿色和蓝色通道存储颜色直方图。
在502,针对其中检测到脸部部分的每个帧、针对每个兴趣区域更新参考水平亮度投影(也称为face_H_proj)、参考竖直亮度投影(也称为face_V_proj)和颜色直方图(也称为face_hist)。在失去对脸部部分的跟踪时,启动颜色跟踪。当在先前帧中遗漏大小为W x W的脸部部分时,当前兴趣区域被视为先前脸部部分的坐标在当前帧中的共同定位位置上居中的2W x2W。在一个实施例中,将大小为W x W的脸部和大小为2W x2W的兴趣区域分别按比例缩减成20x20和40x40。在兴趣区域中,跨越整个帧平铺20x20测试窗,并且针对每个测试窗计算水平投影、竖直投影和颜色直方图。
因而,在504,计算用于至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图。兴趣区域具有与检测到的脸部部分在先前帧中的坐标匹配的坐标。在一个示例中,兴趣区域在帧中的其中检测到脸部部分的区域上居中。用于每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图也分别被称为test_H_proj_x_y、text_V_x_y和test_hist_x_y(test_H_proj_x_y是兴趣区域中的在位置(x,y)居中的20x20窗的水平投影矢量;text_V_x_y是兴趣区域中的在位置(x,y)居中的20x20窗的竖直投影矢量;并且test_hist_x_y是通过缩放兴趣区域中的像素值、使用16个仓来实施的颜色直方图)。
在一个实施例中,其后基于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算亮度投影距离(也称为d1(face,text_x_y)或者“d1”)。因而,在506,如下基于参考水平亮度投影(face_H_proj)和每个测试检测窗的计算的水平亮度投影(test_H_proj_x_y)之差的绝对值以及参考竖直亮度投影(face_V_proj)和每个测试检测窗的计算的竖直亮度投影(test_V_proj_x_y)之差的绝对值计算用于每个测试检测窗的亮度投影距离:
dl(face,test_x_y)=∑{abs(face_H_proj(i)-test_H_proj_x_y(i))+abs(face_V_proj(i)-test_V_proj_x_y(i))}
其中针对兴趣区域中的在位置(x,y)居中的每个测试窗计算在参考投影与测试投影之间的亮度投影距离(d1(face,test_x_y)或者d1),并且其中i范围从1至20并且Test_H_proj_x_y(y)=∫I(x,y).dx,其中I(x,y)是大小为20x20的框。
基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于测试检测窗的颜色直方图距离(也称为d2(face,test_x_y)或者“d2”)。因而,在508,如下基于参考颜色直方图与用于每个测试检测窗的计算的颜色直方图之差计算颜色直方图距离:
d2(face,test_x_y)=∑∑{face_hist[i][c]-test_hist_x_y[i][c]}*{face_hist[i][c]-test_hist_x_y[i][c]}
其中针对抽选的兴趣区域中的在(x,y)居中的每个20x20测试窗构建颜色直方图,并且其中i是仓索引,0<=i<16,并且c是色通道索引,0<=c<3。
基于用于每个测试检测窗的亮度投影距离(d1)和颜色直方图距离(d2)确定脸部部分在兴趣区域中的存在。如果亮度投影距离的最小值低于第一阈值(K1)并且颜色直方图距离低于第二阈值(T1),则确定脸部部分存在。因而,在510,检查亮度投影距离的最小值是否低于K1并且颜色直方图距离是否低于T1。如果表示d1在(x1,y1)位置的最小值为Min_d1(x1,y1)并且d2(x1,y1)是颜色直方图距离的值的表示,则对脸部部分存在的确定可以基于表达式:
If(Min_dl(xl,yl)<Kl)&&(d2(xl,yl)<Tl)),则可以确定检测到脸部部分。
然而如果未满足表达式,则如果亮度投影距离(d1)的最小值在K1与第三阈值(K2)之间并且颜色直方图距离的最小值大于T1但是低于第四阈值(T2),则确定脸部部分存在。因而,在510,检查亮度投影距离(d1)的最小值是否在K1与K2之间并且颜色直方图距离的最小值是否低于T2。如果d2在(x1,y1)位置的最小值是Min_d2(x1,y1),则可以如下表达对脸部部分存在的确定:
Figure BDA00002841508000201
Figure BDA00002841508000211
否则,确定脸部部分不存在。
另外,可以在确定亮度投影距离(d1)的最小值大于第三阈值(K2)时确定脸部部分不存在。在一个实施例中,第一阈值(K1)、第二阈值(T1)、第三阈值(K2)和第四阈值(T2)的值分别是15*256、40*256、7000和6500。
因此,在测试检测窗中执行脸部部分的确定,并且基于测试检测窗中的脸部部分的确定来确定脸部部分在兴趣区域中的存在。
在一个实施例中,可以将脸部部分的颜色跟踪划分成两个阶段——计算亮度投影距离(也称为“颜色跟踪阶段1”)和计算颜色直方图距离(也称为“颜色跟踪阶段2”)。在图6中说明颜色跟踪的两个阶段。图6是图示根据一个实施例的用于执行脸部部分的颜色跟踪的逻辑序列600的示意图。如在图2中说明的那样执行在帧中跟踪脸部部分。在602,在帧中检测脸部部分的存在。如果检测到、例如未遗漏脸部部分,则在604在后续中继续跟踪脸部部分。如果遗漏脸部部分的跟踪,则在帧中执行脸部部分的颜色跟踪。在失去对脸部部分的跟踪时,可以如在图5中说明的那样执行颜色跟踪阶段1,例如,可以计算亮度投影距离。基于亮度投影距离,可以在606确定是否检测到脸部部分。如果颜色跟踪阶段1检测到脸部部分,则在608在后续帧中继续跟踪脸部部分。如果在颜色跟踪阶段1期间未检测到脸部部分,则如在图5中说明的那样在帧中执行颜色跟踪阶段2,例如,可以计算颜色直方图距离。基于颜色直方图距离,可以在610确定是否在颜色跟踪阶段2期间检测到脸部部分。如果在颜色跟踪阶段2期间检测到脸部部分,则在612在后续帧中继续跟踪脸部部分。如果在颜色跟踪阶段2期间未检测到脸部部分,则在614确定在帧中遗漏脸部部分。
在一个实施例中,可以跨越若干帧分离地操作脸部部分的跟踪、颜色跟踪阶段1和颜色跟踪阶段2以跨越帧分布复杂度,或者可以在单个帧中执行所有三个跟踪。
在一个实施例中,在失去对脸部部分的跟踪时执行颜色跟踪,并且例如在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时,仅在跟踪脸部部分达预定义数目的相继帧并且此后失去对脸部部分的跟踪之后启动颜色跟踪。至少一个后续帧的相继帧的预定义数目(n)可以是常数并且可以被称为“稳定度阈值”。在一个实施例中,预定义数目(n)可以是从2至9的任何数目。在一个示例中,这样的方式将提供稳健性并且即使在脸部部分的检测给出任何乱真误判(spurious false positive)时仍然将消除任何误导的错误跟踪。
在一个实施例中,方法200或者500还包括在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧(K)时针对其中跟踪脸部部分的每个兴趣区域计算参考颜色直方图。相继帧(K)的预定义数目可以是常数并且可以被称为“可靠度阈值”。在一个实施例中,预定义数目(n)可以是从2至9的任何数目。在一个示例中,这样的方式将确保未受颜色跟踪由于在检测脸部部分期间的误判而变得被误导所影响的稳健性。
也可以解决颜色跟踪在可变比例的环境(放大或者缩小)中的可适应性。可以针对不同比例执行颜色跟踪,并且可以通过跨越所有比例合并脸部框(包围检测到的脸部部分的文本框)计算最佳匹配候选。例如,如果跟踪的脸部部分大小为M x M,则可以在不同比例M x M、1.25M x1.25M和0.75M x0.75M中执行颜色跟踪,并且可以通过跨越所有比例合并检测到的脸部部分计算用于脸部部分的最佳匹配。这样的方式可以确保脸部跟踪将在比例变化(比如放大和缩小)中成功地跟踪脸部部分。
图7是根据一个实施例的装置(比如用于在多个帧中跟踪脸部部分的装置700)的框图。装置700可以包括至少一个存储器702和至少一个处理器704。本领域技术人员将清楚,装置700可以包括多个存储器和多个处理器。存储器702可以被配置用于存储计算机程序代码和多媒体内容,比如图像帧和视频帧。存储器702可以是易失性存储器或者非易失性存储器。一个或者多个存储器702的示例包括但不限于硬驱动、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、CD-ROM或者闪存。可以在装置700内持久地包含存储器702。另外,至少一个处理器的示例可以包括但不限于一个或者多个微处理器、具有附带数字信号处理器的一个或者多个处理器、不具有附带数字信号处理器的一个或者多个处理器、一个或者多个专用计算机芯片、一个或者多个现场可编程门阵列(FPGA)、一个或者多个控制器、一个或者多个专用集成电路(ASIC)或者一个或者多个计算机。
装置700可以包括多媒体内容,比如图像帧或者视频帧。备选地,装置700可以从数码相机/摄像放像机、任何类型的移动终端、固定终端或者包括移动手持机的便携终端、多媒体计算机、多媒体平板计算机、因特网节点、通信器、台式计算机、膝上型计算机、个人数字助理(PDA)、音频和/或视频播放器、电子书设备和游戏设备中的至少一个设备接收多媒体内容。可能需要在图像帧中检测并且在后续图像帧中进一步跟踪对象,比如脸部部分。在图像帧中跟踪对象可以在视频编辑、视频压缩、安全和监控、人类计算机交互等中得到应用。存储器702和计算机程序代码被配置用于与处理器704一起使装置700在多个帧中跟踪脸部部分。
存储器702和计算机程序代码部分被配置用于与处理器704一起使装置700在多媒体内容的多个帧中的帧中检测脸部部分的存在。在一个实施例中,至少部分地还使装置700提供用于在帧中检测脸部部分的检测窗。检测窗可以被配置用于向帧中的像素集上叠加。因而,检测窗可以是M x N个像素大小。检测窗可以初始地定位于帧的最左上角。
在一个实施例中,至少部分地还使装置700基于至少一个分类函数层评估由检测窗界定的像素集以用于在像素集中检测脸部部分。在一个实施例中,评估检测窗中的像素集涉及到基于至少一个分类函数层中的第一分类函数层评估像素集。评估可以被配置用于计算用于一个或者多个定向角度的分类分数。一个或者多个定向角度可以对应于所有可能定向角度,比如从零度至360度定向的所有可能定向角度。如在图3A中说明的那样,可以选择如下角度作为脸部部分的定向角度,该角度具有用于第一分类函数层的计算的分类分数中的最大分数。可以如图3B中说明的那样通过基于至少一个分类函数层和脸部部分的定向角度执行像素集的评估来检测脸部部分。在一个实施例中,可以在至少一个分类函数层中的所有分类函数层之上评估像素集以用于评估检测窗中的像素集。
在一个实施例中,至少部分地还使装置700按照第一步进大小向像素集的邻近像素集上遍历检测窗。基于至少一个分类函数层评估邻近像素集以用于在邻近像素集中检测脸部部分。在一个实施例中,用于在帧中检测脸部部分的第一步进大小可以在x和y方向上相对大。在x和y方向上的大第一步进大小的示例可以分别是六个像素和四个像素。因而,如在图2中说明的那样,初始地放置于与帧的最左上角对应的(0,0)的检测窗可以在x方向上遍历到(6,0)而在y方向上为(0,4)。
在向邻近像素集上遍历检测窗时,可以如在图3A和图3B中说明的那样执行邻近像素集的评估,并且因而,可以在邻近像素集中检测脸部部分。跨越整个帧区域遍历检测窗以用于在帧中检测脸部部分。
在一个实施例中,至少部分地还使装置700配置针对多个比例中的一个或者多个比例在帧中检测脸部部分,并且跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目,其中多个比例代表脸部部分的多个大小。例如,比例0至9可以代表在帧中可能的小脸部部分大小到最大脸部部分大小之间的脸部部分大小。例如,小脸部部分大小可以是20x20脸部大小,而最大脸部部分大小可以是200x200脸部部分大小。因此,可以针对各种比例执行脸部部分的检测以标识帧中的与各种比例对应的脸部大小。另外,跨越多个帧划分在其之上执行脸部部分的检测的多个比例的比例数目。例如,如果将针对十个比例执行脸部部分的检测,则可以针对第一个帧仅评估比例0至7并且可以针对后续帧评估比例8至9而不是跨越一个帧针对所有十个比例执行脸部部分的检测。
在一个实施例中,至少部分地还使装置700跨越帧应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从帧去除非脸部部分。在一个实施例中,在评估检测窗中的像素集之前执行皮肤滤波器和纹理滤波器中的至少一个滤波器的应用。在一个实施例中,纹理滤波器基于局部二进制模式(LBP)。根据LBP,如果按照90度的倍数改变定向,则可以仅通过LBP脸部空间的按照2位倍数的右/左移位和竖直或者水平镜像来实现等效LBP定向。在搜寻90度旋转的脸部部分的情况下,可以右/左移位并且水平/竖直镜像原LBP图像以获得旋转效果。然而,考虑LBP的旋转不变性这一特征,利用具有零度定向的仅一个模型足以搜寻90度倍数的脸部部分旋转。
因而,基于LBP评估在帧中的每个位置的检测窗并且相应地将该检测窗与“1”和“0”之一相关联。仅选择具有在某一阈值以上的1(或者0)的连续得分的那些检测窗以针对多个分类函数层来评估。将具有0(或者1)串(例如,在行中的阈值为三)的检测窗归类为非脸部部分并且从针对多个分类函数层的评估中丢弃这些检测窗。在一个示例中,这样的方式减少用于在帧中检测脸部部分的计算时间。
在多个帧中执行脸部部分的检测。针对多个帧中的其中未检测到脸部部分的帧,继而针对脸部部分的存在来评估帧的相继帧。当在帧中检测到脸部部分时,在相继帧中跟踪脸部部分。
在一个实施例中,至少部分地还使装置700按照预定义大小在多个帧中的相继帧中移位检测窗的起始点(相位)以用于检测脸部部分。在一个实施例中,预定义大小在x和y方向上是三。如在图4A和图4B中说明的那样,在多个帧中的四个相继帧中的起始点继而可以是(0,0)、(0,3)、(3,0)和(3,3)。
在一个实施例中,至少部分地还使装置700当在帧中检测到脸部部分时在多个帧中的至少一个后续帧中执行脸部部分的跟踪。跟踪脸部部分可以涉及到在至少一个后续帧的后续帧中的兴趣区域中检测脸部部分。兴趣区域对应于帧中的其中检测到脸部部分的区域。例如,针对帧中的大小为M x N的检测到的脸部部分,可以配置在帧中的检测到的脸部部分的坐标上居中的、大小为2M x2N的兴趣区域。针对在其中检测到脸部部分的帧之后的帧,在对应兴趣区域(例如,具有与帧中的其中检测到脸部部分的区域匹配的坐标的区域)中执行脸部部分的跟踪,例如,脸部部分的检测。
可以如在图2中说明的那样执行在兴趣区域中检测脸部部分,例如,可以提供检测窗并且可以评估由检测窗界定的兴趣区域中的像素集以用于检测脸部部分。可以如在图3A和图3B中说明的那样执行评估,例如,可以针对至少一个分类函数层中的第一分类函数层并且针对一个或者多个定向角度评估兴趣区域中的像素集。针对定向角度,可以计算分类分数,并且选择具有最大分数的角度作为脸部部分的定向角度。继而,可以利用被选择为脸部部分的定向角度的定向角度、针对至少一个分类函数层评估像素集。可以通过跨越兴趣区域遍历检测窗并且随后评估由检测窗界定的每个像素集来在兴趣区域中检测脸部部分。在一个实施例中,在第二步进大小执行脸部部分的跟踪,例如,在兴趣区域中按照第二步进大小遍历检测窗。在一个实施例中,第二步进大小是两个像素。
在一个实施例中,至少部分地还使装置700配置针对多个比例中的所选数目的比例执行的脸部部分的跟踪。可以基于已经在帧中针对其检测到脸部部分的比例来选择所选数目的比例。例如,如果在帧(先前帧)中在比例7检测到脸部部分,则可以针对在比例7上居中的仅三个比例(例如,比例6、比例8和比例9)执行在后续帧中执行的脸部部分的跟踪。在示例中,这样的方式可以用于减少在跟踪脸部部分期间的计算数目。在一个实施例中,在检测到脸部部分时,停用兴趣区域以用于排除在兴趣区域中进一步跟踪脸部部分。
在一个实施例中,在跟踪脸部部分期间,在任何比例,如果在兴趣区域中检测到的脸部部分的实例数目超过阈值计数,则合并脸部部分的实例并且可以确定检测到脸部部分而不针对被检测为脸部部分的兴趣区域、针对剩余比例执行脸部部分的跟踪。
可以在至少一个后续帧的对应兴趣区域中跟踪脸部部分。然而,可能在跟踪操作期间失去对脸部部分的跟踪。当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。在一个实施例中,在兴趣区域中检测脸部部分失败时启动脸部部分的颜色跟踪。在一个实施例中,脸部部分的颜色跟踪基于亮度投影距离和颜色直方图距离中的至少一个距离。
在一个实施例中,至少部分地还使装置700通过计算用于在至少一个后续帧的后续帧中的兴趣区域上居中的多个测试检测窗中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图来执行颜色跟踪。在一个实施例中,至少部分地还使装置700基于用于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于每个测试检测窗的亮度投影距离。在一个实施例中,至少部分地还使装置700基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于每个测试检测窗的颜色直方图距离。另外,基于用于每个测试检测窗的亮度投影距离和颜色直方图距离在兴趣区域中确定脸部部分的存在。
如在图5中说明的那样,针对其中检测到脸部部分的每个帧存储和更新检测到的脸部部分的ref_face_data。ref_face_data包括兴趣区域(例如,帧中的在其中检测到脸部部分的区域)的亮度信息(在亮度平面上的水平和竖直投影)和颜色直方图。将ref_face_data抽选成20x20大小的窗,并且在20x20窗上计算投影以减少计算。在大小为W x H的脸部部分上的水平亮度投影是通过针对特定行对所有列求和来获得的大小为1x H的矢量。类似地,在大小为W x H的脸部部分上的竖直亮度投影是通过针对特定列对所有行求和而获得的大小为1x W的矢量。可以根据抽选的ref_face_data计算并且可以针对红色、绿色和蓝色通道存储颜色直方图。
另外,计算用于至少一个后续帧的后续帧中的兴趣区域中的每个测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图。兴趣区域具有与检测到的脸部部分在先前帧中的坐标匹配的坐标。在一个示例中,兴趣区域在帧中的其中检测到脸部部分的区域上居中。此后,基于每个测试检测窗的水平亮度投影和竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于每个测试检测窗的亮度投影距离。在一个实施例中,至少部分地还使装置700如在图5中说明的那样基于参考水平亮度投影和每个测试检测窗的计算的水平亮度投影之差的绝对值以及参考竖直亮度投影和每个测试检测窗的计算的竖直亮度投影之差的绝对值计算用于每个测试检测窗的亮度投影距离。
在一个实施例中,至少部分地还使装置700基于用于每个测试检测窗的颜色直方图和参考颜色直方图计算用于每个测试检测窗的颜色直方图距离。因而,如在图5中说明的那样基于用于参考颜色直方图与用于每个测试检测窗的计算的颜色直方图之差计算用于每个测试检测窗的颜色直方图距离。
在一个实施例中,至少部分地还使装置700基于亮度投影距离(d1)和颜色直方图距离(d2)确定脸部部分的存在。在一个实施例中,至少部分地还使装置700如在图5中说明的那样如果亮度投影距离的最小值低于第一阈值(K1)并且颜色直方图距离低于第二阈值(T1)则确定脸部部分存在。在一个实施例中,至少部分地还使装置700如果亮度投影距离(d2)的最小值在K1与第三阈值(K2)之间并且颜色直方图距离的最小值大于T1但是低于第四阈值(T2)则确定脸部部分存在于兴趣区域中。
在一个实施例中,至少部分地还使装置700如果亮度投影距离(d1)的最小值大于第三阈值(K2)则确定脸部部分不存在。在一个实施例中,第一阈值(K1)、第二阈值(T1)、第三阈值(K2)和第四阈值(T2)的值分别是15*256、40*256、7000和6500。
因此,在每个测试检测窗中执行脸部部分的确定,并且基于测试检测窗中的脸部部分的确定来确定脸部部分存在于兴趣区域中。
在一个实施例中,至少部分地还使装置700在失去对脸部部分的跟踪时执行颜色跟踪,并且例如在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧时,仅在跟踪脸部部分达预定义数目的相继帧并且此后失去对脸部部分的跟踪之后启动颜色跟踪。至少一个后续帧的相继帧的预定义数目(n)可以是常数并且可以被称为“稳定度阈值”。在一个实施例中,预定义数目(n)可以是从2至9的任何数目。
在一个实施例中,至少部分地还使装置700在跟踪脸部部分达至少一个后续帧的预定义数目的相继帧(K)时针对其中跟踪脸部部分的每个兴趣区域计算参考颜色直方图。相继帧(K)的预定义数目可以是常数并且可以被称为“可靠度阈值”。在一个实施例中,预定义数目(n)可以是从2至9的任何数目
另外,本公开内容的一个实施例可以采用一种在计算机可读存储介质上的、用于在多媒体内容的多个帧中跟踪脸部部分的计算机程序产品的形式,该计算机可读存储介质具有在计算机可读存储介质中体现的计算机可读程序指令(例如,计算机软件)。可以利用包括硬盘、CD-ROM、RAM、ROM、闪存、光学存储设备或者磁存储设备的任何适当计算机可读存储介质(此后称为“存储介质”)。
上文参照体现本公开内容的方法和装置的框图和流程图图示描述了各种实施例。将理解,框图和流程图图示的各种块的功能以及以及框图和流程图图示的各种块的功能的组合分别可以由计算机程序指令集实施。可以向通用计算机、专用计算机或者其它可编程数据处理装置上加载这些指令集以产生机器,从而使得指令集当在计算机或者其它可编程数据处理装置上被执行时创建用于实施在流程图的一个或者多个块中指定的功能的装置。然而,也可以运用包括如这里描述的硬件、固件和软件的各种组合的、用于实施功能的其它装置。
这些计算机程序指令也可以存储于计算机可读介质中,该计算机可读介质可以指引计算机或者其它可编程数据处理装置以特定方式工作,从而使得存储于计算机可读存储器中的指令产生包括计算机可读指令的制造品,这些指令用于实施在方法200或者500的流程图中指定的功能。也可以向计算机或者其它可编程数据处理装置上加载计算机程序指令以使一系列操作步骤在计算机或者其它可编程装置上执行以产生计算机实施的过程,从而使得在计算机或者其它可编程装置上执行的指令提供用于实施在方法200或者500的流程图中指定的功能/方法的步骤。
在一个实施例中,本公开内容也提供一种装置,该装置用于在装置或者装置可访问的任何外部设备中存储的多个帧中的脸部部分跟踪。该装置可以包括用于执行根据各种实施例的至少一个功能(包括这里示出和描述的功能)的各种装置。应当理解,该装置可以包括用于执行至少一个类似功能的备选装置而未脱离本公开内容的精神实质和范围。
能够作为装置(例如,装置700)来操作的实体可以包括用于在装置的多媒体内容中的多个帧中的帧中检测脸部部分的装置。该装置还包括用于在帧的至少一个后续帧中跟踪脸部部分的装置。该装置还包括用于当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪的装置。可以执行颜色跟踪以用于在至少一个后续帧中重新跟踪脸部部分。可以使用硬件、软件、固件或者其组合来实施该装置的这样的装置。为了描述的简洁,未再次描述用于提供对数字图像的访问的所述装置的功能,因为已经在方法200和500的流程图以及装置700中描述了这些功能。
可以有利地经由软件、硬件、固件或者软件和/或固件和/或硬件的组合来实施这里描述的用于提供脸部部分跟踪的过程。例如,可以有利地经由处理器、数字信号处理(DSP)芯片、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等实施这里描述的过程,这些过程包括更新图元集和检测用户输入的导航模式。下文具体描述这样的用于执行描述的功能的硬件。
图8是根据一个实施例的移动终端800的示图。移动终端800可以是根据一个实施例的装置700的示例或者如上文描述的用于在多个帧中跟踪脸部部分的装置。另外,可以在移动终端800中实施这里描述的方法,比如方法200和500及它的其它变化。在一些实施例中,移动终端800或者其部分构成用于在多媒体内容中的多个帧中的帧中检测脸部部分、在帧的至少一个后续帧中跟踪脸部部分、当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪的装置。一般而言,经常在前端和后端特性方面定义移动终端800。移动终端800的前端涵盖所有射频(RF)电路,而后端涵盖所有基带处理电路。如在本申请中所用,术语“电路”指代:(1)仅硬件的实现方式(比如在仅模拟和/或数字电路中的实现方式)和(2)电路与软件(和/或固件)的组合(比如如果适用于特定情境则指代包括数字信号处理器的处理器、软件和存储器的组合,这些处理器、软件和存储器一起工作以使装置、比如移动电话或者服务器执行各种功能)二者。“电路”的这一定义适用于这一术语在本申请中(包括在任何权利要求中)的所有使用。作为又一示例,如在本申请中所用并且如果适用于特定情境,则术语“电路”也将覆盖仅一个处理器(或者多个处理器)及其附带软件/或者固件的实现方式。术语“电路”如果适用于特定情境则也将例如覆盖基带集成电路或者在移动电话中的应用处理器集成电路或者在蜂窝网络设备或者其它网络设备中的相似集成电路。
移动终端800的相关内部部件包括主控制单元(MCU)802、数字信号处理器(DSP)804和接收器/发射器单元,该接收器/发射器单元包括麦克风增益控制单元和扬声器增益控制单元。主显示单元806向多个帧提供显示。显示器806包括显示电路,该显示电路被配置用于显示移动终端800(例如,移动电话)的用户接口的至少部分。此外,显示器806和显示电路被配置用于有助于用户控制移动终端800的至少一些功能。音频功能电路808包括麦克风810和放大从麦克风810输出的话音信号的麦克风放大器。向编码器/解码器(CODEC)812馈送从麦克风810输出的放大的话音信号。
无线电部814放大功率并且转换频率以便经由天线816与在移动通信系统中包括的基站通信。如本领域中所知,功率放大器(PA)818和发射器/调制电路在操作上响应于MCU802而来自PA818的输出耦合到双工器820或者循环器或者天线开关。PA818也耦合到电池接口和功率控制单元819。
在使用中,移动终端800的用户向麦克风810中说话,并且他的或者她的语音与任何检测到的背景噪音一起被转换成模拟电压。继而通过模数转换器(ADC)822将模拟电压转换成数字信号。控制单元802向DSP804中路由数字信号以用于其中的处理,比如话音编码、信道编码、加密和交织。在一个实施例中,未单独示出的单元使用蜂窝传输协议(比如全球演进(EDGE)、通用分组无线电服务(GPRS)、全球移动通信系统(GSM)、网际协议多媒体子系统(IMS)、通用移动电信系统(UMTS)等)以及任何其它适当无线介质(例如微波接入(WiMAX)、长期演进(LTE)网络、码分多址(CDMA)、宽带码分多址(WCDMA)、无线保真(WiFi)、卫星等)对处理的语音信号编码。
继而,向均衡器824路由编码的信号以用于补偿在经过空气传输期间出现的任何依赖于频率的削弱,比如相位和幅度失真。在均衡位流之后,调制器826组合信号与在RF接口828中生成的RF信号。调制器826通过频率或者相位调制来生成正弦波。为了预备信号以用于传输,增频转换器830组合从调制器828输出的正弦波与由合成器832生成的另一正弦波以实现希望的传输频率。继而,通过PA818发送信号以将信号增加至适当功率电平。在实际系统中,PA818充当可变增益放大器,该放大器的增益由DSP804根据从网络基站接收的信息来控制。继而,在双工器820内对信号滤波并且可选地向天线耦合器834发送以匹配阻抗从而提供最大功率传送。最后,经由天线816向本地基站传输信号。可以供应自动增益控制(AGC)以控制接收器的末级的增益。可以从这里向远程电话转发信号,该远程电话可以是另一蜂窝电话、其它移动电话或者是连接到公共交换电话网络(PSTN)或者其它电话网络的陆线。
经由天线816接收向移动终端800传输的语音信号并且立即由低噪声放大器(LNA)836放大。降频转换器838降低载波频率而解调器840剥离RF从而仅留下数字位流。信号继而穿过均衡器824并且由DSP804处理。数模转换器(DAC)842转换信号并且通过扬声器844向用户传输所得输出,所有这些都在主控制单元(MCU)802(可以实施该MCU为中央处理单元(CPU)(未示出))的控制之下。
MCU802接收包括来自键盘846的输入信号的各种信号。与其它用户输入部件(例如,麦克风810)组合键盘846和/或MCU802包括用于管理用户输入的用户接口电路。MCU802运行用户接口软件以有助于用户控制移动终端800的用于导航以访问数字图像并且基于导航的模式显示图元集的至少一些功能。MCU802也分别向显示器807和向话音输出切换控制器递送显示命令和切换命令。另外,MCU802与DSP804交换信息并且可以访问可选地并入的SIM卡848和存储器850。此外,MCU802执行终端的所需的各种控制功能。DSP804可以根据实现方式对语音信号执行多种常规数字处理功能中的任何数字处理功能。此外,DSP804根据由麦克风810检测的信号确定本地环境的背景噪声电平并且将麦克风810的增益设置成为了补偿移动终端800的用户的自然倾向而选择的电平。
CODEC812包括ADC822和DAC842。存储器850存储包括呼叫传入音频数据的各种数据并且能够存储包括例如经由全球因特网接收的音乐数据的其它数据。软件模块可以驻留于RAM存储器、闪存、寄存器或者本领域已知的任何其它形式的可写入存储介质中。存储器设备850可以是但不限于单个存储器、CD、DVD、ROM、RAM、EEPROM、光学储存器或者是能够存储数字数据的任何其它非易失性存储介质。
可选地并入的SIM卡848例如承载重要信息,比如蜂窝电话号码、载体供应服务、预订细节和安全信息。SIM卡848主要服务于在无线电网络上标识移动终端800。卡848也包含用于存储个人电话号码注册表、文本消息和用户专属移动终端设置的存储器。
图9图示根据一个实施例的计算机系统900的示图。计算机系统900可以是根据一个实施例的装置700的示例或者如上文描述的用于在多个帧中跟踪脸部部分的装置。另外,可以在计算机系统900中实施这里描述的方法,比如方法200和500及它的其它变化。虽然关于特定设备或者装备描绘计算机系统900,但是设想图9内的其它设备或者装备(例如,网元、服务器等)可以部署系统900的所示硬件和部件。计算机系统900被编程(例如,经由计算机程序代码或者指令)用于提供如这里描述的那样在设备的多媒体内容中的多个帧中的帧中检测脸部部分、跟踪脸部部分并且在失去对脸部部分的跟踪时执行颜色跟踪以用于重新跟踪脸部部分并且包括通信机制,比如用于在计算机系统900的其它内部与外部部件之间传递信息的总线910。将信息(也称为数据)表示为可测量现象的物理表达,该现象通常为电压,但是在其它实施例中包括比如磁、电磁、压力、化学、生物、分子、原子、亚原子和量子互作用这样的现象。例如,北和南磁场或者零和非零电压代表二进制数(位)的两个状态(0,1)。其它现象可以代表更高基数的数。多个同时量子状态在测量之前的叠加代表量子位(qubit)。一个或者多个数的序列构成数字数据,该数字数据用来代表用于字符的编号或者代码。在一些实施例中,被称为模拟数据的信息由在特定范围内的可测量值的近连续统代表。计算机系统900或者其部分构成用于在多媒体内容中的多个帧中的帧中检测脸部部分的存在、在帧的至少一个后续帧中跟踪脸部部分并且当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪的装置。
总线910包括一个或者多个并行信息导体,从而使得在耦合到总线910的设备之间快速传送信息。用于处理信息的一个或者多个处理器902与总线910耦合。
一个处理器(或者多个处理器)902对信息执行如与响应于图像访问应用来高速缓存图元集、检测用户输入的导航模式并且基于导航模式更新图元集有关的计算机程序代码指定的操作集。计算机程序代码是用于处理器和/或计算机系统的操作以执行指定功能的指令或者提供指令的语句的集合。例如,可以用编译成处理器的本机指令集的计算机编程语言编写代码。也可以使用本机指令集(例如,机器语言)来直接编写代码。操作集包括从总线910带入信息以及将信息置于总线910上。操作集也通常包括比较两个或者更多信息单位、移位信息单位的位置以及比如通过加法或者乘法或者逻辑运算如OR、异或(XOR)和AND来组合两个或者更多信息单位。由被称为指令的信息(比如一个或者多个数的操作代码)向处理器表示处理器可以执行的操作集的每个操作。将由处理器902执行的操作序列(比如操作代码序列)构成也被称为计算机系统指令或者简称为计算机指令的处理器指令。可以独自或者组合实施处理器为机械、电、磁、光学、化学或者量子部件以及其它部件。
计算机系统900也包括耦合到总线910的存储器904。存储器904(比如随机存储器存储器(RAM)或者其它动态存储设备)存储信息,该信息包括用于在多媒体内容中的多个帧中的帧中检测脸部部分、在帧的至少一个后续帧中跟踪脸部部分并且当在至少一个后续帧中失去对脸部部分的跟踪时执行脸部部分的颜色跟踪的处理器指令。动态存储器允许其中存储的信息由计算机系统900改变。RAM允许在被称为存储器地址的位置存储的信息单位与在邻近地址的信息独立地存储和取回。存储器904也由处理器902用来在执行处理器指令期间存储临时值。计算机系统900也包括耦合到总线910的只读存储器(ROM)906或者其它静态存储设备,该ROM或者其它静态存储设备用于存储计算机系统900未改变的包括指令的静态信息。一些存储器由在失去电力时丢失在其上存储的信息的易失性储存器组成。非易失性(持久)存储设备908(比如磁盘、光盘或者闪卡)也耦合到总线910,该非易失性(持续)存储设备用于存储即使在计算机系统900被关断或者以别的方式失去电力时仍然持续的包括指令的信息。
可以从外部输入设备912(比如包含由人类用户操作的文字数字键的键盘、PS2鼠标或者传感器)向总线910提供信息以用于由处理器使用,该信息包括用于跟踪脸部部分的指令。传感器检测在它附近的条件并且将那些检测变换成与用来代表计算机系统900中的信息的可测量现象兼容的物理表达。主要用于与人类交互的、耦合到总线910的其它外部设备包括用于呈现文字或者图像的显示设备914(比如阴极射线管(CRT)或者液晶显示器(LCD)或者等离子体屏幕)以及用于控制在显示器914上呈现的小光标图像的位置并且发出与在显示器914上呈现的图元相关联的命令的指点设备916,比如鼠标或者跟踪球或者光标方向键或者运动传感器。在一些实施例中(例如在其中计算机系统900自动执行所有功能而无人类输入的实施例中),省略外部输入设备912、显示设备914和指示设备916中的一个或者多个设备。
在所示实施例中,专用硬件(比如专用集成电路(ASIC)920)耦合到总线910。专用硬件被配置用于出于特殊目的而足够快地执行处理器902未执行的操作。专用IC的示例包括用于为显示器914生成图像的图形加速器卡、用于加密和解密通过网络发送的消息的密码板、话音识别以及与特殊外部设备的接口,这些特殊外部设备比如是反复地执行在硬件中更高效实施的某一复杂操作序列的机器人手臂和医疗扫描装备。
计算机系统900也包括耦合到总线910的通信接口970的一个或者多个实例。通信接口970提供与多种外部设备的单向或者双向通信耦合,这些外部设备用它们自己的处理器操作,比如打印机、扫描仪和外部盘。作为另一示例,通信接口970可以是用于提供与兼容LAN(比如以太网)的数据通信连接的局域网(LAN)卡。也可以实施无线链路。对于无线链路,通信接口970发送或者接收或者既发送又接收承载信息流,比如数字数据的电、声或者电磁信号,这些信号包括红外线和光学信号。例如,在无线手持设备(比如移动电话(如蜂窝电话))中,通信接口970包括被称为无线电收发器的无线电频带电磁发射器和接收器。
如这里所用术语“计算机可读介质”指代参与向处理器902提供信息的任何介质,该信息包括用于执行的指令。这样的介质可以采用许多形式,这些形式包括但不限于计算机可读存储介质(例如,非易失性介质、易失性介质)和传输介质。非瞬态介质(比如非易失性介质)例如包括光盘或者磁盘,比如存储设备908。在一个实施例中,存储设备908可以用来存储数字图像。易失性介质例如包括动态存储器904。传输介质例如包括同轴线缆、铜线、光纤线缆和经过空间行进而无接线或者线缆的载波,比如声波和电磁波,这些电磁波包括无线电波、光波和红外线波。信号包括通过传输介质传输的在幅度、频率、相位、极化或者其它物理性质上的人为瞬态变化。常见计算机可读介质形式例如包括软盘、柔性盘、硬盘、磁带、任何其它磁介质、CD-ROM、CDRW、DVD、任何其它光学介质、打孔卡、纸带、光学标记片、具有孔图案或者其它光学可识别戳记的任何其它物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其它存储器芯片或者盒、载波或者计算机可以从其读取的任何其它介质。术语计算机可读存储介质这里用来指代除了传输介质之外的任何计算机可读介质。
在一个或者多个有形介质上编码的逻辑包括计算机可读存储介质上的处理器指令和专用硬件(比如ASIC920)中的一项或者两项。
公开内容的至少一些实施例涉及将计算机系统900用于实施这里描述的技术中的一些或者所有技术。根据本发明的一个实施例,计算机系统900响应于处理器902执行存储器904中包含的一个或者多个处理器指令的一个或者多个序列来执行那些技术。可以从另一计算机可读介质(比如存储设备908)向存储器904中读取也被称为计算机指令、软件和程序代码的这样的指令。对存储器904中包含的指令序列的执行使处理器902执行这里描述的方法步骤中的一个或者多个方法步骤。在备选实施例中,硬件(比如ASIC920)可以取代软件或者与软件组合用来实施公开内容的一些实施例。因此,除非这里另有明示,公开内容的实施例不限于硬件与软件的任何具体组合。
基于前文,提供方法、装置和计算机程序产品以用于多个帧中的脸部部分跟踪。提供本公开内容的各种实施例以用于检测并且后续跟踪脸部部分。基于常规上复杂并且计算密集的模式识别来执行脸部部分的检测。然而,提供本公开内容的各种实施例用于减少在检测脸部部分期间的计算数目。例如,在相继帧中移位检测窗的起始点并且将大步进大小用于检测脸部部分减少计算数目。另一示例可以通过跨越多个帧划分比例数目来执行脸部部分的检测以用于减少计算复杂性。另外,跨越第一分类函数层评估像素集以用于计算脸部部分的定向角度并且针对脸部的定向角度按照所有分类函数层执行评估也减少在检测脸部部分期间的计算数目。
另外,提供本公开内容的各种实施例以用于以稳健方式跟踪脸部部分从而意味着在跟踪操作期间未遗漏脸部部分。可以执行颜色跟踪操作以排除在跟踪操作中遗漏脸部部分。作为结果,可以无需完全重新执行检测脸部部分的计算密集和复杂操作以用于重获对失去的脸部部分的跟踪。另外,也通过执行操作(比如在兴趣区域中跟踪脸部部分)来减少在跟踪期间的计算数目,因此,大量提高图像处理的实时性能,因为未遗漏脸部部分并且以稳健方式而且用更少计算数目和建造的复杂度执行脸部部分跟踪。
已经出于示例和描述的目的而呈现对本公开内容的具体实施例的前文描述。它们并非旨在于穷举本公开内容或者使本公开内容限于公开的精确形式,并且显然地,许多修改和变化鉴于上述教导而是可能的。选择和描述实施例以便最佳说明本公开内容的原理及其实际应用以由此使本领域其他技术人员能够用如与设想的特定使用相适的各种修改来最佳地利用本公开内容和各种实施例。理解到设想如境况可以暗示或者致使有利的各种省略和等效替换,但是这样的省略和等效替换旨在于覆盖应用或者实现方式而不脱离本公开内容的权利要求的精神实质或者范围。

Claims (68)

1.一种方法,包括:
在多媒体内容的多个帧中的一个帧中检测脸部部分;
在所述帧的至少一个后续帧中跟踪所述脸部部分;以及
当在所述至少一个后续帧中失去对所述脸部部分的跟踪时执行所述脸部部分的颜色跟踪,其中执行所述颜色跟踪以用于在所述至少一个后续帧中重新跟踪所述脸部部分。
2.根据权利要求1所述的方法,其中在所述帧中检测所述脸部部分包括:
提供被配置用于向所述帧中的像素集上叠加的检测窗;
基于至少一个分类函数层评估由所述检测窗界定的所述像素集以用于在所述像素集中检测所述脸部部分;并且
按照第一步进大小向所述像素集的邻近像素集上遍历所述检测窗;并且
基于所述至少一个分类函数层评估所述邻近像素集以用于在所述邻近像素集中检测所述脸部部分。
3.根据权利要求2所述的方法,还包括在所述多个帧中的相继帧中按照预定义大小移位所述检测窗的起始点以用于检测所述脸部部分。
4.根据权利要求2所述的方法,其中评估由所述检测窗界定的所述像素集包括:
基于所述至少一个分类函数层中的第一分类函数层评估所述像素集,所述评估被配置用于针对一个或者多个定向角度来执行并且还被配置用于计算用于所述一个或者多个定向角度中的至少一个定向角度的分类分数;
选择具有计算的分类分数中的最大分数的角度作为所述脸部部分的定向角度;并且
通过基于所述至少一个分类函数层执行所述像素集的评估来在所述像素集中检测所述脸部部分,所述评估被配置用于针对所述脸部部分的所述定向角度来执行。
5.根据权利要求1所述的方法,其中针对多个比例中的一个或者多个比例在所述帧中执行所述脸部部分的所述检测,并且跨越所述多个帧划分在其之上执行所述脸部部分的所述检测的所述多个比例的比例数目,所述多个比例代表所述脸部部分的多个大小。
6.根据权利要求1所述的方法,还包括应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从所述帧去除非脸部部分。
7.根据权利要求6所述的方法,其中所述纹理滤波器基于所述帧中的局部二进制模式。
8.根据权利要求1所述的方法,其中检测所述脸部部分基于所述帧中的模式识别。
9.根据权利要求1所述的方法,其中所述脸部部分的跟踪包括在所述至少一个后续帧的一个后续帧中的兴趣区域中检测所述脸部部分,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的区域。
10.根据权利要求1或者9所述的方法,其中所述脸部部分的跟踪被配置用于针对多个比例中的所选数目的比例来执行,所述所选数目的比例基于在所述帧中针对其检测到所述脸部部分的比例来选择。
11.根据权利要求9所述的方法,还包括在检测到所述脸部部分时停用所述兴趣区域以用于排除在所述兴趣区域中进一步跟踪所述脸部部分。
12.根据权利要求1所述的方法,其中基于亮度投影距离和颜色直方图距离中的至少一个距离执行所述颜色跟踪。
13.根据权利要求1所述的方法,其中所述颜色跟踪包括:
计算用于所述至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的区域;
基于用于所述测试检测窗的所述水平亮度投影和所述竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于所述测试检测窗的亮度投影距离;
基于用于所述测试检测窗的所述颜色直方图和参考颜色直方图计算用于所述测试检测窗的颜色直方图距离;并且
基于用于所述测试检测窗的所述亮度投影距离和所述颜色直方图距离确定所述脸部部分在所述兴趣区域中的存在。
14.根据权利要求13所述的方法,其中基于所述参考水平亮度投影与用于所述测试检测窗的计算的水平亮度投影之差以及所述参考竖直亮度投影与用于所述测试检测窗的计算的竖直亮度投影之差针对所述检测窗计算所述亮度投影距离。
15.根据权利要求13所述的方法,其中基于所述参考颜色直方图与用于所述测试检测窗的计算的颜色直方图之差计算用于所述检测窗的所述颜色直方图距离。
16.根据权利要求13或者14或者15所述的方法,其中如果所述亮度投影距离的最小值低于第一阈值并且所述颜色直方图距离低于第二阈值,则确定所述脸部部分存在。
17.根据权利要求16所述的方法,其中如果所述亮度投影距离的所述最小值在所述第一阈值与第三阈值之间并且所述颜色直方图距离的最小值低于第四阈值,则确定所述脸部部分存在。
18.根据权利要求17所述的方法,其中如果所述亮度投影距离的所述最小值大于所述第三阈值,则确定所述脸部部分不存在。
19.根据权利要求1所述的方法,其中在失去对所述脸部部分的跟踪时和在跟踪所述脸部部分达所述至少一个后续帧的预定义数目的相继帧时执行所述颜色跟踪。
20.根据权利要求15所述的方法,还包括在跟踪所述脸部部分达所述至少一个后续帧的预定义数目的相继帧时,针对其中脸部部分被跟踪的一个或者多个兴趣区域计算所述参考颜色直方图。
21.一种装置,包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置用于与所述至少一个处理器一起使所述装置至少:
在多媒体内容的多个帧中的一个帧中检测脸部部分;
在所述帧的至少一个后续帧中跟踪所述脸部部分;以及
当在所述至少一个后续帧中失去对所述脸部部分的跟踪时执行所述脸部部分的颜色跟踪,其中执行所述颜色跟踪以用于在所述至少一个后续帧中重新跟踪所述脸部部分。
22.根据权利要求21所述的装置,其中至少部分地还使所述装置通过以下操作在所述帧中检测所述脸部部分:
提供被配置用于向所述帧中的像素集上叠加的检测窗;
基于至少一个分类函数层评估由所述检测窗界定的所述像素集以用于在所述像素集中检测所述脸部部分;
按照第一步进大小向所述像素集的邻近像素集上遍历所述检测窗;以及
基于所述至少一个分类函数层评估所述邻近像素集以用于在所述邻近像素集中检测所述脸部部分。
23.根据权利要求22所述的装置,其中至少部分地还使所述装置在所述多个帧中的相继帧中按照预定义大小移位所述检测窗的起始点以用于检测所述脸部部分。
24.根据权利要求22所述的装置,其中至少部分地还使所述装置通过以下操作评估由所述检测窗界定的所述像素集:
基于所述至少一个分类函数层中的第一分类函数层评估所述像素集,所述评估被配置用于针对一个或者多个定向角度来执行并且还被配置用于计算用于所述一个或者多个定向角度中的至少一个定向角度的分类分数;
选择具有计算的分类分数中的最大分数的角度作为所述脸部部分的定向角度;以及
通过基于所述至少一个分类函数层执行所述像素集的评估来在所述像素集中检测所述脸部部分,所述评估被配置用于针对所述脸部部分的所述定向角度来执行。
25.根据权利要求21所述的装置,其中至少部分地还使所述装置配置针对多个比例中的一个或者多个比例在所述帧中执行的对所述脸部部分的检测,并且跨越所述多个帧划分在其之上执行所述脸部部分的所述检测的所述多个比例的比例数目,所述多个比例代表所述脸部部分的多个大小。
26.根据权利要求21所述的装置,其中至少部分地还使所述装置应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从所述帧去除非脸部部分。
27.根据权利要求26所述的装置,其中至少部分地还使所述装置基于所述帧中的局部二进制模式应用所述纹理滤波器。
28.根据权利要求21所述的装置,其中至少部分地还使所述装置基于所述帧中的模式识别检测所述脸部部分。
29.根据权利要求21所述的装置,其中至少部分地还使所述装置通过在所述至少一个后续帧的一个后续帧中的兴趣区域中检测所述脸部部分来执行所述脸部部分的跟踪,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的区域。
30.根据权利要求21或者29所述的装置,其中至少部分地还使所述装置配置针对多个比例中的所选数目的比例执行对所述脸部部分的跟踪,所述所选数目的比例基于在所述帧中针对其检测到所述脸部部分的比例来选择。
31.根据权利要求29所述的装置,其中至少部分地还使所述装置在检测到所述脸部部分时停用所述兴趣区域以用于排除在所述兴趣区域中进一步跟踪所述脸部部分。
32.根据权利要求21所述的装置,其中至少部分地还使所述装置基于亮度投影距离和颜色直方图距离中的至少一个距离执行所述颜色跟踪。
33.根据权利要求21所述的装置,其中至少部分地还使所述装置通过以下操作执行所述颜色跟踪:
计算用于所述至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的区域;
基于用于所述测试检测窗的所述水平亮度投影和所述竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于所述测试检测窗的亮度投影距离;
基于用于所述测试检测窗的所述颜色直方图和参考颜色直方图计算颜色直方图距离;以及
基于用于所述测试检测窗的所述亮度投影距离和所述颜色直方图距离确定所述脸部部分在所述兴趣区域中的存在。
34.根据权利要求33所述的装置,其中至少部分地还使所述装置基于所述参考水平亮度投影与用于所述测试检测窗的计算的水平亮度投影之差以及所述参考竖直亮度投影与用于所述测试检测窗的计算的竖直亮度投影之差计算用于所述测试检测窗的所述亮度投影距离。
35.根据权利要求33所述的装置,其中至少部分地还使所述装置基于所述参考颜色直方图与用于所述测试检测窗的计算的颜色直方图之差计算用于所述测试检测窗的所述颜色直方图距离。
36.根据权利要求33或者34或者35所述的装置,其中至少部分地还使所述装置在所述亮度投影距离的最小值低于第一阈值并且所述颜色直方图距离低于第二阈值的情况下确定所述脸部部分存在。
37.根据权利要求36所述的装置,其中至少部分地还使所述装置在所述亮度投影距离的所述最小值在所述第一阈值与第三阈值之间并且所述颜色直方图距离的最小值低于第四阈值的情况下确定所述脸部部分存在。
38.根据权利要求37所述的装置,其中至少部分地还使所述装置在所述亮度投影距离的所述最小值大于所述第三阈值的情况下确定所述脸部部分不存在。
39.根据权利要求21所述的装置,其中至少部分地还使所述装置在失去对所述脸部部分的跟踪时和在跟踪所述脸部部分达所述至少一个后续帧的预定义数目的相继帧时执行所述颜色跟踪。
40.根据权利要求35所述的装置,其中至少部分地还使所述装置在跟踪所述脸部部分达所述至少一个后续帧的预定义数目的相继帧时针对其中脸部部分被跟踪的一个或者多个兴趣区域计算所述参考颜色直方图。
41.一种包括至少一个计算机可读存储介质的计算机程序产品,所述计算机可读存储介质包括指令集,所述指令集在由一个或者多个处理器执行时,使装置至少执行:
在多媒体内容的多个帧中的一个帧中检测脸部部分;
在所述帧的至少一个后续帧中跟踪所述脸部部分;以及
当在所述至少一个后续帧中失去对所述脸部部分的跟踪时执行所述脸部部分的颜色跟踪,其中执行所述颜色跟踪以用于在所述至少一个后续帧中重新跟踪所述脸部部分。
42.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置通过以下操作在所述帧中检测所述脸部部分:
提供被配置用于向所述帧中的像素集上叠加的检测窗;
基于至少一个分类函数层评估由所述检测窗界定的所述像素集以用于在所述像素集中检测所述脸部部分;
按照第一步进大小向所述像素集的邻近像素集上遍历所述检测窗;并且
基于所述至少一个分类函数层评估所述邻近像素集以用于在所述邻近像素集中检测所述脸部部分。
43.根据权利要求42所述的计算机程序产品,其中至少部分地还使所述装置在所述多个帧中的相继帧中按照预定义大小移位所述检测窗的起始点以用于检测所述脸部部分。
44.根据权利要求42所述的计算机程序产品,其中至少部分地还使所述装置通过以下操作基于一个或者多个分类函数层评估由所述检测窗界定的所述像素集:
基于所述至少一个分类函数层中的第一分类函数层评估所述像素集,所述评估被配置用于针对一个或者多个定向角度来执行并且还被配置用于计算用于所述一个或者多个定向角度中的至少一个定向角度的分类分数;
选择具有计算的分类分数中的最大分数的角度作为所述脸部部分的定向角度;并且
通过基于所述至少一个分类函数层执行所述像素集的评估来在所述像素集中检测所述脸部部分,所述评估被配置用于针对所述脸部部分的所述定向角度来执行。
45.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置配置针对多个比例中的一个或者多个比例在所述帧中执行的对所述脸部部分的检测,并且跨越所述多个帧划分在其之上执行所述脸部部分的所述检测的所述多个比例的比例数目,所述多个比例代表所述脸部部分的多个大小。
46.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置应用皮肤滤波器和纹理滤波器中的至少一个滤波器以用于从所述帧去除非脸部部分。
47.根据权利要求46所述的计算机程序产品,其中至少部分地还使所述装置基于所述帧中的局部二进制模式应用所述纹理滤波器。
48.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置基于所述帧中的模式识别检测所述脸部部分。
49.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置通过在所述至少一个后续帧的一个后续帧中的兴趣区域中检测所述脸部部分来执行所述脸部部分的跟踪,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的区域。
50.根据权利要求41或者49所述的计算机程序产品,其中至少部分地还使所述装置配置针对多个比例中的所选数目的比例执行对所述脸部部分的跟踪,所述所选数目的比例基于在所述帧中针对其检测到所述脸部部分的比例来选择。
51.根据权利要求49所述的计算机程序产品,其中至少部分地还使所述装置在检测到所述脸部部分时停用所述兴趣区域以用于排除在所述兴趣区域中进一步跟踪所述脸部部分。
52.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置基于亮度投影距离和颜色直方图距离中的至少一个距离执行所述脸部部分的所述颜色跟踪。
53.根据权利要求41所述的计算机程序产品,其中至少部分地还使所述装置通过以下操作执行所述颜色跟踪:
计算用于所述至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的区域;
基于用于所述测试检测窗的所述水平亮度投影和所述竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于所述测试检测窗的亮度投影距离;并且
基于用于所述测试检测窗的所述颜色直方图和参考颜色直方图计算用于所述检测窗的颜色直方图距离;
基于用于所述测试检测窗的所述亮度投影距离和所述颜色直方图距离确定所述脸部部分在所述兴趣区域中的存在。
54.根据权利要求53所述的计算机程序产品,其中至少部分地还使所述装置基于所述参考水平亮度投影与用于所述测试检测窗的计算的水平亮度投影之差以及所述参考竖直亮度投影与用于所述测试检测窗的计算的竖直亮度投影之差计算用于所述测试检测窗的所述亮度投影距离。
55.根据权利要求53所述的计算机程序产品,其中至少部分地还使所述装置基于所述参考颜色直方图与用于所述测试检测窗的计算的颜色直方图之差计算用于所述测试检测窗的所述颜色直方图距离。
56.根据权利要求53或者54或者55所述的计算机程序产品,其中至少部分地还使所述装置在所述亮度投影距离的最小值低于第一阈值并且所述颜色直方图距离低于第二阈值的情况下确定所述脸部部分存在。
57.根据权利要求56所述的计算机程序产品,其中至少部分地还使所述装置在所述亮度投影距离的所述最小值在所述第一阈值与第三阈值之间并且所述颜色直方图距离的最小值低于第四阈值的情况下确定所述脸部部分存在。
58.根据权利要求57所述的计算机程序产品,其中至少部分地还使所述装置在所述亮度投影距离的所述最小值大于所述第三阈值的情况下确定所述脸部部分不存在。
59.根据权利要求55所述的计算机程序产品,其中至少部分地还使所述装置在跟踪所述脸部部分达所述至少一个后续帧的预定义数目的相继帧时,针对其中脸部部分被跟踪的一个或者多个兴趣区域计算所述参考颜色直方图。
60.根据权利要求51所述的计算机程序产品,其中至少部分地还使所述装置在失去对所述脸部部分的跟踪时和在跟踪所述脸部部分达所述至少一个后续帧的预定义数目的相继帧时执行所述颜色跟踪。
61.一种方法,包括:
在多媒体内容的多个帧中的一个帧中检测脸部部分;
在所述帧的至少一个后续帧中跟踪所述脸部部分;以及
当在所述至少一个后续帧中失去对所述脸部部分的跟踪时执行所述脸部部分的颜色跟踪,执行所述颜色跟踪以用于通过以下操作在所述至少一个后续帧中重新跟踪所述脸部部分:
计算用于所述至少一个后续帧的一个后续帧中的兴趣区域中的多个测试检测窗中的测试检测窗的水平亮度投影、竖直亮度投影和颜色直方图,所述兴趣区域对应于所述帧中的、其中检测到所述脸部部分的存在的区域;
基于用于所述测试检测窗的所述水平亮度投影和所述竖直亮度投影以及参考水平亮度投影和参考竖直亮度投影计算用于所述测试检测窗的亮度投影距离;
基于用于所述测试检测窗的所述颜色直方图和参考颜色直方图计算用于所述测试检测窗的颜色直方图距离;以及
基于用于所述测试检测窗的所述亮度投影距离和所述颜色直方图距离确定所述脸部部分在所述兴趣区域中的存在。
62.根据权利要求61所述的方法,其中基于所述参考水平亮度投影与用于所述测试检测窗的计算的水平亮度投影之差以及所述参考竖直亮度投影与用于所述测试检测窗的计算的竖直亮度投影之差计算用于所述测试检测窗的所述亮度投影距离。
63.根据权利要求61所述的方法,其中基于所述参考颜色直方图与用于所述测试检测窗的计算的颜色直方图之差计算用于所述测试检测窗的所述颜色直方图距离。
64.根据权利要求61或者62或者63所述的方法,其中如果所述亮度投影距离的最小值低于第一阈值并且所述颜色直方图距离低于第二阈值,则确定所述脸部部分存在。
65.根据权利要求64所述的方法,其中如果所述亮度投影距离的所述最小值在所述第一阈值与第三阈值之间并且所述颜色直方图距离的最小值低于第四阈值,则确定所述脸部部分存在。
66.根据权利要求65所述的方法,其中如果所述亮度投影距离的所述最小值大于所述第三阈值,则确定所述脸部部分不存在。
67.一种装置,包括:
用于在多媒体内容的多个帧中的一个帧中检测脸部部分的装置;
用于在所述帧的至少一个后续帧中跟踪所述脸部部分的装置;以及
用于当在所述至少一个后续帧中失去对所述脸部部分的跟踪时执行所述脸部部分的颜色跟踪的装置,其中执行所述颜色跟踪以用于在所述至少一个后续帧中重新跟踪所述脸部部分。
68.一种包括指令集的计算机程序,所述指令集在由装置执行时使所述装置至少执行:
在多媒体内容的多个帧中的一个帧中检测脸部部分;
在所述帧的至少一个后续帧中跟踪所述脸部部分;以及
当在所述至少一个后续帧中失去对所述脸部部分的跟踪时执行所述脸部部分的颜色跟踪,其中执行所述颜色跟踪以用于在所述至少一个后续帧中重新跟踪所述脸部部分。
CN201180040190.4A 2010-06-23 2011-06-07 用于跟踪脸部部分的方法、装置 Active CN103270535B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN1769/CHE/2010 2010-06-23
IN1769CH2010 2010-06-23
PCT/FI2011/050528 WO2011161307A1 (en) 2010-06-23 2011-06-07 Method, apparatus and computer program product for tracking face portion

Publications (2)

Publication Number Publication Date
CN103270535A true CN103270535A (zh) 2013-08-28
CN103270535B CN103270535B (zh) 2016-05-25

Family

ID=45370893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180040190.4A Active CN103270535B (zh) 2010-06-23 2011-06-07 用于跟踪脸部部分的方法、装置

Country Status (4)

Country Link
US (1) US9082001B2 (zh)
EP (1) EP2586011B1 (zh)
CN (1) CN103270535B (zh)
WO (1) WO2011161307A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105830430A (zh) * 2013-12-21 2016-08-03 高通股份有限公司 用以使对象跟踪框的显示稳定的系统和方法
CN109145752A (zh) * 2018-07-23 2019-01-04 北京百度网讯科技有限公司 用于评估对象检测和跟踪算法的方法、装置、设备和介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103620621B (zh) 2011-06-30 2017-10-24 诺基亚技术有限公司 用于利用积分梯度投影的面部跟踪的方法和装置
EP2845168B1 (en) * 2012-05-01 2018-06-13 Koninklijke Philips N.V. Device and method for extracting information from remotely detected characteristic signals
US9852511B2 (en) 2013-01-22 2017-12-26 Qualcomm Incoporated Systems and methods for tracking and detecting a target object
US9665804B2 (en) * 2014-11-12 2017-05-30 Qualcomm Incorporated Systems and methods for tracking an object
CN110291516A (zh) * 2017-02-22 2019-09-27 索尼公司 信息处理设备、信息处理方法和程序
US10558849B2 (en) * 2017-12-11 2020-02-11 Adobe Inc. Depicted skin selection
US10963680B2 (en) * 2018-01-12 2021-03-30 Capillary Technologies International Pte Ltd Overhead people detection and tracking system and method
US11205274B2 (en) * 2018-04-03 2021-12-21 Altumview Systems Inc. High-performance visual object tracking for embedded vision systems
CN109034063A (zh) * 2018-07-27 2018-12-18 北京微播视界科技有限公司 人脸特效的多人脸跟踪方法、装置和电子设备
KR102520513B1 (ko) * 2021-11-16 2023-04-11 주식회사 딥이티 사용자 단말을 이용한 안면 인식 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1423487A (zh) * 2001-12-03 2003-06-11 微软公司 使用多种线索对多个人的自动探测和追踪
JP2004234367A (ja) * 2003-01-30 2004-08-19 Fujitsu Ltd 顔の向き検出装置、顔の向き検出方法及びコンピュータプログラム
CN1794264A (zh) * 2005-12-31 2006-06-28 北京中星微电子有限公司 视频序列中人脸的实时检测与持续跟踪的方法及系统
KR100927642B1 (ko) * 2009-05-14 2009-11-20 한국 한의학 연구원 영상 분할 히스토그램 분석을 이용한 얼굴 윤곽선 검출 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937266B2 (en) * 2001-06-14 2005-08-30 Microsoft Corporation Automated online broadcasting system and method using an omni-directional camera system for viewing meetings over a computer network
US6882959B2 (en) 2003-05-02 2005-04-19 Microsoft Corporation System and process for tracking an object state using a particle filter sensor fusion technique
KR100695174B1 (ko) * 2006-03-28 2007-03-14 삼성전자주식회사 가상 입체음향을 위한 청취자 머리위치 추적방법 및 장치
US7916897B2 (en) * 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7869631B2 (en) 2006-12-11 2011-01-11 Arcsoft, Inc. Automatic skin color model face detection and mean-shift face tracking
US8018933B2 (en) 2007-06-27 2011-09-13 Microsoft Corporation Reliable multicast with automatic session startup and client backfil support
US8064639B2 (en) * 2007-07-19 2011-11-22 Honeywell International Inc. Multi-pose face tracking using multiple appearance models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1423487A (zh) * 2001-12-03 2003-06-11 微软公司 使用多种线索对多个人的自动探测和追踪
JP2004234367A (ja) * 2003-01-30 2004-08-19 Fujitsu Ltd 顔の向き検出装置、顔の向き検出方法及びコンピュータプログラム
CN1794264A (zh) * 2005-12-31 2006-06-28 北京中星微电子有限公司 视频序列中人脸的实时检测与持续跟踪的方法及系统
KR100927642B1 (ko) * 2009-05-14 2009-11-20 한국 한의학 연구원 영상 분할 히스토그램 분석을 이용한 얼굴 윤곽선 검출 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
孙优贤主编: "《过程控制科学技术与应用-第19届中国过程控制会议论文集》", 31 August 2008, 北京:化学工业出版社 *
王传旭 等: "一种基于肤色与LBP特征融合的人脸跟踪算法", 《数据采集与处理》 *
陈远 等: "一种融合LBP纹理特征的多姿态人脸跟踪方法", 《华侨大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105830430A (zh) * 2013-12-21 2016-08-03 高通股份有限公司 用以使对象跟踪框的显示稳定的系统和方法
CN109145752A (zh) * 2018-07-23 2019-01-04 北京百度网讯科技有限公司 用于评估对象检测和跟踪算法的方法、装置、设备和介质

Also Published As

Publication number Publication date
EP2586011A4 (en) 2017-10-18
US9082001B2 (en) 2015-07-14
EP2586011A1 (en) 2013-05-01
CN103270535B (zh) 2016-05-25
WO2011161307A1 (en) 2011-12-29
EP2586011B1 (en) 2023-07-26
US20130230240A1 (en) 2013-09-05

Similar Documents

Publication Publication Date Title
CN103270535B (zh) 用于跟踪脸部部分的方法、装置
US20210312214A1 (en) Image recognition method, apparatus and non-transitory computer readable storage medium
CN108665373B (zh) 一种车辆定损的交互处理方法、装置、处理设备及客户端
CN108875451B (zh) 一种定位图像的方法、装置、存储介质和程序产品
CN102103457B (zh) 简报操作系统及方法
WO2018121006A1 (zh) 一种车牌定位方法及装置
CN106934351B (zh) 手势识别方法、装置及电子设备
US20150278997A1 (en) Method and apparatus for inferring facial composite
US11373410B2 (en) Method, apparatus, and storage medium for obtaining object information
US20150206313A1 (en) Techniques for efficient stereo block matching for gesture recognition
CN110619656B (zh) 基于双目摄像头的人脸检测跟踪方法、装置及电子设备
CN113570052B (zh) 图像处理方法、装置、电子设备及存储介质
CN110431563B (zh) 图像校正的方法和装置
US11847812B2 (en) Image generation method and apparatus, device, and storage medium
CN116310745A (zh) 图像处理方法、数据处理方法、相关装置及存储介质
US9489741B2 (en) Method, apparatus and computer program product for disparity estimation of foreground objects in images
CN114119964A (zh) 一种网络训练的方法及装置、目标检测的方法及装置
Delibaşoğlu Moving object detection method with motion regions tracking in background subtraction
CN110942064B (zh) 图像处理方法、装置和电子设备
CN112348025A (zh) 字符检测方法及装置、电子设备和存储介质
WO2020155984A1 (zh) 人脸表情图像处理方法、装置和电子设备
Meng et al. IRIS: smart phone aided intelligent reimbursement system using deep learning
KR102458896B1 (ko) 세그멘테이션 맵 기반 차량 번호판 인식 방법 및 장치
CN113192072B (zh) 图像分割方法、装置、设备及存储介质
CN114387624A (zh) 基于姿态指导的行人重识别方法、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160203

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

C14 Grant of patent or utility model
GR01 Patent grant