CN103765437B - 用于利用在视频帧之间的时间冗余性的特征计算和对象检测的方法和装置 - Google Patents

用于利用在视频帧之间的时间冗余性的特征计算和对象检测的方法和装置 Download PDF

Info

Publication number
CN103765437B
CN103765437B CN201280041948.0A CN201280041948A CN103765437B CN 103765437 B CN103765437 B CN 103765437B CN 201280041948 A CN201280041948 A CN 201280041948A CN 103765437 B CN103765437 B CN 103765437B
Authority
CN
China
Prior art keywords
frame
feature
translation
search
intermediate frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280041948.0A
Other languages
English (en)
Other versions
CN103765437A (zh
Inventor
V·慕尼恩德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN103765437A publication Critical patent/CN103765437A/zh
Application granted granted Critical
Publication of CN103765437B publication Critical patent/CN103765437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Ophthalmology & Optometry (AREA)
  • Image Analysis (AREA)

Abstract

提供一种用于确定用于一个或者多个脸部特征的空间位置的方法、装置和计算机程序产品。一种方法计算用于初始帧的特征。初始帧的被计算出的特征生成特征图像。一种方法也确定在初始帧与中间帧之间平移是否被验证,其中在用来验证在初始帧与中间帧之间的平移的距离在预定阈值水平内的实例中平移被验证。一种方法也包括使用特征图像的部分对于一个或者多个脸部特征的脸部搜索,其中搜索的特征图像的部分是在特征计算循环中分析的帧总数的一部分。一种方法也包括确定用于在中间帧中检测的一个或者多个脸部特征的空间位置。

Description

用于利用在视频帧之间的时间冗余性的特征计算和对象检测 的方法和装置
技术领域
示例实施例主要地涉及特征计算并且更具体地涉及利用在视频帧之间的时间冗余性以减少计算强度的特征计算。
背景技术
在各种图像处理应用中,可能希望在视频中的连续帧之间跟踪对象、比如特征(例如脸部、脸部特征等)。为了从一帧到下一帧跟踪特征,可以分析每帧以确定特征的新位置。然而分析每帧可能是计算密集的过程,以高效和及时方式执行该过程至少对于具有有限计算资源的那些设备可能是一个挑战。
特征跟踪可能出于各种原因而计算密集。例如一些特征跟踪技术分析每个整帧或者每帧的至少相对大部分。这样,将希望提供一种用于在帧、比如视频的帧之间的特征跟踪的改进技术,该技术提供准确结果而计算要求减少。
发明内容
根据一个示例实施例提供一种方法、装置和计算机程序产品以便提供一种用于特征计算和脸部搜索的改进技术。就这一点而言,示例实施例的方法、装置和计算机程序产品可以用减少计算要求而又继续提供可靠和健壮特征计算的方式提供特征计算。实际上,一个示例实施例的方法、装置和计算机程序产品可以通过利用跨越多个图像帧的重叠数量来提供计算图像帧中的特征。
在一个实施例中,一种方法计算用于初始帧的特征。初始帧的被计算出的特征生成特征图像。一种方法也确定在初始帧与中间帧之间是否验证了平移,其中在用来验证在初始帧与中间帧之间的平移的距离在预定阈值水平内的实例中平移被验证。一种方法也包括使用特征图像的部分对于一个或者多个脸部特征的脸部搜索,其中搜索的特征图像的部分是在特征计算循环中分析的帧总数的一部分。一种方法也确定用于在中间帧中检测的一个或者多个脸部特征的空间位置。
在一个实施例中,一种方法还通过对于初始帧和中间帧基于亮度平面的水平梯度确定水平积分投影来确定平移。一种方法也对于初始帧和中间帧基于亮度平面的垂直梯度确定垂直积分投影。一种方法也使用垂直积分投影来确定中间帧在水平方向上的水平平移。一种方法也使用水平积分投影来确定中间帧的垂直平移。
在一个实施例中,一种方法通过在最后帧的特征图像的部分中搜索一个或者多个脸部特征来继续特征计算循环。一种方法也确定用于位于最后帧的搜索的部分中的一个或者多个脸部特征的空间位置。一种方法也标识下一帧作为初始帧;其中下一帧重新开始特征计算循环。
在另一实施例中,一种装置包括处理器和包含软件的存储器,存储器和软件被配置用于与处理器使该装置至少计算用于初始帧的特征。初始帧的被计算出的特征生成特征图像。还使该装置确定在初始帧与中间帧之间是否验证了平移,其中在用来验证在初始帧与中间帧之间的平移的距离在预定阈值水平内的实例中平移被验证。还使该装置使用特征图像的部分对于一个或者多个脸部特征来执行脸部搜索,其中搜索的特征图像的部分是在特征计算循环中分析的帧总数的一部分。还使该装置确定用于在中间帧中检测的一个或者多个脸部特征的空间位置。
在又一实施例中,一种计算机程序产品包括至少一个计算机可读非瞬态存储器,该至少一个计算机可读非瞬态存储器具有在其上存储的程序代码,程序代码在由装置执行时使该装置至少计算用于初始帧的特征。初始帧的被计算出的特征生成特征图像。一种计算机程序产品还被配置用于确定在初始帧与中间帧之间是否验证了平移,其中在用来验证在初始帧与中间帧之间的平移的距离在预定阈值水平内则平移被验证。一种计算机程序产品还被配置用于使用特征图像的部分对于一个或者多个脸部特征来执行脸部搜索,其中搜索的特征图像的部分是在特征计算循环中分析的帧总数的一部分。一种计算机程序产品还被配置用于确定用于在中间帧中检测的一个或者多个脸部特征的空间位置。
在更多另一实施例中,提供一种装置,该装置包括用于计算用于初始帧的特征的装置。初始帧的被计算出的特征生成特征图像。一种装置还包括用于确定在初始帧与中间帧之间是否验证了平移的装置,其中在用来验证在初始帧与中间帧之间的平移的距离在预定阈值水平内的实例中平移被验证。一种装置还包括用于使用特征图像的部分对于一个或者多个脸部特征来执行脸部搜索的装置,其中搜索的特征图像的部分是在特征计算循环中分析的帧总数的一部分。一种装置还包括用于确定用于在中间帧中检测的一个或者多个脸部特征的空间位置的装置。
附图说明
已经这样用一般措词描述某些示例实施例,现在将参照附图,附图未必按比例绘制并且在附图中:
图1是根据一个示例实施例的用于执行特征计算的装置的框图;
图2是图示根据一个示例实施例的用于确定特征的位置的方法的流程图;
图3是图示根据另一示例实施例的为了确定在帧之间的平移而执行的操作的图;并且
图4是根据一个示例实施例的部分帧搜索的图形表示。
具体实施方式
现在下文将参照附图更完全地描述一些示例实施例。实际上,本发明可以用许多不同形式来体现而不应被解释为限于这里阐述的实施例;实际上,提供这些实施例使得本公开内容将满足适用法律要求。相似标号全篇是指相似要素。
如这里所用,术语“数据”、“内容”、“信息”和相似术语可以可互换地用来是指能够根据多个示例实施例发送、接收、显示和/或存储的数据。因此,使用任何这样的术语不应被解释为限制公开内容的精神实质和范围。
如这里所用术语“计算机可读介质”是指被配置用于参与向处理器提供信息的任何介质,该信息包括用于执行的指令。这样的介质可以采用许多形式,这些形式包括、但不限于非瞬态计算机可读存储介质(例如非易失性介质、易失性介质)和传输介质。传输介质例如包括同轴线缆、铜线、光纤线缆和经过空间行进而无接线或者线缆的载波、比如声波和电磁波,这些电磁波包括无线电波、光波和红外线波。非瞬态计算机可读介质的示例包括软盘、硬盘、磁带、任何其它非瞬态磁介质、紧致盘只读存储器(CD-ROM)、紧致盘可重写(CD-RW)、数字万用盘(DVD)、蓝光、任何其它非瞬态光学介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、FLASH-EPROM、任何其它存储器芯片或者盒或者计算机可以从其读取的任何其它非瞬态介质。术语计算机可读存储介质这里用来是指除了传输介质之外的任何计算机可读介质。然而将理解,在描述实施例使用计算机可读存储介质时,可以在备选实施例中用其它类型的计算机可读介质替换计算机可读存储介质或者除了计算机可读存储介质之外还使用其它类型的计算机可读介质。
附加地,如这里所用,术语‘电路装置’是指以下各项:(a)仅硬件的电路实现方式(例如在模拟电路装置和/或数字电路装置中的实现方式);(b)电路与计算机程序产品的组合,该计算机程序产品包括在一个或者多个计算机可读存储器上存储的软件和/或固件指令,该一个或者多个计算机可读存储器一起工作以使装置执行这里描述的一个或者多个功能;以及(c)电路、如例如微处理器或者微处理器的部分,这些电路需要用于操作的软件或者固件,即使该软件或者固件未在物理上存在。“电路装置”的这一定义适用于这一术语在这里、包括在任何权利要求中的所有使用。作为又一示例,如这里所用,术语‘电路装置’也包括如下实现方式,该实现方式包括一个或者多个处理器和/或其部分以及附带软件和/或固件。作为另一示例,如这里所用术语‘电路装置’也例如包括用于移动电话的基带集成电路或者应用处理器集成电路或者在服务器、蜂窝网络设备、其它网络设备和/或其它计算设备中的相似集成电路。
在图1中示出根据本发明的一个示例实施例的用于执行特征计算的装置10。可以在广泛多种计算设备、比如移动终端如移动电话、移动计算机、个人数字助理(PDA)、寻呼机、膝上型计算机、桌面型计算机、游戏设备、电视和其它类型的移动电子系统或者各种固定计算设备、比如工作站、个人计算机等中体现该装置。也将注意,尽管图1图示用于执行脸部搜索和特征计算的装置的配置的一个示例,但是许多其它配置也可以用来实施本发明的实施例。这样,在一些实施例中,虽然示出设备或者单元为相互通信,但是下文应当将这样的设备或者单元视为能够体现于相同设备或者单元内,因此应当理解示出为通信的设备或者单元备选地是相同设备或者单元的部分。
现在参照图1,提供用于执行特征计算的装置10并且装置10可以包括或者另外地与它们通信的处理器12、存储器设备14、通信接口16和用户接口18。在一些实施例中,处理器(和/或辅助处理器或者任何协助或另外地与处理器关联的其它处理电路装置)可以经由用于在该装置的部件之间传递信息的总线与存储器设备通信。存储器设备可以例如包括一个或者多个易失性和/或非易失性存储器。换而言之,例如存储器设备可以是包括门的电子存储设备(例如计算机可读存储介质),这些门被配置用于存储机器(例如计算设备、比如处理器)可取回的数据(位)。存储器设备可以被配置用于存储用于使该装置能够根据本发明的一个示例实施例执行各种功能的信息、数据、应用、指令等。例如存储器设备可以被配置用于缓冲用于由处理器处理的输入数据。附加地或者备选地,存储器设备可以被配置用于存储用于由处理器执行的指令。
装置10可以在一些实施例中是被配置用于运用本发明的一个示例实施例的移动终端或者其它计算设备。然而在一些实施例中,可以体现该装置为芯片或者芯片组。换而言之,该装置可以包括一个或者多个物理封装(例如芯片),该物理封装包括结构组件(例如基板)上的材料、部件和/或接线。结构组件可以提供用于在其上包括的部件电路装置的物理强度、尺寸节约和/或电互作用限制。该装置因此可以在一些情况下被配置用于在单个芯片上实施本发明的一个实施例或者实施为单个“片上系统”。这样,在一些情况下,芯片或者芯片组可以构成用于执行一个或者多个操作的装置,该一个或者多个操作用于提供这里描述的功能。
可以用多个不同方式体现处理器12。例如可以体现处理器为各种硬件处理装置、比如协同处理器、微处理器、控制器、数字信号处理器(DSP)、有或者无附带DSP的处理单元或者各种其它处理电路装置中的一个或者多个硬件处理装置,这些其它处理电路装置包括集成电路、如比如ASIC(专用集成电路)、FPGA(现场可编程门阵列)、微控制器单元(MCU)、硬件加速器、专用计算机芯片等。这样,在一些实施例中,处理器可以包括被配置用于独立执行的一个或者多个处理核。多核处理器可以在单个物理封装内实现多处理。附加地或者备选地,处理器可以包括经由总线被串接配置用于实现独立执行指令、流水线和/或多线程的一个或者多个处理器。
在一个示例实施例中,处理器12可以被配置用于执行存储器设备14中存储的或者处理器另外可访问的指令。备选地或者附加地,处理器可以被配置用于执行硬编码的功能。这样,无论是通过硬件还是软件方法或者通过其组合来配置,处理器可以代表(例如在电路装置中物理地体现的)如下实体,该实体能够在被相应地配置之时根据本发明的一个实施例执行操作。因此例如在体现处理器为ASIC、FPGA等时,处理器可以是用于进行这里描述的操作的专门配置的硬件。备选地,作为另一示例,在体现处理器为软件指令的执行器时,指令可以专门地配置处理器12以在执行指令时执行这里描述的算法和/或操作。然而在一些情况下,处理器可以是具体设备(例如移动终端或者其它计算设备)的处理器、比如移动终端的处理器,该处理器被适配用于通过指令进一步配置处理器来运用本发明的一个实施例,这些指令用于执行这里描述的算法和/或操作。处理器可以包括被配置用于支持处理器的操作的时钟、算术逻辑单元(ALU)和逻辑门以及其它部件。
同时,通信接口16可以是在硬件或者硬件与软件的组合中体现的任何如下装置、比如设备或者电路装置,该装置被配置用于从/向与装置10通信的网络和/或任何其它设备或者模块接收和/或发送数据。就这一点而言,通信接口可以例如包括用于实现与无线通信网络通信的一个天线(或者多个天线)以及支持硬件和/或软件。附加地或者备选地,通信接口可以包括用于与天线对接以引起经由天线传输信号或者处置经由天线接收的信号的接收的电路装置。在一些环境中,通信接口可以备选地支持或者也支持有线通信。这样,例如通信接口可以包括用于支持经由线缆、数字用户线(DSL)、通用串行总线(USB)或者其它机制通信的通信调制解调器和/或其它硬件/软件。
用户接口18可以与处理器12通信以接收对在用户接口的用户输入的指示和/或引起向用户提供可听、可视、机械或者其它输出。这样,用户接口18可以例如包括键盘、鼠标、操纵杆、显示器、触屏、触摸区域、软键、麦克风、扬声器或者其它输入/输出机制。附加地或者备选地,处理器可以包括被配置用于控制用户接口的如诸如扬声器、振铃器、麦克风、显示器等一个或者多个单元的至少一些功能的用户接口电路装置。处理器和/或包括处理器的用户接口电路装置可以被配置用于通过在处理器可访问的存储器(例如存储器设备14等)上存储的计算机程序指令(例如软件和/或固件)控制用户接口的一个或者多个单元的一个或者多个功能。
参照图2,示出根据特征计算循环的一个实施例的用于确定特征的位置的方法。特征计算循环由n帧构成。在一个示例实施例中,在n帧之后,重新开始并且对下一帧执行特征计算以避免累计平移误差。因此,在初始帧中一次完成特征计算,并且对来自初始帧的被计算出的特征的部分进行脸部搜索。因此,对于n帧搜索被计算出的特征的1/n,因此跨越n帧分布脸部搜索复杂性。可以调节n的值以实现在计算复杂性与更快特征检测之间的折衷。更低n值可以提供更快对象/脸部检测、但是可能未获得大量复杂性减少优点。高n值可能造成更慢对象/脸部检测(在最多n帧中检测到对象)、但是可以获得复杂性减少优点。帧总数n可以变化并且一般基于用户选择、在平移超过预定阈值之前的帧数目、预设帧数目等中的至少一项。
在操作20,装置10可以包括用于计算用于初始帧的特征的装置、比如处理器12等。如这里描述的那样,用于初始帧的被计算出的特征也可以称为特征图像。一种示例特征检测方法被配置用于以像素的基于局部二进制模式(“LBP”)的值为它的特征在20x20的输入采样上训练。可以对20个像素x20个像素输入采样计算LBP值以提供18x18LBP采样图像。备选地或者附加地,可以与本发明的实施例使用其它图像尺寸。对于尺寸为20x20的输入采样,计算LBP图像,并且对于(在LBP图像中的18x18个可能坐标位置之中的)每个输入采样获得LBP值直方图,并且可以选择坐标作为弱分类器。对象/脸部检测方法被配置用于取LBP窗作为输入并且对它分类。为了检测图像中的对象/脸部,对于整个图像计算LBP值,并且向基于LBP的分类器给予每个窗以判决特征是否存在。例如为了执行视频帧中的初始脸部检测过程,对于每帧计算LBP值,并且对于位置和比例按照光栅顺序扫描每个子窗。
使用特征检测方法、比如以上描述的特征检测方法,关于操作20对于初始帧计算特征。可以确定在当前帧与下一帧、如例如初始帧与后续中间帧之间的平移。如这里所用初始、中间和/或最后帧可以涉及帧时刻等。就这一点而言,装置10可以包括用于确定在初始帧与中间帧之间是否验证了平移的装置、比如处理器12等,其中在如下实例中则平移被验证,在该实例中用来验证在初始帧与中间帧之间的平移的距离处于预定阈值水平内。见图2的操作21。
关于图3示出确定在两帧、比如当前帧与下一帧之间并且具体在初始与中间帧之间的平移运动。现在参照图3并且具体参照图3的操作30和32。就这一点而言,装置10可以包括用于对于初始帧和中间帧基于亮度平面的水平梯度确定水平积分投影v1(x)和v2(x)并且对于初始帧和中间帧基于亮度平面的垂直梯度确定垂直积分投影h1(x)和h2(x)的装置、比如处理器12等。
如在操作34和36中所示,装置10也可以包括用于使用在垂直积分投影v1(x)与v2(x)之间的相关性和绝对差值求和“SAD”测量来确定中间帧在水平方向上的水平平移(Δx);并且用于使用在水平积分投影h1(x)与h2(x)之间的相关性和SAD来确定中间帧的垂直平移(Δy)的装置、比如处理器12等。例如可以确定水平和垂直平移如下:
Δx=argminx{Σi=[1.W]|v1(i)-v1(x+i)|},其中-Woff<=x<=Woff
Δy=argminx{Σi-[1.H]|h1(i)-h2(x+i)|},其中-Hoff<=x<=Hoff
其中W和H分别是视频帧的宽度和高度,并且Woff=W/20和Hoff=H/20。
如在图3的操作38中所示,装置10也可以包括用于确定是否成功验证了在连续帧之间的平移的装置、比如处理器12等。在一个实施例中,如果在两个曲线之间的最小SAD距离少于预定阈值,则成功验证平移。备选地或者附加地,可以使用用于确定和验证平移的其它方法、比如考虑计算速度、准确性等的测量。备选地或者附加地,可以调整阈值以考虑相似因素。
一旦成功验证平移,分析新初始图像帧,并且特征计算循环在图2中的操作20重新开始。如果成功验证计算出的平移,则在操作42在当前图像帧中部分地搜索特征;参照图2的操作22进一步描述图像帧的部分搜索。
假设成功验证在帧之间的计算出的平移,如参照图3描述的那样,然后如在图2的操作22中所示,装置10也包括用于在特征图像的部分中搜索一个或者多个脸部特征的装置、比如处理器12等。为了确定搜索的特征图像的部分,使用基于在帧计算循环中分析的帧总数的一部分(1/n)。在一个示例实施例中,对于每帧,使用具有均匀更精细步进尺寸的所有比例(例如可以使用整个图像区域来搜索更高比例,因为搜索更高比例需要更少时间)搜索图像的1/n个区域来寻找脸部。在一个实施例中,比例是将在任何给定的时间搜索的图像的尺寸、例如搜索图像的每个10x10区域。比例可以由图像中的脸部和/或对象的尺寸定义。因此,可以考虑共计n帧用于脸部搜索,并且计算在每两个连续帧k-1与k之间的平移计算,其中1<=k<=n。
在一个示例实施例中,对于初始帧计算特征计算,并且对于在计算循环内的每个后续帧执行部分脸部搜索。来自初始帧的被计算出的特征可以用于脸部检测并且跨越后续帧分布。例如通过重用关于初始帧计算出的特征,可以跨越共计n帧使用部分搜索。因此,可以在n帧内执行对于所有比例、移位和姿态的完整特征计算和完整脸部搜索。
备选地或者附加地,在每帧中,可以使用具有粗步进尺寸的所有比例来搜索特征图像的整个区域。在这一实施例中,搜索网格的起始点变化使得在n帧中搜索所有像素位置。在帧中,用Δx=n和Δy=n(在x方向上移位)扫描子窗,并且扫描从像素位置(1,1)开始/始发。在下一帧中,用Δx=n和Δy=n扫描子窗,但是扫描从像素位置(2,2)开始/始发。对于n帧继续这一操作,在特征搜索期间覆盖特征图像中的位置中的多数位置。可以跨越n帧分布待搜索的比例数目。例如并且如关于图4所示,块24的操作提供对于一个或者多个脸部特征使用特征图像的部分来执行脸部搜索,其中搜索的特征图像的部分是在特征计算循环中分析的帧总数的一部分。由于网格不变并且仅被平移,所以可以在n帧之中分布搜索复杂性以执行完全脸部搜索。
使用操作22的搜索,装置10也可以包括用于确定用于如在图2的操作23中所示在特征图像中检测到的一个或者多个脸部特征的空间位置的装置、比如处理器12等。如果在任何搜索时刻发现脸部,则可以计算帧k中的该脸部的实际位置如下:
令(x,y)是在处理之时在任何时刻发现的脸部位置
令(Δxi,Δyi)是在帧i与i-1之间计算的平移
(xk,yk)是在帧k中的脸部位置
然后
例如可以在如下装置、比如装置10上实施如以上结合图2和3描述本发明的示例实施例的方法、装置和计算机程序产品,该装置也可以包括用于在一个示例实施例中处理视频中的第一帧的装置、比如处理器12等。在这一示例中,在计算和存储LBP值特征之前可选地将第一帧重设尺寸成320x240尺寸。如参照图3说明的那样,计算当前帧和下一帧的垂直和水平投影。例如可以确定v1(x),v2(x),h1(x),h2(x)、由此实现计算在两帧Δx与Δy之间的平移。
在出于示例而非限制的目的提供的用于检测尺寸为WxH的图像的、尺寸为80x80的特征(基本尺寸20x20的4倍)的示例实施中,通过将图像抽选成(W/4x H/4)尺寸来重设图像尺寸。在新的重设尺寸的窗中,可以选择在x和y方向上具有移位tx和ty的、尺寸为20x20的每个子窗而向脸部检测器、比如这里描述的脸部检测器馈送。在每帧中搜索从200x200开始并且下至20x20的共计10个脸部尺寸。在这一示例中,比例(M)是M=10。在一个实施例中,从更大比例200x200开始,相应地重设图像尺寸,并且计算LBP图像。使用这一LBP图像,可以执行脸部搜索。在一个比例中的每个脸部搜索之后,按照倍率、比如倍率1.25减少比例因子,并且可以执行脸部搜索直至最小比例尺寸、比如比例尺寸20x20。在一个实施例中,这一类型的脸部检测将能够检测320x240图像中的、范围从20x20尺寸到200x200尺寸的脸部。
一般而言并且根据用于脸部检测的一个示例实施例,为了检测尺寸为S=t*20的特征,其中20<=S<min(W,H),可以通过略过像素(W/t,H/t)来重设输入图像尺寸,并且将在x和y方向上具有移位tx和ty的、尺寸为20x20的每个子窗作为向如这里描述的特征检测装置和方法的输入。因此,在从第一像素位置开始的第一中间帧中和在从第二像素位置开始的第二中间帧中的子窗中搜索每个子窗。如这里描述的那样,使用确定的平移从第一像素平移第二像素位置。
在判决块24,装置10也可以包括用于确定是否关于操作21验证平移的装置、比如处理器12等。如果不是,则如这里描述的那样,特征计算循环从如关于操作20示出的那样重新开始计算用于初始帧的特征。如果验证了平移,则在判决块25,装置10也可以包括用于如这里描述的那样确定下一帧、比如下一中间帧是否在特征计算循环的n帧内的装置、比如处理器12等。如果下一帧在特征计算循环的n帧内,则下一帧变成当前帧并且该方法从操作21重新开始。如果下一帧未在特征计算循环的n帧内,则该方法从如关于操作20示出的那样重新开始计算用于初始帧的特征。
图4是根据本发明的一个示例实施例的特征图像的部分脸部搜索的图形表示。在第一中间帧(i=1)中,从位置(1,1)开始,将在x和y方向上具有移位tx和ty的每个子窗作为向如这里描述的特征检测装置和方法的输入。这里tx=4和ty=4。在第二中间帧中,使用特征图像(i=2)中,从位置(2,2)开始,将在x和y方向上具有移位tx和ty的每个子窗作为向分类器的输入。这里tx=4和ty=4。对于n帧继续这一操作,其中在当前实现方式中n=4,并且在每第i帧,起始扫描位置是(i,i)并且tx=4和ty=4。如果在特征图像中的位置(x,y)在任何时刻发现脸部,则使用下式来计算在当前帧(k)中的脸部位置。
如以上描述的那样,图2-3是根据本发明的示例实施例的方法和程序产品的流程图。将理解流程图的每个块和在流程图中的块组合可以通过与包括一个或者多个计算机程序指令的软件的执行关联的各种装置、比如硬件、固件、处理器、电路装置和/或其它设备来实施。例如以上描述的过程中的一个或者多个过程可以由计算机程序指令体现。就这一点而言,体现以上描述的过程的计算机程序指令可以由装置10的存储器设备14存储并且由装置10的处理器12执行。如将理解的那样,任何这样的计算机程序指令可以被加载到计算机或者其它可编程装置(例如硬件)上以产生机器使得在计算机或者其它可编程装置上执行的指令产生用于实施在流程图的块中指定的功能的装置。这些计算机程序指令也可以存储于非瞬态计算机可读存储器中,该非瞬态计算机可读存储器可以指引计算或者其它可编程装置以特定方式工作使得在计算机可读存储器中存储的指令产生制造品,该制造品实施在流程图的块中指定的功能。计算机程序指令也可以被加载到计算机或者其它可编程装置上以使系列操作在计算机或者其它可编程装置上被执行以产生计算机实施的过程使得在计算机或者其它可编程装置上执行的指令实施在流程图的块中指定的功能。
因而,图2-3的流程图的块支持用于执行指定功能的装置的组合和用于执行指定功能的操作的组合。也将理解,流程图的一个或者多个块和在流程图中的块组合可以由执行指定功能的基于专用硬件的计算机系统实施或者由专用硬件与计算机指令的组合实施。
如这里描述的那样,根据本发明的一个示例实施例提供一种方法、装置和计算机程序产品以便提供一种用于特征计算的改进技术。就这一点而言,一个实施例的方法、装置和计算机程序产品可以用减少计算要求而又继续提供可靠和健壮特征计算的方式提供特征计算。实际上,一个示例实施例的方法、装置和计算机程序产品可以提供通过利用跨越多个图像帧的重叠数量来计算图像帧中的特征。
从在前文描述和关联附图中呈现的教导中受益的、在这里阐述的本发明涉及的领域中的技术人员将想到这些本发明的许多修改和其它实施例。因此将理解,本发明将不限于公开的具体实施例,并且修改和其它实施例旨在于包含于所附权利要求的范围内。另外,虽然前文描述和关联附图在单元和/或功能的某些示例组合的背景中描述一些示例实施例,但是应当理解,备选实施例可以提供单元和/或功能的不同组合而未脱离所附权利要求的范围。就这一点而言,例如如可以在所附权利要求中的一些权利要求中阐述的那样也设想与以上明确描述的单元和/或功能组合不同的单元和/或功能组合。虽然这里运用具体术语,但是仅在通用和描述意义上而并非出于限制的目的来使用它们。

Claims (15)

1.一种用于对象检测的方法,该方法包括:
计算用于初始帧的特征,其中所述初始帧的所计算的特征生成特征图像;
确定在所述初始帧与中间帧之间平移是否被验证,其中如果用来验证在所述初始帧与所述中间帧之间的所述平移的距离在预定阈值水平内则平移被验证,以及其中确定所述平移是否被验证包括使用水平积分投影和垂直积分投影的绝对差值求和以及相关性来计算所述平移;
使用所述初始帧的所计算的特征以及所述中间帧的部分对于一个或者多个脸部特征来执行脸部搜索,其中搜索的所述中间帧的所述部分是在特征计算循环中分析的帧总数的一部分;并且
确定用于在所述中间帧的所述搜索部分中检测到的所述一个或者多个脸部特征的空间位置。
2.根据权利要求1所述的方法,其中确定平移还包括:
对于所述初始帧和所述中间帧,基于亮度平面的水平梯度来确定所述水平积分投影;
对于所述初始帧和所述中间帧,基于所述亮度平面的垂直梯度来确定所述垂直积分投影;
使用所述垂直积分投影来确定所述中间帧在水平方向上的水平平移;以及
使用所述水平积分投影来确定所述中间帧的垂直平移。
3.根据权利要求1或者2中的任一权利要求所述的方法,还包括:
在最后帧的所述特征图像的部分中搜索所述一个或者多个脸部特征;
确定用于位于所述最后帧的所搜索的部分中的所述一个或者多个脸部特征的空间位置;以及
提供下一帧作为所述初始帧;其中所述下一帧重新开始所述特征计算循环。
4.根据权利要求1或者2所述的方法,还包括分析用于平移的在所述初始帧之后与包含的最后帧之间的每帧,并且在所述特征图像的至少部分中搜索一个或者多个脸部特征。
5.根据权利要求1或者2所述的方法,还包括按照用户选择、在所述平移超过所述预定阈值水平之前的帧数目和预设帧数目中的至少一项来确定分析的帧总数。
6.根据权利要求1或者2所述的方法,还包括通过计算在所述特征计算循环期间分析的帧总数的一部分来确定所述特征图像的所搜索的部分。
7.根据权利要求1或者2所述的方法,其中在所述中间帧的部分中搜索所述一个或者多个脸部特征还包括:
在从第一像素位置开始的第一中间帧搜索所述特征图像中的子窗;并且
在从第二像素位置开始的第二中间帧搜索所述特征图像中的子窗,其中使用所确定的平移从所述第一像素偏移所述第二像素位置。
8.一种用于对象检测的装置,所述装置包括:
用于计算用于初始帧的特征的装置,其中所述初始帧的所计算的特征生成特征图像;
用于确定在所述初始帧与中间帧之间平移是否被验证的装置,其中如果用来验证在所述初始帧与所述中间帧之间的所述平移的距离在预定阈值水平内则平移被验证,其中所述装置被引起来确定所述平移是否被验证包括使用水平积分投影和垂直积分投影的绝对差值求和以及相关性来计算所述平移;
在所确定的平移被验证的实例中,使用所述初始帧的所计算的特征以及所述中间帧的部分对于一个或者多个脸部特征来执行脸部搜索,其中搜索的所述中间帧的所述部分是在特征计算循环中分析的帧总数的一部分;以及
用于确定用于在所述中间帧的所述搜索部分中检测到的所述一个或者多个脸部特征的空间位置的装置。
9.根据权利要求8所述的装置,其中所述装置进一步包括:
用于对于所述初始帧和所述中间帧、基于亮度平面的水平梯度来确定所述水平积分投影的装置;
用于对于所述初始帧和所述中间帧、基于所述亮度平面的垂直梯度来确定所述垂直积分投影的装置;
用于使用所述水平积分投影来确定所述中间帧在水平方向上的垂直平移的装置;以及
用于使用所述垂直积分投影来确定所述中间帧的水平平移的装置。
10.根据权利要求8或者9所述的装置,其中在用于平移的所述初始帧之后与包含的最后帧之间的每帧以及所述特征图像的至少部分中搜索一个或者多个脸部特征。
11.根据权利要求8或者9所述的装置,其中分析的帧总数由用户选择确定。
12.根据权利要求8或者9所述的装置,其中通过计算在所述特征计算循环期间分析的帧总数的一部分来确定所述特征图像的所搜索的部分。
13.根据权利要求8或者9所述的装置,其中所述装置进一步包括:
用于在从第一像素位置开始的第一中间帧搜索所述特征图像中的子窗的装置;以及
用于在从第二像素位置开始的第二中间帧搜索所述特征图像中的子窗的装置,其中使用所确定的平移从所述第一像素偏移所述第二像素位置。
14.根据权利要求8或者9所述的装置,其中所述装置包括:
用于促使用户通过使用显示器来控制通信设备的至少一个功能并且还被配置用于对用户输入做出响应的装置;以及
用于显示所述通信设备的用户接口的至少部分的装置,所述显示器和显示电路装置被配置促使所述用户控制所述通信设备的至少一个功能。
15.一种被配置用于执行根据权利要求1至7中任一项所述的方法的装置。
CN201280041948.0A 2011-08-29 2012-08-02 用于利用在视频帧之间的时间冗余性的特征计算和对象检测的方法和装置 Active CN103765437B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN2947CH2011 2011-08-29
IN2947/CHE/2011 2011-08-29
PCT/FI2012/050760 WO2013030435A1 (en) 2011-08-29 2012-08-02 Method and apparatus for feature computation and object detection utilizing temporal redundancy between video frames

Publications (2)

Publication Number Publication Date
CN103765437A CN103765437A (zh) 2014-04-30
CN103765437B true CN103765437B (zh) 2017-02-15

Family

ID=47755383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280041948.0A Active CN103765437B (zh) 2011-08-29 2012-08-02 用于利用在视频帧之间的时间冗余性的特征计算和对象检测的方法和装置

Country Status (4)

Country Link
US (1) US9508155B2 (zh)
EP (1) EP2751740A4 (zh)
CN (1) CN103765437B (zh)
WO (1) WO2013030435A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354355B2 (en) * 2014-07-29 2019-07-16 Tata Consultancy Services Limited Digital watermarking
JP2019117487A (ja) * 2017-12-27 2019-07-18 ソニー株式会社 画像処理装置、画像処理方法、及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6130912A (en) * 1998-06-09 2000-10-10 Sony Electronics, Inc. Hierarchical motion estimation process and system using block-matching and integral projection
US6633655B1 (en) * 1998-09-05 2003-10-14 Sharp Kabushiki Kaisha Method of and apparatus for detecting a human face and observer tracking display
US6711587B1 (en) * 2000-09-05 2004-03-23 Hewlett-Packard Development Company, L.P. Keyframe selection to represent a video
CN102103694A (zh) * 2009-12-21 2011-06-22 展讯通信(上海)有限公司 基于视频的人脸实时检测方法及其装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3051299A (en) 1998-03-31 1999-10-18 Mate - Media Access Technologies Ltd. Method of selecting key-frames from a video sequence
KR100573696B1 (ko) * 2003-07-31 2006-04-26 삼성전자주식회사 패턴 분석에 기반한 움직임 벡터 보정 장치 및 방법
US7391907B1 (en) 2004-10-01 2008-06-24 Objectvideo, Inc. Spurious object detection in a video surveillance system
KR100588132B1 (ko) * 2004-10-04 2006-06-09 삼성전자주식회사 디스플레이장치
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8098885B2 (en) 2005-11-02 2012-01-17 Microsoft Corporation Robust online face tracking
US7636454B2 (en) 2005-12-05 2009-12-22 Samsung Electronics Co., Ltd. Method and apparatus for object detection in sequences
US20090245580A1 (en) * 2006-07-21 2009-10-01 Darryl Greig Modifying parameters of an object detector based on detection information
JP5247356B2 (ja) * 2008-10-29 2013-07-24 キヤノン株式会社 情報処理装置およびその制御方法
US8611590B2 (en) 2008-12-23 2013-12-17 Canon Kabushiki Kaisha Video object fragmentation detection and management
WO2011080599A1 (en) 2009-12-30 2011-07-07 Nokia Corporation Method, device and computer program product for detecting objects in digital images

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6130912A (en) * 1998-06-09 2000-10-10 Sony Electronics, Inc. Hierarchical motion estimation process and system using block-matching and integral projection
US6633655B1 (en) * 1998-09-05 2003-10-14 Sharp Kabushiki Kaisha Method of and apparatus for detecting a human face and observer tracking display
US6711587B1 (en) * 2000-09-05 2004-03-23 Hewlett-Packard Development Company, L.P. Keyframe selection to represent a video
CN102103694A (zh) * 2009-12-21 2011-06-22 展讯通信(上海)有限公司 基于视频的人脸实时检测方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Video object model and segmentation for content-based video indexing;Zhong D,Chang S F;《Circuits and Systems》;19970630;第3页第3-4段,图2 *

Also Published As

Publication number Publication date
US9508155B2 (en) 2016-11-29
WO2013030435A1 (en) 2013-03-07
EP2751740A1 (en) 2014-07-09
EP2751740A4 (en) 2015-07-29
US20150043785A1 (en) 2015-02-12
CN103765437A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
CN114902294B (zh) 移动增强现实中的细粒度视觉识别
US9135514B2 (en) Real time tracking/detection of multiple targets
CN108090916B (zh) 用于跟踪视频中的目标图形的方法和装置
CN103703758B (zh) 移动增强现实系统
US9710698B2 (en) Method, apparatus and computer program product for human-face features extraction
US9639758B2 (en) Method and apparatus for processing image
CN108230357B (zh) 关键点检测方法、装置、存储介质和电子设备
KR20190128724A (ko) 타겟 인식 방법, 장치, 저장 매체 및 전자 기기
US20130177203A1 (en) Object tracking and processing
CN102792317A (zh) 基于多个特征检测器的应用的图像特征检测
CN107507225B (zh) 运动目标检测方法、装置、介质及计算设备
JP2017531864A (ja) コンピュータビジョンの特徴をコンピューティングするための構成可能なハードウェア
EP3702957A1 (en) Target detection method and apparatus, and computer device
CN108229494B (zh) 网络训练方法、处理方法、装置、存储介质和电子设备
US20170206430A1 (en) Method and system for object detection
CN110910445B (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
CN109345460B (zh) 用于矫正图像的方法和装置
CN111784737A (zh) 一种基于无人机平台的目标自动跟踪方法及系统
CN103765437B (zh) 用于利用在视频帧之间的时间冗余性的特征计算和对象检测的方法和装置
CN103765477A (zh) 通过图形匹配和环形检测而用自动模型初始化进行线跟踪
Lin et al. Multiscale feature cross‐layer fusion remote sensing target detection method
CN113361519B (zh) 目标处理方法、目标处理模型的训练方法及其装置
CN115424267A (zh) 基于高斯分布的旋转目标检测方法和装置
CN113139540B (zh) 背板检测方法及设备
CN114140612A (zh) 电力设备隐患检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160218

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

C14 Grant of patent or utility model
GR01 Patent grant