CN111033515B - 将对象区分优先级以用于对象辨识 - Google Patents

将对象区分优先级以用于对象辨识 Download PDF

Info

Publication number
CN111033515B
CN111033515B CN201880055042.1A CN201880055042A CN111033515B CN 111033515 B CN111033515 B CN 111033515B CN 201880055042 A CN201880055042 A CN 201880055042A CN 111033515 B CN111033515 B CN 111033515B
Authority
CN
China
Prior art keywords
state
stranger
determining
confidence
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880055042.1A
Other languages
English (en)
Other versions
CN111033515A (zh
Inventor
王雷
毕宁
罗纳德·卡里奥迪萨
陈颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN111033515A publication Critical patent/CN111033515A/zh
Application granted granted Critical
Publication of CN111033515B publication Critical patent/CN111033515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • G06V40/173Classification, e.g. identification face re-identification, e.g. recognising unknown faces across different face tracks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供用于在一或多个视频帧中将对象区分优先级以用于对象辨识的技术和系统。举例来说,获得当前视频帧,且在所述当前视频帧中检测对象。确定与所述对象相关联的状态信息。也可确定所述对象的优先级。举例来说,可针对对象基于与所述对象相关联的状态信息确定优先级。针对来自所述对象的至少一个对象基于针对所述至少一个对象确定的优先级执行对象辨识。举例来说,可针对具有较高优先级的对象在具有较低优先级的对象之前执行对象辨识。

Description

将对象区分优先级以用于对象辨识
相关申请的交叉引用
本申请案要求2017年8月30日提交的第62/552,165号美国临时申请案的权益,所述美国临时申请案特此以引用的方式且出于所有目的全文并入本文中。
技术领域
本发明大体上涉及对象辨识,且更具体来说涉及用于将对象区分优先级以用于对象辨识的技术和系统。
背景技术
对象辨识可用以从数字图像或视频剪辑的视频帧识别或检验对象。对象辨识的一个实例是面部辨识,其中检测且辨识人的面部。在一些情况下,从图像提取面部的特征且与存储于数据库中的特征进行比较以尝试辨识面部。在一些情况下,将所提取的特征馈送到分类器且分类器将给出输入特征的身份。对象辨识是时间和资源密集的过程。
发明内容
在一些实例中,描述用于将图像中的对象区分优先级以用于执行对象辨识的技术和系统。举例来说,可跨越视频帧序列检测和跟踪对象。在每一视频帧,可将对象区分优先级以用于对象辨识过程。可随后对具有最高优先级的对象执行对象辨识过程。举例来说,具有较高优先级的对象将比具有较低优先级的对象更早处理。在一些情况下,所述技术和系统用于将视频帧中的面部区分优先级以用于面部辨识。
使用基于指派于对象的状态的一组规则来更新对象的优先级。基于针对每一视频帧执行的对象跟踪的结果而确定状态。举例来说,可基于一或多个先前视频帧中的对象的先前状态,基于与当前视频帧中的对象相关联的唯一对象识别符,基于从针对对象执行的前一对象辨识过程确定的对象的置信度得分,和/或基于指派于对象的历史计数器,来针对当前视频帧确定对象的状态。对象的历史计数器对对象已在某一状态中的次数和/或对象已经辨识为具有高于或低于一或多个置信度阈值的置信度得分的次数进行计数。
指派于对象的状态可包含新状态、经确认状态、未经确认状态(也被称作非确认状态)、预先陌生人状态和陌生人状态。可对不匹配于任何先前检测和/或跟踪的对象的对象指派新状态。当对象的唯一对象识别符匹配于在前一帧中检测和跟踪的对象的唯一对象识别符时,且在一些情况下,当基于置信度得分和/或对象的历史计数器满足其它条件时也可对对象指派新状态。当对象的置信度得分高于高置信度阈值从而指示存在对象匹配于已知对象(例如,向对象辨识系统登记的对象)的数据库中注册的对象的高置信度时,可为对象指派经确认状态。可对在当前视频帧中的对象的唯一对象识别符与匹配于当前视频帧的对象的前一视频帧中的前一对象的唯一对象识别符之间具有识别符失配的对象指派未经确认状态(例如,基于对象的限界框与前一对象的限界框之间的重叠,或其它合适的匹配技术)。在一些情况下,可基于针对对象确定的置信度得分指派未经确认状态。
也可基于对象是否展现陌生人的特性而指派状态。如本文所使用,术语陌生人指代未在已知对象的数据库中注册的对象。可对具有低于用以识别陌生人的最小置信度阈值的置信度得分但具有指示在阈值数目的帧中尚未检测到作为陌生人的对象的历史计数器值的对象指派预先陌生人状态。可对具有低于最小置信度阈值的置信度得分且具有指示在阈值数目的帧中对象已被检测为陌生人的历史计数器值的对象指派陌生人状态。也可使用其它因数来确定对象的状态。
可为每一状态定义基本优先级。具有“新”状态的对象与具有其它状态的对象的基本优先级相比可具有最高基本优先级。按降序针对未经确认状态、随后是预先陌生人状态、经确认状态和陌生人状态定义下一最高基本优先级。当对象被新指派某一状态时,为所述状态定义的基本优先级经指派于所述对象。举例来说,如果面部或其它对象在当前帧中经辨识且其状态改变到不同状态,那么面部的优先级将更新到新指派状态的基本优先级。在一些情况下,如果对象的状态在当前帧中维持于其当前状态(在此情况下状态未更新到不同状态),那么对象的优先级将增加预定义量。在一些情况下,如果在当前帧中检测和跟踪对象,但在当前帧中未辨识出,那么对象的优先级将被增加预定义量。
使用本文所描述的技术和系统,可以高准确性实时实现对象辨识(包含面部辨识)。如本文所使用,术语“实时”指代在正捕获视频序列时辨识视频序列中的对象。
根据至少一个实例,提供一种在一或多个视频帧中将对象区分优先级以用于对象辨识的方法。所述方法包含获得当前视频帧,以及检测所述当前视频帧中的多个对象。所述方法进一步包含确定与所述多个对象相关联的状态信息。所述方法进一步包含确定所述多个对象的优先级。针对对象基于与所述对象相关联的状态信息确定优先级。所述方法进一步包含针对来自所述多个对象的一或多个对象基于为所述一或多个对象确定的一或多个优先级执行对象辨识。在具有较低优先级的对象之前针对具有较高优先级的对象执行对象辨识。
在另一实例中,提供一种用于在一或多个视频帧中将对象区分优先级以用于对象辨识的设备,其包含经配置以存储视频数据的存储器和处理器。所述处理器经配置以且可获得当前视频帧,且检测当前视频帧中的多个对象。所述处理器进一步经配置以且可确定与所述多个对象相关联的状态信息。所述处理器进一步经配置以且可确定所述多个对象的优先级。针对对象基于与所述对象相关联的状态信息确定优先级。所述处理器进一步经配置以且可针对来自所述多个对象的一或多个对象基于针对所述一或多个对象确定的一或多个优先级执行对象辨识。在具有较低优先级的对象之前针对具有较高优先级的对象执行对象辨识。
在另一实例中,提供一种非暂时性计算机可读媒体,其上存储有指令,所述指令在由一或多个处理器执行时致使所述一或多个处理器:获得当前视频帧;检测当前视频帧中的多个对象;确定与所述多个对象相关联的状态信息;确定所述多个对象的优先级,其中针对对象基于与对象相关联的状态信息确定优先级;以及针对来自所述多个对象的一或多个对象基于针对所述一或多个对象确定的一或多个优先级执行对象辨识,其中针对具有较高优先级的对象在具有较低优先级的对象之前执行对象辨识。
在另一实例中,提供一种用于在一或多个视频帧中将对象区分优先级以用于对象辨识的设备。所述设备包含用于获得当前视频帧的装置,和用于检测当前视频帧中的多个对象的装置。所述设备进一步包含用于确定与所述多个对象相关联的状态信息的装置。所述设备进一步包含确定所述多个对象的优先级。针对对象基于与所述对象相关联的状态信息确定优先级。所述设备进一步包含用于针对来自所述多个对象的一或多个对象基于为所述一或多个对象确定的一或多个优先级执行对象辨识的装置。在具有较低优先级的对象之前针对具有较高优先级的对象执行对象辨识。
在一些方面中,所述多个对象包含多个面部,且对象辨识包含面部辨识。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:获得所述多个对象的对象识别符、置信度得分和历史计数器信息,其中对象的历史计数器信息至少指示所述对象已具有当前状态的帧的数目;以及基于所述多个对象的对象识别符、置信度得分和历史计数器信息确定所述多个对象的状态信息。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:响应于对象的状态针对当前帧维持于当前状态将当前视频帧的对象的优先级增加预定义量。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:跟踪当前视频帧中的所述多个对象,其中跟踪包含匹配当前视频帧中的对象与先前检测到的对象;以及基于跟踪的结果更新与所述多个对象相关联的状态信息。在一些方面中,跟踪包含匹配当前视频帧中的所述多个对象的限界框与前一视频帧中所检测的多个对象的限界框。在一些情况下,跟踪对象包含从前一视频帧中检测到的对象确定一或多个关键点,且匹配来自前一帧中检测到的对象的所述一或多个关键点与来自当前视频帧中检测到的对象的一或多个关键点。在一些情况下,在所述当前视频帧中检测到的不与前一视频帧中检测到的任何对象匹配的对象被指派新状态,其中经指派新状态的对象被给定比经指派于其它状态的对象更高的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有新状态;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,所述第一置信度阈值小于所述第二置信度阈值;确定对象的历史计数器小于第一计数器阈值,所述第一计数器阈值包含对象的置信度得分大于第一置信度阈值的视频帧的数目的计数;以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值以及基于对象的历史计数器小于第一计数器阈值将对象的状态维持于新状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于对象的状态维持于新状态将对象的优先级增加预定义量。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有新状态;确定对象的置信度得分大于第二置信度阈值;以及基于对象的置信度得分大于第二置信度阈值将对象的状态从新状态改变到经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从新状态改变到经确认状态将对象的优先级改变到与经确认状态相关联的基本优先级,其中与经确认状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有新状态;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,所述第一置信度阈值小于所述第二置信度阈值;确定对象的历史计数器大于第一计数器阈值,所述第一计数器阈值包含对象的置信度得分大于第一置信度阈值的视频帧的数目的计数;以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值以及基于对象的历史计数器大于第一计数器阈值将对象的状态从新状态改变到经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于对象的状态维持于新状态将对象的优先级增加预定义量。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有新状态;确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;以及基于对象的对象识别符不匹配于先前检测到的对象的对象识别符将对象的状态从新状态改变到未经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从新状态改变到未经确认状态将对象的优先级改变到与未经确认状态相关联的基本优先级,其中与未经确认状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有新状态;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;以及基于对象的置信度得分小于最小置信度阈值将对象的状态从新状态改变到预先陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从新状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级,其中与预先陌生人状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有新状态;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;确定对象的历史计数器大于最小计数器阈值,所述最小计数器阈值包含对象的置信度得分小于最小置信度阈值的视频帧的数目的计数;以及基于对象的置信度得分小于最小置信度阈值以及基于对象的历史计数器大于最小计数器阈值将对象的状态从新状态改变到陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从新状态改变到陌生人状态将对象的优先级改变到与陌生人状态相关联的基本优先级,其中与陌生人状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符将对象的状态维持于经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于对象的状态维持于经确认状态将对象的优先级增加预定义量。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认;确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;以及基于对象的对象识别符不匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于最小置信度阈值将对象的状态从经确认状态改变到未经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从经确认状态改变到未经确认状态将对象的优先级改变到与未经确认状态相关联的基本优先级,其中与未经确认状态相关联的基本优先级高于与经确认状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认;确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;以及基于对象的对象识别符不匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分小于最小置信度阈值将对象的状态从经确认状态改变到预先陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从经确认状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级,其中与预先陌生人状态相关联的基本优先级大于与经确认状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有未经确认状态;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,所述第一置信度阈值小于所述第二置信度阈值;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值将对象的状态从未经确认状态改变到新状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从未经确认状态改变到新状态将对象的优先级改变到与新状态相关联的基本优先级,其中与新状态相关联的基本优先级大于与未经确认状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有未经确认状态;确定对象的置信度得分大于第二置信度阈值,其中所述第二置信度阈值用以确认对对象先前执行的对象辨识成功;以及基于对象的置信度得分大于第二置信度阈值将对象的状态从未经确认状态改变到经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从未经确认状态改变到经确认状态将对象的优先级改变到与经确认状态相关联的基本优先级,其中与经确认状态相关联的基本优先级小于与未经确认状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有未经确认状态;确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;以及基于对象的对象识别符不匹配于先前检测到的对象的对象识别符将对象的状态维持于未经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于对象的状态维持于未经确认状态将对象的优先级增加预定义量。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有未经确认状态;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;以及基于对象的置信度得分小于最小置信度阈值将对象的状态从未经确认状态改变到预先陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从未经确认状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级,其中与预先陌生人状态相关联的基本优先级小于与未经确认状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,所述第一置信度阈值小于所述第二置信度阈值;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值将对象的状态从预先陌生人状态改变到新状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从预先陌生人状态改变到新状态将对象的优先级改变到与新状态相关联的基本优先级,其中与新状态相关联的基本优先级大于与预先陌生人状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于最小置信度阈值且小于第一置信度阈值,所述最小置信度阈值小于所述第一置信度阈值;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于最小置信度阈值且小于第一置信度阈值将对象的状态从预先陌生人状态改变到未经确认状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从预先陌生人状态改变到未经确认状态将对象的优先级改变到与未经确认状态相关联的基本优先级,其中与未经确认状态相关联的基本优先级大于与预先陌生人状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人;确定对象的历史计数器小于最小计数器阈值,所述最小计数器阈值包含对象的置信度得分小于最小置信度阈值的视频帧的数目的计数;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符,基于对象的置信度得分小于最小置信度阈值,以及基于对象的历史计数器小于最小计数器阈值将对象的状态维持于预先陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于对象的状态维持于预先陌生人状态将对象的优先级增加预定义量。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人;确定对象的历史计数器大于最小计数器阈值,所述最小计数器阈值包含对象的置信度得分小于最小置信度阈值的视频帧的数目的计数;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符,基于对象的置信度得分小于最小置信度阈值,以及基于对象的历史计数器大于最小计数器阈值将对象的状态从预先陌生人状态改变到陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从预先陌生人状态改变到陌生人状态将对象的优先级改变到与陌生人状态相关联的基本优先级,其中与陌生人状态相关联的基本优先级小于与预先陌生人状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,所述第一置信度阈值小于所述第二置信度阈值;确定对象的历史计数器大于第一计数器阈值,所述第一计数器阈值包含对象的置信度得分大于第一置信度阈值的视频帧的数目的计数;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符,基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,以及基于对象的历史计数器大于第一计数器阈值将对象的状态从陌生人状态改变到新状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从陌生人状态改变到新状态将对象的优先级改变到与新状态相关联的基本优先级,其中与新状态相关联的基本优先级大于与陌生人状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分大于最小置信度阈值且小于第一置信度阈值,所述最小置信度阈值小于所述第一置信度阈值;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于最小置信度阈值且小于第一置信度阈值将对象的状态从陌生人状态改变到预先陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于将对象的状态从陌生人状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级,其中与预先陌生人状态相关联的基本优先级大于与陌生人状态相关联的基本优先级。
在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括:确定当前视频帧中检测到的对象具有陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符;确定对象的置信度得分小于最小置信度阈值,其中所述最小置信度阈值用以识别陌生人;以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分小于最小置信度阈值将对象的状态维持于陌生人状态。在一些方面中,上文描述的方法、设备和计算机可读媒体进一步包括响应于对象的状态维持于陌生人状态将对象的优先级增加预定义量。
本发明内容并非意图识别所主张的标的物的关键特征或必要特征,也并非意图单独用于确定所主张的标的物的范围。标的物应参考此专利的整个说明书的适当部分、任何或所有图式以及每一权利要求来理解。
在参考以下说明书、权利要求书以及附图之后,前述内容连同其它特征和实施例将变得更显而易见。
附图说明
下文参考以下图式详细描述本申请的说明性实施例:
图1是说明根据一些实例的用于辨识一或多个视频帧中的对象的系统的实例的框图。
图2是根据一些实例的对象辨识系统的实例。
图3是说明根据一些实例的两个限界框的交集和并集的实例的图式。
图4是根据一些实例的捕获具有多个对象的场景的视频帧的实例。
图5A是根据一些实例的示出在正跟踪的场景内检测到的对象的视频帧的实例。
图5B是根据一些实例的示出在正跟踪的场景内检测到的对象的视频帧的实例。
图6是根据一些实例的说明状态转变的实例的图式。
图7是根据一些实例的说明不同状态的基本优先级的实例的图式。
图8是根据一些实施例的说明利用对象优先级区分的对象辨识过程的实例的流程图。
图9是根据一些实施例的说明在一或多个视频帧中将对象区分优先级以用于对象辨识的过程的实例的流程图。
具体实施方式
下文提供了本发明的某些方面和实施例。如所属领域的技术人员所显而易见的,这些方面和实施例中的一些可以独立地应用并且它们中的一些可以组合应用。在以下描述中,出于说明的目的,阐述特定细节以便提供对本申请的实施例的透彻理解。然而,将显而易见的是,可在无这些特定细节的情况下实践各种实施例。图式和描述并不希望是限制性的。
以下描述仅提供示范性实施例,且并不意图限制本公开的范围、适用性或配置。实际上,示范性实施例的以下描述将为所属领域的技术人员提供用于实施示范性实施例的启发性描述。应理解,在不脱离如所附权利要求书中所给出的本发明的精神和范围的情况下,可以在元件的功能和布置上作出各种改变。
在以下描述中,给出具体细节以提供对实施例的透彻理解。然而,本领域的技术人员应理解,可以在没有这些具体细节的情况下实践所述实施例。举例来说,电路、系统、网络、工艺和其它组件可以框图形式展示为组件以免以不必要的细节混淆实施例。在其它情况下,可以在没有不必要的细节的情况下示出熟知的电路、过程、算法、结构以及技术以便避免混淆实施例。
此外,应注意,个别实施例可描述为经描绘为流程图、作业图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为顺序过程,但是许多操作可以并行或同时执行。另外,操作的顺序可重新安排。过程在过程的操作完成时终止,但是可以具有不包含在图中的额外步骤。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,过程的终止可对应于函数返回到调用函数或主函数。
术语“计算机可读媒体”包含(但不限于)便携式或非便携式存储装置、光学存储装置,以及能够存储、容纳或运载指令和/或数据的各种其它媒体。计算机可读媒体可能包含非暂时性媒体,在非暂时性媒体中可以存储数据,并且非暂时性媒体并不包含无线地或在有线连接上传播的载波和/或暂时性电子信号。非暂时性媒体的实例可包含(但不限于)磁盘或磁带、光学存储媒体,例如光盘(CD)或数字通用光盘(DVD)、快闪存储器、存储器或存储器装置。计算机可读媒体可具有存储在其上的可表示程序、函数、子程序、程序、例程、子例程、模块、软件包、类别的代码及/或机器可执行指令,或指令、数据结构或程序语句的任何组合。一个代码段可通过传递及/或接收信息、数据、自变量、参数或存储器内容耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由包含存储器共享、消息传递、令牌传递、网络传输或类似者的任何合适的装置传递、转发或传输。
此外,实施例可以由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当以软件、固件、中间件或微码实施时,用以执行必要任务的程序代码或代码段(例如,计算机程序产品)可存储于计算机可读或机器可读媒体中。处理器可执行必要任务。
视频分析系统可从视频源获得视频帧序列且可处理视频序列以执行多种任务。视频源的一个实例可包含因特网协议相机(IP相机)或其它视频捕获装置。IP相机是可用于监视、家庭安全性或其它合适应用的一类数字摄像机。不同于模拟闭路电视(CCTV)相机,IP相机可经由计算机网络和因特网发送和接收数据。在一些例子中,一或多个IP相机可以位于场景或环境中,并且可以在捕获场景或环境的视频序列时保持静态。
IP相机可用以经由计算机网络和因特网发送和接收数据。在一些情况下,IP相机系统可用于双向通信。举例来说,数据(例如,音频、视频、元数据或类似者)可以使用一或多个网络缆线或使用无线网络通过IP相机发射,允许用户交流他们所看到的。在一个说明性实例中,加油站售货员可以使用从IP相机提供的视频数据帮助顾客如何使用付费泵(例如,通过查看顾客在付费泵处的动作)。也可经由单个网络或多个网络发射用于摇摄、倾斜、变焦(PTZ)相机的命令。此外,IP相机系统提供灵活性和无线能力。举例来说,IP相机实现到网络的容易连接、可调整的相机位置以及在因特网上对服务的远程可接入。IP相机系统还提供用于分布式智能。举例来说,关于IP相机,视频分析可置于相机自身中。加密和验证也容易通过IP相机提供。举例来说,IP相机通过用于基于IP的应用的已经定义的加密和验证方法提供安全的数据发射。更进一步的是,通过IP相机增大了劳动成本效率。举例来说,视频分析可产生针对某些事件的警报,这减少监视系统中的所有相机(基于警报)的劳动成本。
视频分析提供了范围从所关注的事件的立即检测到出于在长时间周期中提取事件的目的的预记录视频分析的多种任务,以及许多其它任务。各种探索研究和现实体验表明了在监视系统中,例如,人类操作者通常无法保持警觉和注意多于20分钟,即使是监视来自一个相机的图片。当存在两个或更多个相机要监视或时间超出某一时间段(例如,20分钟)时,操作者监视视频且有效地响应事件的能力显著降低。视频分析可以自动地分析来自相机的视频序列并且发送用于所关注的事件的警报。因此,人类操作者可在被动模式中监视一或多个场景。此外,视频分析可分析巨大量的所记录视频且可提取含有所关注事件的特定视频片段。
视频分析还提供各种其它特征。举例来说,视频分析可通过检测移动对象且通过追踪移动对象而作为智能视频运动检测器来操作。在一些情况下,视频分析可以围绕有效对象产生和显示限界框。视频分析也可充当侵入检测器、视频计数器(例如,通过对人、对象、交通工具或类似物计数)、相机篡改检测器、对象离开检测器、对象/资产移除检测器、资产保护器、徘徊检测器和/或滑动和下落检测器。视频分析可以进一步用于执行各种类型的识别功能,例如,面部检测和识别、车牌识别、对象辨识(例如,包、标志、身体标记,或类似者),或其它识别功能。在一些情况下,视频分析可经训练以识别某些对象。视频分析可执行的另一功能包含提供顾客度量(例如,顾客计数、性别、年龄、花费的时间量和其它合适的度量)的人口统计数据。视频分析也可执行视频搜索(例如,提取给定区的基本活动)和视频概要(例如,关键移动的提取)。在一些例子中,可通过视频分析执行事件检测,包含火情、烟雾、打架、人群形成的检测,或视频分析经编程或学习以检测的任何其它合适的事件。检测器可触发所关注的事件的检测并且可将警示或警报发送到主控室以警示用户所关注的事件。
如本文更详细描述,对象辨识系统和方法可检测、跟踪且在一些情况下辨识捕获场景的图像的一或多个视频帧中的对象。对象可被指派优先级,且可使用基于经指派优先级的完整对象辨识过程来辨识。举例来说,提供基于动态优先级的面部辨识的方法。基于面部检测在帧序列上跟踪所检测的面部(或其它合适的对象)。所检测的面部(或其它对象)的限界框(或其它合适的限界区)可与前一帧中检测到的所有面部进行匹配,且将成功地跟踪最佳匹配面部(例如,通过在限界框的交并比大于阈值,或使用另一匹配技术)。每一所跟踪的面部可与辨识优先级、面部状态和唯一人识别符相关联。具有较高优先级的面部将比具有较低优先级的面部更早处理。以基于各种因素的规则集合来更新优先级。下文关于图1和图2描述实例对象辨识系统的细节。
图1是说明用于辨识一或多个视频帧中的对象的系统的实例的框图。对象辨识系统100从视频源102接收视频帧104。视频帧104也可在本文中被称作视频图片或图片。视频帧104捕获或含有场景的图像,且可为一或多个视频序列的部分。视频源102可包含视频捕获装置(例如,摄像机、相机电话、视频电话,或其它合适的捕获装置)、视频存储装置、含有所存储的视频的视频存档、提供视频数据的视频服务器或内容提供者、从视频服务器或内容提供者接收视频的视频馈送接口、用于产生计算机图形视频数据的计算机图形系统、此类来源的组合,或视频内容的其它来源。在一个实例中,视频源102可包含一个IP相机或多个IP相机。在说明性实例中,多个IP相机可定位于整个场景或环境中,且可将视频帧104提供到对象辨识系统100。举例来说,IP相机可放置于场景内的各种视场处以使得可基于所捕获的场景的视频帧104执行监控。本文中所描述的对象检测技术也可对除由视频帧捕获的那些图像外的图像执行,例如由相机捕获的静态图像或其它合适的图像。
在一些实施例中,对象辨识系统100和视频源102可为同一计算装置的部分。在一些实施例中,对象辨识系统100和视频源102可为单独计算装置的部分。在一些实例中,计算装置(或装置)可以包含一或多个无线收发器以用于无线通信。计算装置(或装置)可包含电子装置,例如相机(例如,IP相机或其它摄像机、相机电话、视频电话或其它合适的捕获装置)、移动或固定电话手持机(例如,智能电话、蜂窝式电话或类似物)、桌上型计算机、膝上型计算机或笔记本计算机、平板计算机、机顶盒、电视机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置,或任何其它合适的电子装置。
对象辨识系统100处理视频帧104以检测和跟踪视频帧104中的对象。在一些情况下,也可通过将所检测和/或跟踪对象的特征与向对象辨识系统100注册的登记对象进行比较来辨识对象。如本文更详细描述,可在每一视频帧处基于指派于每一视频帧处的对象的优先级而辨识对象。在具有较低优先级的对象之前使用对象辨识处理具有较高优先级的对象。对象辨识系统100输出对象106作为所检测和跟踪的对象和/或作为经辨识对象。
对象辨识系统100可执行任何类型的对象辨识。对象辨识的实例包含面部辨识,其中使用本文中所描述的技术分析和检测、跟踪和/或辨识由视频帧捕获的场景中的人的面部。实例面部辨识过程从数字图像或视频剪辑的视频帧识别和/或检验人的身份。在一些情况下,从图像提取面部的特征且与存储于数据库中的已知面部的特征进行比较。在一些情况下,将所提取的特征馈送到分类器且分类器可给出输入特征的身份。用于辨识面部的方法的一个说明性实例包含执行面部检测、面部跟踪、面部特征点检测、面部归一化、特征提取和面部识别和/或面部检验。面部检测是一种对象检测,且待检测的仅有对象是面部。虽然本文中使用面部辨识作为对象辨识的说明性实例来描述技术,但所属领域的技术人员将了解,相同技术可应用于其它类型的对象的辨识。
图2是说明对象辨识系统200的实例的框图。对象辨识系统200处理视频帧204且输出对象206作为所检测、跟踪和/或辨识的对象。对象辨识系统200可执行任何类型的对象辨识。由对象辨识系统200执行的对象辨识的实例包含面部辨识。然而,本领域的技术人员将了解,对象辨识系统200可执行任何其它合适类型的对象辨识。用于辨识视频帧204中的对象的完整面部辨识过程的一个实例包含以下步骤:对象检测;对象跟踪;对象特征点检测;对象归一化;特征提取;以及识别和/或检验。可使用这些步骤中的一些或全部执行对象辨识,其中一些步骤在一些情况下是任选的。
对象辨识系统200包含可执行对象检测的对象检测引擎210。在一个说明性实例中,对象检测引擎210可执行面部检测以检测视频帧中的一或多个面部。对象检测是用以从图像或视频帧识别对象的技术。举例来说,面部检测可用以从图像或视频帧识别面部。许多对象检测算法(包含面部检测算法)使用模板匹配技术以从图像定位对象(例如,面部)。可使用各种类型的模板匹配算法。在其它对象检测算法中也可由对象检测引擎210使用。
一个实例模板匹配算法含有四个步骤,包含哈尔(Haar)特征提取、积分图像生成、自适应提升(Adaboost)训练,和级联分类器。此对象检测技术通过在帧或图像上应用滑动窗口来执行检测。对于每一当前窗口,当前窗口的哈尔特征是从预先计算的积分图像计算的。哈尔特征是通过自适应提升算法来选择,且可用以借助级联分类器有效地将窗口分类为面部(或其它对象)窗口或非面部窗口。级联分类器包含在级联中组合的许多分类器,其允许快速丢弃图像的背景区,同时花费更多计算在类似对象的区上。举例来说,级联分类器可将当前窗口分类为面部类别或非面部类别。如果一个分类器将窗口分类为非面部类别,那么丢弃所述窗口。否则,如果一个分类器将窗口分类为面部类别,那么级联布置中的下一分类器将用以再次进行测试。直到所有分类器确定当前窗口是面部,才将所述窗口标记为面部的候选。在检测所有窗口之后,使用非最大抑制算法将每一面部周围的面部窗口分组以生成所检测面部的最终结果。此对象检测算法的另外细节在P·维奥拉(P.Viola)和M·琼斯(M.Jones)的“稳健实时对象检测(Robust real time object detection)”(IEEEICCV视觉统计和计算理论研讨会,2001)中描述,其特此以引用的方式且出于所有目的全文并入本文中。
对象检测引擎210还可执行其它合适的对象检测技术。对象检测的一个说明性实例包含用于基于视图的面部检测的基于实例的学习,例如在K·孙(K.Sung)和T·波吉奥(T.Poggio)的“用于基于视图的面部检测的基于实例的学习(Example-based learningfor view-based face detection)”(IEEE模式分析和机器智能,卷20,39-51页,1998)中所描述,其特此以引用的方式且出于所有目的全文并入本文中。另一实例是基于神经网络的对象检测,例如在H·劳力(H.Rowley)、S·巴路加(S.Baluja)和T·卡纳德(T.Kanade)的“基于神经网络的面部检测(Neural network-based face detection)”(IEEE模式分析和机器智能,卷20,22-38页,1998)中所描述,其特此以引用的方式且出于所有目的全文并入本文中。又一实例是基于统计的对象检测,例如在H·施内德曼(H.Schneiderman)和T·卡纳德(T.Kanade)的“应用于面部和汽车的用于3D对象检测的统计方法(A statisticalmethod for 3D object detection applied to faces and cars)”(计算机视觉国际会议,2000)中所描述,其特此以引用的方式且出于所有目的全文并入本文中。另一实例是基于稀疏窗口网络的对象检测器,例如在D·罗斯(D.Roth)、M·杨(M.Yang)和N·阿胡贾(N.Ahuja)的“基于稀疏窗口网络的面部检测器(A snowbased face detector)”(神经信息处理12,2000)中所描述,其特此以引用的方式且出于所有目的全文并入本文中。另一实例是联合感应对象检测技术,例如在Y·阿密特(Y.Amit)、D·格曼(D.Geman)和K·王尔德(K.Wilder)的“形状特征和树分类器的联合感应(Joint induction of shape featuresand tree classifiers)”(1997)中所描述,其特此以引用的方式且出于所有目的全文并入本文中。可使用任何其它合适的基于图像的对象检测技术。
对象辨识系统200还包含对象跟踪引擎212,其可针对由对象检测引擎210检测到的对象中的一或多个执行对象跟踪。在一个说明性实例中,对象检测引擎212可跟踪由对象检测引擎210检测到的面部。对象跟踪包含在视频序列或图像序列的多个帧上跟踪对象。举例来说,执行面部跟踪以在帧或图像上跟踪面部。完整对象辨识过程(例如,完整面部辨识过程)是耗时的且资源密集的,且因此有时针对每个帧辨识所有对象(例如,面部)是不现实的,例如当在当前帧中捕获到许多面部时。为了减少对象辨识需要的时间和资源,对象跟踪技术可用以跟踪先前辨识的面部。举例来说,如果已辨识面部且对象辨识系统200确信辨识结果(例如,针对经辨识面部确定高置信度得分),那么如果对象跟踪引擎212可成功地跟踪面部,则对象辨识系统200可跳过在一个或几个后续帧中的面部的完整辨识过程。
对象跟踪引擎212可使用任何合适的对象跟踪技术。面部跟踪技术的一个实例包含关键点技术。关键点技术包含从前一帧中检测到的面部(或其它对象)检测一些关键点。举例来说,检测到的关键点可包含面部上的显著拐角,例如面部特征点(下文更详细地描述)。可使用模板匹配将关键点与当前帧中的对象的特征进行匹配。如本文所使用,当前帧指代当前正处理的帧。模板匹配方法的实例可包含光学流、局部特征匹配和/或其它合适的技术。在一些情况下,局部特征可为梯度直方图、局部二值模式(LBP)或其它特征。基于前一帧与当前帧之间的关键点的跟踪结果,可定位当前帧中的匹配于来自前一帧的面部的面部。
另一实例对象跟踪技术是基于面部检测结果。举例来说,面部限界框的交并比(IOU)可用以确定在当前帧中检测到的面部是否匹配于前一帧中检测到的面部。图3是示出两个限界框的交集I和并集U的实例的图式,所述两个限界框包含当前帧中的对象的限界框BBA 302和前一帧中的对象的限界框BBB 304。相交区308包含限界框BBA 302与限界框BBB304之间的重叠区。
并集区306包含限界框BBA 302和限界框BBB 304的并集。限界框BBA 302和限界框BBB 304的并集经定义以使用所述两个限界框的远拐角来创建新限界框310(示出为点线)。更具体地,通过以(x,y,w,h)表示每一限界框,其中(x,y)是限界框的左上坐标,w和h分别是限界框的宽度和高度,限界框的并集将如下表示:
并集(BB1,BB2)=(min(x1,x2),min(y1,y2),(max(x1+w1-1,x2+w2-1)-min(x1,x2)),
(max(y1+h1-1,y2+h2-1)-min(y1,y2)))
使用图3作为实例,如果第一限界框302与第二限界框304之间的重叠区域(相交区308)除以限界框302和304的并集310大于IOU阈值(表示为
Figure BDA0002390985660000161
),那么第一限界框302和第二限界框304可经确定为匹配以用于跟踪目的。IOU阈值可设定成任何合适的量,例如50%、60%、70%、75%、80%、90%或其它可配置量。在一个说明性实例中,当用于限界框的IOU为至少70%时,第一限界框302和第二限界框304可经确定为匹配。当前帧中的对象和来自前一帧的对象可基于所述两个对象的限界框经确定为匹配而经确定为相同对象。
在另一实例中,可使用重叠区域技术来确定限界框之间的匹配。举例来说,如果在相交区308内的第一限界框302的面积和/或第二限界框304的面积大于重叠阈值,那么第一限界框302和第二限界框304可经确定为匹配。重叠阈值可设定成任何合适的量,例如50%、60%、70%或其它可配置量。在一个说明性实例中,当限界框302或限界框304的至少65%在相交区308内时,第一限界框302和第二限界框304可经确定为匹配。
在一些实施方案中,可组合关键点技术和IOU技术(或重叠区域技术)以实现甚至更稳健的跟踪结果。可使用任何其它合适的对象跟踪(例如,面部跟踪)技术。使用任何合适的技术,面部跟踪可显著减少面部辨识时间,这又可节省CPU带宽和电力。
特征点检测引擎214可执行对象特征点检测。举例来说,特征点检测引擎214可执行面部特征点检测以用于面部辨识。面部特征点检测可为面部辨识中的重要步骤。举例来说,对象特征点检测可提供用于对象跟踪的信息(如上文所描述)且也可提供用于面部归一化的信息(如下所述)。良好的特征点检测算法可显著改进面部辨识准确性,以及其它对象辨识过程的准确性。
特征点检测的一个说明性实例是基于回归器级联方法。举例来说,在面部辨识中使用此方法,可从具有经标记特征点的面部学习回归器级联。来自所述回归器级联的输出的组合提供特征点位置的准确估计。可学习每一特征点周围的特征的局部分布,且回归器将给出特征点从先前回归器的估计的最可能位移。回归器级联方法的另外细节在V·卡则米(V.Kazemi)和S·约瑟芬(S.Josephine)的“通过回归树的组合体的一毫秒面部对准(Onemillisecond face alignment with an ensemble of regression trees)”(CVPR,2014)中描述,其特此以引用的方式且出于所有目的全文并入本文中。特征点检测引擎214也可使用任何其它合适的特征点检测技术。
对象辨识系统200还包含用于执行对象归一化的对象归一化引擎216。可执行对象归一化以对准对象来得到较好的对象辨识结果。举例来说,对象归一化引擎216可通过处理图像以对准和/或按比例缩放图像中的面部来执行面部归一化以得到较好辨识结果。面部归一化方法的一个实例使用两个眼睛中心作为用于归一化面部的参考点。可平移、旋转和按比例缩放面部图像以确保两个眼睛中心以相同大小位于指定位置。相似性变换可用于此目的。面部归一化方法的另一实例可使用五个点作为参考点,包含眼睛的两个中心、嘴巴的两个拐角和鼻尖。在一些情况下,用于参考点的特征点可从面部特征点检测确定。
在一些情况下,面部图像的照明也可能需要经归一化。照明归一化方法的一个实例是局部图像归一化。在滑动窗口应用于图像的情况下,每一图像小片以其平均值和标准偏差进行归一化。从局部小片的平均值减去中心像素值,并且接着除以局部小片的标准偏差。用于光照补偿的另一实例方法是基于离散余弦变换(DCT)。举例来说,DCT的第二系数可表示关于余弦信号的从前一半信号到下一半信号的改变。此信息可用以补偿由侧光造成的光照差,所述光照差可造成面部的部分(例如,面部的一半)比面部的剩余部分(例如,另一半)更亮。可移除DCT变换的第二系数且可应用逆DCT以得到左-右光照归一化。
特征提取引擎218执行特征提取,其为对象辨识过程的重要部分。特征提取过程的实例是基于可导向滤波器。基于可导向滤波器的特征提取方法操作以使用一组基础滤波器来合成滤波器。举例来说,所述方法提供高效架构以使用基础滤波器的线性组合来合成任意定向的滤波器。此过程提供将滤波器自适应地导向到任何定向且以分析方式确定随定向而变的滤波器输出的能力。在一个说明性实例中,二维(2D)简化圆形对称高斯滤波器可表示为:
G(x,y)=e-(x2+y2),
其中x和y是笛卡尔坐标,其可表示任一点,例如图像或视频帧的像素。高斯的n阶导数表示为Gn,且记号(…)θ表示旋转算子。举例来说,fθ(x,y)是围绕原点旋转经过角度θ的函数f(x,y)。G(x,y)的x导数为:
Figure BDA0002390985660000181
且旋转90°的同一函数为:
Figure BDA0002390985660000182
其中
Figure BDA0002390985660000183
Figure BDA0002390985660000184
称为基础滤波器,因为
Figure BDA0002390985660000185
可表示为
Figure BDA0002390985660000186
Figure BDA0002390985660000187
且θ是任意角度,指示
Figure BDA0002390985660000188
Figure BDA0002390985660000189
横跨
Figure BDA00023909856600001810
滤波器(因此,基础滤波器)的集合。因此,
Figure BDA00023909856600001811
Figure BDA00023909856600001812
可用以用任何角度合成滤波器。cos(θ)和sin(θ)项是用于基础滤波器的对应内插函数。
可导向滤波器可与面部图像进行卷积以产生定向图,所述定向图又可用以生成特征(由特征向量表示)。举例来说,因为卷积是线性运算,所以特征提取引擎218可通过采取以基础滤波器
Figure BDA0002390985660000191
Figure BDA0002390985660000192
滤波的图像的线性组合来合成以任意定向经滤波的图像。在一些情况下,特征可来自在所检测面部(或其它对象)上的选定位置周围的局部小片。来自多个尺度和定向的可导向特征可经串接以形成表示面部图像(或其它对象)的增强特征向量。举例来说,来自
Figure BDA0002390985660000193
Figure BDA0002390985660000194
的定向图可经组合以得到一个局部特征集合,且来自
Figure BDA0002390985660000195
Figure BDA0002390985660000196
的定向图可经组合以得到另一局部特征集合。在一个说明性实例中,特征提取引擎218可将一或多个低通滤波器应用于定向图,且可使用定向图之间的能量、差和/或对比度来获得局部小片。局部小片可为像素级元件。举例来说,定向图处理的输出可包含正处理的面部的局部小片的纹理模板或局部特征图。所得局部特征图可经串接以形成面部图像的特征向量。使用可导向滤波器用于特征提取的另外细节在威廉·T·弗里曼(WilliamT.Freeman)和爱德华·H·阿德尔森(Edward H.Adelson)的“可导向滤波器的设计和使用(The design and use of steerable filters)”(IEEE模式分析和机器智能学报,13(9):891-906,1991)中以及马修斯·雅各布(Mathews Jacob)和迈克尔·昂色(Michael Unser)的“使用例如坎尼准则进行特征检测的可导向滤波器的设计(Design of SteerableFilters for Feature Detection Using Canny-Like Criteria)”(IEEE模式分析和机器智能学报,26(8):1007-1019,2004)中描述,以上特此以引用的方式且出于所有目的全文并入本文中。
例如LDA/PCA等对特征图的后处理也可用以减少特征尺寸的维度。为了补偿特征点检测中的误差,可使用多尺度特征提取来使特征更稳健用于匹配和/或分类。
检验引擎219执行对象识别和/或对象检验。面部识别和检验是对象识别和检验的一个实例。举例来说,面部识别是用以识别所检测和/或跟踪的面部应当与哪一个人识别符相关联的过程,且面部检验是用以检验面部是否属于所述面部被宣称所属于的人的过程。同一想法也大体适用于对象,其中对象识别识别所检测和/或跟踪的对象应当与哪一个对象识别符相关联,且对象检验检验所检测/跟踪的对象是否实际上属于对象识别符经指派的对象。对象可在含有已知对象的登记数据库中登记或注册。举例来说,含有对象辨识系统200的相机的所有者可注册所述所有者的面部和其它受信任用户的面部。登记数据库可与对象辨识系统200位于同一装置中,或可远程定位(例如,在与系统200通信的远程服务器处)。所述数据库可用作用于执行对象识别和/或对象检验的参考点。在一个说明性实例中,对象识别和/或检验可用以对相机验证用户和/或指示入侵者或陌生人已进入由相机监视的场景。
对象识别和对象检验存在两个相关问题且具有细微的差异。在一些情况下,对象识别可经定义为一对多问题。举例来说,面部识别(作为对象识别的实例)可用以从多个人中找到一个人。面部识别具有许多应用,例如用于执行罪犯搜索。对象检验可经定义为一对一问题。举例来说,面部检验(作为对象检验的实例)可用以检查一个人是否为他宣称的人(例如,检查宣称的这个人是否为登记数据库中的人)。面部检验具有许多应用,例如用于执行对装置、系统或其它可访问项目的访问控制。
使用面部识别作为对象识别的说明性实例,含有登记面部的特征的登记数据库可用于与一或多个给定查询面部图像(例如,来自输入图像或帧)的特征进行比较。登记面部可包含向系统注册且存储于含有已知面部的数据库中的面部。最相似的登记面部可经确定为与查询面部图像的匹配。匹配的登记面部(最相似面部)的人识别符经识别为待辨识的人。在一些实施方案中,登记面部的特征与查询面部的特征之间的相似性可通过距离来测量。可使用任何合适的距离,包含余弦距离、欧几里得距离、曼哈顿距离、马氏距离或其它合适的距离。测量相似性的一个方法是使用匹配得分。匹配得分表示特征之间的相似性,其中两个特征向量之间的极高得分指示所述两个特征向量极相似。如上文所描述,可使用特征提取生成面部的特征向量。在一个说明性实例中,两个面部之间的相似性(由面部小片表示)可计算为所述两个面部小片的相似性的总和。相似性的总和可基于探测小片特征(输入图像中)与图库小片特征(存储于数据库中)之间的绝对差总和(SAD)。在一些情况下,距离经归一化为0和1。作为一个实例,匹配得分可经定义为1000*(1-距离)。
用于面部识别的另一说明性方法包含应用例如支持向量机等分类方法以训练分类器,所述分类器可使用给定的登记面部图像和其它训练面部图像来分类不同面部。举例来说,可将查询面部特征馈送到分类器且分类器的输出将是面部的人识别符。
对于面部检验,提供的面部图像将与登记面部进行比较。这可通过简单度量距离比较或以人的登记面部训练的分类器来完成。大体来说,面部检验需要较高辨识准确性,因为其经常与访问控制有关。在此情况下错误肯定是不希望的。对于面部检验,目的是以高准确性但以低拒绝率辨识人是谁。拒绝率是由于匹配得分或分类结果低于辨识的阈值而未辨识的面部的百分比。
可定义用于测量对象辨识结果的性能的度量。举例来说,为了测量面部辨识算法的性能,必要的是可定义某些度量。面部辨识可被视为一种分类问题。真肯定率和假肯定率可用以测量性能。一个实例是接收器操作特性(ROC)。通过在各种阈值设置下绘制真肯定率(TPR)与假肯定率(FPR)来创建ROC曲线。在面部辨识情境中,真肯定率被定义为人被正确地识别为他/她自己的百分比,且假肯定率被定义为人被错误地分类为另一人的百分比。然而,面部识别和检验都应当使用置信度阈值以确定辨识结果是否有效。在一些情况下,经确定为类似且因此匹配一或多个登记面部的所有面部被给定置信度得分。确定的与小于置信度阈值的置信度得分的匹配将被拒绝。在一些情况下,百分比计算将不考虑由于低置信度而被拒绝辨识的面部的数目。在这些情况下,除真肯定和假肯定率之外,拒绝率也应当被视为另一度量。
由于对象辨识而可产生若干问题。举例来说,如上所述,完整对象辨识过程可涉及若干过程,例如面部检测、特征点检测、特征提取和数据库匹配(用于识别和/或检验)。执行此类过程是极耗时的且处理器密集的努力。实时地(在正接收和处理视频时)从视频帧辨识面部(或其它对象)甚至更具有挑战性。举例来说,由于面部辨识算法的复杂性,在嵌入式系统中(例如,在执行面部辨识的嵌入式相机中)实时地从视频辨识面部是不可行的。
在实时嵌入式面部辨识系统中,面部辨识算法的复杂性使得如果每一帧中检测到多个面部则在每一帧中辨识所有面部是困难的且有时不可能的。基于视频的面部辨识与基于图像的面部辨识不同,因为跨越视频帧的信息可提供额外辅助以改进面部辨识的准确性,且同时也可帮助改进面部辨识的效率。然而,如何跨越帧跟踪信息用以帮助选择需要考虑辨识的面部。举例来说,如果多个面部位于场景中,那么可产生问题。图4示出图像400,其中在场景中存在多个人,包含人402、人404、人406和人408。如果面部辨识系统不适当地考虑跟踪信息,那么由于在连续帧中检测到多个面部,系统无法有效地辨识人402-408中的一或多个的面部。在一些情况下,所检测的面部将在长时间段中未经辨识,因为系统正忙于辨识其它面部。当帧中的其它面部无法准确辨识时和/或当新面部出现在场景中时此情境加剧。
本文中描述用于基于动态确定的指派于对象的优先级高效地辨识对象(例如,面部或其它对象)的系统和方法。所述方法可由对象辨识系统200实施。跟踪信息可用以动态地将对象区分优先级以使得可基于动态地确定的优先级首先针对应当辨识的那些对象执行对象辨识。举例来说,为了解决辨识场景中的多个对象的问题,对象辨识系统200可基于指派于对象的优先级对每一视频帧中的一或多个对象(例如,面部)执行对象辨识,且可跟踪未通过对象辨识处理的其它对象。使用此类系统和方法,对象辨识(例如,面部辨识)可实现具有高准确性的实时性能。如本文所使用,术语“实时”指代在正捕获视频序列时辨识视频序列中的对象。
本文中所描述的基于优先级的技术可应用于任何类型的对象辨识。本文出于说明性目的将描述的对象辨识的一个实例包含面部辨识,如上文相对于图1和图2所描述。虽然本文中出于说明性目的使用面部辨识描述实例,但所属领域的技术人员将了解,相同技术可应用于其它类型的对象的辨识。
举例来说,对象辨识系统200可针对例如视频序列的帧的图像执行动态的基于优先级的面部辨识。对象辨识系统200可基于指派于对象的优先级辨识当前视频帧中的一或多个面部,且可跟踪当前帧中未经辨识的其它面部。给定帧中被跟踪但未经辨识的面部可被指派来自针对面部已执行辨识的前一帧的人识别符和置信度得分。基于面部检测在视频帧序列上跟踪面部。举例来说,对象跟踪引擎212可将当前帧中所检测的面部的限界框与前一帧中所检测的所有面部进行比较以确定所检测的面部与先前所检测的面部之间的相似性。随后将经确定为最佳匹配的先前所检测的面部选择为基于当前所检测的面部将跟踪的面部。举例来说,在当前帧中所检测的面部可被指派与指派于前一帧中先前所检测的面部(匹配于当前帧中的面部的面部)的唯一跟踪识别符相同的唯一跟踪识别符。在一些情况下,最佳匹配面部可为具有大于阈值的交并比(所检测的面部的限界框与先前所检测的面部的限界框之间)的面部。随后将成功地跟踪最佳匹配面部。还可使用其它跟踪技术,例如上文关于图2所描述的那些。
图5A和图5B包含视频帧500A和500B。视频帧500A和500B说明捕获场景的图像的视频序列的两个帧。可跨越包含帧500A和500B的视频序列的帧检测和跟踪由视频序列捕获的场景中的多个面部。帧500A可称为前一帧且帧500B可称为当前帧。
如图5A所示,从帧500A检测人502的面部且面部的位置由限界框510A表示。从帧500A检测人504的面部且面部的位置由限界框512A表示。如图5B中所示,从帧500B检测人502的面部且面部的位置由限界框510B表示。类似地,从帧500B检测人504的面部且其位置由限界框512B表示。上文描述的对象检测技术可用以检测面部。
通过对限界框中的每一者指派唯一跟踪识别符而跨越视频帧500A和500B跟踪人502和504。当前帧500B中匹配于来自前一帧500A的前一限界框的限界框可被指派曾指派于前一限界框的唯一跟踪识别符。以此方式,可跨越视频序列的帧跟踪由限界框表示的面部。举例来说,如图5B中所示,基于两个限界框510A和510B之间的空间关系和/或基于面部的特征,当前帧500B中的当前限界框510B匹配于来自前一帧500A的前一限界框510A。在一个说明性实例中,如上文所描述,可使用交并比(IOU)方法,在此情况下如果相交区514(也被称为重叠区域)除以限界框510A和510B的并集大于IOU阈值,那么可确定当前限界框510B和前一限界框510A匹配。IOU阈值可设定成任何合适的量,例如70%或其它可配置量。在另一实例中,可使用重叠区域技术,在此情况下如果限界框510B的区域和/或限界框510A区域的至少阈值量在相交区514内,那么可确定当前限界框510B和前一限界框510A匹配。重叠阈值可设定成任何合适的量,例如70%或其它可配置量。在一些情况下,还可使用上文描述的关键点技术,在此情况下使用模板匹配来匹配关键点与当前帧中的面部的特征。可使用相似技术来匹配当前限界框512B与前一限界框512A(例如,基于相交区516、基于关键点或类似物)。
每一面部(或其它对象)可与相关联辨识优先级、面部状态和唯一人识别符相关联。举例来说,如上所述,针对由面部辨识系统200所检测的面部可维持位置。所检测的面部的位置可由与所述面部相关联的限界框表示。在一个说明性实例中,所跟踪面部的限界框的位置可由限界框的中心点(或质心)且由限界框的宽度和高度来识别。限界框的其它点和尺寸也可用以表示限界框和相关联面部的位置,例如限界框的拐角点和从一个拐角到另一拐角的对角线,或任何其它合适的点和尺寸。
还如上文提到,所跟踪面部可与跟踪识别符相关联。唯一人识别符也可与在一或多个帧中已辨识的面部相关联。指派于面部的人识别符用以识别所述面部经辨识为的人。在一些情况下,给定帧中被跟踪但未经辨识的面部可被指派来自已执行辨识的前一帧中的面部的唯一人识别符和置信度得分。举例来说,如果基于对象辨识过程在前一帧中辨识面部且对其指派唯一人识别符和置信度得分,且在当前帧中跟踪(但不辨识)所述面部,那么先前指派于所述面部的唯一识别符和置信度得分将用于当前帧中的面部。在一些实例中,如果在一或多个先前帧中之前已辨识面部,那么针对所述面部可保持针对面部已确定的最高置信度得分。在一些情况下,应当在跟踪周期期间跟踪帧中的面部且对其指派跟踪识别符直到面部从场景消失,无论所述面部是否经辨识。在一些情况下,如果在任何视频帧中尚未辨识面部,那么所述面部的置信度得分可设定成0。在这些情况下,所述面部仍被跟踪且与跟踪识别符相关联。
在当前视频帧,可将所检测和跟踪的面部区分优先级以用于将针对当前视频帧应用的对象辨识过程。举例来说,可对每一所跟踪面部分配辨识优先级P。可随后对具有最高优先级的对象执行对象辨识过程。举例来说,具有较高优先级的面部将比具有较低优先级的面部更早由面部辨识过程处理,而具有较低优先级的面部将在较高优先级面部之后辨识或将不在当前帧中辨识。可使用一组规则来确定和/或更新每一面部的优先级。所述组规则可基于针对面部确定的状态。举例来说,指派于当前帧中的面部的优先级与针对当前帧的面部确定的状态相关联。可设计状态机以用于执行帧之间的状态转变。举例来说,可设计状态机以更新所跟踪面部的状态以使得高效地且稳健地执行面部辨识。所述状态机可由对象辨识系统200或其它合适的对象辨识系统实施。
可基于针对每一视频帧执行的对象跟踪和/或辨识的结果确定状态。举例来说,可基于一或多个先前视频帧中的面部的先前状态,基于与当前视频帧中的面部相关联的唯一人识别符,基于从针对面部执行的前一对象辨识过程确定的面部的置信度得分,和/或基于指派于面部的历史计数器,来针对当前视频帧确定面部的状态。面部的历史计数器对面部已在某一状态中的次数(例如,帧的数目)和/或面部已经辨识为具有高于或低于一或多个置信度阈值的置信度得分的次数(例如,帧的数目)进行计数。
指派于面部的状态可包含新状态、经确认状态、未经确认状态(也被称作非确认状态)、预先陌生人状态和陌生人状态。新状态可经指派于未匹配任何先前所检测和/或跟踪的面部的面部。当面部的唯一人识别符匹配于在前一帧中所检测和跟踪的面部的唯一人识别符时以及当满足其它条件时也可为面部指派新状态。所述其它条件可基于面部的置信度得分和/或历史计数器。当面部的置信度得分高于高置信度阈值从而指示存在面部匹配于已知对象(例如,向对象辨识系统登记的对象)的登记数据库中注册的面部的高置信度时,可为面部指派经确认状态。可对在当前视频帧中的面部的唯一人识别符与匹配于当前视频帧的面部的前一视频帧中的前一面部的唯一人识别符之间具有识别符失配的面部指派未经确认状态(例如,基于面部的限界框与前一面部的限界框之间的交并比,基于限界框之间的重叠,或其它合适的基于跟踪的匹配技术)。在一些情况下,可基于针对面部确定的置信度得分指派未经确认状态。
也可基于面部是否展现陌生人的特性而指派状态。当面部未在已知面部的登记数据库中注册时将面部确定为陌生人。在一些情况下,最小置信度阈值可用以识别陌生人。举例来说,可对具有低于最小置信度阈值的置信度得分但具有指示在阈值数目的帧中面部尚未被检测为陌生人的历史计数器值的面部指派预先陌生人状态。可对具有低于最小置信度阈值的置信度得分且具有指示在阈值数目的帧中面部已被检测为陌生人的历史计数器值的面部指派陌生人状态。也可使用其它因数来确定面部的状态。
图6是说明基于针对视频帧执行的对象跟踪和/或对象辨识执行的状态转变的实例的图式。举例来说,图6所示的图式指示由对象辨识系统200实施的状态机的转变条件。如上所述,无法匹配于任何现有(或先前)所跟踪面部的新检测的面部可被视为具有新状态的新创建面部跟踪器。对每一面部跟踪器指派所跟踪面部的计数器C以指示面部已在当前状态中的帧的数目。项S表示经辨识面部的置信度得分。项T表示置信度阈值,其中T0<T1<T2。项T0是经定义以确认陌生人的置信度阈值,并且可为称为最小置信度阈值。陌生人是未在登记数据库中登记的人。项T1是将用以辨识人(称为经辨识人)的最小置信度阈值。经辨识人指示所跟踪的人具有的置信度得分(例如,来自在人的面部的前一帧中执行的面部辨识的置信度得分)足够高以使得针对人的面部的面部辨识可在当前帧中跳过且可在未来帧中再次辨识。项T2是可用以确认由于匹配登记面部的极高置信度得分而立即辨识人的置信度阈值。置信度阈值T2可称为高置信度阈值。在一个说明性实例中,置信度得分范围可为[0,1000],且T0、T1和T2的值可设定为T0=90,T1=130且T2=200。
项Id表示在当前帧中辨识的面部的唯一人识别符,且Id_pre表示来自针对面部(前一帧中)执行的前一面部辨识过程的指派于面部的唯一人识别符。如果针对当前帧中的面部未执行面部辨识,那么对当前帧中的面部不指派人Id。在下文关于图6所描述的实例中,将Id和Id_pre进行比较以确保唯一人Id对于跨越不同帧的面部是相同的。举例来说,如果人id在两个帧之间不是相同的(Id!=Id_pre),那么使用完整面部辨识过程进一步在当前帧中处理面部可能是无意义的,在此情况下可仅在当前帧中跟踪面部。
项C0是面部经辨识为具有低于T0的置信度得分的帧计数的阈值,且可称为最小计数阈值。项C1是面部经辨识为具有高于T1的置信度得分的帧计数的阈值(计数器阈值)。
如图6所示,可基于一或多个先前视频帧中的面部的先前状态(表示为State_pre),基于与当前视频帧中的面部相关联的唯一人识别符(Id)(与匹配于当前帧中的面部的前一帧中的面部的唯一人Id(Id_pre)相比),基于从针对面部执行的前一对象辨识过程确定的面部的置信度得分(S),和/或基于指派于面部的历史计数器(C),针对当前视频帧确定面部的状态。举例来说,一旦针对当前视频帧执行跟踪,就相对于匹配当前面部(例如,基于前一面部与当前面部的限界框之间的匹配)的来自前一帧的前一面部(对应于state_pre)分析当前面部。下文使用图6作为参考来描述各种实例。所属领域的技术人员将了解,在不脱离本说明书的范围的情况下,本文使用的小于(“<”)和大于(“>”)符号可分别用小于或等于(“≤”)和大于或等于(“≥”)符号代替。
具有新状态作为前一帧中的其前一状态(state_pre)的面部可维持于新状态中,或可在当前帧中转变到经确认状态、未经确认状态、预先陌生人状态或陌生人状态举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,在当前帧中的面部的置信度得分(S)大于(或等于)第一置信度阈值T1但小于第二置信度阈值T2(表示为T1≤S<T2)时,以及当面部的历史计数器(C)小于第一计数阈值(表示为C<C1)时,前一帧中具有“新”的state_pre的面部可维持于新状态中。
在另一实例中,在当前帧中的面部的置信度得分(S)大于(或等于)第二置信度阈值T2(表示为S≥T2)时,前一帧中具有“新”的state_pre的面部可在当前帧中转变到经确认状态。如上所述,高于置信度阈值T2的置信度得分确认人以极高置信度经辨识为登记的人(在含有已知人的登记数据库中登记或注册)。在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,在当前帧中的面部的置信度得分(S)大于(或等于)第一置信度阈值T1但小于第二置信度阈值T2(表示为T1≤S<T2)时,以及当面部的历史计数器大于第一计数阈值(表示为C>C1)时,前一帧中的“新”也可在当前帧中转变到经确认状态。因为面部的历史计数器(C)大于计数器阈值C1(指示面部已经辨识为在足够数目个帧中具有高于T1的置信度得分),所以面部的状态转变为经确认状态而不是维持于新状态中(如当面部的历史计数器(C)小于计数阈值C1时的情况)。
在另一实例中,在当前帧中的面部的Id经确定不匹配前一帧中的面部的Id(表示为Id!=Id_pre)时前一帧中的具有“新”的state_pre的面部可在当前帧中转变为未经确认状态(not_confirmed)。举例来说,新面部在其经辨识一次且当前人Id不与最后时间相同之后改变为未经确认。在这些情况下,面部可能需要再次辨识,但可以不像其它新面部或具有较高优先级的其它面部那样紧急。
在当前帧中的面部的置信度得分(S)小于(或等于)最小置信度阈值T0(表示为S<T0)时,前一帧中具有“新”的state_pre的面部可在当前帧中转变到预先陌生人状态(pre_stranger)。当面部的置信度得分在足够帧中尚未小于最小置信度阈值T0时可使用预先陌生人状态。然而,在足够帧中(例如,基于最小计数阈值C0)具有小于最小置信度阈值T0的置信度得分的具有新的预先状态的面部可转变到陌生人状态。举例来说,在当前帧中的面部的置信度得分(S)小于(或等于)最小置信度阈值T0(表示为S<T0)时以及当面部的历史计数器(C)大于(或等于)最小计数阈值C0(表示为C≥C0)时,前一帧中具有“新”的state_pre的面部可在当前帧中转变到陌生人状态。
具有经确认状态作为前一帧中的其前一状态(state_pre)的面部可维持于经确认状态,或可在当前帧中转变到未经确认状态或预先陌生人状态。然而,在一些情况下,在前一帧中具有经确认状态的面部在当前帧中未转变到新状态或陌生人状态。举例来说,在这些情况下,如果与前一帧中面部经识别为的人相比“经确认”面部经识别为当前帧中的不同人(Id!=Id_pre),那么取决于经确认面部是否经辨识为具有极低置信度,此面部将在当前帧中转变到未经确认状态或预先陌生人状态。举例来说,如果“经确认”面部经识别为当前帧中的不同人且经辨识为具有高于最小置信度阈值(T0)的置信度的人(当执行辨识时来自前一帧),那么面部的状态将转变到未经确认状态。在另一实例中,如果“经确认”面部经辨识为当前帧中的不同人且经辨识为具有极低置信度的人,那么面部的状态将转变到预先陌生人状态。否则,其将保持为经确认且将不转变到新状态或陌生人状态。在一些情况下,面部可在当前帧中转变到新状态或陌生人状态。
举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,前一帧中具有“经确认”的state_pre的面部可维持于经确认状态。
在当前帧中的面部的Id不匹配前一帧中的面部的Id(表示为Id!=Id_pre)时以及在当前帧中的面部的置信度得分(S)大于(或等于)最小置信度阈值T0(表示为S>T0)时,前一帧中具有“经确认”的state_pre的面部可在当前帧中转变到未经确认状态(not_confirmed)。在相似情形中,但当置信度得分小于最小置信度阈值T0时,面部可从“经确认”转变到“预先陌生人”状态。举例来说,在当前帧中的面部的Id不匹配前一帧中的面部的Id(表示为Id!=Id_pre)时以及在当前帧中的面部的置信度得分(S)小于(或等于)最小置信度阈值T0(表示为S≤T0)时,在前一帧中具有“经确认”的state_pre的面部可在当前帧中转变到预先陌生人状态(pre_stranger)。
具有未经确认状态作为前一帧中的其前一状态(state_pre)的面部可维持于未经确认状态中,或可在当前帧中转变到新状态、经确认状态或预先陌生人状态。然而,在一些情况下,在前一帧中具有未经确认状态的面部在当前帧中未转变到陌生人状态。举例来说,此类情况经设计以确保面部仍将有机会在一或多个后续帧中再次经辨识,然而,如果面部转变到陌生人状态,那么面部将具有最低基本优先级且在一段时间内(例如,在接下来几秒内)将不经辨识。在一些情况下,面部可在当前帧中转变到陌生人状态。
举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时以及在当前帧中的面部的置信度得分(S)大于(或等于)第一置信度阈值T1但小于第二(或高)置信度阈值T2(表示为T1≤S<T2)时,前一帧中具有“未经确认”(not_confirmed)的state_pre的面部可转变到新状态。然而,如果置信度得分极高,那么状态可转变到经确认状态。举例来说,在当前帧中的面部的置信度得分(S)大于高置信度阈值T2(表示为S>T2)时,前一帧中具有“未经确认”(not_confirmed)的state_pre的面部可转变到经确认状态。在此实例中,可以不比较Id和Id_pre,因为面部的置信度得分(S)太高(高于T2)。在一些情况下,可比较Id和Id_pre(Id==Id_pre)以确定Id是否匹配,即使当面部的置信度得分(S)大于T2时。
在另一实例中,在当前帧中的面部的Id不匹配前一帧中的面部的Id(表示为Id!=Id_pre)时前一帧中的具有“未经确认”(not_confirmed)的state_pre的面部可在当前帧中维持于未经确认状态。在当前帧中的面部的置信度得分(S)小于最小置信度阈值T0(表示为S<T0)时,前一帧中具有“未经确认”(not_confirmed)state_pre的面部可转变到预先陌生人状态。
具有预先陌生人状态作为前一帧中的其前一状态(state_pre)的面部可维持于预先陌生人状态中,或可在当前帧中转变到新状态、未经确认状态或陌生人状态。然而,在一些情况下,在前一帧中具有预先陌生人状态的面部在当前帧中未转变到经确认状态。举例来说,此类情况经设计以在应当“确认”面部的情况下使系统再次进行双重检查,因为当面部是“预先陌生人”时是存疑的。在一些情况下,面部可在当前帧中转变到经确认状态。
举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时以及在当前帧中的面部的置信度得分(S)大于(或等于)第一置信度阈值T1但小于第二(或高)置信度阈值T2(表示为T1≤S<T2)时,前一帧中具有“预先陌生人”(pre_stranger)的state_pre的面部可转变到新状态。在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时以及在当前帧中的面部的置信度得分(S)大于(或等于)最小置信度阈值T0但小于第一阈值T1(表示为T0≤S<T1)时,前一帧中具有“预先陌生人”的state_pre的面部可转变到未经确认状态。
如果在前一帧中具有“预先陌生人”状态的面部的置信度得分小于最小置信度阈值T0,那么取决于面部的置信度得分已低于最小置信度阈值T0的帧的数目,面部的状态可维持于预先陌生人状态或转变到陌生人状态。如上所述,当面部的置信度得分(S)已小于最小置信度阈值T0但未达到足够帧时可维持预先陌生人状态。举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,在当前帧中的面部的置信度得分(S)小于(或等于)最小置信度阈值T0(表示为S<T0)时,以及当面部的历史计数器(C)小于最小计数阈值C0(表示为C<C0)时,前一帧中具有“预先陌生人”(pre_stranger)的state_pre的面部可在当前帧中维持于预先陌生人状态。然而,在足够帧中(例如,基于最小计数阈值C0)具有小于最小置信度阈值T0的置信度得分的先前在预先陌生人状态中的面部可转变到陌生人状态。举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,在当前帧中的面部的置信度得分(S)小于(或等于)最小置信度阈值T0(表示为S<T0)时,以及当面部的历史计数器(C)大于(或等于)最小计数阈值C0(表示为C≥C0)时,前一帧中具有“预先陌生人”(pre_stranger)的state_pre的面部可在当前帧中转变到陌生人状态。
具有陌生人状态作为前一帧中的其前一状态(state_pre)的面部可维持于陌生人状态,或可在当前帧中转变到新状态或预先陌生人状态。然而,在一些情况下,在前一帧中具有陌生人状态的面部在当前帧中未转变到经确认状态或未经确认状态。举例来说,此类情况经设计以确保面部在转变到经确认或未经确认状态之前经双重检查,因为面部的历史是可疑的。在一些情况下,面部可在当前帧中转变到经确认状态或未经确认状态。
举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,在当前帧中的面部的置信度得分(S)大于(或等于)第一阈值T1但小于第二(或高)阈值T2(表示为T1≤S<T2))时,以及当面部的历史计数器(C)大于(或等于)第一计数阈值(表示为C≥C1)时,前一帧中具有“陌生人”的state_pre的面部可转变到新状态。
如果在前一帧中具有“陌生人”状态的面部的置信度得分大于(或等于)最小置信度阈值T0,但小于第一阈值T1,那么面部的状态可从陌生人状态转变到预先陌生人状态。举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时,以及在当前帧中的面部的置信度得分(S)大于(或等于)最小置信度阈值T0但小于第一置信度阈值T1(表示为T0≤S<T1)时,前一帧中具有“陌生人”的state_pre的面部可在当前帧中转变到预先陌生人状态。然而,如果先前具有陌生人状态的面部的置信度得分(S)在当前帧中仍小于最小置信度阈值T0,那么状态可在当前帧中维持为陌生人状态。举例来说,在当前帧中的面部的Id匹配前一帧中的面部的Id(表示为Id==Id_pre)时以及在当前帧中的面部的置信度得分(S)小于最小置信度阈值T0(表示为S<T0)时,前一帧中具有“陌生人”的state_pre的面部可在当前帧中维持于陌生人状态。在一些情况下,当面部的历史计数器(C)小于(或等于)第一计数阈值(表示为C<C1)时,前一帧中具有“陌生人”的state_pre的面部可在当前帧中维持于陌生人状态。
图6所示和上文描述的实例是出于说明性目的。所属领域的技术人员将了解,状态转变可基于其它因素或可基于图6所示的因素的变化。
针对帧或图像中的面部确定的状态可用以确定面部的辨识优先级。举例来说,当一个帧中检测到许多面部时,由于CPU资源的限制,辨识帧中的所有面部可为困难的且有时是不可能的。在一个实例中,嵌入式相机系统(例如,IP相机或具有嵌入式视频分析系统的其它合适的相机中)的CPU资源可为有限的。针对每一所跟踪面部确定的优先级可用以对将应用面部辨识的面部的次序区分优先级。举例来说,具有较高优先级的面部将在辨识系统中比具有较低优先级的面部更早辨识。通过将面部区分优先级以用于面部辨识,高效地使用CPU资源且可实时执行面部辨识。
指派于所跟踪面部的初始优先级可基于所跟踪面部的状态来定义。举例来说,可针对每一状态定义基本优先级。当面部被指派给定状态时(例如,当面部首先被给定状态时,当面部从一个状态转变到另一状态时,或类似时候)可最初对所跟踪面部指派基本优先级。在一些情况下,与相比其它状态的基本优先级,新状态可具有最高基本优先级。按降序针对未经确认状态、随后是预先陌生人状态、经确认状态和陌生人状态定义下一最高基本优先级。
当面部经确定为在当前帧中具有某一状态时,针对所述状态定义的基本优先级被指派于当前帧中的对象。举例来说,如果在当前帧中辨识面部且其状态在当前帧改变到不同状态,那么面部的优先级针对当前帧将更新为针对新指派状态定义的基本优先级。在一个说明性实例中,经确定为在当前帧中具有新状态的面部可经指派针对新状态定义的基本优先级。在一些情况下,如果对象的状态在当前帧中维持于其当前状态(在此情况下来自前一帧的状态在当前帧中未更新到不同状态),那么对象的优先级将被增加预定义量。在一些情况下,如果在当前帧中检测和跟踪对象,但在当前帧中未辨识出,那么对象的优先级将被增加预定义量。
图7是说明不同状态的基本优先级的实例的图式。如图所示,陌生人状态与最低基本优先级P1相关联。基本优先级P1可设定成任何合适的值,例如1、10、100的值,或可经编程到面部辨识系统200中的任何其它可配置值。经确认状态被给定下一最高基本优先级P2。基本优先级P2等于基本优先级P1的值加上额外值N1。值N1可包含大于0的任何整数值,且可在系统层级为可配置的或可改变。在一个说明性实例中,如果基本优先级P1等于1,那么N1的值可设定成1的值,从而使基本优先级P2的值等于2的值。可使用用于P1和N1的任何其它合适的值。
针对预先陌生人状态(pre_stranger)定义下一最高基本优先级P3。基本优先级P3等于基本优先级P2的值加上额外值N2。值N2可包含大于0的任何整数值,并且可在系统层级为可配置的或可改变。在一些情况下,N2的值可与N1的值相同。举例来说,如果基本优先级P2等于2(基于上文P1=1和N1=1的实例),那么N2的值可设定成1的值,从而使基本优先级P3的值等于3的值。在一些情况下,N2的值可设定成与N1的值不同的值。举例来说,如果基本优先级P2等于2,那么N2的值可设定成2的值,从而使基本优先级P3的值等于4的值。可使用用于P1、N1和N2的任何其它合适的值。
未经确认状态(not_confirmed)被给定下一最高基本优先级P4。基本优先级P4等于基本优先级P3的值加上额外值N3。值N3可包含大于0的任何整数值,且可在系统层级为可配置的或可改变。在一些情况下,N3的值可与N1和/或N2的值相同。举例来说,如果基本优先级P3等于3(基于上文P1=1、N1=1和N2=1的实例),那么N3的值可设定成1的值,从而使基本优先级P4的值等于4的值。在一些情况下,N3的值可设定成与N1和/或N2的值不同的值。举例来说,P1可设定成1的值,N1可设定成1的值,N2可设定成2的值,且N3可设定成3的值。在此实例中,基本优先级P3等于4,从而使基本优先级P4的值等于7的值(P4=4+3)。可使用用于P1、N1、N2和N3的任何其它合适的值。
对新状态指派最高基本优先级P5。基本优先级P5等于基本优先级P4的值加上额外值N4。值N4可包含大于0的任何整数值,且可在系统层级为可配置的或可改变。在一些情况下,N4的值可与N1、N2和/或N3的值相同。举例来说,如果基本优先级P4等于4(基于上文P1=1、N1=1、N2=1和N3=1的实例),那么N4的值可设定成1的值,从而使基本优先级P5的值等于5的值。在一些情况下,N4的值可设定成与N1、N2和/或N3的值不同的值。举例来说,P1可设定成1的值,N1可设定成1的值,N2可设定成2的值,N3可设定成3的值,且N4可设定成3的值。在此实例中,基本优先级P4等于7,从而使基本优先级P5的值等于10的值(P4=7+3)。可使用用于P1、N1、N2、N3和N4的任何其它合适的值。
新面部可被指派最高基本优先级(P5)的一个原因是因为新面部应当尽快得到辨识。举例来说,新面部是无法匹配于任何现有所跟踪面部的所述,且因此可在可匹配于先前现有面部的其它面部之前优先辨识。未经确认面部可经区分优先级处于下一最高基本优先级(P4),因为如果在当前帧中未检测到新面部(或具有高优先级的其它面部)或如果当前帧中的所有此类面部已经辨识且存在时间和资源来辨识未经确认面部,那么这些面部应当尽快得到辨识。pre_stranger面部可经给定下一最高基本优先级(P3),因为在一些情况下,由于这些面部历史上具有较低置信度得分,此类面部对于对象辨识可能不是紧急的,意味着系统在辨识预先陌生人面部时可能不具有高成功率。经确认面部具有比用于辨识的预先陌生人面部低的优先级(P2),因为存在人已经辨识的高置信度(由于极高置信度得分,例如大于置信度阈值T2)。举例来说,在一些情况下,具有经确认状态的面部可被跳过而在一段时期中不进行面部辨识,只要此类面部可被跟踪即可。具有陌生人状态的面部可经指派最低基本优先级(P1),因为系统已将此类面部识别为未在登记已知面部(或其它对象)的登记数据库中注册,且强制地辨识不在数据库中的面部可为CPU资源的浪费。在一些情况下,有可能面部由于其太模糊或太小而具有低图像质量而未经辨识为登记面部,且因此可被给定陌生人状态。在一些实施方案中,为了处理此类情形,具有陌生人状态的面部可使其优先级更新(例如,可增加预定义量,如下所述),且接着在某一时间量或某一数目的帧之后进行辨识。此类实施方案提供了陌生人状态中的面部由于先前低质量面部而有机会被辨识的能力。
在一些情况下,当某些条件发生时指派于面部的优先级也可增加。举例来说,如果面部在帧中未改变到另一状态,那么面部的优先级默认地将跨越帧增加。在一个说明性实例中,在前一帧中经指派最低基本优先级(P1)的具有陌生人状态的面部在某些情况下可在稍后帧中使其优先级增加预定义量。举例来说,在一些情况下,如上文所描述,如果面部在当前帧中经辨识且其状态改变到不同状态,那么面部的优先级将更新为新状态的基本优先级。在这些情况下,状态改变可仅当面部在当前帧中经辨识时对当前帧中的面部发生。然而,优先级对于所有面部增加,无论面部辨识是否适用。举例来说,如果面部的状态在当前帧中未改变,因此当前帧的面部的优先级将增加预定义量(例如,增加1的值或其它合适且可配置的值)。另外,在一些情况下,如果面部在当前帧中未经辨识,那么面部的优先级针对当前帧也将增加预定义量(例如,增加1或其它合适且可配置的值)。
在一个说明性实例中,基本优先级可设定成以下值:P1=0;P2=50;P3=70;P4=95;以及P5=100。此类值指示在将完整面部辨识应用于给定面部之前要等待多久。优先级对于每一帧可递增1的值(例如,如果面部在当前帧中未经辨识和/或如果面部的状态在当前帧中未改变)。在此实例中,如果面部的优先级值大于阈值优先级,那么面部可经辨识(或考虑进行辨识)。阈值优先级可等于基本优先级中的一个(例如,P4、P5或其它基本优先级)或可等于除基本优先级外的预定义值(例如,85、90、98或其它合适的值)。
在面部检测和跟踪器更新之后,基于跟踪结果而更新所跟踪面部的优先级和状态。在一些情况下,对所跟踪面部的优先级进行排序且将辨识具有大于阈值优先级的最高优先级的面部。在一个说明性实例中,阈值优先级可设定成P4或其它合适且可配置的优先级值。在这些情况下,仅考虑具有高于阈值优先级的优先级的面部用于面部辨识。随后可基于面部的优先级针对具有高于阈值优先级的优先级的面部中的一或多个执行面部辨识。举例来说,如果当前帧中的两个面部具有高于阈值优先级的优先级值,那么首先对具有最高优先级的面部执行完整面部辨识过程,随后如果时间和CPU资源准许则是其它面部。在一些情况下,如果所跟踪面部的优先级全部小于阈值优先级(例如,P4或其它合适的优先级阈值),那么在当前帧中可跳过所有面部的面部辨识以节省CPU资源。
在一些情况下,可使用一或多个因数以将具有相同优先级值的面部进一步区分优先级。在一个说明性实例中,如果多个面部具有相同最高优先级值,那么可首先辨识最大面部。举例来说,可确定具有相同优先级值的面部的大小,且经确定为最大的面部可在具有相同优先级值的一或多个较小面部之前辨识。在一些情况下,仅确定具有最高优先级且考虑进行面部辨识的面部的大小。举例来说,可以不确定具有低于阈值优先级的优先级的面部和/或高于阈值优先级但由于缺乏时间和/或CPU资源而将不被完整面部辨识过程处理的面部的大小。面部的大小可用作用于将面部区分优先级用于面部辨识的因数,因为较大面部更可能以比较小面部高的置信度值经辨识。举例来说,面部辨识对于较大面部表现较好,因为存在较多细节用于辨识较大面部。基于人的大小,基于人距相机的距离,基于面部的闭塞量以及其它因素,面部的大小可不同。也可使用任何其它合适的因数来将具有相同优先级值的面部进一步区分优先级。
在针对所述一或多个面部执行面部辨识之后,将根据辨识结果更新面部的状态。举例来说,对于给定面部,可在针对面部执行面部辨识之后更新置信度得分、人ID和/或历史计数器。随后可基于经更新参数更新面部的状态。
图8是说明利用对象优先级区分的对象辨识过程800的实例的流程图。在框802处,过程800包含获得当前视频帧或图像。当前视频帧可包含捕获场景的图像的视频序列的视频帧,如上文所描述。当前帧可包含位于场景中的多个对象。对象可包含任何合适的对象,例如人、汽车、动物等等。
在框804处,过程800包含检测当前帧中的对象。举例来说,对象辨识系统200可经配置或编程以检测某些对象,例如人的面部、汽车、动物或场景中的其它对象或项目。面部将用作在当前视频帧中所检测和跟踪的对象的实例。然而,所属领域的技术人员将了解对象辨识系统200可经配置以检测和跟踪任何其它合适的对象。对象辨识系统200可使用上文关于图1和图2所描述的技术检测当前视频帧中的面部。
在框806处,过程800包含跟踪当前帧中的检测到的对象。举例来说,对象辨识系统200可使用上文关于图1和图2所描述的技术跟踪当前视频帧中的所检测面部。所跟踪面部可与限界框相关联,如先前描述。
在框808处,过程800更新所跟踪对象的优先级和状态。举例来说,如上文所描述,给定当前帧中的给定面部在当前状态中的state_pre、唯一人识别符、置信度得分和/或历史计数器,可更新所述面部的状态。当面部的状态改变到给定状态时,面部的优先级可经更新到给定状态的基本优先级。图7中示出基本优先级。在一些情况下,如果状态未改变,那么所跟踪面部的优先级可递增上文描述的预定义量(例如,递增1的值或其它合适的量)。在这些情况下,有可能的是具有低基本优先级的状态的面部(例如,陌生人面部)可具有在具有较高基本优先级的状态的其它面部之前在当前帧中辨识的较高优先级,因为所述面部在足够的帧中保持于其当前状态。
本文中所描述的基于优先级的对象辨识技术解决了当一个帧中检测到许多面部时的问题,所述问题使得由于装置的CPU资源的限制而很难且有时不可能辨识帧中的所有面部。举例来说,一些面部无法在当前帧中辨识,因为其它面部在每一帧中在那些面部之前辨识。通过将面部区分优先级以用于面部辨识,高效地使用装置的CPU资源且可实时执行面部辨识。举例来说,此类技术可帮助高效地利用计算装置的有限CPU资源,例如嵌入式相机系统(例如,在IP相机或具有嵌入式视频分析系统的其它合适的相机中)。此外,使用本文中所描述的动态基于优先级的对象辨识技术,有可能的是在某一时间量(或帧数目)中保持于某一状态的具有较低基本优先级的面部的优先级高于具有较高基本优先级的新更新面部。此类技术提供了在繁忙场景中当多个面部一致地出现在场景中时辨识具有较低原始(或基本)优先级的面部的能力。
图9是说明使用本文中所描述的技术在一或多个视频帧中将对象区分优先级以用于对象辨识的过程900的实例的流程图。在框902处,过程900包含获得当前视频帧。当前视频帧包含当前正由面部辨识系统或其它合适的系统或装置处理的帧(例如,视频序列或图像的帧)。在框904处,过程900包含检测当前视频帧中的多个对象。在一些方面中,所述多个对象包含多个面部。在一个说明性实例中,对象检测引擎210可使用先前描述的技术执行面部检测以检测当前视频帧中的一或多个面部。也可使用其它形式的对象检测。
在框906处,过程900包含确定与所述多个对象相关联的状态信息。在框908处,过程900包含确定所述多个对象的优先级。举例来说,针对对象基于与所述对象相关联的状态信息确定优先级。下文提供且本文论述确定状态信息和优先级的说明性实例。在框910处,过程900包含针对来自所述多个对象的一或多个对象基于针对所述一或多个对象确定的一或多个优先级执行对象辨识。举例来说,针对具有较高优先级的对象在具有较低优先级的对象之前执行对象辨识。在一些实例中,对象辨识包含例如使用上文关于图2所描述的技术的面部辨识。
在一些实例中,过程900包含获得所述多个对象的对象识别符、置信度得分和历史计数器信息。对象的历史计数器信息至少指示对象具有当前状态的帧的数目。在此类实例中,过程900进一步包含基于所述多个对象的对象识别符、置信度得分和历史计数器信息确定所述多个对象的状态信息。
在一些实例中,过程900包含响应于对象的状态针对当前帧维持于当前状态而将当前视频帧的对象的优先级增加预定义量。
在一些实例中,过程900包含跟踪当前视频帧中的所述多个对象。跟踪可包含匹配当前视频帧中的对象与先前检测到的对象。在此类实例中,过程900进一步包含基于跟踪的结果更新与所述多个对象相关联的状态信息。在一些方面中,跟踪包含匹配当前视频帧中的所述多个对象的限界框与前一视频帧中所检测的多个对象的限界框。在一些情况下,跟踪对象包含从前一视频帧中检测到的对象确定一或多个关键点,且匹配来自前一帧中检测到的对象的所述一或多个关键点与来自当前视频帧中检测到的对象的一或多个关键点。在一些情况下,当前视频帧中不与前一视频帧中所检测的任何对象匹配的对象被指派新状态。在一些实例中,对经指派新状态的对象给定比经指派于其它状态的对象更高的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有新状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值。第一置信度阈值小于第二置信度阈值。举例来说,第一置信度阈值可包含阈值T1且第二置信度阈值可包含上文相对于图6所论述的阈值T2。在此类实例中,过程900进一步包含确定对象的历史计数器小于第一计数器阈值,所述第一计数器阈值包含对象的置信度得分大于第一置信度阈值的视频帧的数目的计数。举例来说,第一计数器阈值可包含上文相对于图6所论述的阈值C1。在此类实例中,过程900进一步包含基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值以及基于对象的历史计数器小于第一计数器阈值将对象的状态维持于新状态。在一些实例中,过程900包含响应于对象的状态维持于新状态而将对象的优先级增加预定义量。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有新状态,确定对象的置信度得分大于第二置信度阈值,以及基于对象的置信度得分大于第二置信度阈值将对象的状态从新状态改变到经确认状态。经确认状态指示先前对对象执行的对象辨识成功的确认。在一些实例中,过程900包含响应于将对象的状态从新状态改变到经确认状态将对象的优先级改变到与经确认状态相关联的基本优先级。在一些情况下,与经确认状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有新状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值。第一置信度阈值小于第二置信度阈值。在此类实例中,过程900进一步包含确定对象的历史计数器大于第一计数器阈值,所述第一计数器阈值包含对象的置信度得分大于第一置信度阈值的视频帧的数目的计数,以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值以及基于对象的历史计数器大于第一计数器阈值将对象的状态从新状态改变到经确认状态。在一些实例中,过程900包含响应于对象的状态维持于新状态而将对象的优先级增加预定义量。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有新状态,确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及基于对象的对象识别符不匹配于先前检测到的对象的对象识别符将对象的状态从新状态改变到未经确认状态。在一些实例中,过程900包含响应于将对象的状态从新状态改变到未经确认状态将对象的优先级改变到与未经确认状态相关联的基本优先级。在一些情况下,与未经确认状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有新状态,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人。举例来说,最小置信度阈值可包含上文相对于图6所论述阈值T0。如本文中先前所描述,陌生人是在已知对象的数据库(可称为登记数据库)中未注册的对象。在此类实例中,过程900进一步包含基于对象的置信度得分小于最小置信度阈值将对象的状态从新状态改变到预先陌生人状态。在一些实例中,过程900包含响应于将对象的状态从新状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级。在一些情况下,与预先陌生人状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有新状态,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人,且如上所述,陌生人是未在已知对象的数据库中注册的对象。在此类实例中,过程900进一步包含确定对象的历史计数器大于最小计数器阈值,所述最小计数器阈值包含对象的置信度得分小于最小置信度阈值的视频帧的数目的计数。举例来说,最小计数器阈值可包含上文相对于图6所论述的阈值C0。在此类实例中,过程900进一步包含基于对象的置信度得分小于最小置信度阈值以及基于对象的历史计数器大于最小计数器阈值将对象的状态从新状态改变到陌生人状态。在一些实例中,过程900包含响应于将对象的状态从新状态改变到陌生人状态将对象的优先级改变到与陌生人状态相关联的基本优先级。在一些情况下,与陌生人状态相关联的基本优先级小于与新状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认。在此类实例中,过程900进一步包含确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及基于对象的对象识别符匹配于先前检测到的对象的对象识别符将对象的状态维持于经确认状态。在一些实例中,过程900包含响应于对象的状态维持于经确认状态而将对象的优先级增加预定义量。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认。在此类实例中,过程900进一步包含确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于最小置信度阈值。最小置信度阈值用以识别陌生人。在此类实例中,过程900进一步包含基于对象的对象识别符不匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于最小置信度阈值将对象的状态从经确认状态改变到未经确认状态。在一些实例中,过程900包含响应于将对象的状态从经确认状态改变到未经确认状态将对象的优先级改变到与未经确认状态相关联的基本优先级。在一些情况下,与未经确认状态相关联的基本优先级高于与经确认状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对对象先前执行的对象辨识成功的确认。在此类实例中,过程900进一步包含确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人。在此类实例中,过程900进一步包含基于对象的对象识别符不匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分小于最小置信度阈值将对象的状态从经确认状态改变到预先陌生人状态。在一些实例中,过程900包含响应于将对象的状态从经确认状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级。在一些情况下,与预先陌生人状态相关联的基本优先级大于与经确认状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有未经确认状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值。第一置信度阈值小于第二置信度阈值。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值将对象的状态从未经确认状态改变到新状态。在一些实例中,过程900包含响应于将对象的状态从未经确认状态改变到新状态将对象的优先级改变到与新状态相关联的基本优先级。在一些情况下,与新状态相关联的基本优先级大于与未经确认状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有未经确认状态,以及确定对象的置信度得分大于第二置信度阈值。第二置信度阈值用以确认对对象先前执行的对象辨识成功。在此类实例中,过程900进一步包含基于对象的置信度得分大于第二置信度阈值将对象的状态从未经确认状态改变到经确认状态。在一些实例中,过程900包含响应于将对象的状态从未经确认状态改变到经确认状态将对象的优先级改变到与经确认状态相关联的基本优先级。在一些情况下,与经确认状态相关联的基本优先级小于与未经确认状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有未经确认状态,确定对象的对象识别符不匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及基于对象的对象识别符不匹配于先前检测到的对象的对象识别符将对象的状态维持于未经确认状态。在一些实例中,过程900包含响应于对象的状态维持于未经确认状态而将对象的优先级增加预定义量。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有未经确认状态,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人。在此类实例中,过程900进一步包含基于对象的置信度得分小于最小置信度阈值将对象的状态从未经确认状态改变到预先陌生人状态。在一些实例中,过程900包含响应于将对象的状态从未经确认状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级。在一些情况下,与预先陌生人状态相关联的基本优先级小于与未经确认状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有预先陌生人状态。如前所述,陌生人是未在已知对象的数据库中注册的对象。在此类实例中,过程900进一步包含确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值。第一置信度阈值小于第二置信度阈值。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值将对象的状态从预先陌生人状态改变到新状态。在一些实例中,过程900包含响应于将对象的状态从预先陌生人状态改变到新状态将对象的优先级改变到与新状态相关联的基本优先级。在一些情况下,与新状态相关联的基本优先级大于与预先陌生人状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有预先陌生人状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于最小置信度阈值且小于第一置信度阈值。最小置信度阈值小于第一置信度阈值。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于最小置信度阈值且小于第一置信度阈值将对象的状态从预先陌生人状态改变到未经确认状态。在一些实例中,过程900包含响应于将对象的状态从预先陌生人状态改变到未经确认状态将对象的优先级改变到与未经确认状态相关联的基本优先级。在一些情况下,与未经确认状态相关联的基本优先级大于与预先陌生人状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有预先陌生人状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人。在此类实例中,过程900进一步包含确定对象的历史计数器小于最小计数器阈值。最小计数器阈值包含对象的置信度得分小于最小置信度阈值的视频帧的数目的计数。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符,基于对象的置信度得分小于最小置信度阈值,以及基于对象的历史计数器小于最小计数器阈值将对象的状态维持于预先陌生人状态。在一些实例中,过程900包含响应于对象的状态维持于预先陌生人状态而将对象的优先级增加预定义量。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有预先陌生人状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人,如上所述。在此类实例中,过程900进一步包含确定对象的历史计数器大于最小计数器阈值,所述最小计数器阈值包含对象的置信度得分小于最小置信度阈值的视频帧的数目的计数。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符,基于对象的置信度得分小于最小置信度阈值,以及基于对象的历史计数器大于最小计数器阈值将对象的状态从预先陌生人状态改变到陌生人状态。在一些实例中,过程900包含响应于将对象的状态从预先陌生人状态改变到陌生人状态将对象的优先级改变到与陌生人状态相关联的基本优先级。在一些情况下,与陌生人状态相关联的基本优先级小于与预先陌生人状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有陌生人状态。如前所述,陌生人是未在已知对象的数据库中注册的对象。在此类实例中,过程900进一步包含确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于第一置信度阈值且小于第二置信度阈值。第一置信度阈值小于第二置信度阈值。在此类实例中,过程900进一步包含确定对象的历史计数器大于第一计数器阈值,所述第一计数器阈值包含对象的置信度得分大于第一置信度阈值的视频帧的数目的计数。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符,基于对象的置信度得分大于第一置信度阈值且小于第二置信度阈值,以及基于对象的历史计数器大于第一计数器阈值将对象的状态从陌生人状态改变到新状态。在一些实例中,过程900包含响应于将对象的状态从陌生人状态改变到新状态将对象的优先级改变到与新状态相关联的基本优先级。在一些情况下,与新状态相关联的基本优先级大于与陌生人状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有陌生人状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分大于最小置信度阈值且小于第一置信度阈值。最小置信度阈值小于第一置信度阈值。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分大于最小置信度阈值且小于第一置信度阈值将对象的状态从陌生人状态改变到预先陌生人状态。在一些实例中,过程900包含响应于将对象的状态从陌生人状态改变到预先陌生人状态将对象的优先级改变到与预先陌生人状态相关联的基本优先级。在一些情况下,与预先陌生人状态相关联的基本优先级大于与陌生人状态相关联的基本优先级。
在一些实例中,过程900包含确定当前视频帧中检测到的对象具有陌生人状态,确定对象的对象识别符匹配于与当前视频帧中的对象匹配的先前检测到的对象的对象识别符,以及确定对象的置信度得分小于最小置信度阈值。最小置信度阈值用以识别陌生人。在此类实例中,过程900进一步包含基于对象的对象识别符匹配于先前检测到的对象的对象识别符以及基于对象的置信度得分小于最小置信度阈值将对象的状态维持于陌生人状态。在一些实例中,过程900包含响应于对象的状态维持于陌生人状态而将对象的优先级增加预定义量。
在一些实例中,过程900可由计算装置或设备执行。在一个说明性实例中,过程900可由图2所示的对象辨识系统200执行。在一些情况下,计算装置或设备可包含经配置以实行过程900的步骤的处理器、微处理器、微计算机或装置的其它组件。在一些实例中,所述计算装置或设备可包含经配置以捕获包含视频帧的视频数据(例如,视频序列)的相机。举例来说,计算装置可包含相机装置(例如,IP相机或其它类型的相机装置),其可包含视频编解码器。在一些实例中,相机或捕获视频数据的其它捕获装置与计算装置分开,在此情况下计算装置接收所捕获的视频数据。计算装置可进一步包含经配置以传达视频数据的网络接口。网络接口可经配置以传达基于因特网协议(IP)的数据。
过程900被说明为逻辑流程图,其操作表示可以在硬件、计算机指令或其组合中实施的操作的序列。在计算机指令的情形下,操作表示存储在一或多个计算机可读存储媒体上的计算机可执行指令,这些计算机可执行指令在由一或多个处理器执行时实施所叙述的操作。一般而言,计算机可执行指令包含例程、程序、对象、组件、数据结构以及执行特定功能或实施特定数据类型的类似物。描述操作的顺序并不意图解释为限制,且任何数目的所描述操作可以按任何顺序组合和/或平行以实施所述过程。
另外,过程900可在经配置有可执行指令的一或多个计算机系统的控制下执行,且可被实施为共同地在一或多个处理器上、通过硬件或其组合执行的代码(例如,可执行指令、一或多个计算机程序,或一或多个应用程序)。如上所述,代码可存储在计算机可读或机器可读存储媒体上,例如,呈包括可通过一或多个处理器执行的多个指令的计算机程序的形式。计算机可读或机器可读存储媒体可为非暂时性的。
本文所论述的对象辨识技术可使用经压缩视频或使用未经压缩视频帧(在压缩之前或之后)实施。实例视频编码和解码系统包含提供稍后待通过目的地装置解码的经编码视频数据的源装置。具体而言,源装置经由计算机可读媒体将视频数据提供到目的地装置。源装置和目的地装置可包括各种各样装置中的任一者,包含桌上型计算机、笔记本型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,源装置和目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读媒体接收待解码的经编码视频数据。计算机可读媒体可包括能够将经编码视频数据从源装置移动到目的地装置的任何类型的媒体或装置。在一个实例中,计算机可读媒体可包括使源装置能够实时将经编码视频数据直接发射到目的地装置的通信媒体。经编码视频数据可根据通信标准(例如,无线通信协议)加以调制,且传输到目的地装置。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线路。通信媒体可形成基于包的网络的部分,所述基于包的网络例如局域网、广域网或全球网络,例如因特网。通信媒体可包含可用于促进从源装置到目的地装置的通信的路由器、交换器、基站或任何其它设备。
在一些实例中,经编码数据可从输出接口输出到存储装置。类似地,经编码数据可由输入接口从存储装置存取。存储装置可包含各种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器、或用于存储经编码视频数据的任何其它适合的数字存储媒体。在另一实例中,存储装置可以对应于文件服务器或可存储由源装置产生的经编码视频的另一中间存储装置。目的地装置可经由串流或下载从存储装置存取所存储视频数据。文件服务器可为能够存储经编码视频数据和将所述经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置可通过任何标准数据连接(包含因特网连接)来存取经编码视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的传输可为流式传输、下载传输或其组合。
本发明的技术不必限于无线应用或设置。技术可应用于支持多种多媒体应用中的任一个的视频译码,所述多媒体应用例如空中电视广播、有线电视发射、卫星电视发射、因特网流式视频传输(例如,通过HTTP的动态自适应流式传输(DASH))、数字视频编码到数据存储媒体上、存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统可经配置以支持单向或双向视频传输,从而支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。
在一个实例中,源装置包含视频源、视频编码器和输出接口。目的地装置可包含输入接口、视频解码器和显示装置。源装置的视频编码器可经配置以应用本文所公开的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置可从外部视频源(例如,外部相机)接收视频数据。同样,目的地装置可与外部显示装置介接,而非包含集成显示装置。
以上实例系统仅是一个实例。用于并行处理视频数据的技术可由任何数字视频编码和/或解码装置进行。虽然本发明的技术通常通过视频编码装置执行,但是所述技术也可通过视频编码器/解码器(通常被称作“编解码器”)执行。此外,本发明的技术还可由视频预处理器执行。源装置和目的地装置仅为源装置在其中产生经译码视频数据以供发射到目的地装置的此类译码装置的实例。在一些实例中,源装置和目的地装置可以基本上对称的方式操作,使得装置中的每一个包含视频编码和解码组件。因此,实例系统可支持视频装置之间的单向或双向视频发射,例如,用于视频串流、视频重放、视频广播或视频电话。
视频源可包含视频捕获装置,例如摄像机、含有先前所捕获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈入接口。作为再一替代方案,视频源可产生基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源为视频相机,那么源装置和目的地装置可形成所谓的相机电话或视频电话。然而,如上文所提到,本发明中所描述的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器对所捕获、预先捕获或计算机产生的视频进行编码。经编码视频信息可随后通过输出接口输出到计算机可读媒体上。
如所提到,计算机可读媒体可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可例如经由网络发射从源装置接收经编码视频数据且将经编码视频数据提供到目的地装置。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置接收经编码视频数据且产生含有经编码视频数据的光盘。因此,在各种实例中,计算机可读媒体可理解为包含各种形式的一或多个计算机可读媒体。
如上所述,所属领域的技术人员将了解,在不脱离本说明书的范围的情况下,本文使用的小于(“<”)和大于(“>”)符号或术语可分别用小于或等于(“≤”)和大于或等于(“≥”)符号代替。
在前述描述中,参考其具体实施例描述应用的方面,但是所属领域的技术人员将认识到本申请不限于此。因此,虽然已经在本文中详细地描述了应用的说明性实施例,但是应理解本发明概念可以其它方式不同地实施和采用,并且除了现有技术所限制的之外,所附权利要求书意图解释为包含此类变化。上文描述的应用的各种特征和方面可以单独或共同地使用。另外,实施例可以在本文中描述的那些环境和应用之外的任何数量的环境和应用中使用而不脱离本说明书的广泛的精神和范围。应将本说明书和图式相应地视为说明性的而非限制性的。出于说明的目的,方法是以特定次序描述的。应了解,在替代实施例中,方法可以与所描述的次序不同的次序执行。
在组件被描述为“经配置以”执行特定操作的情况下,可例如通过设计电子电路或其它硬件以执行所述操作、通过编程可编程电子电路(例如,微处理器或其它适合电子电路)以执行所述操作或其任何组合来实现此类配置。
结合本文中所公开的实施例描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件、固件或其组合。为清晰地说明硬件与软件的此可互换性,上文已大体就各种说明性组件、块、模块、电路和步骤的功能性加以描述。这类功能性是以硬件来实施还是以软件来实施取决于特定应用和强加于整个系统的设计约束。本领域的技术人员可针对每一具体应用以不同方式来实施所描述的功能性,但这样的实施决策不应被解释为会引起脱离本申请的范围。
本文中描述的技术也可以在电子硬件、计算机软件、固件或其任何组合中实施。此类技术可实施于多种装置中的任一个中,例如,通用计算机、无线通信装置手持机或集成电路装置,其具有包含在无线通信装置手持机及其它装置中的应用的多种用途。描述为模块或组件的任何特征可一起实施于集成逻辑装置中或单独实施为离散但可互操作的逻辑装置。如果在软件中实施,那么所述技术可至少部分地由包括程序代码的计算机可读数据存储媒体来实现,所述程序代码包括在被执行时执行上文所描述的方法中的一或多个的指令。计算机可读数据存储媒体可形成计算机程序产品的部分,其可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体,例如,随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等等。另外或替代地,所述技术可至少部分地由计算机可读通信媒体来实现,所述计算机可读通信媒体以指令或数据结构的形式运载或传送程序代码且可由计算机存取、读取和/或执行,例如,传播的信号或波。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如,一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。这种处理器可配置成进行本公开中所描述的技术中的任一个。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP和微处理器的组合、多个微处理器、与DSP核心结合的一或多个微处理器,或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一个、前述结构的任何组合,或适合于实施本文中所描述的技术的任何其它结构或设备。另外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码和解码的专用软件模块或硬件模块内或并入组合的视频编码器-解码器(CODEC)中。

Claims (30)

1.一种用于在一或多个视频帧中将对象区分优先级以用于对象辨识的设备,其包括:
存储器,其经配置以存储与所述一或多个视频帧相关联的视频数据;以及
处理器,其经配置以:
获得当前视频帧;
检测所述当前视频帧中的多个对象;
确定与所述多个对象相关联的状态信息,其中至少部分基于对象是否在已知对象的数据库中注册的置信度得分来确定与对象相关联的状态信息;
确定所述多个对象的优先级,其中针对对象基于与所述对象相关联的状态信息确定优先级,其中置信度得分在第一置信度阈值以下的对象的优先级以及置信度得分在大于第一置信度阈值的第二置信度阈值以上的对象的优先级低于置信度得分在第一置信度阈值和第二置信度阈值之间的对象的优先级;以及
针对来自所述多个对象的一或多个对象基于针对所述一或多个对象确定的一或多个优先级执行对象辨识,其中针对具有较高优先级的对象在具有较低优先级的对象之前执行对象辨识。
2.根据权利要求1所述的设备,其中所述处理器经配置以:
获得所述多个对象的对象识别符、置信度得分和历史计数器信息,其中对象的历史计数器信息至少指示所述对象已具有当前状态的帧的数目;以及
基于所述多个对象的所述对象识别符、所述置信度得分和所述历史计数器信息确定所述多个对象的所述状态信息。
3.根据权利要求1所述的设备,其中所述处理器经配置以响应于所述当前视频帧的对象的状态针对所述当前视频帧维持于当前状态而将所述对象的优先级增加预定义量。
4.根据权利要求1所述的设备,其中所述处理器经配置以:
跟踪所述当前视频帧中的所述多个对象,其中跟踪包含匹配所述当前视频帧中的对象与先前检测到的对象;以及
基于所述跟踪的结果更新与所述多个对象相关联的所述状态信息。
5.根据权利要求4所述的设备,其中在所述当前视频帧中检测到的不与前一视频帧中检测到的任何对象匹配的对象被指派新状态,其中经指派新状态的对象被给定比经指派于其它状态的对象更高的基本优先级。
6.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有新状态;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值;
确定所述对象的历史计数器小于第一计数器阈值,所述对象的历史计数器至少计数所述对象已具有当前状态的帧的数目,以及所述第一计数器阈值包含所述对象的所述置信度得分大于所述第一置信度阈值的视频帧的数目的计数;
基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值以及基于所述对象的所述历史计数器小于所述第一计数器阈值将所述对象的状态维持于所述新状态;以及
响应于所述对象的所述状态维持于所述新状态将所述对象的优先级增加预定义量。
7.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有新状态;
确定所述对象的置信度得分大于所述第二置信度阈值;
基于所述对象的所述置信度得分大于所述第二置信度阈值将所述对象的状态从所述新状态改变到经确认状态,所述经确认状态指示对所述对象先前执行的对象辨识成功的确认;以及
响应于将所述对象的所述状态从所述新状态改变到所述经确认状态将所述对象的优先级改变到与所述经确认状态相关联的基本优先级,其中与所述经确认状态相关联的所述基本优先级小于与所述新状态相关联的基本优先级。
8.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有新状态;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值;
确定所述对象的历史计数器大于第一计数器阈值,所述对象的历史计数器至少计数所述对象已具有当前状态的帧的数目,以及所述第一计数器阈值包含所述对象的所述置信度得分大于所述第一置信度阈值的视频帧的数目的计数;
基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值以及基于所述对象的所述历史计数器大于所述第一计数器阈值将所述对象的状态从所述新状态改变到经确认状态;以及
响应于将所述对象的所述状态从所述新状态改变到经确认状态将对象的优先级改变到与经确认状态相关联的基本优先级,其中与经确认状态相关联的基本优先级小于与所述新状态相关联的基本优先级。
9.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有新状态;
确定所述对象的对象识别符不匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
基于所述对象的所述对象识别符不匹配于所述先前检测到的对象的所述对象识别符将所述对象的状态从所述新状态改变到未经确认状态;以及
响应于将所述对象的所述状态从所述新状态改变到所述未经确认状态将所述对象的优先级改变到与所述未经确认状态相关联的基本优先级,其中与所述未经确认状态相关联的所述基本优先级小于与所述新状态相关联的基本优先级。
10.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有新状态;
确定所述对象的所述置信度得分小于所述第一置信度阈值,其中所述第一置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;
基于所述对象的所述置信度得分小于所述第一置信度阈值将所述对象的状态从所述新状态改变到预先陌生人状态;以及
响应于将所述对象的所述状态从所述新状态改变到所述预先陌生人状态将所述对象的优先级改变到与所述预先陌生人状态相关联的基本优先级,其中与所述预先陌生人状态相关联的所述基本优先级小于与所述新状态相关联的基本优先级。
11.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有新状态;
确定所述对象的置信度得分小于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的历史计数器大于最小计数器阈值,所述对象的历史计数器至少计数所述对象已具有当前状态的帧的数目,以及所述最小计数器阈值包含所述对象的所述置信度得分小于最小置信度阈值的视频帧的数目的计数;
基于所述对象的所述置信度得分小于所述第一置信度阈值以及基于所述对象的所述历史计数器大于所述最小计数器阈值将所述对象的状态从所述新状态改变到陌生人状态;以及
响应于将所述对象的所述状态从所述新状态改变到所述陌生人状态将所述对象的优先级改变到与所述陌生人状态相关联的基本优先级,其中与所述陌生人状态相关联的所述基本优先级小于与所述新状态相关联的基本优先级。
12.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对所述对象先前执行的对象辨识成功的确认;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符将所述对象的状态维持于所述经确认状态;以及
响应于所述对象的所述状态维持于所述经确认状态将所述对象的优先级增加预定义量。
13.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对所述对象先前执行的对象辨识成功的确认;
确定所述对象的对象识别符不匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;
基于所述对象的所述对象识别符不匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分大于所述第一置信度阈值将所述对象的状态从所述经确认状态改变到未经确认状态;以及
响应于将所述对象的所述状态从所述经确认状态改变到所述未经确认状态将所述对象的优先级改变到与所述未经确认状态相关联的基本优先级,其中与所述未经确认状态相关联的所述基本优先级高于与所述经确认状态相关联的基本优先级。
14.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有经确认状态,所述经确认状态指示对所述对象先前执行的对象辨识成功的确认;
确定所述对象的对象识别符不匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分小于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;
基于所述对象的所述对象识别符不匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分小于所述第一置信度阈值将所述对象的状态从所述经确认状态改变到预先陌生人状态;以及
响应于将所述对象的所述状态从所述经确认状态改变到所述预先陌生人状态将所述对象的优先级改变到与所述预先陌生人状态相关联的基本优先级,其中与所述预先陌生人状态相关联的所述基本优先级大于与所述经确认状态相关联的基本优先级。
15.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有未经确认状态;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于第一置信度阈值且小于第二置信度阈值;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值将所述对象的状态从所述未经确认状态改变到新状态;以及
响应于将所述对象的所述状态从所述未经确认状态改变到所述新状态将所述对象的优先级改变到与所述新状态相关联的基本优先级,其中与所述新状态相关联的所述基本优先级大于与所述未经确认状态相关联的基本优先级。
16.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有未经确认状态;
确定所述对象的置信度得分大于第二置信度阈值,其中所述第二置信度阈值用以确认对所述对象先前执行的对象辨识成功;
基于所述对象的所述置信度得分大于所述第二置信度阈值将所述对象的状态从所述未经确认状态改变到经确认状态;以及
响应于将所述对象的所述状态从所述未经确认状态改变到所述经确认状态将所述对象的优先级改变到与所述经确认状态相关联的基本优先级,其中与所述经确认状态相关联的所述基本优先级小于与所述未经确认状态相关联的基本优先级。
17.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有未经确认状态;
确定所述对象的对象识别符不匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
基于所述对象的所述对象识别符不匹配于所述先前检测到的对象的所述对象识别符将所述对象的状态维持于所述未经确认状态;以及
响应于所述对象的所述状态维持于所述未经确认状态将所述对象的优先级增加预定义量。
18.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有未经确认状态;
确定所述对象的置信度得分小于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人,且其中陌生人是未在已知对象的数据库中注册的对象;
基于所述对象的所述置信度得分小于所述第一置信度阈值将所述对象的状态从所述未经确认状态改变到预先陌生人状态;以及
响应于将所述对象的所述状态从所述未经确认状态改变到所述预先陌生人状态将所述对象的优先级改变到与所述预先陌生人状态相关联的基本优先级,其中与所述预先陌生人状态相关联的所述基本优先级小于与所述未经确认状态相关联的基本优先级。
19.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于第一置信度阈值且小于第二置信度阈值;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值将所述对象的状态从所述预先陌生人状态改变到新状态;以及
响应于将所述对象的所述状态从所述预先陌生人状态改变到所述新状态将所述对象的优先级改变到与所述新状态相关联的基本优先级,其中与所述新状态相关联的所述基本优先级大于与所述预先陌生人状态相关联的基本优先级。
20.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于第一置信度阈值且小于第二置信度阈值;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第一置信度阈值将所述对象的状态从所述预先陌生人状态改变到未经确认状态;以及
响应于将所述对象的所述状态从所述预先陌生人状态改变到所述未经确认状态将所述对象的优先级改变到与所述未经确认状态相关联的基本优先级,其中与所述未经确认状态相关联的所述基本优先级大于与所述预先陌生人状态相关联的基本优先级。
21.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分小于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人;
确定所述对象的历史计数器小于最小计数器阈值,所述对象的历史计数器至少计数所述对象已具有当前状态的帧的数目,以及所述最小计数器阈值包含所述对象的所述置信度得分小于所述第一置信度阈值的视频帧的数目的计数;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符,基于所述对象的所述置信度得分小于所述第一置信度阈值,以及基于所述对象的所述历史计数器小于所述最小计数器阈值将所述对象的状态维持于所述预先陌生人状态;以及
响应于所述对象的所述状态维持于所述预先陌生人状态将所述对象的优先级增加预定义量。
22.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有预先陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分小于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人;
确定所述对象的历史计数器大于最小计数器阈值,所述对象的历史计数器至少计数所述对象已具有当前状态的帧的数目,以及所述最小计数器阈值包含所述对象的所述置信度得分小于所述第一置信度阈值的视频帧的数目的计数;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符,基于所述对象的所述置信度得分小于所述第一置信度阈值,以及基于所述对象的所述历史计数器大于所述最小计数器阈值将所述对象的状态从所述预先陌生人状态改变到陌生人状态;以及
响应于将所述对象的所述状态从所述预先陌生人状态改变到所述陌生人状态将所述对象的优先级改变到与所述陌生人状态相关联的基本优先级,其中与所述陌生人状态相关联的所述基本优先级小于与所述预先陌生人状态相关联的基本优先级。
23.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于第一置信度阈值且小于第二置信度阈值;
确定所述对象的历史计数器大于第一计数器阈值,所述对象的历史计数器至少计数所述对象已具有当前状态的帧的数目,以及所述第一计数器阈值包含所述对象的所述置信度得分大于所述第一置信度阈值的视频帧的数目的计数;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符,基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值,以及基于所述对象的所述历史计数器大于所述第一计数器阈值将所述对象的状态从所述陌生人状态改变到新状态;以及
响应于将所述对象的所述状态从所述陌生人状态改变到所述新状态将所述对象的优先级改变到与所述新状态相关联的基本优先级,其中与所述新状态相关联的所述基本优先级大于与所述陌生人状态相关联的基本优先级。
24.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分大于第一置信度阈值且小于第二置信度阈值;
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分大于所述第一置信度阈值且小于所述第二置信度阈值将所述对象的状态从所述陌生人状态改变到预先陌生人状态;以及
响应于将所述对象的所述状态从所述陌生人状态改变到所述预先陌生人状态将所述对象的优先级改变到与所述预先陌生人状态相关联的基本优先级,其中与所述预先陌生人状态相关联的所述基本优先级大于与所述陌生人状态相关联的基本优先级。
25.根据权利要求1所述的设备,其中所述处理器经配置以:
确定所述当前视频帧中检测到的对象具有陌生人状态,其中陌生人是未在已知对象的数据库中注册的对象;
确定所述对象的对象识别符匹配于与所述当前视频帧中的所述对象匹配的先前检测到的对象的对象识别符;
确定所述对象的置信度得分小于第一置信度阈值,其中所述第一置信度阈值用以识别陌生人;以及
基于所述对象的所述对象识别符匹配于所述先前检测到的对象的所述对象识别符以及基于所述对象的所述置信度得分小于所述第一置信度阈值将所述对象的状态维持于所述陌生人状态;以及
响应于所述对象的所述状态维持于所述陌生人状态将所述对象的优先级增加预定义量。
26.根据权利要求1所述的设备,其中所述多个对象包含多个面部,且其中所述对象辨识包含面部辨识。
27.根据权利要求1所述的设备,其中所述设备包括移动装置,所述移动装置包括用于捕获所述一或多个视频帧的相机和用于显示所述一或多个视频帧的显示器中的一或多个。
28.一种用于在一或多个视频帧中将对象区分优先级以用于对象辨识的方法,所述方法包括:
获得当前视频帧;
检测所述当前视频帧中的多个对象;
确定与所述多个对象相关联的状态信息,其中至少部分基于对象是否在已知对象的数据库中注册的置信度得分来确定与对象相关联的状态信息;
确定所述多个对象的优先级,其中针对对象基于与所述对象相关联的状态信息确定优先级,以及其中置信度得分在第一置信度阈值以下的对象的优先级以及置信度得分在大于第一置信度阈值的第二置信度阈值以上的对象的优先级低于置信度得分在第一置信度阈值和第二置信度阈值之间的对象的优先级;以及
针对来自所述多个对象的一或多个对象基于针对所述一或多个对象确定的一或多个优先级执行对象辨识,其中针对具有较高优先级的对象在具有较低优先级的对象之前执行对象辨识。
29.根据权利要求28所述的方法,其进一步包括:
获得所述多个对象的对象识别符、置信度得分和历史计数器信息,其中对象的历史计数器信息至少指示所述对象已具有当前状态的帧的数目;以及
基于所述多个对象的所述对象识别符、所述置信度得分和所述历史计数器信息确定所述多个对象的所述状态信息。
30.根据权利要求28所述的方法,其进一步包括响应于所述对象的状态针对所述当前视频帧维持于当前状态将所述当前视频帧的对象的优先级增加预定义量。
CN201880055042.1A 2017-08-30 2018-08-22 将对象区分优先级以用于对象辨识 Active CN111033515B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762552165P 2017-08-30 2017-08-30
US62/552,165 2017-08-30
US16/107,879 US10839257B2 (en) 2017-08-30 2018-08-21 Prioritizing objects for object recognition
US16/107,879 2018-08-21
PCT/US2018/047611 WO2019046077A1 (en) 2017-08-30 2018-08-22 OBJECT PRIORIZATION FOR RECOGNITION OF OBJECTS

Publications (2)

Publication Number Publication Date
CN111033515A CN111033515A (zh) 2020-04-17
CN111033515B true CN111033515B (zh) 2023-05-02

Family

ID=65435299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880055042.1A Active CN111033515B (zh) 2017-08-30 2018-08-22 将对象区分优先级以用于对象辨识

Country Status (3)

Country Link
US (1) US10839257B2 (zh)
CN (1) CN111033515B (zh)
WO (1) WO2019046077A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10304207B2 (en) * 2017-07-07 2019-05-28 Samsung Electronics Co., Ltd. System and method for optical tracking
US11023707B2 (en) * 2017-10-27 2021-06-01 Avigilon Corporation System and method for selecting a part of a video image for a face detection operation
US20190217791A1 (en) 2018-01-12 2019-07-18 Uber Technologies, Inc. Systems and Methods for Streaming Processing for Autonomous Vehicles
WO2019180917A1 (ja) * 2018-03-23 2019-09-26 日本電気株式会社 オブジェクト追跡装置、オブジェクト追跡方法、及びオブジェクト追跡プログラム
US20190304102A1 (en) * 2018-03-30 2019-10-03 Qualcomm Incorporated Memory efficient blob based object classification in video analytics
US11507619B2 (en) 2018-05-21 2022-11-22 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US10965985B2 (en) * 2018-05-21 2021-03-30 Hisense Visual Technology Co., Ltd. Display apparatus with intelligent user interface
US20200097570A1 (en) * 2018-09-24 2020-03-26 Salesforce.Com, Inc. Visual search engine
US11488374B1 (en) * 2018-09-28 2022-11-01 Apple Inc. Motion trajectory tracking for action detection
US10554931B1 (en) * 2018-10-01 2020-02-04 At&T Intellectual Property I, L.P. Method and apparatus for contextual inclusion of objects in a conference
US11386306B1 (en) * 2018-12-13 2022-07-12 Amazon Technologies, Inc. Re-identification of agents using image analysis and machine learning
US11386655B2 (en) * 2019-02-15 2022-07-12 Rutgers, The State University Of New Jersey Image processing neural network systems and methods with scene understanding
CN110650369B (zh) * 2019-09-29 2021-09-17 北京谦仁科技有限公司 一种视频处理方法、装置、存储介质及电子设备
CN110677734B (zh) * 2019-09-30 2023-03-10 北京达佳互联信息技术有限公司 视频合成方法、装置、电子设备及存储介质
US11157811B2 (en) * 2019-10-28 2021-10-26 International Business Machines Corporation Stub image generation for neural network training
CN112819021B (zh) * 2019-11-15 2024-05-07 北京地平线机器人技术研发有限公司 图像检测方法及装置、电子设备和存储介质
US11948276B2 (en) * 2020-01-16 2024-04-02 Samsung Electronics Co., Ltd. Apparatus and method for enhancing videos
CN113297876A (zh) * 2020-02-21 2021-08-24 佛山市云米电器科技有限公司 基于智能冰箱的运动姿势矫正方法、智能冰箱及存储介质
CN111339945B (zh) * 2020-02-26 2023-03-31 贵州安防工程技术研究中心有限公司 基于视频的人群聚散检查方法与系统
US11704398B1 (en) * 2020-05-11 2023-07-18 United Services Automobile Association (Usaa) Real-world object-based image authentication method and system
IL275163B (en) * 2020-06-04 2022-07-01 Elbit Systems Ltd System and method for displaying scene information
GB2594761B (en) * 2020-10-13 2022-05-25 Neatframe Ltd Video stream manipulation
DE102020215461A1 (de) * 2020-12-08 2022-06-09 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Trainieren eines Bildgenerators
WO2022141073A1 (zh) * 2020-12-29 2022-07-07 深圳市锐明技术股份有限公司 车牌识别方法、装置及电子设备
GB2607573B (en) * 2021-05-28 2023-08-09 Neatframe Ltd Video-conference endpoint
US11743580B1 (en) 2022-05-16 2023-08-29 Motorola Solutions, Inc. Method and system for controlling operation of a fixed position camera

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239386A (zh) * 2013-06-10 2014-12-24 国际商业机器公司 用于对面部识别匹配区分优先级的方法和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223580A (ja) 2008-03-14 2009-10-01 Omron Corp 優先対象決定装置、電子機器、優先対象決定方法、プログラム、および記録媒体
US20110188713A1 (en) * 2008-07-16 2011-08-04 Imprezzeo Pty Ltd Facial image recognition and retrieval
US9082195B2 (en) 2011-10-19 2015-07-14 Crown Equipment Corporation Generating a composite score for a possible pallet in an image scene
US9087273B2 (en) * 2011-11-15 2015-07-21 Facebook, Inc. Facial recognition using social networking information
US10007849B2 (en) 2015-05-29 2018-06-26 Accenture Global Solutions Limited Predicting external events from digital video content
US10867216B2 (en) 2016-03-15 2020-12-15 Canon Kabushiki Kaisha Devices, systems, and methods for detecting unknown objects
US20180060662A1 (en) 2016-08-30 2018-03-01 Agrima Infotech India Pvt Ltd. Method and system for real time object recognition using modified neural networks algorithm
CN107633209B (zh) 2017-08-17 2018-12-18 平安科技(深圳)有限公司 电子装置、动态视频人脸识别的方法及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239386A (zh) * 2013-06-10 2014-12-24 国际商业机器公司 用于对面部识别匹配区分优先级的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dennis Mitzel.Real-Time Multi一Person Tracking withTime-Constrained Detection.《Procedings of the British Machine Vision Conference》.2011,1-11. *
Master Thesis.MULTI-CAMERA FACE DETECTION AND RECOGNITION APPLIED TO PEOPLE TRACKING.百度.2013,全文. *

Also Published As

Publication number Publication date
US20190065895A1 (en) 2019-02-28
WO2019046077A1 (en) 2019-03-07
CN111033515A (zh) 2020-04-17
US10839257B2 (en) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111033515B (zh) 将对象区分优先级以用于对象辨识
US11068741B2 (en) Multi-resolution feature description for object recognition
US10699126B2 (en) Adaptive object detection and recognition
US20190065833A1 (en) Detecting false positives in face recognition
US10395385B2 (en) Using object re-identification in video surveillance
Tsakanikas et al. Video surveillance systems-current status and future trends
US10943095B2 (en) Methods and systems for matching extracted feature descriptors for enhanced face recognition
CN109325933B (zh) 一种翻拍图像识别方法及装置
US10372970B2 (en) Automatic scene calibration method for video analytics
US20190304102A1 (en) Memory efficient blob based object classification in video analytics
CN106557726B (zh) 一种带静默式活体检测的人脸身份认证系统及其方法
US20190034734A1 (en) Object classification using machine learning and object tracking
JP5639478B2 (ja) デジタル画像における顔の表情の検出
US20190026544A1 (en) Face liveness detection using background/foreground motion analysis
Nigam et al. Integration of moment invariants and uniform local binary patterns for human activity recognition in video sequences
KR101446143B1 (ko) Cctv 환경에서의 얼굴 인식 기반 보안 관리 시스템 및 방법
CN110889334A (zh) 人员闯入识别方法及装置
US10939120B1 (en) Video upload in limited bandwidth
US20130201328A1 (en) Multimedia processing as a service
CN109815839B (zh) 微服务架构下的徘徊人员识别方法及相关产品
US10733857B1 (en) Automatic alteration of the storage duration of a video
US11688220B2 (en) Multiple-factor recognition and validation for security systems
US11200407B2 (en) Smart badge, and method, system and computer program product for badge detection and compliance
KH et al. Smart CCTV surveillance system for intrusion detection with live streaming
Cherrat et al. Security and Surveillance System for Drivers Based on User Profile and learning systems for Face Recognition.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant