CN108229350A - 一种机器人装置的面部检测、识别及跟踪方法和系统 - Google Patents

一种机器人装置的面部检测、识别及跟踪方法和系统 Download PDF

Info

Publication number
CN108229350A
CN108229350A CN201711393015.9A CN201711393015A CN108229350A CN 108229350 A CN108229350 A CN 108229350A CN 201711393015 A CN201711393015 A CN 201711393015A CN 108229350 A CN108229350 A CN 108229350A
Authority
CN
China
Prior art keywords
face
identified
tracking
video frame
robot device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711393015.9A
Other languages
English (en)
Inventor
孙昕尧
廖鑫鹏
任小波
汪灏泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
TCL Research America Inc
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Publication of CN108229350A publication Critical patent/CN108229350A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/40Robotics, robotics mapping to robotics vision
    • G05B2219/40425Sensing, vision based motion planning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种机器人装置的面部检测、识别和及跟踪方法和系统。所述方法包括从机器人装置的摄像机中获取视频帧;对所述视频帧执行面部检测处理,以检测所述视频帧中至少一个面部,并在所述面部检测处理后,识别所述视频帧中所检测到的至少一个所述面部。此所述方法还包括使用一特征点跟踪器和一相关跟踪器的组合,来执行基于视觉的跟踪处理以跟踪所识别出的至少一个面部,在所述基于视觉的跟踪处理后,执行检测和跟踪融合处理,并提供所述被识别出的至少一个面部的预期目标估计。

Description

一种机器人装置的面部检测、识别及跟踪方法和系统
技术领域
本发明涉及图像处理技术领域,尤其涉及一种机器人装置的面部检测、识别及跟踪方法和系统。
背景技术
人机交互已成为机器人领域的一个重要课题。检测人类表现的能力必须要嵌入到高级机器人中。人脸检测、识别及跟踪于活跃人机交互方案中是至关重要的,因为一个人的面部动作深深地关系到其意图和注意力。鲁棒人脸检测、识别及跟踪已在多种应用中显示了其价值,例如照看家中的年长者或医院的病人,提高公共场合的安全性,传送产品给给定的人等。
然而,在机器人平台上运行上述面部相关任务的精准度要求,是高级机器人以自然的方式与人类通讯的至关重要的元件。常见的挑战是人和机器人的移动总是处于不可控状态,这导致人脸和背景随时间在镜头里变化很快。因此,在机器人上执行与面部相关任务的精准度可能下降。
本发明所公开方法和系统用于解决上述至少一个问题以及其他问题。
发明内容
本发明一方面公开了一种机器人装置的面部检测及跟踪方法。所述方法包括:从机器人装置的摄像机中获取视频帧;对所述视频帧执行面部检测处理,以检测所述视频帧中的至少一个面部,并在所述面部检测处理之后,识别所述视频帧中所检测到的至少一个面部。所述方法还包括使用一个特征点跟踪器和一个相关跟踪器的组合,来执行一个基于视觉的跟踪处理以跟踪所识别出的至少一个的面部,在所述基于视觉的跟踪处理后,执行一个检测和跟踪融合处理,并提供所述被识别的至少一个面部的预期目标估计。
本发明的另一方面公开了一种带有计算机程序的永久性计算机可读介质,当由一处理器执行时,所述计算机程序执行一种机器人装置的面部检测和跟踪方法。所述方法包括从机器人装置的摄像机中获取视频帧;对所述视频帧进行面部检测处理,以检测所述视频帧中的至少一个面部,并在所述面部检测处理之后,识别所述视频帧中所检测到的至少一个面部。所述方法还包括使用一个特征点跟踪器和一个相关跟踪器的组合,来执行一个基于视觉的跟踪处理以跟踪所识别出的至少一个的面部,在所述基于视觉的跟踪处理后,执行一个检测和跟踪融合处理,并提供所述被识别的至少一个面部的预期目标估计。
本发明的另一方面公开了一个机器人装置的面部检测和跟踪系统。所述面部检测和跟踪系统包括一面部检测模块,一面部识别模块,一基于视觉的跟踪模块,和一检测器及跟踪器融合模块。所述面部检测模块用于从所述机器人装置的一摄像机中获取一视频帧,以及在所述视频帧内执行一面部检测处理以检测在所述视频帧内的至少一个面部。所述面部识别模块用于,在所述面部检测处理后,识别所述视频帧内所检测到的至少一个面部。所述基于视觉的跟踪模块用于执行一基于视觉的跟踪处理,使用一个特征点跟踪器和一个相关跟踪器的组合来跟踪所述被识别的至少一个面部。所述检测器和跟踪融合模块用于,在所述基于视觉的跟踪处理后,执行一检测和跟踪融合处理,以及提供所述被识别的至少一个面部的预期目标估计。
本领域技术人员可根据本发明公开的说明书,权利要求书,以及说明书附图,理解本发明的其他方面。
附图说明
图1为本发明具体实施方式中的一个工作平台示意图;
图2为本发明具体实施例的计算系统的示意图;
图3为本发明具体实施例的交互性的面部检测、识别和跟踪系统示意图;
图4为本发明具体实施例的跟踪融合模块示意图;
图5为本发明具体实施例的带有检测到的面部的视频帧的示意图;
图6为本发明具体实施例的交互性的面部检测、识别和跟踪处理示意图。
具体实施方案
附图中展示的部分将被引以具体说明阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。
图1展示了本发明具体实施方式中的一个工作平台100。如图1所示,所述工作平台100可包括:一机器人设备102,通讯网络110,一用户104以及一服务器106。也可以包括其他设备或元件。
机器人装置102可以包括任何合适类型的具有计算功能的电子设备,能实现一定程度的人工智能及自动化,如各种类型的机器人或智能电子设备,包括智能电视机(TV),智能电话机,平板电脑,个人电脑(PC),服务器类计算机,手提电脑,掌上电脑(PDA)等。
用户104可包括任何用户或使用所述机器人装置102的用户,和/或被所述机器人装置102看到或观察到的任何个人或人群。所述互联网110可包括用于为所述机器人装置102提供各种数据和函数的任何数目的通讯网络和服务器,例如,包括视频流、照片与图像、和/或图像处理等的媒体数据。
所述服务器106可包括提供个性化内容给所述用户106的任何适当类型的服务器计算机,或服务器计算机群。例如,所述服务器106可为一云计算服务器。所述服务器106也可协助所述通讯,数据存储,以及在其他服务器和所述机器人装置102之间的数据处理。所述机器人装置102和服务器106可通过至少一个通讯网络110,如有线网络,无线网络,卫星网络等相互通讯。
进一步的,所述机器人装置102可包括一摄像机108和一控制器112。也可以包括其他元件。摄像机108可向所述机器人装置102提供所述用户104的图像和视频。摄像机108可以是所述机器人装置102的内置摄像机,或是通过网络与所述机器人装置102连接的外部摄像机。在某些特定实施例中,摄像机108可为单镜头相机。在其他实施例中,摄像机108可为立体相机,或其他类型相机。
所述控制器112可包括至少一个硬件处理器,和/或向所述机器人装置102提供控制和处理功能的外围设备。例如,所述控制器112可执行图像处理及与人工智能相关的处理。
所述控制器112和/或服务器106可在任何合适的计算系统中实现。例如,图2展示了一计算系统200的具体实施框图。
如图2所示,计算系统200可包括一处理器202,一随机存储器(RAM)204,一只读存储器(ROM)206,一存储单元208,一显示器210,一输入/输出接口212,一数据库214,一通讯接口216和一图像单元220。在不违背本实施方案原则的情况下,可以减省某些设备,也可以添加一些其他类型的设备。
处理器202可以是任何合适的通用微处理器,数字信号处理器或微控制器,专用集成电路(ASIC)。处理器202可执行多组计算机程序指令来完成与所述机器人装置102相关的各种处理。所述处理器202执行的计算机程序指令可由只读存储器206,或存储单元208存入随机存储器204。所述存储单元208可包含任何合适类型的大容量存储器,用于存储所述处理器202执行处理时所需的任意类型信息。例如,存储单元208可包括可提供存储空间的至少一个硬盘装置,光盘装置,闪存或其他存储装置。
所述显示器210可向使用机器人装置102的至少一个用户提供信息。所述显示器210可包括任何合适类型的计算机显示装置或电子显示器(例如CRT或者LCD基础装置)。用户可通过所述输入/输出接口212向所述机器人装置102输入信息或者接收信息。例如,所述输入/输出接口212可包括任何适用的输入装置,如一个键盘,一个鼠标,一个电子输入板,语音装置,或者其他任何光纤或无线输入装置。进一步的,所述输入/输出接口212可接收来自图像单元220的数据,和/或向图像单元220发送数据。
进一步的,数据库214可包括任何类型的商用或者自定义数据库,也可包括用于分析数据库中信息的分析工具。数据库214可用于存储图形和图像信息,和其他相关信息。通讯接口216可提供通讯连接,使得机器人装置102可经由不同的通讯协议,如传输控制协议/互联网协议(TCP/IP),超文本传输协议(HTTP)等,通过电脑网络或其他通讯网络被远程访问,和/或与其他系统通讯。所述图像单元可包括任何与处理器202相耦合或一致的图像采集、存储、和/或处理元件。
在操作过程中,所述机器人装置102(如所述控制器112)和/或服务器106可从所述摄像机108中获取图像和/或视频,并可执行人脸检测、识别和跟踪处理。即,所述控制器112和/或所述服务器106可实现一交互性的面部检测、识别和跟踪系统。图3为本发明具体实施例的交互性系统示意图。
如图3所示,所述交互性系统300可包括一面部检测模块302,一面部识别模块304,一基于视觉的跟踪模块306,和一个检测器和跟踪器融合(D&TF)模块308。也可以添加其他模块。
所述面部检测模块302可运用至少一个预定的算法,从被提供给所述面部检测模块302的图像帧中检测人脸。例如,方向梯度直方图(HOG)面部检测算法可被用于面部检测。
一个HOG面部检测器可使用一特征描述子来计数在一图像局部的梯度方向的表象,且可在一致密网格的整齐排列的细胞单元上计算所述特征描述子,再采用将局部对比度归一化加以重叠来提高精准度。
更具体的,一组预训练的HOG面部检测器可被用于面部检测,且每个HOG面部检测器可采用一个经典HOG检测器,其被用于检测图像内的半刚性目标,如人脸。在面部不能总是正好对准所述摄像机的情况下,所述面部检测模块302可包括超过5个方向的HOG滤波器,包括正面,左面和右面视角,更前视但旋转了的左面和右面。
所述面部检测模块302的所述输入可包括作为一立体图像的一个原始帧,而输出是一组边界框:
对于所有检测到的面部f1,f2,…,fn,,n为整数,表示面部总数量,在当前步骤中,每一面部都包含所述边界框信息,所述边界框包括每一边界框的1)左上角位置(lx1,ly1,)和2)右下角位置(rx,ry,),其中lx,ly,rx,ry为坐标。图5显示了带有检测到的人脸的一原始帧。
所述面部识别模块304可用于从所述面部检测模块302中标记候选面部。例如,所述面部识别模块304可接收由所述面部检测模块302通过一给定边界框bbf所提供的,来自所述原始帧的一给定面部的经过剪裁的图像。所述面部识别模块304可运用一预定的算法,来标记所述给定边界框bbf所对应的所述给定面部。
例如,所述面部识别模块304可应用经过训练的弱化的卷积神经网络和月亮损失模型的一个组合模型,来提取面部特征的一个向量来作为一组面部属性估计的表征。所述交互性系统300可含存有用个人身份来标记好的面部特征向量的一个数据库。所述模块的所述输出是对所述面部特征向量的所述标记,所述面部特征向量距离所述给定面部的面部特征向量具有一最短距离。
在某些实施例中,所述面部识别模块304可执行面部识别,包括提取所述检测到的面部的所述面部特征,并执行面部标记。
所述基于视觉的跟踪模块306可运用一种基于视觉的跟踪算法,从所述面部识别模块304中跟踪到所述被识别的面部。例如,基于视觉的跟踪模块306可包括2个基于视觉的目标跟踪器,在每一时间步长估计所述目标面部的尺寸和移动,一第一跟踪器可以是一个特征点跟踪器,一第二跟踪器可以是一个相关跟踪器。
两个跟踪器可包括两个主要功能:初始化(如初始化特征点跟踪器,初始化相关跟踪器)和步进处理(如步进特征点跟踪器,步进相关跟踪器)。所述基于视觉的跟踪模块306的所述输入是在当前时间步长的一个目标面部的bbf和/或所述原始帧图像。
所述第一跟踪器可以是运用Kanade-Lucas-Tomasi算法(KLT)方法的一个基于梯度的跟踪器。所述第一跟踪器可通过一组特征点初始化。例如,所述第一跟踪器可运用最小特征值算法,在所述原始帧图像的给定的bbf内,提取一组可靠的特征点。在所述步进处理中,所述KLT跟踪器负责跟踪所述视频帧上的所述特征点,即如果所述跟踪器无法在所述当前帧定位到某个特征点,则需从点PKLT中移出所述点pi,或者更新所述特征点的位置(xi,yi)。进一步的,若所述面部已被跟踪到,则完善所述PKLT,例如通过一个完善特征点跟踪器。所述基于视觉的跟踪模块306在所述bbf里再次提取所述特征点作为Prefine,且完善后的PKLT=PKLT∪Prefine
所述第二跟踪器可以是在一跟踪-检测框架下的一个相关跟踪器。所述跟踪器通过学习到的关于移动和尺寸估计的尺度金字塔表征的判别类相关滤波器来工作。对于具有高度和宽度(h,w)的一个给定面部BBf,所述系统使用一较大的边界框来初始化所述相关跟踪器。这样使得所述跟踪器聚焦于所述目标人物的多个部位,如头发,脖子,和上身。接着所述初始化的相关跟踪器应试图跟踪在每张随后帧的所述框内的任何点,以更新所述bbcorr
进一步的,基于从先前模块提取到的所述特征,所述检测器和跟踪器融合(D&TF)模块308可用于估计每一被识别的目标面部的所述位置信息。
所述基于视觉的跟踪模块306中所述的两个跟踪器都有一定的局限性。例如,所述KLT跟踪器并不保证在所述下一帧内的所述对应点是一个特征点,特别是如果所述目标具有突然的移动。因此,所述KLT跟踪器可能导致很多点丢失,产生错误的位置信息。所述相关跟踪器也会出现所述相同的问题,这可能导致漂移问题。而且,两个所述跟踪器都不能轻松处理盲点,因为通过所述两个跟踪器的所述跟踪模型只能考虑两个连续帧。
因此,所述融合模块308可通过使用从先前模块所提取到的所述特征,估计每一被识别的目标面部的所述位置信息,提供改进的精准度和鲁棒性。图4为D&TF融合模块308的示意图。
在每一时间步长t,所述前一个模块可生成每一目标面部对应的信息{bbf,PKLT,bbcorr}。对于一个特定目标面部,所述信息可作为所述跟踪器融合模块的原始输入。如图4所示,所述输入被用于建立一个特征面板或一个特征图谱,再由一个注意面来处理。接着,所述信息被传递到一个卷积神经网络(CNN)和一个时间频率驱动循环神经网络(CWRNN),以在当前步骤t中生成所述最终输出et。在某些特定工作平台中,所述et作为一个估计向量而组成(如:6个单位长度的一个向量),所述估计向量带有目标面部的1)位置信息(lxt,lyt,rxt,ryt),和2)对所述面部或所述目标的速度向量的估计。因此,即使是在遮挡或漂移的情况下,所述目标面部的所述位置也能精确地被预测到。
图6为由机器人装置102(如所述控制器112的处理器202)执行的交互处理示意图。如图6所示,在所述处理开始时,可从所述机器人装置的摄像机中的视频帧或原始帧中获取视频帧(S602)。
例如,从所述机器人装置的单镜头摄像机中捕捉一个原始帧,作为所述交互性系统的主要输入。所述原始帧可包括所述机器人装置面前的至少一张人脸,所述人脸需被检测、识别和跟踪。在某些实施例中,所述原始帧也能从其他实时视频源或存储在各种媒体中的视频源中获取。
所述帧可进一步分成所述视频帧的多个目标和特征,可被提取出来作进一步处理。可对所述目标执行所述面部识别,以识别至少一个预配置的对象,如脸。进一步的,所述原始帧可被提供给所述面部检测模块,以定位所述当前帧的所有候选人脸,且所述面部检测模块可执行面部检测处理,以检测所述原始帧中的任意和/或所有面部(S604)。
进一步的,可确定所述原始帧中的所有面部是否都被检测到(S606)。如果确定所述原始帧中没有面部被检测到(S606;否),所述原始帧就被提供给所述基于视觉的跟踪模块作进一步处理。如果确定所述原始帧中至少一个面部被检测到(S606;是),所述所检测到的面部被提供给所述面部识别模块以在所述原始帧内识别和标记所述面部。
所述面部识别模块可在所述原始帧内识别和标记所述被检测到的面部(S608)。进一步的,可确定所述面部是否已被跟踪(S610)。若确定所述面部已被跟踪(S610;是),所述面部的跟踪状态被设为真,且带有所述标记好的面部的所述原始帧被提供给所述基于视觉的跟踪模块(S612)。
若确定所述面部未被跟踪过(S610;否),所述面部的跟踪状态被设为假,且将带有所述标记好的面部的所述原始帧提供给所述基于视觉的跟踪模块(S614)。
进一步的,所述基于视觉的跟踪模块可执行一跟踪处理,以跟踪所述识别到的面部(S616)。例如,如果所述跟踪状态被设为假,所述基于视觉的跟踪模块可首先对所述基于视觉的跟踪模块内的所述第一个和所述第二个跟踪器执行初始化,接着使用所述第一跟踪器和所述第二跟踪器执行步进跟踪,例如,产生对应的相关跟踪器和特征点跟踪器。另一方面,如果所述跟踪状态被设为真,所述基于视觉的跟踪模块可完善所述特征点跟踪器(如,所述第一跟踪器),再使用所述第一跟踪器和所述第二跟踪器执行步进跟踪。
从而,所述原始帧中的所述面部被检测、识别和跟踪。然而,所述基于视觉的跟踪模块执行所述跟踪处理后,所述基于视觉的跟踪模块可通过提供所述被识别的面部目标的目标估计,来提供面部检测数据和所述面部跟踪数据,包括所述原始帧数据,给所述跟踪器融合模块,以执行一检测和跟踪融合处理,来提高所述面部检测和所述面部跟踪的精准性,尤其是当在某些情况下发生数据丢失时,例如在遮挡或漂移的情况下。
例如,所述跟踪融合模块可使用从先前模块所提取到的所述特征,稳定地估计每一被识别的目标面部的所述位置信息。由所述各种模块执行的处理的详细描述与以上所述各种模块的所述描述类似,在此被省略。
所述跟踪融合模块获取目标估计的所述预测后,所述预测可被提供给所述机器人装置的一个应用程序,或者被展示在一个人机界面上,等。因此,所述机器人装置(例如,机器人摄像机)前的每一张人脸可被检测和识别,且所检测到的人脸能被稳定跟踪。
通过运用本发明的系统和方法,可提供具有多目标面部处理功能的一高级系统架构,而一低级别的实施可为特征空间的移动处理提供一视觉空间。进一步的,通过克服所述现有面部跟踪技术存在的问题,即现有面部跟踪技术很难处理漂移和遮挡的问题,一联合调谐跟踪器融合模块可用于最优化跟踪质量。因此,本发明所公开的系统能够稳定估计所述机器人摄像机前的所有被识别的人脸的移动。
所公开的实施例用于向本领域的技术人员解释说明本发明。对本领域技术人员而言,对这些实施例的各种修改是显而易见的,并且可以在不违背本发明的精神和范围的情况下,将本文定义的一般原理应用于其他实施例。因此,本发明的范围不受上述实施例限定,而是要被赋予与本文所公开的原则和新特性相一致的最广泛的范围。将本发明所述系统和方法应用于不同领域,进行改进、替换、调整或者相当于本发明所公开的具体技术实施方案都是本领域普通技术人员不需要通过创造性劳动就能实现的。

Claims (20)

1.一种机器人装置的面部检测、识别及跟踪方法,其特征在于,包括:
从机器人装置的摄像机中获取视频帧;
执行对于所述视频帧的面部检测处理以检测所述视频帧内的至少一个面部;
在所述面部检测处理之后,识别所述视频帧内所检测到的至少一个所述面部;
使用一特征点跟踪器和一相关跟踪器的组合,来执行一基于视觉的跟踪处理,以跟踪被识别出的至少一个所述面部;以及
完成所述基于视觉的跟踪处理后,执行一检测和跟踪融合处理,并提供所述被识别的至少一个所述面部的预期目标估计。
2.根据权利要求1所述的一种机器人装置的面部检测、识别及跟踪方法,其特征在于,执行所述面部检测处理还包括:
使用一在所述视频帧的方向梯度直方图面部检测器,以在所述视频帧内生成所述面部的一组边界框,以代表在所述视频帧内所检测到的至少一个所述面部。
3.根据权利要求2所述的一种机器人装置的面部检测、识别及跟踪方法,其特征在于,所述一组边界框为:
其中n为整数,代表至少一个所述面部f1,f2,…,fn,的总数量,且每一边界框包括左上角的位置(lx,ly,)和右下角的位置(rx,ry,),lx,ly,rx,ry为坐标。
4.根据权利要求2所述的一种机器人装置的面部检测、识别及跟踪方法,其特征在于,识别所述检测到的至少一个所述面部还包括:
提取每一个所述检测到的至少一个所述面部的一个面部特征向量;
将提取到的所述面部特征向量与存有标记好的所述面部特征向量的一个数据库作比较,每个所述标记好的面部特征向量具有一人识别标签;以及
使用所述数据库中一面部特征向量的所述人识别标签来标记每个所述面部,所述面部特征向量离提取到的所述面部特征向量具有一最短距离。
5.根据权利要求4所述的一种机器人装置的面部检测、识别及跟踪方法,其特征在于,
执行一基于视觉的跟踪处理还包括:
对于每一个被识别的面部,确定所述被识别的面部是否已被追踪;
当确定所述被识别的面部还未被追踪,基于所述被识别的面部的一组特征点,初始化所述特征点跟踪器和所述相关跟踪器;
当确定所述被识别的面部已被追踪,完善所述被识别的面部的所述特征点;且使用所述相关跟踪器,以提供所述被识别的面部的移动信息和尺寸估计。
6.根据权利要求5所述的一种机器人装置的面部检测、识别及跟踪方法,其特征在于,执行一检测和跟踪融合处理还包括:
基于所述一组边界框,所述被识别的面部的所述一组特征点,所述被识别的面部的所述移动信息和尺寸估计,提供了所述被识别的面部的一估计向量包括位置信息和所述被识别的面部的速度向量。
7.根据权利要求6所述的一种机器人装置的面部检测、识别及跟踪方法,其特征在于,提供所述估计向量还包括:
基于所述一组边界框,所述被识别的面部的所述一组特征点,和所述被识别的面部的所述移动信息和尺寸估计,建立一特征图谱,且应用一关注面具、一卷积神经网络和一时钟频率驱动循环神经网络,以生成所述被识别的面部的所述估计向量。
8.一种带有计算机程序的永久性计算机可读介质,其特征在于,当由一处理器执行时,所述计算机程序执行一种机器人装置的面部检测和跟踪方法,所述方法包括:
从所述机器人装置的摄像机中获取视频帧;
对所述视频帧执行面部检测处理以检测所述视频帧内的至少一个面部;
在所述面部检测处理之后,识别所述视频帧内所检测到的至少一个所述面部;
使用一特征点跟踪器和一相关跟踪器的组合,来执行一基于视觉的跟踪处理,以跟踪所识别出的至少一个所述面部;以及
完成所述基于视觉的跟踪处理后,执行一检测和跟踪融合处理,并提供所述被识别的至少一个所述面部的预期目标估计。
9.根据权利要求8所述的永久性计算机可读介质,其特征在于,执行所述面部检测处理还包括:
使用一在所述视频帧的方向梯度直方图面部检测器,以在所述视频帧内生成所述面部的一组边界框,以代表在所述视频帧内所检测到的至少一个所述面部。
10.根据权利要求9所述的永久性计算机可读介质,其特征在于,所述一组边界框为:
其中n为整数,代表至少一个所述面部f1,f2,…,fn的总数量,且每一边界框包括左上角的位置(lx,ly,)和右下角的位置(rx,ry,),lx,ly,rx,ry为坐标。
11.根据权利要求9所述的永久性计算机可读介质,其特征在于,识别所述检测到的至少一个所述面部还包括:
提取每一个所述检测到的至少一个面部的一个面部特征向量;
将提取到的所述面部特征向量与存有标记好的所述面部特征向量的一数据库作比较,每个所述标记好的面部特征向量具有一人识别标签;以及
使用所述数据库中一面部特征向量的所述人识别标签来标记每个所述面部,所述面部特征向量离提取到的所述面部特征向量具有一最短距离。
12.根据权利要求11所述的永久性计算机可读介质,其特征在于,执行一基于视觉的跟踪处理还包括:
对于每一个被识别的面部,确定所述被识别的面部是否已被追踪;
当确定所述被识别的面部还未被追踪,基于所述被识别的面部的一组特征点,初始化所述特征点跟踪器和所述相关跟踪器;
当确定所述被识别的面部已被追踪,完善所述被识别的面部的所述特征点;且使用所述相关跟踪器,以提供所述被识别的面部的移动信息和尺寸估计。
13.根据权利要求12所述的永久性计算机可读介质,其特征在于,执行一检测和跟踪融合处理还包括:
基于所述一组边界框,所述被识别的面部的所述一组特征点,所述被识别的面部的所述移动信息和尺寸估计,提供了所述被识别的面部的一估计向量包括位置信息和所述被识别的面部的速度向量。
14.根据权利要求13所述的永久性计算机可读介质,其特征在于,提供所述估计向量还包括:
基于所述一组边界框,所述被识别的面部的所述一组特征点,和所述被识别的面部的所述移动信息和尺寸估计,建立一特征图谱,且应用一注意面、一卷积神经网络和一时钟频率驱动循环神经网络,以生成所述被识别的面部的所述估计向量。
15.一种机器人装置的面部检测、识别及跟踪系统,其特征在于,包括:
一面部检测模块,用于从所述机器人装置的摄像机中获取视频帧,和执行对所述视频帧的面部检测处理以检测所述视频帧内的至少一个面部;
一面部识别模块,用于在所述面部检测处理之后,识别所述视频帧内所检测到的至少一个所述面部;
一基于视觉的跟踪模块,用于使用一特征点跟踪器和一相关跟踪器的组合,来执行一基于视觉的跟踪处理,以跟踪被识别出的至少一个所述面部;和
一检测器和跟踪器融合模块,用于完成所述基于视觉的跟踪处理后,执行一个检测和跟踪融合处理,并提供所述被识别的至少一个所述面部的预期目标估计。
16.根据权利要求15所述的一种机器人装置的面部检测、识别及跟踪系统,其特征在于,为执行所述面部检测处理,所述面部检测模块还用于:
使用一关于所述视频帧的方向梯度直方图面部检测器,以在所述视频帧内生成所述面部的一组边界框,以代表在所述视频帧内所检测到的至少一个所述面部。
17.根据权利要求16所述的一种机器人装置的面部检测、识别及跟踪系统,其特征在于,所述一组边界框为:
其中n为整数,代表至少一个所述面部f1,f2,…,fn,的总数量,且每一边界框包括左上角的位置(lx,ly,)和右下角的位置(rx,ry,),lx,ly,rx,ry为坐标。
18.根据权利要求16所述的一种机器人装置的面部检测、识别及跟踪系统,其特征在于,为识别所述检测到的至少一个所述面部,所述面部识别模块还用于:提取每一个所述检测到的至少一个所述面部的一个面部特征向量;
将提取到的所述面部特征向量与存有标记好的所述面部特征向量的一数据库作比较,每个所述标记好的面部特征向量具有一人识别标签;以及
使用所述数据库中一面部特征向量的所述人识别标签来标记每个所述面部,所述面部特征向量离开提取到的所述面部特征向量具有一最短距离。
19.根据权利要求18所述的一种机器人装置的面部检测、识别及跟踪系统,其特征在于,为执行一基于视觉的跟踪处理,所述基于视觉的跟踪模块还用于:
对于每一个被识别的面部,确定所述被识别的面部是否已被追踪;
当确定所述被识别的面部还未被追踪,基于所述被识别的面部的一组特征点,初始化所述特征点跟踪器和所述相关跟踪器;
当确定所述被识别的面部已被追踪,完善所述被识别的面部的所述特征点;且使用所述相关跟踪器,以提供所述被识别的面部的移动信息和尺寸估计。
20.根据权利要求19所述的一种机器人装置的面部检测、识别及跟踪系统,其特征在于,为执行所述检测和跟踪融合处理,所述检测器和跟踪器融合模块还用于:
基于所述一组边界框,所述被识别的面部的所述一组特征点,所述被识别的面部的所述移动信息和尺寸估计,提供了所述被识别的面部的一估计向量包括位置信息和所述被识别的面部的速度向量。
CN201711393015.9A 2016-12-22 2017-12-21 一种机器人装置的面部检测、识别及跟踪方法和系统 Pending CN108229350A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/388,372 2016-12-22
US15/388,372 US10068135B2 (en) 2016-12-22 2016-12-22 Face detection, identification, and tracking system for robotic devices

Publications (1)

Publication Number Publication Date
CN108229350A true CN108229350A (zh) 2018-06-29

Family

ID=62629651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711393015.9A Pending CN108229350A (zh) 2016-12-22 2017-12-21 一种机器人装置的面部检测、识别及跟踪方法和系统

Country Status (2)

Country Link
US (1) US10068135B2 (zh)
CN (1) CN108229350A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117055A (zh) * 2018-07-26 2019-01-01 深圳市商汤科技有限公司 智能终端及控制方法
CN112700478A (zh) * 2020-12-31 2021-04-23 北京澎思科技有限公司 目标跟踪方法、系统、计算机可读存储介质和程序产品
CN112711984A (zh) * 2020-12-09 2021-04-27 北京航空航天大学 注视点定位方法、装置和电子设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760826B (zh) * 2016-02-03 2020-11-13 歌尔股份有限公司 一种人脸跟踪方法、装置和智能终端
EP3336774B1 (en) * 2016-12-13 2020-11-25 Axis AB Method, computer program product and device for training a neural network
WO2019014646A1 (en) 2017-07-13 2019-01-17 Shiseido Americas Corporation REMOVAL OF VIRTUAL FACIAL MAKE-UP, FAST FACIAL DETECTION AND TRACK POINT TRACKING
CN109325964B (zh) * 2018-08-17 2020-08-28 深圳市中电数通智慧安全科技股份有限公司 一种人脸追踪方法、装置及终端
GB2579262B (en) * 2018-10-12 2021-02-10 Adobe Inc Space-time memory network for locating target object in video content
CN109605397A (zh) * 2019-01-11 2019-04-12 山东元脉电子技术股份有限公司 具有自动跟踪功能的人工智能教育机器人及其控制方法
CN110026982B (zh) * 2019-04-22 2020-09-15 广东博智林机器人有限公司 机器人伺服系统
CN110084216B (zh) * 2019-05-06 2021-11-09 苏州科达科技股份有限公司 人脸识别模型训练和人脸识别方法、系统、设备及介质
CN110795584B (zh) * 2019-09-19 2022-03-25 深圳云天励飞技术有限公司 一种用户标识生成方法、装置及终端设备
KR20210061103A (ko) * 2019-11-19 2021-05-27 엘지전자 주식회사 이동 로봇 및 그의 작동 방법
CN113627218A (zh) * 2020-05-08 2021-11-09 北京邮电大学 基于视频数据的人物识别方法及装置
CN111652902B (zh) * 2020-06-02 2023-03-28 浙江大华技术股份有限公司 目标的跟踪检测方法、电子设备及装置
CN112561954B (zh) * 2020-09-11 2023-07-14 浙江大华技术股份有限公司 目标对象跟踪轨迹的确定方法和装置、存储介质
CN112700472A (zh) * 2020-12-30 2021-04-23 深圳云天励飞技术股份有限公司 目标跟踪方法及相关设备
CN112686175A (zh) * 2020-12-31 2021-04-20 北京澎思科技有限公司 人脸抓拍方法、系统及计算机可读存储介质
CN114693735B (zh) * 2022-03-23 2023-03-14 成都智元汇信息技术股份有限公司 一种基于目标识别的视频融合方法及装置
CN115631509B (zh) * 2022-10-24 2023-05-26 智慧眼科技股份有限公司 一种行人再识别方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295405A (zh) * 2008-06-13 2008-10-29 西北工业大学 人像与车辆识别报警跟踪方法
US20150055821A1 (en) * 2013-08-22 2015-02-26 Amazon Technologies, Inc. Multi-tracker object tracking
US20150213305A1 (en) * 2014-01-29 2015-07-30 Sony Corporation System and method for visually distinguishing faces in a digital image
US20150269421A1 (en) * 2014-03-19 2015-09-24 Hulu, LLC Face Track Recognition with Multi-sample Multi-view Weighting

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016061780A1 (en) * 2014-10-23 2016-04-28 Intel Corporation Method and system of facial expression recognition using linear relationships within landmark subsets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295405A (zh) * 2008-06-13 2008-10-29 西北工业大学 人像与车辆识别报警跟踪方法
US20150055821A1 (en) * 2013-08-22 2015-02-26 Amazon Technologies, Inc. Multi-tracker object tracking
US20150213305A1 (en) * 2014-01-29 2015-07-30 Sony Corporation System and method for visually distinguishing faces in a digital image
US20150269421A1 (en) * 2014-03-19 2015-09-24 Hulu, LLC Face Track Recognition with Multi-sample Multi-view Weighting

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117055A (zh) * 2018-07-26 2019-01-01 深圳市商汤科技有限公司 智能终端及控制方法
CN112711984A (zh) * 2020-12-09 2021-04-27 北京航空航天大学 注视点定位方法、装置和电子设备
CN112700478A (zh) * 2020-12-31 2021-04-23 北京澎思科技有限公司 目标跟踪方法、系统、计算机可读存储介质和程序产品

Also Published As

Publication number Publication date
US10068135B2 (en) 2018-09-04
US20180181813A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
CN108229350A (zh) 一种机器人装置的面部检测、识别及跟踪方法和系统
Ibrahim et al. An automatic Arabic sign language recognition system (ArSLRS)
CN104317391B (zh) 一种基于立体视觉的三维手掌姿态识别交互方法和系统
Jain et al. Real-time upper-body human pose estimation using a depth camera
CN111640140A (zh) 目标跟踪方法、装置、电子设备及计算机可读存储介质
WO2020125499A1 (zh) 一种操作提示方法及眼镜
CN111327788B (zh) 相机组的同步方法、测温方法、装置及电子系统
WO2023071964A1 (zh) 数据处理方法, 装置, 电子设备及计算机可读存储介质
CN104821010A (zh) 基于双目视觉的人手三维信息实时提取方法及系统
CN111222579A (zh) 跨相机的障碍物关联方法、装置、设备、电子系统及介质
Wang et al. Immersive human–computer interactive virtual environment using large-scale display system
Zhang et al. New mixed adaptive detection algorithm for moving target with big data
Perra et al. Adaptive eye-camera calibration for head-worn devices
CN108416800A (zh) 目标跟踪方法及装置、终端、计算机可读存储介质
Pandey et al. Efficient 6-dof tracking of handheld objects from an egocentric viewpoint
Nyirarugira et al. Adaptive differential evolution algorithm for real time object tracking
Jean et al. Body tracking in human walk from monocular video sequences
Kang Hands-free navigation in VR environments by tracking the head
Middleton et al. Developing a non-intrusive biometric environment
Lin et al. Collaborative pedestrian tracking with multiple cameras: Data fusion and visualization
Pandey et al. Egocentric 6-DoF tracking of small handheld objects
Wang et al. Research and implementation of the sports analysis system based on 3D image technology
Kumar et al. Vision based human interaction system for disabled
Sun et al. Spatio-temporally optimized multi-sensor motion fusion
Zhao et al. A simple 3D face tracking method based on depth information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629