CN111465937A - 采用光场相机系统的脸部检测和识别方法 - Google Patents

采用光场相机系统的脸部检测和识别方法 Download PDF

Info

Publication number
CN111465937A
CN111465937A CN201880079398.9A CN201880079398A CN111465937A CN 111465937 A CN111465937 A CN 111465937A CN 201880079398 A CN201880079398 A CN 201880079398A CN 111465937 A CN111465937 A CN 111465937A
Authority
CN
China
Prior art keywords
light field
face
depth
field camera
rendering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880079398.9A
Other languages
English (en)
Other versions
CN111465937B (zh
Inventor
石志儒
吴旻烨
马文广
虞晶怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Publication of CN111465937A publication Critical patent/CN111465937A/zh
Application granted granted Critical
Publication of CN111465937B publication Critical patent/CN111465937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/95Computational photography systems, e.g. light-field imaging systems
    • H04N23/957Light-field or plenoptic cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种采用光场相机阵列检测并识别脸部的方法,包括:采用所述光场相机阵列捕获多视角彩色图像;获得深度图;通过含深度分量和语义分量的权重函数进行光场渲染,其中,所述权重函数向光场内的光线分配权重;以及检测并识别脸部。

Description

采用光场相机系统的脸部检测和识别方法
光场可看作由沿所有方向流经空间中的所有点的光构成的场。通过记录场景的光场信息,可以对所有光进行后处理,以获得二维图像无法获得的新信息,如在人群中被遮挡的人的图像。根据光场的独有特征,提供一种新的遮挡脸部检测与识别系统,该系统可用于地铁站、火车站、飞机场等公共场所。
1.光场相机阵列系统
提供一种用于捕获场景光场信息的光场数据捕获系统。该光场数据捕获系统包括如图1所示的光场相机阵列。在该系统中,RGB相机用于捕获颜色信息,而深度传感器用于捕获实时深度信息。或者,也可利用基于彩色图像的计算等其他方式获得深度信息。在一种实施方式中,该系统中使用的RGB相机为FLIR公司制造的GS3-U3-51S5C相机,而且该系统共设有7台该相机。需要注意的是,所述RGB相机也可为其他类型的相机,而且该系统内也可设置其他数目的相机。此外,该系统中使用的深度传感器为微软公司制造的Kinect传感器。类似地,该深度传感器也可为其他类型的传感器,只要能够用于获取场景的深度信息即可。
在一种实施方式中,所述RGB相机和深度传感器很好地对准。各相机等距设置于静止的铝合金支架上,而所述深度传感器固定于该静止铝合金支架的中心。相邻两个RGB相机之间的距离在一种实施方式中为0.2米,但该距离在其他实施方式可有所不同。
在一种实施方式中,所使用的相机为FLIR公司GS3-U3-51S5C相机,该相机具有与信号发生器连接的同步GPIO线。在该相机捕获RGB数据后,该数据通过USB3.0线缆实时传输至计算机。本系统中使用的数据线和控制线取决于所述相机,并且可随相机的不同而不同。
所捕获的数据传递至数据处理系统,该系统包括计算机和USB3.0捕获卡。所述相机通过USB3.0线缆与所述捕获卡连接。由于所述相机产生大量的数据,因此需要实施光场数据压缩,该压缩考虑分视角之间的关联性。
在多视角彩色图像和深度图传递至数据处理中心后,该数据可由光场渲染系统解码和处理,其中,所述数据处理中心可以为具有强大处理能力的计算机或设有GPU的云服务器。其中,由基于语义分割的光场渲染系统提供高质量的透视效果。本发明包括:构建含深度分量和语义分量的权重函数,其中,该权重函数向光场内的光线分配权重;以及以所述权重函数进行光场渲染。语义分割技术的进一步公开内容见申请号为PCT/CN2017/111911,名称为“基于语义分割的光场渲染”,申请日期为2017年11月20日的PCT专利申请,该文全部内容通过引用并入本文。所述光场相机系统和渲染系统的脸部检测与识别流程图示于图2。
通过所述光场渲染系统,获得一组具有不同焦平面的清晰图像。从光场数据获得的重新聚焦图像具有如下倾向:当光场内的对象不位于焦平面上时,将会产生重影效应,即该对象的多幅图像存在重叠现象。这些伪影会降低脸部检测算法的有效性,甚至会使得此类算法无效。
传统的脸部检测算法不仅只有在当聚焦于脸部时才能实现脸部的清晰检测,而且在光场系统中,也无法保证脸部永远保持清晰。因此,传统的脸部检测算法无法在光场系统内实现良好工作性能。与传统脸部检测算法相比,根据本公开内容实施方式的脸部检测方法能够从重影图像中提取更多信息,其总体过程见图3。
1.1光场图像的重影脸部检测
我们的重影脸部检测工具使用Haar特征,并以Adaboost算法对重影脸部进行训练。因此,我们的检测工具能够识别传统方法无法识别的重影脸部。我们通过滑动窗口将每一图块馈入我们的重影脸部检测工具中,以判断其是否为重影脸部。此外,该算法还通过优化而能够获得更佳结果。
1.2基于脸部的追踪
各重影脸部依次追踪,并对重影效应的程度进行测量。其中,通过实时追踪算法对每一重影脸部实例进行追踪。
本实时追踪工具使用改进版的ECO追踪算法。其中,假设光场相机系统内有N个图像视角,每一视角表示为Ci,相应图像表示为Ii。当第一次检测到重影脸部时,边界框Bi=(xi,yi,wi,hi),其中,xi,yi为图像左上角的坐标,wi,hi为边界框的宽和高,i为视角编号。
追踪中的首项处理为特征提取。我们可以根据边界框剪取图块。其中,I′i表示视角i的图块。随后,由特征提取工具F对I′i进行特征提取:
xi=F(I′i)
其中,xi为所提取的特征图,具有D个通道。在实际当中,作为特征提取工具,F由多种算法构成,即可视为一种多种算法的组合形式。合适的特征提取算法例如为卷积网络和FHOG算法。在实际使用中,第六层的输出VGG-16(F1)和FHOGF2用于形成特征提取工具。
F(I′i)=F1(I′i)∪F2(I′i)
F1和F2的输出分辨率不同,因此需要通过特征插值处理将特征图调至相同大小。
我们定义用于处理特征图的插值函数
Figure BDA0002529482470000031
Figure BDA0002529482470000032
其中,xd表示第d类特征图,bd为双三次插值滤波器。该式可将空间域的信息转换至频域等其他域。
随后,利用这些特征对待追踪的脸部进行定位。其中,初始帧的边界框已知,所需获取的信息为对象在下一帧中的位置。但是,首先需要利用初始帧中的特征对有助于在下一帧中对相同对象进行定位的相关性滤波器进行训练。
相关性滤波器表示为f=(f1,f2,...,fD)。通过边界框信息和特征提取工具,可获得视角i下的特征图
Figure BDA0002529482470000033
通过相关性滤波器,可计算如下得分图:
Figure BDA0002529482470000034
其中,*表示卷积运算符。频域中存在下式:
Figure BDA0002529482470000035
显然,
Figure BDA0002529482470000036
其中,
Figure BDA0002529482470000037
为傅立叶逆变换。
在该定义方式中,目标对象的位置为得分图中分数最高之处。所述滤波器还用于对不同视角的不同特征图进行滤波处理,从而提高该滤波器针对对象变形的稳健度。
完成脸部定位后,对用于训练相关性滤波器的一组训练样本进行更新。此类样本收集于某一个时间段,如果所述一组训练样本中的某个训练样本的收集时间较久(如5秒钟前的视频),则将该样本清除。随后,将当前特征图添加至所述一组训练样本中。
为了实现相关性滤波器的训练,我们创建了如下目标函数:
Figure BDA0002529482470000038
其中,M为本光场相机系统中不同视角下的训练样本数,aj为每一视角的权重,w为调整系数。我们的目的在于训练出能够在不同视角中找出所述对象的单个滤波器。这一训练策略可找出不同视角下特征图中的不变特性。
由此可见,脸部追踪的流程如下:
Figure BDA0002529482470000041
1.3脸部位置预测
在获得每一视角的脸部位置以后,便可通过光场渲染算法在目标视角中分配脸部位置。因此,在目标视角中,便有了不同视角下的多个脸部追踪轨迹。根据重影效应变化过程的程度,可以预测出所有焦点脸部图案的位置。所有此类轨迹均在同一位置处相交。此外,还进行近似焦平面的计算。根据每一实例的轨迹和运动,我们可以预测出其交点。
在交点预测中,我们使用速度估计法。首先,根据最近的三个轨迹点p1,p2,p3计算当前速度,然后按照下式计算速度:
Figure BDA0002529482470000042
通过以当前速度叠加轨迹,可以预测接下来数帧的轨迹。当预测轨迹存在交点时,即实现我们的目的。
上述交点表示所有聚焦脸部的位置。在获得不同视角下的该位置后,通过将相应各点连成三角形而获得近似焦平面。
1.4新视角的渲染
在对新视角进行渲染时,先根据计算结果设置新的焦平面,然后预测相应时间上预测位置周围的脸部,最后根据预测时间点的新焦平面,进行光的渲染。
2.基于光场的脸部对齐
上述方法使用时的最大难点在于,脸部检测时脸部有时不正对相机,从而使得所检测到的脸部并非正面全脸。为了获得更佳结果,脸部识别算法在识别脸部图像时需要脸部处于较好的姿势。为了获得更佳的识别效果,我们提出一种新的光场相机脸部对齐方法,该方法能够将检测出的脸部调节至正脸。为了实现脸部对齐,我们使用来自光场相机阵列系统的原始图像数据和相应深度数据,并执行图5所示以下步骤:
1.将所有深度数据转换为点云。通过使用校正后的深度相机,并利用校正后深度相机的内参矩阵和外参矩阵,可将每一像素的深度值投影成三维空间坐标的点。
2.将点云投影至所有彩色相机和虚拟相机。首先,对所有相机进行校准并获得其内参矩阵和外参矩阵,然后使用这些相机进行投影。但是,与传统方法的区别在于,我们先利用双线性插值法对所有深度数据进行上采样,然后再进行投影。
3.在当前场景和当前时间运行光场相机脸部检测算法,并获得脸部朝向。通过光场脸部检测算法,获得脸部的位置和朝向。
4.点云着色。对于虚拟渲染相机中每一检测到的脸部,获取其像素的深度。根据相机校准数据,追踪所有彩色相机中的此类三维点,然后从彩色相机索取彩色像素值,并对通过深度测试的像素进行混色。
5.利用脸部检测获得的脸部朝向信息,将三维脸部点云旋转至正面姿势,然后对其进行渲染。如此,可获得三维空间的脸部彩色点云,然后只需根据其朝向进行渲染即可。随后,将渲染相机放置于相应位置。
附图说明
图1至图5为本发明示意图。

Claims (8)

1.一种使用光场相机阵列检测并识别脸部的方法,其特征在于,包括:
使用所述光场相机阵列捕获多视角彩色图像;
获得深度图;
使用包含深度分量和语义分量的权重函数进行光场渲染,其中,所述权重函数向光场内的光线分配权重;以及
检测并识别脸部。
2.如权利要求1所述的方法,其特征在于,还包括:利用多个Haar特征和优化后的Adaboost算法,识别第一重影脸部。
3.如权利要求2所述的方法,其特征在于,还包括:追踪所述第一重影脸部和第二重影脸部;以及测量重影效应程度。
4.如权利要求3所述的方法,其特征在于,还包括:根据所述重影效应程度,对焦平面进行近似处理。
5.如权利要求4所述的方法,其特征在于,还包括:根据所述焦平面,进行光渲染。
6.如权利要求1所述的方法,其特征在于,所述深度图由深度传感器捕获。
7.如权利要求1所述的方法,其特征在于,所述深度图根据所述多视角彩色图像计算。
8.如权利要求1所述的方法,其特征在于,还包括:通过将深度图像转换为点云而将检测到的脸部调整为正脸。
CN201880079398.9A 2017-12-08 2018-12-07 采用光场相机系统的脸部检测和识别方法 Active CN111465937B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2017/115334 2017-12-08
CN2017115334 2017-12-08
PCT/CN2018/119900 WO2019110012A1 (en) 2017-12-08 2018-12-07 Face detection and recognition method using light field camera system

Publications (2)

Publication Number Publication Date
CN111465937A true CN111465937A (zh) 2020-07-28
CN111465937B CN111465937B (zh) 2024-02-02

Family

ID=66750418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880079398.9A Active CN111465937B (zh) 2017-12-08 2018-12-07 采用光场相机系统的脸部检测和识别方法

Country Status (3)

Country Link
US (1) US11410459B2 (zh)
CN (1) CN111465937B (zh)
WO (1) WO2019110012A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11176862B2 (en) 2020-01-21 2021-11-16 Motorola Mobility Llc Managing notifications on a curved display surface
KR20210128274A (ko) 2020-04-16 2021-10-26 삼성전자주식회사 라이브니스 검사 방법 및 장치
CN112837321B (zh) * 2021-02-09 2022-10-11 北京航空航天大学 一种基于光场的场景语义分割系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140043329A1 (en) * 2011-03-21 2014-02-13 Peng Wang Method of augmented makeover with 3d face modeling and landmark alignment
US20140079336A1 (en) * 2012-09-14 2014-03-20 Pelican Imaging Corporation Systems and methods for correcting user identified artifacts in light field images
US20140211077A1 (en) * 2008-12-08 2014-07-31 Lytro, Inc. Light field data acquisition
CN103996023A (zh) * 2014-05-09 2014-08-20 清华大学深圳研究生院 基于深度信念网络的光场人脸识别方法
CN105975926A (zh) * 2016-04-29 2016-09-28 中山大学 基于光场相机的人脸活体检测方法
CN106096474A (zh) * 2015-04-21 2016-11-09 手持产品公司 用于成像的系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855471B (zh) * 2012-08-01 2014-11-26 中国科学院自动化研究所 远距离虹膜智能成像装置及方法
CA2921938C (en) * 2013-08-22 2016-12-20 Bespoke, Inc. Method and system to create custom, user-specific eyewear
US10349490B2 (en) * 2015-01-20 2019-07-09 Balmuda Inc. Illumination device
JP2016219991A (ja) * 2015-05-19 2016-12-22 キヤノン株式会社 画像処理装置及びその制御方法、並びにプログラム
CN105574525B (zh) * 2015-12-18 2019-04-26 天津中科虹星科技有限公司 一种复杂场景多模态生物特征图像获取方法及其装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140211077A1 (en) * 2008-12-08 2014-07-31 Lytro, Inc. Light field data acquisition
US20140043329A1 (en) * 2011-03-21 2014-02-13 Peng Wang Method of augmented makeover with 3d face modeling and landmark alignment
US20140079336A1 (en) * 2012-09-14 2014-03-20 Pelican Imaging Corporation Systems and methods for correcting user identified artifacts in light field images
CN103996023A (zh) * 2014-05-09 2014-08-20 清华大学深圳研究生院 基于深度信念网络的光场人脸识别方法
CN106096474A (zh) * 2015-04-21 2016-11-09 手持产品公司 用于成像的系统和方法
CN105975926A (zh) * 2016-04-29 2016-09-28 中山大学 基于光场相机的人脸活体检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHRISTOF REZK SALAMA ET AL.: "Spherical Light Field Rendering in Application for Analysis by Synthesis" *
TAO YANG ET AL.: "Occluded object imaging via optimal camera selection" *
周广福: "一类新的光场重构方法与目标识别仿真研究" *
张驰 等: "光场成像技术及其在计算机视觉中的应用" *

Also Published As

Publication number Publication date
US11410459B2 (en) 2022-08-09
CN111465937B (zh) 2024-02-02
US20200302155A1 (en) 2020-09-24
WO2019110012A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
CN108111818B (zh) 基于多摄像机协同的运动目标主动感知方法和装置
Kollreider et al. Verifying liveness by multiple experts in face biometrics
JP5688456B2 (ja) 熱画像座標を用いた保安用カメラ追跡監視システム及び方法
KR20160062880A (ko) 카메라 및 레이더를 이용한 교통정보 관리시스템
US11410459B2 (en) Face detection and recognition method using light field camera system
CA2812117A1 (en) A method for enhancing depth maps
CN106033601A (zh) 检测异常情形的方法和装置
US20180173982A1 (en) System and method for 1d root association providing sparsity guarantee in image data
Gálai et al. Feature selection for Lidar-based gait recognition
CN103810475A (zh) 一种目标物识别方法及装置
CN113724335B (zh) 一种基于单目相机的三维目标定位方法及系统
US20230394832A1 (en) Method, system and computer readable media for object detection coverage estimation
Ringaby et al. Scan rectification for structured light range sensors with rolling shutters
CN106791800B (zh) 全景视频的质量诊断方法及装置
KR20160039447A (ko) 스테레오 카메라를 이용한 공간분석시스템
CN104463958A (zh) 基于视差图融合的三维超分辨率方法
Alazawi et al. Adaptive depth map estimation from 3D integral image
Yang et al. Design flow of motion based single camera 3D mapping
CN106713741B (zh) 全景视频的质量诊断方法及装置
Zhuo et al. Stereo matching approach using zooming images
KR20160101762A (ko) 색상 정보를 활용한 자동 정합·파노라믹 영상 생성 장치 및 방법
Arunkumar et al. Estimation of vehicle distance based on feature points using monocular vision
TW202014665A (zh) 位置檢測方法及其電腦程式產品
Diskin et al. UAS exploitation by 3D reconstruction using monocular vision
TWI768231B (zh) 資訊處理裝置、記錄媒體、程式產品以及資訊處理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant