CN111553300B - 一种面向三维点云视频的多时域分辨率唇语行为检测方法 - Google Patents

一种面向三维点云视频的多时域分辨率唇语行为检测方法 Download PDF

Info

Publication number
CN111553300B
CN111553300B CN202010380003.8A CN202010380003A CN111553300B CN 111553300 B CN111553300 B CN 111553300B CN 202010380003 A CN202010380003 A CN 202010380003A CN 111553300 B CN111553300 B CN 111553300B
Authority
CN
China
Prior art keywords
dimensional
lip
motion
frame
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010380003.8A
Other languages
English (en)
Other versions
CN111553300A (zh
Inventor
张洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202010380003.8A priority Critical patent/CN111553300B/zh
Publication of CN111553300A publication Critical patent/CN111553300A/zh
Application granted granted Critical
Publication of CN111553300B publication Critical patent/CN111553300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向三维点云视频的多时域分辨率唇语行为检测方法,采用三维视频传感器面对说话者的面部采集三维点云视频,经过预处理后,从三维视频的各帧中定位并跟踪三维动态唇部关键点;然后定义三维唇部关键点的帧间运动散度,从而提取三维点云序列的帧间唇部动态性信息;最后在由粗到精的多个时域分辨率下自动判断唇语行为的发生时刻和结束时刻,从三维点云视频中将说话者的唇部行为在三维空间域和一维时间域上同时分割出来。本发明相比面向二维图像数据的唇语行为检测技术,不受光照不均、阴影遮挡、说话者头部姿态变化和尺度变化等因素的影响;由于采用三维唇部关键点,不受口腔内部杂乱背景的干扰;具有较好的环境适应性和检测效率。

Description

一种面向三维点云视频的多时域分辨率唇语行为检测方法
技术领域
本发明涉及一种三维唇语行为的自动检测方法,属于计算机视觉领域,特别涉及生物行为模态领域。
背景技术
说话是一种自然的人类行为活动,它的发生过程会产生多种生物行为模态:语音、唇语、人脸运动等。说话行为相关的生物模态涉及了多个应用领域,例如自然语言处理、读唇术、个体身份识别等。唇部是说话行为发生时一个重要的面部运动单元,唇部的非刚性变形具有个体独特性、连续性和可重复性等属性,在上述应用领域具有重要的研究价值。唇部行为属于视觉模态,它作为语音模态的一个重要对应,两者可相互替代或补充。唇语行为的视觉模态分析是面向唇部运动的个体身份识别、唇语内容识别等技术的重要前提。
唇语行为检测的目的是在空间域定位并跟踪唇部区域,在时间域上确定唇部行为发生的开始和结束时刻。唇语行为检测的核心是说话中的唇部的帧间动态性表达。因此,它的挑战性在于如何做到精细的时刻级的行为决策。
现有的唇语行为活动分析方法大多采用二维图像序列为原始数据,可大致分为稠密运动场法和运动特征法。稠密运动场法计算动态唇部在两个时刻的帧间像素级运动场,表征唇部的时刻级运动。但是该类方法有两方面的缺点:a)口腔内部的场景较为杂乱,该区域的像素级运动场不够稳定,容易影响唇部行为分析;b)当说话者的头部整体姿态在说话过程中发生变化时,帧间唇部运动场会混合头部姿态刚性变化和唇部非刚性变形两种动态性,这对单独分析唇语行为具有影响,而二维图像中的头部姿态变化并不易于被补偿和校正。
基于唇部动态特征的唇语行为分析方法较多,这些特征描述了唇部的形状和运动。例如:基于唇部关键点和区域运动轨迹的动态特征可以表达动态唇部的形状和运动,结合模式分类模型可实现对唇语行为的单时刻状态的自动分类;端到端的深度神经网络特征表达可提取局部或全局的动态唇部特征并实现行为检测。现有的语音和视频双模态方法也可实现唇语行为检测,其中语音数据和唇语视觉数据相互补充。总体说来,二维唇语行为检测普遍受到二维图像信息的敏感因素干扰,包括图像光照分布不均、阴影遮挡、唇部姿态变化和尺度变化等。基于三维视频数据的唇语行为检测是一项很有前景的技术,它仍是一个较少被探索的分支,三维唇语行为检测的难点在于:如何抵抗三维数据噪声、口腔背景的干扰、如何表达唇部在四维时空域的时刻级非刚性变形。
发明内容
本发明技术针对现有二维唇语行为检测受上述影响因素干扰的问题,在三维点云视频数据中进行唇语行为的发生和结束时刻的自动检测。通过建立一个三维唇部的运动参考球,统计三维动态唇部关键点基于运动参考球的帧间运动散度,表达说话行为下的三维唇部帧间动态性特征;结合多时域检测分辨率的检测框架,实现面向三维点云视频的多时域分辨率唇语行为检测。本发明提供了一种在时间域和空间域上同时探测三维唇语行为活动的自动化技术,具有环境适应性好、对唇部运动速度的鲁棒性好、检测正确率高、时刻误差小的特点。
为实现上述目的,本发明的技术方案如下:一种面向三维点云视频的多时域分辨率唇语行为检测方法,包括以下步骤:
步骤a、采用三维视频传感器面对说话者面部,采集其说话过程中的三维点云视频;
步骤b、对三维点云视频数据进行两步预处理,即三维视频去噪和全局姿态配准,降低三维点云噪声和时域震荡,减小说话者头部姿态变化对分析唇部行为的影响;
步骤c、设置检测参考帧及参考时刻,建立一个三维唇部运动参考球,以参考帧上三维唇部关键点的中心为球心,半径固定;设置初始时域检测分辨率,以参考时刻为起点,利用三维非刚性配准技术结合一个三维可变形面部模型,提取并跟踪说话者在各时刻下的三维唇部关键点;计算各时刻的三维唇部关键点在参考球上的参考运动向量,以及三维唇部关键点与参考帧的帧间运动向量;
步骤d、以参考时刻为起点,沿着时间轴,顺序计算各时刻下三维唇部与参考帧的帧间运动散度,以表达三维唇部的帧间动态性特征;并判断各时刻下三维唇部的行为状态,将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻,定义参考时刻和候选行为发生时刻之间为候选检测区域;
步骤e、由粗到精地逐步提高时域检测分辨率,在各分辨率下,更新唇语行为检测的参考时刻为候选检测区域的起始时刻,重复步骤d不断地缩小候选检测区域,直到时域检测分辨率为原始视频的时域分辨率,则唇语行为检测完成并输出唇部开始活动或停止活动的时刻值。
进一步的,所述步骤b,具体实现过程如下:
首先,在四维时空域进行多帧融合对三维点云视频进行整体去噪。对于时刻t的三维帧,在时间域上融合该时刻前x和后x帧的局部对应三维点;该过程不降低三维点云视频的原始帧频;
选择三维点云视频的第一帧作为参考帧fr,将后续时刻的三维点云帧ft和参考帧fr进行全局刚性配准;配准过程利用分布于眼部和鼻部的三维关键点进行,获取两时刻的三维点云{ft,fr}之间的旋转和平移矩阵[R3×3,t3×1],将各时刻三维点云ft转换至参考帧坐标系下ft′=ft(R,t),使得各时刻下说话者的头部姿态统一。该过程通过补偿说话者的头部姿态变化,减小说话者头部的姿态变化对唇语行为的特征表达产生的影响。
进一步的,所述步骤c具体包括:
设置唇语行为的初始参考帧fr,在参考帧上建立一个三维唇部的运动参考球S,该参考球的中心OS为参考帧的所有唇部关键点的三维空间位置中心,参考球的半径为固定参数r,球表面积为VS,该运动参考球用于统计三维动态唇部的帧间运动能量。
设置初始时域检测分辨率为原始视频分辨率s0的1/k倍,即s0/k;利用三维非刚性配准技术结合一个三维可变形面部模型,提取并跟踪说话者在各时刻t下的三维唇部关键点
Figure BDA0002481626950000031
定义各唇部关键点到参考球球心的三维向量为参考运动向量
Figure BDA0002481626950000032
沿着时间轴顺序计算各时刻t三维唇部的参考运动向量
Figure BDA0002481626950000033
Figure BDA0002481626950000034
为三维空间;同时,沿着时间轴顺序计算各时刻t的三维帧与参考帧之间的唇部关键点的三维运动向量
Figure BDA0002481626950000035
其中
Figure BDA0002481626950000036
进一步的,所述步骤d,计算所有离散的三维唇部关键点的帧间运动散度,表征说话者的唇部在帧间的三维动态性特征;根据唇部运动散度的幅值、符号和对称性共同判断唇部运动状态。
进一步的,所述步骤d具体包括:
根据各时刻t下唇部关键点的运动向量
Figure BDA0002481626950000037
和参考运动向量
Figure BDA0002481626950000038
沿时间轴顺序计算唇部在时刻t与参考时刻的帧间运动散度Divt,参见公式(1)和(2):
Figure BDA0002481626950000039
VS=∑ΔS (2)
其中Π(·)为向量归一化函数,ΔS为参考球的单位表面积,它们之和为参考球的总表面积VS。该帧间运动散度表达了所有唇部关键点的运动向量在其参考运动方向上的运动能量之和,是一种三维唇部的帧间动态性特征;
通过帧间运动散度的幅值判断三维唇部在该时刻t处于发生运动还是静止状态;通过参考运动向量和关键点运动向量之间的夹角,判断唇部运动的张开和闭合运动状态,即两者大于90°,为闭合状态,反之张开;另外,唇部在说话过程中的运动还需满足左右唇部的对称性约束。综上,唇语行为状态LipEvent的判断如公式(3)所示:
Figure BDA0002481626950000041
Figure BDA0002481626950000042
其中sgn(·)为符号函数,opening表示唇部张开状态,closing表示唇部闭合状态,
Figure BDA0002481626950000043
表示左半唇部的运动散度,
Figure BDA0002481626950000044
表示右半唇部运动散度,εsym表示左右唇部的运动对称性阈值。将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻,定义参考时刻和候选行为发生时刻之间为候选检测区域。
进一步的,所述步骤e,采用由粗到精的多时域检测分辨率框架,逐步将唇语行为发生或结束时刻的候选区域精细化至某一时刻。
进一步的,所述步骤e,具体实现过程如下:
设置初始时域检测分辨率为三维视频原始分辨率s0的1/k倍,以参考时刻为起点,执行步骤c提取并跟踪唇部关键点和步骤d计算帧间运动散度,根据唇部的帧间运动散度确定唇语行为发生时刻的候选区域;更新参考时刻为候选区域的初始帧,提高时域检测分辨率s0/k,即减小k值,重复步骤c和步骤d,直至将唇语行为的发生时刻精细到单帧级别。
进一步的,步骤a之前还包括:
首先搭建三维点云视频数据的视觉采集系统,包括双目立体视频传感器、辅助光源、计算机;调节双目视频传感器的镜头位置使其正对说话者的面部,采集说话行为发生过程中的动态人脸的双目图像序列,利用三维点云重建软件实现面部视频数据的三维重建,作为唇语行为检测的输入。
有益效果:
本发明与现有技术相比的优点在于,本发明提供的三维唇语行为检测方法避免了二维图像数据易受光照和阴影等因素的影响,能够应对说话者的头部姿态变化和尺度变化,具有更好的应用环境适应性;利用三维离散唇部关键点进行帧间运动散度的度量避免了口腔内部杂乱场景的干扰,稳定有效地表达了三维唇部的帧间运动能量;多时域分辨率检测框架可以应对不同说话速度的唇语行为,对于慢速说话,由于微小帧间运动导致帧间运动能量过小或不稳定,易产生漏检、错检或帧误差大的问题,这些问题可通过多时域检测分辨率的策略予以一定程度上的克服。本发明相比面向二维图像数据的唇语行为检测技术,不受光照不均、阴影遮挡、说话者头部姿态变化和尺度变化等因素的影响;由于采用三维唇部关键点,不受口腔内部杂乱背景的干扰;具有较好的环境适应性和检测效率,检测正确率达94.9%,时刻精度为18ms。
附图说明
图1为本发明的总体实现流程图;
图2为数据采集系统获取的说话者面部的三维点云视频中的四个示例帧;
图3为说话者面部的三维关键点分布图;
图4为三维唇部的运动参考球示意图;
图5(a)为唇部闭合状态的三维关键点运动向量和运动散度;
图5(b)为唇部张开状态的三维关键点运动向量和运动散度;
图6为多时域分辨率检测框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
a、采用三维视频传感器正对说话者的面部,在说话行为发生的过程中,采集一段面部的三维点云视频,视频中说话者的唇部在说话时持续产生非刚性变形。
b、对三维点云视频数据进行两步预处理,即三维视频去噪和全局姿态配准。
(1)由于三维视频传感器技术和数据采集环境的影响,原始三维点云视频通常包含一些空间域噪声和频域震荡。为了提高三维点云视频的整体质量,首先采用在四维时空域进行多帧融合对三维点云视频进行整体去噪。以时刻t的三维帧为例,在时间域上融合该时刻前x和后x帧的局部对应三维点。该过程不降低三维点云序列的原始帧频。
(2)另一方面,由于说话行为发生过程中,说话者的头部姿态可能会发生轻微的变化。为了克服头部姿态运动对分析唇部变形运动产生的交叉影响,对头部姿态变化进行补偿。选择视频序列的第一帧作为参考帧fr,将后续时刻的三维点云帧ft和参考帧fr进行全局刚性配准。配准过程利用分布于眼部和鼻部的三维关键点进行,获取两时刻的三维点云{ft,fr}之间的转换和平移矩阵[R3×3,t3×1],将各时刻三维点云ft转换至参考帧坐标系下ft′=ft(R,t),使得各时刻下说话者的头部姿态统一。
c、设置唇语行为的初始参考帧fr,建立一个三维唇部的运动参考球S,该参考球的中心OS为参考帧的所有唇部关键点的三维空间位置中心,参考球的半径为固定参数r,球表面积为VS,设置初始时域分辨率为原始视频分辨率s0的1/k倍,即s0/k;
然后利用三维非刚性配准技术结合一个三维可变形面部模型,提取并跟踪说话者在各时刻t下的三维唇部关键点
Figure BDA0002481626950000061
定义各唇部关键点到参考球球心的三维向量为参考运动向量
Figure BDA0002481626950000062
沿着时间轴顺序计算各时刻t三维唇部的参考运动向量
Figure BDA0002481626950000063
Figure BDA0002481626950000064
为三维空间;同时,沿着时间轴顺序计算各时刻t的三维帧与参考帧之间的唇部关键点的三维运动向量
Figure BDA0002481626950000065
其中
Figure BDA0002481626950000066
d、根据各时刻t下唇部关键点的运动向量
Figure BDA0002481626950000067
和参考运动向量
Figure BDA0002481626950000068
沿时间轴顺序计算唇部在时刻t与参考时刻的帧间运动散度Divt,参见公式(1)和(2):
Figure BDA0002481626950000069
VS=∑ΔS (2)
其中Π(·)为向量归一化函数,ΔS为参考球的单位表面积,它们之和为参考球的总表面积VS。该帧间运动散度表达了所有唇部关键点的运动向量在其参考运动方向上的运动能量之和,是一种三维唇部的帧间动态性特征;
通过帧间运动散度的幅值判断三维唇部在该时刻t处于发生运动还是静止状态;通过参考运动向量和关键点运动向量之间的夹角,判断唇部运动的张开和闭合运动状态,即两者大于90°,为闭合状态,反之张开;另外,唇部在说话过程中的运动还需满足左右唇部的对称性约束。综上,唇语行为状态LipEvent的判断如公式(3)所示:
Figure BDA00024816269500000610
Figure BDA00024816269500000611
其中sgn(·)为符号函数,opening表示唇部张开状态,closing表示唇部闭合状态,
Figure BDA00024816269500000612
表示左半唇部的运动散度,
Figure BDA00024816269500000613
表示右半唇部运动散度,εsym表示左右唇部的运动对称性阈值。将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻,定义参考时刻和候选行为发生时刻之间为候选检测区域。
e、由粗到精地逐步提高时域分辨率,设置初始时域检测分辨率为三维视频原始分辨率s0的1/k倍,以参考时刻为起点,执行步骤c提取并跟踪唇部关键点和步骤d计算帧间运动散度,根据唇部的帧间运动散度确定唇语行为发生时刻的候选区域;更新参考时刻为候选区域的初始帧,提高时域检测分辨率s0/k,即减小k值,重复步骤c和步骤d,直至将唇语行为的发生时刻精细到单帧级别,则唇语行为检测完成并输出唇部开始活动或停止活动的时刻。
根据本发明的另一个具体实施例,如图1所述,为本发明三维唇语行为的多时域分辨率自动检测方法的总体实现流程图,具体包括以下步骤:
步骤11:采用三维视频传感器正对说话者面部采集三维点云视频数据,如图2显示了一段三维点云视频中四个时刻的三维点云模型渲染图,作为示例。
步骤12:对获取的原始三维点云视频数据进行两步预处理,即三维视频去噪和全局姿态配准。以时刻t的三维帧为例,在时间域上融合该时刻前x帧和后x帧的局部对应三维点。该过程不降低三维点云序列的原始帧频。融合后的三维点云比原始同时刻的三维点云模型具有更好的表面平滑度和时域稳定性。然后通过全局姿态配准对头部姿态变化进行补偿。选择处于视频序列的第一帧作为参考帧fr,将后续时刻的三维点云帧ft和参考帧fr进行全局刚性配准。配准过程利用分布于眼部和鼻部的三维关键点进行,这些三维关键点的分布如图3所示。获取两时刻的三维点云之间的转换和平移矩阵[R3×3,t3×1],再将时刻t的三维点云转换至参考帧坐标系下,实现头部姿态的统一。
步骤13:设置唇语活动的初始参考帧fr和初始时域分辨率为1/k倍的原始分辨率s0,即s0/k。在参考帧上建立一个唇部的运动参考球,如图4所示。该参考球的中心OS为参考帧的所有唇部关键点的三维空间位置中心,参考球的半径为固定参数r,球表面积为VS。对于某时刻t下的三维唇部点云,定义各唇部关键点
Figure BDA0002481626950000071
到参考球球心的三维向量为参考运动向量
Figure BDA0002481626950000072
如图4中虚线向量所示。三维唇部内外轮廓上共分布有多个三维唇部关键点,每个关键点都对应一个参考运动方向,它们跟随唇部位置的不同而不同。
对预处理后的三维点云视频,利用三维非刚性配准法结合三维面部可变形模型提取并跟踪说话者面部在各时刻t下的多个三维关键点
Figure BDA0002481626950000073
R3表示三维空间,如图3所示,其中关键点1和2之间的空间距离为唇部宽度,关键点3和4之间的空间距离为唇部高度。沿着时间轴,顺序计算各时刻的三维帧与参考帧之间的唇部关键点的三维空间运动向量
Figure BDA0002481626950000074
三维唇部关键点的空间运动向量分布如图5所示,其中图5(a)为唇部在闭合过程中各三维关键点的运动方向,实线箭头方向所示;图5(b)为唇部在张开过程中各三维关键点的运动方向,实线箭头方向所示;虚线箭头方向均表示各关键点的参考运动向量。
步骤14:根据三维唇部关键点的帧间运动向量
Figure BDA0002481626950000075
和参考运动向量
Figure BDA0002481626950000076
计算各三维唇部关键点的帧间运动散度,如图5中关键点边上标识的数字。计算当前时刻t唇部所有关键点的运动散度之和。通过运动散度的符号,判断唇部运动的张开和闭合运动状态,确定在该时域检测分辨率下的唇语行为发生时刻的候选区域。
步骤15:更新唇语行为检测的参考帧为上一轮所得候选区的第一帧,由粗到精地逐步提高时域检测分辨率,即缩小s0/k中的k值,重复步骤14,逐步缩小候选区域,直到时域分辨率为原始视频数据的分辨率,则检测完成,输出三维唇部开始活动或停止活动的时刻值。该多时域分辨率检测框架示意图如图6所示。
本发明提供了一种三维唇语行为在多时域分辨率下的自动检测方法,它主要包含5个步骤,即说话者面部的三维点云视频的采集、三维唇语视频的两步预处理、三维唇部运动参考球的建立、帧间运动散度的统计、以及多时域分辨率的唇语行为检测。本发明方法在三维唇语行为数据库(S3DFM 2019)中的50位不同说话者的唇语数据上进行了测试,正确检测率达94.9%,而固定时域检测分辨率下的正确率为92.9%;同时,该方法可以达到9帧(即18ms)的时刻检测精度(三维唇语视频的帧频为500fps)。因此,本发明具有理论可行性和实践效性。本发明采用三维视频数据的出发点避免了对光照、阴影、说话者头部姿态变化和尺度变化因素的影响,使得唇语行为检测方法的环境适应性更强。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种面向三维点云视频的多时域分辨率唇语行为检测方法,其特征在于,包括以下步骤:
步骤a、采用三维视频传感器面对说话者面部,采集其说话过程中的三维点云视频;
步骤b、对三维点云视频数据进行两步预处理,即三维视频去噪和全局姿态配准;
步骤c、设置检测参考帧及参考时刻,建立一个三维唇部运动参考球,以参考帧上三维唇部关键点的中心为球心,半径固定;设置初始时域检测分辨率,以参考时刻为起点,利用三维非刚性配准结合一个三维可变形面部模型,提取并跟踪说话者在各时刻下的三维唇部关键点;计算各时刻的三维唇部关键点在参考球上的参考运动向量,以及三维唇部关键点与参考帧的帧间运动向量;
步骤d、以参考时刻为起点,沿着时间轴,顺序计算各时刻下三维唇部与参考帧的帧间运动散度,以表达三维唇部的帧间动态性特征;并判断各时刻下三维唇部的行为状态,将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻,定义参考时刻和候选行为发生时刻之间为候选检测区域;所述步骤d具体包括:
根据各时刻t下唇部关键点的运动向量
Figure FDA0003455018110000011
和参考运动向量
Figure FDA0003455018110000012
沿时间轴顺序计算唇部在时刻t与参考时刻的帧间运动散度Divt,参见公式(1)和(2):
Figure FDA0003455018110000013
VS=∑△S (2)
其中Π(·)为向量归一化函数,ΔS为参考球的单位表面积,它们之和为参考球的总表面积VS,该帧间运动散度表达了所有唇部关键点的运动向量在其参考运动方向上的运动能量之和,是一种三维唇部的帧间动态性特征;
通过帧间运动散度的幅值判断三维唇部在该时刻t处于发生运动还是静止状态;通过参考运动向量和关键点运动向量之间的夹角,判断唇部运动的张开和闭合运动状态,即两者大于90°,为闭合状态,反之张开;唇部在说话过程中的运动还需满足左右唇部的对称性约束,唇语行为状态LipEvent的判断如公式(3)所示:
Figure FDA0003455018110000014
其中sgn(·)为符号函数,opening表示唇部张开状态,closing表示唇部闭合状态,
Figure FDA0003455018110000021
表示左半唇部的运动散度,
Figure FDA0003455018110000022
表示右半唇部运动散度,εsym表示左右唇部的运动对称性阈值,将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻,定义参考时刻和候选行为发生时刻之间为候选检测区域;
步骤e、由粗到精地逐步提高时域检测分辨率,在各分辨率下,更新唇语行为检测的参考时刻为候选检测区域的起始时刻,重复步骤d不断地缩小候选检测区域,直到时域检测分辨率为原始视频的时域分辨率,则唇语行为检测完成并输出唇部开始活动或停止活动的时刻值;所述步骤e具体包括:
设置初始时域检测分辨率为三维视频原始分辨率s0的1/k倍,以参考时刻为起点,执行步骤c提取并跟踪唇部关键点和步骤d计算帧间运动散度,根据唇部的帧间运动散度确定唇语行为发生时刻的候选检测区域;更新参考时刻为候选检测区域的初始帧,提高时域检测分辨率s0/k,即减小k值,重复步骤c和步骤d,直至将唇语行为的发生时刻精细到单帧级别。
2.根据权利要求1所述的一种面向三维点云视频的多时域分辨率唇语行为检测方法,其特征在于:所述步骤b,具体实现过程如下:
首先,在四维时空域进行多帧融合对三维点云视频进行整体去噪,对于时刻t的三维帧,在时间域上融合该时刻前x和后x帧的局部对应三维点;该过程不降低三维点云视频的原始帧频;
选择三维点云视频的第一帧作为参考帧fr,将后续时刻的三维点云帧ft和参考帧fr进行全局刚性配准;配准过程利用分布于眼部和鼻部的三维关键点进行,获取两时刻的三维点云{ft,fr}之间的旋转和平移矩阵[R3×3,t3×1],将各时刻三维点云ft转换至参考帧坐标系下ft′=ft(R,t)。
3.根据权利要求1所述的一种面向三维点云视频的多时域分辨率唇语行为检测方法,其特征在于:所述步骤c具体包括:
设置唇语行为的初始参考帧fr,在参考帧上建立一个三维唇部的运动参考球S,该参考球的中心OS为参考帧的所有唇部关键点的三维空间位置中心,参考球的半径为固定参数r,球表面积为VS,该运动参考球用于统计三维动态唇部的帧间运动能量;
设置初始时域检测分辨率为原始视频分辨率s0的1/k倍,即s0/k;利用三维非刚性配准结合一个三维可变形面部模型,提取并跟踪说话者在各时刻t下的三维唇部关键点
Figure FDA0003455018110000023
为三维空间;定义各唇部关键点到参考球球心的三维向量为参考运动向量
Figure FDA0003455018110000024
沿着时间轴顺序计算各时刻t三维唇部的参考运动向量
Figure FDA0003455018110000025
同时,沿着时间轴顺序计算各时刻t的三维帧与参考帧之间的唇部关键点的三维运动向量
Figure FDA0003455018110000031
其中
Figure FDA0003455018110000032
4.根据权利要求1所述的一种面向三维点云视频的多时域分辨率唇语行为检测方法,其特征在于:步骤a之前还包括:
首先搭建三维点云视频数据的视觉采集系统,包括双目立体视频传感器、辅助光源、计算机;调节双目视频传感器的镜头位置使其正对说话者的面部,采集说话行为发生过程中的动态人脸的双目图像序列,利用三维点云重建软件实现面部视频数据的三维重建,作为唇语行为检测的输入。
CN202010380003.8A 2020-05-08 2020-05-08 一种面向三维点云视频的多时域分辨率唇语行为检测方法 Active CN111553300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010380003.8A CN111553300B (zh) 2020-05-08 2020-05-08 一种面向三维点云视频的多时域分辨率唇语行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010380003.8A CN111553300B (zh) 2020-05-08 2020-05-08 一种面向三维点云视频的多时域分辨率唇语行为检测方法

Publications (2)

Publication Number Publication Date
CN111553300A CN111553300A (zh) 2020-08-18
CN111553300B true CN111553300B (zh) 2022-03-11

Family

ID=72004457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010380003.8A Active CN111553300B (zh) 2020-05-08 2020-05-08 一种面向三维点云视频的多时域分辨率唇语行为检测方法

Country Status (1)

Country Link
CN (1) CN111553300B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633208A (zh) * 2020-12-30 2021-04-09 海信视像科技股份有限公司 一种唇语识别方法、服务设备及存储介质
CN117522824B (zh) * 2023-11-16 2024-05-14 安徽大学 一种基于域知识库的多源域泛化的云和云阴影检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
CN107679449A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN107992813A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇部状态检测方法及装置
CN108986037A (zh) * 2018-05-25 2018-12-11 重庆大学 基于半直接法的单目视觉里程计定位方法及定位系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
CN107679449A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN107992813A (zh) * 2017-11-27 2018-05-04 北京搜狗科技发展有限公司 一种唇部状态检测方法及装置
CN108986037A (zh) * 2018-05-25 2018-12-11 重庆大学 基于半直接法的单目视觉里程计定位方法及定位系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
3D Visual passcode:Speech-driven 3D facial dynamics for behaviometrics;Jie Zhang;《Signal Processing》;20190221;全文 *
Jie Zhang ; Robert B.Fisher.Dual-modality Talking-metrics:3D Visual-Audio Integrated Behaviometric Cues from Speakers.《2018 24th International Conference on Pattern Recognition (ICPR)》.2018,3144-3149. *
一种基于long short-term memory的唇语识别方法;马宁等;《中国科学院大学学报》;20180115(第01期);全文 *

Also Published As

Publication number Publication date
CN111553300A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN109472198B (zh) 一种姿态鲁棒的视频笑脸识别方法
US10127437B2 (en) Unified face representation for individual recognition in surveillance videos and vehicle logo super-resolution system
US8849017B2 (en) Image processing apparatus, image processing method, program, and recording medium for learning from moving images
US9330483B2 (en) Avatar facial expression techniques
CN110688965B (zh) 基于双目视觉的ipt模拟训练手势识别方法
JP2000511316A (ja) 制御点の自動位置決めのための画像/制御点位置結合の基本成分解析
KR101563297B1 (ko) 영상에서 행동을 인식하는 방법 및 장치
CN111553300B (zh) 一种面向三维点云视频的多时域分辨率唇语行为检测方法
CN113963445A (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN107563323A (zh) 一种视频人脸特征点定位方法
CN105929962A (zh) 一种360°全息实时交互方法
Yu Emotion monitoring for preschool children based on face recognition and emotion recognition algorithms
US20240135956A1 (en) Method and apparatus for measuring speech-image synchronicity, and method and apparatus for training model
Joslin et al. Dynamic gesture recognition
Yang et al. Multi-classes and motion properties for concurrent visual slam in dynamic environments
Feng Mask RCNN-based single shot multibox detector for gesture recognition in physical education
JP2001034756A (ja) 被写体認識装置および記録媒体
Hou et al. Robust shape-based head tracking
CN109784215A (zh) 一种基于改进的光流法的活体检测方法及系统
Wang et al. An attention self-supervised contrastive learning based three-stage model for hand shape feature representation in cued speech
CN116681579A (zh) 一种实时视频人脸替换方法、介质及系统
Zimmer et al. Imposing temporal consistency on deep monocular body shape and pose estimation
Lefevre et al. Structure and appearance features for robust 3d facial actions tracking
Terissi et al. 3D Head Pose and Facial Expression Tracking using a Single Camera.
Chen et al. Curvature: A signature for action recognition in video sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant