CN111553300B

CN111553300B - 一种面向三维点云视频的多时域分辨率唇语行为检测方法

Info

Publication number: CN111553300B
Application number: CN202010380003.8A
Authority: CN
Inventors: 张洁
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2022-03-11
Anticipated expiration: 2040-05-08
Also published as: CN111553300A

Abstract

本发明公开了一种面向三维点云视频的多时域分辨率唇语行为检测方法，采用三维视频传感器面对说话者的面部采集三维点云视频，经过预处理后，从三维视频的各帧中定位并跟踪三维动态唇部关键点；然后定义三维唇部关键点的帧间运动散度，从而提取三维点云序列的帧间唇部动态性信息；最后在由粗到精的多个时域分辨率下自动判断唇语行为的发生时刻和结束时刻，从三维点云视频中将说话者的唇部行为在三维空间域和一维时间域上同时分割出来。本发明相比面向二维图像数据的唇语行为检测技术，不受光照不均、阴影遮挡、说话者头部姿态变化和尺度变化等因素的影响；由于采用三维唇部关键点，不受口腔内部杂乱背景的干扰；具有较好的环境适应性和检测效率。

Description

一种面向三维点云视频的多时域分辨率唇语行为检测方法

技术领域

本发明涉及一种三维唇语行为的自动检测方法，属于计算机视觉领域，特别涉及生物行为模态领域。

背景技术

说话是一种自然的人类行为活动，它的发生过程会产生多种生物行为模态：语音、唇语、人脸运动等。说话行为相关的生物模态涉及了多个应用领域，例如自然语言处理、读唇术、个体身份识别等。唇部是说话行为发生时一个重要的面部运动单元，唇部的非刚性变形具有个体独特性、连续性和可重复性等属性，在上述应用领域具有重要的研究价值。唇部行为属于视觉模态，它作为语音模态的一个重要对应，两者可相互替代或补充。唇语行为的视觉模态分析是面向唇部运动的个体身份识别、唇语内容识别等技术的重要前提。

唇语行为检测的目的是在空间域定位并跟踪唇部区域，在时间域上确定唇部行为发生的开始和结束时刻。唇语行为检测的核心是说话中的唇部的帧间动态性表达。因此，它的挑战性在于如何做到精细的时刻级的行为决策。

现有的唇语行为活动分析方法大多采用二维图像序列为原始数据，可大致分为稠密运动场法和运动特征法。稠密运动场法计算动态唇部在两个时刻的帧间像素级运动场，表征唇部的时刻级运动。但是该类方法有两方面的缺点：a)口腔内部的场景较为杂乱，该区域的像素级运动场不够稳定，容易影响唇部行为分析；b)当说话者的头部整体姿态在说话过程中发生变化时，帧间唇部运动场会混合头部姿态刚性变化和唇部非刚性变形两种动态性，这对单独分析唇语行为具有影响，而二维图像中的头部姿态变化并不易于被补偿和校正。

基于唇部动态特征的唇语行为分析方法较多，这些特征描述了唇部的形状和运动。例如：基于唇部关键点和区域运动轨迹的动态特征可以表达动态唇部的形状和运动，结合模式分类模型可实现对唇语行为的单时刻状态的自动分类；端到端的深度神经网络特征表达可提取局部或全局的动态唇部特征并实现行为检测。现有的语音和视频双模态方法也可实现唇语行为检测，其中语音数据和唇语视觉数据相互补充。总体说来，二维唇语行为检测普遍受到二维图像信息的敏感因素干扰，包括图像光照分布不均、阴影遮挡、唇部姿态变化和尺度变化等。基于三维视频数据的唇语行为检测是一项很有前景的技术，它仍是一个较少被探索的分支，三维唇语行为检测的难点在于：如何抵抗三维数据噪声、口腔背景的干扰、如何表达唇部在四维时空域的时刻级非刚性变形。

发明内容

本发明技术针对现有二维唇语行为检测受上述影响因素干扰的问题，在三维点云视频数据中进行唇语行为的发生和结束时刻的自动检测。通过建立一个三维唇部的运动参考球，统计三维动态唇部关键点基于运动参考球的帧间运动散度，表达说话行为下的三维唇部帧间动态性特征；结合多时域检测分辨率的检测框架，实现面向三维点云视频的多时域分辨率唇语行为检测。本发明提供了一种在时间域和空间域上同时探测三维唇语行为活动的自动化技术，具有环境适应性好、对唇部运动速度的鲁棒性好、检测正确率高、时刻误差小的特点。

为实现上述目的，本发明的技术方案如下：一种面向三维点云视频的多时域分辨率唇语行为检测方法，包括以下步骤：

步骤a、采用三维视频传感器面对说话者面部，采集其说话过程中的三维点云视频；

步骤b、对三维点云视频数据进行两步预处理，即三维视频去噪和全局姿态配准，降低三维点云噪声和时域震荡，减小说话者头部姿态变化对分析唇部行为的影响；

步骤c、设置检测参考帧及参考时刻，建立一个三维唇部运动参考球，以参考帧上三维唇部关键点的中心为球心，半径固定；设置初始时域检测分辨率，以参考时刻为起点，利用三维非刚性配准技术结合一个三维可变形面部模型，提取并跟踪说话者在各时刻下的三维唇部关键点；计算各时刻的三维唇部关键点在参考球上的参考运动向量，以及三维唇部关键点与参考帧的帧间运动向量；

步骤d、以参考时刻为起点，沿着时间轴，顺序计算各时刻下三维唇部与参考帧的帧间运动散度，以表达三维唇部的帧间动态性特征；并判断各时刻下三维唇部的行为状态，将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻，定义参考时刻和候选行为发生时刻之间为候选检测区域；

步骤e、由粗到精地逐步提高时域检测分辨率，在各分辨率下，更新唇语行为检测的参考时刻为候选检测区域的起始时刻，重复步骤d不断地缩小候选检测区域，直到时域检测分辨率为原始视频的时域分辨率，则唇语行为检测完成并输出唇部开始活动或停止活动的时刻值。

进一步的，所述步骤b，具体实现过程如下：

首先，在四维时空域进行多帧融合对三维点云视频进行整体去噪。对于时刻t的三维帧，在时间域上融合该时刻前x和后x帧的局部对应三维点；该过程不降低三维点云视频的原始帧频；

选择三维点云视频的第一帧作为参考帧f_r，将后续时刻的三维点云帧f_t和参考帧f_r进行全局刚性配准；配准过程利用分布于眼部和鼻部的三维关键点进行，获取两时刻的三维点云{f_t,f_r}之间的旋转和平移矩阵[R_3×3,t_3×1]，将各时刻三维点云f_t转换至参考帧坐标系下f_t′＝f_t(R,t)，使得各时刻下说话者的头部姿态统一。该过程通过补偿说话者的头部姿态变化，减小说话者头部的姿态变化对唇语行为的特征表达产生的影响。

进一步的，所述步骤c具体包括：

设置唇语行为的初始参考帧f_r，在参考帧上建立一个三维唇部的运动参考球S，该参考球的中心O_S为参考帧的所有唇部关键点的三维空间位置中心，参考球的半径为固定参数r，球表面积为V_S，该运动参考球用于统计三维动态唇部的帧间运动能量。

设置初始时域检测分辨率为原始视频分辨率s₀的1/k倍，即s₀/k；利用三维非刚性配准技术结合一个三维可变形面部模型，提取并跟踪说话者在各时刻t下的三维唇部关键点

定义各唇部关键点到参考球球心的三维向量为参考运动向量

沿着时间轴顺序计算各时刻t三维唇部的参考运动向量

为三维空间；同时，沿着时间轴顺序计算各时刻t的三维帧与参考帧之间的唇部关键点的三维运动向量

其中

进一步的，所述步骤d，计算所有离散的三维唇部关键点的帧间运动散度，表征说话者的唇部在帧间的三维动态性特征；根据唇部运动散度的幅值、符号和对称性共同判断唇部运动状态。

进一步的，所述步骤d具体包括：

根据各时刻t下唇部关键点的运动向量

和参考运动向量

沿时间轴顺序计算唇部在时刻t与参考时刻的帧间运动散度Div^t，参见公式(1)和(2)：

V_S＝∑ΔS (2)

其中Π(·)为向量归一化函数，ΔS为参考球的单位表面积，它们之和为参考球的总表面积V_S。该帧间运动散度表达了所有唇部关键点的运动向量在其参考运动方向上的运动能量之和，是一种三维唇部的帧间动态性特征；

通过帧间运动散度的幅值判断三维唇部在该时刻t处于发生运动还是静止状态；通过参考运动向量和关键点运动向量之间的夹角，判断唇部运动的张开和闭合运动状态，即两者大于90°，为闭合状态，反之张开；另外，唇部在说话过程中的运动还需满足左右唇部的对称性约束。综上，唇语行为状态LipEvent的判断如公式(3)所示：

其中sgn(·)为符号函数，opening表示唇部张开状态，closing表示唇部闭合状态，

表示左半唇部的运动散度，

表示右半唇部运动散度，ε_sym表示左右唇部的运动对称性阈值。将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻，定义参考时刻和候选行为发生时刻之间为候选检测区域。

进一步的，所述步骤e，采用由粗到精的多时域检测分辨率框架，逐步将唇语行为发生或结束时刻的候选区域精细化至某一时刻。

进一步的，所述步骤e，具体实现过程如下：

设置初始时域检测分辨率为三维视频原始分辨率s₀的1/k倍，以参考时刻为起点，执行步骤c提取并跟踪唇部关键点和步骤d计算帧间运动散度，根据唇部的帧间运动散度确定唇语行为发生时刻的候选区域；更新参考时刻为候选区域的初始帧，提高时域检测分辨率s₀/k，即减小k值，重复步骤c和步骤d，直至将唇语行为的发生时刻精细到单帧级别。

进一步的，步骤a之前还包括：

首先搭建三维点云视频数据的视觉采集系统，包括双目立体视频传感器、辅助光源、计算机；调节双目视频传感器的镜头位置使其正对说话者的面部，采集说话行为发生过程中的动态人脸的双目图像序列，利用三维点云重建软件实现面部视频数据的三维重建，作为唇语行为检测的输入。

有益效果：

本发明与现有技术相比的优点在于，本发明提供的三维唇语行为检测方法避免了二维图像数据易受光照和阴影等因素的影响，能够应对说话者的头部姿态变化和尺度变化，具有更好的应用环境适应性；利用三维离散唇部关键点进行帧间运动散度的度量避免了口腔内部杂乱场景的干扰，稳定有效地表达了三维唇部的帧间运动能量；多时域分辨率检测框架可以应对不同说话速度的唇语行为，对于慢速说话，由于微小帧间运动导致帧间运动能量过小或不稳定，易产生漏检、错检或帧误差大的问题，这些问题可通过多时域检测分辨率的策略予以一定程度上的克服。本发明相比面向二维图像数据的唇语行为检测技术，不受光照不均、阴影遮挡、说话者头部姿态变化和尺度变化等因素的影响；由于采用三维唇部关键点，不受口腔内部杂乱背景的干扰；具有较好的环境适应性和检测效率，检测正确率达94.9％，时刻精度为18ms。

附图说明

图1为本发明的总体实现流程图；

图2为数据采集系统获取的说话者面部的三维点云视频中的四个示例帧；

图3为说话者面部的三维关键点分布图；

图4为三维唇部的运动参考球示意图；

图5(a)为唇部闭合状态的三维关键点运动向量和运动散度；

图5(b)为唇部张开状态的三维关键点运动向量和运动散度；

图6为多时域分辨率检测框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

a、采用三维视频传感器正对说话者的面部，在说话行为发生的过程中，采集一段面部的三维点云视频，视频中说话者的唇部在说话时持续产生非刚性变形。

b、对三维点云视频数据进行两步预处理，即三维视频去噪和全局姿态配准。

(1)由于三维视频传感器技术和数据采集环境的影响，原始三维点云视频通常包含一些空间域噪声和频域震荡。为了提高三维点云视频的整体质量，首先采用在四维时空域进行多帧融合对三维点云视频进行整体去噪。以时刻t的三维帧为例，在时间域上融合该时刻前x和后x帧的局部对应三维点。该过程不降低三维点云序列的原始帧频。

(2)另一方面，由于说话行为发生过程中，说话者的头部姿态可能会发生轻微的变化。为了克服头部姿态运动对分析唇部变形运动产生的交叉影响，对头部姿态变化进行补偿。选择视频序列的第一帧作为参考帧f_r，将后续时刻的三维点云帧f_t和参考帧f_r进行全局刚性配准。配准过程利用分布于眼部和鼻部的三维关键点进行，获取两时刻的三维点云{f_t,f_r}之间的转换和平移矩阵[R_3×3,t_3×1]，将各时刻三维点云f_t转换至参考帧坐标系下f_t′＝f_t(R,t)，使得各时刻下说话者的头部姿态统一。

c、设置唇语行为的初始参考帧f_r，建立一个三维唇部的运动参考球S，该参考球的中心O_S为参考帧的所有唇部关键点的三维空间位置中心，参考球的半径为固定参数r，球表面积为V_S，设置初始时域分辨率为原始视频分辨率s₀的1/k倍，即s₀/k；

然后利用三维非刚性配准技术结合一个三维可变形面部模型，提取并跟踪说话者在各时刻t下的三维唇部关键点

定义各唇部关键点到参考球球心的三维向量为参考运动向量

沿着时间轴顺序计算各时刻t三维唇部的参考运动向量

其中

d、根据各时刻t下唇部关键点的运动向量

和参考运动向量

V_S＝∑ΔS (2)

表示左半唇部的运动散度，

e、由粗到精地逐步提高时域分辨率，设置初始时域检测分辨率为三维视频原始分辨率s₀的1/k倍，以参考时刻为起点，执行步骤c提取并跟踪唇部关键点和步骤d计算帧间运动散度，根据唇部的帧间运动散度确定唇语行为发生时刻的候选区域；更新参考时刻为候选区域的初始帧，提高时域检测分辨率s₀/k，即减小k值，重复步骤c和步骤d，直至将唇语行为的发生时刻精细到单帧级别，则唇语行为检测完成并输出唇部开始活动或停止活动的时刻。

根据本发明的另一个具体实施例，如图1所述，为本发明三维唇语行为的多时域分辨率自动检测方法的总体实现流程图，具体包括以下步骤：

步骤11：采用三维视频传感器正对说话者面部采集三维点云视频数据，如图2显示了一段三维点云视频中四个时刻的三维点云模型渲染图，作为示例。

步骤12：对获取的原始三维点云视频数据进行两步预处理，即三维视频去噪和全局姿态配准。以时刻t的三维帧为例，在时间域上融合该时刻前x帧和后x帧的局部对应三维点。该过程不降低三维点云序列的原始帧频。融合后的三维点云比原始同时刻的三维点云模型具有更好的表面平滑度和时域稳定性。然后通过全局姿态配准对头部姿态变化进行补偿。选择处于视频序列的第一帧作为参考帧f_r，将后续时刻的三维点云帧f_t和参考帧f_r进行全局刚性配准。配准过程利用分布于眼部和鼻部的三维关键点进行，这些三维关键点的分布如图3所示。获取两时刻的三维点云之间的转换和平移矩阵[R_3×3,t_3×1]，再将时刻t的三维点云转换至参考帧坐标系下，实现头部姿态的统一。

步骤13：设置唇语活动的初始参考帧f_r和初始时域分辨率为1/k倍的原始分辨率s₀，即s₀/k。在参考帧上建立一个唇部的运动参考球，如图4所示。该参考球的中心O_S为参考帧的所有唇部关键点的三维空间位置中心，参考球的半径为固定参数r，球表面积为V_S。对于某时刻t下的三维唇部点云，定义各唇部关键点

到参考球球心的三维向量为参考运动向量

如图4中虚线向量所示。三维唇部内外轮廓上共分布有多个三维唇部关键点，每个关键点都对应一个参考运动方向，它们跟随唇部位置的不同而不同。

对预处理后的三维点云视频，利用三维非刚性配准法结合三维面部可变形模型提取并跟踪说话者面部在各时刻t下的多个三维关键点

R³表示三维空间，如图3所示，其中关键点1和2之间的空间距离为唇部宽度，关键点3和4之间的空间距离为唇部高度。沿着时间轴，顺序计算各时刻的三维帧与参考帧之间的唇部关键点的三维空间运动向量

三维唇部关键点的空间运动向量分布如图5所示，其中图5(a)为唇部在闭合过程中各三维关键点的运动方向，实线箭头方向所示；图5(b)为唇部在张开过程中各三维关键点的运动方向，实线箭头方向所示；虚线箭头方向均表示各关键点的参考运动向量。

步骤14：根据三维唇部关键点的帧间运动向量

和参考运动向量

计算各三维唇部关键点的帧间运动散度，如图5中关键点边上标识的数字。计算当前时刻t唇部所有关键点的运动散度之和。通过运动散度的符号，判断唇部运动的张开和闭合运动状态，确定在该时域检测分辨率下的唇语行为发生时刻的候选区域。

步骤15：更新唇语行为检测的参考帧为上一轮所得候选区的第一帧，由粗到精地逐步提高时域检测分辨率，即缩小s₀/k中的k值，重复步骤14，逐步缩小候选区域，直到时域分辨率为原始视频数据的分辨率，则检测完成，输出三维唇部开始活动或停止活动的时刻值。该多时域分辨率检测框架示意图如图6所示。

本发明提供了一种三维唇语行为在多时域分辨率下的自动检测方法，它主要包含5个步骤，即说话者面部的三维点云视频的采集、三维唇语视频的两步预处理、三维唇部运动参考球的建立、帧间运动散度的统计、以及多时域分辨率的唇语行为检测。本发明方法在三维唇语行为数据库(S3DFM 2019)中的50位不同说话者的唇语数据上进行了测试，正确检测率达94.9％，而固定时域检测分辨率下的正确率为92.9％；同时，该方法可以达到9帧(即18ms)的时刻检测精度(三维唇语视频的帧频为500fps)。因此，本发明具有理论可行性和实践效性。本发明采用三维视频数据的出发点避免了对光照、阴影、说话者头部姿态变化和尺度变化因素的影响，使得唇语行为检测方法的环境适应性更强。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种面向三维点云视频的多时域分辨率唇语行为检测方法，其特征在于，包括以下步骤：

步骤b、对三维点云视频数据进行两步预处理，即三维视频去噪和全局姿态配准；

步骤c、设置检测参考帧及参考时刻，建立一个三维唇部运动参考球，以参考帧上三维唇部关键点的中心为球心，半径固定；设置初始时域检测分辨率，以参考时刻为起点，利用三维非刚性配准结合一个三维可变形面部模型，提取并跟踪说话者在各时刻下的三维唇部关键点；计算各时刻的三维唇部关键点在参考球上的参考运动向量，以及三维唇部关键点与参考帧的帧间运动向量；

步骤d、以参考时刻为起点，沿着时间轴，顺序计算各时刻下三维唇部与参考帧的帧间运动散度，以表达三维唇部的帧间动态性特征；并判断各时刻下三维唇部的行为状态，将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻，定义参考时刻和候选行为发生时刻之间为候选检测区域；所述步骤d具体包括：

根据各时刻t下唇部关键点的运动向量

和参考运动向量

V_S＝∑△S (2)

其中Π(·)为向量归一化函数，ΔS为参考球的单位表面积，它们之和为参考球的总表面积V_S，该帧间运动散度表达了所有唇部关键点的运动向量在其参考运动方向上的运动能量之和，是一种三维唇部的帧间动态性特征；

通过帧间运动散度的幅值判断三维唇部在该时刻t处于发生运动还是静止状态；通过参考运动向量和关键点运动向量之间的夹角，判断唇部运动的张开和闭合运动状态，即两者大于90°，为闭合状态，反之张开；唇部在说话过程中的运动还需满足左右唇部的对称性约束，唇语行为状态LipEvent的判断如公式(3)所示：

表示左半唇部的运动散度，

表示右半唇部运动散度，ε_sym表示左右唇部的运动对称性阈值，将唇部出现动态性的时刻定义为该时域检测分辨率下的候选行为发生时刻，定义参考时刻和候选行为发生时刻之间为候选检测区域；

步骤e、由粗到精地逐步提高时域检测分辨率，在各分辨率下，更新唇语行为检测的参考时刻为候选检测区域的起始时刻，重复步骤d不断地缩小候选检测区域，直到时域检测分辨率为原始视频的时域分辨率，则唇语行为检测完成并输出唇部开始活动或停止活动的时刻值；所述步骤e具体包括：

设置初始时域检测分辨率为三维视频原始分辨率s₀的1/k倍，以参考时刻为起点，执行步骤c提取并跟踪唇部关键点和步骤d计算帧间运动散度，根据唇部的帧间运动散度确定唇语行为发生时刻的候选检测区域；更新参考时刻为候选检测区域的初始帧，提高时域检测分辨率s₀/k，即减小k值，重复步骤c和步骤d，直至将唇语行为的发生时刻精细到单帧级别。

2.根据权利要求1所述的一种面向三维点云视频的多时域分辨率唇语行为检测方法，其特征在于：所述步骤b，具体实现过程如下：

首先，在四维时空域进行多帧融合对三维点云视频进行整体去噪，对于时刻t的三维帧，在时间域上融合该时刻前x和后x帧的局部对应三维点；该过程不降低三维点云视频的原始帧频；

选择三维点云视频的第一帧作为参考帧f_r，将后续时刻的三维点云帧f_t和参考帧f_r进行全局刚性配准；配准过程利用分布于眼部和鼻部的三维关键点进行，获取两时刻的三维点云{f_t,f_r}之间的旋转和平移矩阵[R_3×3,t_3×1]，将各时刻三维点云f_t转换至参考帧坐标系下f_t′＝f_t(R,t)。

3.根据权利要求1所述的一种面向三维点云视频的多时域分辨率唇语行为检测方法，其特征在于：所述步骤c具体包括：

设置唇语行为的初始参考帧f_r，在参考帧上建立一个三维唇部的运动参考球S，该参考球的中心O_S为参考帧的所有唇部关键点的三维空间位置中心，参考球的半径为固定参数r，球表面积为V_S，该运动参考球用于统计三维动态唇部的帧间运动能量；

设置初始时域检测分辨率为原始视频分辨率s₀的1/k倍，即s₀/k；利用三维非刚性配准结合一个三维可变形面部模型，提取并跟踪说话者在各时刻t下的三维唇部关键点

为三维空间；定义各唇部关键点到参考球球心的三维向量为参考运动向量

沿着时间轴顺序计算各时刻t三维唇部的参考运动向量

同时，沿着时间轴顺序计算各时刻t的三维帧与参考帧之间的唇部关键点的三维运动向量

其中

4.根据权利要求1所述的一种面向三维点云视频的多时域分辨率唇语行为检测方法，其特征在于：步骤a之前还包括：