CN113065449B

CN113065449B - 面部图像采集方法、装置、计算机设备及存储介质

Info

Publication number: CN113065449B
Application number: CN202110333000.3A
Authority: CN
Inventors: 姜晓庆; 陈贞翔; 杨倩; 郑永强
Original assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan
Current assignee: Shandong Sizheng Information Technology Co ltd; University of Jinan
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2022-08-19
Anticipated expiration: 2041-03-29
Also published as: CN113065449A

Abstract

本发明公开了面部图像采集方法、装置、计算机设备及存储介质，包括：获取待处理的视频；对待处理视频的语音进行端点检测；从待处理视频中，根据端点检测结果，提取有声段语音对应的图像；对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储。依据情感表达时语音与面部表情之前的相关性，通过情感语音的端点检测算法，判断情感语音的活跃阶段，通过时间轴的映射，只采集具有活跃的情感语音同时间段的面部表情图像，以达到增强面部表情数据集的情感可去分性、减少冗余性的目的。情感语音端点检测算法采用的是一种新型的基于样本重建残差条件熵差值的端点检测算法。

Description

面部图像采集方法、装置、计算机设备及存储介质

技术领域

本申请涉及面部图像采集技术领域，特别是涉及面部图像采集方法、装置、计算机设备及存储介质。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

情感识别是情感计算领域内的研究热点，面部表情图像在情感识别研究中重要的数据源。

在情感的表达方式中，情感语音与面部表情两种不同的模态信号之间很强的联系。虽然有时我们可以在沉默中捕捉情绪化的面部表情，或是在平静的面部表情下发出情绪化的声音，但在大多数情况下，人类的面部表情会随着说话者的情感语音而发生明显的变化。

目前用于情感识别领域中的面部表情图像现有的采集方式是把情感视频样本中所有的图像都保存下来，这种无区分的面部表情图像采集方式忽视不同模态情感表达方式之间的联系，造成所采集的表情图像的情感可识别性低，导致后续情感识别研究中所训练与学习的模型性能不佳。另外，与频率相比，面部表情的变化相对较慢。

研究表明，通常当情感没有发生改变时，一个面部表情会持续0.5～4秒的时间。尽管在某些情况下存在微表情快速变化的情况，但慢变的宏表情更为普遍。情感视频样本往往包含了一个完整的表情，因而样本的开头和结束均包含了无表情的阶段，在面部表情的慢变特性下，现有的无区分的面部表情采集方式会使具有情感的样本集合中包含大量的无表情的图像，造成数据集的冗余。

发明内容

为了解决现有技术的不足，本申请提供了面部表情图像采集面部图像采集方法、装置、计算机设备及存储介质；

第一方面，本申请提供了面部表情图像采集方法；

面部表情图像采集方法，包括：

获取待处理的视频；

对待处理视频的语音进行端点检测；

从待处理视频中，根据端点检测结果，提取有声段语音对应的图像；

对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储。

第二方面，本申请提供了面部表情图像采集装置；

面部表情图像采集装置，包括：

获取模块，其被配置为：获取待处理的视频；

端点检测模块，其被配置为：对待处理视频的语音进行端点检测；

图像提取模块，其被配置为：从待处理视频中，根据端点检测结果，提取有声段语音对应的图像；

存储模块，其被配置为：对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

(1)本发明将提出基于情感语音残差条件熵差值端点检测的面部表情图像采集装置。该系统依据情感表达时语音与面部表情之前的相关性，通过情感语音的端点检测算法，判断情感语音的活跃阶段，通过时间轴的映射，只采集具有活跃的情感语音同时间段的面部表情图像，以达到增强面部表情数据集的情感可去分性、减少冗余性的目的。情感语音端点检测算法采用的是一种新型的基于样本重建残差条件熵差值的端点检测算法。

(2)采用压缩感知理论(Compressed Sensing，CS)处理情感视频中的情感语音分量，使用离散余弦变换完成情感语音的稀疏性变换，以高斯随机矩阵为观测矩阵，以正交匹配追踪算法(OMP)算法为重建算法，提出情感语音压缩感知重建的预测残差条件熵参数；

(3)实现有效的、鲁棒的基于残差条件熵差值的情感语音端点检测方法。该方法可以在经压缩感知处理的语音样本重建过程中，计算正交匹配追踪算法(OMP)算法迭代过程中预测残差与上一次迭代的信号估计值之间的条件熵，根据迭代前后的残差条件熵差值完成情感语音的端点检测。由于该端点检测方法是建立在压缩感知重建算法之上的，而任何情况下都不具备稀疏性的噪声无法从观测值中重建，因而本算法对噪声具有较好的鲁棒性。

(4)将情感语音的端点检测结果运用于情感视频样本中面部图像的采集，抛弃无声段的面部表情图像以尽可能保证所获取的面部表情图像具有较好的情感可识别性。存储筛选后的面部表情图像构建有效的面部表情图像数据集。

(5)本发明考虑了情感表达时不同模态信号之间的关系，通过情感语音的活跃性判断去采集具有更好的情感可区分性的图像，减少面部表情数据集合的冗余性，使面部表情图像的特征学习更有效，有助于情感识别模型性能的提高；

(6)情感语音有效检测是通过一种新型的残差条件熵差值端点检测方法实现的，该端点检测算法具有抗噪性能。若情感样本本身是经压缩感知处理后再传输的情况，该算法可以在在重建样本的同时完成情感语音的端点检测，具有计算量小，节省计算资源的优势；

(7)本发明会根据情感视频样本产生有效的面部表情图像数据集。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的工作原理流程图；

图2(a)为第一个实施例的采用OMP算法对某语音样本重建过程中语音时域波形；

图2(b)为第一个实施例的最后一次迭代与第一次迭代的残差条件熵差值；

图3为第一个实施例的整体方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了面部表情图像采集方法；

如图1和图3所示，面部表情图像采集方法，包括：

S1：获取待处理的视频；

S2：对待处理视频的语音进行端点检测；

S3：从待处理视频中，根据端点检测结果，提取有声段语音对应的图像；

S4：对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储。

作为一个或多个实施例，所述S2：对待处理视频的语音进行端点检测；具体步骤包括：

S201：对待处理视频的语音进行稀疏转换处理；

S202：对稀疏转换处理后的语音信号，随机生成高斯随机矩阵；将高斯随机矩阵作为语音信号的观测矩阵；

S203：基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果。

进一步地，所述S201：对待处理视频的语音进行稀疏转换处理；具体包括：

采用离散余弦变换，对待处理视频的语音进行稀疏转换处理。

进一步地，所述S202：对稀疏转换处理后的语音信号，随机生成高斯随机矩阵；其中，高斯随机矩阵服从均值为0，方差为1，标准差为1的正态分布。

作为一个或多个实施例，如图3所示，所述S203：基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果；具体包括：

S2031：根据观测矩阵，得到每一帧的语音观测值；

S2032：首次运行时，残差设定为语音观测值，计算残差与传感矩阵的相关系数；

非首次运行时，计算上一次迭代估计值与语音观测值的残差，和残差与传感矩阵的相关系数；

S2033：在传感矩阵中，寻找相关系数最大原子，利用相关系数最大原子更新信号重建的支撑集；

S2034：基于支撑集，使用最小二乘法对观测值进行逼近，得到的信号的估计值；

S2035：更新残差，计算残差条件熵；

S2036：判断是否达到稀疏度条件，如果是，就返回S2032；如果否，就计算第一次迭代与最后一次迭代的残差条件熵差值；

S2037：判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值，如果高于设定阈值，则认为当前帧语音为有声段；如果低于设定阈值，则认为当前帧语音为无声段，获得当前帧语音的端点检测结果；

S2038：基于各帧端点检测结果，获得待处理视频的语音的有声音片段。

进一步地，所述S2031：根据观测矩阵，得到每一帧的语音观测值；具体包括：

若某帧语音信号为x，经离散余弦变换完成稀疏转换，此时信号为离散余弦系数α，即x＝Ψα，其中Ψ是由DCT基构成的稀疏矩阵；则观测值为y＝θα，其中Θ＝ΦΨ，Φ为观测矩阵。

进一步地，所述S2032：非首次运行时，计算上一次迭代估计值与语音观测值的残差，和残差与传感矩阵的相关系数；具体包括：

第t次迭代所获得的重建残差r_t的计算公式为：

其中，A_t是OMP算法第t次迭代过程中由传感矩阵的原子构成的支撑集，

为第t次迭代过程中最小二乘法计算的估计值，y是观测值。

进一步地，残差与传感矩阵的相关系数，使用残差和传感矩阵列向量的内积来计算得到。

应理解的，所述传感矩阵，用稀疏变换的稀疏矩阵与观测矩阵相乘得到，可保证信号同时实现采样与压缩。

进一步地，所述S2033：在传感矩阵中，寻找相关系数最大原子，利用相关系数最大原子更新信号重建的支撑集；其中，支撑集就是从传感矩阵中根据相关系数寻找出来的列构成的集合。

进一步地，所述S2035：更新残差，计算残差条件熵；具体包括：

对每次迭代得到的残差进行存储，更新残差；

基于更新后的残差，计算残差条件熵。

进一步地，所述基于更新后的残差，计算残差条件熵；残差条件熵σ_e的计算公式为：

A_t-1是OMP算法第t-1次迭代过程中由传感矩阵的原子构成的支撑集，

为t-1次迭代过程中最小二乘法计算的估计值。

进一步地，所述S2036：判断是否达到稀疏度条件，如果是，就返回S2032；如果否，就计算第一次迭代与最后一次迭代的残差条件熵差值；具体包括：

第一次迭代获得的残差条件熵与最后一次迭代获得的残差条件熵相减得到的差值。

进一步地，稀疏度条件指的是在样本重建过程中每次迭代完之后要判断迭代次数与稀疏度K的大小来判断是否终止迭代。如果迭代次数小于K要继续迭代，否则终止迭代。

作为一个或多个实施例，所述S3：从待处理视频中，根据端点检测结果，提取有声段语音对应的图像；具体步骤包括：

判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值，如果是，则该段语音为有声段，将有声段对应的图像提取出来，如果否，则不提取图像。

作为一个或多个实施例，所述S4：对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储；具体步骤包括：

将提取的图像，输入到训练后的面部表情检测模型中，输出面部表情检测结果。

进一步地，所述训练后的面部表情检测模型，训练步骤包括：

构建VGG16神经网络；

构建训练集，所述训练集为已知面部表情识别结果的图像；

将训练集输入到VGG16神经网络中，对神经网络进行训练，得到训练后的面部表情检测模型。

进一步地，所述面部表情识别结果，包括：张嘴、微笑、抬眉毛、挤左眼、挤右眼、愤怒、向左歪嘴、向右歪嘴、露齿笑、嘟嘴、翻嘴唇、鼓嘴或闭眼等。

本发明所采用情感语音残差条件熵差值端点检测方法是建立正交匹配追踪(OMP)算法迭代执行过程中所产生的预测残差基础上的。OMP算法是语音信号重建中的一种常用算法，残差的计算是OMP算法中的重要一环，从信息论的角度来看在迭代过程中语音信息的获取意味着残差熵的减少。

本发明采用引入第t次迭代的残差与上一次迭代的信号估计值之间的条件熵σ_e来判断重建残差中的语音分量提取程度。

在OMP算法中，第t次迭代所获得的重建残差r_t的计算公式为：

为第t次迭代过程中最小二乘法计算的估计值。

σ_e的计算公式为：

为t-1次迭代过程中最小二乘法计算的估计值。

在迭代完成时，求解最后一次迭代与第一次迭代的残差条件熵差值，并通过经验阈值判断，即可获取端点检测结果。

图2(a)为采用OMP算法对某语音样本重建过程中语音时域波形、图2(b)为最后一次迭代与第一次迭代的残差条件熵差值。在迭代过程中残差条件熵的差值很好地对应了语音样本中的有效成分，σ_e的变化趋势是与原始波形中的有声段(含清音与浊音)的位置相对应，采用经验的阈值条件(如图2(b)中可以选0为阈值)就可以完成重建语音样本的起终点判定。

基于情感语音残差条件熵差值端点检测结果的面部表情采集步骤包括：

步骤1：对情感视频样本中的语音及图像分别存储，情感语音经加窗分帧后得到N个短时语音帧；

步骤2：短时帧语音经离散余弦变换的完成稀疏化、采用高斯随机矩阵为观测矩阵所获得的第i帧语音观测值；

步骤3：根据观测值，计算上一次迭代估计值与观测值的残差及残差与传感矩阵的相关性；

步骤4：寻找传感矩阵中相关性最大原子，更新信号重建的支撑集；

步骤5：使用最小二乘法对信号逼近得到信号的估计值；

步骤6：更新残差，计算残差条件熵；步骤2-步骤5重复，直至达到稀疏度条件后停止迭代；

步骤7：计算第一次迭代与最后一次迭代的残差条件熵差值；

步骤8：以经验值为阈值进行判断，高于该阈值认为该帧语音为有声段、低于该阈值认为该帧语音为无声段，获得该帧语音的端点检测结果；

步骤9：根据语音端点检测结果，完成图像筛选；若该帧语音为有声段，则保留对应时间段的视频图像，并结合面部检测算法，获取面部表情图像；若该帧语音为无声段，则抛弃对应时间段的视频图像，不进行采集。

步骤10：存储面部表情图像；

步骤11：判断此时是否是最后一个语音帧，若是，该情感视频样本处理结束；若否，继续处理。

实施例二

本实施例提供了面部表情图像采集装置；

面部表情图像采集装置，包括：

获取模块，其被配置为：获取待处理的视频；

此处需要说明的是，上述获取模块、端点检测模块、图像提取模块和存储模块对应于实施例一中的步骤S1至S4，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.面部表情图像采集方法，其特征是，包括：

获取待处理的视频；

对待处理视频的语音进行端点检测；

对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储；

对待处理视频的语音进行端点检测；具体步骤包括：

对待处理视频的语音进行稀疏转换处理；

对稀疏转换处理后的语音信号，随机生成高斯随机矩阵；将高斯随机矩阵作为语音信号的观测矩阵；

基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果；

基于观测矩阵，采用正交匹配追踪算法OMP进行样本重建，得到端点检测结果；具体包括：

(1)：根据观测矩阵，得到每一帧的语音观测值；

(2)：首次运行时，残差设定为语音观测值，计算残差与传感矩阵的相关系数；

(3)：在传感矩阵中，寻找相关系数最大原子，利用相关系数最大原子更新信号重建的支撑集；

(4)：基于支撑集，使用最小二乘法对观测值进行逼近，得到的信号的估计值；

(5)：更新残差，计算残差条件熵；

(6)：判断是否达到稀疏度条件，如果是，就返回(2)；如果否，就计算第一次迭代与最后一次迭代的残差条件熵差值；

(7)：判断第一次迭代与最后一次迭代的残差条件熵差值是否高于设定阈值，如果高于设定阈值，则认为当前帧语音为有声段；如果低于设定阈值，则认为当前帧语音为无声段，获得当前帧语音的端点检测结果；

(8)：基于各帧端点检测结果，获得待处理视频的语音的有声音片段。

2.如权利要求1所述的面部表情图像采集方法，其特征是，非首次运行时，计算上一次迭代估计值与语音观测值的残差，和残差与传感矩阵的相关系数；具体包括：

第t次迭代所获得的重建残差r_t的计算公式为：

为第t次迭代过程中最小二乘法计算的估计值，y是观测值。

3.如权利要求1所述的面部表情图像采集方法，其特征是，更新残差，计算残差条件熵；具体包括：

对每次迭代得到的残差进行存储，更新残差；基于更新后的残差，计算残差条件熵；

所述基于更新后的残差，计算残差条件熵；残差条件熵σ_e的计算公式为：

为t-1次迭代过程中最小二乘法计算的估计值。

4.如权利要求1所述的面部表情图像采集方法，其特征是，从待处理视频中，根据端点检测结果，提取有声段语音对应的图像；具体步骤包括：

5.如权利要求1所述的面部表情图像采集方法，其特征是，对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储；具体步骤包括：

将提取的图像，输入到训练后的面部表情检测模型中，输出面部表情检测结果；

所述训练后的面部表情检测模型，训练步骤包括：

构建VGG16神经网络；

构建训练集，所述训练集为已知面部表情识别结果的图像；

将训练集输入到VGG16神经网络中，对神经网络进行训练，得到训练后的面部表情检测模型；

所述面部表情识别结果，包括：张嘴、微笑、抬眉毛、挤左眼、挤右眼、愤怒、向左歪嘴、向右歪嘴、露齿笑、嘟嘴、翻嘴唇、鼓嘴或闭眼。

6.面部表情图像采集装置，其特征是，包括：

获取模块，其被配置为：获取待处理的视频；

存储模块，其被配置为：对提取的图像进行面部表情检测，将图像和面部表情检测结果进行存储；

对待处理视频的语音进行端点检测；具体步骤包括：

对待处理视频的语音进行稀疏转换处理；

(1)：根据观测矩阵，得到每一帧的语音观测值；

(5)：更新残差，计算残差条件熵；

7.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。