CN116453233A

CN116453233A - 一种融合超声波和图像信息的人脸多模态检测方法及系统

Info

Publication number: CN116453233A
Application number: CN202310436879.3A
Authority: CN
Inventors: 徐达学; 姜灏; 周倪青; 肖晖; 朱强; 聂俊霞
Original assignee: Chery Automobile Co Ltd
Current assignee: Chery Automobile Co Ltd
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-18

Abstract

本公开提供了一种融合超声波和图像信息的人脸多模态检测方法及系统，涉及主动安全领域，方法包括：获取向待检测人脸发射的调制超声波信号的基带超声波信号；提取唇部反射信号，在时间上对唇部反射信息进行差分抑制时不变信号，提取有效频域的唇动信号；提取每一帧中的人脸关键点，获取连续两帧人脸关键点位置变化的运动矢量，根据张闭嘴区间分割出相应的唇部超声波信号；提取唇部超声波信号的频率轴信息和视觉空间信息，输入至跨模态信息融合中提取双模态信息，将所述双模态信息进行聚合并获取加权超声波特征，引入可训练的类标签嵌入，输出检测结果。提高人脸检测识别的安全性和可靠性。

Description

一种融合超声波和图像信息的人脸多模态检测方法及系统

技术领域

本公开涉及主动安全技术领域，具体涉及一种融合超声波和图像信息的人脸多模态检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

移动设备上的人脸核验技术在给用户带来便捷体验的同时，也带来了潜在的安全风险，现有移动设备前的活体检测技术由于只采用图像输入用于判断，在多种先进攻击手段的面前变得较为脆弱，容易造成隐私泄露，安全性不高，造成用户的信息、涉及用户隐私，造成系统的稳定性以及可靠性不高。

并且现有技术中若是单纯采用RGB相机进行活体检测的技术防御能力有限，不能直观的提高系统的安全性，并且不能利用其他能够互补信息的模态用于活体人脸检测中，使得人脸核验过程的检测精度不高以及难以捕捉已有模态的信息，造成性能不稳定。

发明内容

本公开为了解决上述问题，提出了一种一种融合超声波和图像信息的人脸多模态检测方法及系统，通过引入视觉加超声波多模态，利用人体张闭嘴的过程对超声波进行调制，增强人脸核验过程的安全性，实现更准确的人脸活体检测。

根据一些实施例，本公开采用如下技术方案：

一种融合超声波和图像信息的人脸多模态检测方法，包括：

获取向待检测人脸发射的调制超声波信号的基带超声波信号；

提取唇部反射信号，在时间上对唇部反射信号进行差分抑制时不变信号，搜索ToF域内最大幅值唇动信号进行低频滤波后，对最大幅值唇动信号进行短时傅里叶变换，提取有效频域的唇动信号；

提取每一帧中的人脸唇部关键点，获取连续两帧人脸唇部关键点位置变化的运动矢量，根据张闭嘴区间分割出相应的唇部超声波信号；提取唇部超声波信号的频率轴信息和视觉空间信息，输入至跨模态信息融合中提取双模态信息，将所述双模态信息进行聚合并获取加权超声波特征，引入可训练的类标签嵌入，输出检测结果。

根据一些实施例，本公开采用如下技术方案：

一种融合超声波和图像信息的人脸多模态检测系统，包括：

超声波信号获取与处理模块，用于获取向待检测人脸发射的调制超声波信号的基带超声波信号；提取唇部反射信号，在时间上对唇部反射信号进行差分抑制时不变信号，搜索ToF域内最大幅值唇动信号进行低频滤波后，对最大幅值唇动信号进行短时傅里叶变换，提取有效频域的唇动信号；

唇动信息提取模块，用于提取每一帧中的人脸唇部关键点，获取连续两帧人脸唇部关键点位置变化的运动矢量，根据张闭嘴区间分割出相应的唇部超声波信号；

跨模态信息融合模块，用于提取唇部超声波信号的频率轴信息和视觉空间信息，输入至跨模态信息融合中提取双模态信息，将所述双模态信息进行聚合并获取加权超声波特征，引入可训练的类标签嵌入，输出检测结果。

根据一些实施例，本公开采用如下技术方案：

一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现所述的一种融合超声波和图像信息的人脸多模态检测方法。

根据一些实施例，本公开采用如下技术方案：

种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的一种融合超声波和图像信息的人脸多模态检测方法。

与现有技术相比，本公开的有益效果为：

本公开采用一种融合超声波和图像信息的活体检测技术，利用人体张闭嘴过程对超声波的调制，在活体人脸检测系统中引入超声波模态，增强了人脸核验过程的安全性。通过唇部反射和其他反射具有不同的ToF(Time of Flight，是一种通过利用照射波和反射波之间的时间差来测量到物体的距离的测距方法)，在时间上对信号进行差分抑制时不变信号，搜索在ToF域内具有最大幅值的信号增强唇动导致的信号，规避非活体导致的误报，提高活体监测率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例的工作流程示意图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种融合超声波和图像信息的人脸多模态检测方法，包括：

步骤一：获取向待检测人脸发射的调制超声波信号的基带超声波信号；

步骤二：提取唇部反射信号，在时间上对唇部反射信号进行差分抑制时不变信号，搜索ToF域内最大幅值唇动信号进行低频滤波后，对最大幅值唇动信号进行短时傅里叶变换，提取有效频域的唇动信号；

步骤三：提取每一帧中的人脸唇部关键点，获取连续两帧人脸唇部关键点位置变化的运动矢量，根据张闭嘴区间分割出相应的唇部超声波信号；提取唇部超声波信号的频率轴信息和视觉空间信息，输入至跨模态信息融合中提取双模态信息，将所述双模态信息进行聚合并获取加权超声波特征，引入可训练的类标签嵌入，输出检测结果。

作为一种实施例，步骤一中，获取向待检测人脸发射的调制超声波信号的基带超声波信号包括：对调制的超声波信号进行正交解调，从而获得基带超声波信号。

作为一种实施例，步骤二中，提取唇部反射信号，在时间上对唇部反射信息进行差分抑制时不变信号，搜索ToF域内最大幅值唇动信号进行低频滤波后，对最大幅值唇动信号进行短时傅里叶变换，提取有效频域的唇动信号的具体方法包括：

1)通过唇部反射和其他反射具有不同的ToF，提取唇部反射信号；在时间上对信号进行差分抑制时不变信号，搜索在ToF域内具有最大幅值的信号增强唇动导致的信号。所述时不变信号指的是信号不随时间而变化；具体为获取固定周期T(与每帧图像时间一致)内的唇回波强度信号。

2)然后，通过零点位于直流电零陷滤波器来抑制低频成分，对信号进行短时傅里叶变换，提取唇动对应的有效频域信号。

作为一种实施例，步骤三中，提取每一帧中的人脸唇部关键点，获取连续两帧人脸唇部关键点位置变化的运动矢量，根据张闭嘴区间分割出相应的唇部超声波信号；

其中，计算唇部横纵比，获取唇部区域隋时间变化曲线，设定唇动阀值(判定是否张嘴)，根据张闭嘴都区间分割出相应的超声波信号。

具体的，据检测出的唇部关键点计算上下唇距离(即唇部纵向距离)及唇部左右边界距离(即唇部横向距离)，然后通过对比前后两帧图像各自对应的唇部纵向距离确定前后两帧图像之间唇距是否发生了变化，根据唇距的变化情况确定唇动状态，当图像检测测量唇部的纵向高度除以横向高度大于某个阀值(根据实际工程调试)，引入时间轴作为时钟同步信号，将唇动信号对应的时间提取出超声波信号变化信号曲线。

接着，提取唇部超声波信号的频率轴信息和视觉空间信息，输入至跨模态信息融合模型中提取超声波频率和视觉信息的双模态信息，将所述双模态信息进行聚合并获取加权超声波特征，引入可训练的类标签嵌入，输出检测结果。

其中，跨模态信息融合模型包括特征提取器、Transformer神经网络模型编码器、Transformer神经网络模型解码器以及一个轻量化多层感知器组成。

特征提取器由一系列卷积神经网络构成，负责从超声波频谱和视觉运动轨迹中分别提取频率轴信息和空间信息。所述视觉运动轨迹是结合多帧图像对比的目标活动数据。

Transformer神经网络模型编码器读入超声波频谱特征，通过自注意力机制提取其中的有效信息。Transformer神经网络模型解码器的输入来自运动矢量的特征，捕获长段的时间信息以便与视觉信息同步。最后，多头注意力机制负责融合编码器输出特征和解码器中间特征。利用Transformer神经网络模型特有的跨模态信息处理结构，从两种模态中充分提取有效信息，经过超声波融合视觉信息，得到一系列经过加权的超声波特征；将活体检测建模为二分类问题，引入可训练的类标签嵌入，聚合有效分类信息，在类标签后，通过一个多层感知机输入给出检测结果，实现准确的活体检测。

实施例2

本公开的一种实施例中提供了一种融合超声波和图像信息的人脸多模态检测系统，包括：

超声波信号获取与处理模块，用于获取向待检测人脸发射的调制超声波信号的基带超声波信号；提取唇部反射信号，在时间上对唇部反射信息进行差分抑制时不变信号，搜索ToF域内最大幅值唇动信号进行低频滤波后，对最大幅值唇动信号进行短时傅里叶变换，提取有效频域的唇动信号；

唇动信息提取模块，用于提取每一帧中的人脸关键点，获取连续两帧人脸关键点位置变化的运动矢量，根据张闭嘴区间分割出相应的唇部超声波信号；

实施例3

实施例4

一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现所述的一种融合超声波和图像信息的人脸多模态检测方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，包括：

提取唇部反射信号，在时间上对唇部反射信息进行差分抑制时不变信号，搜索ToF域内最大幅值唇动信号进行低频滤波后，对最大幅值唇动信号进行短时傅里叶变换，提取有效频域的唇动信号；

2.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，所述获取向待检测人脸发射的调制超声波信号的基带超声波信号包括：对调制的超声波信号进行正交解调，从而获得基带超声波信号。

3.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，在所述基带超声波信号中，根据唇部反射和其他反射具有不同的ToF来提取唇部反射信号。

4.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，所述低频滤波的方式为：通过零点位于直流电零陷滤波器进行低频滤波。

5.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，所述获取连续两帧人脸关键点位置变化的运动矢量包括判断人体是否张嘴，判断人体是否张嘴的方法为：获取到每一帧人脸关键点，获取连续两帧关键点位置变化的运动矢量之后，计算唇部横纵比，获取唇部区域随时间变化的曲线，设定唇动阈值，根据阈值的区间判断人体是否张嘴。

6.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，所述跨模态信息融合模块由特征提取器、Transformer神经网络模型编码器、Transformer神经网络模型解码器以及一个轻量化多层感知器组成。

7.如权利要求6所述的一种融合超声波和图像信息的人脸多模态检测方法，其特征在于，所述Transformer神经网络模型编码器读入超声波频谱特征，通过自注意力机制提取超声波有效信息，Transformer神经网络模型解码器的输入来自运动矢量的特征，捕获时间信息与视觉信息同步。

8.一种融合超声波和图像信息的人脸多模态检测系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的一种融合超声波和图像信息的人脸多模态检测方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的一种融合超声波和图像信息的人脸多模态检测方法。