CN116453233A - 一种融合超声波和图像信息的人脸多模态检测方法及系统 - Google Patents

一种融合超声波和图像信息的人脸多模态检测方法及系统 Download PDF

Info

Publication number
CN116453233A
CN116453233A CN202310436879.3A CN202310436879A CN116453233A CN 116453233 A CN116453233 A CN 116453233A CN 202310436879 A CN202310436879 A CN 202310436879A CN 116453233 A CN116453233 A CN 116453233A
Authority
CN
China
Prior art keywords
information
lip
signal
ultrasonic
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310436879.3A
Other languages
English (en)
Inventor
徐达学
姜灏
周倪青
肖晖
朱强
聂俊霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chery Automobile Co Ltd
Original Assignee
Chery Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chery Automobile Co Ltd filed Critical Chery Automobile Co Ltd
Priority to CN202310436879.3A priority Critical patent/CN116453233A/zh
Publication of CN116453233A publication Critical patent/CN116453233A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • G06V40/45Detection of the body part being alive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本公开提供了一种融合超声波和图像信息的人脸多模态检测方法及系统,涉及主动安全领域,方法包括:获取向待检测人脸发射的调制超声波信号的基带超声波信号;提取唇部反射信号,在时间上对唇部反射信息进行差分抑制时不变信号,提取有效频域的唇动信号;提取每一帧中的人脸关键点,获取连续两帧人脸关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。提高人脸检测识别的安全性和可靠性。

Description

一种融合超声波和图像信息的人脸多模态检测方法及系统
技术领域
本公开涉及主动安全技术领域,具体涉及一种融合超声波和图像信息的人脸多模态检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
移动设备上的人脸核验技术在给用户带来便捷体验的同时,也带来了潜在的安全风险,现有移动设备前的活体检测技术由于只采用图像输入用于判断,在多种先进攻击手段的面前变得较为脆弱,容易造成隐私泄露,安全性不高,造成用户的信息、涉及用户隐私,造成系统的稳定性以及可靠性不高。
并且现有技术中若是单纯采用RGB相机进行活体检测的技术防御能力有限,不能直观的提高系统的安全性,并且不能利用其他能够互补信息的模态用于活体人脸检测中,使得人脸核验过程的检测精度不高以及难以捕捉已有模态的信息,造成性能不稳定。
发明内容
本公开为了解决上述问题,提出了一种一种融合超声波和图像信息的人脸多模态检测方法及系统,通过引入视觉加超声波多模态,利用人体张闭嘴的过程对超声波进行调制,增强人脸核验过程的安全性,实现更准确的人脸活体检测。
根据一些实施例,本公开采用如下技术方案:
一种融合超声波和图像信息的人脸多模态检测方法,包括:
获取向待检测人脸发射的调制超声波信号的基带超声波信号;
提取唇部反射信号,在时间上对唇部反射信号进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号;
提取每一帧中的人脸唇部关键点,获取连续两帧人脸唇部关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
根据一些实施例,本公开采用如下技术方案:
一种融合超声波和图像信息的人脸多模态检测系统,包括:
超声波信号获取与处理模块,用于获取向待检测人脸发射的调制超声波信号的基带超声波信号;提取唇部反射信号,在时间上对唇部反射信号进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号;
唇动信息提取模块,用于提取每一帧中的人脸唇部关键点,获取连续两帧人脸唇部关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;
跨模态信息融合模块,用于提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
根据一些实施例,本公开采用如下技术方案:
一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的一种融合超声波和图像信息的人脸多模态检测方法。
根据一些实施例,本公开采用如下技术方案:
种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的一种融合超声波和图像信息的人脸多模态检测方法。
与现有技术相比,本公开的有益效果为:
本公开采用一种融合超声波和图像信息的活体检测技术,利用人体张闭嘴过程对超声波的调制,在活体人脸检测系统中引入超声波模态,增强了人脸核验过程的安全性。通过唇部反射和其他反射具有不同的ToF(Time of Flight,是一种通过利用照射波和反射波之间的时间差来测量到物体的距离的测距方法),在时间上对信号进行差分抑制时不变信号,搜索在ToF域内具有最大幅值的信号增强唇动导致的信号,规避非活体导致的误报,提高活体监测率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的工作流程示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
本公开的一种实施例中提供了一种融合超声波和图像信息的人脸多模态检测方法,包括:
步骤一:获取向待检测人脸发射的调制超声波信号的基带超声波信号;
步骤二:提取唇部反射信号,在时间上对唇部反射信号进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号;
步骤三:提取每一帧中的人脸唇部关键点,获取连续两帧人脸唇部关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
作为一种实施例,步骤一中,获取向待检测人脸发射的调制超声波信号的基带超声波信号包括:对调制的超声波信号进行正交解调,从而获得基带超声波信号。
作为一种实施例,步骤二中,提取唇部反射信号,在时间上对唇部反射信息进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号的具体方法包括:
1)通过唇部反射和其他反射具有不同的ToF,提取唇部反射信号;在时间上对信号进行差分抑制时不变信号,搜索在ToF域内具有最大幅值的信号增强唇动导致的信号。所述时不变信号指的是信号不随时间而变化;具体为获取固定周期T(与每帧图像时间一致)内的唇回波强度信号。
2)然后,通过零点位于直流电零陷滤波器来抑制低频成分,对信号进行短时傅里叶变换,提取唇动对应的有效频域信号。
作为一种实施例,步骤三中,提取每一帧中的人脸唇部关键点,获取连续两帧人脸唇部关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;
其中,计算唇部横纵比,获取唇部区域隋时间变化曲线,设定唇动阀值(判定是否张嘴),根据张闭嘴都区间分割出相应的超声波信号。
具体的,据检测出的唇部关键点计算上下唇距离(即唇部纵向距离)及唇部左右边界距离(即唇部横向距离),然后通过对比前后两帧图像各自对应的唇部纵向距离确定前后两帧图像之间唇距是否发生了变化,根据唇距的变化情况确定唇动状态,当图像检测测量唇部的纵向高度除以横向高度大于某个阀值(根据实际工程调试),引入时间轴作为时钟同步信号,将唇动信号对应的时间提取出超声波信号变化信号曲线。
接着,提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合模型中提取超声波频率和视觉信息的双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
其中,跨模态信息融合模型包括特征提取器、Transformer神经网络模型编码器、Transformer神经网络模型解码器以及一个轻量化多层感知器组成。
特征提取器由一系列卷积神经网络构成,负责从超声波频谱和视觉运动轨迹中分别提取频率轴信息和空间信息。所述视觉运动轨迹是结合多帧图像对比的目标活动数据。
Transformer神经网络模型编码器读入超声波频谱特征,通过自注意力机制提取其中的有效信息。Transformer神经网络模型解码器的输入来自运动矢量的特征,捕获长段的时间信息以便与视觉信息同步。最后,多头注意力机制负责融合编码器输出特征和解码器中间特征。利用Transformer神经网络模型特有的跨模态信息处理结构,从两种模态中充分提取有效信息,经过超声波融合视觉信息,得到一系列经过加权的超声波特征;将活体检测建模为二分类问题,引入可训练的类标签嵌入,聚合有效分类信息,在类标签后,通过一个多层感知机输入给出检测结果,实现准确的活体检测。
实施例2
本公开的一种实施例中提供了一种融合超声波和图像信息的人脸多模态检测系统,包括:
超声波信号获取与处理模块,用于获取向待检测人脸发射的调制超声波信号的基带超声波信号;提取唇部反射信号,在时间上对唇部反射信息进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号;
唇动信息提取模块,用于提取每一帧中的人脸关键点,获取连续两帧人脸关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;
跨模态信息融合模块,用于提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
实施例3
一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的一种融合超声波和图像信息的人脸多模态检测方法。
实施例4
一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的一种融合超声波和图像信息的人脸多模态检测方法。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,包括:
获取向待检测人脸发射的调制超声波信号的基带超声波信号;
提取唇部反射信号,在时间上对唇部反射信息进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号;
提取每一帧中的人脸唇部关键点,获取连续两帧人脸唇部关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
2.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,所述获取向待检测人脸发射的调制超声波信号的基带超声波信号包括:对调制的超声波信号进行正交解调,从而获得基带超声波信号。
3.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,在所述基带超声波信号中,根据唇部反射和其他反射具有不同的ToF来提取唇部反射信号。
4.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,所述低频滤波的方式为:通过零点位于直流电零陷滤波器进行低频滤波。
5.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,所述获取连续两帧人脸关键点位置变化的运动矢量包括判断人体是否张嘴,判断人体是否张嘴的方法为:获取到每一帧人脸关键点,获取连续两帧关键点位置变化的运动矢量之后,计算唇部横纵比,获取唇部区域随时间变化的曲线,设定唇动阈值,根据阈值的区间判断人体是否张嘴。
6.如权利要求1所述的一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,所述跨模态信息融合模块由特征提取器、Transformer神经网络模型编码器、Transformer神经网络模型解码器以及一个轻量化多层感知器组成。
7.如权利要求6所述的一种融合超声波和图像信息的人脸多模态检测方法,其特征在于,所述Transformer神经网络模型编码器读入超声波频谱特征,通过自注意力机制提取超声波有效信息,Transformer神经网络模型解码器的输入来自运动矢量的特征,捕获时间信息与视觉信息同步。
8.一种融合超声波和图像信息的人脸多模态检测系统,其特征在于,包括:
超声波信号获取与处理模块,用于获取向待检测人脸发射的调制超声波信号的基带超声波信号;提取唇部反射信号,在时间上对唇部反射信息进行差分抑制时不变信号,搜索ToF域内最大幅值唇动信号进行低频滤波后,对最大幅值唇动信号进行短时傅里叶变换,提取有效频域的唇动信号;
唇动信息提取模块,用于提取每一帧中的人脸关键点,获取连续两帧人脸关键点位置变化的运动矢量,根据张闭嘴区间分割出相应的唇部超声波信号;
跨模态信息融合模块,用于提取唇部超声波信号的频率轴信息和视觉空间信息,输入至跨模态信息融合中提取双模态信息,将所述双模态信息进行聚合并获取加权超声波特征,引入可训练的类标签嵌入,输出检测结果。
9.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-7任一项所述的一种融合超声波和图像信息的人脸多模态检测方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-7任一项所述的一种融合超声波和图像信息的人脸多模态检测方法。
CN202310436879.3A 2023-04-19 2023-04-19 一种融合超声波和图像信息的人脸多模态检测方法及系统 Pending CN116453233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310436879.3A CN116453233A (zh) 2023-04-19 2023-04-19 一种融合超声波和图像信息的人脸多模态检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310436879.3A CN116453233A (zh) 2023-04-19 2023-04-19 一种融合超声波和图像信息的人脸多模态检测方法及系统

Publications (1)

Publication Number Publication Date
CN116453233A true CN116453233A (zh) 2023-07-18

Family

ID=87135453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310436879.3A Pending CN116453233A (zh) 2023-04-19 2023-04-19 一种融合超声波和图像信息的人脸多模态检测方法及系统

Country Status (1)

Country Link
CN (1) CN116453233A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824768A (zh) * 2023-08-30 2023-09-29 杭银消费金融股份有限公司 一种基于金融自助服务终端的人脸识别方法与介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824768A (zh) * 2023-08-30 2023-09-29 杭银消费金融股份有限公司 一种基于金融自助服务终端的人脸识别方法与介质
CN116824768B (zh) * 2023-08-30 2023-11-28 杭银消费金融股份有限公司 一种基于金融自助服务终端的人脸识别方法与介质

Similar Documents

Publication Publication Date Title
EP2801078B1 (en) Context aware moving object detection
CN108447219A (zh) 基于视频图像的火灾检测系统及方法
CN105574855B (zh) 云背景下基于模板滤波和虚警抑制的红外小目标检测方法
CN110007366B (zh) 一种基于多传感器融合的生命搜寻方法以及系统
CN104915649A (zh) 一种应用于人脸识别的活体检测方法
CN110545396A (zh) 一种基于定位去噪的语音识别方法及装置
US8965068B2 (en) Apparatus and method for discriminating disguised face
CN116148801B (zh) 一种基于毫米波雷达的目标检测方法及系统
CN116453233A (zh) 一种融合超声波和图像信息的人脸多模态检测方法及系统
CN105427342A (zh) 一种水下小目标声呐图像目标检测跟踪方法和系统
CN110750152A (zh) 一种基于唇部动作的人机交互方法和系统
CN110544479A (zh) 一种去噪的语音识别方法及装置
CN112347450B (zh) 一种基于眨眼声音信号的身份验证方法
CN108446690A (zh) 一种基于多视角动态特征的人脸活体检测方法
CN107798688A (zh) 运动目标识别方法、预警方法以及汽车防追尾预警装置
Avola et al. Person re-identification through Wi-Fi extracted radio biometric signatures
CN111323756A (zh) 一种基于深度学习的航海雷达目标检测方法及装置
CN111323757A (zh) 一种航海雷达目标检测方法及装置
CN111856445A (zh) 一种目标检测方法、装置、设备及系统
CN113160279A (zh) 一种地铁环境中行人异常行为检测方法及装置
Mehrübeoglu et al. Real-time iris tracking with a smart camera
CN114372966A (zh) 一种基于平均光流梯度的相机破坏检测方法及系统
CN115601674A (zh) 一种输电工程烟雾隐患识别方法、装置及存储介质
Makawana et al. Moving vehicle detection and speed measurement in video sequence
Ichihara et al. Accuracy evaluations of video anomaly detection using human pose estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination