CN110020520B

CN110020520B - 一种基于声音信号的人脸识别辅助认证方法和系统

Info

Publication number: CN110020520B
Application number: CN201910231313.0A
Authority: CN
Inventors: 王巍; 岳小杰; 江涛
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-03-26
Anticipated expiration: 2039-03-26
Also published as: CN110020520A

Abstract

本发明公开了一种基于声音信号的人脸识别辅助认证方法和系统，包括：在人脸识别开启状态下发射声音信号，并从不同位置同时接收反射信号；提取接收信号中的声音信号，并进行多径干扰消除，得到发射的声音信号经认证对象反射的信号；对经认证对象反射的信号进行频谱分析，通过相似性比较，判断认证对象是否为合法认证。本发明利用人脸反射的信号在不同位置会产生不同的频率衰减，经照片或视频等二维平面反射的信号在不同位置产生相似的频率衰减的原理，通过设置两个不同位置的麦克风，比较接收信号的频谱相似性，区分人脸和二维平面，成本低廉，操作简单，可以有效避免非法认证。

Description

一种基于声音信号的人脸识别辅助认证方法和系统

技术领域

本发明属于无线通信领域与计算机感知领域的交叉技术领域，更具体地，涉及一种基于声音信号的人脸识别辅助认证方法和系统。

背景技术

随着信息技术的发展，人们周围出现了越来越多的智能设备，比如智能手机，平板电脑，无人机等，这些智能设备大多配置有摄像头，很容易搭载人脸识别系统，从而使用户权限认证更为简单。然而，随着移动互联网的快速发展，越来越多的人喜欢在社交网络(比如脸书、微信等)上发布自己的生活动态，其中就包括一些个人照片和短视频，这些网络上流传的二维影像容易被攻击者获取，用于非法入侵普遍应用的二维人脸识别系统，从而造成搭载人脸识别系统的智能设备(移动设备、无人机等)在安全认证方面仍存在很大安全隐患。

虽然有研究者提出了许多可以防二维影像攻击的三维人脸识别系统，但是，这些系统需要额外的复杂传感器，成本高，难以广泛部署；或者需要高质量的输入和复杂的处理算法，并且抗干扰能力差，都不能很好地适用于智能设备上的人脸识别。此外有研究表明，可以根据网络照片或者视频，进行人脸三维模型的构建，这表明即使是三维人脸识别系统也可能面临着同样的安全问题。

因此，现有人脸识别系统存在容易利用照片或视频等二维影像进行非法认证，权限识别安全性低的问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于声音信号的人脸识别辅助认证方法和系统，旨在解决现有人脸识别系统容易利用照片或视频等二维影像进行非法认证，而导致识别安全性低的问题。

为实现上述目的，本发明一方面提供了一种基于声音信号的人脸识别辅助认证方法，包括：

(1)当人脸识别系统进行人脸识别且发射声音信号时，从不同位置同时接收所述声音信号的反射信号；所述声音信号包括依次设置的导频信号和扫频信号；

(2)利用所述导频信号对所述反射信号进行互相关运算，提取经周围环境反射的声音信号，得到多径反射信号；

(3)对所述多径反射信号进行多径干扰消除，得到有效反射路径接收信号；所述有效反射路径接收信号为发射的声音信号经过认证对象反射的信号；

(4)对所述有效反射路径接收信号进行频谱分析，判断所述认证对象是否为非法认证。

进一步地，所述人脸识别系统包括设置在同一平面的两个麦克风和一个扬声器；所述扬声器与两个麦克风之间的距离差小于8厘米。

优选地，所述扫频信号分为四个频段，用于增加不同频率的信息，每个频段重复四次，用于提高识别的准确率。

进一步地，所述步骤(4)中，对所述有效反射路径接收信号进行频谱分析，判断所述认证对象是否为非法认证，具体方法为：

通过傅里叶变换提取所述有效反射路径信号的幅值信息；

利用DTW算法计算幅值之间的相似性，得到最小距离；

将计算得到的最小距离与设定阈值进行比较，当最小距离大于设定阈值，判断所述认证对象为合法认证；当最小距离小于设定阈值，判断所述认证对象为非法认证。

进一步地，所述扫频信号四个频段对应的设定阈值分别为1.38、0.582、2.398、1.009。

进一步地，所述认证对象为人脸、照片或视频等二维影像；所述合法认证表示所述认证对象为人脸；所述非法认证表示所述认证对象为照片或视频等二维影像。

本发明另一方面提供了一种基于声音信号的人脸识别辅助认证系统，包括：声音信号发射单元，设置在不同位置的两个声音信号接收单元、非法认证识别单元；

所述声音信号发射单元，用于在人脸识别系统开启状态下，发射包括导频信号和扫频信号的声音信号；

所述声音信号接收单元，用于接收反射信号，并消除最短路径信号和多径干扰，得到有效反射路径接收信号；

所述非法认证识别单元，用于分别提取两个声音信号接收单元的有效反射路径接收信号的幅值，并比较幅值之间相似性，得到非法认证识别结果。

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明利用人脸反射的信号在不同位置会产生不同的频率衰减，而照片或视频等二维平面反射的信号在不同位置产生相似的频率衰减的原理，通过比较两个麦克风接收信号的频谱相似性，区分人脸和二维平面，识别准确度高，安全性好，可以有效避免非法认证。

(2)本发明仅需部署两个麦克风和一个扬声器，即可实现对人脸和二维平面的识别，成本低廉，操作过程简单。

附图说明

图1是本发明实施例提供的一种基于声音信号的人脸识别辅助认证方法流程示意图；

图2是本发明实施例提供的声音信号组成示意图；

图3是两个麦克风收到的经人脸反射的部分信号的频谱图；

图4是经DTW算法处理后，经人脸和照片反射的信号相似性强度分布图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出一种利用声音信号来辅助实时认证的方法，需要两个麦克风和一个扬声器，由于一般智能手机上都有摄像头和扬声器，并且大部分智能手机都有两个麦克风，为便于操作，本实施例以安卓系统智能手机为例，介绍本发明方法的具体实施过程。参考图1，本发明提出的一种基于声音信号的人脸识别辅助认证方法，包括以下步骤：

步骤1：设计声音信号，并导入人脸识别系统，在人脸识别开启状态下，发射所述声音信号，并通过设置在不同位置的两个接收端同时接收反射信号；

具体地，如图2所示，设计包括导频信号和16段扫频信号的声音信号，其中，导频信号用于定位信号初始位置，扫频信号分为四个频段，用于增加不同频率的信息，每个频段重复四次，用于提高识别的准确率，其中信号的采样率是44100HZ，导频信号的样本点数为3000，其他16段信号的样本点数为50，将上述声音信号编码为wav文件格式导入智能手机中。

在人脸识别系统开启时，通过扬声器发射声音信号，两个麦克风接收反射信号，由于两个麦克风处在不同位置，且都与扬声器存在距离，两个麦克风接收到来自周围环境多条路径的反射信号。

步骤2：利用导频信号对接收信号进行互相关运算，提取接收信号中的声音信号；

具体地，尽管是在发射信号的同时接收信号，但是由于扬声器和麦克风之间有一定距离，因此接收信号会有一定的延迟，麦克风最开始接收到的是周围环境的噪声信号，因此首先需要在接收到的信号中找到声音信号开始的位置，利用发射的声音信号的导频部分与接收信号进行互相关运算，得到最大值的位置便是接收信号中声音信号的初始位置，之后根据步骤(1)中设计的声音信号的形式依次提取出16段扫频信号；

步骤3：消除提取信号中的多径干扰，得到有效反射路径的声音信号；

具体地，本发明需要判断两个麦克风接收到的经人脸或照片反射后信号的频谱特征，但是由于麦克风接收到的信号存在很多噪声以及多径干扰，并且多径干扰中最短路径反射信号的干扰强度很大，会严重影响判断结果，因此需要对16段信号分别进行多径干扰消除；

首先将最短路径信号幅值置为0，最短路径信号为扬声器发射的声音信号未经周围环境反射，直接由麦克风接收的信号；然后根据人脸和麦克风之间距离更加准确地删除多径干扰；结合实际情况，人脸和麦克风之间距离为20-40厘米，利用16段扫频信号分别测距，每段信号计算出一个距离，共可以得到16个距离，然后设置滑动窗口求每个距离方差的大小，当所求的距离方差最小时，即为认证对象与麦克风之间的距离，根据此距离进一步计算出信号的传播时间，从而得到更为准确的信号起始位置，进而提取出反射到人脸或照片上信号的接收信号，即有效反射路径信号。

步骤4：对有效反射路径信号进行频谱分析，并进行相似性比较，判断人脸识别是否为非法认证。

具体地，由于两个麦克风在不同的位置，声音信号在人脸或照片上会产生不同角度的反射，且由于人脸是三维的，在不同的反射路径下，每次反射的信号具有不同的频率衰减特性，如图3所示，两个麦克风接收到经人脸反射的声音信号的幅值不同；但是声音信号经过照片等二维平面反射时，即使在不同的反射路径下，各个角度的反射信号是均匀的，因此每次反射的信号具有相似的频谱衰减特性；因此通过对比两个麦克风接收信号的频谱相似性，就可以进行人脸和照片的判定。

根据上面的分析，人脸反射的信号会造成不同的频率衰减，照片反射的信号会产生相似的频率衰减，因此，从理论上讲，两个麦克风采集到的反射到人脸的信号相似性小，反射到照片或视频得到的信号相似性大，本发明通过傅里叶变换分别提取两个麦克风所需反射路径信号的幅值信息，采用DTW算法确定两个麦克风所需反射路径信号的最小距离D，部分数据结果如图4所示，横轴代表数据的组数，纵轴代表每组实验得到的最小距离D的大小，从中可以明显看出反射到人脸和反射到照片的两个信号，最小距离D有不同的分布区间，且反射人脸的D值普遍大于反射照片的D值，也就是说反射人脸的信号相似性更小。

考虑到声音信号设置为4个频段，而不同频段受环境和设备频响的影响不同，因此需要对每一个频段独立的划定阈值，最终根据四个阈值作为实时认证的判断依据。其中，阈值的确定方法为：根据反射人脸的D值和反射照片的D值分布，针对每个频段设置阈值将反射人脸的D值和反射照片的D值区分开来。根据实验结果，本发明中四个频段对应的阈值为1.38、0.582、2.398、1.009。

本发明实施例还提供了一种基于声音信号的人脸识别辅助认证系统，包括：声音信号发射单元，设置在不同位置的两个声音信号接收单元、非法认证识别单元；

在本发明实施例中，各模块具体实现方式可以参考上述对应方法实施例中的描述，本发明实施例将不再复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声音信号的人脸识别辅助认证方法，其特征在于，包括：

(1)当人脸识别系统进行人脸识别且发射声音信号时，从不同位置同时接收所述声音信号的反射信号；所述声音信号包括依次设置的导频信号和扫频信号；导频信号用于定位信号初始位置；所述扫频信号分为四个频段，用于增加不同频率的信息，每个频段重复四次，用于提高识别的准确率；

(2)利用所述导频信号对所述反射信号进行互相关运算，得到多径反射信号；所述多径反射信号为所述声音信号经过周围环境反射的信号；

2.根据权利要求1所述的一种基于声音信号的人脸识别辅助认证方法，其特征在于，所述人脸识别系统包括设置在同一平面的两个麦克风和一个扬声器；所述扬声器与两个麦克风之间的距离差小于8厘米。

3.根据权利要求1或2所述的一种基于声音信号的人脸识别辅助认证方法，其特征在于，所述步骤(4)中，对所述有效反射路径接收信号进行频谱分析，判断所述认证对象是否为非法认证，具体方法为：

通过傅里叶变换提取所述有效反射路径信号的幅值信息；

利用DTW算法计算幅值之间的相似性，得到最小距离；

4.根据权利要求3所述的一种基于声音信号的人脸识别辅助认证方法，其特征在于，所述扫频信号四个频段对应的设定阈值分别为1.38、0.582、2.398、1.009。

5.根据权利要求3所述的一种基于声音信号的人脸识别辅助认证方法，其特征在于，所述合法认证表示所述认证对象为人脸；所述非法认证表示所述认证对象为二维影像。

6.一种基于声音信号的人脸识别辅助认证系统，其特征在于，包括：声音信号发射单元，设置在不同位置的两个声音信号接收单元、非法认证识别单元；

所述声音信号发射单元，用于在人脸识别系统开启状态下，发射包括导频信号和扫频信号的声音信号；导频信号用于定位信号初始位置；所述扫频信号分为四个频段，用于增加不同频率的信息，每个频段重复四次，用于提高识别的准确率；