CN108399395A

CN108399395A - 基于端到端深度神经网络的语音和人脸复合身份认证方法

Info

Publication number: CN108399395A
Application number: CN201810204002.0A
Authority: CN
Inventors: 胡德昆; 易发胜; 崔国栋
Original assignee: Chengdu Wisdom Lingyun Technology Co Ltd
Current assignee: Chengdu Wisdom Lingyun Technology Co Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-08-14

Abstract

本发明公开了一种基于端到端深度神经网络的语音和人脸复合身份认证方法，其包括采集文本相关语音信号和面部视频信号，提取语音声纹特征，提取多帧人脸特征，将语音声纹特征和多帧人脸特征进行连接得到身份特征向量，将身份特征向量进行降维处理，采用Triplets Loss方法进行身份识别。本发明通过结合语音和人脸特征进行身份认证，弥补单一特征带来的不足，可应用于门禁考勤和人机交互等场合，有效提高识别准确率。

Description

基于端到端深度神经网络的语音和人脸复合身份认证方法

技术领域

本发明属于身份识别技术领域，尤其涉及一种基于端到端深度神经网络的语音和人脸复合身份认证方法。

背景技术

随着人工智能技术的发展，人脸识别和声纹识别等身份验证手段已广泛用于智能安防领域。其中，Google公司开发的基于卷积神经网络的人脸识别模型FaceNet直接进行端到端学习一个从图像到欧式空间的编码方法，然后基于这个编码进行人脸识别、人脸验证和人脸聚类等。FaceNet在LFW数据集上，准确率为0.9963，在YouTube Faces DB数据集上，准确率为0.9512。百度公司开发的Deep Speaker由深度神经网络层组成，它使用MFCC、基于余弦相似性的时间池和三元组损失(triplet loss)代价函数，学习到了与语言无关的声纹特征。当在普通话语境下训练时，Deep Speaker却能在英文确认和识别的任务上达到5.57％的错误率和88％的正确率。上述两种方法是目前人脸识别和声纹识别领域最优秀的方法之一。但在实际工程运用中，应用环境的光照变化,人脸姿势等因素对人脸识别有较大影响，而说话者声道状态和环境噪声也对声纹识别有较大影响。

发明内容

本发明的发明目的是：为了解决现有技术中存在的以上问题，本发明充分考虑工程应用环境的复杂性，提出了一种基于端到端深度神经网络的语音和人脸复合身份认证方法。

本发明的技术方案是：一种基于端到端深度神经网络的语音和人脸复合身份认证方法，包括以下步骤：

A、采集预先设定的文本相关语音信号，并同步采集待识别人的面部视频信号；

B、提取步骤A中文本相关语音信号的语音声纹特征；

C、提取步骤A中面部视频信号的多帧人脸特征；

D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接，得到身份特征向量；

E、将步骤D中身份特征向量进行降维处理；

F、根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别。

进一步地，所述步骤B提取步骤A中文本相关语音信号的语音声纹特征，具体包括以下分步骤：

B1、对步骤A中文本相关语音信号进行预处理，得到MFCC特征向量；

B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。

进一步地，所述步骤B1对步骤A中文本相关语音信号进行预处理，得到MFCC特征向量，具体包括以下分步骤：

B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理；

B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶变换，计算频谱，得到幅度谱；

B13、对步骤B12中幅度谱进行Mel滤波处理；

B14、对步骤B13处理后的幅度谱作对数运算，再进行离散余弦变换得到MFCC特征向量；

B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。

进一步地，所述步骤C提取步骤A中面部视频信号的多帧人脸特征，具体包括以下分步骤：

C1、根据预设时间间隔从面部视频信号中采集图像帧，并进行人脸检测，当包含人脸的图像帧达到预设数量时完成采集；

C2、将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理；

C3、对步骤C2处理后的图像帧采用深度残差网络ResNet进行特征点检测和特征学习，得到对应的人脸特征；

C4、将步骤C3中人脸特征进行融合得到人脸特征向量。

进一步地，所述步骤F根据步骤E中降维处理后的身份特征向量采用TripLetsLoss方法进行身份识别，具体包括以下分步骤：

F1、采集包含人脸数据集和声纹数据集的训练数据集，并采用所述步骤B至步骤E的方法进行处理得到身份特征向量样本集；

F2、根据步骤F1中身份特征向量样本集生成triplet三元组集合；

F3、分别将triplet三元组集合中的每个元素训练共享参数网络，得到三个元素的特征表达；

F4、根据步骤F3中三个元素的特征表达构造优化Triplet loss目标函数，完成身份识别。

进一步地，所述优化Triplet loss目标函数具体为：

其中，为三个元素的特征表达，N为样本集中样本的总数量，为第i个三元组中的锚记样本，为此三元组中与属于同类样本的样本，为此三元组中与不属于同类样本的样本，a为锚记样本的标记，p为锚记样本同类样本的标记，n为与锚记样本不同类样本的标记，α为与距离和与距离的最小间隔，为二范数的平方。

本发明的有益效果是：本发明通过结合语音和人脸特征进行身份认证，弥补单一特征带来的不足，可应用于门禁考勤和人机交互等场合，有效提高识别准确率。

附图说明

图1是本发明的基于端到端深度神经网络的语音和人脸复合身份认证方法的流程示意图。

图2是本发明实施例中提取语音声纹特征流程示意图。

图3是本发明实施例中提取多帧人脸特征流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为本发明的基于端到端深度神经网络的语音和人脸复合身份认证方法的流程示意图。一种基于端到端深度神经网络的语音和人脸复合身份认证方法，包括以下步骤：

B、提取步骤A中文本相关语音信号的语音声纹特征；

C、提取步骤A中面部视频信号的多帧人脸特征；

E、将步骤D中身份特征向量进行降维处理；

在本发明的一个可选实施例中，上述步骤A在开始身份认证时，采集系统预先设定的文本相关语音信号，并在检测到语音信号后同步采集待识别人的面部视频信号。

在本发明的一个可选实施例中，如图2所示，上述步骤B提取步骤A中文本相关语音信号的语音声纹特征，语音声纹特征的长度为m维，记为V＝(v₁,v₂...v_m)；优选地，本发明在具体实验中设定m＝256。

本发明提取步骤A中文本相关语音信号的语音声纹特征，具体包括以下分步骤：

在本发明的一个可选实施例中，上述步骤B1对步骤A中文本相关语音信号进行预处理，得到MFCC特征向量，具体包括以下分步骤：

对步骤A中文本相关语音信号X＝(x_t1,x_t2...x_tL)进行预处理，包括预加重(Preemphasis)，分帧(Frame Blocking)，加窗(Windowing)，其中x_ti为ti时刻语音信号的采样值，tL为语音信号采样结束时间。语音信号的采样频率fs＝8KHz，设置帧长为160个点，帧移设置为帧长的1/2。

B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶(FFT)变换，通过取绝对值或平方值计算频谱，进而计算得到幅度谱；

B13、对步骤B12中幅度谱添加Mel滤波器组，进行Mel滤波处理；

B14、对步骤B13处理后的幅度谱作对数运算(Logarlithm)，再进行离散余弦变换(DCT)得到MFCC特征向量，记为M＝(s₁,s₂...s₂₆)，其中s_i为第i维特征向量。

本发明中残差卷积深度神经网络ResCNN的结构如表1所示。

表1、残差卷积深度神经网络ResCNN结构表

表1中的第5层是池化层，将各帧得到的声纹特征向量进行平均，从而得到用于身份认证的特定文本的初步声纹特征，第6层变换主要实现声纹特征降维，最终得到声纹特征V＝(v₁,v₂...v₂₅₆)。

在本发明的一个可选实施例中，如图3所示，为了减少光照和人脸姿势对人脸识别的影响，本发明采取平均池化的方法进行多帧人脸特征融合。上述步骤C提取步骤A中面部视频信号的多帧人脸特征，具体包括以下分步骤：

在本发明的一个可选实施例中，上述步骤C1预设时间间隔为200毫秒，从面部视频信号中采集图像帧，并进行人脸检测，当包含人脸的图像帧达到预设数量时完成采集；优选地，本发明采集三张包含人脸的图像帧记为(face₁,face₂,face₃)。

在本发明的一个可选实施例中，上述步骤C2将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理到的150×150大小。

在本发明的一个可选实施例中，上述步骤C3分别对步骤C2处理后的三张图像帧采用深度残差网络ResNet进行68个特征点检测和特征学习，得到3个1×128的人脸特征(D₁,D₂,D₃)。

C4、将步骤C3中人脸特征进行融合得到人脸特征向量，记为F＝(f₁,f₂...f_n)，其中其中表示第k张人脸的第i维特征。

本发明采用多脸融合识别方法提高了系统对环境光照的鲁棒性，可避免环境光照对单一人脸识别的影响。

在本发明的一个可选实施例中，上述步骤D将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接，得到身份特征向量；身份特征向量的长度为m+n维，记为T＝(V,F)。

在本发明的一个可选实施例中，上述步骤E采用embedding方法将步骤D中身份特征向量进行特征降维处理，降维过程记为：

T_e＝T×W_e

其中，W_e表示embedding层的连接权重矩阵，降维处理后的身份特征向量长度为T_e＝(t₁,t₂...t₂₅₆)。

在本发明的一个可选实施例中，上述步骤F根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别，具体包括以下分步骤：

F1、采集包含人脸数据集和声纹数据集的训练数据集，并采用所述步骤B至步骤E的方法进行处理得到身份特征向量样本集，记为

F2、根据步骤F1中身份特征向量样本集生成triplet三元组集合，记为

F3、分别将triplet三元组集合中的每个元素训练共享参数网络，得到三个元素的特征表达，记为

F4、根据步骤F3中三个元素的特征表达构造优化Triplet loss目标函数，完成身份识别；优化Triplet loss目标函数具体为：

其中，为三个元素的特征表达，N为样本集中样本的总数量，为第i个三元组中的锚记样本，为此三元组中与属于同类样本的样本，为此三元组中与不属于同类样本的样本，a为锚记样本的标记，p为锚记样本同类样本的标记，n为与锚记样本不同类样本的标记，α为与距离和与距离的最小间隔，为二范数的平方。身份识别过程中参数的优化采用与神经网络相同的梯度下降法进行处理。

本发明采用基于Triplets Loss的人脸+声纹复合识别技术，可避免单一技术的局限性，从而提高识别的准确性，同时通过构建端到端的复合识别模型，复合识别模型可以采用经典预训练模型的参数作为对应ResNet，ResCNN初始化参数，使用收集的有限训练样本实现端到端的训练和识别，从而使模型更有效。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，包括以下步骤：

B、提取步骤A中文本相关语音信号的语音声纹特征；

C、提取步骤A中面部视频信号的多帧人脸特征；

E、将步骤D中身份特征向量进行降维处理；

2.如权利要求1所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述步骤B提取步骤A中文本相关语音信号的语音声纹特征，具体包括以下分步骤：

3.如权利要求2所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述步骤B1对步骤A中文本相关语音信号进行预处理，得到MFCC特征向量，具体包括以下分步骤：

B13、对步骤B12中幅度谱进行Mel滤波处理；

4.如权利要求3所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述步骤C提取步骤A中面部视频信号的多帧人脸特征，具体包括以下分步骤：

C4、将步骤C3中人脸特征进行融合得到人脸特征向量。

5.如权利要求1-4任一所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述步骤F根据步骤E中降维处理后的身份特征向量采用TripLets Loss方法进行身份识别，具体包括以下分步骤：

6.如权利要求5所述的基于端到端深度神经网络的语音和人脸复合身份认证方法，其特征在于，所述优化Triplet loss目标函数具体为：