CN109740492A

CN109740492A - 一种身份认证方法和装置

Info

Publication number: CN109740492A
Application number: CN201811612581.9A
Authority: CN
Inventors: 郭韶燕; 景璐
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-10

Abstract

本发明公开了一种身份认证方法和装置，该方法包括以下步骤：1)获取待认证对象的人脸图像并对人脸图像进行图像预处理；2)根据预处理后的人脸图像判别人脸图像的图像质量等级并输出图像质量判别结果；3)响应于图像质量判别结果高于预定等级，根据预处理后的人脸图像判别人脸角度所在的范围并输出人脸角度判别结果；以及4)根据图像质量判别结果和人脸角度判别结果确定采用人脸识别模式还是语音识别模式并在确定的模式下进行身份认证。本发明能够缩短多重身份认证的时间，使用户获得更佳的体验。

Description

一种身份认证方法和装置

技术领域

本发明涉及身份认证技术领域，更具体地，特别是指一种基于人脸活体检测以及语音识别融合算法的身份认证方法和装置。

背景技术

随着人工智能的快速发展，在银行证券、金融保险、民生社保、在线教育、汽车金融、房屋租住、共享服务、新闻媒体、区块链等场景，需要用户进行远程身份认证，在智能手机的手机解锁应用中身份认证也越来越普遍。人脸活体检测及人脸识别方案，或语音识别方案是其中常用的方案，另外，为了提高识别准确率，往往采用多重生物特征验证。

活体检测是在一些身份验证场景确定对象真实生理特征的方法，通常用于人脸识别前期应用中，可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而帮助用户甄别欺诈行为，保障用户的利益。基于视频人脸活体身份认证系统，前期将人脸图片与身份证上传至系统中，实际应用中，通过视频采集图像，通过人脸动作识别算法，识别张嘴、摇头、眨眼等动作，判断是否是人脸活体。再通过人脸识别比对算法，实现人证验证。语音比对，则是获取用户特定语音，然后与存储库里的语音进行比对的方法。基于视频及语音比对的多重身份认证，即先进行人脸识别，再进行语音比对，也可以先进行语音比对，再进行人脸识别，还可以同时进行人脸和语音识别，然后综合二者的判断结果进行身份认证。

但是，现有人脸活体检测及人脸识别方案，在复杂光线(例如，在光线强(室外强光)、光线暗(夜晚))、角度较大、人脸缺失、遮挡等情况下的实用性差、鲁棒性差，常常失败。语音比对方案，则在嘈杂环境等情况下，适应性差。多重生物特征识别方案，虽然可提高适应性，但这种方法持续时间长，用户体验差。因此，如何能够在复杂光线及角度较大，或嘈杂环境中，既能提高身份认证系统成功率，又能提高用户体验，就成为目前身份认证领域急需解决的问题。

综上，针对上述现有技术中存在的问题，本领域亟待需要一种识别准确率高、适应性强、易于使用以及用户体验佳的多重生物特征识别方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种身份认证方法和装置，能够解决现有身份认证方案适应性差、不易推广应用以及用户体验差等问题。

基于上述目的，本发明实施例的一方面提供了一种身份认证方法，包括以下步骤：

1)获取待认证对象的人脸图像并对人脸图像进行图像预处理；

2)根据预处理后的人脸图像判别人脸图像的图像质量等级并输出图像质量判别结果；

3)响应于图像质量判别结果高于预定等级，根据预处理后的人脸图像判别人脸角度所在的范围并输出人脸角度判别结果；以及

4)根据图像质量判别结果和人脸角度判别结果确定采用人脸识别模式还是语音识别模式并在确定的模式下进行身份认证。

在一些实施方式中，图像质量等级根据图像清晰度、亮度以及对比度从高到低分为第一级、第二级以及第三级，高于预定等级为第二级以上，人脸角度为人脸图像中的至少三个人脸特征点所在平面的法线与拍摄人脸图像的摄像头的镜头所在平面的法线的夹角，并且人脸角度所在的范围分为小于等于5°、大于5°且小于等于15°以及大于15°。

在一些实施方式中，上述步骤3)进一步包括：响应于图像质量判别结果显示图像质量等级为第一级和第二级，判别人脸角度所在的范围。

在一些实施方式中，步骤4)进一步包括：

当图像质量判别结果显示图像质量等级为第一级并且人脸角度判别结果显示人脸角度所在的范围为小于等于15°时，采用人脸识别模式；

当图像质量判别结果显示图像质量等级为第一级并且人脸角度判别结果显示人脸角度所在的范围为大于15°时，提醒待认证对象调整人脸角度，当待认证对象将人脸角度调整为小于等于15°时，采用人脸识别模式，否则采用语音识别模式；

当图像质量判别结果显示图像质量等级为第二级并且人脸角度判别结果显示人脸角度所在的范围为小于等于5°时，采用人脸识别模式；或者

当图像质量判别结果显示图像质量等级为第二级并且人脸角度判别结果显示人脸角度所在的范围为大于5°时，提醒待认证对象调整人脸角度，当待认证对象将人脸角度调整为小于等于5°时，采用人脸识别模式，否则采用语音识别模式。

在一些实施方式中，上述步骤3)进一步包括：响应于图像质量判别结果显示图像质量等级为第三级，直接采用语音识别模式。

在一些实施方式中，上述步骤1)进一步包括：

从实时获取到的视频流中采集图像帧，并检测图像帧中是否有人脸，若无人脸，则继续采集图像帧；若有人脸，则将图像帧缩放到预定像素并对图像帧中的人脸区域进行裁剪。

在一些实施方式中，步骤2)进一步包括利用预先创建并训练的图像质量判别模型根据预处理后的所述人脸图像判别人脸图像的图像质量等级并输出图像质量判别结果，图像质量判别模型的训练过程包括以下步骤：

获取训练人脸图像、验证人脸图像及测试人脸图像；

按照图像质量等级将训练人脸图像分为三类并且给每一类训练人脸图像打标签，标签为图像质量等级，三类训练人脸图像的数量比例为1:1:1；

根据带标签的训练人脸图像训练图像质量判别模型；

每训练预定次数，采用验证人脸图像进行验证，当图像质量判别模型对验证人脸图像的分类正确率与对训练人脸图像的分类正确率相差小于验证阈值时，停止训练；以及

采用测试人脸图像对训练后的图像质量判别模型进行测试，若图像质量判别模型对测试人脸图像的分类正确率达到测试阈值，即确认图像质量判别模型可用；若没有达到测试阈值，则继续调整并重新训练图像质量判别模型，直到得到可用的图像质量判别模型。

在一些实施方式中，步骤3)进一步包括：响应于图像质量判别结果高于预定等级，选择性利用预先创建并训练的人脸特征点定位及人脸角度判别模型根据预处理后的人脸图像判别人脸角度所在的范围并输出人脸角度判别结果，人脸特征点定位及人脸角度判别模型的训练过程包括以下步骤：

获取训练人脸图像、验证人脸图像及测试人脸图像；

标定训练人脸图像中的人脸特征点并据此确定人脸角度，并且按照人脸角度所在的范围将训练人脸图像分为三类并且给每一类训练人脸图像打标签，标签为人脸角度所在的范围，三类训练人脸图像的数量比例为1:1:1；

根据带标签的训练人脸图像训练人脸特征点定位及人脸角度判别模型；

每训练预定次数，采用验证人脸图像进行验证，当人脸特征点定位及人脸角度判别模型对验证人脸图像的分类正确率与对训练人脸图像的分类正确率相差小于验证阈值时，停止训练；以及

采用测试人脸图像对训练后的人脸特征点定位及人脸角度判别模型进行测试，若人脸特征点输出正确且人脸特征点定位及人脸角度判别模型对测试人脸图像的分类正确率达到测试阈值，即确认人脸特征点定位及人脸角度判别模型可用；若人脸特征点输出错误和/或没有达到测试阈值，则继续调整并重新训练人脸特征点定位及人脸角度判别模型，直到得到可用的人脸特征点定位及人脸角度判别模型。

在一些实施方式中，图像质量判别模型和人脸特征点定位及人脸角度判别模型为卷积神经网络模型。

本发明实施例的另一方面，还提供了一种身份认证装置，包括至少一个处理器以及存储器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时执行如上所述的方法。

本发明具有以下有益技术效果：本发明实施例提供的身份认证方法和装置在复杂光线及角度较大，或嘈杂环境中，既能够提高身份认证的成功率，又能提高用户体验，并且适应性强。本发明可以应用于其它任何身份认证系统中，这些系统不仅可以包括人脸识别、语音识别，而且还可以包括指纹识别、虹膜识别等生物特征识别技术。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为根据本发明一个实施例的身份认证方法的示意性流程图；和

图2为根据本发明一个实施例的身份认证装置的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

基于上述目的，本发明实施例的第一个方面，提出了一种身份认证方法的一个实施例。图1示出的是该方法的示意性流程图。

如图1中所示，该方法可以包括以下步骤：

步骤S101，获取待认证对象的人脸图像并对人脸图像进行图像预处理；

步骤S102，根据预处理后的人脸图像判别人脸图像的图像质量等级并输出图像质量判别结果；

步骤S103，响应于图像质量判别结果高于预定等级，根据预处理后的人脸图像判别人脸角度所在的范围并输出人脸角度判别结果；以及

步骤S104，根据图像质量判别结果和人脸角度判别结果确定采用人脸识别模式还是语音识别模式并在确定的模式下进行身份认证。

现有的多重生物特征识别方案需要同时进行多种生物特征识别，然后结合多种生物特征识别的结果进行判断，导致身份认证持续时间长，并且在某一种生物特征识别结果为不通过，而其他生物特征识别结果为通过的情况下，会导致具有真实身份的用户无法通过身份认证，从而导致用户体验差。有鉴于此，本发明的身份认证方法在进行身份认证之前首先根据人脸图像的质量和人脸角度确定一种最佳的识别模式，这样能够缩短身份认证时间，并且能够显著改善用户的体验感受。

另外，现有人脸活体检测及人脸识别方案，在复杂光线、角度较大、人脸缺失、遮挡等情况下的实用性差、鲁棒性差，经常会导致识别失败。为了克服该缺陷，本发明的身份认证方法还可以采用GAN(Generative Adversarial Nets，生成对抗网络)算法，生成不同光线下、不同角度下的人脸图片，提高人脸活体身份认证系统在夜晚光线、大角度等情况下的识别正确率。

在本发明中，基于视频人脸活体身份认证系统失效时，语音识别系统可作为补充，实现身份认证。进一步地，针对现有语音识别方案在嘈杂环境等情况下适应性差，本发明采用特征值提取技术，构建语音流的梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征向量，对语音内容信息进行声学表征。采用动态时间规整算法(Dynamic TimeWarping，DTW)，解决由于语音信息的不等长特性而引出的特征值比对问题。将待比对语音的特征向量的时间轴非线性地映射到样本音频的时间轴上，实现两音频最小距离值的计算。在比对结果相似度的判定方面，通过使用大量话务数据比对统计，人为判断语音内容是否相似，并采用欧拉距离，对比对数据进行分析，进而得到语音相似度阈值。需要强调的是，本发明可以自动将采集到的语音信息与语音库中的语音信息进行比对，同时将比对结果反馈到用户界面。另外，本发明也可以采用深度学习模型进行语音识别。

在一个优选实施例中，图像质量等级可以根据图像清晰度、亮度以及对比度从高到低分为第一级、第二级以及第三级，高于预定等级为第二级以上。换言之，例如根据图像是否清晰可见、亮度是否均匀、对比度是否正常等综合因素将图像质量等级分为三级，即正常、一般、较差。人脸角度可以为人脸图像中的至少三个人脸特征点所在平面的法线与拍摄人脸图像的摄像头的镜头所在平面的法线的夹角，这里，拍摄人脸图像的摄像头所在平面的法线也可以理解为人脸正视图中的至少三个人脸特征点所在平面的法线。人脸角度所在的范围可以分为小于等于5°、大于5°且小于等于15°以及大于15°三个范围。

在一个优选实施例中，步骤S103可以进一步包括：当图像质量判别结果显示图像质量等级为第一级和第二级时，判别人脸角度所在的范围，在这种情况下，步骤S104可以进一步包括：当图像质量判别结果显示图像质量等级为第一级并且人脸角度判别结果显示人脸角度所在的范围为小于等于5°或者大于5°且小于等于15°时，采用人脸识别模式；当图像质量判别结果显示图像质量等级为第一级并且人脸角度判别结果显示人脸角度所在的范围为大于15°时，提醒待认证对象调整人脸角度，当待认证对象将人脸角度调整为小于等于5°或者大于5°且小于等于15°时，采用人脸识别模式，否则采用语音识别模式；当图像质量判别结果显示图像质量等级为第二级并且人脸角度判别结果显示人脸角度所在的范围为小于等于5°时，采用人脸识别模式；或者当图像质量判别结果显示图像质量等级为第二级并且人脸角度判别结果显示人脸角度所在的范围为大于5°且小于等于15°或者大于15°时，提醒待认证对象调整人脸角度，当待认证对象将人脸角度调整为小于等于5°时，采用人脸识别模式，否则采用语音识别模式。

在一个优选实施例中，步骤S103可以进一步包括：响应于图像质量判别结果显示图像质量等级为第三级，直接采用语音识别模式。

在一个优选实施例中，步骤S101可以进一步包括：从实时获取到的视频流中采集图像帧，并检测图像帧中是否有人脸，若无人脸，则继续采集图像帧；若有人脸，则将图像帧缩放到预定像素并对图像帧中的人脸区域进行裁剪。

在一个优选实施例中，步骤S102进一步包括利用预先创建并训练的图像质量判别模型根据预处理后的所述人脸图像判别人脸图像的图像质量等级并输出图像质量判别结果，图像质量判别模型的训练过程可以包括以下步骤：获取训练人脸图像、验证人脸图像及测试人脸图像；按照图像质量等级将训练人脸图像分为三类并且给每一类训练人脸图像打标签，标签为图像质量等级，三类训练人脸图像的数量比例为1:1:1；根据带标签的训练人脸图像训练图像质量判别模型，并对训练人脸图像做随机裁剪和翻转，提高网络适用性；每训练预定次数(例如，5000次)，采用验证人脸图像进行验证，当图像质量判别模型对验证人脸图像的分类正确率与对训练人脸图像的分类正确率相差小于验证阈值(例如，<1％)时，停止训练；以及采用测试人脸图像对训练后的图像质量判别模型进行测试，若图像质量判别模型对测试人脸图像的分类正确率达到测试阈值(例如，>95％，可自行设置)，即得到可用的图像质量判别模型；若没有达到测试阈值，则继续调整并重新训练图像质量判别模型，直到得到可用的图像质量判别模型。

在一个优选实施例中，步骤S103进一步包括：响应于图像质量判别结果高于预定等级，选择性利用预先创建并训练的人脸特征点定位及人脸角度判别模型根据预处理后的人脸图像判别人脸角度所在的范围并输出人脸角度判别结果，人脸特征点定位及人脸角度判别模型的训练过程可以包括以下步骤：获取训练人脸图像、验证人脸图像及测试人脸图像；标定训练人脸图像中的人脸特征点并据此确定人脸角度，并且按照人脸角度所在的范围将训练人脸图像分为三类并且给每一类训练人脸图像打标签，标签为人脸角度所在的范围，三类训练人脸图像的数量比例为1:1:1；根据带标签的训练人脸图像训练人脸特征点定位及人脸角度判别模型；每训练预定次数(例如，5000次)，采用验证人脸图像进行验证，当人脸特征点定位及人脸角度判别模型对验证人脸图像的分类正确率与对训练人脸图像的分类正确率相差小于验证阈值时，停止训练；以及采用测试人脸图像对训练后的人脸特征点定位及人脸角度判别模型进行测试，若人脸特征点输出正确且人脸特征点定位及人脸角度判别模型对测试人脸图像的分类正确率达到测试阈值(例如，>95％，可自行设置)，即得到可用的人脸特征点定位及人脸角度判别模型；若人脸特征点输出错误和/或没有达到测试阈值，则继续调整并重新训练人脸特征点定位及人脸角度判别模型，直到得到可用的人脸特征点定位及人脸角度判别模型。

在一个优选实施例中，本发明的图像质量判别模型和人脸特征点定位及人脸角度判别模型为卷积神经网络模型。除此之外，本领域技术人员可以领会的是这两个判别模型也可以采用其他适合的深度学习模型。

基于上述目的，本发明实施例的第二个方面，提出了一种身份认证装置的一个实施例。该身份认证装置可以包括存储器和至少一个处理器，存储器存储有可在处理器上运行的计算机程序，处理器执行该程序时执行上述方法。

如图2中所示，为本发明提供的执行上述方法的身份认证装置的一个实施例的硬件结构示意图。

以如图2所示的身份认证装置为例，在该身份认证装置中包括一个处理器201以及一个存储器202，并还可以包括：输入装置203和输出装置204。

处理器201、存储器202、输入装置203和输出装置204可以通过总线或者其他方式连接，图2中以通过总线连接为例。

存储器202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的身份认证方法。

存储器202可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据身份认证方法的使用所创建的数据等。此外，存储器202可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器202可选包括相对于处理器201远程设置的存储器，这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置203可接收输入的数字或字符信息，以及产生与系统的用户设置以及功能控制有关的键信号输入。输出装置204可包括显示屏等显示设备。

所述方法对应的程序指令/模块存储在所述存储器202中，当被所述处理器201执行时，执行上述任意方法实施例中的方法。

所述身份认证装置的任何一个实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存取存储器(RandomAccess Memory，RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

此外，根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时，执行本发明实施例公开的方法中限定的上述功能。

需要特别指出的是，上述装置的实施例采用了上述方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述方法的其他实施例中。另外，除了上述模块之外，该装置还可以包括能够实现上述所有方法实施例的步骤的模块或子模块。

此外，典型地，本发明实施例公开所述的装置、设备等可为各种电子终端设备，例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等，也可以是大型终端设备，如服务器等，因此本发明实施例公开的保护范围不应限定为某种特定类型的系统、设备。

此外，上述方法步骤以及系统单元或模块也可以利用控制器以及用于存储使得控制器实现上述步骤或单元或模块功能的计算机程序的计算机可读存储介质实现。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行：通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器，但是可替换地，处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器，使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中，所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中，处理器和存储介质可以作为分立组件驻留在用户终端中。

在一个或多个示例性设计中，所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。

以上是本发明公开的示例性实施例，上述本发明实施例公开的顺序仅仅为了描述，不代表实施例的优劣。但是应当注意，以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子，在不背离权利要求限定的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

Claims

1.一种身份认证方法，其特征在于，包括以下步骤：

1)获取待认证对象的人脸图像并对所述人脸图像进行图像预处理；

2)根据预处理后的所述人脸图像判别所述人脸图像的图像质量等级并输出图像质量判别结果；

3)响应于所述图像质量判别结果高于预定等级，根据预处理后的所述人脸图像判别人脸角度所在的范围并输出人脸角度判别结果；以及

4)根据所述图像质量判别结果和所述人脸角度判别结果确定采用人脸识别模式还是语音识别模式并在确定的模式下进行身份认证。

2.根据权利要求1所述的方法，其特征在于，所述图像质量等级根据图像清晰度、亮度以及对比度从高到低分为第一级、第二级以及第三级，所述高于预定等级为所述第二级以上，所述人脸角度为所述人脸图像中的至少三个人脸特征点所在平面的法线与拍摄所述人脸图像的摄像头的镜头所在平面的法线的夹角，并且所述人脸角度所在的范围分为小于等于5°、大于5°且小于等于15°以及大于15°。

3.根据权利要求2所述的方法，其特征在于，所述步骤3)进一步包括：响应于所述图像质量判别结果显示所述图像质量等级为所述第一级和所述第二级，判别人脸角度所在的范围。

4.根据权利要求2所述的方法，其特征在于，所述步骤4)进一步包括：

当所述图像质量判别结果显示所述图像质量等级为所述第一级并且所述人脸角度判别结果显示所述人脸角度所在的范围为小于等于15°时，采用所述人脸识别模式；

当所述图像质量判别结果显示所述图像质量等级为所述第一级并且所述人脸角度判别结果显示所述人脸角度所在的范围为大于15°时，提醒所述待认证对象调整所述人脸角度，当所述待认证对象将所述人脸角度调整为小于等于15°时，采用所述人脸识别模式，否则采用语音识别模式；

当所述图像质量判别结果显示所述图像质量等级为所述第二级并且所述人脸角度判别结果显示所述人脸角度所在的范围为小于等于5°时，采用所述人脸识别模式；或者

当所述图像质量判别结果显示所述图像质量等级为所述第二级并且所述人脸角度判别结果显示所述人脸角度所在的范围为大于5°时，提醒所述待认证对象调整所述人脸角度，当所述待认证对象将所述人脸角度调整为小于等于5°时，采用所述人脸识别模式，否则采用语音识别模式。

5.根据权利要求2所述的方法，其特征在于，所述步骤3)进一步包括：响应于所述图像质量判别结果显示所述图像质量等级为所述第三级，直接采用所述语音识别模式。

6.根据权利要求1所述的方法，其特征在于，所述步骤1)进一步包括：

从实时获取到的视频流中采集图像帧，并检测所述图像帧中是否有人脸，若无人脸，则继续采集图像帧；若有人脸，则将所述图像帧缩放到预定像素并对所述图像帧中的人脸区域进行裁剪。

7.根据权利要求2所述的方法，其特征在于，所述步骤2)进一步包括利用预先创建并训练的图像质量判别模型根据预处理后的所述人脸图像判别所述人脸图像的图像质量等级并输出图像质量判别结果，所述图像质量判别模型的训练过程包括以下步骤：

获取训练人脸图像、验证人脸图像及测试人脸图像；

按照所述图像质量等级将所述训练人脸图像分为三类并且给每一类所述训练人脸图像打标签，标签为所述图像质量等级，三类所述训练人脸图像的数量比例为1:1:1；

根据带标签的所述训练人脸图像训练所述图像质量判别模型；

每训练预定次数，采用所述验证人脸图像进行验证，当所述图像质量判别模型对所述验证人脸图像的分类正确率与对所述训练人脸图像的分类正确率相差小于验证阈值时，停止训练；以及

采用所述测试人脸图像对训练后的所述图像质量判别模型进行测试，若所述图像质量判别模型对所述测试人脸图像的分类正确率达到测试阈值，即确认所述图像质量判别模型可用；若没有达到所述测试阈值，则继续调整并重新训练所述图像质量判别模型，直到得到可用的所述图像质量判别模型。

8.根据权利要求2所述的方法，其特征在于，所述步骤3)进一步包括：响应于所述图像质量判别结果高于预定等级，选择性利用预先创建并训练的人脸特征点定位及人脸角度判别模型根据预处理后的所述人脸图像判别人脸角度所在的范围并输出人脸角度判别结果，所述人脸特征点定位及人脸角度判别模型的训练过程包括以下步骤：

获取训练人脸图像、验证人脸图像及测试人脸图像；

标定所述训练人脸图像中的人脸特征点并据此确定人脸角度，并且按照所述人脸角度所在的范围将所述训练人脸图像分为三类并且给每一类所述训练人脸图像打标签，标签为所述人脸角度所在的范围，三类所述训练人脸图像的数量比例为1:1:1；

根据带标签的所述训练人脸图像训练所述人脸特征点定位及人脸角度判别模型；

每训练预定次数，采用所述验证人脸图像进行验证，当所述人脸特征点定位及人脸角度判别模型对所述验证人脸图像的分类正确率与对所述训练人脸图像的分类正确率相差小于验证阈值时，停止训练；以及

采用所述测试人脸图像对训练后的所述人脸特征点定位及人脸角度判别模型进行测试，若所述人脸特征点输出正确且所述人脸特征点定位及人脸角度判别模型对所述测试人脸图像的分类正确率达到测试阈值，即确认所述人脸特征点定位及人脸角度判别模型可用；若所述人脸特征点输出错误和/或没有达到所述测试阈值，则继续调整并重新训练所述人脸特征点定位及人脸角度判别模型，直到得到可用的所述人脸特征点定位及人脸角度判别模型。

9.根据权利要求7-8中任意一项所述的方法，其特征在于，所述图像质量判别模型和所述人脸特征点定位及人脸角度判别模型为卷积神经网络模型。

10.一种身份认证装置，包括：

至少一个处理器；和

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-9中任意一项所述的方法。