CN109815806A

CN109815806A - 人脸识别方法及装置、计算机设备、计算机存储介质

Info

Publication number: CN109815806A
Application number: CN201811554534.3A
Authority: CN
Inventors: 苏玉峰; 周剀; 石志娟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-28
Anticipated expiration: 2038-12-19

Abstract

本发明提供了一种人脸识别方法及装置、计算机设备、计算机存储介质，其中，该方法包括：采集目标用户响应预设语句时的音频数据和视频数据；根据所述音频数据获取所述目标用户的语音信息，以及根据所述视频数据获取所述目标用户的面部动作信息；根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。通过本发明，解决了现有技术中人脸识别率低的技术问题，提高了人脸识别的效率。

Description

人脸识别方法及装置、计算机设备、计算机存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种人脸识别方法及装置、计算机设备、计算机存储介质。

背景技术

人脸识别系统，通常是指利用分析对比人脸视觉特征信息进行身份鉴别的计算机技术，人脸识别系统，相对于通过钥匙、射频信号识别、蓝牙识别等传统的识别方式，具有便携、不易改变、且不易丢失的优势。

现有技术中的人脸识别都是直接采集用户的在无表情下的脸部特征，然后识别与预先存入的脸部特征是否相同，但这样识别率较低，在其他用户的脸部特征比较相似时，一般都可以混过去。

针对现有技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种人脸识别方法及装置、计算机设备、计算机存储介质，以至少解决现有技术中人脸识别率低的技术问题。

根据本发明的一个实施例，提供了一种人脸识别方法，包括：采集目标用户响应预设语句时的音频数据和视频数据；根据所述音频数据获取所述目标用户的语音信息，以及根据所述视频数据获取所述目标用户的面部动作信息；根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

可选的，根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别包括：判断所述预设语句的内容与所述语音信息是否一致；若所述预设语句的内容与所述语音信息一致，判断所述面部动作信息与预设面部特征信息是否匹配；若所述面部动作信息与所述预设面部特征信息匹配，判断所述面部动作信息与所述语音信息的吻合度是否大于吻合度阈值；在所述面部动作信息与所述语音信息的吻合度大于吻合度阈值时，确定通过所述目标用户的人脸识别。

可选的，所述语音信息包括文字信息和韵律信息，判断所述预设语句的内容与所述语音信息是否一致包括：识别所述语音信息，得到文字信息和韵律信息；判断所述文字信息与预设语句的预设文字是否一致，以及判断所述韵律信息与预设语句的预设韵律是匹配；在所述文字信息与预设语句的预设文字一致，以及所述韵律信息与预设语句的预设韵律匹配时，确定预设语句的内容与所述语音信息一致。

可选的，判断所述韵律信息与预设语句的预设韵律是匹配包括：判断所述韵律信息与预设语句的预设韵律的以下至少之一是否匹配：音阶，音律，音量，音节；和/或，判断完成所述预设语句所用的时长与预设时长的时间差是否小于第一预设阈值；和/或，判断所述预设语句的字间隔时间与预设间隔时长的时间差是否小于第二预设阈值，其中，所述预设时长，所述预设间隔时长与所述预设语句对应。

可选的，判断所述面部动作信息与预设面部特征信息是否匹配包括：定位所述目标用户的面部区域，其中，所述面部区域包括：嘴部区域，脸部区域、下巴区域；提取所述面部区域的动作特征，其中，所述动作特征包括：嘴部特征，脸部特征，下巴特征；分别判断所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征是否匹配；在所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征均匹配时，确定所述面部动作信息与预设面部特征信息匹配。

可选的，判断所述嘴部特征与预设面部特征信息中的预设嘴部特征是否匹配包括：确定所述嘴部特征中的张嘴状态和闭嘴状态；分别判断在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，是否与预设间距和预设跨度匹配，其中，所述预设嘴部特征包括所述预设间距和所述预设跨度；

在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，与预设间距和预设跨度匹配时，确定所述嘴部特征与预设面部特征信息中的预设嘴部特征匹配。

可选的，判断所述下巴特征与预设面部特征信息中的预设下巴特征是否匹配包括：确定所述下巴特征中的伸长状态和收缩状态；判断在伸长状态下巴伸长到最长时，下巴与第一参考点之间的延伸距离，是否与预设延伸距离匹配，其中，所述预设下巴特征包括所述预设延伸距离；在所述延伸距离与预设延伸距离匹配时，确定所述下巴特征与预设面部特征信息中的预设下巴特征匹配。

根据本发明的另一个实施例，提供了一种人脸识别装置，包括：采集模块，用于采集目标用户响应预设语句时的音频数据和视频数据；获取模块，用于根据所述音频数据获取所述目标用户的语音信息，以及根据所述视频数据获取所述目标用户的面部动作信息；识别模块，用于根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

可选的，所述识别模块包括：第一判断单元，用于判断所述预设语句的内容与所述语音信息是否一致；第二判断单元，用于若所述预设语句的内容与所述语音信息一致，判断所述面部动作信息与预设面部特征信息是否匹配；第三判断单元，用于若所述面部动作信息与所述预设面部特征信息匹配，判断所述面部动作信息与所述语音信息的吻合度是否大于吻合度阈值；确定单元，用于在所述面部动作信息与所述语音信息的吻合度大于吻合度阈值时，确定通过所述目标用户的人脸识别。

可选的，所述语音信息包括文字信息和韵律信息，所述第一判断单元还包括：识别子单元，用于识别所述语音信息，得到文字信息和韵律信息；判断子单元，用于判断所述文字信息与预设语句的预设文字是否一致，以及判断所述韵律信息与预设语句的预设韵律是匹配；确定子单元，用于在所述文字信息与预设语句的预设文字一致，以及所述韵律信息与预设语句的预设韵律匹配时，确定预设语句的内容与所述语音信息一致。

可选的，所述判断子单元还用于：判断所述韵律信息与预设语句的预设韵律的以下至少之一是否匹配：音阶，音律，音量，音节；和/或，判断完成所述预设语句所用的时长与预设时长的时间差是否小于第一预设阈值；和/或，判断所述预设语句的字间隔时间与预设间隔时长的时间差是否小于第二预设阈值，其中，所述预设时长，所述预设间隔时长与所述预设语句对应。

可选的，所述第二判断单元包括：定位子单元，用于定位所述目标用户的面部区域，其中，所述面部区域包括：嘴部区域，脸部区域、下巴区域；提取子单元，用于提取所述面部区域的动作特征，其中，所述动作特征包括：嘴部特征，脸部特征，下巴特征；判断子单元，用于分别判断所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征是否匹配；确定子单元，用于在所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征均匹配时，确定所述面部动作信息与预设面部特征信息匹配。

可选的，所述判断子单元还用于：确定所述嘴部特征中的张嘴状态和闭嘴状态；分别判断在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，是否与预设间距和预设跨度匹配，其中，所述预设嘴部特征包括所述预设间距和所述预设跨度；在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，与预设间距和预设跨度匹配时，确定所述嘴部特征与预设面部特征信息中的预设嘴部特征匹配。

可选的，所述判断子单元还用于：确定所述下巴特征中的伸长状态和收缩状态；判断在伸长状态下巴伸长到最长时，下巴与第一参考点之间的延伸距离，是否与预设延伸距离匹配，其中，所述预设下巴特征包括所述预设延伸距离；在所述延伸距离与预设延伸距离匹配时，确定所述下巴特征与预设面部特征信息中的预设下巴特征匹配。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于同时采集了用户基于预设语句产生的音频和视频，在识别后，结合音频中的语音信息和视频中的面部动作信息进行人脸识别，解决了现有技术中人脸识别率低的技术问题，提高了人脸识别的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种人脸识别方法的移动终端的硬件结构框图；

图2是根据本发明实施例的人脸识别方法的流程图；

图3是本发明实施例基于预设语句进行人脸识别的示意图；

图4是本发明实施例根据语音信息和面部动作信息进行人脸识别的流程图；

图5是根据本发明实施例的人脸识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种人脸识别方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的人脸识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种人脸识别方法，图2是根据本发明实施例的人脸识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，采集目标用户响应预设语句时的音频数据和视频数据；

可选的，预设语句可以先出或者不显示出来，或者只显示提示信息(如：我的口号是？)，由于用户预先已经设置好，所以只有用户本人知道，可以防止别人偷窥。预设语句对比与随机语句，安全性要大得多，主要是，预设语句相关的识别信息可以提前保存在本地，并进行处理，用户后续需要重复预设语句相同的识别场景(在特定的人脸动作下说话)，如果是随机语句，那机器解析出该随机语句的识别信息也只能是实时的，机器需要先解析出识别信息才能进行人脸识别，通过改为预设语句，机器可以提前将与预设语句对应的识别信息设置好，提高了识别速度；而且预设语句可以不用在界面显示，提高了安全性。

在显示该预设语句时，可以显示文字、单词、拼音的一项或多项组合，并通过文字、图片、或语音的形式展示所述语句的内容。该预设语句包含的信息除了文字之外，还包括说话的韵律信息，而该韵律信息是用户预先采集和录制好的，如，预设语句是“当当当当当”，韵律分别是：第一声、第二声、第一声、第一声、第四声，当然还包括各个字之间的间隔。在采集时，可以通过设备上的摄像头和麦克风进行采集。

步骤S204，根据所述音频数据获取用户的语音信息，以及根据所述视频数据获取用户的面部动作信息；

步骤S206，根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

通过上述步骤，由于同时采集了用户基于预设语句产生的音频和视频，在识别后，结合音频中的语音信息和视频中的面部动作信息进行人脸识别，解决了现有技术中人脸识别率低的技术问题，提高了人脸识别的效率。

可选地，上述步骤的执行主体可以为人脸识别终端，如考勤终端，身份识别终端，具备人脸识别的设备等，但不限于此。图3是本发明实施例基于预设语句进行人脸识别的示意图，通过提示语“我的口号”向用户提示预设语句。

在本实施例的一个可选实施方式中，语音信息和所述面部动作信息按照一定的时序关系结合起来识别，图4是本发明实施例根据语音信息和面部动作信息进行人脸识别的流程图，根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别包括：

S402，判断所述预设语句的内容与所述语音信息是否一致；

S404，若所述预设语句的内容与所述语音信息一致，判断所述面部动作信息与预设面部特征信息是否匹配；

S406，若所述面部动作信息与所述预设面部特征信息匹配，判断所述面部动作信息与所述语音信息的吻合度是否大于吻合度阈值；

可选的，判断所述面部动作信息与所述语音信息的吻合度是否大于所述吻合度阈值包括：通过嘴部区域的动作信息，生成唇动区间；通过所述语音识别技术识别对所述语音信息进行识别，生成语音区间；对比所述唇动区间与所述语音区间，生成所述唇部动作信息与所述语音信息的吻合度；判断所述吻合度是否满足所述预定规则。对比唇动区间与所述语音区间包括，以时间为基准，比较每个相同时间区间内，用户说的字和对应的脸部动作是否匹配，在匹配时，则通过。通过比对用户在说话时的面部动作和语音，可以防止用录音伪造用户的声音。

S408，在所述面部动作信息与所述语音信息的吻合度大于吻合度阈值时，确定通过所述目标用户的人脸识别。

在本实施例中，所述语音信息包括文字信息和韵律信息，判断所述预设语句的内容与所述语音信息是否一致包括：

S11，识别所述语音信息，得到文字信息和韵律信息；

S12，判断所述文字信息与预设语句的预设文字是否一致，以及判断所述韵律信息与预设语句的预设韵律是匹配；或者，在文字信息匹配时，再识别语音信息得到对应音频的韵律信息，进而判断韵律信息是否匹配；

可选的，判断所述韵律信息与预设语句的预设韵律是匹配包括：判断所述韵律信息与预设语句的预设韵律的以下至少之一是否匹配：音阶，音律，音量，音节；和/或，判断完成所述预设语句所用的时长与预设时长的时间差是否小于第一预设阈值；和/或，判断所述预设语句的字间隔时间与预设间隔时长的时间差是否小于第二预设阈值，其中，所述预设时长，所述预设间隔时长与所述预设语句对应。如，预设语句是“我是孙悟空”，其中，“我”与“空”之间的时长，“我”与“是”之间的间隔，将这些特征与预先设置的识别项(预设时长，预设间隔时长)进行匹配，如小于阈值，则认为匹配。

S13，在所述文字信息与预设语句的预设文字一致，以及所述韵律信息与预设语句的预设韵律匹配时，确定预设语句的内容与所述语音信息一致。

由于用户在说话时，脸部会发生变化，而每个人的变化特征是不同，因此，不同的人在说相同的语句时，面部动作信息不同。在本实施例中，判断所述面部动作信息与预设面部特征信息是否匹配包括：

S21，定位所述目标用户的面部区域，其中，所述面部区域包括：嘴部区域，脸部区域、下巴区域；

S22，提取所述面部区域的动作特征，其中，所述动作特征包括：嘴部特征，脸部特征，下巴特征；

S23，分别判断所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征是否匹配；

S24，在所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征均匹配时，确定所述面部动作信息与预设面部特征信息匹配。

下面分别对嘴部特征，脸部特征，下巴特征的识别判断进行说明：

在一个示例中，对于嘴部特征，判断所述嘴部特征与预设面部特征信息中的预设嘴部特征是否匹配包括：确定所述嘴部特征中的张嘴状态和闭嘴状态；分别判断在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，是否与预设间距和预设跨度匹配，其中，所述预设嘴部特征包括所述预设间距和所述预设跨度；在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，与预设间距和预设跨度匹配时，确定所述嘴部特征与预设面部特征信息中的预设嘴部特征匹配。

在一个示例中，对于下巴特征，判断所述下巴特征与预设面部特征信息中的预设下巴特征是否匹配包括：确定所述下巴特征中的伸长状态和收缩状态；判断在伸长状态下巴伸长到最长时，下巴与第一参考点之间的延伸距离，是否与预设延伸距离匹配，其中，所述预设下巴特征包括所述预设延伸距离；在所述延伸距离与预设延伸距离匹配时，确定所述下巴特征与预设面部特征信息中的预设下巴特征匹配。如，预设语句是“我是孙悟空”，用户在说出这句话时，下巴在伸长状态为4次，收缩状态为5次，选择每次下巴伸长到最长时，计算下巴与第一参考点(如鼻尖、眼部等固定的点)之间的距离，同时，还可以计算下巴每次在收缩状态时，与第二参考点(第一参考点与第二参考点可以相同或不同)之间的距离。为了减小误差，还可以进一步分别计算出均值和方差，与预设值进行比较，在低于匹配阈值，则匹配通过。

在一个示例中，对于脸部特征，由于在说话时，脸部仅存在部分区域的变化，可以采用基于区域的算法，在视频的图像帧中提取出以嘴部为中心的预设区域，随机选择n张图片，或者根据时间轴的变化，平均选择n张图片，或者根据脸部的变化幅度和形状，选择用户在不同脸型下的n张图片，通过对图片的区域的形状特征进行处理，根据图片中的特征点的分布，计算得到特征向量值，通过对比区域特征和预设值，来实现匹配。相比于对整幅图像进行处理，区域识别的计算量和受细节的影响都要小得多。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种人脸识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的人脸识别装置的结构框图，如图5所示，该装置包括：

采集模块50，用于采集目标用户响应预设语句时的音频数据和视频数据；

获取模块52，用于根据所述音频数据获取所述目标用户的语音信息，以及根据所述视频数据获取所述目标用户的面部动作信息；

识别模块54，用于根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

通过使用本实施例的装置，由于同时采集了用户基于预设语句产生的音频和视频，在识别后，结合音频中的语音信息和视频中的面部动作信息进行人脸识别，解决了现有技术中人脸识别率低的技术问题，提高了人脸识别的效率。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，采集目标用户响应预设语句时的音频数据和视频数据；

S2，根据所述音频数据获取所述目标用户的语音信息，以及根据所述视频数据获取所述目标用户的面部动作信息；

S3，根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，采集目标用户响应预设语句时的音频数据和视频数据；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸识别方法，其特征在于，包括：

采集目标用户响应预设语句时的音频数据和视频数据；

根据所述音频数据获取所述目标用户的语音信息，以及根据所述视频数据获取所述目标用户的面部动作信息；

根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

2.根据权利要求1所述的方法，其特征在于，根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别包括：

判断所述预设语句的内容与所述语音信息是否一致；

若所述预设语句的内容与所述语音信息一致，判断所述面部动作信息与预设面部特征信息是否匹配；

若所述面部动作信息与所述预设面部特征信息匹配，判断所述面部动作信息与所述语音信息的吻合度是否大于吻合度阈值；

在所述面部动作信息与所述语音信息的吻合度大于吻合度阈值时，确定通过所述目标用户的人脸识别。

3.根据权利要求2所述的方法，其特征在于，所述语音信息包括文字信息和韵律信息，判断所述预设语句的内容与所述语音信息是否一致包括：

识别所述语音信息，得到文字信息和韵律信息；

判断所述文字信息与预设语句的预设文字是否一致，以及判断所述韵律信息与预设语句的预设韵律是匹配；

在所述文字信息与预设语句的预设文字一致，以及所述韵律信息与预设语句的预设韵律匹配时，确定预设语句的内容与所述语音信息一致。

4.根据权利要求3所述的方法，其特征在于，判断所述韵律信息与预设语句的预设韵律是匹配包括：

判断所述韵律信息与预设语句的预设韵律的以下至少之一是否匹配：音阶，音律，音量，音节；和/或，判断完成所述预设语句所用的时长与预设时长的时间差是否小于第一预设阈值；和/或，判断所述预设语句的字间隔时间与预设间隔时长的时间差是否小于第二预设阈值，其中，所述预设时长，所述预设间隔时长与所述预设语句对应。

5.根据权利要求2所述的方法，其特征在于，判断所述面部动作信息与预设面部特征信息是否匹配包括：

定位所述目标用户的面部区域，其中，所述面部区域包括：嘴部区域，脸部区域、下巴区域；

提取所述面部区域的动作特征，其中，所述动作特征包括：嘴部特征，脸部特征，下巴特征；

分别判断所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征是否匹配；

在所述嘴部特征，所述脸部特征，所述下巴特征与预设面部特征信息中的预设嘴部特征，预设脸部特征，预设下巴特征均匹配时，确定所述面部动作信息与预设面部特征信息匹配。

6.根据权利要求5所述的方法，其特征在于，判断所述嘴部特征与预设面部特征信息中的预设嘴部特征是否匹配包括：

确定所述嘴部特征中的张嘴状态和闭嘴状态；

分别判断在所述张嘴状态时上唇与下唇间的间距，从张嘴状态到闭嘴状态的时间跨度，是否与预设间距和预设跨度匹配，其中，所述预设嘴部特征包括所述预设间距和所述预设跨度；

7.根据权利要求5所述的方法，其特征在于，判断所述下巴特征与预设面部特征信息中的预设下巴特征是否匹配包括：

确定所述下巴特征中的伸长状态和收缩状态；

判断在伸长状态下巴伸长到最长时，下巴与第一参考点之间的延伸距离，是否与预设延伸距离匹配，其中，所述预设下巴特征包括所述预设延伸距离；

在所述延伸距离与预设延伸距离匹配时，确定所述下巴特征与预设面部特征信息中的预设下巴特征匹配。

8.一种人脸识别装置，其特征在于，包括：

采集模块，用于采集目标用户响应预设语句时的音频数据和视频数据；

获取模块，用于根据所述音频数据获取用户的语音信息，以及根据所述视频数据获取用户的面部动作信息；

识别模块，用于根据所述语音信息和所述面部动作信息对所述目标用户进行人脸识别。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。