CN111684444A

CN111684444A - 一种身份验证方法、终端设备、存储介质

Info

Publication number: CN111684444A
Application number: CN201980010278.8A
Authority: CN
Inventors: 艾静雅; 柳彤; 朱大卫; 汤慧秀
Original assignee: Shenzhen Haifu Yitong Technology Co ltd
Current assignee: Shenzhen Haifu Yitong Technology Co ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2020-09-18
Also published as: WO2021007856A1

Abstract

本申请公开了一种身份验证方法、终端设备、存储介质，该方法包括：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧；对待检测语音进行语音识别；在语音识别通过后，对多个连续的待检测图像帧进行唇形识别；在唇形识别通过后，响应设定操作指令。通过上述方式，实现验证方式难复制、抗遗忘、不接触等特点，提高身份验证的准确性，让终端设备的使用更加安全。

Description

一种身份验证方法、终端设备、存储介质

技术领域

本申请涉及身份验证技术领域，具体涉及一种身份验证方法、终端设备、存储介质。

背景技术

随着社会发展，人们对终端设备的使用越来越依赖，而出于安全及隐私考虑，终端设备使用时都需要进行身份验证来识别当前用户是否有权限使用，如大部分的智能手机都需要解锁屏幕、终端设备部分隐私内容会加密。

相关的身份验证方式如指纹验证、字符验证等，指纹验证无法做到不接触快速验证的处理，而字符验证存在易遗忘、易复制等不足，并且指纹验证方式只能保证人的特征被有效验证，不能保证是真人，有可能是指纹膜。

发明内容

本申请主要解决的问题是提供一种身份验证方法、终端设备、存储介质，实现验证方式难复制、抗遗忘、不接触等特点，提高身份验证的准确性，让终端设备的使用更加安全。

为解决上述技术问题，本申请采用的技术方案是提供一种身份验证方法，该方法包括：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧；对待检测语音进行语音识别；在语音识别通过后，对多个连续的待检测图像帧进行唇形识别；在唇形识别通过后，响应设定操作指令。

其中，对多个连续的待检测图像帧进行唇形识别，包括：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；判断识别文字信息是否为预设白名单中的文字信息；若是，则确定唇形识别通过。

其中，该方法还包括：获取用户录入的文字信息；将录入的文字信息加入白名单中。

其中，对多个连续的待检测图像帧进行唇形识别，包括：

对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；判断识别文字信息是否为预设黑名单中的文字信息；若是，则确定唇形识别不通过。

其中，该方法还包括：将白名单中的至少一段文字信息加入黑名单中，并将文字信息在白名单中删除。

其中，终端设备在获取到设定操作指令时，采集待检测视频，包括：终端设备在获取到设定操作指令时，在显示屏上显示标准文字信息，采集待检测视频；对多个连续的待检测图像帧进行唇形识别，包括：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；判断识别文字信息与标准文字信息是否相同；若是，则确定唇形识别通过。

其中，显示标准文字信息，包括：从数据库中的多个文字信息中随机选择一个文字信息作为标准文字信息，并显示标准文字信息。

其中，对多个连续的待检测图像帧进行唇形识别，以得到文字信息，包括：提取多个待检测图像的人脸信息；从多个人脸信息中提取多个连续变化的唇形特征；基于多个连续变化的唇形特征，得到识别文字信息。

其中，基于多个连续变化的唇形特征，得到识别文字信息，包括：将多个连续变化的唇形特征输入至唇形识别模型，以使唇形识别模型识别出对应的发音信息，并基于发音信息，计算出对应的识别文字信息。

其中，对待检测语音进行语音识别，包括：提取待检测语音中的声纹信息；对声纹信息进行声纹识别。

其中，对声纹信息进行声纹识别，包括：从声纹信息中提取声纹特征信息；将声纹特征信息与预存的标准声纹特征信息进行相似度比对；在相似度比对的结果满足预设要求时，确定声纹识别通过。

其中，设定操作指令为支付操作指令；在唇形识别通过后，响应设定操作指令，包括：在唇形识别通过后，响应支付操作指令，以完成相应的支付。

为解决上述技术问题，本申请采用的另一技术方案是提供一种终端设备，该终端设备包括处理器以及与处理器连接的摄像头模组、麦克风模组以及存储器；存储器用于存储程序数据，处理器用于执行程序数据，以实现如上述的方法。

为解决上述技术问题，本申请采用的另一技术方案是提供一种计算机存储介质，该计算机存储介质用于存储程序数据，程序数据在被处理器执行时，用于实现如上述的方法。

为解决上述技术问题，本申请采用的另一技术方案是提供一种终端设备，该终端设备包括：采集模块，用于在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧；第一识别模块，用于对待检测语音进行语音识别；第二识别模块，用于在语音识别通过后，对多个连续的待检测图像帧进行唇形识别；响应模块，用于在唇形识别通过后，响应设定操作指令。

通过上述方案，本申请的有益效果是：区别于现有技术中，本申请的一种身份验证方法，通过语音识别与唇形识别相结合，实现验证方式难复制、抗遗忘、不接触等特点，提高身份验证的准确性，让终端设备的使用更加安全。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请提供的身份验证方法第一实施例的流程示意图；

图2是本申请提供的身份验证方法第二实施例的流程示意图；

图3是本申请提供的身份验证方法第三实施例的流程示意图；

图4是本申请提供的身份验证方法第四实施例的流程示意图；

图5是本申请提供的身份验证方法第五实施例的流程示意图；

图6是本申请提供的身份验证方法第六实施例的流程示意图；

图7是本申请提供的终端设备第一实施例的结构示意图；

图8是本申请提供的终端设备第二实施例的结构示意图；

图9是本申请提供的计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1是本申请提供的身份验证方法第一实施例的流程示意图，该方法包括：

步骤11：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧。

终端设备在获取到设定操作指令时，打开摄像头模组和麦克风模组，采集待检测视频，待检测视频包括采集的视频中的待检测语音和多个连续的待检测图像帧。

可选的，采集的待检测视频中的待检测语音为用户随机说的一段文字，并且将待检测视频分为待检测语音和多个连续的代检测图像帧。

可选的，采集的待检测视频可以是通过终端设备显示屏显示一段文字，由用户正面面对摄像头读出此段文字所采集的视频。

在本实施例中，终端设备可以是移动终端，如智能手机、平板电脑、可穿戴设备等，设定操作指令可以是解锁屏幕指令，当设备终端获取到解锁屏幕指令时，打开摄像头和麦克风，采集当前摄像头拍摄范围内的视频信息。

步骤12：对待检测语音进行语音识别。

可选的，进行语音识别的方式可以是声纹识别。

具体地，将待检测语音进行语音信号预处理，如预加重、分帧、加窗等预处理操作。

语音信号的预加重目的是为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率。

语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变)，这样就可以把语音信号分为一些短段来来进行处理，这就是分帧。

加窗的目的是使全局更加连续，避免出现吉布斯效应。加窗之后，原本没有周期性的语音信号呈现出周期函数的部分特征。

预处理后进行声纹特征提取，如声强、响度、音高、基音周期、信噪比、谐噪比、频率微扰、振辐微扰、规范化噪声能量、梅尔倒谱系数、短时能量、短时平均幅度、短时平均过零率、共振峰、声门波等。

频率微扰是描述相邻周期之间声波基本频率变化的物理量。主要反映粗糙声程度，其次反映嘶哑声程度。

振幅微扰描述相邻周期之间声波幅度的变化，主要反映嘶哑声程度。

短时能量和短时平均幅度的有作用主要是：作为区分清浊音，区分声母韵母，区分有话段和无话段的指标。

特征提取后进行声纹建模，在建模完成后，就可以进行识别比对。

在一应用场景中，终端设备中设置有声纹信息的白名单。当进行声纹识别时，只需要被识别声纹匹配上白名单中任意一个声纹信息，即可通过语音识别。

在另一应用场景中，终端设备仅支持一个用户使用，当进行声纹识别时，匹配上预设的目标用户的声纹信息即可通过语音识别。

步骤13：在语音识别通过后，对多个连续的待检测图像帧进行唇形识别。

可选的，首先在语音识别通过后，识别多个连续的图像帧中的人脸信息，然后提取人脸中连续的唇形变化特征，再进行唇形单元匹配，将唇形特征输入到唇形识别模型中，识别出对应的发音，再将识别出的发音与密码字符进行匹配，得到用户说出的文字信息。

唇形识别模型是通过复杂端到端深度神经网络技术进行唇形序列建模，建立词汇表。

在本实施中，可以由终端设备语音播报一段文字，由用户正面面对摄像头读出此段文字，采集此时读文字的视频信息，将视频信息分为语音信息和多个连续的图像帧信息，先对语音信息进行语音识别，语音识别通过后，将连续图像帧进行唇形特征提取，通过唇形识别模型识别出对应发音，将对应发音进行密码字符匹配，得出文字信息，将此文字信息与终端设备语音播报的文字信息进行匹配，匹配通过，则执行步骤14。

在本实施例中，可以由终端设备的显示屏显示一段文字，由用户正面面对摄像头读出此段文字，采集此时读文字的视频信息，将视频信息分为语音信息和多个连续的图像帧信息，先对语音信息进行语音识别，语音识别通过后，将连续图像帧进行唇形特征提取，通过唇形识别模型识别出对应发音，将对应发音进行密码字符匹配，得出文字信息，将此文字信息与终端设备语音播报的文字信息进行匹配，匹配通过，则执行步骤14。可以理解，终端设备显示的文字可以是预设的文字信息，也可以是随机的文字信息。

步骤14：在唇形识别通过后，响应设定操作指令。

在唇形识别通过后，若设定操作指令为解锁屏幕，则终端设备解锁屏幕，显示屏幕内容；若设定操作指令为解锁终端设备私密相册，则终端设备解锁私密相册，展示私密相册的相片；若设定操作指令为支付指令，则终端设备完成相应的支付；若设定操作指令为查看私密信息，则终端设备展示私密信息。

在一个应用场景中，用户需要使用终端设备进行账单支付时，终端设备获取到支付指令，提示用户进行面对摄像头说一段文字，采集说文字的视频信息，对视频信息进行语音和图像帧的拆分，先对语音进行识别，识别通过后，将图像帧信息进行唇形特征提取，进行唇形识别，在唇形识别通过后，终端设备完成相应的支付。

在另一个应用场景中，用户点击终端设备上的一应用程序，此时应用程序需要身份验证，终端设备获取到操作指令，在显示屏上显示文字信息，提示用户读出文字信息，并采集此时的视频信息，视频信息包括语音和连续的图像帧，先进行语音识别，语音识别通过后，将图像帧信息进行唇形提取，进行唇形识别，在唇形识别通过后，解锁应用程序。

区别于现有技术的情况，本申请的一种应用程序的操作方法，一种身份验证方法，该方法包括：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧；对待检测语音进行语音识别；在语音识别通过后，对多个连续的待检测图像帧进行唇形识别；在唇形识别通过后，响应设定操作指令。通过上述方式，实现验证方式难复制、抗遗忘、不接触等特点，提高身份验证的准确性，让终端设备的使用更加安全。

参阅图2，图2是本申请提供的身份验证方法第二实施例的流程示意图，该方法包括：

步骤21：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧。

步骤22：对待检测语音进行语音识别。

可选的，语音识别可以是声纹识别。

具体识别方式如上述实施例，这里不做赘述。

步骤23：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息。

唇形识别技术是一种依据说话时嘴唇的动作来解读说话内容的技术，在进行唇形自动识别时，需采集包含说话人嘴唇动作的多张图像或者采集包含说话人嘴唇动作的视频，然后结合图像处理技术、深度学习技术，识别多帧连续图像序列，通过识别多帧连续图像序列中的唇形，将唇形映射到发音，再根据连续时间段内的发音情况确定对应的自然语言词句，即说话内容。

可选的，对多个连续的待检测图像帧提取多个连续的待检测图像帧的人脸信息；从多个人脸信息中提取多个连续变化的唇形特征；将多个连续变化的唇形特征输入至唇形识别模型，以使唇形识别模型识别出对应的发音信息，并基于发音信息，计算出对应的识别文字信息。

具体地，唇形识别模型可以是基于编码器-解码器架构融合时空卷积神经网络的特征提取器和词嵌入网络，并使用注意力机制的端到端的算法模型。其中特征提取器使用的是时空卷积神经网络(STCNN)，编码器-解码器子单元采用的是长短时记忆网络(LSTM)，词嵌入(Embedding)编码方式采用的是Word2vec。

可选的，唇形识别模型可以使用汉语普通话的唇形识别数据集来训练模型，使用改进的多阶段卷积神经网络(MTCNN)提取静默视频中唇部区域，而后将提取的唇部区域送入时空卷积网络STCNN中，用于提取唇部动作的视觉特征信息。基于LSTM的编码器-解码器用于将唇部视觉特征信息进行编码并在模型推断时，将其解码成为相关的文本信息。注意力机制可以使得模型解码器关注特定位置的编码器编码内容，而不用将整个编码内容都作为解码的依据，进而提高模型解码效果。使用优化后的THULAC(THU Lexical Analyzer forChinese，中文词法分析工具包)来对汉字语句进行分词，分词后的结果送入Word2vec，该部分在网络中的作用本质上来说是充当字符编码的作用。编码器-解码器架构将可变长度序列编码为固定长度表示，并将给定的固定长度向量表示为可变长序列。从概率角度看，该模型是在一个可变长度序列的条件下，使用通用的方法来学习另一个可变长序列的条件概率分布。

可以理解，唇形识别模型可以根据不同语言，采用上述方案或其他相关方案建立不同的数据库，以应用于不同语言地区。

可选的，唇形识别模型可以是通过唇形识别出对应的用户，用于检验语音识别的用户是否属于终端设备的权限用户。

步骤24：判断识别文字信息是否为预设白名单中的文字信息。

可选的，用户在终端设备中录入一些文字信息，并将录入的文字信息加入白名单。

判断当通过唇形检测后识别出的文字信息与白名单中的文字信息相同时，则执行步骤25。

可选的，白名单中的文字可以只有一段，也可以是多段。当白名单中为多段文字时，只需要通过唇形检测后识别出的文字信息是其中任一段即可。

步骤25：确定唇形识别通过。

步骤26：在唇形识别通过后，响应设定操作指令。

在一应用场景中，终端设备包含有私密短信息，需要进行身份验证方可查看。当用户点击查看私密短信息，终端设备响应此操作指令，终端设备通过摄像头和麦克风采集用户读出文字信息的视频，将该视频分为语音和图像，先进行语音识别，语音识别通过后，获取图像中的唇形特征，通过唇形识别模型计算出对应的文字信息，将对应的文字信息与白名单中的预设文字信息进行匹配，匹配成功，则确定唇形识别通过，终端设备则响应设定操作指令，显示私密短信息供用户查看。

参阅图3，图3是本申请提供的身份验证方法第三实施例的流程示意图，该方法包括：

步骤31：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧。

步骤32：对待检测语音进行语音识别。

可选的，在终端设备中设置语音黑名单，当对待检测语音识别时，是出的信息与语音黑名单中的信息匹配，则提示当前用户无法响应操作指令。

步骤33：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息。

可选的，对采集多个连续的待检测图像帧提取多个连续的待检测图像帧中的人脸信息；从多个人脸信息中提取多个连续变化的唇形特征；将多个连续变化的唇形特征输入至唇形识别模型，以使唇形识别模型识别出对应的发音信息，并基于发音信息，计算出对应的识别文字信息。

步骤34：判断识别文字信息是否为预设黑名单中的文字信息。

可选的，用户在终端设备中录入一些文字信息，并将录入的文字信息加入黑名单。

判断当通过唇形检测后识别出的文字信息与黑名单中的文字信息相同时，则执行步骤35。

可选的，黑名单中的文字可以只有一段，也可以是多段。当黑名单中为多段文字时，只需要通过唇形检测后识别出的文字信息是其中任一段即可。

可选的，将白名单中的至少一段文字信息加入黑名单中，并将文字信息在白名单中删除。

步骤35：确定唇形识别不通过。

可选的，当识别出的文字信息与黑名单中的文字信息不同时，将识别出的文字信息与白名单中的文字信息进行匹配，若相同，则唇形识别通过，终端设备响应设定操作指令。

在一应用场景中，用户发现终端设备的白名单中部分文字信息有被盗的风险或已经被盗，则将这部分文字信息从白名单中删除并加入黑名单中，使这部分文字信息用于验证唇形识别出的文字信息是否安全。

在一应用场景中，终端设备的白名单的每段文字信息都是有时效性的。如每段文字信息用于身份验证有时间限制(时间限制可以是两小时、二十小时、四十八小时，具体限制的时间由系统设置或用户需求设置)，当文字信息超过时间限制，终端设备会自动将其删除并加入黑名单中，并提示用户或提示用户该文字信息已超过时间限制或许有安全隐患，请用户自行处理。如每段文字信息用于身份验证有次数限制(次数限制可以是十次、二十次、五十次、一百次，具体限制次数由系统设置或用户需求设置)，当文字信息超过次数限制，终端设备会自动将其删除并加入黑名单中并提示用户或提示用户该文字信息已超过使用次数或许有安全隐患，请用户自行处理。这样保证白名单中文字信息的迭代更新，易于保证信息安全，不易被盗，即使被盗，文字信息也已经在黑名单中，使用该文字信息不能通过身份验证。

参阅图4，图4是本申请提供的身份验证方法第四实施例的流程示意图，该方法包括：

步骤41：终端设备在获取到设定操作指令时，在显示屏上显示标准文字信息，采集待检测视频。

终端设备在显示屏上显示标准文字，提示用户面部正对摄像头读出显示的标准文字，采集用户读出显示的标准文字的视频，将视频分为语音和图像两部分。

可选的，标准文字信息可以是用户提前录入的多个文字信息中的一个。

可选的，标准文字信息可以是从数据库中多个文字信息中随机选择一个文字信息作为标准文字信息。

可选的，标准文字信息可以是从云服务器中随机选择一个文字信息作为标准文字信息。

步骤42：对待检测语音进行语音识别。

步骤43：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息。

可选的，步骤43具体为对多个连续的待检测图像帧提取多个连续的待检测图像帧中的人脸信息；从多个人脸信息中提取多个连续变化的唇形特征；将多个连续变化的唇形特征输入至唇形识别模型，以使唇形识别模型识别出对应的发音信息，并基于发音信息，计算出对应的识别文字信息。

步骤44：判断识别文字信息与标准文字信息是否相同。

判断识别文字信息与标准文字信息是否相同，若相同执行步骤45。

步骤45：确定唇形识别通过。

步骤46：响应设定操作指令。

确定唇形识别通过后，终端设备响应设定操作指令，完成相应操作。

参阅图5，图5是本申请提供的身份验证方法第五实施例的流程示意图，该方法包括：

步骤51：终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧。

可选的，如未提取到待检测图像帧的人脸图像，终端设备将会重新采集视频并提示用户正面面对摄像头，以便于采集待检测视频。

步骤52：提取待检测语音中的声纹信息。

可选的，提取声纹信息前对语音进行预处理。

步骤53：从声纹信息中提取声纹特征信息。

可选的，提取的声纹特征可以是声强、响度、音高、基音周期、信噪比、谐噪比、频率微扰、振辐微扰、规范化噪声能量、梅尔倒谱系数、短时能量、短时平均幅度、短时平均过零率、共振峰、声门波等。

例如：共振峰的提取过程可以是第一步进行预加重，第二步进行希尔伯特变换得到原始值信号的解析信号，第三步是四个自适应共振峰滤波器。每个滤波器由一个全零点滤波器和一个单极点的动态追踪滤波器组成。这个滤波器的作用是在对每一个共振峰值进行估算之前，对其进行动态滤波，抑制相邻共振峰的干扰和基频干扰。第四步包括清浊音检测，性别检测(根据基频)，能量检测。性别检测的目的是针对男女共振峰的差异性给定不同的滤波初值。能量检测是为了滤除无话段，类似于端点检查，清浊音检测是为了滤除清音，因为清音不含共振峰。最后通过移动平均值作决策，符合条件的值作为共振峰估计值保留，不符合条件的值用其移动平均值代替。

步骤54：将声纹特征信息与预存的标准声纹特征信息进行相似度比对。

可选的，预存的标准声纹特征信息为用户提前采集的语音信息所提取出的声纹特征信息。预存的标准声纹特征信息可以以组为单位，每组里的声纹特征信息构成一单独个体，这样终端设备里可以预存多组标准声纹特征信息。

步骤55：在相似度比对的结果满足预设要求时，确定声纹识别通过。

可选的，相似度的比对方式可以是以单个特征与单个标准声纹特征进行比对，然后将多个单个特征的比对结果相乘，相乘的结果大于一个预设值时，确定声纹识别通过。以单个特征为信噪比、梅尔倒谱系数、共振峰为例，信噪比的相似度比对值为0.95、梅尔倒谱系数的相似度比对值为0.85、共振峰的相似度比对值为0.99，将三个比对值相乘为0.95*0.85*0.99≈0.8，预设值为0.75，0.8>0.75，所以相似度比对结果大于预设要求，确定声纹识别通过。

可选的，相似度的比对方式可以是以整体特征与整体标准声纹特征进行比对，比对结果大于预设值时，确定声纹识别通过。

步骤56：在语音识别通过后，对多个连续的待检测图像帧进行唇形识别。

步骤57：在唇形识别通过后，响应设定操作指令。

在其他实施例中，在上述进行声纹识别后，还可以进行语义识别，将通过语义识别出的文字信息作为标准文字信息，将唇形识别出的文字信息与语义识别的文字信息进行比对。在比对的结果满足预设要求时，确认唇形识别通过。终端设备响应设定操作指令。

参阅图6，图6是本申请提供的身份验证方法第六实施例的流程示意图，该方法包括：

步骤61：终端设备在获取到支付操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧。

步骤62：对待检测语音进行语音识别。

步骤63：在语音识别通过后，对多个连续的待检测图像帧进行唇形识别。

步骤64：在唇形识别通过后，响应支付操作指令，以完成相应的支付。

在一应用场景中，当终端设备获取到支付操作指令时，如支付金额属于小额支付，则可以跳过步骤62中的语音识别，只需要当前用户正确读出设置于白名单中的任一段文字信息，当唇形识别通过后，终端设备响应支付操作指令，完成相应支付。

在另一应用场景中，当终端设备获取到支付操作指令时，采集待检测视频。当前用户通过语音识别，确定当前用户在终端设备拥有权限。对视频中的多个连续的图像帧进行唇形识别。当唇形识别通过后，终端设备响应支付操作指令，完成相应支付。

在另一应用场景中，用户发现终端设备中白名单中的文字信息出现安全隐患，如被他人盗取，则将有安全隐患的文字信息删除并加入黑名单。这样，即使通过了语音识别，当唇形识别出文字信息为黑名单中的文字信息时，终端设备立即锁死，结束响应操作指令。

在另一应用场景中，终端设备的用户分为不同权限的身份，最高权限用户可以快速更新白名单，以及确定支付权限用户名单，并且可以随时更改支付权限用户名单。

参阅图7，图7是本申请提供的终端设备第一实施例的结构示意图，该终端设备70包括处理器71以及与处理器71连接的摄像头模组72、麦克风模组73以及存储器74；存储器74用于存储程序数据，处理器71用于执行程序数据，以实现以下方法：

终端设备在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧；对待检测语音进行语音识别；在语音识别通过后，对多个连续的待检测图像帧进行唇形识别；在唇形识别通过后，响应设定操作指令。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；判断识别文字信息是否为预设白名单中的文字信息；若是，则确定唇形识别通过。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：获取用户录入的文字信息；将录入的文字信息加入白名单中。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；判断识别文字信息是否为预设黑名单中的文字信息；若是，则确定唇形识别不通过。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：将白名单中的至少一段文字信息加入黑名单中，并将文字信息在白名单中删除。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：终端设备在获取到设定操作指令时，在显示屏上显示标准文字信息，采集待检测视频；对多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；判断识别文字信息与标准文字信息是否相同；若是，则确定唇形识别通过。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：从数据库中的多个文字信息中随机选择一个文字信息作为标准文字信息，并显示标准文字信息。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：提取多个待检测图像的人脸信息；从多个人脸信息中提取多个连续变化的唇形特征；基于多个连续变化的唇形特征，得到识别文字信息。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：将多个连续变化的唇形特征输入至唇形识别模型，以使唇形识别模型识别出对应的发音信息，并基于发音信息，计算出对应的识别文字信息。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：提取待检测语音中的声纹信息；对声纹信息进行声纹识别。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：从声纹信息中提取声纹特征信息；将声纹特征信息与预存的标准声纹特征信息进行相似度比对；在相似度比对的结果满足预设要求时，确定声纹识别通过。

可选地，处理器71用于执行该程序数据还用以实现以下的方法：在唇形识别通过后，响应设定操作指令，包括：在唇形识别通过后，响应支付操作指令，以完成相应的支付。

参阅图8，图8是本申请提供的终端设备第二实施例的结构示意图，该终端设备80包括：采集模块81、第一识别模块82、第二识别模块83和响应模块84。

采集模块81用于在获取到设定操作指令时，采集待检测视频；其中，待检测视频包括待检测语音和多个连续的待检测图像帧。

第一识别模块82用于对待检测语音进行语音识别。

第二识别模块83用于在语音识别通过后，对多个连续的待检测图像帧进行唇形识别。

响应模块84用于在唇形识别通过后，响应设定操作指令。

参阅图9，图9是本申请提供的计算机存储介质一实施例的结构示意图，该计算机存储介质90用于存储程序数据91，程序数据91在被处理器执行时，用于实现以下方法：

可以理解，程序数据91在被处理器执行时，还用于实现上述任一实施例方法。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述其他实施方式中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种身份验证方法，其特征在于，所述方法包括：

终端设备在获取到设定操作指令时，采集待检测视频；其中，所述待检测视频包括待检测语音和多个连续的待检测图像帧；

对所述待检测语音进行语音识别；

在所述语音识别通过后，对所述多个连续的待检测图像帧进行唇形识别；

在所述唇形识别通过后，响应所述设定操作指令。

2.根据权利要求1所述的方法，其特征在于，

所述对所述多个连续的待检测图像帧进行唇形识别，包括：

对所述多个连续的待检测图像帧进行唇形识别，以得到识别文字信息；

判断所述识别文字信息是否为预设白名单中的文字信息；

若是，则确定所述唇形识别通过。

3.根据权利要求2所述的方法，其特征在于，

所述方法还包括：

获取用户录入的文字信息；

将录入的所述文字信息加入所述白名单中。

4.根据权利要求1所述的方法，其特征在于，

所述对所述多个连续的待检测图像帧进行唇形识别，包括：

判断所述识别文字信息是否为预设黑名单中的文字信息；

若是，则确定所述唇形识别不通过。

5.根据权利要求4所述的方法，其特征在于，

所述方法还包括：

将白名单中的至少一段文字信息加入所述黑名单中，并将所述文字信息在白名单中删除。

6.根据权利要求1所述的方法，其特征在于，

所述终端设备在获取到设定操作指令时，采集待检测视频，包括：

终端设备在获取到设定操作指令时，在显示屏上显示标准文字信息，采集待检测视频；

所述对所述多个连续的待检测图像帧进行唇形识别，包括：

判断所述识别文字信息与所述标准文字信息是否相同；

若是，则确定所述唇形识别通过。

7.根据权利要求6所述的方法，其特征在于，

所述显示标准文字信息，包括：

从数据库中的多个文字信息中随机选择一个文字信息作为标准文字信息，并显示所述标准文字信息。

8.根据权利要求2、4、6任一项所述的方法，其特征在于，

所述对所述多个连续的待检测图像帧进行唇形识别，以得到识别文字信息，包括：

提取所述多个连续的待检测图像的人脸信息；

从多个所述人脸信息中提取多个连续变化的所述唇形特征；

基于多个连续变化的所述唇形特征，得到识别文字信息。

9.根据权利要求8所述的方法，其特征在于，

所述基于多个连续变化的所述唇形特征，得到识别文字信息，包括：

将多个连续变化的所述唇形特征输入至唇形识别模型，以使所述唇形识别模型识别出对应的发音信息，并基于所述发音信息，计算出对应的识别文字信息。

10.根据权利要求1所述的方法，其特征在于，

所述对所述待检测语音进行语音识别，包括：

提取所述待检测语音中的声纹信息；

对所述声纹信息进行声纹识别。

11.根据权利要求10所述的方法，其特征在于，

所述对所述声纹信息进行声纹识别，包括：

从所述声纹信息中提取声纹特征信息；

将所述声纹特征信息与预存的标准声纹特征信息进行相似度比对；

在所述相似度比对的结果满足预设要求时，确定所述声纹识别通过。

12.根据权利要求1所述的方法，其特征在于，

所述设定操作指令为支付操作指令；

所述在所述唇形识别通过后，响应所述设定操作指令，包括：

在所述唇形识别通过后，响应所述支付操作指令，以完成相应的支付。

13.一种终端设备，其特征在于，所述终端设备包括处理器以及与所述处理器连接的摄像头模组、麦克风模组以及存储器；

所述存储器用于存储程序数据，所述处理器用于执行所述程序数据，以实现如权利要求1-12任一项所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质用于存储程序数据，所述程序数据在被处理器执行时，用于实现如权利要求1-12任一项所述的方法。

15.一种终端设备，其特征在于，所述终端设备包括：

采集模块，用于在获取到设定操作指令时，采集待检测视频；其中，所述待检测视频包括待检测语音和多个连续的待检测图像帧；

第一识别模块，用于对所述待检测语音进行语音识别；

第二识别模块，用于在所述语音识别通过后，对所述多个连续的待检测图像帧进行唇形识别；

响应模块，用于在所述唇形识别通过后，响应所述设定操作指令。