CN112287722A

CN112287722A - 基于深度学习的活体检测方法、装置及存储介质

Info

Publication number: CN112287722A
Application number: CN201910668114.6A
Authority: CN
Inventors: 孔志飞; 赵立军
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2021-01-29

Abstract

本申请公开了一种基于深度学习的活体检测方法、装置及存储介质。其中，该方法，包括：获取与待识别对象相关的视频，其中所述视频中包含所述待识别对象的嘴部区域图像，其中所述视频是通过在所述待识别对象读取第一文本信息的过程中对所述待识别对象进行拍摄而获得的视频；利用基于深度学习训练的识别模型，生成与所述嘴部区域图像对应的唇语信息；以及根据所述唇语信息以及所述第一文本信息，判定所述待识别对象是否为活体。达到了整个基于深度学习的唇语活体检测方法的具有较强的泛化能力、流程简单可靠以及识别准确率高的技术效果。

Description

基于深度学习的活体检测方法、装置及存储介质

技术领域

本申请涉及信息识别领域，特别是涉及一种基于深度学习的活体检测方法、装置及存储介质。

背景技术

活体检测是在一些身份验证场景确定对象真实生理特征的方法，在人脸识别应用中，活体检测能通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位和人脸追踪等技术，验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段，从而帮助用户甄别欺诈行为，保障用户的利益。当前使用嘴部信息进行活体检测的方法主要是有两个方法：

一方法是从待测人脸视频中抽取若干视频帧，获取从待测人脸视频中抽取的每一所述视频帧的嘴部的若干关键点位置，通过所述嘴部的若干关键点位置获取每一抽取的所述视频帧的嘴部的嘴部长度和嘴部宽度，并通过计算所述嘴部长度和所述嘴部宽度的比值获取对应的所述视频帧的嘴部数值，基于每一抽取的所述视频帧的所述嘴部数值判断所述待测人脸视频的嘴部运动的情况。

另一方法是采集待识别的用户在读取验证内容时的视频信息，根据所述视频信息获取所述用户的嘴部特征信息，判断所述用户的嘴部特征信息与唇语库中所述验证内容对应的参考唇语特征序列是否相匹配，若匹配，则将所述待识别的用户确认为活体。

上述第一个方法的泛化能力不好，稍微侧脸就能影响活体检测结果，第二方法的缺点就是必须先让用户将自己的特定的嘴部信息录入数据库，具体实施繁琐难度较大。

针对上述的现有技术中存在的现有的活体检测方法存在泛化能力差以及具体实施繁琐难度较大的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种基于深度学习的活体检测方法、装置及存储介质，以至少解决现有技术中存在的现有的活体检测方法存在泛化能力差以及具体实施繁琐难度较大的技术问题。

根据本公开实施例的一个方面，提供了一种基于深度学习的活体检测方法，包括：获取与待识别对象相关的视频，其中视频中包含待识别对象的嘴部区域图像，其中视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频；利用基于深度学习训练的识别模型，生成与嘴部区域图像对应的唇语信息；以及根据唇语信息以及第一文本信息，判定待识别对象是否为活体。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上所述的方法。

根据本公开实施例的另一个方面，还提供了一种基于深度学习的活体检测装置，包括：获取模块，用于获取与待识别对象相关的视频，其中视频中包含待识别对象的嘴部区域图像，其中视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频；识别模块，用于利用基于深度学习训练的识别模型，生成与嘴部区域图像对应的唇语信息；以及判定模块，用于根据唇语信息以及第一文本信息，判定待识别对象是否为活体。

根据本公开实施例的另一个方面，还提供了一种基于深度学习的唇语活体检测装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取与待识别对象相关的视频，其中视频中包含待识别对象的嘴部区域图像，其中视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频；利用基于深度学习训练的识别模型，生成与嘴部区域图像对应的唇语信息；以及根据唇语信息以及第一文本信息，判定待识别对象是否为活体。

在本公开实施例中，可以快速地识别出待识别对象在读取文本信息时的唇语信息。并且通过将所识别的唇语信息与待识别对象读取的文本信息进行匹配，即可判定待识别对象是否为活体。由于识别模型为基于深度学习训练的识别模型，该识别模型能很好的对较长的序列信息进行识别，同时具有很高的识别率。因而基于该识别模型，可以快速并且准确的识别出与嘴部区域图像对应的唇语信息，并将识别的唇语信息以及文本信息进行匹配。从而，根据本公开实施例所记载的技术方案，能够快速地判定待识别对象是否为活体。此外，基于深度学习的活体检测方法具有较强的泛化能力、流程简单可靠以及识别准确率高的技术效果，进而解决了现有的活体检测方法存在泛化能力差以及具体实施繁琐难度较大的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的【计算机终端(或移动设备)】的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的基于深度学习的活体检测方法的流程示意图；

图3是根据本公开实施例1的第一个方面所述的Transformer模型的结构示意图；

图4是根据本公开实施例2所述的基于深度学习的活体检测装置的示意图；以及

图5是根据本公开实施例3所述的基于深度学习的活体检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

转换器模型：本申请中所述的转换器模型为“transformer model”的中文翻译，是谷歌公司推出的用于自然语言处理的模型。后文中也称为“transformer模型”

实施例1

根据本实施例，提供了一种基于深度学习的活体检测方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现基于深度学习的活体检测方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于GPU、微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中的基于深度学习的活体检测方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的基于深度学习的活体检测方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种基于深度学习的活体检测方法。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S202：获取与待识别对象相关的视频，其中视频中包含待识别对象的嘴部区域图像，其中该视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频；

S204：利用基于深度学习训练的识别模型，生成与嘴部区域图像对应的唇语信息；以及

S206：根据唇语信息以及第一文本信息，判定待识别对象是否为活体。

正如前面背景技术中所述的，当前使用嘴部信息进行活体检测的方法主要是有两个方法：一方法是从待测人脸视频中抽取若干视频帧，获取从待测人脸视频中抽取的每一视频帧的嘴部的若干关键点位置，通过嘴部的若干关键点位置获取每一抽取的视频帧的嘴部的嘴部长度和嘴部宽度，并通过计算嘴部长度和嘴部宽度的比值获取对应的视频帧的嘴部数值，基于每一抽取的视频帧的嘴部数值判断待测人脸视频的嘴部运动的情况。另一方法是采集待识别的用户在读取验证内容时的视频信息，根据视频信息获取用户的嘴部特征信息，判断用户的嘴部特征信息与唇语库中验证内容对应的参考唇语特征序列是否相匹配，若匹配，则将待识别的用户确认为活体。上述第一个方法的泛化能力不好，稍微侧脸就能影响活体检测结果，第二方法的缺点就是必须先让用户将自己的特定的嘴部信息录入数据库，具体实施繁琐难度较大。

针对上述背景技术中存在的问题，结合图2所示，本实施例通过获取与待识别对象相关的视频。其中视频中包含待识别对象的嘴部区域图像，视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频。第一文本信息例如但不限于可以为“少年强则国强”等类似的文本信息。然后，利用基于深度学习训练的识别模型，对嘴部区域图像进行识别，并生成与嘴部区域图像对应的唇语信息。最后，根据唇语信息以及第一文本信息，判定待识别对象是否为活体。其中，在所生成的唇语信息与第一文本信息相匹配的情况下，判定待识别对象为活体。反之，在所生成的唇语信息与第一文本信息不相匹配的情况下，判定待识别对象不为活体。

从而，通过这种方式，可以快速地识别出与嘴部区域图像对应的唇语信息。并且通过将所识别的唇语信息与待识别对象读取的文本信息进行匹配，即可判定待识别对象是否为活体。又由于识别模型为基于深度学习训练的识别模型，该识别模型能很好的对较长的序列信息进行识别，同时具有很高的识别率。因而基于该识别模型，可以快速并且准确的识别出与嘴部区域图像对应的唇语信息，从而根据所识别出的唇语以及第一文本信息，快速地判定待识别对象是否为活体。达到了整个基于深度学习的唇语活体检测方法的具有较强的泛化能力、流程简单可靠以及识别准确率高的技术效果。进而解决了现有的活体检测方法存在泛化能力差以及具体实施繁琐难度较大的技术问题。

可选地，识别模型包括基于图像特征提取的特征提取模型和基于自然语言处理的转换模型。并且利用识别模型，生成与嘴部区域图像对应的唇语信息的操作，包括：利用特征提取模型，生成与嘴部区域图像对应的特征序列；以及利用转换模型，根据特征序列生成唇语信息。

具体地，识别模型包括特征提取模型和转换模型，此时可以利用基于图像特征提取的特征提取模型，生成与嘴部区域图像对应的特征序列。其中，该特征提取模型例如但不限于可以为3D卷积神经网络模型或其他类型的特征提取模型，该特征序列为与嘴部区域图像对应的在时间和空间上的特征序列。然后利用转换模型，将特征序列转换为唇语信息。其中，该转换模型例如但不限于可以为Transformer模型。然后，根据唇语生成唇语信息。例如：利用转换模型将特征序列转换得到的唇语信息依次为与“少”“年”“强”“则”“国”“强”对应的向量。此时所生成的唇语信息为与“少年强则国强”对应的向量的序列。

从而，通过这种方式，可以一步到位获取全局信息，对较长序列信息也能很好的识别。并且转换模型训练使用资源较少，且识别准确率高，同时转换模型可以并行计算减少了训练时间。

可选地，根据唇语信息以及第一文本信息，判定待识别对象是否为活体的操作，包括：将唇语信息与第一文本信息进行匹配；以及根据匹配的结果，判定待识别对象是否为活体。

具体地，根据本实施例的技术方案，首先将唇语信息与第一文本信息进行匹配，然后根据匹配的结果，判定待识别对象是否为活体。其中，可以通过判定匹配结果是否大于预先设置的阈值，以及在大于预先设置的阈值的情况下判定待识别对象为活体，反之则否。例如：预先设置的匹配相似度的阈值为90％，此时匹配结果为唇语信息与第一文本信息具有95％的相似度，由于匹配结果大于预先设置的阈值，从而判定待识别对象为活体。通过这种方式，可以快速及准确的判定出待识别对象是否为活体。

可选地，将唇语信息与第一文本信息进行匹配的操作，包括：获取与第一文本信息对应的文本编码信息；判定唇语信息与文本编码信息是否匹配；以及在唇语信息与文本编码信息匹配的情况下，确定唇语信息与第一文本信息匹配。

通常来说，基于自然语言处理的转换模型生成的唇语信息，是与实际文本信息对应的编码信息(例如，向量等)。因此在将唇语信息与第一文本信息进行匹配时，不能直接进行匹配操作，而需要将第一文本信息也转换成相应的文本编码信息(例如向量等)，然后再进行匹配操作。从而在唇语信息与文本编码信息匹配(例如相似度高于预定阈值)的情况下，可以确定唇语信息与第一文本信息匹配。反之，在唇语信息与文本编码信息不匹配(例如相似度低于预定阈值)的情况下，确定唇语信息与第一文本信息不匹配。

此外，反过来说，将唇语信息与第一文本信息进行匹配的操作，也可以包括：将唇语信息转换为相应的第二文本信息；以及将第二文本信息与第一文本信息进行匹配。从而在第一文本信息与第二文本信息匹配(例如相似度高于预定阈值)的情况下，可以确定唇语信息与第一文本信息匹配。反之，在第一文本信息与第二文本信息不匹配(例如相似度低于预定阈值)的情况下，确定唇语信息与第一文本信息不匹配。

可选地，利用基于深度学习训练的识别模型，对嘴部区域图像进行识别的操之前，还包括：从视频中提取出嘴部区域图像。

具体地，在待识别对象读取第一文本信息的时候，对待识别对象的读取过程进行录制，从而得到视频。然后在对视频中的嘴部区域图像进行识别的操作之前，需要对该视频进行预处理，提取视频中有效的数据帧，即提取嘴部区域图像。从而，通过这种方式，将无效的数据帧进行过滤去除，减轻了识别模型的工作负担，进一步保障了识别模型的识别准确率。

可选地，利用特征提取模型，生成与嘴部区域图像对应的特征序列的操作，包括：利用3D卷积神经网络模型，生成与嘴部区域图像对应的特征序列。

具体地，3D卷积神经网络模型为3D卷积网络模型，将嘴部区域图像作为3D卷积神经网络模型的输入，输出得到嘴部区域图像在空间和时间上的特征序列。例如：将尺寸为16×112×112×3的嘴部区域图像序列作为3D卷积神经网络模型的输入。其中，“16”表示嘴部区域图像的帧数为16帧，“112×112”代表图像的宽高为112×112，并且“3”代表每帧图像的通道数为3通道(例如，RGB三个通道)。从而通过3D卷积网络，可以从嘴部区域图像中提取分别与16帧图像对应的特征序列。例如，特征序列的尺寸为16×1×1×64。其中，“16”代表特征序列包含16个特征。“1×1×64”表示每个特征包括64个通道，且每个通道为1×1矩阵(即每个通道包含1个元素，从而64个通道构成了一个64维的特征向量)的特征序列。从而，通过这种方式，可以生成有16个64维特征向量构成的特征序列。其中，例如可以通过在3D卷积神经网络模型中设置均值池化(average pooling)层，通过均值池化(average pooling)层将嘴部区域图像的宽高尺寸变成1×1。

可选地，利用转换模型，根据特征序列生成唇语信息的操作，包括：利用转换器模型(Transformer Model，或Transformer模型)，根据特征序列生成唇语信息。

图3示出了Transformer模型的结构示意图。具体地，参照图3所示，本实施例所使用的Transformer模型(其结构如图3所示)分为编码器和解码器两个部分，堆叠了多个多头的自注意机制和全连接前馈网络，编码器是自注意力机制的堆叠，其中输入张量同时充当queries,keys和values。解码器的第二个多头注意力机制的输入来自编码器的keys和values，以及上一个解码器输出的queries。以往自然语言处理中大量使用RNN结构和encoder-decoder结构，RNN及其衍生网络的缺点就是慢，问题在于前后隐藏状态的依赖性，无法实现并行。而本实施例采用Transformer模型，从而完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系。

进一步地，将特征序列作为Transformer模型的输入，通过Transformer模型将输入的特征序列转换特征序列中的各个元素所对应的字符的概率值，然后将概率值最高的元素所对应的字符确定为该特征序列对应的字符。最后根据数据库中预先设置的映射关系将Transformer模型输出的字符映射为相应的唇语。示例性的，根据上述的，3D卷积神经网络模型输出尺寸为16×1×1×64的特征序列。将尺寸为16×1×1×64的特征序列作为Transformer模型的输入，经过编码器编码和解码器解码之后，输出N维度的特征向量，其中N为字库中的字词的数量，再使用Softmax分类器，计算出特征序列中的各个元素的概率值。然后将概率值最高的元素所对应的字符确定为该特征序列对应的字符。最后根据数据库中预先设置的映射关系将Transformer模型输出的字符映射为相应的唇语信息。其中预先设置的映射关系可以为：字符“10”与唇语“少”之间存在映射关系，字符“15”与唇语“强”之间存在映射关系。即在Transformer模型输出的字符为“10”的情况下，可以根据数据库中设置的映射关系将其转换为“少”。

从而，通过这种方式，利用Transformer模型中的Attention(注意力机制)思路，一步到位获取唇部区域的全局信息，对较长序列信息也能很好识别。此外，Transformer模型训练使用资源较少，且识别准确率高。Transformer模型可以并行计算减少了时间训练。使用Transformer model(TM)这个网络结构用于处理唇语视频特征序列的解码，整个框架流程简单可靠，由于Transformer model(TM)强大的性能使得模型参数更少，训练时间更少，识别准确高。

可选地，利用转换模型，将特征序列转换为唇语的操作，不限于使用Transforme模型，也可以利用Seq2Seq模型，将特征序列转换为唇语信息。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质104。存储介质104包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图4示出了根据本实施例所述的基于深度学习的活体检测装置400，该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示，该装置400包括：获取模块410，用于获取与待识别对象相关的视频，其中视频中包含待识别对象的嘴部区域图像，其中视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频；识别模块420，用于利用基于深度学习训练的识别模型，对嘴部区域图像进行识别，并生成唇语信息；以及判定模块430，用于根据唇语信息以及第一文本信息，判定待识别对象是否为活体。

可选地，识别模型420包括基于图像特征提取的特征提取模型和基于自然语言处理的转换模型，并且识别模块420包括：第一生成子模块，用于利用特征提取模型，生成与嘴部区域图像对应的特征序列；第二生成子模块，用于利用转换模型，根据特征序列生成唇语信息。

可选地，判定模块430包括：匹配子模块，用于将唇语信息与第一文本信息进行匹配；以及判定子模块，用于根据匹配的结果，判定待识别对象是否为活体。

可选地，匹配子模块包括：获取单元，用于获取与第一文本信息对应的文本编码信息；以及第一匹配单元，用于将唇语信息与文本编码信息进行匹配。

可选地，匹配子模块包括：转换单元，用于将唇语信息转换为相应的第二文本信息；以及第二匹配单元，用于将第二文本信息与第一文本信息进行匹配。

可选地，第一生成子模块包括：第一生成单元，用于利用3D卷积神经网络模型，生成与嘴部区域图像对应的特征序列。

可选地，转换子模块包括：第一转换单元，用于利用Transformer模型，将特征序列转换为唇语。

可选地，转换子模块包括：第二转换单元，用于利用Seq2Seq模型，将特征序列转换为唇语。

从而根据本实施例，可以快速地识别出与嘴部区域图像对应的唇语。又由于识别模型为基于深度学习训练的识别模型，该识别模型能很好的对较长的序列信息进行识别，同时具有很高的识别率。因而基于该识别模型，可以快速并且准确的识别出与嘴部区域图像对应的唇语，从而根据所识别出的唇语以及第一文本信息，快速地判定待识别对象是否为活体。达到了整个基于深度学习的唇语活体检测方法的具有较强的泛化能力、流程简单可靠以及识别准确率高的技术效果。进而解决了现有的活体检测方法存在泛化能力差以及具体实施繁琐难度较大的技术问题。

实施例3

图5示出了根据本实施例所述的基于深度学习的活体检测装置500，该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示，该装置500包括：处理器510；以及存储器520，与处理器510连接，用于为处理器510提供处理以下处理步骤的指令：获取与待识别对象相关的视频，其中视频中包含待识别对象的嘴部区域图像，其中视频是通过在待识别对象读取第一文本信息的过程中对待识别对象进行拍摄而获得的视频；利用基于深度学习训练的识别模型，生成与嘴部区域图像对应的唇语信息；以及根据唇语信息以及第一文本信息，判定待识别对象是否为活体。

可选地，识别模型包括基于图像特征提取的特征提取模型和基于自然语言处理的转换模型，并且利用识别模型，生成与嘴部区域图像对应的唇语信息的操作，包括：利用特征提取模型，生成与嘴部区域图像对应的特征序列；以及利用转换模型，根据特征序列生成唇语信息。

可选地，将唇语信息与第一文本信息进行匹配的操作，包括：获取与第一文本信息对应的文本编码信息；以及将唇语信息与文本编码信息进行匹配。

可选地，将唇语信息与第一文本信息进行匹配的操作，包括：将唇语信息转换为相应的第二文本信息；以及将第二文本信息与第一文本信息进行匹配。

可选地，利用转换模型，将特征序列转换为唇语的操作，包括：利用Transformer模型，将特征序列转换为唇语。

可选地，利用转换模型，将特征序列转换为唇语的操作，包括：利用Seq2Seq模型，将特征序列转换为唇语。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的活体检测方法，其特征在于，包括：

获取与待识别对象相关的视频，其中所述视频中包含所述待识别对象的嘴部区域图像，其中所述视频是通过在所述待识别对象读取第一文本信息的过程中对所述待识别对象进行拍摄而获得的视频；

利用基于深度学习训练的识别模型，生成与所述嘴部区域图像对应的唇语信息；以及

根据所述唇语信息以及所述第一文本信息，判定所述待识别对象是否为活体。

2.根据权利要求1所述的方法，其特征在于，所述识别模型包括基于图像特征提取的特征提取模型和基于自然语言处理的转换模型，并且利用所述识别模型，生成与所述嘴部区域图像对应的唇语信息的操作，包括：

利用所述特征提取模型，生成与所述嘴部区域图像对应的特征序列；以及

利用所述转换模型，根据所述特征序列生成所述唇语信息。

3.根据权利要求1所述的方法，其特征在于，根据所述唇语信息以及所述第一文本信息，判定所述待识别对象是否为活体的操作，包括：

将所述唇语信息与所述第一文本信息进行匹配；以及

根据所述匹配的结果，判定所述待识别对象是否为活体。

4.根据权利要求3所述的方法，其特征在于，将所述唇语信息与所述第一文本信息进行匹配的操作，包括：

获取与所述第一文本信息对应的文本编码信息；以及

将所述唇语信息与所述文本编码信息进行匹配。

5.根据权利要求3所述的方法，其特征在于，将所述唇语信息与所述第一文本信息进行匹配的操作，包括：

将所述唇语信息转换为相应的第二文本信息；以及

将所述第二文本信息与所述第一文本信息进行匹配。

6.根据权利要求2所述的方法，其特征在于，利用所述特征提取模型，生成与所述嘴部区域图像对应的特征序列的操作，包括：利用3D卷积神经网络模型，生成与所述嘴部区域图像对应的特征序列。

7.根据权利要求2所述的方法，其特征在于，利用所述转换模型，根据所述特征序列生成所述唇语信息的操作，包括：利用转换器模型，根据所述特征序列生成所述唇语信息。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

9.一种基于深度学习的活体检测装置，其特征在于，包括：

获取模块，用于获取与待识别对象相关的视频，其中所述视频中包含所述待识别对象的嘴部区域图像，其中所述视频是通过在所述待识别对象读取第一文本信息的过程中对所述待识别对象进行拍摄而获得的视频；

识别模块，用于利用基于深度学习训练的识别模型，对所述嘴部区域图像进行识别，并生成唇语信息；以及

判定模块，用于根据所述唇语信息以及所述第一文本信息，判定所述待识别对象是否为活体。

10.一种基于深度学习的活体检测装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

利用基于深度学习训练的识别模型，对所述嘴部区域图像进行识别，并生成唇语信息；以及