CN113869212B

CN113869212B - 多模态活体检测方法、装置、计算机设备及存储介质

Info

Publication number: CN113869212B
Application number: CN202111145165.4A
Authority: CN
Inventors: 罗剑; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-06-21
Anticipated expiration: 2041-09-28
Also published as: CN113869212A

Abstract

本发明涉及人工智能技术领域，尤其涉及一种多模态活体检测方法、装置、计算机设备及存储介质。该多模态活体检测方法包括采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。该方法可通过结合帧图像和语音帧进行活体检测，提高活体检测的准确性。

Description

多模态活体检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多模态活体检测方法、装置、计算机设备及存储介质。

背景技术

目前，活体检测技术可以分为配合式活体检测和非配合式活体检测。配合式活体检测要求用户做出相应的动作辅助人脸图像判断。非配合式活体检测无需用户行动，通过硬件检测深度、红外光等信息进行判断。

其中，针对配合式活体检测，一般需要被测者在镜头前念出系统要求的内容，以通过视频和语音判断用户的真伪。但传统的配合式活体检测主要为通过独立的语音识别技术和人脸识别技术，分别分析语音和图像信息，并未将图像信息和语音信息结合起来，给予了不法分子可乘之机，例如不法分子可通过用户的照片和自己的语音来通过活体检测的验证，从而导致当前的活体检测存在较大的风险。

发明内容

本发明实施例提供一种多模态活体检测方法、装置、计算机设备及存储介质，以解决目前活体检测的准确性不高的问题。

一种多模态活体检测方法，包括：

采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；

将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；

通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；其中，所述口型图像对应一口型图像特征；

通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。

一种多模态活体检测装置，包括：

数据采集模块，用于采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像；

活体检测模型检测模块，用于将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块；

特征提取模块，用于通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；其中，所述口型图像对应一口型图像特征；

活体检测模块，用于通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多模态活体检测方法的步骤。

一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态活体检测方法的步骤。

上述多模态活体检测方法、装置、计算机设备及存储介质中，通过采集活体检测视频流中的语音帧以及语音帧对应的帧图像，以将语音帧以及帧图像输入至活体检测模型中进行活体检测，即通过嘴部定位模块定位帧图像中的口型图像；以及，通过语音特征提取模块提取语音帧对应的语音特征，然后通过活体检测模块基于口型图像特征与语音特征组合形成的多模态特征进行活体检测，得到活体检测结果，以结合帧图像和语音帧进行活体检测，提高活体检测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中多模态活体检测方法的一应用环境示意图；

图2是本发明一实施例中多模态活体检测方法的一流程图；

图3是本发明一实施例中多模态活体检测方法的一流程图；

图4是图3中步骤S304的一具体流程图；

图5是本发明一实施例中多模态活体检测方法的一流程图；

图6是图2中步骤S203的一具体流程图；

图7是本发明一实施例中活体检测模块的结构框图；

图8是图3中步骤S305的一具体流程图；

图9是本发明一实施例中多模态活体检测装置的一示意图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该多模态活体检测方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种多模态活体检测方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S201：采集活体检测视频流中的语音帧以及语音帧对应的帧图像。

其中，本方法可应用在活体检测中，用于对活体检测流中的图像信息以及语音信息进行综合检测分析，以在语音信息与图像信息不一致时，返回检测失败的活体检测结果。

具体地，通过媒体采集模块采集被测者根据系统要求的文字内容朗读文本的活体检测视频流。本实施例中，按照10ms为一帧截取活体检测视频流中的音频信号，以得到多帧语音帧。由于10ms以内用户的口型变化非常微小，故可随机截取该10ms视频中任意一张图像或按照时间顺序选取处于中间位置的图像作为该语音帧对应的帧图像。

S202：将语音帧以及帧图像输入至活体检测模型中进行活体检测，活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块。

其中，该嘴部定位模块用于定位帧图像中的口型图像，于本实施例中可包括但不限于通过MTCNN网络实现，即通过mtcnn网络对帧对帧图像中的人脸关键点进行定位，以输出嘴部关键点，并根据嘴部关键点，获取帧图像中的嘴部图像即口型图像。该语音特征提取模块用于提取语音帧的语音特征，于本实施例中可包括但不限于通过MFCC(Mel frequencycepstral coefficients)梅尔频率倒谱系数实现。该活体检测模块用于针对多模态特征进行特征编码并分类，以输出活体检测结果。于本实施例中包括但不限于可通过Transformer网络实现。

S203：通过嘴部定位模块定位帧图像中的口型图像；以及，通过语音特征提取模块提取语音帧对应的语音特征；其中，口型图像对应一口型图像特征。

具体地，MTCNN由三个级联网络组成，即P-net、R-Net以及O-net，是一个逐步查找定位的过程，首先输入经过resize处理得到不同大小的图像，组成图像金字塔；然后将图像金字塔通过一个浅层的P-net网络，以快速筛选出多个人脸潜在候选框，并通过NMS非极大值抑制方法去除冗余的候选框，再将剩余的候选框经过R-Net，以得到可能性最大的人脸框位置(本实施例中假定视频中只存在一个主要的人脸为例进行说明)；最后，通过O-net神经网络定位输出嘴部的定位坐标，从而根据该嘴部的定位坐标，返回该帧图像对应的口型图像，并缩放为固定大小(n*n)的矩阵。可以理解地是，针对P-net、R-Net以及O-net的网络结构以及处理过程与传统MTCNN网络一致，此处不再赘述。

进一步地，通过MFCC模块提取语音帧对应的语音特征，并将该语音特征与对应的口型图像特征组合得到一二维矩阵，以作为多模态特征，用于输入至活体检测模块中进行活体检测。

S204：通过活体检测模块基于多模态特征进行活体检测，得到活体检测结果；其中，多模态特征包括口型图像特征与语音特征。

具体地，通过活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果，以从语音以及图像这两个维度，检测被测者的语音和口型是否同步，若不同步，则存在假冒的风险，返回活体检测失败的活体检测结果。

本实施例中，通过采集活体检测视频流中的语音帧以及语音帧对应的帧图像，以将语音帧以及帧图像输入至活体检测模型中进行活体检测，即通过嘴部定位模块定位帧图像中的口型图像；以及，通过语音特征提取模块提取语音帧对应的语音特征，然后通过活体检测模块基于口型图像特征与语音特征组合形成的多模态特征进行活体检测，得到活体检测结果，以结合帧图像和语音帧进行活体检测，提高活体检测的准确性。

在一实施例中，如图3所示，该多模态活体检测方法还包括如下步骤：

S301：采集活体检测视频流中的语音帧以及语音帧对应的帧图像。

具体地，步骤S301与步骤S201一致，为避免重复，此处不再赘述。

S302：将语音帧以及帧图像输入至活体检测模型中进行活体检测，活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块。

具体地，步骤S302与步骤S202一致，为避免重复，此处不再赘述。

S303：通过嘴部定位模块定位帧图像中的口型图像；以及，通过语音特征提取模块提取语音帧对应的语音特征；其中，口型图像对应一口型图像特征。

具体地，步骤S303与步骤S203一致，为避免重复，此处不再赘述。

S304：通过组合编码模块对多模态特征进行组合编码，得到组合编码特征。

S305：通过活体检测模块基于组合编码特征进行活体检测，得到活体检测结果；其中，多模态特征包括口型图像特征与语音特征。

具体地，由于本实施例中采用Transformer网络作为活体检测模块，而由于Transformer网络的结构特性，需要将多模态特征即二维矩阵转换为一维特征向量，以适应Transformer网络。此外，由于本实施例中的多模态特征具有时序性，故为保证活体检测模型的识别精度，可引入位置编码向量，即对多模态特征增加时间位置信息，以辅助模型进行判断。

在一实施例中，如图4所示，步骤S304中，即通过组合编码模块对多模态特征进行组合编码，得到组合编码特征具体包括如下步骤：

S401：对多模态特征进行线性变换，得到第一编码特征。

具体地，通过对多模态特征进行线性变换，以将多模态特征对应的二维矩阵转化为一维矩阵，得到第一编码特征(patch embedding)。

S402：对多模态特征进行位置编码，得到第二编码特征。

本实施例中，通过三角函数的绝对编码方式，以对多模态特征进行位置编码，得到第二编码特征(position embedding)。其中，三角函数的绝对编码方式包括如下编码公式其中，k表示句子token的位置索引，例如句子长度为L，k表示0、1、……L-1；P_k,2i表示位置k的第2i个分量；P_k,2i+1表示位置k的第2i+1个分量。

S403：将第一编码特征与第二编码特征相加，得到组合编码特征。

具体地，通过将第一编码特征与第二编码特征相加，以将patch embedding与position embedding组合，形成多个patch向量即组合编码特征。

在一实施例中，如图5所示，该多模态活体检测方法还包括如下步骤：

S501：爬取已公开的对话视频，并将对话视频作为模型训练的正样本。

具体地，由于目前已公开的对话或朗读视频中，用户的口型以及语音实时同步，故可通过爬取网络中已公开的对话视频，并通过筛选即将包含清晰面部表情的对话视频作为正样本，以在训练活体检测模型时，无需花费大量人力对样本近进行标注，节省时间以及人力成本。

其中，将一段不长于20s的视频，拆分为一组10ms长度的语音帧。在10ms以内可以认为人脸和场景的变化很微小，选取该10m视频中的一帧图像作为该语音帧对应的帧图像，即得到正样本。

S502：对正样本进行增噪处理，得到负样本。

其中，负样本可通过对正样本得到的图像和语音帧，随机执行一个或多个增噪处理得到。

本实施例中，通过对正样本进行增噪处理，以得到负样本，实现数据增广的目的，扩充训练样本集，且无需标注，实现网络的子监督学习，降低标注成本。

S503：根据正负样本训练活体检测模型。

具体地，通过将该正负样本作为训练集，以训练活体检测模型，得到训练集中每一训练样本对应的预测结果，通过对该预测结果与对应的样本真实标签构建损失函数，以便根据该损失函数更新模型；然后，经过多轮迭代训练，直至模型收敛，得到活体检测模型。本实施例中的活体检测任务为分类任务，故选择交叉熵损失函数作为模型训练的损失函数，该交叉熵损失函数的通过下式表示其中，y表示样本真实标签，/>表示预测结果。

可以理解地是，在训练得到活体检测模型后，还可通过少量的标注数据对得到的活体检测模型进行模型微调，以提升活体检测模型的模型精度，并保证模型的泛化性以及鲁棒性。

在一实施例中，步骤S404中，增噪处理包括语音帧与帧图像的错位处理、语音帧增噪处理以及帧图像增噪处理中的一个或多个。

本实施例中的增噪处理包括但不限于语音帧与帧图像的错位处理、语音帧增噪处理以及帧图像增噪处理中的一个或多个。其中，语音帧与帧图像的错位处理指打乱图像和语音帧的匹配关系，例如将第一帧图像和第二帧语音帧匹配。语音帧增噪处理可通过破坏语音帧实现，例如消音，变调。帧图像增噪处理可通过破坏图像、增加遮挡等方式增加图像噪声，或者Deepfake工具根据当前的人脸图形生成带噪的人脸图像。其中，Deepfake，是由“deep machine learning”(深度机器学习)和“fake photo”(假照片)组合而成，本质是一种深度学习模型在图像合成、替换领域的技术框架，属于深度图像生成模型的一次成功应用。

在一实施例中，如图6所示，步骤S203中，通过语音特征提取模块提取语音帧对应的语音特征，包括：

S601：对语音帧进行预加重和加窗处理，得到加窗后的语音帧。

其中，预加重处理可消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，凸显高频的共振峰。该预加重的计算公式为S_n'＝S_n-k*S_n-1，其中，n表示帧标识；k表示平滑因子；S_n表示第n帧语音帧。加窗指采用汉明窗对语音帧进行平滑处理，减弱FFT后的旁瓣大小和频谱泄露问题，其对应的计算公式为其中，N表示帧的大小，0≤n≤N-1，S_n”表示加窗后的语音帧，本实施例中的汉明窗大小设置为0.46。

S602：对加窗后的语音帧进行频域转换，得到频谱特征。

具体地，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。故在乘上汉明窗后，每帧语音帧还需再经过快速傅里叶变换以得到在频谱上的能量分布，即频谱特征。

S603：通过梅尔滤波器组对频谱特征进行滤波，输出滤波后的频谱特征。

本实施例中，按照人耳敏感程度分为多个mel滤波器组，以通过该多个梅尔滤波器组对频谱特征进行滤波，即以输出滤波后的频谱特征。其中，f表示频率。

具体地，通过对频谱进行平滑化，并消除高次谐波(或高频分量)的作用，突显语音的共振峰。

S604：对滤波后的频谱特征进行离散余弦变换，得到倒谱系数。

具体地，通过对滤波后的频谱特征进行离散余弦变换，即有损数据压缩，实现数据降维。其中，离散余弦变换公式包括其中，N表示滤波器组的个数，m_j表示滤波后的第j个频谱特征，C_i表示倒谱系数，i表示MFCC的系数阶数，通常取12-16。

S605：对倒谱系数进行多阶差分计算，得到语音特征。

其中，为了使特征更加体现时域连续性，通过一阶和二阶差分以增加前后帧信息的维度。具体地，通过如下公式对倒谱系数进行多阶差分计算，得到语音特征。其中，d_t表示第t个一阶差分；C_t表示第t个倒谱系数即第t个倒谱系数；θ表示一阶导数的时间差，可取1或2；将该式输出结果再次带入公式即可得到二阶差分。

在一实施例中，如图7所示，活体检测模型包括特征编码模块以及分类器；特征编码模块包括多个级联的编码单元；每一编码单元均包括依次连接的归一化层(Norm)、多头注意力机制层(Multi-Head attention)以及全连接层(Fully Connect layer)。

如图7所示，该活体检测模块包括特征编码模块以及分类器；特征编码模块包括多个级联的编码单元；每一编码单元均包括依次连接的归一化层、多头注意力机制层以及全连接层。进一步地，该编码单元中，在多头注意力机制层以及全连接层前分别连接一层归一化层，并在多头注意力机制层以及全连接层后引入残差连接，即将多头注意力机制层的输出与输入的组合编码特征融合之后得到的第一融合特征输入至全连接层前的归一化层；以及，将第一融合特征与全连接层的输出进行融合之后得到的第二融合特征作为该编码单元的输出，以输入至下一编码单元。具体地，在执行活体检测模块时，通过按照顺序从第一个编码单元开始执行，然后将该编码单元的输出输入至下一编码单元进行处理，直至最后一个编码单元执行完毕后，将该最后一个编码单元的输出结果作为特征编码模块的输出。

其中，归一化层用于对输入的组合编码特征，进行归一化至标准分布。多头注意力机制层用于从不同维度、不同子空间来表征特征，使模型进一步提高特征表达能力。全连接层用于将多头注意力机制层提取出的分布式特征表示映射到样本标记空间。

如图8所示，步骤S305中，即通过活体检测模块基于组合编码特征进行活体检测，得到活体检测结果具体包括如下步骤：

S701：将组合编码特征输入至第一归一化层进行归一化处理，得到第一归一化层的第一输出。

具体地，通过如下公式对组合编码特征进行归一化处理，即其中，x表示输入向量，即组合编码特征，u表示该批次输入向量的均值，σ表示方差，g表示尺度因子，b表示平移因子，ξ表示微小正数。其中，第一输出即指第一归一化层的的输出。

S702：将第一输出输入至多头注意力机制层进行注意力计算，得到多头注意力机制层输出的注意力向量。

其中，注意力向量指多头注意力机制层的输出。具体地，多头注意力机制层(即Multi-Head attention)层是由多个自注意力机制模块组成，多个自注意力机制模块分别关注输入向量的不同角度的特征。

其中，每一自注意力机制模块由Query(Q)、Key(K)、Value(V)三个单元计算组合输出，其计算公式为其中，V表示信息，Q和K分别代表提取的信息特征，d_k表示缩放因子，可根据实际需要设置，通过设置该缩放因子可使注意力值分散，即放大注意力值间的差异性。具体地，通过将第一输出P与每一权重矩阵[w^k,w^q,w^v]进行点乘，即可得到对应的查询矩阵Q、键矩阵K以及值矩阵V，例如以下公式所示，K＝w^k·p，Q＝w^q·p，V＝w^v·p。

可以理解地是，注意力机制主要用于从大量信息中筛选出少量重要信息，并聚焦到这些重要信息上，忽略不重要的部分。具体地，通过将每一自注意力机制模块的输出进行融合，即可得到多头注意力机制层输出的注意力向量。进一步地，本实施例中还在网络中嵌入残差连接，故通过将多头注意力机制层输出的注意力向量与组合编码特征进行融合，以更新该注意力向量，便于后续根据该更新后的注意力向量进行归一化处理。

可以理解地是，对于长序列来说，自注意力机制模块可关注更远距离的特征。而不会像RNN由于循环的特性，存在前期输入衰减的情况。此外注意力机制每一步运算不依赖于上一步的计算结果，方便并行训练。

S703：将注意力向量输入至第二归一化层进行归一化处理，得到第一归一化层的第二输出。

其中，第二输出即指第二归一化层的的输出。具体地，步骤S703中归一化处理过程与步骤S701一致，为避免重复，此处不再赘述。

S704：将第二输出输入至全连接层，得到编码单元的输出。

具体地，对于多头注意力机制层输出的注意力向量，通过全连接层进行整合，以输出为高维度、抽象的特征，即编码单元的输出。

可以理解地是，该全连接层具有将多头注意力机制层提取出的分布式特征表示(即注意力向量)映射到样本标记空间。

进一步地，本实施例中还在网络中嵌入残差连接，故通过将全连接层的输出与注意力向量融合，以作为编码单元的输出。

S705：将编码单元的输出输入至下一级联的编码单元，以使下一级联的编码单元将编码单元的输出输入至第一归一化层进行归一化处理，得到第一归一化层的第一输出。

S706：重复执行将所述第一输出输入至多头注意力机制层进行注意力计算，得到多头注意力机制层输出的注意力向量的步骤，直至得到最后一个编码单元的输出作为特征编码模块的输出。

S706：通过分类器对特征编码模块的输出进行分类，得到活体检测结果。

具体地，通过将编码单元输入至下一级联的编码单元，并重复执行将组合编码特征输入至归一化层进行归一化处理，得到归一化向量额步骤，直至得到最后一个编码单元的输出作为特征编码模块的输出，然后将该编码输出输入至分类器(如softmax)进行分类，以得到活体检测结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种多模态活体检测装置，该多模态活体检测装置与上述实施例中多模态活体检测方法一一对应。如图9所示，该多模态活体检测装置包括数据采集模块10、活体检测模型检测模块20、特征提取模块30、以及活体检测模块40。各功能模块详细说明如下：

数据采集模块10，用于采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像。

活体检测模型检测模块20，用于将所述语音帧以及所述帧图像输入至活体检测模型中进行活体检测，所述活体检测模型包括嘴部定位模块、语音特征提取模块以及活体检测模块。

特征提取模块30，用于通过所述嘴部定位模块定位所述帧图像中的口型图像；以及，通过所述语音特征提取模块提取所述语音帧对应的语音特征；其中，所述口型图像对应一口型图像特征。

活体检测模块40，用于通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征。

具体地，多模态活体检测装置还包括组合编码模块。

组合编码模块，用于若通过所述组合编码模块对多模态特征进行组合编码，得到组合编码特征。

活体检测模块具体为：通过所述活体检测模块基于所述组合编码特征进行活体检测，得到活体检测结果。

具体地，组合编码模块包括第一编码单元、第二编码单元以及特征相加模块。

第一编码单元，用于对所述多模态特征进行线性变换，得到第一编码特征；

第二编码单元，用于对所述多模态特征进行位置编码，得到第二编码特征；

特征相加模块，用于将所述第一编码特征与所述第二编码特征相加，得到所述组合编码特征。

具体地，该多模态活体检测装置还包括正样本获取模块、负样本获取模块以及模型训练模块。

正样本获取模块，用于爬取已公开的对话视频，并将所述对话视频作为模型训练的正样本。

负样本获取模块，用于对所述正样本进行增噪处理，得到负样本。

模型训练模块，用于根据正负样本训练所述活体检测模型。

具体地，增噪处理包括语音帧与帧图像的错位处理、语音帧增噪处理以及帧图像增噪处理中的一个或多个。

具体地，该特征提取模块包括预处理模块、频域转换模块、滤波模块、离散余弦变换模块以及差分计算模块。

预处理模块，用于对所述语音帧进行预加重和加窗处理，得到加窗后的语音帧。

频域转换模块，用于对所述加窗后的语音帧进行频域转换，得到频谱特征。

滤波模块，用于通过梅尔滤波器组对所述频谱特征进行滤波，输出滤波后的频谱特征。

离散余弦变换模块，用于对所述滤波后的频谱特征进行离散余弦变换，得到倒谱系数。

差分计算模块，用于对所述倒谱系数进行多阶差分计算，得到所述语音特征。

具体地，所述活体检测模块包括特征编码模块以及分类器；所述特征编码模块包括多个级联的编码单元；每一所述编码单元均包括第一归一化层、多头注意力机制层、第二归一化层以及全连接层；该活体检测模块包括第一归一化单元、注意力计算单元、第二归一化单元、全连接映射单元、迭代编码单元以及分类单元。

第一归一化单元，用于将所述组合编码特征输入至所述第一归一化层进行归一化处理，得到第一输出。

注意力计算单元，用于将所述第一输出输入至所述多头注意力机制层进行注意力计算，得到注意力向量。

第二归一化单元，用于将所述注意力向量输入至所述第二归一化层进行归一化处理，得到第二输出。

全连接映射单元，用于将所述第二输出输入至所述全连接层，得到所述编码单元的输出。

迭代编码单元，用于将所述编码单元的输出输入至下一级联的编码单元，并重复执行所述将所述组合编码特征输入至所述归一化层进行归一化处理，得到归一化向量额步骤，直至得到最后一个编码单元的输出作为所述特征编码模块的输出。

分类单元，用于通过所述分类器对所述特征编码模块的输出进行分类，得到所述活体检测结果。

关于多模态活体检测装置的具体限定可以参见上文中对于多模态活体检测方法的限定，在此不再赘述。上述多模态活体检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行多模态活体检测方法过程中生成或获取的数据，如活体检测模型。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态活体检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的多模态活体检测方法的步骤，例如图2所示的步骤S201-S204，或者图3至图6、图8中所示的步骤。或者，处理器执行计算机程序时实现多模态活体检测装置这一实施例中的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机存储介质，该计算机存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中多模态活体检测方法的步骤，例如图2所示的步骤S201-S204，或者图3至图6、图8中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述多模态活体检测装置这一实施例中的各模块/单元的功能，例如图9所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种多模态活体检测方法，其特征在于，包括：

所述活体检测模型包括组合编码模块；在所述通过所述活体检测模块基于多模态特征进行活体检测之前，所述多模态活体检测方法还包括：

通过所述组合编码模块对多模态特征进行组合编码，得到组合编码特征；

所述通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果包括：

通过所述活体检测模块基于所述组合编码特征进行活体检测，得到活体检测结果;

通过所述活体检测模块基于所述多模态特征进行活体检测，得到活体检测结果；其中，所述多模态特征包括所述口型图像特征与所述语音特征;

通过所述组合编码模块对多模态特征进行组合编码，得到组合编码特征，包括：

对所述多模态特征进行线性变换，得到第一编码特征；

对所述多模态特征进行位置编码，得到第二编码特征；

将所述第一编码特征与所述第二编码特征相加，得到所述组合编码特征;

所述活体检测模块包括特征编码模块以及分类器；所述特征编码模块包括多个级联的编码单元；每一所述编码单元均包括第一归一化层、多头注意力机制层、第二归一化层以及全连接层；

所述通过所述活体检测模块基于所述组合编码特征进行活体检测，得到活体检测结果，包括：

将所述组合编码特征输入至所述第一归一化层进行归一化处理，得到所述第一归一化层的第一输出；

将所述第一输出输入至所述多头注意力机制层进行注意力计算，得到所述多头注意力机制层输出的注意力向量；

将所述注意力向量输入至所述第二归一化层进行归一化处理，得到所述第一归一化层的第二输出；

将所述第二输出输入至所述全连接层，得到所述编码单元的输出；

将所述编码单元的输出输入至下一级联的编码单元，以使所述下一级联的编码单元将所述编码单元的输出输入至所述第一归一化层进行归一化处理，得到所述第一归一化层的第一输出；

重复执行所述将所述第一输出输入至所述多头注意力机制层进行注意力计算，得到所述多头注意力机制层输出的注意力向量的步骤，直至得到最后一个编码单元的输出作为所述特征编码模块的输出；

通过所述分类器对所述特征编码模块的输出进行分类，得到所述活体检测结果。

2.如权利要求1所述多模态活体检测方法，其特征在于，在所述采集活体检测视频流中的语音帧以及所述语音帧对应的帧图像之前，所述多模态活体检测方法还包括：

爬取已公开的对话视频，并将所述对话视频作为模型训练的正样本；

对所述正样本进行增噪处理，得到负样本；

根据正负样本训练所述活体检测模型。

3.如权利要求2所述多模态活体检测方法，其特征在于，所述增噪处理包括语音帧与帧图像的错位处理、语音帧增噪处理以及帧图像增噪处理中的一个或多个。

4.如权利要求1所述多模态活体检测方法，其特征在于，所述通过所述语音特征提取模块提取所述语音帧对应的语音特征，包括：

对所述语音帧进行预加重和加窗处理，得到加窗后的语音帧；

对所述加窗后的语音帧进行频域转换，得到频谱特征；

通过梅尔滤波器组对所述频谱特征进行滤波，输出滤波后的频谱特征；

对所述滤波后的频谱特征进行离散余弦变换，得到倒谱系数；

对所述倒谱系数进行多阶差分计算，得到所述语音特征。

5.如权利要求1所述多模态活体检测方法，其特征在于，所述活体检测模块包括特征编码模块以及分类器；所述特征编码模块包括多个级联的编码单元；每一所述编码单元均包括第一归一化层、多头注意力机制层、第二归一化层以及全连接层；

6.一种多模态活体检测装置，所述装置用于实现如权利要求1至5任一项所述多模态活体检测方法的步骤，其特征在于，包括：

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述多模态活体检测方法的步骤。

8.一种计算机存储介质，所述计算机存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述多模态活体检测方法的步骤。