CN114491467A

CN114491467A - 一种身份认证方法及装置

Info

Publication number: CN114491467A
Application number: CN202210392376.6A
Authority: CN
Inventors: 宋雪; 杨汀汀; 董未名; 芦桂秋
Original assignee: BEIJING KUAILIAN TECHNOLOGY CO LTD
Current assignee: BEIJING KUAILIAN TECHNOLOGY CO LTD
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-05-13

Abstract

本发明提供了一种身份认证方法及装置，包括：获取用户在进行身份认证时包含人脸和语音的视频，对获取的视频进行视频片段切分，得到视频片段集；针对视频片段集中的每一视频片段，进行人脸序列提取，以及，进行语音频率特征序列提取；将视频片段对应的人脸序列以及语音频率特征序列进行拼接，得到拼接序列，依据各视频片段对应的拼接序列，得到拼接序列集；将拼接序列集输入预先训练好的身份综合认证模型，得到用户的身份特征综合向量，依据身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，所述身份特征综合向量表征人脸序列身份、语音身份、人脸序列与语音频率特征序列的相关性。可以提高身份认证的安全性。

Description

一种身份认证方法及装置

技术领域

本发明涉及身份认证技术领域，具体而言，涉及一种身份认证方法及装置。

背景技术

随着移动互联网的日益普及以及生物特征识别技术的不断发展与成熟，以生物特征识别作为身份验证入口的方式广泛应用在人们的日常生活中。其中，由于人脸图像和语音信号可以使用手机或网络摄像头直接采集，使得身份验证较为便捷，成为生物特征识别中最为常用的两种身份验证手段。

在进行人脸图像和语音信号识别时，需要预先基于生物特征识别算法构建用户人脸和声纹识别的深度神经网络模型，通过借助生物特征识别算法强大的学习和表达能力，将输入的人脸图像或语音信号映射为可表征身份的身份特征向量，最后基于身份特征向量之间的余弦距离或欧氏距离进行身份认证。但该利用人脸图像和语音信号进行身份认证的方法，深度神经网络模型基于人脸图像获取人脸对应的人脸特征向量，计算与预存的人脸向量的余弦距离，以及，基于语音信号获取语音对应的语音特征向量，计算与预存的语音向量的余弦距离，基于两者余弦距离的计算结果进行身份认证，由于人脸图像或语音信号相对容易伪造，例如，可以将照片或录音或预先录制的音视频输入深度神经网络模型，从而对人脸识别、声纹识别进行冒仿攻击，降低了身份认证的精度以及安全性。

发明内容

有鉴于此，本发明的目的在于提供身份认证方法及装置，以提高身份认证的安全性。

第一方面，本发明实施例提供了身份认证方法，包括：

获取用户在进行身份认证时包含人脸和语音的视频，对获取的视频进行视频片段切分，得到视频片段集；

针对视频片段集中的每一视频片段，进行人脸序列提取，以及，进行语音频率特征序列提取；

将视频片段对应的人脸序列以及语音频率特征序列进行拼接，得到拼接序列，依据各视频片段对应的拼接序列，得到拼接序列集；

将拼接序列集输入预先训练好的身份综合认证模型，得到所述用户的身份特征综合向量，依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，所述身份特征综合向量表征人脸序列身份、语音身份、人脸序列与语音频率特征序列的相关性。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述进行人脸序列提取，包括：

以预设的第三时长为时间间隔，对视频片段进行抽取，得到图像帧序列，其中，视频片段的时长为第三时长的整数倍；

针对图像帧序列中的每一图像帧，对该图像帧进行人脸检测、关键点检测、人脸对齐处理，得到人脸帧，依据各图像帧对应的人脸帧，生成人脸序列。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述进行语音频率特征序列提取，包括：

以预设的第四时长为时间间隔，对视频片段进行分割，得到语音帧序列；

针对语音帧序列中的每一语音帧，对该语音帧进行语音频率特征提取，依据各时序语音帧对应的语音频率特征，生成语音频率特征序列。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，包括：

计算所述身份特征综合向量与所述身份特征向量的相似度，若计算的相似度大于预先设置的相似度阈值，确认所述用户的身份认证通过。

结合第一方面、第一方面的第一种可能的实施方式至第三种可能的实施方式中的任一种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述身份综合认证模型依据如下步骤训练得到：

获取包含样本用户的人脸和语音的样本视频，针对每一样本用户，对该样本用户的样本视频进行样本视频片段切分，得到样本视频片段集；

针对样本视频片段集中的每一样本视频片段，进行人脸样本序列提取，以及，进行语音频率特征样本序列提取；

依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签；

针对每一样本训练数据，将该样本训练数据输入多分支结构的神经网络模型，得到多分支结构的神经网络模型输出的综合身份特征向量，并依据综合身份特征向量，分别计算得到人脸分类、声纹分类和相关性分类；

基于样本训练数据的人脸分类以及人脸序列身份标签、声纹分类以及语音身份标签、相关性分类以及相关性标签，对多分支结构的神经网络模型进行反向传递训练，得到身份综合认证模型。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

针对每一样本用户，从该样本用户的视频片段集中，随机抽取样本视频片段，将该样本视频片段对应的人脸序列和语音频率特征序列进行拼接，得到样本训练数据，设置人脸序列身份标签为该样本用户，语音身份标签为该样本用户，相关性标签为人脸序列与语音频率特征序列在身份和时序上均相关。

结合第一方面的第四种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

针对每一样本用户，从该样本用户的视频片段集中，随机抽取两个视频片段，将抽取的一视频片段对应的人脸序列和另一视频片段对应的语音频率特征序列进行拼接，得到样本训练数据，设置人脸序列身份标签为该样本用户，语音身份标签为该样本用户，相关性标签为人脸序列与语音频率特征序列仅在身份上相关。

第二方面，本发明实施例还提供了一种身份认证装置，包括：

切分模块，用于获取用户在进行身份认证时包含人脸和语音的视频，对获取的视频进行视频片段切分，得到视频片段集；

序列提取模块，用于针对视频片段集中的每一视频片段，进行人脸序列提取，以及，进行语音频率特征序列提取；

拼接模块，用于将视频片段对应的人脸序列以及语音频率特征序列进行拼接，得到拼接序列，依据各视频片段对应的拼接序列，得到拼接序列集；

认证模块，用于将拼接序列集输入预先训练好的身份综合认证模型，得到所述用户的身份特征综合向量，依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，所述身份特征综合向量表征人脸序列身份、语音身份、人脸序列与语音频率特征序列的相关性。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述的方法的步骤。

本发明实施例提供的身份认证方法及装置，通过获取用户在进行身份认证时包含人脸和语音的视频，对获取的视频进行视频片段切分，得到视频片段集；针对视频片段集中的每一视频片段，进行人脸序列提取，以及，进行语音频率特征序列提取；将视频片段对应的人脸序列以及语音频率特征序列进行拼接，得到拼接序列，依据各视频片段对应的拼接序列，得到拼接序列集；将拼接序列集输入预先训练好的身份综合认证模型，得到所述用户的身份特征综合向量，依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，所述身份特征综合向量表征人脸序列身份、语音身份、人脸序列与语音频率特征序列的相关性。这样，由于综合身份特征向量同时考虑了人脸信息和声纹信息以及人脸与声纹的相关性，使得该综合身份特征向量更具区分性，能够有效提高身份认证的安全性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的身份认证方法流程示意图；

图2示出了本发明实施例所提供的多分支结构的神经网络模型示意图；

图3示出了本发明实施例所提供的身份认证装置结构示意图；

图4为本申请实施例提供的一种计算机设备400的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前的身份认证方法，人脸识别和声纹识别之间相互独立，没有从语义身份、时序信息等角度考虑人脸和声纹的相关性，因此，对于人脸照片融合录制语音的攻击，身份认证的安全性较低。本发明实施例中，考虑到人的大脑在进行身份认证时，不是通过单一的人脸图像或语音信息对用户的身份进行确认，而是通过对人脸图像和语音信息进行联合共同分析以进行身份认证。在身份认证时，大脑使用的是图像和语音的时序信息，而非是某一时刻的图像和语音，使得大脑在进行身份验证时，一方面从人脸和声音序列中归纳抽取了人的综合身份特征；另一方面，对于人脸和声音在时序上的相关性也进行了验证。因而，本发明实施例中，基于语音产生的同时伴随有相应的人脸表情变化，语音内容与表情变化具有强相关，通过在认证算法中充分利用人脸和语音的各种相关性，提出一种基于结合人脸和语音信息的身份认证方法，从信号层面对人脸序列和语音信号进行融合，通过深度卷积网络学习身份特征向量，该身份特征向量充分考虑人脸序列和语音在身份和时序上的相关性，能够有效缓解人脸和声纹认证中出现的各种攻击现象，提升身份认证的识别准确率和安全性。

本发明实施例提供了一种身份认证方法及装置，下面通过实施例进行描述。

图1示出了本发明实施例所提供的身份认证方法流程示意图。如图1所示，该方法包括：

步骤101，获取用户在进行身份认证时包含人脸和语音的视频，对获取的视频进行视频片段切分，得到视频片段集；

本发明实施例中，采集用户在进行身份认证时的视频。作为一可选实施例，视频为该用户以正常语速朗读呈现在认证的屏幕上显示的随机字符串。作为一可选实施例，随机字符串的长度处于6-10位之间，视频中视频数据的帧率不小于30帧每秒，语音采样率不小于16K。

本发明实施例中，作为一可选实施例，对获取的视频，以第一时长为步长，对视频进行分割，得到多个视频片段，每一视频片段的时长为第二时长。例如，以0.5秒为步长，将视频分割成多个时长为1.2秒的视频片段，得到视频片段集。其中，作为一可选实施例，若最后一个视频片段不足1.2秒，则将该视频片段舍弃。

步骤102，针对视频片段集中的每一视频片段，进行人脸序列提取，以及，进行语音频率特征序列提取；

本发明实施例中，作为一可选实施例，进行人脸序列提取，包括：

A11，以预设的第三时长为时间间隔，对视频片段进行抽取，得到图像帧序列，其中，视频片段的时长为第三时长的整数倍；

本发明实施例中，作为一可选实施例，第三时长为300毫秒，整数倍为大于1的整数。对每一个视频片段，以300毫秒为时间间隔进行抽取，得到如下5帧图像帧序列：

其中，

、

分别为第i个视频片段的第一帧图像帧和最后一帧图像帧。

A12，针对图像帧序列中的每一图像帧，对该图像帧进行人脸检测、关键点检测、人脸对齐处理，得到人脸帧，依据各图像帧对应的人脸帧，生成人脸序列。

本发明实施例中，通过对图像帧进行人脸检测、关键点检测以及人脸对齐处理，可以将图像帧序列转化为预设固定尺寸的人脸序列。

本发明实施例中，人脸序列为：

本发明实施例中，m、n分别为人脸的尺寸。作为一可选实施例，

。

本发明实施例中，作为一可选实施例，进行语音频率特征序列提取，包括：

A21，以预设的第四时长为时间间隔，对视频片段进行分割，得到语音帧序列；

A22，针对语音帧序列中的每一语音帧，对该语音帧进行语音频率特征提取，依据各时序语音帧对应的语音频率特征，生成语音频率特征序列。

本发明实施例中，对每一个视频片段，将该视频片段包含的语音片段，以0.01秒为步长分割成多个时长为0.025秒的语音帧序列，其中，语音帧序列包含120帧语音帧。

本发明实施例中，作为一可选实施例，语音频率特征（语音频谱图）包括：梅尔频率倒谱系数(MFCC，Mel-Frequency Cepstral Coefficients)、梅尔频率倒谱系数的1阶差分和梅尔频率倒谱系数的2阶差分。将所有语音帧的语音频率特征按时间先后顺序进行拼接，得到视频片段的语音频率特征序列，即语音频谱图，表示如下：

步骤103，将视频片段对应的人脸序列以及语音频率特征序列进行拼接，得到拼接序列，依据各视频片段对应的拼接序列，得到拼接序列集；

本发明实施例中，每一视频片段对应一拼接序列，按照时序，将视频片段集中各视频片段对应的拼接序列组成拼接序列集。

步骤104，将拼接序列集输入预先训练好的身份综合认证模型，得到所述用户的身份特征综合向量，依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，所述身份特征综合向量表征人脸序列身份、语音身份、人脸序列与语音频率特征序列的相关性。

本发明实施例中，预先存储的用户的身份特征向量为训练好身份综合认证模型后，该用户将包含人脸和语音的视频进行切分、人脸序列提取、语音频率特征序列提取、拼接后，将拼接序列集输入训练好的身份综合认证模型得到的特征向量。

本发明实施例中，作为一可选实施例，依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，包括：

本发明实施例中，若身份综合认证模型中未存储有用户的身份特征向量，则该用户需要预先在该身份综合认证模型中进行注册，即在注册时，对该用户包含人脸和语音的视频进行切分、人脸序列提取、语音频率特征序列提取、拼接后，将拼接序列集输入该身份综合认证模型，得到该用户的特征向量。

本发明实施例中，作为一可选实施例，身份综合认证模型依据如下步骤训练得到：

A31，获取包含样本用户的人脸和语音的样本视频，针对每一样本用户，对该样本用户的样本视频进行样本视频片段切分，得到样本视频片段集；

本发明实施例中，采集已知身份的各样本用户的视频。作为一可选实施例，参与样本视频采集的样本用户，使用手机或网络摄像头录制该样本用户以正常语速朗读随机数字串的多段样本视频，不同的样本视频中，朗读的内容不同，各样本视频中的人脸保持完整。

A32，针对样本视频片段集中的每一样本视频片段，进行人脸样本序列提取，以及，进行语音频率特征样本序列提取；

A33，依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签；

本发明实施例中，样本训练数据、人脸序列身份标签、语音身份标签、相关性标签组成的样本训练数据序列可以表示为：

其中，

为第i个样本训练数据；

为第i个样本训练数据中的人脸序列的身份标签，即人脸序列身份标签；

为第i个样本训练数据中的语音频率特征序列的语音身份标签；

为第i个样本训练数据中的人脸序列与语音频率特征序列的相关性标签。

本发明实施例中，人脸序列身份标签与语音身份标签是基于用户的标签，对于同一用户，该用户的人脸序列身份标签与语音身份标签可以均是该用户的用户标签。作为一可选实施例，依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

本发明实施例中，拼接得到的样本训练数据为：

。

其中，

为第k个样本用户的第i个样本视频片段对应的人脸序列；

为第k个样本用户的第i个样本视频片段对应的语音频率特征序列；

y_k为第k个样本用户的用户标签；

表示人脸序列与语音频率特征序列在身份和时序上均存在相关性。

本发明实施例中，作为另一可选实施例，依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

本发明实施例中，针对每一视频片段集，从该视频片段集中随机抽取两个视频片段，分别为：

为第k个样本用户的第j个样本视频片段；

为第k个样本用户的第l个样本视频片段。

本发明实施例中，作为一可选实施例，将

的人脸序列和

的语音频率特征序列（语音频谱图）进行拼接，得到样本训练数据，作为另一可选实施例，也可以将

的人脸序列和

的语音频谱图进行拼接，得到样本训练数据：

本发明实施例中，为该样本训练数据设置的标签为：

本发明实施例中，

，表示人脸序列与语音频率特征序列的相关性标签仅在身份上存在相关性。

本发明实施例中，作为再一可选实施例，依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

从第一样本用户的视频片段集中随机抽取第一视频片段，从第二样本用户的视频片段集中随机抽取的第二视频片段，将第一视频片段对应的人脸序列和第二视频片段对应的语音频率特征序列进行拼接，得到样本训练数据，设置人脸序列身份标签为第一样本用户，语音身份标签为第二样本用户，相关性标签为人脸序列与语音频率特征序列不存在相关性。

本发明实施例中，作为一可选实施例，样本训练数据可以表示如下：

本发明实施例中，为该样本训练数据设置的标签为：

本发明实施例中，

，表示人脸序列与语音频率特征序列的相关性标签在身份和时序上均不存在相关性。

A34，针对每一样本训练数据，将该样本训练数据输入多分支结构的神经网络模型，得到多分支结构的神经网络模型输出的综合身份特征向量，并依据综合身份特征向量，分别计算得到人脸分类、声纹分类和相关性分类；

A35，基于样本训练数据的人脸分类以及人脸序列身份标签、声纹分类以及语音身份标签、相关性分类以及相关性标签，对多分支结构的神经网络模型进行反向传递训练，得到身份综合认证模型。

本发明实施例中，构造多分支结构的神经网络模型，用于学习综合身份特征向量表示。

本发明实施例中，作为一可选实施例，采用ResNet结构作为神经网络模型的主干网络。

图2示出了本发明实施例所提供的多分支结构的神经网络模型示意图。本发明实施例中，作为一可选实施例，将该样本训练数据输入多分支结构的神经网络模型，得到多分支结构的神经网络模型输出的综合身份特征向量，包括：

将样本训练数据输入1x1的卷积层；

卷积层对样本训练数据进行变换，输出至ResNet主干网络；

ResNet主干网络对变换的样本训练数据进行高层语义特征提取，将提取的高层语义特征输出至全局平均池化层；

全局池化层对输入的高层语义特征进行池化处理，得到池化特征，输出至全连接层；

全连接层对输入的池化特征进行全连接处理，得到综合身份特征向量。

本发明实施例中，为了提升综合身份特征向量的身份区分能力，分别构造人脸和语音的身份分类损失函数，同时，构造人脸和语音的相关性分类损失函数，使得综合身份特征向量在表征人身份信息的同时，还具备衡量人脸与语音信号在身份和时序上是否存在相关性的能力。作为一可选实施例，对于人脸分类损失、声纹分类损失和相关性分类损失，分别定义如下Softmax损失函数：

式中，

B为样本训练数据的数量；

N为样本用户数量；

W,b为全连接特征层内的待学习参数；

为对应第i个样本训练数据的身份标签的待学习参数的转置；

为对应第i个样本训练数据的相关性标签的待学习参数；

为对应第j分类的待学习参数的转置；

g_i为综合身份特征向量。

本发明实施例中，分类包括：人脸分类、声纹分类和相关性分类。

本发明实施例中，多分支结构的神经网络模型的损失为上述三个分类对应的损失（人脸分类损失、声纹分类损失和相关性分类损失）之和的均值，为：

本发明实施例中，根据多分支结构的神经网络模型的损失，采用Adam优化算法，对多分支结构的神经网络模型的各待学习参数进行优化求解。

本发明实施例中，通过获取人脸视频，从人脸视频中提取连续图像帧和语音频谱图，利用多分支结构的神经网络模型，将连续图像帧和语音频谱图映射为综合身份特征向量。由于综合身份特征向量同时考虑了人脸信息和声纹信息以及人脸与声纹的相关性，使得该综合身份特征向量更具区分性，这样，通过采集大量已知身份的人脸视频，利用采集的人脸视频对多分支结构的神经网络模型进行训练，训练收敛后，可基于训练好的多分支结构的神经网络模型（身份综合认证模型）进行身份验证，如果输入身份综合认证模型的人脸序列和语音频率特征序列不是来自于同一个身份，或者，人脸序列和语音频率特征序列来源同一身份、但并非在相同时空条件下采集，均会导致身份综合认证模型提取得到的综合身份特征向量与用户注册时的身份特征向量不相似，从而有效拒绝人脸和语音信号身份不一致或者时序不一致的攻击情况，能够有效提高生物特征识别系统的认证效率和安全性能。

图3示出了本发明实施例所提供的身份认证装置结构示意图。如图2所示，该装置包括：

切分模块301，用于获取用户在进行身份认证时包含人脸和语音的视频，对获取的视频进行视频片段切分，得到视频片段集；

本发明实施例中，视频为进行身份认证的用户以正常语速朗读呈现在认证的屏幕上显示的随机字符串。作为一可选实施例，随机字符串的长度处于6-10位之间，视频中视频数据的帧率不小于30帧每秒，语音采样率不小于16K。

序列提取模块302，用于针对视频片段集中的每一视频片段，进行人脸序列提取，以及，进行语音频率特征序列提取；

本发明实施例中，作为一可选实施例，序列提取模块302包括：

人脸序列提取单元（图中未示出），用于以预设的第三时长为时间间隔，对视频片段进行抽取，得到图像帧序列，其中，视频片段的时长为第三时长的整数倍；针对图像帧序列中的每一图像帧，对该图像帧进行人脸检测、关键点检测、人脸对齐处理，得到人脸帧，依据各图像帧对应的人脸帧，生成人脸序列；

语音频率特征序列提取单元，用于以预设的第四时长为时间间隔，对视频片段进行分割，得到语音帧序列；针对语音帧序列中的每一语音帧，对该语音帧进行语音频率特征提取，依据各时序语音帧对应的语音频率特征，生成语音频率特征序列。

本发明实施例中，作为一可选实施例，语音频率特征包括：梅尔频率倒谱系数、梅尔频率倒谱系数的1阶差分和梅尔频率倒谱系数的2阶差分。

拼接模块303，用于将视频片段对应的人脸序列以及语音频率特征序列进行拼接，得到拼接序列，依据各视频片段对应的拼接序列，得到拼接序列集；

认证模块304，用于将拼接序列集输入预先训练好的身份综合认证模型，得到所述用户的身份特征综合向量，依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，所述身份特征综合向量表征人脸序列身份、语音身份、人脸序列与语音频率特征序列的相关性。

本发明实施例中，所述依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，包括：

本发明实施例中，作为一可选实施例，该装置还包括：

模型构建模块（图中未示出），用于获取包含样本用户的人脸和语音的样本视频，针对每一样本用户，对该样本用户的样本视频进行样本视频片段切分，得到样本视频片段集；

本发明实施例中，作为一可选实施例，依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

针对每一样本用户，从该样本用户的视频片段集中，随机抽取两个视频片段，将抽取的一视频片段对应的人脸序列和另一视频片段对应的语音频率特征序列进行拼接，得到样本训练数据，设置人脸序列身份标签为该样本用户，语音身份标签为该样本用户，相关性标签为人脸序列与语音频率特征序列仅在身份上均相关。

如图4所示，本申请一实施例提供了一种计算机设备400，用于执行图1中的身份认证方法，该设备包括存储器401、与存储器401通过总线相连的处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述身份认证方法的步骤。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述身份认证方法。

对应于图1中的身份认证方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述身份认证方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述身份认证方法。

在本申请所提供的实施例中，应该理解到，所揭露系统和方法，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory， ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种身份认证方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述进行人脸序列提取，包括：

3.根据权利要求1所述的方法，其特征在于，所述进行语音频率特征序列提取，包括：

4.根据权利要求1所述的方法，其特征在于，所述依据所述身份特征综合向量以及预先存储的所述用户的身份特征向量，对所述用户进行身份认证，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述身份综合认证模型依据如下步骤训练得到：

基于样本训练数据的人脸分类以及人脸序列身份标签、声纹分类以及语音身份标签、相关性分类以及相关性标签，对多分支结构的神经网络模型进行反向传递训练，得到综合身份特征向量提取模型。

6.根据权利要求5所述的方法，其特征在于，所述依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

7.根据权利要求5所述的方法，其特征在于，所述依据各样本视频片段集中样本视频片段对应的人脸序列以及语音频率特征序列，构造样本训练数据，为样本训练数据分别标记人脸序列身份标签、语音身份标签、人脸序列与语音频率特征序列的相关性标签，包括：

8.一种身份认证装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的身份认证方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的身份认证方法的步骤。