CN110956966B

CN110956966B - 声纹认证方法、装置、介质及电子设备

Info

Publication number: CN110956966B
Application number: CN201911059843.8A
Authority: CN
Inventors: 冯晨; 王健宗; 彭俊清
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2023-09-19
Anticipated expiration: 2039-11-01
Also published as: CN110956966A; WO2021082420A1

Abstract

本申请提供了一种声纹认证方法、装置、介质及电子设备。该方法包括：获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集当前用户的待认证声纹信息；将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境，使以该预测声纹信息为标准识别出的目标用户不受时间的干扰。本申请能够进行声纹认证。

Description

声纹认证方法、装置、介质及电子设备

技术领域

本申请涉及通信技术领域，特别涉及一种声纹认证方法、装置、介质及电子设备。

背景技术

由于声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，通过计算两段语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户。

在声纹技术的研究过程中会发现，随着时间的变化，人的声纹也会发生变化，而且时间越长，人的声纹变化也越大，若采集到的声纹信息的时间与预先注册声纹模型的时间相隔较远，则有可能会导致认证失败。

发明内容

本申请旨在提供一种声纹认证方法、装置、介质及电子设备，能够提高声纹认证的准确性。

根据本申请实施例的一个方面，提供了一种声纹认证方法，包括：获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集当前用户的待认证声纹信息；将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。

根据本申请实施例的一个方面，提供了一种声纹认证装置，包括：获取模块，用于获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；第一预测模块，用于将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集模块，用于采集当前用户的待认证声纹信息；匹配模块，用于将所述预测声纹信息与所述待认证声纹信息进行匹配，以获得第一匹配度；确定模块，若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。

在本申请的一些实施例中，基于前述方案，所述第一预测模块配置为：对所述声纹信息进行降噪处理得到纯语音数据；对所述纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的听觉倒谱系数特征；所述将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；根据所述每帧的预测声纹信息得到所述预测声纹信息。

在本申请的一些实施例中，基于前述方案，所述声纹认证装置还包括：第二预测模块，用于获取所述目标用户在预设时间段前的人脸图像信息；将所述目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；采集所述当前用户的待认证人脸图像信息；将所述预测人脸图像信息与所述待认证人脸图像信息进行匹配，以获得第二匹配度；所述匹配模块配置为：将所述第一匹配度和所述第二匹配度进行加权和计算以获得总匹配度；若所述总匹配度大于第二预设阈值，则确定所述当前用户为所述目标用户。

在本申请的一些实施例中，基于前述方案，所述匹配模块配置为：基于人耳耳蜗听觉模型提取所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将所述听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；将所述听觉倒谱系数特征和所述深度瓶颈特征按照公式Y＝aG+bB计算，得到所述目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为所述听觉倒谱系数特征，B为所述深度瓶颈特征，系数a和b预先通过以下过程获得：获取所述目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，0≤a≤1,0≤b≤1,a+b＝1,其中，N为所述目标用户在所述预设时间段前的声纹信息样本集合中的声纹数，Y_i与Y_j分别为基于在声纹信息样本集合中所述目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的所述融合特征；将所述待认证声纹信息的融合特征与所述预测声纹信息的融合特征进行比较，以获得第一匹配度。

在本申请的一些实施例中，基于前述方案，所述匹配模块还配置为：将所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到所述目标用户在预设时间段前的声纹信息的迁移特征；将所述迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；将所述听觉倒谱系数特征和所述迁移深度瓶颈特征按照公式Y₁＝aG+bB₁计算，得到所述目标用户在预设时间段前的声纹信息的迁移融合特征Y₁，其中，G为所述听觉倒谱系数特征，B₁为所述迁移深度瓶颈特征；将所述待认证声纹信息的迁移融合特征与所述预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；基于所述第一匹配度和所述第三匹配度，判断所述当前用户是否为所述目标用户。

根据本申请实施例的一个方面，提供了一种电子装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的声纹认证方法。

根据本申请实施例的一个方面，提供了一种计算机可读程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的声纹认证方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

在本申请的一些实施例所提供的技术方案中，通过获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息，使得到的预测声纹信息能够考虑到目标用户的性别随着年龄的增大时声纹信息产生的变化，使得到的预测声纹信息能够考虑到目标用户在不同环境中声纹信息的变化。再将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境，使以该预测声纹信息为标准识别出的目标用户不受时间的干扰，解决了现有技术中采集到的声纹信息的时间与预先注册声纹模型的时间相隔较远导致认证失败的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图；

图2示意性示出了根据本申请的一个实施例的声纹认证方法的流程图；

图3示意性示出了根据本申请的一个实施例的声纹认证方法的流程图；

图4示意性示出了根据本申请的一个实施例的声纹认证装置的框图；

图5是根据一示例性实施例示出的一种电子设备的硬件示意图；

图6是根据一示例性实施例示出的一种用于实现上述声纹认证方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本申请实施例的技术方案的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种，当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

应该理解，图1中的终端设备、网络104和服务器105的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络104、和服务器105。比如服务器105可以是多个服务器组成的服务器集群等。

在本申请的一个实施例中，服务器105可以获取目标用户从终端设备输入的声纹信息。目标用户可以通过终端设备中的客户端或网页输入声纹信息、年龄、性别和所处环境。服务器105将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息，使得到的预测声纹信息能够考虑到目标用户的性别随着年龄的增大时产生的变化，使得到的预测声纹信息能够考虑到目标用户在不同环境中的变化。再将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。由于在预测声纹信息时考虑了目标用户的年龄、性别和所处环境，使以该预测声纹信息为标准识别出的目标用户不受时间的干扰，解决了现有技术中因为采集到的声纹信息的时间与预先注册声纹模型的时间相隔较远导致认证失败的问题。

需要说明的是，本申请实施例所提供的声纹认证方法一般由服务器105执行，相应地，声纹认证装置一般设置于服务器105中。但是，在本申请的其它实施例中，终端设备也可以与服务器105具有相似的功能，从而执行本申请实施例所提供的声纹认证方法。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示意性示出了根据本申请的一个实施例的声纹认证方法的流程图，该声纹认证方法的执行主体可以是服务器，比如可以是图1中所示的服务器105。

参照图2所示，该声纹认证方法至少包括步骤S210至步骤S250，详细介绍如下：

在步骤S210中，获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境。

在本申请的一个实施例中，声纹信息可以是一段录音，也可以是从一段录音中提取出的具有某种特征的声纹信息。所处环境可以包括目标用户工作环境、生活环境、语言环境等。

在本申请的一个实施例中，可以获取目标用户在多个预设时间段前的声纹信息、年龄和所处环境。通过获取目标用户在多个预设时间段前的声纹信息、年龄和所处环境，能够得到目标用户的声纹变化趋势，更加准确的预测出目标用户的预测声纹信息。

具体例如，可以获取目标用户的性别，并获取1年前、2年前、3年前目标用户的声纹信息、年龄及所处环境，预测模型根据目标用户在1年前、2年前、3年前的声纹变化趋势，能够更加准确的预测声纹信息。

在该实施例中，当目标用户处于青春期变声阶段时，可以获取目标用户变声前和变声中各个阶段的声纹信息，由于该实施例中在预测声纹信息时考虑到了目标用户的性别、年龄，使该实施例中的方案能够准确预测出目标用户在变声期中和变声期结束后的预测声纹信息。

在步骤S220中，将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息。

在本申请的一个实施例中，预测声纹信息可以是目标用户在当前时间的声纹信息，也可以是目标用户在未来某个时间的声纹信息。

在本申请的一个实施例中，第一预测模型采用以下方法预先训练：获取用于对第一预测模型进行训练的样本数据集合，其中，样本数据集合中的每条样本数据均包括同一用户在预设时间段前的声纹信息、年龄、性别和所处环境以及该用户在当前时间的声纹信息；将样本数据集合中的每条样本数据包含的该用户在预设时间段前的声纹信息、年龄、性别和所处环境作为第一预测模型的输入，将样本数据集合中的每条样本数据包含的该用户在当前时间的声纹信息作为第一预测模型输出的预测声纹信息，对第一预测模型进行训练；将第一预测模型输出的预测声纹信息与该用户在当前时间实际的声纹信息进行比较，如果不一致，调整第一预测模型，使得输出的当前的声纹信息与该用户在当前时间实际的声纹信息一致。

在步骤S230中，采集当前用户的待认证声纹信息。

在本申请的一个实施例中，通过录音设备记录当前用户的待认证的语音，然后对该待认证的语音进行特征提取以获得待认证声纹信息。可以提取该待认证的语音的MFCC特征作为当前用户的待认证声纹信息。也可以基于Gammatone滤波器组提取当前用户的听觉倒谱系数特征作为当前用户的待认证声纹信息。

在步骤S240中，将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度。

在本申请的一个实施例中，可以获取通过预测模型得到的预测声纹信息，再将该预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度。可以通过线性判别模型对该预测声纹信息与待认证声纹信息进行打分，将得到的分数作为第一匹配度。

在上述实施例中，可在目标用户认证的相关应用本地，将预测声纹信息与待认证声纹信息进行匹配，也可通用将预测声纹信息与待认证声纹信息上传至相关服务器，在相关服务器中将预测声纹信息与待认证声纹信息进行匹配。

在本申请的一个实施例中，可以通过以下步骤将预测声纹信息与待认证声纹信息进行匹配，获得第一匹配度。

首先，基于人耳耳蜗听觉模型提取目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；再将听觉倒谱系数特征和深度瓶颈特征按照公式Y＝aG+bB计算，得到目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为听觉倒谱系数特征，B为深度瓶颈特征，系数a和b预先通过以下过程获得：获取目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，0≤a≤1,0≤b≤1,a+b＝1,其中，N为目标用户在预设时间段前的声纹信息样本集合中的声纹数，Y_i与Y_j分别为基于在声纹信息样本集合中目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的融合特征；将待认证声纹信息的融合特征与预测声纹信息的融合特征进行比较，以获得第一匹配度。

在本实施例中，目标用户的声纹语音区分度越小，在声纹信息样本集合中目标用户的声纹信息特征越统一，使目标用户的语音区分度达到最小值，能够更加容易识别出待认证声纹信息是否来自于目标用户。此外，将从目标用户的声纹信息中提取出的两种特征进行融合得到融合特征，得到的融合特征也更加能代表目标用户的声纹信息。

在步骤S250中，若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。

当第一匹配度大于或等于第一预设阈值时，说明当前预测声纹信息与待认证声纹信息的相似度达到要求，可以确定当前用户与目标用户为同一人，能够将当前用户识别为目标用户。

在本申请的一个实施例中，若第一匹配度小于第一预设阈值，则将当前用户识别为非目标用户。可以收集该非目标用户的待认证声纹信息进行存储，使目标用户能够知道有哪些人试图对其设备进行解锁。

在本申请的一个实施例中，还可以将目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到目标用户在预设时间段前的声纹信息的迁移特征；将迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；再将听觉倒谱系数特征和迁移深度瓶颈特征按照公式Y₁＝aG+bB₁计算，得到目标用户在预设时间段前的声纹信息的迁移融合特征Y₁，其中，G为听觉倒谱系数特征，B₁为迁移深度瓶颈特征；再将待认证声纹信息的迁移融合特征与预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；再基于第一匹配度和第三匹配度，判断当前用户是否为目标用户。

在上述施例中，可以计算第一匹配度和第三匹配度的加权和，若当前用户的待认证声纹信息超过第三设定阈值，则确定当前用户为目标用户。

在上述实施例中，由于堆叠降噪自编码网络模型具有鲁棒的特征提取能力，使用堆叠降噪自编码网络模型处理听觉倒谱系数特征得到的迁移特征，能够更加准确的表示声纹信息。

图3示意性示出了根据本申请的一个实施例的声纹认证方法的流程图，该声纹认证方法的执行主体可以是服务器，比如可以是图1中所示的服务器105。

参照图3所示，该声纹认证方法至少包括步骤S310至步骤S390，详细介绍如下：

在步骤S310中，获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境。

在步骤S320中，将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息。

在步骤S330中，采集当前用户的待认证声纹信息。

在步骤S340中，将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度。

在步骤S350中，若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。

在步骤S360中，获取目标用户在预设时间段前的人脸图像信息。

在本申请的一个实施例中，人脸图像信息可以为从目标用户的人脸图像中提取出来的人脸特征信息。可以在目标用户的人脸图像中的五官边缘和脸的外轮廓建立多个特征点，将多个特征点和连接特征点之间的连线作为目标用户的人脸图像信息。

在步骤S370中，将目标用户在预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息。

在本申请的一个实施例中，第二预测模型采用以下方法预先训练：获取用于对第二预测模型进行训练的图像样本数据集合，其中，图像样本数据集合中的每条图像样本数据均包括同一用户在预设时间段前的人脸图像、年龄和性别以及该用户在当前时间的人脸图像；将图像样本数据中的每条图像样本数据包含的该用户预设时间段前的人脸图像、年龄和性别作为第二预测模型的输入，将图像样本数据中的每条图像样本数据包含的该用户的当前时间的人脸图像作为第二预测模型的输出作为预测人脸图像信息，对第二预测进行训练；将第二预测模型输出的该用户在当前时间的人脸图像与该用户当前时间实际的人脸图像进行比较，如果不一致，调整第二预测模型，使得输出的同一用户在当前时间的人脸图像与实际的人脸图像一致。

在步骤S380中，采集当前用户的待认证人脸图像信息。

在本申请的一个实施例中，可以通过相机拍摄得到当前用户的待认证人脸图像，然后对该待认证人脸图像进行特征提取以获得待认证图像信息。可以在待认证人脸图像中的五官边缘和脸的外轮廓建立多个特征点，将多个特征点和连接特征点之间的连线作为待认证图像信息。

在步骤S390中，将预测人脸图像信息与待认证人脸图像信息进行匹配，以获得第二匹配度。

在本申请的一个实施例中，可以通过预测模型预测得到目标用户的预测人脸图像信息，并将该当前预测人脸图像信息与当前用户的待认证人脸图像信息进行匹配，以获得第二匹配度，通过对该第二匹配度进行打分，然后根据打分结果确定目标用户的预测人脸图像信息与当前用户的待认证人脸图像信息的相似度。可以将预测人脸图像信息与待认证人脸图像信息中的五官和脸型的特征点进行匹配，将匹配的特征点数占总点数的百分比作为第二匹配度。

在步骤S3100中，将第一匹配度和第二匹配度进行加权和计算以获得总匹配度；若总匹配度大于第二预设阈值，则确定当前用户为目标用户。

在本申请的一个实施例中，可以对第一匹配度和第二匹配度各赋予50％权重，进行加权求和以得到加权后的总匹配度。

在本申请的一个实施例中，可以将第一匹配度、第二匹配度和第三匹配度进行加权和计算后和第四预设阈值比较，若达到第四预设阈值，则确定当前用户为目标用户。其中，第一匹配度、第二匹配度和第三匹配度的权重根据需要设定。

由于随着时间的推移，目标用户的相貌也会随着年龄的增长而改变，而且不同性别的目标用户，其相貌的变化趋势也存在区别。上述实施例通过对目标用户在设定时间段前的声纹信息和人脸图像同时进行预测，然后将预测后的声纹信息和人脸图像结合在一起对当前用户进行识别，识别的准确度更高。

在本申请的一个实施例中，在获取目标用户在预设时间段前的声纹信息之后，可以对声纹信息进行降噪处理得到纯语音数据，可以采用基于谱相减的语音增强算法对声纹信息进行去噪处理，以消除录音设备造成的噪声，得到纯语音数据。再对纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的梅尔倒谱系数特征。具体地，对得到的纯语音数据按照帧长25ms，帧移10ms进行分帧，并通过MFCC(MelFrequencyCepstrumCoefficient，梅尔频率倒谱系数)特征，对每帧语音数据做短时分析得到MFCC特征并继续计算其一阶和二阶差分，分别提取MFCC特征、MFCC特征的一阶差分、MFCC特征的二阶差分的前13维特征向量拼接成为一个39维的特征向量，再将每帧声纹信息的39维特征向量、年龄、性别和所处环境输入第一预测模型，以获得每帧的预测声纹信息，再根据每帧的预测声纹信息得到预测声纹信息。可以是将每帧的预测声纹信息拼接组合以得到预测声纹信息。

在上述实施例中通过第一预测模型对每帧的特征向量进行预测，并将预测后的预测值组合成预测声纹信息，以使得到的声纹预测的结果更加准确。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的声纹认证方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的声纹认证方法的实施例。

图4示意性示出了根据本申请的一个实施例的声纹认证装置的框图。

参照图4所示，根据本申请的一种声纹认证装置400，包括获取模块401、第一预测模块402、采集模块403、匹配模块404和确定模块405。

在本申请的一些实施例中，基于前述方案，获取模块401用于获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；第一预测模块402用于将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；采集模块403用于采集当前用户的待认证声纹信息；匹配模块404用于将预测声纹信息与待认证声纹信息进行匹配，以获得第一匹配度；确定模块405用于若第一匹配度超过第一预设阈值，则将当前用户确定为目标用户。

在本申请的一些实施例中，基于前述方案，第一预测模块402配置为：对声纹信息进行降噪处理得到纯语音数据；对纯语音数据进行分帧，基于人耳耳蜗听觉模型提取每帧语音数据中的听觉倒谱系数特征；将目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；根据每帧的预测声纹信息得到预测声纹信息。

在本申请的一些实施例中，基于前述方案，声纹认证装置还包括：第二预测模块，用于获取目标用户在预设时间段前的人脸图像信息；将目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；采集当前用户的待认证人脸图像信息；将预测人脸图像信息与待认证人脸图像信息进行匹配，以获得第二匹配度；所述匹配模块404配置为：将第一匹配度和第二匹配度进行加权和计算以获得总匹配度；若总匹配度大于第二预设阈值，则确定当前用户为目标用户。

在本申请的一些实施例中，基于前述方案，匹配模块404配置为：基于人耳耳蜗听觉模型提取目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；将听觉倒谱系数特征和深度瓶颈特征按照公式Y＝aG+bB计算，得到目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为听觉倒谱系数特征，B为深度瓶颈特征，系数a和b预先通过以下过程获得：获取目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，0≤a≤1,0≤b≤1,a+b＝1,其中，N为目标用户在预设时间段前的声纹信息样本集合中的声纹数，Y_i与Y_j分别为基于在声纹信息样本集合中目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照Y＝aG+bB得到的融合特征；将待认证声纹信息的融合特征与预测声纹信息的融合特征进行比较，以获得第一匹配度。

在本申请的一些实施例中，基于前述方案，匹配模块404还配置为：将目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到目标用户在预设时间段前的声纹信息的迁移特征；将迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；将听觉倒谱系数特征和迁移深度瓶颈特征按照公式Y₁＝aG+bB₁计算，得到目标用户在预设时间段前的声纹信息的迁移融合特征Y₁，其中，G为听觉倒谱系数特征，B₁为迁移深度瓶颈特征；将待认证声纹信息的迁移融合特征与预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；基于第一匹配度和第三匹配度，判断当前用户是否为目标用户。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本申请的这种实施方式的电子设备50。图5显示的电子设备50仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于：上述至少一个处理单元51、上述至少一个存储单元52、连接不同系统组件(包括存储单元52和处理单元51)的总线53、显示单元54。

其中，存储单元存储有程序代码，程序代码可以被处理单元51执行，使得处理单元51执行本说明书上述“实施例方法”部分中描述的根据本申请各种示例性实施方式的步骤。

存储单元52可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)521和/或高速缓存存储单元522，还可以进一步包括只读存储单元(ROM)523。

存储单元52还可以包括具有一组(至少一个)程序模块525的程序/实用工具524，这样的程序模块525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线53可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备50也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备50交互的设备通信，和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口55进行。并且，电子设备50还可以通过网络适配器56与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器56通过总线53与电子设备50的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。

根据本申请一个实施例，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。

参考图6所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品60，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本申请示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种声纹认证方法，其特征在于，包括：

获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；

将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；

采集当前用户的待认证声纹信息；

基于人耳耳蜗听觉模型提取所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将所述听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；

将所述听觉倒谱系数特征和所述深度瓶颈特征按照公式计算，得到所述目标用户在预设时间段前的声纹信息的融合特征Y，其中，G为所述听觉倒谱系数特征，B为所述深度瓶颈特征，系数a和b预先通过以下过程获得：获取所述目标用户在预设时间段前的声纹信息样本集合，求使语音区分度R取最小值时a与b的值，，其中，N为所述目标用户在所述预设时间段前的声纹信息样本集合中的声纹数，/>与/>分别为基于在声纹信息样本集合中所述目标用户的第i条语音和第j条语音的听觉倒谱系数特征G和深度瓶颈特征B按照/>得到的所述融合特征；

将所述待认证声纹信息的融合特征与所述预测声纹信息的融合特征进行比较，以获得第一匹配度；

若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。

2.根据权利要求1所述的声纹认证方法，其特征在于，在所述获取目标用户预设时间段前的声纹信息之后，所述方法包括：

对所述声纹信息进行降噪处理得到纯语音数据；

对所述纯语音数据进行分帧，得到每帧语音数据中的声纹信息，所述每帧语音数据中的声纹信息为听觉倒谱系数特征；

所述将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息包括：将年龄、性别、所处环境及每帧的听觉倒谱系数特征输入第一预测模型，以获得每帧的预测声纹信息；

根据所述每帧的预测声纹信息得到所述预测声纹信息。

3.根据权利要求1所述的声纹认证方法，其特征在于，所述方法还包括：

获取所述目标用户在预设时间段前的人脸图像信息；

将所述目标用户预设时间段前的人脸图像、年龄、性别输入第二预测模型获得预测人脸图像信息；

采集所述当前用户的待认证人脸图像信息；

将所述预测人脸图像信息与所述待认证人脸图像信息进行匹配，以获得第二匹配度；

在所述获得第一匹配度之后，所述方法还包括：

将所述第一匹配度和所述第二匹配度进行加权和计算以获得总匹配度；若所述总匹配度大于第二预设阈值，则确定所述当前用户为所述目标用户。

4.根据权利要求1所述的声纹认证方法，其特征在于，所述基于人耳耳蜗听觉模型提取所述预设时间段前的声纹信息的听觉倒谱系数特征之后，所述方法还包括：

将所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征输入堆叠降噪自编码网络模型得到所述目标用户在预设时间段前的声纹信息的迁移特征；

将所述迁移特征输入第二深度神经网络模型得到迁移深度瓶颈特征；

将所述听觉倒谱系数特征和所述迁移深度瓶颈特征按照公式计算，得到所述目标用户在预设时间段前的声纹信息的迁移融合特征/>，其中，G为所述听觉倒谱系数特征，/>为所述迁移深度瓶颈特征；

将所述待认证声纹信息的迁移融合特征与所述预测声纹信息的迁移融合特征进行比较，以获得第三匹配度；

基于所述第一匹配度和所述第三匹配度，判断所述当前用户是否为所述目标用户。

5.一种声纹认证装置，其特征在于，包括：

获取模块，用于获取目标用户在预设时间段前的声纹信息、年龄、性别和所处环境；

第一预测模块，用于将所述目标用户在预设时间段前的声纹信息、年龄、性别和所处环境输入第一预测模型得到预测声纹信息；

采集模块，用于采集当前用户的待认证声纹信息；

匹配模块，用于基于人耳耳蜗听觉模型提取所述目标用户在预设时间段前的声纹信息的听觉倒谱系数特征，将所述听觉倒谱系数特征输入第一深度神经网络模型得到深度瓶颈特征；

确定模块，若所述第一匹配度超过第一预设阈值，则将所述当前用户确定为所述目标用户。

6.一种电子设备，其特征在于，包括:

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的声纹认证方法。

7.一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-4中的任一项所述的声纹认证方法。