CN115641853A

CN115641853A - 声纹识别方法及装置、计算机可读存储介质、终端

Info

Publication number: CN115641853A
Application number: CN202211311556.3A
Authority: CN
Inventors: 陆成; 叶顺舟; 邵子奇
Original assignee: Rda Microelectronics Technologies Shanghai Co ltd
Current assignee: Rda Microelectronics Technologies Shanghai Co ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-24

Abstract

一种声纹识别方法及装置、计算机可读存储介质、终端，所述方法包括：确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；根据所述后验概率，确定每个第一声纹特征向量的权重系数；基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；采用多个注册人的身份向量，对待识别语音进行声纹识别。本发明可以提高所确定的注册人的身份向量的精度和可信度，从而提高声纹识别的准确性。

Description

声纹识别方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及生物识别技术领域，尤其涉及一种声纹识别方法及装置、计算机可读存储介质、终端。

背景技术

声纹识别是一种从语音中提取说话人身份特征，并进行身份认证的生物识别技术。声纹识别主要包括两个阶段：声纹注册阶段和声纹认证阶段。声纹注册阶段的主要任务是从录入语音中提取说话人的声纹特征向量，主要是指利用深度学习等传统机器学习方法来进行说话人信息表征。声纹认证阶段的主要任务是将测试语音提取的声纹特征向量与注册人的声纹特征向量进行相似度打分和认证识别。当前，随着声纹识别应用产品的用户体验要求提升，注册及认证语音逐渐由长语音向短语音发展，这也对短语音环境下的声纹识别技术提出了更高要求。短语音场景下，注册人通过录入多段短语音进行声纹注册，如何在注册语音资源有限的情况下，提高注册人声纹特征提取精度及声纹识别准确率是一个亟待解决的问题。

在上述背景下，研究者们提出了多种短语音环境下的声纹识别技术方案。其中，基于身份向量(Identity Vector，Ivector)算法的短语音声纹识别方案的性能较为稳定，其对训练语音的数据量以及数据标定质量要求不是那么严格，可适应多种任务需求，因此常被作为基线标准评估其他技术方案的性能优劣。Ivector是一种基于高斯混合-通用背景模型GMM-UBM的声纹识别方法，具体地，一个人说话的声音特征分布可以用一个高斯混合模型(Gaussian Mixture Model，GMM)描述，众多说话人的声音特征分布可以用一个通用背景模型(Universal Background Model，UBM)，而GMM-UBM是根据一个人的某段语音，在UBM上通过最大后验概率估计算法自适应得到说话人的GMM，用于描述说话人的声音特征分布。Ivector在此基础上，将信道差异和说话人之间的差异建模为一个全因子差异空间(TotalFactor Matrix)，并将自适应得到的GMM的各阶均值向量组合成一个更高维度的均值超矢量，将这个高斯均值超矢量在全因子空间下的投影作为说话人的身份向量(即，Ivector)。获取注册阶段和认证阶段的Ivector后，便可通过计算Ivector的相似度进行声纹认证。

然而，上述实现方案在进行声纹注册时，选择了对同一说话人(注册人)的多段语音提取出的各个声纹特征进行均值池化，也即采用均值池化后的结果作为该注册人的身份向量(具体而言，该身份向量用于表征该注册人的身份特征)。这种均值池化可能会导致Ivector特征的过度平滑，尤其是在短语音环境下，由于注册语音较短，基于注册语音得到的身份向量的可信度是需要考虑的，例如，如果N段注册语音中存在某一段或若干段短语音的信噪比很低(例如，环境噪音影响过大)，则从这样的短语音中提取的声纹特征的可信度很低，会对均值计算结果产生影响，从而降低后续声纹认证结果的准确性。

发明内容

本发明解决的技术问题是如何在短语音应用场景中，提高所确定的注册人的身份向量的精度和可信度，从而提高声纹识别的准确性。

为解决上述技术问题，本发明实施例提供一种声纹识别方法，包括以下步骤：确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；根据所述后验概率，确定每个第一声纹特征向量的权重系数；基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；采用多个注册人的身份向量，对待识别语音进行声纹识别。

可选的，所述根据所述后验概率，确定每个第一声纹特征向量的权重系数包括：分别将每个第一声纹特征向量的后验概率与预设概率阈值进行比较；对大于等于所述概率阈值的各个后验概率进行归一化处理，并将归一化后的各个后验概率作为所属第一声纹特征向量的权重系数。

可选的，所述根据所述后验概率，确定每个第一声纹特征向量的权重系数还包括：对小于所述概率阈值的各个后验概率所属的第一声纹特征向量的权重系数设置为0。

可选的，所述采用多个注册人的身份向量，对待识别语音进行声纹识别包括：确定所述待识别语音的第二声纹特征向量；确定与所述第二声纹特征向量相似度最高的身份向量；根据该相似度最高的身份向量所属注册人的注册语音的场景类别和所述待识别语音的场景类别，确定相似度判决阈值；如果该相似度最高的身份向量与所述第二声纹特征向量之间的相似度大于等于所述相似度判决阈值，则确认所述待识别语音属于该相似度最高的身份向量所属的注册人；其中，注册语音的场景类别与待识别语音的场景类别的组合与相似度判决阈值之间具有预设的映射关系。

可选的，所述确定与所述第二声纹特征向量的相似度最高的身份向量包括：采用概率线性判别分析PLDA算法，分别计算每个注册人的身份向量与所述第二声纹特征向量之间的PLDA评分；将与所述第二声纹特征向量之间的PLDA评分最高的身份向量，作为与所述第二声纹特征向量的相似度最高的身份向量。

可选的，在确定与所述第二声纹特征向量的相似度最高的身份向量之前，所述方法还包括：分别对每个注册人的身份向量以及所述第二声纹特征向量进行降维处理，再进行长度规整。

可选的，所述确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率包括：对于每条注册语音，确定该条注册语音的声纹特征在全因子差异空间下的后验分布，其中，所述后验分布的均值作为该条注册语音的第一声纹特征向量；分别确定除该条注册语音的第一声纹特征向量之外的其他各条注册语音的第一声纹特征向量在所述后验分布上的概率值；将所确定的各个概率值的平均值，作为该条注册语音的第一声纹特征向量的后验概率。

可选的，对于每条注册语音，确定该条注册语音的声纹特征在全因子差异空间下的后验分布包括：分别对每条注册语音进行声学特征提取，以确定每条注册语音的声学特征；对所述声学特征进行预处理，以得到每条注册语音的帧特征序列；基于所述帧特征序列，确定该条注册语音的声纹特征在全因子差异空间下的后验分布。

本发明实施例还提供一种声纹识别装置，包括：声纹特征向量确定模块，用于确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；权重系数确定模块，用于根据所述后验概率，确定每个第一声纹特征向量的权重系数；注册人身份向量确定模块，用于基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；声纹识别模块，用于采用多个注册人的身份向量，对待识别语音进行声纹识别。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述声纹识别方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述声纹识别方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，确定注册人的身份向量的过程中，考虑到了注册人的每条注册语音各自的第一声纹特征向量的后验概率(所述后验概率可以用于指示第一声纹特征向量的可信度)，具体地：在确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率后，根据所述后验概率确定每条注册语音的第一声纹特征向量的权重系数，然后基于所述权重系数对多条注册语音的第一声纹特征向量进行加权运算，最终融合得到该注册人的身份向量。由此，可以有效提高所确定的注册人的身份向量的精度和可信度(即，注册人的身份向量可以更为准确地表征注册人的身份特征)，进而提高声纹识别结果的准确性。

进一步，在实际应用中，对于每条注册语音来说，所确定的该条注册语音的声纹特征在全因子差异空间下的后验分布(例如，该后验分布通常表现为正态分布曲线)可能并不十分准确，当采用所述后验分布的均值作为该条注册语音的第一声纹特征向量时，该第一声纹特征向量在所述后验分布上的概率值(例如，正态分布均值处的概率值)也是不准确的。因此，在本发明实施例中，对于每条注册语音的第一声纹特征向量，采用其他各条注册语音的第一声纹特征向量在该条注册语音的后验分布上的概率值的平均计算结果，作为该条注册语音的第一声纹特征向量的后验概率。由此，可以有效提高所确定的每个第一声纹特征向量的后验概率的准确性。

进一步，在本发明实施例中，可以预设适当的概率阈值，分别将每个第一声纹特征向量的后验概率与所述概率阈值进行比较，可以理解的是，大于等于所述概率阈值的各个后验概率所属的第一声纹特征向量的可信度较高，小于所述概率阈值的各个后验概率所属的第一声纹特征向量的可信度较低。因此，可以对大于等于所述概率阈值的各个后验概率进行归一化处理，并将归一化后的各个后验概率作为所属第一声纹特征向量的权重系数；此外，可以对小于所述概率阈值的各个后验概率所属的第一声纹特征向量的权重系数设置为0。由此，可以合理、准确确定每个第一声纹特征向量的权重系数，提高后续加权融合计算得到的身份向量的准确度和可信度。

进一步，所述采用多个注册人的身份向量，对待识别语音进行声纹识别包括：确定所述待识别语音的第二声纹特征向量；确定与所述第二声纹特征向量的相似度最高的身份向量；根据该相似度最高的身份向量所属注册人的注册语音的场景类别和所述待识别语音的场景类别，确定相似度判决阈值；如果该相似度最高的身份向量与所述第二声纹特征向量之间的相似度大于等于所述相似度判决阈值，则确认所述待识别语音属于该相似度最高的身份向量所属的注册人；其中，注册语音的场景类别与待识别语音的场景类别的组合与相似度判决阈值之间具有预设的映射关系。

在本发明实施例中，在声纹认证阶段，考虑了注册语音和待识别语音所处的场景(环境)因素，具体可以包括：先确定所述待识别语音的第二声纹特征向量；然后确定与所述第二声纹特征向量相似度最高的身份向量；基于相似度最高的身份向量所属注册人的注册语音的场景类别和所述待识别语音的场景类别的组合(例如，注册语音属于远场或近场、高信噪比或低信噪比等)，自适应选取对应的相似度判决阈值(例如，可以通过查找预设的映射关系表确定某种场景类别组合对应的相似度判决阈值)；再根据最高相似度与所述相似度判决阈值的比较结果确定最终的声纹识别结果。采用这样的方案，充分考虑了环境因素对于相似度计算结果的影响，可以进一步提高声纹识别结果的准确性。

附图说明

图1是本发明实施例中一种声纹识别方法的流程图；

图2是图1中步骤S11的一种具体实施方式的流程图；

图3是图1中步骤S12的一种具体实施方式的流程图；

图4是图1中步骤S14的一种具体实施方式的流程图；

图5是本发明实施例中一种声纹识别装置的结构示意图。

具体实施方式

如前所述，如何提高注册人声纹特征提取精度及声纹识别准确率是一个亟待解决的问题。

在现有技术中，基于Ivector算法的短语音声纹识别方案常被作为基线标准评估其他技术方案的性能优劣。Ivector基于高斯混合-通用背景模型GMM-UBM，该模型根据一个人的某段语音，在通用背景模型UBM上通过最大后验概率估计算法自适应得到说话人的高斯混合模型GMM，用于描述说话人的声音特征分布。在此基础上，将信道差异和说话人之间的差异建模为一个全因子差异空间，并将自适应得到的GMM的各阶均值向量组合成一个更高维度的均值超矢量，将这个高斯均值超矢量在全因子空间下的投影作为说话人的身份向量。获取注册阶段和认证阶段的身份向量后，便可通过计算身份向量的相似度进行声纹认证。

本发明的发明人经过研究发现，上述实现方案在进行声纹注册时，选择了对同一说话人(也即，注册人)的多段语音提取出的各个声纹特征进行均值池化，也即采用均值池化后的结果作为该注册人的身份向量(具体而言，该身份向量用于表征该注册人的身份特征)。这种均值池化可能会导致声纹特征的过度平滑，尤其是在短语音环境下，由于注册语音较短，基于注册语音得到的身份向量的可信度是需要考虑的，例如，如果N段注册语音中存在某一段或若干段短语音的信噪比很低(例如，环境噪音影响过大)，则从这样的短语音中提取的声纹特征的可信度很低，会对均值计算结果产生影响，从而降低后续声纹认证结果的准确性。

为解决上述技术问题，本发明实施例提供一种声纹识别方法，具体包括：确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；根据所述后验概率，确定每个第一声纹特征向量的权重系数；基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；采用多个注册人的身份向量，对待识别语音进行声纹识别。

由上，本发明实施例在确定注册人的身份向量的过程中，考虑到了注册人的每条注册语音各自的第一声纹特征向量的后验概率(所述后验概率可以用于指示第一声纹特征向量的可信度)，根据所述后验概率确定每条注册语音的第一声纹特征向量的权重系数，然后基于所述权重系数对多条注册语音的第一声纹特征向量进行加权运算，最终融合得到该注册人的身份向量。由此，可以有效提高所确定的注册人的身份向量的精度和可信度，进而提高声纹识别结果的准确性。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种声纹识别方法的流程图。所述方法可以应用于具备声纹识别能力(例如，具体可以包括声纹注册及声纹认证功能)的各种终端设备，例如可以是计算机、平板电脑、手机、车载计算设备、智能可穿戴设备(如智能手表)，也可以是服务器、云平台等。

可以理解的是，在具体实施中，所述方法可以采用软件程序的方式实现，该软件程序运行于芯片或芯片模组内部集成的处理器中；或者，该方法可以采用硬件或者软硬结合的方式来实现。

所述声纹识别方法可以包括步骤S11至步骤S14：

步骤S11：确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；

步骤S12：根据所述后验概率，确定每个第一声纹特征向量的权重系数；

步骤S13：基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；

步骤S14：采用多个注册人的身份向量，对待识别语音进行声纹识别。

在步骤S11的具体实施中，所述同一注册人的多条注册语音(或称为多帧注册语音)可以是来自同一说话人的多段语音。录入的同一注册人的注册语音的具体条数/帧数可以根据具体场景需要进行合理设置。

每条注册语音的时长可以相同或不同，且时长应尽可能适中，既不应太长，也不应太短。可以理解的是，注册语音的时长太长可能会导致声纹特征提取的效率降低，增加运算开销；注册语音的时长太短则可能会因注册语音中包含的声纹特征信息量过少而降低所提取的声纹特征的准确度和可信度。在具体实施中，每条注册语音的时长可以根据具体应用场景进行合理限定，本发明实施例对此不做限制。

每条注册语音的文本内容也可以根据具体应用场景的不同进行设定。例如，在文本相关声纹识别场景中，多条注册语音各自的文本内容可以相同或相近(例如具有上下文关系的几句话)；在文本无关的声纹识别场景中，多条注册语音各自的文本内容则可以不相同。

在具体实施中，对于同一注册人，可以每录入一条注册语音后，就提取该条注册语音的第一声纹特征向量，也可以在多条注册语音全部录入结束后再分别提取每条注册语音各自的第一声纹特征向量，本发明实施例对此不做限制。

参照图2，图2是图1中所述步骤S11的一种具体实施方式的流程图，所述步骤S11可以包括步骤S21至步骤S23，以下对各步骤进行说明。

在步骤S21中，对于每条注册语音，确定该条注册语音的声纹特征在全因子差异空间下的后验分布，其中，所述后验分布的均值作为该条注册语音的第一声纹特征向量。

进一步地，对于每条注册语音，确定该条注册语音的声纹特征在全因子差异空间下的后验分布可以包括：分别对每条注册语音进行声学特征提取，以确定每条注册语音的声学特征；对所述声学特征进行预处理，以得到每条注册语音的帧特征序列；基于所述帧特征序列，确定该条注册语音的声纹特征在全因子差异空间下的后验分布。

其中，所述声学特征提取可以指：以语音帧为单位，依据听觉感知机理，按需调整声音片段频谱中各个成分的幅值并将其参数化，得到适合表示语音信号特性的向量(即，声学特征)。声学特征提取的主要步骤可以包括预加重、分帧、加窗、快速傅里叶变换(FastFourier Transform，FFT)以及滤波等步骤。所述声学特征提取算法可以选自梅尔倒谱系数算法(Mel-Frequency Cepstral Coefficients,MFCCs)、滤波器组FBank算法(FilterBank，FBank)以及感知线性预测算法(Perceptual Linear Predict，PLP)，也可以是现有的其他可以实现声学特征提取的算法。在具体实施中，特征维度可根据具体应用场景的需要而设定，例如，在短语音识别场景中，特征维度可以设置高一些。

其中，对所述声学特征进行预处理可以包括但不限于：倒谱均值和方差归一化(Cepstrum Mean Variance Normalization，CMVN)，可以用于消除信噪影响；差分处理，可以用于获得语音帧之间的关联性；语音活动检测(Voice Activity Detection，VAD)，可以用于去掉静音。通过对提取出的声学特征进行预处理，可以增加帧级声学特征的维度，提高帧级声学特征的表达能力。

在一些非限制性实施例中，在得到每条注册语音的帧特征序列之后，可以采用通用高斯混合-通用背景模型GMM-UBM和T矩阵，确定每条注册语音的声纹特征在全因子差异空间下的后验分布。具体可以采用以下详细描述的方式实现。

步骤一，基于GMM-UBM和最大后验(Maximum A Posteriori，MAP)概率估计算法自适应获得的说话人(即，注册人)的高斯混合模型GMM。其中，与该说话人有关的声纹特征信息主要蕴含在GMM的均值矢量中。因此，将GMM中各个均值分量拼接成一个高维度的均值超矢量。每条注册语音的第一声纹特征向量就是依赖这个均值超矢量提取而来的。

其中，通用背景模型UBM是从背景数据(background data)中训练而来——这些背景数据来自于大量不同的说话人。某一个特定的目标说话人的高斯混合模型GMM是从UBM及该说话人的音频数据自适应(Speaker Adaptation)得到的。在上述步骤一中，可以采用如下公式(1)确定所述均值超矢量：

(1)M(i)＝M(0)+T×w(i)；

上式中，M(i)表示第i条注册语音经过最大后验概率估计算法计算得到的GMM的均值超矢量，M(i)∈R^D×K，M(0)表示GMM-UBM的均值超矢量，M(0)∈R^D×K，T为用于表示全因子差异空间的矩阵，T∈R^D×K×F，w(i)表示先验分布服从N(0,1)的第i条注册语音的声纹特征(也可以称为声纹向量)，R为实数符号，D为帧特征序列的维度，K为GMM的混合度，F为第i条注册语音的声纹特征的维度，F<<D×K，i为正整数。

步骤二，由于公式(1)中的T并非方阵，因此无法简单使用矩阵变换来求得注册语音的声纹特征/声纹向量，而是根据GMM-UBM模型，确定该第i条注册语音的声纹特征在全因子差异空间下的后验分布，将后验分布的均值作为该第i条注册语音的第一声纹特征向量。

具体而言，给定第i条注册语音Y_i，最大后验概率估计算法计算得到的GMM的均值超矢量M(i)和方差R_k，该第i条注册语音的声纹特征在全因子差异空间下的后验分布可以采用下述公式(2)～(4)确定：

对公式(2)和(3)求解，可以得到公式(4)：

由上，w(i)的后验分布是均值为l(i)^-1T^TR^-1Γ_y(i)，方差为l(i)^-1的高斯分布，因此，第i条注册语音的第一声纹特征向量取值(估计值)为所述后验分布的均值，即：

其中，l(i)＝T^TΓ(i)R^-1T+I，鲍姆韦尔奇零阶统计量为

一阶统计量为

其中，P(w(i)∣Yⁱ)表示第i条注册语音的声纹特征/声纹向量的后验分布，w(i)表示第i条注册语音的声纹向量，

表示第i条注册语音的第一声纹特征向量的估计值，即，所述后验分布的均值，argmax表示使得函数值取最大值对应的自变量的函数，Yⁱ表示第i条注册语音，P(Yⁱ∣w(i))表示第i条注册语音在给定w(i)下的似然概率，P(w(i))表示w(i)的先验概率，∝表示等价符号，Π表示累乘符号，∑表示累加符合，t表示特征序列的第t帧，T_i表示第i条注册语音的特征序列的总帧数，k标识第k个GMM，K表示GMM的混合度，c_k表示第k个GMM的权重，

表示高斯函数符号，

表示第i条注册语音的第t帧特征序列，M_k(i)表示自适应GMM中第k个高斯的均值，R_k表示最大后验概率估计算法计算得到的GMM的方差，exp{ }表示以自然常数e为底的指数函数，l(i)^-1表示所述后验分布的方差，l(i)表示所述后验分布的方差的逆，R^-1表示方差的逆矩阵，Γ_y(i)表示由K个一阶统计量拼接而成的D×K维统计量计量，Γ(i)代表由K个对角矩阵γ_k(i)I_D×D拼接而成对角矩阵，I表示D×D维的单位矩阵，γ_k(i)表示鲍姆韦尔奇零阶统计量，

表示第k个GMM在给定语音序列和GMM-UBM模型下的似然概率或状态占有率，Ω(⁰⁾表示GMM-UBM的初始参数，Γ_y,k(i)表示一阶统计量，m_k表示GMM-UBM第k个高斯的均值。

经过步骤一和二确定n条注册语音{Y¹,Y²,Y³……Yⁿ}的第一声纹特征向量之后，执行下述步骤S22。

在步骤S22中，分别确定除该条注册语音的第一声纹特征向量之外的其他各条注册语音的第一声纹特征向量在所述后验分布上的概率值。

在步骤S23中，将所确定的各个概率值的平均值，作为该条注册语音的第一声纹特征向量的后验概率。

在具体实施中，确定每条注册语音的第一声纹特征向量以及每个第一声纹特征向量的后验概率的方法也可以是现有的其他适当方法，本发明实施例对此不做限制。

可以理解的是，在实际应用中，对于每条注册语音来说，所确定的该条注册语音的声纹特征在全因子差异空间下的后验分布(例如，该后验分布通常表现为正态分布曲线)可能并不十分准确，当采用所述后验分布的均值作为该条注册语音的第一声纹特征向量时，该第一声纹特征向量在所述后验分布上的概率值(例如，正态分布均值处的概率值)也是不准确的。因此，在本发明实施例中，对于每条注册语音的第一声纹特征向量，采用其他各条注册语音的第一声纹特征向量在该条注册语音的后验分布上的概率值的平均计算结果，作为该条注册语音的第一声纹特征向量的后验概率。由此，可以有效提高所确定的每个第一声纹特征向量的后验概率的准确性。继续参照图1，在步骤S12的具体实施中，根据所述后验概率，确定每个第一声纹特征向量的权重系数。

参照图3，图3是图1中步骤S12的一种具体实施方式的流程图。所述步骤S12可以包括步骤S31至步骤S32，以下对各个步骤进行说明。

在步骤S31中，分别将每个第一声纹特征向量的后验概率与预设概率阈值进行比较。

其中，每个第一声纹特征向量的后验概率可以用于指示该第一声纹特征向量的可信度，具体而言，可以指示该第一声纹特征向量表征注册人的身份特征的程度。后验概率值越大，则该后验概率所属的第一声纹特征向量的可信度越高。

在具体实施中，所述概率阈值可以是根据历史的多次声纹识别试验结果得到的经验阈值，在不同的应用场景中，所述概率阈值的具体数值可以不同。

在步骤S32中，对大于等于所述概率阈值的各个后验概率进行归一化处理，并将归一化后的各个后验概率作为所属第一声纹特征向量的权重系数。

进一步，对小于所述概率阈值的各个后验概率所属的第一声纹特征向量的权重系数可以设置为0。在具体实施中，也可以设置为大于0小于所述概率阈值的其他较小数值作为权重系数，以使得小于所述概率阈值的各个后验概率所属的第一声纹特征向量对后续加权融合计算结果的影响尽可能较小。

在本发明实施例中，通过采用上述基于后验概率确定权重系数的方法，可以预设适当的概率阈值，分别将每个第一声纹特征向量的后验概率与所述概率阈值进行比较，可以理解的是，大于等于所述概率阈值的各个后验概率所属的第一声纹特征向量的可信度较高，小于所述概率阈值的各个后验概率所属的第一声纹特征向量的可信度较低。因此，可以对大于等于所述概率阈值的各个后验概率进行归一化处理，并将归一化后的各个后验概率作为所属第一声纹特征向量的权重系数；此外，可以对小于所述概率阈值的各个后验概率所属的第一声纹特征向量的权重系数设置较小的权重系数(例如设置为0)。由此，可以合理、准确确定每个第一声纹特征向量的权重系数，提高后续加权融合计算得到的身份向量的准确度和可信度。

继续参照图1，在步骤S13的具体实施中，基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量。

在具体实施中，可以采用每个第一声纹特征向量的权重系数，对各个第一声纹特征向量进行加权求和运算，并将加权求和得到的向量作为所述注册人的身份向量。

在本发明实施例中，相比于现有技术采用对同一注册人的多段语音提取出的各个声纹特征向量进行均值池化的结果作为该注册人的身份向量，这种均值池化可能会导致Ivector特征的过度平滑，特别是在短语音环境下，受环境噪音等影响，可能存在一段或若干段注册语音的声纹特征向量的可信度较低，因此对均值计算结果产生影响，从而降低后续声纹认证结果的准确性。本发明实施例确定注册人的身份向量的过程中，考虑到了注册人的每条注册语音各自的第一声纹特征向量的后验概率，根据所述后验概率确定每条注册语音的第一声纹特征向量的权重系数，然后基于所述权重系数对多条注册语音的第一声纹特征向量进行加权运算，最终融合得到该注册人的身份向量。由此，可以有效提高所确定的身份向量的精度和可信度，即，注册人的身份向量可以准确表征注册人的身份特征。

在步骤S14的具体实施中，采用多个注册人的身份向量，对待识别语音进行声纹识别。

参照图4，图4是图1中步骤S14的一种具体实施方式的流程图。所述步骤S14可以包括步骤S41至步骤S44，以下对各步骤进行说明。

在步骤S41中，确定所述待识别语音的第二声纹特征向量。

在具体实施中，确定所述待识别语音的第二声纹特征向量的具体方法可以参照图1中步骤S11中确定属于同一注册人的多条注册语音各自的第一声纹特征向量的方法，此处不再赘述。

在步骤S42中，确定与所述第二声纹特征向量相似度最高的身份向量。

进一步，所述步骤S42可以包括：采用概率线性判别分析(Probabilistic LinearDiscriminant Analysis，PLDA)算法，分别计算每个注册人的身份向量与所述第二声纹特征向量之间的PLDA评分；将与所述第二声纹特征向量之间的PLDA评分最高的身份向量，作为与所述第二声纹特征向量的相似度最高的身份向量。

其中，所述PLDA评分可以用于指示身份向量与所述待识别语音的第二声纹特征向量之间的相似度。PLDA评分越高，相似度越强；PLDA评分越低，相似度越弱。

在具体实施中，可以采用其他相似度评分方法(例如，余弦相似度评分方法)确定与所述第二声纹特征向量相似度最高的身份向量，本发明实施例对于相似度计算方法不做限制。

进一步，在步骤S42之前，本实施例所述方法还可以包括：分别对每个注册人的身份向量以及所述第二声纹特征向量进行降维处理，再进行长度规整。

在具体实施中，可以采用经预先训练得到的线性判别分析(Linear DiscriminantAnalysis，LDA)转换矩阵进行降维处理。LDA的作用是将原始高维特征数据的维度降低。LDA尝试着找到一个新的方向，将原来的所有数据投影到这个方向，使得在这个方向中同一说话人的数据具有最小的类内方差，同时不同说话人之间的距离尽量大。如此可以减小信道差异的影响，提高声纹识别准确率。

在一些非限制性实施例中，所提取的每个注册人的身份向量的维度一般在400～600维，降维后的身份向量一般在200～300维。长度规整是将降维后的身份规整到单位空间，从而方便后续步骤中的相似度打分识别。

在步骤S43中，根据该相似度最高的身份向量所属注册人的注册语音的场景类别和所述待识别语音的场景类别，确定相似度判决阈值。

在具体实施中，在声纹注册阶段可以对同一注册人的多条注册语音进行场景检测，以确定每条注册语音的场景类别。在声纹认证阶段，可以对待识别语音进行场景检测，以确定该待识别语音的场景类别。通常，同一注册人的多条注册语音的场景类别是相同的。如果多条注册语音的场景类别不同，则可以选取其中占比大的场景类别作为该注册人注册时所处的场景类别。

在一些非限制性实施例中，可以采用声源定位或基于能量的场景检测分类方法，其主要目的是区分当前注册语音或测试语音的远近场类别，信噪比等级等。对于较低信噪比的注册语音，可提示用户进行重新录入。在文本相关的短语音识别任务中，比如声纹唤醒任务，场景检测模块还可引入关键词识别，对于与关键词不符合的注册语音，可以提示重新录入。

在步骤S44中，如果该相似度最高的身份向量与所述第二声纹特征向量之间的相似度大于等于所述相似度判决阈值，则确认所述待识别语音属于该相似度最高的身份向量所属的注册人。

其中，注册语音的场景类别与待识别语音的场景类别的组合与相似度判决阈值之间具有预设的映射关系。该映射关系可以是经过大量的声纹识别试验而得到的映射关系表。在不同的应用场景中，所述映射关系表中的具体内容可以不同。

在本发明实施例中，在声纹认证阶段，考虑了注册语音和待识别语音所处的场景(环境)因素，包括远场或近场、高信噪比或低信噪比等，并基于注册语音的场景类别和待识别语音的场景类别的组合，自适应选取对应的相似度判决阈值(例如，可以通过查找预设的映射关系表确定某种场景类别组合对应的相似度判决阈值)；再根据最高相似度与所述相似度判决阈值的比较结果确定最终的声纹识别结果。采用这样的方案，充分考虑了场景/环境因素对于相似度计算结果的影响，可以进一步提高声纹识别结果的准确性。

参照图5，图5是本发明实施例中一种声纹识别装置的结构示意图。所述声纹识别装置可以包括：

声纹特征向量确定模块51，用于确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；

权重系数确定模块52，用于根据所述后验概率，确定每个第一声纹特征向量的权重系数；

注册人身份向量确定模块53，用于基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；

声纹识别模块54，用于采用多个注册人的身份向量，对待识别语音进行声纹识别。

在具体实施中，上述声纹识别装置可以对应于声纹识别功能的芯片；或者对应于终端中具有声纹识别功能的芯片模组，或者对应于终端。

关于该声纹识别装置的原理、具体实现和有益效果请参照前文及图1至图4示出的关于声纹识别方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图4所示的声纹识别方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图4所示的声纹识别方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种声纹识别方法，其特征在于，包括：

确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；

根据所述后验概率，确定每个第一声纹特征向量的权重系数；

基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；

采用多个注册人的身份向量，对待识别语音进行声纹识别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述后验概率，确定每个第一声纹特征向量的权重系数包括：

分别将每个第一声纹特征向量的后验概率与预设概率阈值进行比较；

对大于等于所述概率阈值的各个后验概率进行归一化处理，并将归一化后的各个后验概率作为所属第一声纹特征向量的权重系数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述后验概率，确定每个第一声纹特征向量的权重系数还包括：

对小于所述概率阈值的各个后验概率所属的第一声纹特征向量的权重系数设置为0。

4.根据权利要求1所述的方法，其特征在于，所述采用多个注册人的身份向量，对待识别语音进行声纹识别包括：

确定所述待识别语音的第二声纹特征向量；

确定与所述第二声纹特征向量相似度最高的身份向量；

根据该相似度最高的身份向量所属注册人的注册语音的场景类别和所述待识别语音的场景类别，确定相似度判决阈值；

如果该相似度最高的身份向量与所述第二声纹特征向量之间的相似度大于等于所述相似度判决阈值，则确认所述待识别语音属于该相似度最高的身份向量所属的注册人；

其中，注册语音的场景类别与待识别语音的场景类别的组合与相似度判决阈值之间具有预设的映射关系。

5.根据权利要求4所述的方法，其特征在于，所述确定与所述第二声纹特征向量的相似度最高的身份向量包括：

采用概率线性判别分析PLDA算法，分别计算每个注册人的身份向量与所述第二声纹特征向量之间的PLDA评分；

将与所述第二声纹特征向量之间的PLDA评分最高的身份向量，作为与所述第二声纹特征向量的相似度最高的身份向量。

6.根据权利要求4所述的方法，其特征在于，在确定与所述第二声纹特征向量的相似度最高的身份向量之前，所述方法还包括：

分别对每个注册人的身份向量以及所述第二声纹特征向量进行降维处理，再进行长度规整。

7.根据权利要求1所述的方法，其特征在于，所述确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率包括：

对于每条注册语音，确定该条注册语音的声纹特征在全因子差异空间下的后验分布，其中，所述后验分布的均值作为该条注册语音的第一声纹特征向量；

分别确定除该条注册语音的第一声纹特征向量之外的其他各条注册语音的第一声纹特征向量在所述后验分布上的概率值；

将所确定的各个概率值的平均值，作为该条注册语音的第一声纹特征向量的后验概率。

8.根据权利要求7所述的方法，其特征在于，对于每条注册语音，确定该条注册语音的声纹特征在全因子差异空间下的后验分布包括：

分别对每条注册语音进行声学特征提取，以确定每条注册语音的声学特征；

对所述声学特征进行预处理，以得到每条注册语音的帧特征序列；

基于所述帧特征序列，确定该条注册语音的声纹特征在全因子差异空间下的后验分布。

9.一种声纹识别装置，其特征在于，包括：

声纹特征向量确定模块，用于确定属于同一注册人的多条注册语音各自的第一声纹特征向量，以及每个第一声纹特征向量的后验概率；

权重系数确定模块，用于根据所述后验概率，确定每个第一声纹特征向量的权重系数；

注册人身份向量确定模块，用于基于所确定的权重系数，对各条注册语音的第一声纹特征向量进行加权运算，得到所述注册人的身份向量；

声纹识别模块，用于采用多个注册人的身份向量，对待识别语音进行声纹识别。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至8任一项所述声纹识别方法的步骤。

11.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8任一项所述声纹识别方法的步骤。