CN110310647B

CN110310647B - 一种语音身份特征提取器、分类器训练方法及相关设备

Info

Publication number: CN110310647B
Application number: CN201910741216.6A
Authority: CN
Inventors: 李娜; 王珺
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2022-02-25
Anticipated expiration: 2037-09-29
Also published as: CN110310647A; US20220238117A1; WO2019062721A1; CN109584884A; US20200043504A1; US11335352B2; CN109584884B

Abstract

本实施例提供语音身份特征提取器、分类器训练方法及相关设备，该语音身份特征提取器训练方法包括：提取训练语音的语音特征向量；根据训练语音的语音特征向量，确定相应的I‑vector；以I‑vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型；获取目标检测语音的语音特征向量，确定第一神经网络模型对目标检测语音的语音特征向量的输出结果；根据输出结果，确定身份因子隐变量；估计身份因子隐变量的后验均值，以后验均值作为第一神经网络模型的第二目标输出，调整第一神经网络模型的权重，得到语音身份特征提取器。通过本实施例可训练得到新型的语音身份特征提取器，为高可靠性的新型的语音身份特征的提取提供了可能。

Description

一种语音身份特征提取器、分类器训练方法及相关设备

本申请是针对2017年09月29日提交的、申请号为201710910880.X，发明名称为“一种语音身份特征提取器、分类器训练方法及相关设备”的专利申请，所提交的分案申请。

技术领域

本发明涉及语音技术领域，具体涉及一种语音身份特征提取器、分类器训练方法及相关设备。

背景技术

语音由于采集简便、易于存储、难于模仿等特性在越来越多的身份识别场景中得到应用，为涉及信息安全保密的场所解决了诸多的信息安全问题。基于语音的说话人身份识别可分为说话人辨认（Speaker Identification）和说话人确认（SpeakerVerification）两类；说话人辨认主要是基于说话人说出的待测语音，判断说话人是否属于已注册的说话人集合中的一位，是一对多的识别问题；说话人确认是基于说话人说出的待测语音，判断说话人是否为已注册的一个目标说话人，是一对一的确认问题。

基于语音进行说话人身份识别时，需要基于说话人的语音提取出表达说话人身份信息的语音身份特征，通过预先训练的分类器对该语音身份特征进行处理，从而实现说话人的身份识别。目前，主要采用I-vector（身份因子，Identity-vector）作为语音身份特征，虽然I-vector能够反映说话人声学差异，是目前常用的进行说话人身份识别的语音身份特征，但本发明的发明人发现：I-vector的可靠性建立在要求较为严格的语音上，在语音时长较短等不符合要求的情况下，I-vector的可靠性将极大的降低。

因此如何提供一种新型的语音身份特征提取器，实现区别于I-vector的新型的语音身份特征的提取，以提升语音身份特征的可靠性，成为了本领域技术人员需要考虑的问题。

发明内容

有鉴于此，本发明实施例提供一种语音身份特征提取器、分类器训练方法及相关设备，以提供新型的语音身份特征提取器，实现高可靠性的新型的语音身份特征的提取；进一步，基于该新型的语音身份特征实现说话人身份识别，提升说话人身份识别的准确性。

为实现上述目的，本发明实施例提供如下技术方案：

一种语音身份特征提取器训练方法，包括：

提取训练语音的语音特征向量；

根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector；

以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型；

获取目标检测语音的语音特征向量，确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果；

根据所述输出结果，确定身份因子隐变量；

估计身份因子隐变量的后验均值，以所述后验均值作为所述第一神经网络模型的第二目标输出，调整所述第一神经网络模型的权重，得到语音身份特征提取器。

本发明实施例还提供一种分类器训练方法，包括：

获取目标说话人的目标检测语音；

提取所述目标检测语音的语音特征向量；

调用预训练的语音身份特征提取器，将所述目标检测语音的语音特征向量输入语音身份特征提取器，得到相应的语音身份特征；其中，所述语音身份特征提取器以身份因子隐变量为目标输出训练得到；

根据所述语音身份特征训练分类器。

本发明实施例还提供一种语音身份特征提取器训练装置，包括：

语音特征向量第一提取模块，用于提取训练语音的语音特征向量；

身份因子确定模块，用于根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector；

第一训练模块，用于以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型；

第一结果确定模块，用于获取目标检测语音的语音特征向量，确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果；

隐变量确定模块，用于根据所述输出结果，确定身份因子隐变量；

第二训练模块，用于估计身份因子隐变量的后验均值，以所述后验均值作为所述第一神经网络模型的第二目标输出，调整所述第一神经网络模型的权重，得到语音身份特征提取器。

本发明实施例还提供一种电子设备，包括：至少一个存储器；所述存储器存储有可执行的程序，所述程序用于：

提取训练语音的语音特征向量；

根据所述输出结果，确定身份因子隐变量；

本发明实施例还提供一种分类器训练装置，包括：

目标检测语音获取模块，用于获取目标说话人的目标检测语音；

语音特征向量第二提取模块，用于提取所述目标检测语音的语音特征向量；

语音身份特征提取模块，用于调用预训练的语音身份特征提取器，将所述目标检测语音的语音特征向量输入语音身份特征提取器，得到相应的语音身份特征；其中，所述语音身份特征提取器以身份因子隐变量为目标输出训练得到；

训练模块，用于根据所述语音身份特征训练分类器。

获取目标说话人的目标检测语音；

提取所述目标检测语音的语音特征向量；

根据所述语音身份特征训练分类器。

基于上述技术方案，本发明实施例提供的语音身份特征提取器训练方法包括：提取训练语音的语音特征向量；根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector；以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型；在得到第一神经网络模型后，可获取目标检测语音的语音特征向量，确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果，从而根据所述输出结果，确定身份因子隐变量；估计身份因子隐变量的后验均值，以所述后验均值作为神经网络模型的第二目标输出，调整神经网络模型的权重，得到语音身份特征提取器，实现新型的语音身份特征提取器的训练。

本发明实施例提供的语音身份特征提取器训练方法，基于神经网络模型，以包含更紧凑的说话人信息，具有高可靠性的身份因子隐变量的后验均值为目标，训练得到语音身份特征提取器，可使得通过该语音身份特征提取器提取的语音身份特征具有更高的可靠性，可降低对语音的要求。通过本发明实施例提供的训练方法可训练得到新型的语音身份特征提取器，为高可靠性的新型的语音身份特征的提取提供了可能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的语音身份特征提取器训练方法的流程图；

图2为对训练语音进行预处理的过程示意图；

图3为确定训练语音相应的I-vector的方法流程图；

图4为神经网络模型的分层初始化示意图；

图5为训练得到第一神经网络模型的方法流程图；

图6为训练得到第一神经网络模型的过程示意图；

图7为基于第一神经网络模型训练得到语音身份特征提取器的方法流程图；

图8为训练得到语音身份特征提取器的过程示意图；

图9为在分层初始化的神经网络模型上，训练F-vector提取器的过程示意图；

图10为本发明实施例提供的分类器训练方法流程图；

图11为根据语音身份特征训练分类器的方法流程图；

图12为本发明实施例训练提取器和分类器的简化过程示意图；

图13为本发明实施例提供的语音身份特征提取器训练装置的结构框图；

图14为本发明实施例提供的语音身份特征提取器训练装置的另一结构框图；

图15为电子设备的硬件结构框图；

图16为本发明实施例提供的分类器训练装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供的语音身份特征提取器训练方法和分类器训练方法涉及人工智能中的语音技术以及机器学习技术等，下面先对人工智能技术、语音技术和机器学习技术进行说明。

人工智能（Artificial Intelligence, AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术（Speech Technology）的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

下面结合如下具体实施例对语音身份特征提取器训练方法涉及的人工智能的语音技术以及机器学习技术进行说明。

图1为本发明实施例提供的语音身份特征提取器训练方法的流程图，通过该语音身份特征提取器训练方法可训练得到本发明实施例提供的新型的语音身份特征提取器，基于该语音身份特征提取器可从语音中提取到可靠性更高的区别于I-vector的语音身份特征。

图1所示方法可应用于具有数据处理能力的电子设备，电子设备可如网络侧设置的服务器，用户侧使用的手机、PC（个人计算机）等用户设备，电子设备的形式具体可视使用需求而定；本发明实施例可在该电子设备中装载所述语音身份特征提取器训练方法相应的程序，实现本发明实施例提供的语音身份特征提取器训练方法的施行；

参照图1，本发明实施例提供的语音身份特征提取器训练方法可以包括：

步骤S100、提取训练语音的语音特征向量。

可选的，训练语音可从预置的训练语音集合中获取，本发明实施例可事先收集多条语音段并记录在训练语音集合中，一条事先收集的语音段可视为一条训练语音。

可选的，语音特征向量可选为MFCC(Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数) 特征；可通过提取训练语音的MFCC特征，实现训练语音的语音特征向量的提取。

可选的，本发明实施例可对训练语音进行预处理，提取得到训练语音的语音特征向量；作为一种可选实现，参照图2，预处理过程可以包括依次执行的语音端点检测（VAD）处理、预加重处理、分帧加汉明窗处理、FFT（Fast Fourier Transformation，快速傅氏变换）处理、Mel（梅尔）滤波处理、Log（取对数）处理，DCT（反余弦变换）处理，CMVN（倒谱均值方差归一化）处理，△（一阶差分）处理及△△（二阶差分）处理等。

可选的，语音特征向量的提取涉及语音技术中的语音识别包含的语音信号特征提取技术。

可选的，训练语音的语音特征向量可由训练语音各帧的语音特征向量构成，进一步，训练语音各帧的语音特征向量可集合形成训练语音的语音特征向量序列；如第i条训练语音的语音特征向量序列可表示为

，其中，

表示该第i条训练语音的第t帧语音特征向量。

步骤S110、根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector。

在提取到训练语音的语音特征向量后，本发明实施例可基于GMM（高斯混合模型）模型，对提取得到的训练语音的语音特征向量进行处理，确定训练语音相应的I-vector（身份因子）。

由于I-vector的可靠性建立在较为严格的语音时长等要求上，在短语音（时长较短的语音，可限定一个时长阈值，如10秒等，时长低于该时长阈值的语音可认为是短语音）等情况下，I-vector的可靠性较低；因此本发明实施例在确定I-vector后，并不直接将I-vector作为说话人身份识别的语音身份特征，而是在后续以I-vector进一步的进行新型语音身份特征提取器的训练。

步骤S120、以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型。

本发明实施例提供的语音身份特征提取器可基于神经网络模型进行训练，神经网络模型如DNN（Deep Neural Network，深层神经网络）模型，当然并不排除CNN（卷积神经网络）等其他形式的神经网络模型。

本发明实施例可将训练语音相应的I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，使得神经网络模型的输出与第一目标输出相应，得到调整后的第一神经网络模型；可选的，这个过程中，本发明实施例可以神经网络模型的每次输出和第一目标输出之间的均方误差作为损失函数，来监督神经网络模型的权重的调整，使得神经网络模型的输出最终可趋于第一目标输出（即所述训练语音相应的I-vector），实现第一神经网络模型的获得。

可选的，调整神经网络模型的权重所使用的输入可根据所述训练语音的语音特征向量确定，本发明实施例可根据所述训练语音的语音特征向量，确定输入语音特征向量，以所述输入语音特征向量作为神经网络模型的输入，所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整；

可选的，在定义神经网络模型的输入和第一目标输出的情况下，调整神经网络模型的权重，使得神经网络模型的输出趋于第一目标输出的方式有多种，如可使用误差反向传播算法进行神经网络模型的权重调整；在限定了神经网络模型的输入和第一目标输出的情况下，具体的神经网络模型的权重调整手段，本发明实施例不作限制。

可选的，输入语音特征向量（作为神经网络模型的输入），可由训练语音各帧的语音特征向量得到；在一种可选实现上，本发明实施例可拼接训练语音相邻的设定数量帧的语音特征向量，得到输入语音特征向量，如可拼接训练语音相邻的9（此处数值仅是示例说明）帧MFCC特征，得到作为神经网络模型输入的输入语音特征向量；显然，这种确定输入语音特征向量的方式仅是可选的，本发明实施例也可从训练语音各帧的语音特征向量中，提取多帧的语音特征向量拼接得到输入语音特征向量。

可选的，进一步，在调整神经网络模型的权重之前，本发明实施例还可对神经网络模型进行初始化；如采用分层初始化方法对神经网络模型（如DNN模型）进行初始化，从而基于分层初始化后的神经网络模型进行权重的调整。

步骤S130、获取目标检测语音的语音特征向量，确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果。

在训练得到第一神经网络模型后，本发明实施例可获取目标检测语音，并提取目标检测语音的语音特征向量（如MFCC特征），将该目标检测语音的语音特征向量作为第一神经网络模型的输入，确定第一神经网络模型相应的输出结果（即得到第一神经网络模型对该目标检测语音的语音特征向量的输出结果）。

步骤S140、根据所述输出结果，确定身份因子隐变量。

可选的，在得到第一神经网络模型针对目标检测语音的语音特征向量的输出结果后，本发明实施例可确定该输出结果的均值，以该输出结果的均值在训练SNR（SIGNALNOISE RATIO，信噪比）-invariant（不变）PLDA（Probabilistic Linear DiscriminativeAnalysis, 概率线性区分分析）模型的过程中，确定身份因子（I-vector）隐变量；

需要说明的是，隐变量是数学的因子分析理论中的专有名词，可以认为是隐性变量 (laten t variable)。

步骤S150、估计身份因子隐变量的后验均值，以所述后验均值作为所述第一神经网络模型的第二目标输出，调整所述第一神经网络模型的权重，得到语音身份特征提取器。

在得到身份因子隐变量（即I-vector的隐变量）后，该后验均值包含了更紧凑的说话人信息，具有更高的可靠性；因此本发明实施例可以身份因子隐变量的后验均值作为训练第一神经网络模型的第二目标输出，从而调整第一神经网络模型的权重，使得第一神经网络模型的输出趋于第二目标输出，训练完成后，则可得到语音身份特征提取器。

需要说明的是，后验均值是数学的概率论里的专有名词。

可选的，步骤S150中调整第一神经网络模型的权重所使用的输入，可以根据目标检测语音的语音特征向量确定，如可拼接目标检测语音相邻的设定数量帧的语音特征向量（这种方式进行可选示例），得到调整第一神经网络模型的权重所使用的输入。目标检测语音可以目标说话人（目标说话人可以认为是需注册的合法说话人）说出的语音。

由于本发明实施例是以包含了更紧凑的说话人信息，具有高可靠性的身份因子隐变量为目标，训练得到语音身份特征提取器；因此通过该语音身份特征提取器提取的语音身份特征具有更高的可靠性，可实现高可靠性的新型的语音身份特征的提取；区别于现有的I-vector，本发明实施例训练得到的语音身份特征提取器可称为F-vector提取器，基于该语音身份特征提取器提取得到的语音身份特征可称为F-vector。

本发明实施例提供的语音身份特征提取器训练方法包括：提取训练语音的语音特征向量；根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector；以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型；在得到第一神经网络模型后，可获取目标检测语音的语音特征向量，确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果，从而根据所述输出结果，确定身份因子隐变量；估计身份因子隐变量的后验均值，以所述后验均值作为神经网络模型的第二目标输出，调整神经网络模型的权重，得到语音身份特征提取器，实现新型的语音身份特征提取器的训练。

为更好的理解I-vector的缺陷，同时说明本发明实施例所提供的I-vector的确定方法，图3示出了确定训练语音相应的I-vector的方法流程，参照图3，该方法可以包括：

步骤S200、基于GMM模型，根据所述训练语音各帧的语音特征向量，确定充分统计量。

训练语音的语音特征向量可由训练语音各帧的语音特征向量构成，且训练语音各帧的语音特征向量可集合形成训练语音的语音特征向量序列；

可选的，设第i条训练语音的语音特征向量序列为

，其中，

表示该第i条训练语音的第t帧语音特征向量；

则基于k阶的GMM模型可根据如下公式确定充分统计量：

，

表示0阶充分统计量，

表示第t帧语音特征向量对第k阶的占有率；

，

表示1阶充分统计量；

其中，k阶的GMM模型可表示为

，小写k表示GMM模型的阶数，w表示权重，m表示均值，大写K表示协方差。

步骤S210、根据所述充分统计量确定总变化空间矩阵。

在确定充分统计量后，可基于充分统计量确定I-vector提取算法中所使用的总变化空间矩阵（设为T）；可选的，可使用EM（Expectation Maximization，期望最大化）算法，根据所述充分统计量迭代求解出总变化空间矩阵。EM算法可以认为是一种以迭代的方式来解决一类特殊最大似然 (Maximum Likelihood) 问题的方法。

步骤S220、根据所述总变化空间矩阵，确定所述训练语音相应的I-vector。

在得到总变化空间矩阵后，可根据总变化空间矩阵，0阶充分统计量构成的对角块矩阵， 1阶充分统计量拼接的结果计算得到训练语音相应的I-vector；

可选的，确定I-vector所使用的公式可以如下：

，其中I表示单位矩阵，T（加粗）表示总变化空间矩阵，T(不加粗)表示标量值，

表示对角块矩阵，对角块矩阵的对角块成分为

，…

，

由

，…，

拼接而成，∑表示对角阵，对角阵的对角线元素由GMM模型中各个混合数的对角协方差矩阵的元素组成。

可选的，在得到I-vector后，其后验协方差可表示为

，可以看出在语音时长越短时长，所对应的0阶统计量的值就越小，此时后验协方差就越大，所估计的I-vector就越不可靠；这表明了I-vector的可靠性对于语音的时长具有较高的要求，在短语音等情况下，极易导致I-vector的不可靠。

本发明实施例在得到训练语音相应的I-vector后，可以I-vector为第一目标输出，进行DNN等形式的神经网络模型的权重调整，实现神经网络模型的首次训练，得到第一神经网络模型；再基于第一神经网络模型，以身份因子隐变量的后验均值为第二目标输出，对第一神经网络模型进行权重调整，得到语音身份特征提取器；

可选的，本发明实施例使用的神经网络模型可以是DNN模型、CNN模型等，即训练得到第一神经网络模型所使用的神经网络模型可以为DNN模型、CNN模型等，相应的，第一神经网络模型也可以是DNN模型、CNN模型等。

需要说明的是，DNN模型是一种深度学习框架模型，DNN模型的结构主要包括：一层输入层，多层隐层和一层输出层；一般而言，DNN模型的第一层是输入层，最后一层是输出层，而中间则是多层的隐层，并且DNN模型的层与层之间是全连接的；

可选的，以DNN模型为例，在以I-vector为第一目标输出，调整DNN模型的权重（即参数），得到第一DNN模型（第一神经网络模型的一种形式）的过程中，本发明实施例可利用误差反向传播算法等方式（当然也可使用DNN模型权重调整的其他方式），调整DNN模型的权重，使得调整后的DNN模型的输出趋于第一目标输出，得到第一DNN模型；这个过程所调整的DNN模型的权重主要包括：连接DNN模型各层之间的线性变换的权重（如连接输入层和隐层之间、连接各隐层之间、连接隐层和输出层之间的线性变换的权重）。

相应的，在以身份因子隐变量的后验均值为第二目标输出，调整第一DNN模型的权重，得到语音身份特征提取器的过程中，本发明实施例也可利用误差反向传播算法等方式，调整第一DNN模型的权重，使得调整后的第一DNN模型的输出趋于第二目标输出，得到语音身份特征提取器；这个过程中所调整的第一DNN模型的权重也可包括：连接DNN模型各层之间的线性变换的权重。

以CNN模型为例，CNN模型的结构主要包括输入层，卷积层，池化层和全连接层，其中卷积层和池化层可以具有多层；可选的，在以I-vector为第一目标输出，调整CNN模型的权重（即参数），得到第一CNN模型（第一神经网络模型的一种形式）的过程中，本发明实施例可利用误差反向传播算法等方式（当然也可使用CNN模型权重调整的其他方式），调整CNN模型的权重，使得调整后的CNN模型的输出趋于第一目标输出，得到第一CNN模型；这个过程所调整的CNN模型的权重可以包括：卷积层的偏置矩阵，全连接层的权重矩阵，全连接层的偏置向量等CNN模型的模型参数中的元素；

相应的，在以身份因子隐变量的后验均值为第二目标输出，调整第一CNN模型的权重，得到语音身份特征提取器的过程中，本发明实施例也可利用误差反向传播算法等方式，调整第一CNN模型的权重，使得调整后的第一CNN模型的输出趋于第二目标输出，得到语音身份特征提取器；这个过程中所调整的第一CNN模型的权重也可包括：卷积层的初始偏置矩阵，全连接层的初始权重矩阵，全连接层的初始偏置向量等CNN模型的模型参数中的元素。

显然，上述神经网络模型的结构和权重调整手段仅是可选的，在限定神经网络模型的输入和目标输出的情况下，本发明实施例可应用任何使得神经网络模型的输出趋于目标输出的权重调整手段；神经网络模型的权重调整可以是迭代调整过程，通过迭代的调整神经网络模型的权重，使得神经网络模型的输出趋于目标输出。

可选的，在一种可选实现上，本发明实施例可先以分层初始化方法对神经网络模型进行初始化，得到如图4所示神经网络模型结构，在此基础上进行第一神经网络模型的训练得到；

以DNN形式的神经网络模型为例，图5示出了训练得到第一神经网络模型的方法流程，参照图5，该方法可以包括：

步骤S300、以分层初始化方法初始化DNN模型。

步骤S310、拼接训练语音相邻的设定数量帧的语音特征向量，得到输入语音特征向量。

步骤S320、以所述输入语音特征向量作为DNN模型的输入，所述I-vector作为DNN模型的第一目标输出，DNN模型每次输出和第一目标输出之间的均方误差为损失函数，对DNN模型的权重进行调整，得到第一DNN模型。

可选的，作为示例，如图6所示，本发明实施例可拼接训练语音相邻9帧的语音特征向量作为DNN模型的输入，通过DNN模型每次输出的结果与第一目标输出间的均方误差为损失函数，迭代调整DNN模型的权重，直至DNN模型的输出趋于第一目标输出，达到训练收敛条件，得到第一DNN模型。

在完成第一神经网络模型的训练后，可基于目标检测语音实现身份因子隐变量的确定；可选的，可计算目标检测语音的语音特征向量相应的第一神经网络模型的输出结果，如假设针对第s个说话人的第i条语音的语音特征向量，可计算出第一神经网络模型相应的输出结果；然后确定输出结果的均值（设为V _si），以该均值为训练数据进行SNR-invariantPLDA（信噪比不变概率线性区分分析）模型的训练，在训练过程中可计算得到身份因子隐变量；

可选的，训练SNR-invariant PLDA模型可根据如下公式实现：

，其中，b表示目标检测语音相应的信噪比区间，m表示均值，R表示说话人信息空间，U表示信噪比空间，h _i表示身份因子隐变量，g _b表示信噪比因子，

表示残差项。

在训练SNR-invariant PLDA模型的过程中，确定身份因子隐变量后，可估计身份因子隐变量的后验均值，该后验均值包含了更紧凑的说话人信息，可以此作为目标输出对第一神经网络模型进行权重调整，训练得到F-vector提取器（即第一神经网络模型以该后验均值为目标输出进行训练，训练收敛后的模型结果即为得到的F-vector提取器）。

可选的，以DNN形式的神经网络模型为例，图7示出了基于第一神经网络模型，训练得到语音身份特征提取器（F-vector提取器）的方法流程，参照图7，该方法可以包括：

步骤S400、根据目标检测语音的语音特征向量，确定第一DNN模型的输入。

可选的，可拼接目标检测语音相邻的设定数量帧的语音特征向量，得到第一DNN模型的输入。

步骤S410、以身份因子隐变量的后验均值为第一DNN模型的第二目标输出，第一DNN模型每次输出和第二目标输出之间的均方误差为损失函数，对第一DNN模型进行调整，得到语音身份特征提取器。

可选的，作为示例，如图8所示，本发明实施例可拼接目标检测语音相邻设定数量帧的语音特征向量作为第一DNN模型的输入，通过第一DNN模型每次输出的结果与第二目标输出间的均方误差为损失函数，迭代调整第一DNN模型的权重，直至第一DNN模型的输出趋于第二目标输出，达到训练收敛条件，得到语音身份特征提取器（F-vector提取器）。

可选的，在以分层初始化方法初始化DNN模型的基础，F-vector提取器的训练过程可以如图9所示，可进行参照；其中，w1表示I-vector的第一个维度，wn是I-vector的第n个维度。

本发明实施例提供的训练方法，基于神经网络模型，以包含更紧凑的说话人信息，具有高可靠性的身份因子隐变量的后验均值为目标，训练得到新型的语音身份特征提取器，可实现高可靠性的新型的语音身份特征的提取，为后续基于语音身份特征所进行的说话人身份识别提供了更高的准确性保障。

下面结合如下具体实施例对分类器训练方法涉及的人工智能的语音技术以及机器学习技术进行说明。

在上述训练得到语音身份特征提取器的基础上，本发明实施例可基于语音身份特征提取器，实现辨认不同说话人的分类器的训练，该分类器可基于预定说话人（如需注册的说话人）的语音实现训练。

可选的，图10示出了本发明实施例提供的分类器训练方法流程图，参照图10，该方法可以包括：

步骤S500、获取目标说话人的目标检测语音。

本发明实施例对于目标检测语音的要求较低，目标检测语音的时长可以是任意的。目标说话人的目标检测语音可以是需注册的合法说话人的语音，本发明实施例可基于说话人确认场景（一对一的身份确认问题），针对目标说话人，实现分类器的训练；后续可通过训练得到的分类器辨认该目标说话人的语音，实现精度更高的说话人确认。

步骤S510、提取所述目标检测语音的语音特征向量。

可选的，本发明实施例可提取所述目标检测语音的MFCC特征。

步骤S520、调用预训练的语音身份特征提取器，将所述目标检测语音的语音特征向量输入语音身份特征提取器，得到相应的语音身份特征。

在基于前文所述的，以身份因子隐变量为目标输出训练语音身份特征提取器，训练得到语音身份特征提取器（F-vector提取器）的基础上，本发明实施例可将目标检测语音的语音特征向量作为F-vector提取器的输入，F-vector提取器可相应输出语音身份特征（F-vector）；

如针对说话人s的第i条语音，可提取其MFCC特征后作为F-vector提取器的输入，得到相应的F-vector。

步骤S530、根据所述语音身份特征训练分类器。

在得到语音身份特征后，可确定语音身份特征的均值，以该均值训练得到分类器。

可选的，本发明实施例训练得到的分类器可用于与文本无关的说话人确认场景；前文已述，基于语音的说话人身份识别可分为说话人辨认（Speaker Identification）和说话人确认（Speaker Verification）两类；而在对语音的要求方面，基于语音的说话人身份识别又可分为与文本相关（Text-dependent）和与文本无关（Text-independent）两类；与文本相关表示的是说话人说出的待测语音需与注册语音具有相同的语义，应用于说话人比较配合的场所，与文本无关表示的是可不关注语音中的语义内容，限制因素较少，应用更灵活广泛。

需与说明的是，文本无关的说话人身份识别由于对于语音的语义内容不受限制，因此通常情况下在训练和测试阶段会出现语音失配的现象，为了获得较好的识别性能，往往需要大量的训练语音；而本发明实施例提供的分类器，是基于新型的对于语音要求较低的语音身份特征训练得到，因此可极大的降低分类器的识别准确性随着语音的时长变短而下降的情况，为实现较为准确的说话人身份识别提供了可能。

可选的，本发明实施例提供的分类器可以是PLDA（概率线性区分分析）分类器，一种可选的根据语音身份特征训练分类器的过程可以如图11所示，包括：

步骤600、确定所述语音身份特征的均值。

假设对来自说话人s的第i条语音提取了语音身份特征后，可确定语音身份特征的均值y _si。

步骤S610、对所述语音身份特征的均值进行类内协方差规整处理及L2范数规整处理，得到处理后的特征，以处理后的特征训练分类器。

可选的，在对语音身份特征的均值y _si进行类内协方差规整处理及L2范数规整处理后，处理后的特征可作为训练数据训练得出PLDA分类器。

可选的，为将非参数区分分析算法有效地嵌入到PLDA分类器中，提升PLDA分类器的训练精度，本发明实施例可提供的PLDA分类器，可基于下述两种类型的协方差矩阵（即下述的类内协方差矩阵和非参数类间协方差矩阵）的非参数PLDA模型：

（1）类内协方差矩阵，其计算方式可以如下：

其中，S（大写）表示说话人数目，s（小写）表示第s个说话人，H _s表示第s个说话人的语音条数，u_s为第s个说话人的的均值。

（2）非参数类间协方差矩阵，可采用如下公式计算：

其中，ψ_kq(y_si)表示来自说明人k的特征中与特征y_si最近邻的第q个特征，Q为近邻特征的总数，m_k(y_si)代表Q个近邻特征的均值，g(s,k,i)代表一个权重函数，定义如下：

其中，指数参数α是对距离度量函数d（y ₁，y ₂）的加权调节，d（y ₁，y ₂）是指特征y ₁和y ₂之间的欧式距离度量，参数Q的取值一般设为每个说话人所有的总的语音条数的均值，权重函数g(s,k,i)评定了投影后的特征y _si与局部说话人之间的类别边界的接近程度，从而决定着该特征y _si对非参数类间散度矩阵φ_b的贡献度。如果特征y _si接近类别边界的话，权重函数g(s,k,i)取最大值0.5，如果特征y_si远离类别边界的话权重函数g(s,k,i)的值随之变小。

上文公式中的特征指的是语音身份特征。

在取得类内协方差矩阵和非参数类间协方差矩阵后，本发明实施例可将PLDA分类器得分函数中的类内变换矩阵替换为类内协方差矩阵，类间变换矩阵替换为该非参数类间协方差矩阵，具体的对于给定的已注册的第一语音身份特征提取器y ₁，和第二语音身份特征提取器y ₂，省略常数项，则PLDA分类器的得分（得分表示了PLDA分类器的准确性）计算可如下式实现：

其中，u为总体均值，即F-vector训练集的均值。

在训练得到分类器后，本发明实施例可基于给分类器实现目标说话人的语音和其他说话人的语音的辨认，实现精度更高的说话人确认。在进行说话人的身份识别时，本发明实施例可提取当前说话人的语音特征向量，使用本发明实施例提供的语音身份特征提取器，基于当前说话人的语音特征向量提取出相应的语音身份特征，将该语音身份特征输入针对目标说话人训练的分类器，通过分类器的输出结果，辨认当前说话人是否为目标说话人，实现当前说话人的身份辨认。

可选的，本发明实施例训练提取器和分类器的简化过程可如图12所示：将训练语音对应的I-vector作为DNN模型的监督信息，建立语音特征向量到I-vector特征空间的映射，提取出I-vector，以I-vector为目标对DNN模型进行训练；后续为了获得更为紧凑的说话人信息，在SNR-invariant PLDA建模过程中确定身份因子隐变量，基于身份因子隐变量的监督信息再次对DNN模型进行微调，得到最终的F-vector提取器；进而以F-vector提取器提取语音的F-vector，基于F-vector实现用于说话人身份识别的PLDA分类器。

下面对本发明实施例提供的语音身份特征提取器训练装置进行介绍，下文描述的语音身份特征提取器训练装置可以认为是电子和设备（电子设备的形式如服务器或终端等）为实现本发明实施例提供的语音身份特征提取器训练方法，所需设置的程序模块。下文描述的语音身份特征提取器训练装置可与上文描述的语音身份特征提取器训练方法相互对应参照。

图13为本发明实施例提供的语音身份特征提取器训练装置的结构框图，参照图13，该语音身份特征提取器训练装置可以包括：

语音特征向量第一提取模块100，用于提取训练语音的语音特征向量；

身份因子确定模块110，用于根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector；

第一训练模块120，用于以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型；

第一结果确定模块130，用于获取目标检测语音的语音特征向量，确定所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果；

隐变量确定模块140，用于根据所述输出结果，确定身份因子隐变量；

第二训练模块150，用于估计身份因子隐变量的后验均值，以所述后验均值作为所述第一神经网络模型的第二目标输出，调整所述第一神经网络模型的权重，得到语音身份特征提取器。

可选的，第一训练模块120，用于以所述I-vector作为神经网络模型的第一目标输出，对神经网络模型的权重进行调整，得到第一神经网络模型，具体包括：

根据所述训练语音的语音特征向量确定输入语音特征向量；

以所述输入语音特征向量作为神经网络模型的输入，所述I-vector作为神经网络模型的第一目标输出，神经网络模型的每次输出和第一目标输出之间的均方误差作为损失函数，对神经网络模型的权重进行调整，得到第一神经网络模型。

可选的，所述第一训练模块120，用于根据所述训练语音的语音特征向量确定输入语音特征向量，具体包括：

拼接训练语音相邻的设定数量帧的语音特征向量，得到输入语音特征向量。

可选的，图14示出了本发明实施例提供的语音身份特征提取器训练装置的另一结构框图，结合图13和图14所示，该语音身份特征提取器训练装置还可以包括：

模型初始化模块160，用于以分层初始化方法初始化神经网络模型。

可选的，模型初始化模块160以分层初始化方法初始化神经网络模型，可在对神经网络模型的权重进行调整之前；相应的，第一训练模块120可在初始后的神经网络模型的基础上进行功能实现。

可选的，隐变量确定模块140，用于根据所述输出结果，确定身份因子隐变量，具体包括：

确定所述输出结果的均值，以该均值训练信噪比不变SNR-invariant PLDA模型，在训练过程中计算得到身份因子隐变量。

可选的，隐变量确定模块140，用于在训练过程中计算得到身份因子隐变量，具体包括：

根据公式

计算得到身份因子隐变量h _i；

其中，V _si表示第一神经网络模型对第s个说话人的第i条语音的语音特征向量的输出结果的均值，b表示目标检测语音相应的信噪比区间，m表示均值，R表示说话人信息空间，U表示信噪比空间，g _b表示信噪比因子，

表示残差项。

可选的，第二训练模块150，用于以所述后验均值作为所述第一神经网络模型的第二目标输出，调整所述第一神经网络模型的权重，得到语音身份特征提取器，具体包括：

拼接目标检测语音相邻设定数量帧的语音特征向量作为第一神经网络模型的输入，以身份因子隐变量的后验均值为第一神经网络模型的第二目标输出，第一神经网络模型每次输出和第二目标输出之间的均方误差为损失函数，对第一神经网络模型进行调整，得到语音身份特征提取器。

可选的，身份因子确定模块110，用于根据所述训练语音的语音特征向量，确定所述训练语音相应的I-vector，具体包括：

基于GMM模型，根据所述训练语音各帧的语音特征向量，确定充分统计量；

根据所述充分统计量确定总变化空间矩阵；根据所述总变化空间矩阵，确定所述训练语音相应的I-vector。

本发明实施例还提供一种电子设备，上述描述的语音身份特征提取器训练装置可通过程序形式装载于电子设备内，图15示出了电子设备的硬件结构，参照图15，该电子设备可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（Application Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

其中，存储器存储有可执行的程序，该程序可被处理器调用执行，该程序可用于：

提取训练语音的语音特征向量；

根据所述输出结果，确定身份因子隐变量；

可选的，该程序的功能细化和扩展功能可参照上文相应部分的描述，如参照语音身份特征提取器训练方法部分的描述。

本发明实施例还提供一种分类器训练装置，下文描述的分类器训练装置可以认为是电子和设备（电子设备的形式如服务器或终端等）为实现本发明实施例提供的分类器训练方法，所需设置的程序模块。下文描述的分类器训练装置可与上文描述的分类器训练方法相互对应参照。

图16为本发明实施例提供的分类器训练装置的结构框图，参照图16，该分类器训练装置可以包括：

目标检测语音获取模块200，用于获取目标说话人的目标检测语音；

语音特征向量第二提取模块210，用于提取所述目标检测语音的语音特征向量；

语音身份特征提取模块220，用于调用预训练的语音身份特征提取器，将所述目标检测语音的语音特征向量输入语音身份特征提取器，得到相应的语音身份特征；其中，所述语音身份特征提取器以身份因子隐变量为目标输出训练得到；

训练模块230，用于根据所述语音身份特征训练分类器。

可选的，训练模块230，用于根据所述语音身份特征训练分类器，具体包括：

确定所述语音身份特征的均值；对所述语音身份特征的均值进行类内协方差规整处理及L2范数规整处理，得到处理后的特征，以处理后的特征训练分类器。

可选的，在本发明实施例中，分类器可基于PLDA模型，相应的，所述分类器可以为PLDA分类器；为提升分类器的精度，所述PLDA分类器的得分函数中的类内变换矩阵可被替换为类内协方差矩阵，类间变换矩阵可被替换为该非参数类间协方差矩阵。

可选的，分类器训练装置可通过程序形式装载于电子设备内，该电子设备的结构可参照图15所示，包括：至少一个存储器；所述存储器存储有可执行的程序，该程序可具体用于：

获取目标说话人的目标检测语音；

提取所述目标检测语音的语音特征向量；

根据所述语音身份特征训练分类器。

本发明实施例可实现新型的语音身份特征提取器的训练，通过训练得到的语音身份特征提取器，可实现高可靠性的新型的语音身份特征的提取；进而可基于该新型的语音身份特征，实现精度更高的分类器训练，基于训练得到的分类器可提升说话人身份识别的准确性。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的训练完成的语音身份特征提取器、训练完成的分类器可以应用于以上任意领域。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音身份特征提取器训练方法，其特征在于，包括：

根据目标检测语音的语音特征向量，确定第一神经网络模型的输入；其中，所述第一神经网络模型是以I-vector为第一目标输出训练得到；

以身份因子隐变量的后验均值为所述第一神经网络模型的第二目标输出，所述第一神经网络模型每次输出和第二目标输出之间的均方误差为损失函数，对所述第一神经网络模型中连接第一神经网络模型各层之间的线性变换的权重进行调整，得到语音身份特征提取器；

其中，所述身份因子隐变量是基于所述第一神经网络模型对所述目标检测语音的语音特征向量的输出结果得到的。

2.根据权利要求1所述语音身份特征提取器训练方法，其特征在于，所述根据目标检测语音的语音特征向量，确定第一神经网络模型的输入包括：

拼接所述目标检测语音相邻设定数量帧的语音特征向量，得到所述第一神经网络模型的输入。

3.根据权利要求1或2所述语音身份特征提取器训练方法，其特征在于，所述第一神经网络模型是基于分层初始化方法初始化的神经网络模型训练得到的；还包括：

基于所述第一神经网络模型，建立所述目标检测语音的语音特征向量到I-vector特征空间的映射，获得包含n个维度的I-vector，n为大于或等于1的正整数；

基于所述目标检测语音对应的I-vector，训练信噪比不变概率线性区分分析SNR-invariant PLDA模型，在训练过程中计算得到所述身份因子隐变量。

4.根据权利要求1所述语音身份特征提取器训练方法，其特征在于，还包括：

对所述目标检测语音进行预处理，提取得到所述目标检测语音的语音特征向量；

所述预处理依次包括：语音端点检测处理、预加重处理、分帧加汉明窗处理、快速傅氏变换处理、梅尔滤波处理、取对数处理、反余弦变换处理、倒谱均值方差归一化处理、一阶差分处理以及二阶差分处理。

5.一种分类器训练方法，其特征在于，包括：

获取目标说话人的目标检测语音；

提取所述目标检测语音的语音特征向量；

调用预训练的语音身份特征提取器，将所述目标检测语音的语音特征向量输入语音身份特征提取器，得到相应的语音身份特征；其中，所述语音身份特征提取器以身份因子隐变量的后验均值为目标输出，以及以第一神经网络模型每次输出和目标输出之间的均方误差为损失函数对第一神经网络模型中连接第一神经网络模型各层之间的线性变换的权重进行调整得到；

确定所述语音身份特征的均值；

对所述语音身份特征的均值进行类内协方差规整处理及L2范数规整处理，得到处理后的特征；

根据处理后的特征训练分类器。

6.根据权利要求5所述的分类器训练方法，其特征在于，所述分类器基于概率线性区分分析PLDA模型，所述分类器为PLDA分类器；所述PLDA分类器包括类内变换矩阵以及类间变换矩阵。

7.根据权利要求5所述的分类器训练方法，其特征在于，所述分类器基于非参数概率线性区分分析PLDA模型，所述分类器为PLDA分类器；还包括：

获取类内协方差矩阵以及非参数类间协方差矩阵；

基于概率线性区分分析PLDA模型、所述类内协方差矩阵以及非参数类间协方差矩阵，得到所述非参数概率线性区分分析PLDA模型。

8.根据权利要求7所述的分类器训练方法，其特征在于，所述获取类内协方差矩阵包括：

基于公式

，得到所述类内协方差矩阵φ_w；

其中，S表示说话人数目，s表示第s个说话人，H _s表示第s个说话人的语音条数，u_s为第s个说话人的均值，y _si是指第s个说话人的第i条语音的语音身份特征的均值。

9.根据权利要求7或8所述的分类器训练方法，其特征在于，所述获取非参数类间协方差矩阵包括：

基于公式：

，得到所述非参数类间协方差矩阵φ_b；

其中，S表示说话人数目，s表示第s个说话人，H _s表示第s个说话人的语音条数，y _si是指第s个说话人的第i条语音的语音身份特征的均值；

，

ψ _kq (y _si )表示来自说话人k的语音身份特征中与y _si最近邻的第q个特征，Q为近邻特征的总数，m_k(y_si)代表Q个近邻特征的均值， g(s,k,i)为权重函数。