CN109102812B

CN109102812B - 一种声纹识别方法、系统及电子设备

Info

Publication number: CN109102812B
Application number: CN201710476188.0A
Authority: CN
Inventors: 张涛涛; 许云飞; 潘逸倩; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2021-08-31
Anticipated expiration: 2037-06-21
Also published as: CN109102812A

Abstract

本发明公开了一种声纹识别方法、系统及电子设备，该方法包括：基于通用背景模型的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音矢量和第二语音矢量；基于深度神经网络的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第三语音矢量和第四语音矢量；基于第一语音矢量和第二语音矢量进行声纹识别，获得表征第一语音与第二语音之间相似度的第一参数；基于第三语音矢量和第四语音矢量进行声纹识别，获得表征第一语音与第二语音之间相似度的第二参数；基于第一参数和第二参数，确认第一语音和第二语音是否来自同一声源。通过上述技术方案，解决了现有技术中不同类型声音的声纹识别准确性较低的技术问题，提升声纹识别的准确性。

Description

一种声纹识别方法、系统及电子设备

技术领域

本发明涉及软件技术领域，特别涉及一种声纹识别方法、系统及电子设备。

背景技术

声纹识别(Voiceprint Recognition，VPR)，也称为说话人识别(SpeakerRecognition)，分为两类：说话人辨认和说话人确认。不管是辨认还是确认，需要进行特征提取和模式识别。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官：舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，可以通过对声音进行特征提取和模式识别来识别不同人的声音。每个人的语音声学特征既有相对稳定性，又有变异性，其变异可来自生理、伪装、改变发声方式等，例如：一个人正常说话时的声音和其唱歌时的声音就有很大的差别。

现有技术中，对于同类型的声音，声纹识别的准确性已经很高了，如利用正常说话声识别正常说话声，但对于不同类型的声音，如正常说话声和歌唱声，由于两种声音差别很大，目前单一的声纹识别系统如基于通用背景模型(Universal Background Model，UBM)的特征提取和基于模板匹配方法的模式识别构成的声纹识别系统，无法获得很好的准确性。

发明内容

本发明实施例提供一种声纹识别方法、系统及电子设备，用于解决现有技术中对不同类型语音的声纹识别存在准确性较低的技术问题，提高声纹识别的准确性。

本发明实施例提供一种声纹识别方法，所述方法包括：

基于通用背景模型的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第一语音矢量和第二语音的第二语音矢量；

基于深度神经网络的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第三语音矢量和第二语音的第四语音矢量；

基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；

基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；

基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源。

可选的，所述第一参数包括第一得分和/或第二得分；

所述第一得分通过概率线性区分性分析模型对第一语音矢量和第二语音矢量进行声纹识别获得，用于所述第一语音与所述第二语音之间相似度；

所述第二得分通过深度神经网络的二分类模型对第一语音矢量和第二语音矢量进行声纹识别获得，用于表征所述第一语音与所述第二语音之间相似度。

可选的，所述第二参数包括第三得分和/或第四得分；

所述第三得分通过概率线性区分性分析模型对第三语音矢量和第四语音矢量进行声纹识别获得，用于表征所述第一语音与所述第二语音之间相似度；

所述第四得分通过深度神经网络的二分类模型对第三语音矢量和第四语音矢量进行声纹识别获得，用于表征所述第一语音与所述第二语音之间相似度。

可选的，所述基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源，包括：

对所述第一参数中的至少一个得分和所述第二参数中的至少一个得分进行融合，确认所述第一语音和所述第二语音是否来自同一声源。

针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数；

基于所述得分融合系数，对所述第一参数和所述第二参数进行融合，获得综合得分；

若所述综合得分大于设定阈值，确认所述第一语音和所述第二语音来自同一声源，反之，确定所述第一语音和所述第二语音来自不同的声源。

可选的，所述基于所述得分融合系数，对所述第一参数和所述第二参数进行融合，获得综合得分，包括：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

其中，s_final为综合得分，s₁、s₂为第一参数中的第一得分和第二得分，s₃、s₄为第二参数中的第三得分和第四得分，α₁、α₂、α₃、α₄分别为各得分对应的得分融合系数。

可选的，所述针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数，包括：

针对不同的语音矢量提取模型和声纹识别模型，获得使各声纹识别模型输出得分转换为同一数量级上的得分融合系数。

采用逻辑回归算法，获得与各语音矢量提取模型和声纹识别模型的特征相关的得分融合系数。

可选的，所述采用逻辑回归算法，获得与各语音矢量提取模型和声纹识别模型的特征相关的得分融合系数，包括：

选取训练样本中的正例得分和负例得分，其中，正例得分为第一语音和第二语音来自于同一声源时声纹识别获得的得分，负例得分为第一语音和第二语音来自于不同声源时声纹识别获得的得分；

根据逻辑回归算法，获得所述正例得分和所述负例得分的概率；

根据所述正例得分和负例得分以及所述正例得分和负例得分的概率，迭代训练得到所述得分融合系数。

本申请实施例还提供一种声纹识别系统，包括：

通用背景模型的矢量提取模型，用于分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第一语音矢量和第二语音的第二语音矢量；

深度神经网络的矢量提取模型，用于分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第三语音矢量和第二语音的第四语音矢量；

声纹识别模型，用于基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；

确认模型，用于基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源。

可选的，所述第一参数包括第一得分和/或第二得分；

所述第一得分通过概率线性区分性分析模型对第一语音矢量和第二语音矢量进行声纹识别获得，用于表征所述第一语音与所述第二语音之间相似度；

可选的，所述第二参数包括第三得分和/或第四得分；

可选的，所述确认模型，具体用于：

可选的，所述确认模型，包括：

获取模块，用于针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数；

融合模块，用于基于所述得分融合系数，对所述第一参数和所述第二参数进行融合，获得综合得分；

确认模块，用于在所述综合得分大于设定阈值时，确认所述第一语音和所述第二语音来自同一声源，反之，确定所述第一语音和所述第二语音来自不同的声源。

可选的，所述融合模块用于：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

可选的，所述获取模块用于：

可选的，所述获取模块还用于：

可选的，所述获取模块具体用于：

本申请实施例还提供一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本申请实施例提供一种声纹识别方法，采用两个互补的语音矢量提取模型：基于通用背景模型的矢量提取模型和深度神经网络的矢量提取模型，分别对第一语音和第二语音进行语音矢量提取；进一步，将提取获得的语音矢量分别进行声纹识别，获得表征第一语音与第二语音之间相似度的第一参数和第二参数；基于第一参数和第二参数，确认第一语音和第二语音是否来自同一声源。由于通用背景模型的自动学习数据的分布特性可以弥补深度神经网络矢量提取性能不稳定的缺陷，同时，深度神经网络音素区分能力强的优点可以弥补通用背景模型音素区分能力较弱的缺点，所以基于通用背景模型的矢量提取模型和深度神经网络的矢量提取模型获得的语音矢量能够互补并完整的反映语音的各个特点，对声源的指向性更准确，能够有效提升声纹识别的准确性，即使第一语音和第二语音是不同类型的语音，由于本识别方法的特征提取的完善，能够更准确的反映发声源的特点，因此能够获得很好的识别率，解决了现有技术中对不同类型声音进行声纹识别时存在的准确性较低的技术问题，提升了声纹识别的准确性。

附图说明

图1为本申请实施例提供的一种声纹识别的方法流程图；

图2为本申请实施例提供的一种多系统融合的声纹识别示意图；

图3为本申请实施例提供的一种声纹识别的系统结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

在本申请实施例提供的技术方案中，通过采用互补的特征提取模型进行语音矢量提取，使得提取获得的语音矢量能够互补并完整的反映语音的各个特点，对声源的指向性更准确；并对提取到的语音矢量分别进行声纹识别获得第一参数和第二参数，通过第一参数和第二参数更能完整的、准确的反映两个声音的相似度，基于第一参数和第二参数来确定两个语音是否来自同一声源，以解决现有技术中对不同类型声音进行声纹识别时存在的准确性较低的技术问题，提升声纹识别的准确性。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

本申请实施例提供的声纹识别方法，可以应用于同类型语音的声纹识别，也可以应用于不同类型语音的声纹识别，尤其对不同类型语音的声纹识别具有较高的准确性。不同的类型的语音指同一声源发出的差别较大的声音，例如：用户注册时用的正常说话语音(简称注册语音)与用户测试时的歌唱声、朗诵声、呼噜声等(简称测试语音)。下面以第一语音为注册语音、第二语音为测试语音为例，详细说明第一语音与第二语音之间的声纹识别过程。

请参考图1，本申请实施例提供一种声纹识别方法，所述方法包括：

S11：基于通用背景模型的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第一语音矢量和第二语音的第二语音矢量；

S12：基于深度神经网络的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第三语音矢量和第二语音的第四语音矢量；

S13：基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；

S14：基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；

S15：基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源。

采用通用背景模型UBM和深度神经网络(Deep Nerual Network，DNN)的矢量提取模型来对待识别语音进行语音矢量提取。通用背景模型UBM的优点是：属于无监督学习模型，能够自动学习数据的分布特性；缺点是：不具有很好的音素区分能力。深度神经网络DNN的优点则是：具有很好的音素区分能力；缺点是：属于有监督学习模型，训练得到DNN模型需要较多的数据和优化策略，对于不同类型的语音识别，现有的数据和优化策略是明显不足的。可见，单一采用UBM或DNN提取的语音矢量来进行声纹识别得到的识别结果都是不准确的。本申请通过UBM和DNN这两个技术上互补的语音矢量提取模型分别进行语音矢量提取，获得互补的语音矢量，并融合基于互补的语音矢量获得的识别结果，有效提升声纹识别的准确性。

在具体实施过程中，S11和S12的执行不分先后，可以同时执行，也可以先之后S11或S12。同样的，S13和S14的执行也不分先后。S13和S14在进行声纹识别时，可以通过至少一个声纹识别模型来执行，例如：深度神经网络的二分类模型(下述简称DNN二分类)、隐式马尔可夫模型、多项式分类器、概率线性区分性分析模型(Probabilistic LinearDiscriminant Analysis，PLDA)等等。为了进一步提高声纹识别的准确性，本申请实施例在声纹识别时，也采用多系统融合的方式来进行，例如：可以通过DNN二分类、隐式马尔可夫模型分别对提取到的语音矢量进行声纹识别，也可以通过DNN二分类、隐式马尔可夫模型、多项式分类器分别对提取到的语音矢量进行声纹识别。

融合的声纹识别模型越多，准确性越高，但是，计算流程和复杂度大大提升，因此实际使用起来实时率较差。为了有效提升声纹识别准确性的同时，保证较高的实时率，本申请实施例提供的一种多系统融合的声纹识别系统，如图2所示，本申请采用PLDA和DNN二分类来进行声纹识别。因为PLDA采用因子分析的思想对矢量ivector进行建模，能够很好地对说话人内部变化(如噪声、信道差异)进行识别。DNN二分类则利用深度神经网络DNN强大的学习能力，学习得到不同矢量ivector之间的相似性，提高有效识别率，并且算法简单。

具体的，请参考图2，执行S13时，可以通过概率线性区分性分析模型PLDA对第一语音矢量和第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一得分；和/或，通过深度神经网络的二分类模型对第一语音矢量和第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二得分。执行S14时，通过概率线性区分性分析模型PLDA对第三语音矢量和第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第三得分；和/或，通过深度神经网络的二分类模型对第三语音矢量和第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第四得分。

在执行S13和S14之后，执行S15：基于声纹识别获得的第一参数和第二参数，确认第一语音和第二语音是否来自同一声源。当第一参数和第二参数中包含多个声纹识别得分时，对第一参数中的至少一个得分和第二参数中的至少一个得分进行融合。例如：假设第一参数中包含第一得分和第二得分，第二参数中包含第三得分和第四得分，可以对声纹识别获得的第一得分、第二得分中至少一个得分与第三得分、第四得分中的至少一个得分进行融合，基于融合后的综合得分来确认第一语音和第二语音是否来自同一声源。由于融合后的综合得分能够更完整、准确的反映两个语音之间的相似度，以此来提高确认两个语音是否来自同一声源的准确性。

具体的，执行S15时可以针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数；基于所述得分融合系数，对所述第一参数和所述第二参数进行融合，获得综合得分：

以图2中的四个识别系统融合为例，可以通过如下公式计算获得综合得分：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

其中，s_final表示综合得分，s₁、s₂为第一参数中的第一得分和第二得分，s₃、s₄为第二参数中的第三得分和第四得分，α₁、α₂、α₃、α₄分别为各得分对应的得分融合系数。当然，若有N个识别系统进行融合，那么融合系数则为α₁～α_n，相应的声纹识别得分为s₁～s_n，s_final＝α₁s₁+α₂s₂+…+α_ns_n。

基于获得的综合得分确认第一语音和第二语音是否来自同一声源：若所述综合得分大于设定阈值，确认所述第一语音和所述第二语音来自同一声源，反之，确定所述第一语音和所述第二语音来自不同的声源。其中，设定阈值根据训练样本的综合数据得到，不同的融合系统，设定阈值不同。

对于得分融合系数的获取，不同的参数融合方法，得分融合系数的获取方法不同。

一、线性融合

不同的语音矢量提取模型和声纹识别模型组成的识别系统对待测语音的打分方式不同，例如：UBM+PLDA系统对语音的打分方式可能为0～1之间，UBM+DNN二分类系统对语音的打分放回可能为1～100之间，相互之间不具有可比性。本申请针对不同的语音矢量提取模型和声纹识别模型，获得使各声纹识别模型输出得分转换为同一数量级上的得分融合系数，针对线性融合方法的得分融合系数又称线性融合系数。例如：假设UBM+PLDA系统获得的得分s₁在0～1之间，UBM+DNN二分类系统获得的得分s₂在0～100之间，那么s₁的分数就要乘以100，拉到s₂分数一样的数量级上，故得分融合系数α₁可以被设置为100。

二、特征融合

采用Logistic回归的方法，自动学习得到得分融合系数，让每个系统(即语音矢量提取模型+声纹识别模型)得分的得分融合系数真正与每个系统相关。可以通过选取训练样本中的正例得分和负例得分；然后，根据逻辑回归算法，获得正例得分和负例得分的概率；再根据正例得分和负例得分以及其概率，迭代训练得到得分融合系数。

具体的：在声纹识别中，对语音矢量进行声纹识别获得的得分可以分为两类：正例得分和负例得分。正例得分即注册语音和测试语音属于同一人时的得分，负例得分即注册语音和测试语音属于不同人时的得分。假设正例得分和负例得分分别对应类别y∈{1,0}，得分融合系数(针对特征融合方法的得分融合系数又称特征融合系数)W＝{α₁,α₂,α₃,α₄}，各系统的正例得分和负例得分为S＝{S₁,S₂,S₃,S₄}，综合得分s_final＝W^TS。线性分类函数为：

根据Logistic回归算法，可以得到类别y＝1和y＝0的概率：

P(y＝0)＝1-P(y＝1)

通过预置的训练集，可以获得正例和负例两组得分。正例得分的类别为y＝1,负例得分的类别是y＝0。然后，根据交叉熵准则和梯度下降法，以及训练集的正例得分和负例得分，迭代训练得到得分融合系数W＝{α₁,α₂,α₃,α₄}。

当然，具体实施过程中，还可以将线性融合和特征融合一起使用，此时综合得分为：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

其中，s₁、s₂、s₃、s₄表示第一得分至第四得分，α₁、α₂、α₃、α₄分别为各得分对应的线性融合系数与特征融合系数的乘积。

针对上述实施例提供一种声纹识别方法，本申请实施例还对应提供一种声纹识别系统，请参考图3，该系统包括：

通用背景模型的矢量提取模型31，用于分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第一语音矢量和第二语音的第二语音矢量；

深度神经网络的矢量提取模型32，用于分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第三语音矢量和第二语音的第四语音矢量；

声纹识别模型33，用于基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；

确认模型34，用于基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源。

具体实施过程中，所述第一参数包括第一得分和/或第二得分；所述声纹识别模型33，包括：概率线性区分性分析模型，用于对第一语音矢量和第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的所述第一得分；和/或，通过深度神经网络的二分类模型，用于对第一语音矢量和第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的所述第二得分。

所述第二参数也可以包括第三得分和/或第四得分；所述通过概率线性区分性分析模型还用于：对第三语音矢量和第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第三得分；和/或，所述通过深度神经网络的二分类模型还用于：对第三语音矢量和第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第四得分。

具体实施过程中，所述确认模型34，可以对所述第一参数中的至少一个得分和所述第二参数中的至少一个得分进行融合，确认所述第一语音和所述第二语音是否来自同一声源。

具体的，所述确认模型34可以包括：获取模块、融合模块及确认模块。获取模块，用于针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数；融合模块，用于基于所述得分融合系数，对所述第一参数和所述第二参数进行融合，获得综合得分；确认模块，用于在所述综合得分大于设定阈值时，确认所述第一语音和所述第二语音来自同一声源，反之，确定所述第一语音和所述第二语音来自不同的声源。

其中，所述融合模块可以根据如下公式进行得分融合：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

s_final为综合得分，s₁、s₂为第一参数中的第一得分和第二得分，s₃、s₄为第二参数中的第三得分和第四得分，α₁、α₂、α₃、α₄分别为各得分对应的得分融合系数。

所述获取模块可以通过如下任一方式获取得分融合系数。方式一、针对不同的语音矢量提取模型和声纹识别模型，获得使各声纹识别模型输出得分转换为同一数量级上的得分融合系数。方式二、采用逻辑回归算法，获得与各语音矢量提取模型和声纹识别模型的特征相关的得分融合系数。

具体实施过程中，采用逻辑回归算法获得得分融合系数时，可以选取训练样本中的正例得分和负例得分，其中，正例得分为第一语音和第二语音来自于同一声源时声纹识别获得的得分，负例得分为第一语音和第二语音来自于不同声源时声纹识别获得的得分；根据逻辑回归算法，获得所述正例得分和所述负例得分的概率；根据所述正例得分和负例得分以及所述正例得分和负例得分的概率，迭代训练得到所述得分融合系数。

关于上述实施例中的系统，其中各个模型及模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于实现声纹识别方法的电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种声纹识别方法，该方法包括：基于通用背景模型的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第一语音矢量和第二语音的第二语音矢量；基于深度神经网络的矢量提取模型分别对第一语音和第二语音进行语音矢量提取，获得第一语音的第三语音矢量和第二语音的第四语音矢量；基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

通过至少一个声纹识别模型基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；

通过至少一个声纹识别模型基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；

2.如权利要求1所述的方法，其特征在于，所述第一参数包括第一得分和/或第二得分；

所述第一得分通过概率线性区分性分析模型对第一语音矢量和第二语音矢量进行声纹识别获得，用于表征所述第一语音与所述第二语音之间相似度的；

3.如权利要求2所述的方法，其特征在于，所述第二参数包括第三得分和/或第四得分；

4.如权利要求3所述的方法，其特征在于，所述基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源，包括：

5.如权利要求1～4任一所述的方法，其特征在于，所述基于所述第一参数和所述第二参数，确认所述第一语音和所述第二语音是否来自同一声源，包括：

6.如权利要求5所述的方法，其特征在于，所述基于所述得分融合系数，对所述第一参数和所述第二参数进行融合，获得综合得分，包括：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

7.如权利要求6所述的方法，其特征在于，所述针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数，包括：

8.如权利要求6所述的方法，其特征在于，所述针对不同的语音矢量提取模型和声纹识别模型，获得不同的得分融合系数，包括：

9.如权利要求8所述的方法，其特征在于，所述采用逻辑回归算法，获得与各语音矢量提取模型和声纹识别模型的特征相关的得分融合系数，包括：

10.一种声纹识别系统，其特征在于，包括：

至少一个声纹识别模型，用于基于所述第一语音矢量和所述第二语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第一参数；基于所述第三语音矢量和所述第四语音矢量进行声纹识别，获得表征所述第一语音与所述第二语音之间相似度的第二参数；

11.如权利要求10所述的系统，其特征在于，所述第一参数包括第一得分和/或第二得分；

所述第一得分通过概率线性区分性分析模型，用于对第一语音矢量和第二语音矢量进行声纹识别获得，用于表征所述第一语音与所述第二语音之间相似度；

12.如权利要求11所述的系统，其特征在于，所述第二参数包括第三得分和/或第四得分；

13.如权利要求12所述的系统，其特征在于，所述确认模型，具体用于：

14.如权利要求10～13任一所述的系统，其特征在于，所述确认模型，包括：

15.如权利要求14所述的系统，其特征在于，所述融合模块用于：

s_final＝α₁s₁+α₂s₂+α₃s₃+α₄s₄

16.如权利要求15所述的系统，其特征在于，所述获取模块用于：

17.如权利要求15所述的系统，其特征在于，所述获取模块还用于：

18.如权利要求17所述的系统，其特征在于，所述获取模块具体用于：

19.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：