CN106847292B

CN106847292B - 声纹识别方法及装置

Info

Publication number: CN106847292B
Application number: CN201710083629.0A
Authority: CN
Inventors: 王健宗; 郭卉; 宋继程; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2018-06-19
Anticipated expiration: 2037-02-16
Also published as: AU2017341161A1; AU2017101877A4; KR20180104595A; US20190272829A1; JP2019510248A; JP6649474B2; US10629209B2; WO2018149077A1; SG11201803895RA; EP3584790A4; EP3584790A1; CN106847292A

Abstract

本发明公开了一种声纹识别方法及装置。该声纹识别方法包括：客户端采集用户的测试语音，并向后台服务器发送语音识别请求，语音识别请求包括用户ID和所述测试语音；后台服务器接收语音识别请求，采用消息队列和异步机制确定待处理语音识别请求；后台服务器获取与待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与待处理语音识别请求的测试语音相对应的测试声纹特征；后台服务器根据述目标声纹特征和测试声纹特征判断是否对应同一用户，并向客户端输出判断结果；客户端接收并显示判断结果。本发明所提供的声纹识别方法及装置，可达到快速语音识别效果，提高语音识别效率。

Description

声纹识别方法及装置

技术领域

本发明涉及生物特征的身份识别技术领域，尤其涉及一种声纹识别方法及装置。

背景技术

声纹识别(Voiceprint Recognition)是指根据声音所蕴涵的说话人的生物特征，识别说话人的一种身份识别技术。由于声纹识别具有安全可靠性，使其可在几乎所有需求进行身份识别的安全性保护领域和个性化应用场合中使用。如在银行、证券、保险等金融机构的业务量持续扩大，产生大量的身份识别需求。与传统身份识别技术相比，声纹识别的优势在于，声纹提取过程简单且成本低、且每个人的声纹特征与其他人的声纹特征不相同，具有唯一性，不易伪造和假冒。由于声纹识别具有安全、可靠、方便等特性，使其在需进行身份识别的场合得到广泛的应用。但现有声纹识别过程耗时较长，在对大量语音识别请求进行处理时，容易因处理时间过久而导致部分语音识别请求丢失，影响声纹识别技术的应用。

发明内容

本发明要解决的技术问题在于，针对现有技术的缺陷，提供一种声纹识别方法及装置，可提高大量语音识别请求的处理效率，缩短处理时间。

本发明解决其技术问题所采用的技术方案是：一种声纹识别方法，包括：

客户端采集用户的测试语音，并向后台服务器发送语音识别请求，所述语音识别请求包括用户ID和所述测试语音；

后台服务器接收所述语音识别请求，采用消息队列和异步机制确定待处理语音识别请求；

后台服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征；

后台服务器根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户，并向所述客户端输出判断结果；

客户端接收并显示判断结果。

优选地，所述后台服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征，包括：

根据所述待处理语音识别请求的用户ID查询声纹特征库，以获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征；

采用高斯混合模型-通用背景模型对所述待处理语音识别请求的测试声纹特征进行处理，以获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征。

优选地，还包括：

对训练语音进行MFCC特征提取，以获取MFCC声学特征；

对所述MFCC声学特征进行语音活动检测，获取高斯混合模型参数；

利用所述高斯混合模型参数对通用背景模型进行训练，获取所述高斯混合模型-通用背景模型；

接收声纹注册请求，所述声纹注册请求包括用户ID和目标训练语音；

采用所述高斯混合模型-通用背景模型对所述目标训练语音进行训练，获取目标声纹特征；

将所述用户ID和所述目标声纹特征存储在所述声纹特征库。

优选地，所述根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户，包括：

采用PLDA算法分别对所述目标声纹特征和所述测试声纹特征进行降维，获取目标降维值和测试降维值；

采用余弦测度函数对所述目标降维值和所述测试降维值进行余弦测度，获取余弦测度值；

判断所述余弦测度值是否大于相似阈值；若是，则为同一用户；若否，则不为同一用户。

优选地，所述PLDA算法包括：

初始化μ和W；

采用计算w；

采用重新W，并返回采用计算w的步骤，直至w小于指定阈值；

其中，μ为均值声纹向量；W为类间距离；w为声纹特征；i为迭代次数；

所述余弦测度函数包括：

其中，w_train为目标声纹特征，w_test为测试声纹特征，t为时间。

本发明还提供一种声纹识别装置，包括：

客户端，用于采集用户的测试语音，并向后台服务器发送语音识别请求，所述语音识别请求包括用户ID和所述测试语音；

后台服务器，用于接收所述语音识别请求，采用消息队列和异步机制确定待处理语音识别请求；

后台服务器，用于获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征；

后台服务器，用于根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户，并向所述客户端输出判断结果；

客户端，用于接收并显示所述判断结果。

优选地，所述后台服务器包括：

特征查询单元，用于根据所述待处理语音识别请求的用户ID查询声纹特征库，以获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征；

特征处理单元，用于采用高斯混合模型-通用背景模型对所述待处理语音识别请求的测试声纹特征进行处理，以获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征。

优选地，后台服务器还包括：

声学特征提取单元，用于对训练语音进行MFCC特征提取，以获取MFCC声学特征；

语音活动检测单元，用于对所述MFCC声学特征进行语音活动检测，估计高斯混合模型参数；

模型训练单元，用于利用所述高斯混合模型参数对通用背景模型进行训练，获取所述高斯混合模型-通用背景模型；

注册语音接收单元，用于接收声纹注册请求，所述声纹注册请求包括用户ID和目标训练语音；

目标声纹特征获取单元，用于采用所述高斯混合模型-通用背景模型对所述目标训练语音进行训练，获取目标声纹特征；

目标声纹特征存储单元，用于将所述用户ID和所述目标声纹特征存储在所述声纹特征库。

优选地，所述后台服务器包括：

特征降维单元，用于采用PLDA算法分别对所述目标声纹特征和所述测试声纹特征进行降维，获取目标降维值和测试降维值；

余弦测度处理单元，用于采用余弦测度函数对所述目标降维值和所述测试降维值进行余弦测度，获取余弦测度值；

用户识别判断单元，用于判断所述余弦测度值是否大于相似阈值；若是，则为同一用户；若否，则不为同一用户。

优选地，所述PLDA算法包括：

初始化μ和W；

采用计算w；

采用重新W，并返回采用计算w的步骤，直至w小于指定阈值；

所述余弦测度函数包括：

本发明与现有技术相比具有如下优点：本发明所提供的声纹识别方法及装置中，后台服务器基于待处理语音识别请求中的用户ID获取对应的目标声纹特征，并基于待处理语音识别请求中的测试语音获取测试声纹特征，并将目标声纹特征与测试声纹特征进行对比，以确定目标声纹特征与测试声纹特征的说话人是否为同一用户，可达到快速语音识别效果，提高语音识别效率。另外，后台服务器采用消息队列和异步机制确定待处理语音识别请求，以提高对大量语音识别请求的处理效率，避免因处理时间过长导致部分语音识别请求丢失。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例1中声纹识别方法的一流程图。

图2是本发明实施例2中声纹识别装置的一原理框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

实施例1

图1示出本实施例中声纹识别方法的一流程图。该声纹识别方法可在客户端和后台服务器上应用，以实现对客户端采集的测试语音进行身份识别。如图1所示，该声纹识别方法包括如下步骤：

S10：客户端采集用户的测试语音，并向后台服务器发送语音识别请求，语音识别请求包括用户ID和测试语音。

其中，客户端包括智能手机、笔记本、台式计算机等可与后台服务器通信相连的终端，客户端上设有用于采集测试语音的麦克风或设有外置麦克风接口。用户ID用于唯一识别用户身份，本实施例中测试语音与用户ID相关联，用于确定测试语音对应的用户。客户端对用户进行采样录音，获取wav音频格式的测试语音，根据测试语音与用户ID形成语音识别请求，并将语音识别请求发送给后台服务器。

进一步地，当客户端为手机端时，采用多线程方式采集测试语音；当客户端为网页端时，采用Ajax异步刷新方式采集测试语音，以实现与后台服务器通信时，不打断用户操作，以提高测试请求的采集速度。Ajax(Asynchronous JavaScript and XML)，异步JavaScript与XML，是使用客户端脚本与Web服务器交换数据的Web应用开发方法。

S20：后台服务器接收语音识别请求，采用消息队列和异步机制确定待处理语音识别请求。

其中，后台服务器接收至少一个客户端发送的语音识别请求，并将至少一个语音识别请求放入消息队列等待。后台服务器采用异步机制对消息队列中的至少一个语音识别请求进行调度，使得后台服务器在处理消息队列中的每一消息时，发送方和接收方相互独立，无需等待对方回应。采用消息队列和异步机制对至少一个语音识别请求进行调度以获取待处理语音识别请求，可使后台服务器可同时接收大量的语音识别请求，并避免任一待处理语音识别请求的处理时间过长导致其他大量语音识别请求丢失。另一方面，采用消息队列和异步机制还可在后台服务器搭建分布式系统，可提高对语音识别请求的峰值处理能力和灵活性，降低进程间的耦合程度，保证每一语音识别请求均能被处理。

S30：后台服务器获取与待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与待处理语音识别请求的测试语音相对应的测试声纹特征。

具体地，目标声纹特征是预先存储在后台服务器中与用户ID相对应的用户的声纹特征。测试声纹特征是语音请求中测试语音相对应的声纹特征。其中，声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。相应地，声纹特征包括但不限于与人类的发音机制的解剖学结构有关的声学特征，如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等。

本实施例中，目标声纹特征和测试声纹特征优选为I-vector(即identifyingvector，辨识矢量)特征。相应地，任一I-vector特征均可采用I-vector算法进行获取，i-vertor算法是一种估计隐变量的方法，用一固定长度的低维向量表示一段语音，在I-vector特征提取过程中没有把类内和类间的方差分开考虑，而是将其放在一个子空间，即总变量空间(total variablity space)中考虑，使其可采用无监督的方法进行训练，并可去除总变量空间中与语种无关的信息，在降维去噪的同时，最大限度保留了与语种相关的声学信息。

进一步地，步骤S30具体包括如下步骤：

S31：根据待处理语音识别请求的用户ID查询声纹特征库，以获取与待处理语音识别请求的用户ID相对应的目标声纹特征。

具体地，在声纹特征库中预先存储有至少一组用户ID和与用户ID相关联的目标声纹特征，以便于基于待处理语音识别请求中的用户ID查找相对应的目标声纹特征。

S32：采用高斯混合模型-通用背景模型对待处理语音识别请求的测试声纹特征进行处理，以获取与待处理语音识别请求的测试语音相对应的测试声纹特征。

其中，高斯混合模型-通用背景模型(即Gaussian Mixture Model-UniversalBackground Model，简称GMM-UBM)是一个与说话人无关、高阶的GMM，它是根据说话人训练语音自适应训练，即语音模型通过说话人用自己的语音反映出模型中未包含的发音情况，用与说话人无关的语音特征分布近似描述，具有识别率高的特点。

具体地，后台服务器将接收到的语音识别请求放入消息队列等待，当有进程空闲时，从消息队列取出待处理语音识别请求交给后台Servlet容器处理，Servlet容器创建一个HttpRequest对象，将发送过来的信息封装到这个对象中，同时创建一个HttpResponse对象，把HttpRequest与HttpResponse作为参数传给HttpServlet对象，调用HttpServlet对象的service方法，service方法里调用高斯混合模型-通用背景模型对测试语音进行处理，以获取测试声纹特征。

S40：后台服务器根据目标声纹特征和测试声纹特征判断是否对应同一用户，并向客户端输出判断结果。

由于目标声纹特征是预先存储在声纹特征库中与用户ID相关联的声纹特征，而测试声纹特征是客户端采集到的与用户ID相关联的测试语音对应的声纹特征，若两个相同或者近似度达到预设的相似阈值时，可认定两者为同一用户，以向客户端输出两者为同一用户或不为同一用户的判断结果。

进一步地，步骤S40具体包括如下步骤：

S41：采用PLDA算法分别对目标声纹特征和测试声纹特征进行降维，获取目标降维值和测试降维值。

其中，PLDA(Probabilistic Linear Discriminant Analysis)算法是一种信道补偿算法。PLDA基于I-vector特征，因为I-vector特征既包含说话人差异信息又包含信道差异信息，而我们只关心说话人信息，所以才需要信道补偿。PLDA算法的信道补偿能力比LDA算法更好。

其中，PLDA算法具体包括如下步骤：

(1)初始化μ和W；

(2)采用计算w；

(3)采用重新W，并返回采用计算w的步骤，直至w小于指定阈值；

其中，μ为均值声纹向量；W为类间距离；w为声纹特征；i为迭代次数。

S42：采用余弦测度函数对目标降维值和测试降维值进行余弦测度，获取余弦测度值。

具体地，余弦测度函数包括：其中，w_train为目标声纹特征，w_test为测试声纹特征，t为时间。采用余弦测度函数可简单衡量目标声纹特征与测试声纹特征之间距离的远近，当目标声纹特征与测试声纹特征在指定有限维度空间内可以展开时，该余弦测度函数计算较简便且效果较直接有效。

S43：判断余弦测度值是否大于相似阈值；若是，则为同一用户；若否，则不为同一用户。

具体地，若score(w_train,w_test)>K，则目标声纹特征对应的说话人和测试声纹特征对应的说话人为同一用户；反之，若score(w_train,w_test)≤K，则目标声纹特征对应的说话人和测试声纹特征对应的说话人不为同一用户；其中K为相似阈值，可以为大于50％的常数。

S50：客户端接收并显示判断结果。

该判断结果可以是认定测试语音对应的测试声纹特征与声纹特征库中保存的目标声纹特征的说话人为同一用户的判断结果，或者不为同一用户的判断结果。

本发明所提供的声纹识别方法中，后台服务器基于待处理语音识别请求中的用户ID获取对应的目标声纹特征，并基于待处理语音识别请求中的测试语音获取测试声纹特征，并将目标声纹特征与测试声纹特征进行对比，以确定目标声纹特征与测试声纹特征的说话人是否为同一用户，可达到快速语音识别效果，提高语音识别效率。另外，后台服务器采用消息队列和异步机制确定待处理语音识别请求，以提高对大量语音识别请求的处理效率，避免因处理时间过长导致部分语音识别请求丢失。

在一具体实施方式中，该声纹识别方法还包括如下步骤：

S51：对训练语音进行MFCC特征提取，以获取MFCC声学特征。

其中，MFCC(Mel Frequency Cepstrum Coefficients,梅尔频率倒谱系数)。对训练语音进行MFCC特征提取的过程包括：对训练语音进行预加重、分帧和加窗；再对每一短时分析窗，通过FFT(Fast Fourier Transform，快速傅里叶变换)获得对应的频谱；再将上述频谱通过Mel滤波器组得到Mel频率；在Mel频谱上面进行倒谱分析(取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数)，获得Mel频率倒谱系数MFCC，从而获取MFCC声学特征。

S52：对MFCC声学特征进行语音活动检测，估计高斯混合模型参数。

其中，语音活动检测是采用语音活动检测(Voice Activity detection，VAD)算法对语音和噪音的不同特性进行语音和噪音判断，以从连续采样得到的数字信号中检测出语音信号段和噪声信号段，并将语音信号段的MFCC声学特征估计高斯混合模型(GaussianMixture Model模型，简称为GMM模型)的参数组。具体地，采用语音活动检测算法计算短时能量、短时过零率、短时自相关等语音特征参数，从而去除静音信号和非语音信号，将非静音语音信号保留估计高斯混合模型参数。本实施例中，将MFCC声学特征的零阶、一阶、二阶量用来估计高斯混合模型的参数。

S53：利用高斯混合模型参数对通用背景模型进行训练，获取高斯混合模型-通用背景模型。

本实施例中，对高斯混合模型参数通过通用背景模型进行因子分析，以获取高斯混合模型-通用背景模型。具体地，通用背景模型的因子分析算法包括：s＝m+Tw，其中，m为平均声，即为均值向量；T为声纹空间映射矩阵；w为声纹差异向量，即I-vector特征。采用因子分析算法对用高斯混合模型表示的声学特征进行因子分析，把声学特征的均值向量(均值)与声纹差异向量分离(余量)，以获取I-vector特征。该因子分析算法可分离出不同语音间的声纹差异向量，更容易提取不同语音间的声纹特异性。

S54：接收声纹注册请求，声纹注册请求包括用户ID和目标训练语音。

本实施例中，客户端接收用户输入的声纹注册请求，并将该声纹注册请求发送给发送给服务器，服务器接收该声纹注册请求。

S55：采用高斯混合模型-通用背景模型对目标训练语音进行特征提取，获取目标声纹特征。

具体地，服务器采用训练好的高斯混合模型-通用背景模型对目标训练语音进行特征提取，以获取目标声纹特征。即先对目标训练语音进行MFCC特征提取，以获取对应的目标MFCC声学特征，然后对目标MFCC声学特征进行语音活动检测，再把活动语音检测后的MFCC声学特征放入训练好的高斯混合模型-通用背景模型进行特征提取，以获取目标声纹特征。

S56：将用户ID和目标声纹特征存储在声纹特征库。

本实施例中，将声纹注册请求中的用户ID和基于目标训练语音获取到的目标声纹特征存储在声纹特征库中，以便于在需进行用户身份识别时，可基于用户ID调用相应的目标声纹特征。

该具体实施方式中，通过对训练语音进行MFCC特征提取和语音活动检测，估计高斯混合模型参数，并利用高斯混合模型参数对通用背景模型进行训练，以获取训练好的高斯混合模型-通用背景模型，该高斯混合模型-通用背景模型具有识别率高的优点。再接收声纹注册请求，将声纹注册请求中的目标训练语音通过训练好的高斯混合模型-通用背景模型进行特征提取，以获取目标声纹特征，并将目标声纹特征与用户ID保存在声纹特征库中，以便于在语音识别过程中，基于待处理语音识别请求中的用户ID获取对应的目标声纹特征，并与测试声纹特征进行比较，以确定目标声纹特征与测试声纹特征的说话人是否为同一用户，以达到语音识别效果。

实施例2

图2示出本实施例中声纹识别方法的一流程图。该声纹识别装置包括客户端和后台服务器，可实现对客户端采集的测试语音进行身份识别。如图2所示，该声纹识别装置包括客户端10和后台服务器20。

客户端10，用于采集用户的测试语音，并向后台服务器发送语音识别请求，语音识别请求包括用户ID和测试语音。

其中，客户端10包括智能手机、笔记本、台式计算机等可与后台服务器通信相连的终端，客户端上设有用于采集测试语音的麦克风或设有外置麦克风接口。用户ID用于唯一识别用户身份，本实施例中测试语音与用户ID相关联，用于确定测试语音对应的用户。客户端对用户进行采样录音，获取wav音频格式的测试语音，根据测试语音与用户ID形成语音识别请求，并将语音识别请求发送给后台服务器。

后台服务器20，用于接收语音识别请求，采用消息队列和异步机制确定待处理语音识别请求。

其中，后台服务器20接收至少一个客户端发送的语音识别请求，并将至少一个语音识别请求放入消息队列等待。后台服务器采用异步机制对消息队列中的至少一个语音识别请求进行调度，使得后台服务器在处理消息队列中的每一消息时，发送方和接收方相互独立，无需等待对方回应。采用消息队列和异步机制对至少一个语音识别请求进行调度以获取待处理语音识别请求，可使后台服务器可同时接收大量的语音识别请求，并避免任一待处理语音识别请求的处理时间过长导致其他大量语音识别请求丢失。另一方面，采用消息队列和异步机制还可在后台服务器搭建分布式系统，可提高对语音识别请求的峰值处理能力和灵活性，降低进程间的耦合程度，保证每一语音识别请求均能被处理。

后台服务器20，用于获取与待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与待处理语音识别请求的测试语音相对应的测试声纹特征。

进一步地，后台服务器20包括特征查询单元211和特征处理单元212。

特征查询单元211，用于根据待处理语音识别请求的用户ID查询声纹特征库，以获取与待处理语音识别请求的用户ID相对应的目标声纹特征。

特征处理单元212，用于采用高斯混合模型-通用背景模型对待处理语音识别请求的测试声纹特征进行处理，以获取与待处理语音识别请求的测试语音相对应的测试声纹特征。

具体地，后台服务器20将接收到的语音识别请求放入消息队列等待，当有进程空闲时，从消息队列取出待处理语音识别请求交给后台Servlet容器处理，Servlet容器创建一个HttpRequest对象，将发送过来的信息封装到这个对象中，同时创建一个HttpResponse对象，把HttpRequest与HttpResponse作为参数传给HttpServlet对象，调用HttpServlet对象的service方法，service方法里调用高斯混合模型-通用背景模型对测试语音进行处理，以获取测试声纹特征。

后台服务器20，根据目标声纹特征和测试声纹特征判断是否对应同一用户，并向客户端输出判断结果。

进一步地，后台服务器20具体包括特征降维单元221、余弦测度处理单元222和用户识别判断单元223。

特征降维单元221，用于采用PLDA算法分别对目标声纹特征和测试声纹特征进行降维，获取目标降维值和测试降维值。

其中，PLDA(Probabilistic Linear Discriminant Analysis)算法是一种信道补偿算法。PLDA基于I-vector特征，因为I-vector特征即包含说话人差异信息又包含信道差异信息，而我们只关心说话人信息，所以才需要信道补偿。PLDA算法的信道补偿能力比LDA算法更好。

其中，PLDA算法具体包括如下步骤：

(1)初始化μ和W；

(2)采用计算w；

余弦测度处理单元222，用于采用余弦测度函数对目标降维值和测试降维值进行余弦测度，获取余弦测度值。

用户识别判断单元223，用于判断余弦测度值是否大于相似阈值；若是，则为同一用户；若否，则不为同一用户。

客户端10，用于接收并显示判断结果。

本发明所提供的声纹识别装置中，后台服务器基于待处理语音识别请求中的用户ID获取对应的目标声纹特征，并基于待处理语音识别请求中的测试语音获取测试声纹特征，并将目标声纹特征与测试声纹特征进行对比，以确定目标声纹特征与测试声纹特征的说话人是否为同一用户，可达到快速语音识别效果，提高语音识别效率。另外，后台服务器采用消息队列和异步机制确定待处理语音识别请求，以提高对大量语音识别请求的处理效率，避免因处理时间过长导致部分语音识别请求丢失。

在一具体实施方式中，该声纹识别装置还包括声学特征提取单元231、语音活动检测单元232、模型训练单元233、注册语音接收单元234、目标声纹特征获取单元235和目标声纹特征存储单元236。

声学特征提取单元231，用于对训练语音进行MFCC特征提取，以获取MFCC声学特征。

语音活动检测单元232，用于对MFCC声学特征进行语音活动检测，估计高斯混合模型参数。

其中，语音活动检测是采用语音活动检测(Voice Activity detection，VAD)算法对语音和噪音的不同特性进行语音和噪音判断，以从连续采样得到的数字信号中检测出语音信号段和噪声信号段，并将语音信号段的MFCC声学特征作为高斯混合模型(GaussianMixture Model模型，简称为GMM模型)的参数组。具体地，采用语音活动检测算法计算短时能量、短时过零率、短时自相关等语音特征参数，从而去除静音信号和非语音信号，将非静音语音信号保留用来估计高斯混合模型参数。本实施例中，用非静音语音信号MFCC声学特征的零阶、一阶、二阶量估计高斯混合模型的参数。

模型训练单元233，用于利用高斯混合模型参数对通用背景模型进行训练，获取高斯混合模型-通用背景模型。

注册语音接收单元234，用于接收声纹注册请求，声纹注册请求包括用户ID和目标训练语音。本实施例中，客户端接收用户输入的声纹注册请求，并将该声纹注册请求发送给发送给服务器，服务器接收该声纹注册请求。

目标声纹特征获取单元235，用于采用高斯混合模型-通用背景模型对目标训练语音进行特征提取，获取目标声纹特征。具体地，服务器采用训练好的高斯混合模型-通用背景模型对目标训练语音进行特征提取，以获取目标声纹特征。即先对目标训练语音进行MFCC特征提取，以获取对应的目标MFCC声学特征，然后对目标MFCC声学特征进行语音活动检测，再把活动语音检测后的MFCC声学特征放入训练好的高斯混合模型-通用背景模型进行特征提取，以获取目标声纹特征。

目标声纹特征存储单元236，用于将用户ID和目标声纹特征存储在声纹特征库。本实施例中，将声纹注册请求中的用户ID和基于目标训练语音获取到的目标声纹特征存储在声纹特征库中，以便于在需进行用户身份识别时，可基于用户ID调用相应的目标声纹特征。

该具体实施方式所提供的声纹识别装置中，通过对训练语音进行MFCC特征提取和语音活动检测后，估计高斯混合模型参数，并利用高斯混合模型参数对通用背景模型进行训练，以获取训练好的高斯混合模型-通用背景模型，该高斯混合模型-通用背景模型具有识别率高的优点。再接收声纹注册请求，将声纹注册请求中的目标训练语音通过训练好的高斯混合模型-通用背景模型进行特征提取，以获取目标声纹特征，并将目标声纹特征与用户ID保存在声纹特征库中，以便于在语音识别过程中，基于待处理语音识别请求中的用户ID获取对应的目标声纹特征，并与测试声纹特征进行比较，以确定目标声纹特征与测试声纹特征的说话人是否为同一用户，以达到语音识别效果。

本发明是通过几个具体实施例进行说明的，本领域技术人员应当明白，在不脱离本发明范围的情况下，还可以对本发明进行各种变换和等同替代。另外，针对特定情形或具体情况，可以对本发明做各种修改，而不脱离本发明的范围。因此，本发明不局限于所公开的具体实施例，而应当包括落入本发明权利要求范围内的全部实施方式。

Claims

1.一种声纹识别方法，其特征在于，包括：

客户端接收并显示所述判断结果；

其中，所述根据所述目标声纹特征和所述测试声纹特征判断是否对应同一用户，包括：

2.根据权利要求1所述的声纹识别方法，其特征在于，所述后台服务器获取与所述待处理语音识别请求的用户ID相对应的目标声纹特征，并获取与所述待处理语音识别请求的测试语音相对应的测试声纹特征，包括：

3.根据权利要求2所述的声纹识别方法，其特征在于，还包括：

对训练语音进行MFCC特征提取，以获取MFCC声学特征；

对所述MFCC声学特征进行语音活动检测，估计高斯混合模型参数；

将所述用户ID和所述目标声纹特征存储在所述声纹特征库。

4.根据权利要求1所述的声纹识别方法，其特征在于，所述PLDA算法包括：

初始化μ和W；

采用计算w；

采用重新计算W，并返回采用计算w的步骤，直至w小于指定阈值；

所述余弦测度函数包括：

5.一种声纹识别装置，其特征在于，包括：

客户端，用于接收并显示所述判断结果；

所述后台服务器包括：

6.根据权利要求5所述的声纹识别装置，其特征在于，所述后台服务器包括：

7.根据权利要求6所述的声纹识别装置，其特征在于，后台服务器还包括：

8.根据权利要求5所述的声纹识别装置，其特征在于，所述PLDA算法包括：

初始化μ和W；

采用计算w；

所述余弦测度函数包括：