CN106971733A

CN106971733A - 基于语音降噪的声纹识别的方法及系统以及智能终端

Info

Publication number: CN106971733A
Application number: CN201610025060.8A
Authority: CN
Inventors: 祝铭明
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2017-07-21

Abstract

本发明公开了基于语音降噪的声纹识别的方法及系统以及智能终端。方法为步骤S1采集外部输入的语音，并判断语音的声音强度是否高于一预设的强度阈值，并在声音强度高于强度阈值时将语音确认为待判断语音，转向步骤S2；步骤S2根据待判断语音的频谱，生成对应待判断语音上每个频带的估计标识；步骤S3生成对应于待判断语音的纯语音的概率模型；步骤S4以每个估计标识作为对应的待判断语音的频带的权重指标，依据概率模型处理得到关联于语音的纯语音估计值；步骤S5判断纯语音估计值是否大于一预设的估计阈值，若是执行步骤S6，若否返回步骤S1；步骤S6根据纯语音估计值获取语音流，依据预设的声纹识别模型对语音流进行声纹识别。

Description

基于语音降噪的声纹识别的方法及系统以及智能终端

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于语音降噪的声纹识别的方法及系统以及智能终端。

背景技术

现有技术中，在一些支持语音操作的智能终端中往往必须用到语音识别的功能，即通过识别说话人的声纹以及语句得到智能终端能够执行的指令，进而根据该指令执行相应的操作。然而，在某些非说话人语音的噪声干扰较强的应用场合(例如应用在一个说话人较多的空间，或者所应用的空间的背景噪声较强)，由于背景噪声与说话人的语音指令糅合在一起，会使语音识别更为困难，识别准确度大大降低。

现有技术中，当背景噪声相对较小时可以采用一些现有的方法(例如谱减法和Wiener滤波)在语音识别过程中进行噪声滤波，并取得了较为显著的效果。但是对于一些背景噪声较大的应用环境下，现有技术中并不存在较为理想的关于噪声滤波的技术方案，因而无法进行准确的声纹识别。

发明内容

根据现有技术中存在的上述问题，现提供一种基于语音降噪的声纹识别的方法及系统以及智能终端的技术方案，具体包括：

一种基于语音降噪的声纹识别的方法，适用于智能终端，其中，包括：

步骤S1，采集外部输入的语音，并判断所述语音的声音强度是否高于一预设的强度阈值，并在所述声音强度高于所述强度阈值时将所述语音确认为待判断语音，并转向步骤S2；

步骤S2，根据所述待判断语音的频谱，生成对应所述待判断语音上每个频带的估计标识，所述估计标识用于表示所述语音在谐波结构上的显著性；

步骤S3，生成对应于所述待判断语音的纯语音的概率模型；

步骤S4，以每个所述估计标识作为对应的所述待判断语音的所述频带的权重指标，依据所述概率模型处理得到关联于所述语音的纯语音估计值；

步骤S5，判断所述纯语音估计值是否大于一预设的估计阈值，若是执行步骤S6，若否，返回执行所述步骤S1；

步骤S6，根据所述纯语音估计值获取语音流，依据预设的声纹识别模型对所述语音流进行声纹识别。

优选的，该基于语音降噪的声纹识别的方法，其中，所述步骤S2中生成的所述估计标识包括第一估计标识；或者

所述步骤S2中生成的所述估计标识包括第一估计标识和第二估计标识。

优选的，该基于语音降噪的声纹识别的方法，其中，所述步骤S2中，生成所述第一估计标识的步骤具体包括：

步骤S21a，依据所述待判断语音的所述频谱，提取对应于所述待判断语音的所述谐波结构；

步骤S22a，对关联于所述谐波结构的数谱域上的监控值进行规则化处理，并依据梅尔刻度对经过规则化处理的所述监控值执行平滑处理；

步骤S23a，对经过平滑处理的所述监控值进行进一步的规则化处理，以使所述监控值的均值为1；

步骤S24a，根据所述监控值生成对应所述待判断语音的每个所述频带的所述第一估计标识。

优选的，该基于语音降噪的声纹识别的方法，其中，所述步骤S4中，根据所述第一估计标识处理得到所述纯语音估计值的方法具体包括：

步骤S41a，处理得到关联于所述待判断语音的最小均方误差估计的后验概率；

步骤S42a，以每个所述第一估计标识作为对应的所述待判断语音的所述频带的权重指标，依据所述概率模型对关联于所述待判断语音的所述后验概率进行加权计算，以得到所述纯语音估计值。

优选的，该基于语音降噪的声纹识别的方法，其中，所述步骤S2中，生成所述第二估计标识的步骤具体包括：

步骤S21b，依据所述待判断语音的所述频谱，提取对应于所述待判断语音的所述谐波结构；

步骤S22b，对关联于所述谐波结构的数谱域上的监控值进行规则化处理，并依据梅尔刻度对经过规则化处理的所述监控值执行平滑处理；

步骤S23b，对经过平滑处理的所述监控值从0到1进行相应的规则化处理；

步骤S24b，根据所述监控值生成对应所述待判断语音的每个所述频带的所述第二估计标识。

优选的，该基于语音降噪的声纹识别的方法，其中，执行所述步骤S4之后，还根据所述第二估计标识继续执行下述步骤：

针对所述待判断语音的每个频带，将每个对应的所述第二估计标识作为权重，以在所述监控值与所述纯语音估计值之间执行线性插值并处理得到对应的输出值。

一种基于语音降噪的声纹识别的系统，适用于智能终端，其中，包括：

采集单元，用于采集外部输入的语音；

第一判断单元，连接所述采集单元，所述第一判断单元内预置有一强度阈值，并用于判断外部输入的所述语音的声音强度是否高于所述强度阈值，输出相应的判断结果；

第一处理单元，连接所述第一判断单元，用于根据所述判断结果，在所述语音的所述声音强度高于所述强度阈值时将所述语音确认为待判断语音，并根据所述待判断语音的频谱，生成对应所述待判断语音上每个频带的估计标识，所述估计标识用于表示所述语音在谐波结构上的显著性；

模型生成单元，连接所述第一处理单元，用于生成对应于所述待判断语音的纯语音的概率模型；

第二处理单元，连接所述模型生成单元，用于以每个所述估计标识作为对应的所述待判断语音的所述频带的权重指标，依据所述概率模型处理得到关联于所述语音的纯语音估计值；

第二判断单元，分别连接所述第二处理单元和所述采集单元，用以判断所述纯语音估计值是否大于一预设的估计阈值；

声纹识别单元，连接所述第二判断单元，用以根据所述纯语音估计值获取语音流，依据预设的声纹识别模型对所述语音流进行声纹识别。

优选的，该基于语音降噪的声纹识别的系统，其中，所述估计标识包括第一估计标识；或者

所述估计标识包括第一估计标识和第二估计标识。

优选的，该基于语音降噪的声纹识别的系统，其中，所述第一处理单元具体包括：

提取模块，用于依据所述待判断语音的所述频谱，提取对应于所述待判断语音的所述谐波结构；

第一处理模块，连接所述提取模块，用于对关联于所述谐波结构的数谱域上的监控值进行规则化处理，并依据梅尔刻度对经过规则化处理的所述监控值执行平滑处理；

第二处理模块，连接所述第一处理模块，用于对经过平滑处理的所述监控值进行进一步的规则化处理，以使所述监控值的均值为1；

第一生成模块，连接所述第二处理模块，用于根据所述监控值生成对应所述待判断语音的每个所述频带的所述第一估计标识。

优选的，该基于语音降噪的声纹识别的系统，其中，所述第二处理单元具体包括：

第三处理模块，用于处理得到关联于所述待判断语音的最小均方误差估计的后验概率；

第四处理模块，连接所述第三处理模块，用于以每个所述第一估计标识作为对应的所述待判断语音的所述频带的权重指标，依据所述概率模型对关联于所述待判断语音的所述后验概率进行加权计算，以得到所述纯语音估计值。

优选的，该基于语音降噪的声纹识别的系统，其中，所述第一处理单元包括：

第五处理模块，连接所述第一处理单元，用于对经过平滑处理的所述监控值从0到1进行相应的规则化处理；

第二生成模块，连接所述第五处理模块，用于根据所述监控值生成对应所述待判断语音的每个所述频带的所述第二估计标识。

优选的，该基于语音降噪的声纹识别的系统，其中，还包括：

第三处理单元，连接所述第二处理单元，用于针对所述待判断语音的每个频带，将每个对应的所述第二估计标识作为权重，以在所述监控值与所述纯语音估计值之间执行线性插值并处理得到对应的输出值。

一种智能终端，其中，采用上述的基于语音降噪的声纹识别的方法。

一种智能终端，其中，包括上述的基于语音降噪的声纹识别的系统。

上述技术方案的有益效果是：

1)提供一种基于语音降噪的声纹识别的方法，可滤除语音中的噪音获取纯语音估计值，并根据大于估计阈值的纯语音估计值获取语音流，从而进行声纹识别，可提供识别声纹的准确度，能够提升背景噪声去除的效果，较好地排除语音识别过程中较大的背景噪声的干扰，提升语音识别的准确度；

2)提供一种基于语音降噪的声纹识别的系统，能够支持实现上述基于语音降噪的声纹识别的方法。

附图说明

图1是本发明的较佳的实施例中，一种基于语音降噪的声纹识别的方法的总体流程示意图；

图2-4是本发明的较佳的实施例中，于图1的基础上，基于语音降噪的声纹识别的方法的分步骤流程示意图；

图5是本发明的较佳的实施例中，一种基于语音降噪的声纹识别的系统的总体结构示意图；

图6-7是本发明的较佳的实施例中，于图5的基础上，基于语音降噪的声纹识别的系统的分模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

通常而言，智能终端内适用的语音识别系统包括前端和后端两个部分，前端应用某种语音转换技术在说话人输入的语音中提取相应的特征量，后端就依据这些被提取的特征量，采用预先训练好的识别模型进行语音识别，以确定说话人输入的语句中包含的内容。则本发明技术方案是对现有技术中的语音识别系统中的前端进行的改进，即在根据外部输入的语音提取特征量的过程中进行的改进，旨在降低背景噪声对上述过程的影响。

因此，本发明的较佳的实施例中，基于现有技术中存在的上述问题，现提供一种基于语音降噪的声纹识别的方法，其适用于智能终端，例如适用于支持语音操作的智能机器人。

该技术方案中，所述的“外部输入的语音”以及“待判断语音”均为叠加了背景噪声的说话人的语音。所述的“纯语音”是指去除了背景噪声的说话人的语音。所谓的“纯语音估计值”是指通过上述待判断语音(即包括背景噪声的语音)估计得到的纯语音。所述的“频谱”是指语音的功率谱或者幅度谱。

本发明技术方案基于下文中所述的现有技术展开，即基于MMSE(Minimum Mean Square Error，最小均方误差)估计技术实现的噪声消除技术上做出改进得到的本发明技术方案。

因此，在描述本发明技术方案之前，首先描述基于MMSE的噪声消除技术：在给出初始的语音值y(对应于上文中所述的叠加有背景噪声的语音)时，将纯语音值x建模为x的概率分布模型p(x|y)，并且从概率分布模型p(x|y)估计纯语音x的估计值。则MMSE估计是用在后续阶段的估计中的基础技术。

则MMSE估计技术中，首先用麦克风收集和记录说话人的语音，作为观测语音，随后通过A/D转换的方式将观测语音转换为数字信号，并经过成帧以及DFT变换(Discrete Fourier Transform，离散傅里叶变换)，以被转换为每一帧语音的频谱。接下来，每帧频谱经过梅尔滤波器组并取其对数(一种滤波器组，其中带通滤波器以相等间隔布置在梅尔标度上)，其继而被转换为梅尔对数谱并被输出。

现有技术中，基于输出的梅尔对数谱，可以生成每一帧的纯语音估计值，并且可以输出对应的纯语音估计值。

MMSE估计技术上文中形成的概率分布模型来执行MMSE估计，并且能够生成纯语音估计值。但是应当注意的是，被保存的概率分布模型是梅尔对数谱域中的GMM模型(Gaussian Mixture Model，高斯混合模型)，即基于先验学习而针对每个音素生成的模型。则通过MMSE估计可以生成纯语音估计值并作为梅尔对数谱域中的向量。

随后，可以提取特定的特征量，例如从被输出的纯语音估计值的梅尔倒频谱系数(MFCC)提取相应的特征量，并且将该特征量发送给后端。在后端，通过使用其他语音识别方式例如HMM(Hidden Markov Model，隐马尔可夫模型)、声学模型或N-gram语言模型(汉语语言模型)等已有配置，基于从前端接收的特征量指定说话人的语句中包含的内容。

则现有技术中，上述语音值y的帧t中的频带d(在梅尔刻度上的频带)的梅尔对数谱域中的语音值y_d(t)可以在下述公式(1)中表示为纯语音值x_d(t)和噪声值n_d(t)的函数：

y_d(t)＝x_d(t)+log(1+exp(n_d(t)-x_d(t))) (1)

在上述公式(1)中忽略帧t，并且将上述公式(1)表示为向量时，可以获得下述公式(2)：

y＝x+g (2)

上述公式(2)中，每个频带d的失配向量g均可由下述公式(3)中指示的失配函数G给出：

g_d＝G_d(x,n)＝log(1+exp(n_d-x_d)) (3)

则上述纯语音x可以被建模为小数公式(4)中指示的K混合GMM模型：

在上述公式(4)中，γ_k，μ_x,k，和Σ_x,k分别指示第k正态分布的先验概率、均值向量和协方差矩阵。

则通过基于上述公式(1)-(4)采用线性泰勒展开，可以对失配向量g进行建模，其表述为下述公式(5)中指示的K混合GMM模型：

上述公式(5)中的均值向量μ_g,k可以由下述公式(6)表示，并且协方差矩阵Σ_g,k可以由下列公式(7)表示：

上述公式(7)中的辅助函数F可以被定义为下列公式(8)：

F_d(x,n)＝(1+exp(x_d-n_d))^-1 (8)

因此，通过下述公式(9-1)处理得到上述纯语音估计值

相应地，从语音值y直接估计得到纯语音估计值方法还可以由下列公式(9-2)给出：

这里，以上公式(9-1)和(9-2)中后验概率ρ_k都由下列公式(10)给出：

上述公式(10)中，均值向量μ_y,k可以由下列公式(11)表示，并且协方差矩阵Σ_y,k可以由下列公式(12)表示：

则现有技术中，在上述公式(11)-(12)中，语音模型参数[μ_x,k,Σ_x,k]可以由先验训练数据得到，并且噪声模型参数[μ_n,Σ_n]基于非语音片段中的、被给予MMSE估计部分514的观测值而由基于模型的噪声补偿部分512设置。

如上文中所述，换言之，上述MMSE估计的过程就是将纯语音估计值近似为使用后验概率ρ_k(y)作为权重而被加权的k个概率分布的均值向量μ_x,k之和的过程。

则本发明的较佳的实施例中，上述基于语音降噪的声纹识别的方法的步骤具体如图1所示，包括：

步骤S1，采集外部输入的语音，并判断语音的声音强度是否高于一预设的强度阈值，并在声音强度高于强度阈值时将语音确认为待判断语音，并转向步骤S2；

步骤S2，根据待判断语音的频谱，生成对应待判断语音上每个频带的估计标识，估计标识用于表示语音在谐波结构上的显著性；

步骤S3，生成对应于待判断语音的纯语音的概率模型；

步骤S4，以每个估计标识作为对应的待判断语音的频带的权重指标，依据概率模型处理得到关联于语音的纯语音估计值；

步骤S5，判断纯语音估计值是否大于一预设的估计阈值，若是执行步骤S6，若否，返回执行步骤S1；

步骤S6，根据纯语音估计值获取语音流，依据预设的声纹识别模型对语音流进行声纹识别。

在一个具体实施例中，首先采集外部的语音(即采集说话人的语音)，并判断该被采集的语音的声音强度是否大于一预设的强度阈值。该判断的主要目的在于去除一些说话人本不希望对智能终端进行语音控制的场景，例如说话人低声与其他人交谈的场景，或者说话人无意中说出的语句。因此，只有在说话人说出的语音的声音强度较强(大于预设的强度阈值)时，才能被认为是向智能终端发出语音指令，此时智能终端才需要开始进行语音识别，以及进行语音识别前的基于语音降噪的声纹识别。因此，上述判断可以避免智能终端中关于语音识别和基于语音降噪的声纹识别的功能模块始终处于工作状态，并能够节省智能终端的功耗。

该实施例中，当说话人的语音的声音强度大于上述预设的强度阈值时，执行步骤S2，即根据待判断语音的频谱，生成对应待判断语音上每个频带的估计标识。该实施例中，上述估计标识用于表示语音在谐波结构上的显著性。

该实施例中，生成对应于待判断语音的纯语音的概率模型，并且以每个估计标识作为对应的待判断语音的频带的权重指标，依据概率模型处理得到关联于语音的纯语音估计值。

本发明的较佳的实施例中，上述步骤S2中，生成的估计标识包括第一估计标识；或者

上述步骤S2中，生成的估计标识包括第一估计标识和第二估计标识。

本发明的较佳的实施例中，如图2所示，上述步骤S2中，生成第一估计标识的步骤具体包括：

步骤S21a，依据待判断语音的频谱，提取对应于待判断语音的谐波结构；

步骤S22a，对关联于谐波结构的数谱域上的监控值进行规则化处理，并依据梅尔刻度对经过规则化处理的监控值执行平滑处理；

步骤S23a，对经过平滑处理的监控值进行进一步的规则化处理，以使监控值的均值为1；

步骤S24a，根据监控值生成对应待判断语音的每个频带的第一估计标识。

本发明的较佳的实施例中，如图3所示，上述步骤S4中，根据第一估计标识处理得到纯语音估计值的方法具体包括：

步骤S41a，处理得到关联于待判断语音的最小均方误差估计的后验概率；

步骤S42a，以每个第一估计标识作为对应的待判断语音的频带的权重指标，依据概率模型对关联于待判断语音的后验概率进行加权计算，以得到纯语音估计值。

本发明的较佳的实施例中，如图4所示，上述步骤S2中，生成第二估计标识的步骤具体包括：

步骤S21b，依据待判断语音的频谱，提取对应于待判断语音的谐波结构；

步骤S22b，对关联于谐波结构的数谱域上的监控值进行规则化处理，并依据梅尔刻度对经过规则化处理的监控值执行平滑处理；

步骤S23b，对经过平滑处理的监控值从0到1进行相应的规则化处理；

步骤S24b，根据监控值生成对应待判断语音的每个频带的第二估计标识。

本发明的较佳的实施例中，在执行步骤S4之后，还根据第二估计标识继续执行下述步骤：

针对待判断语音的每个频带，将每个对应的第二估计标识作为权重，以在监控值与纯语音估计值之间执行线性插值并处理得到对应的输出值。

下文中给出本发明技术方案中的第一个实施例：

在现有MMSE中，纯语音估计值由上述公式(9-1)和(9-2)给出，并且每个公式中后验概率ρ_k(y)由上述公式(10)给出。

则在该实施例中，在给出纯语音估计值的上面公式(9-1)和(9-2)中，CW-MMSE使用利用估计标识α_d加权的后验概率ρ'_k(y)而不是后验概率ρ_k(y)作为权重。下文中的公式(13)指示该实施例中使用的后验概率ρ'_k(y)：

该实施例中，上文中的公式(13)中正态分布可以由下文中的公式(14)表示，公式(14)使用对角协方差假设。在下述公式(14)中，D表示正交分布的维度的数目：

上述公式(14)表示：正态分布N′(公式中用于计算后验概率ρ'_k(y)的项)被乘以使用估计标识α_d作为权重的指标。所谓估计标识，其实际是代表频带的估计的标识。一般地，频带的估计是从背景噪声引起的信号退化的角度进行的。在本发明技术方案中，估计标识定义如下：

由于预先可以知晓包括在人类通常的话音中的元音的频谱具有一般的谐波结构，在没有背景噪声的环境中，元音的谐波结构会保持在被采集到的语音的频谱的整个频带中。相应地，在具有较强的宽带噪声时，在很多频带中会丢失元音的谐波结构，并且谐波结构仅能被保持在诸如语音功率集中的共振峰(formant)的频带中。因此，本发明技术方案中，假设由于背景噪声引起的退化很少发生在具有明显谐波结构的频带中，并且将谐波结构的显著性定义为该频带的估计标识。

本发明技术方案中的估计标识是使用LPW(Local Peat Weight，局部峰值权重)生成的。LPW的方式例如将包括共振峰信息的巨大改变从被采集到的语音的频谱能量分布中移除，并且仅提取对应于谐波结构的规则的波峰和波谷，并且将其值规则化。在本发明技术方案中，通过执行下述过程生成每一帧的LPW：

首先，采用被采集的语音的帧t的频谱的算法进行处理，并且其对数谱经过离散余弦变换获得倒谱。随后，在获得的倒谱的项中，仅留下对应于LPW元音的谐波结构的域中的项，并删除其他项。此后，对处理的倒频谱进行反离散余弦变换，以将倒谱转换回对数谱域。最后，对被转换的频谱执行规则化处理，以使频谱的均值变成1，由此获得LPW。

接下来，通过在梅尔刻度上对LPW进行平滑处理，以得到对应的梅尔LPW。本发明的一个较佳的实施例中，可以通过一组梅尔滤波器对LPW的值进行平滑处理，以针对每个梅尔频带获得一个相应的值。所谓梅尔滤波器，是一种滤波器组，其中带通滤波器以相等间隔布置在梅尔刻度上。在每个梅尔频带均给出相应的梅尔LPW的值。梅尔LPW值的大小对应于高分辨率的频谱带的谐波结构的显著性，并且每个梅尔频带对应一个梅尔LPW值。

在本发明技术方案中，上述梅尔LPW值可以作为对应频带的估计标识。具体地，上述公式(14)中的估计标识α_d可以由以下过程生成：

首先，通过采用适宜的缩放函数例如曲线函数压缩梅尔LPW的动态范围。如下述公式(15)中，每个频带的梅尔LPW值w_d被转换为α'_d。下述公式(15)指示通过使用曲线函数将梅尔LPW值w_d转换为α'_d的方式：

α'_d＝1.0/(1.0+exp(-a.(w_d-1.0))) (15)

在上述公式(15)中，a是调谐参数，并可以设置适当的数值。

随后，对被压缩的值α'_d规则化处理，以使其均值变成1。下述公式(16)指示用于规则化α'_d且获得估计标识α_d的方法：

在有声部分的帧t中明显的频谱频带中存在元音的谐波结构时，对应频带d的估计标识α_d将变得大于1。此时，对于频带d，以上公式(14)中的正态分布N′变大，并且频带d的后验概率ρ'_k(y)变大。因此对应于其中元音的谐波结构明显的谱频带的梅尔频带的贡献变大。

相反，在有声部分的帧t中被丢失的频谱频带中存在元音的谐波结构时，对应频带d的估计标识α_d将变得小于1。则对于频带d，以上公式(14)中的正态分布N′变小，并且频带d的后验概率ρ'_k(y)变小。因此对应于其中元音的谐波结构丢失的谱频带的梅尔频带的贡献变小。

下文中给出本发明技术方案中的第二个实施例：

如果被采集的语音等效于纯语音(即在一个几乎没有背景噪声的环境下采集到的说话人的语音，或者说话人距离语音采集装置例如麦克风非常近的情况)，则不需要对其进行任何处理，直接输出被采集到的语音是最佳选择。但是，若采用本发明技术方案中的基于语音降噪的声纹识别的方法进行语音处理的话，即使在上述情况下，也同样会根据被采集到的语音对纯语音进行估计，并且因此会输出比纯语音的效果更差的语音估计值。

因此，在该实施例中提出一种能够在语音模态和被采集到的语音之间实现线性插值的方法，其中估计标识作为权重参与计算。

则在该实施例中，在下述公式(17)中，通过线性插值函数得到频带d中的输出值

在上述公式(17)中，表示频带d中的纯语音估计值，β_d表示给频带d的置信指标，y_d表示频带d中被采集的语音的值，并且表示频带d中的输出值。在上述公式(17)中，使用估计标识β_d作为权重对线性插值函数进行加权，使其变成从0到1的值。由线性插值函数中可以看到：随着β_d接近1，输出值接近被采集到的语音的值y_d；相应地，随着β_d接近0，输出值接近纯语音估计值

本发明技术方案中，通过对梅尔LPW值进行规则化处理生成上述估计标识。上述公式(17)中的估计标识β_d可以通过下面的过程生成：

首先获得针对帧t的梅尔LPW的值，即通过使用适当的缩放函数例如曲线函数将梅尔MPW的值w_d进行规则化处理，以使w_d值取从0到1的值，其中1是最大值。下文中的公式(18)指示用于通过使用曲线函数规则化梅尔MPW值w_d并且获得估计标识β_d的方式：

β_d＝1.0/(1.0+exp(-a·(w_d-1.0-b))) (18)

在上述公式(18)中，a和b是调谐参数，并且可以根据实际情况预先设定适当的数值。

在有声部分的帧t中明显的频谱频带中存在元音的谐波结构时，对应频带d的估计标识β_d接近1。则频带d中的输出值为上述公式(17)中指示的线性插值的结果，因此使得该输出值距被采集的语音的值y_d的距离比距纯语音估计值的距离更近。

相反地，在有声部分的帧t中被丢失的谱频带中存在元音的谐波结构时，对应频带d的估计标识β_d接近0。则频带d中的输出值为在公式(17)中指示的线性插值的结果，因此使得该输出值距纯语音估计值的距离比距观测值y_d的距离更近。

本发明的较佳的实施例中，上述第一实施例和第二实施例可以结合应用，例如下文中的过程：

首先获得对应于被采集到的语音的一帧的频谱Y，提取频谱Y的谐波结构并且生成LPW，并根据LPW生成梅尔LPW。随后用适当的方法对梅尔LPW进行规则化处理以生成针对每个频带的估计标识α，该估计标识α的均值为1。同时对梅尔LPW进行规则化处理以生成针对每个频带的估计标识β，该估计标识β的值从0到1分布。分别输出生成的估计标识α和估计标识β。

此后，将对应于一帧的频谱Y转换成梅尔对数谱y并输出。通过使用输出的梅尔对数谱y和上述估计标识α来估计纯语音。具体地，采用上述估计标识α作为权重对MMSE估计的后验概率进行加权计算，并且输出纯语音估计值

随后，针对每个频带，在梅尔对数谱y的向量与上述纯语音估计值(梅尔对数谱域中的向量)之间执行线性插值。该线性插值的计算过程中，以上述估计标识β作为权重。最终计算得到输出值

最终，根据得到的输出值进行特定的特征量的提取，并且将提取到的特征量发送给后端。对被采集到的语音的每一帧均重复执行上述步骤，并且在到达最后一帧时，处理结束。

本发明的较佳的实施例中，基于上文中的基于语音降噪的声纹识别的方法，现提供一种基于语音降噪的声纹识别的系统，适用于智能终端，其结构具体如图5所示，包括：

采集单元1，用于采集外部输入的语音；

第一判断单元2，连接采集单元1，第一判断单元内预置有一强度阈值，并用于判断外部输入的语音的声音强度是否高于强度阈值，输出相应的判断结果；

第一处理单元3，连接第一判断单元2，用于根据判断结果，在语音的声音强度高于强度阈值时将语音确认为待判断语音，并根据待判断语音的频谱，生成对应待判断语音上每个频带的估计标识，估计标识用于表示语音在谐波结构上的显著性；

模型生成单元6，连接第一处理单元3，用于生成对应于待判断语音的纯语音的概率模型；

第二处理单元5，连接模型生成单元6，用于以每个估计标识作为对应的待判断语音的频带的权重指标，依据概率模型处理得到关联于语音的纯语音估计值；

第二判断单元4，分别连接第二处理单元5和采集单元1，用以判断纯语音估计值是否大于一预设的估计阈值；

声纹识别单元7，连接第二判断单元4，用以根据纯语音估计值获取语音流，依据预设的声纹识别模型对语音流进行声纹识别。

在本实施例中，可滤除语音中的噪音获取纯语音估计值，通过声纹识别单元7可根据大于估计阈值的纯语音估计值获取语音流，从而进行声纹识别，可提供识别声纹的准确度，能够提升背景噪声去除的效果，较好地排除语音识别过程中较大的背景噪声的干扰，提升语音识别的准确度。

本发明的较佳的实施例中，上述基于语音降噪的声纹识别的系统中，估计标识可以包括第一估计标识；或者

估计标识可以包括第一估计标识和第二估计标识。

本发明的较佳的实施例中，上述基于语音降噪的声纹识别的系统中，如图6所示，上述第一处理单元3具体包括：

提取模块31，用于依据待判断语音的频谱，提取对应于待判断语音的谐波结构；

第一处理模块32，连接提取模块31，用于对关联于谐波结构的数谱域上的监控值进行规则化处理，并依据梅尔刻度对经过规则化处理的监控值执行平滑处理；

第二处理模块33，连接第一处理模块32，用于对经过平滑处理的监控值进行进一步的规则化处理，以使监控值的均值为1；

第一生成模块34，连接第二处理模块33，用于根据监控值生成对应待判断语音的每个频带的第一估计标识。

本发明的较佳的实施例中，上述基于语音降噪的声纹识别的系统中，如图7所示，上述第二处理单元5具体包括：

第三处理模块51，用于处理得到关联于待判断语音的最小均方误差估计的后验概率；

第四处理模块52，连接第三处理模块51，用于以每个第一估计标识作为对应的待判断语音的频带的权重指标，依据概率模型对关联于待判断语音的后验概率进行加权计算，以得到纯语音估计值。

本发明的较佳的实施例中，上述基于语音降噪的声纹识别的系统中，仍然如图6所示，第一处理单元3包括：

第五处理模块35，连接第一处理单元32，用于对经过平滑处理的监控值从0到1进行相应的规则化处理；

第二生成模块36，连接第五处理模块35，用于根据监控值生成对应待判断语音的每个频带的第二估计标识。

本发明的较佳的实施例中，上述基于语音降噪的声纹识别的系统中，仍然如图5所示，还包括：

第三处理单元8，连接第二处理单元5，用于针对待判断语音的每个频带，将每个对应的第二估计标识作为权重，以在监控值与纯语音估计值之间执行线性插值并处理得到对应的输出值。

本发明的较佳的实施例中，还提供一种智能终端，其中采用上述的基于语音降噪的声纹识别的方法。

本发明的较佳的实施例中，还提供一种智能终端，其中包括上述的基于语音降噪的声纹识别的系统。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于语音降噪的声纹识别的方法，适用于智能终端，其特征在于，包括：

步骤S3，生成对应于所述待判断语音的纯语音的概率模型；

2.如权利要求1所述的基于语音降噪的声纹识别的方法，其特征在于，所述步骤S2中生成的所述估计标识包括第一估计标识；或者

3.如权利要求2所述的基于语音降噪的声纹识别的方法，其特征在于，所述步骤S2中，生成所述第一估计标识的步骤具体包括：

4.如权利要求3所述的基于语音降噪的声纹识别的方法，其特征在于，所述步骤S4中，根据所述第一估计标识处理得到所述纯语音估计值的方法具体包括：

5.如权利要求3所述的基于语音降噪的声纹识别的方法，其特征在于，所述步骤S2中，生成所述第二估计标识的步骤具体包括：

6.如权利要求5所述的基于语音降噪的声纹识别的方法，其特征在于，执行所述步骤S4之后，还根据所述第二估计标识继续执行下述步骤：

7.一种基于语音降噪的声纹识别的系统，适用于智能终端，其特征在于，包括：

采集单元，用于采集外部输入的语音；

8.如权利要求7所述的基于语音降噪的声纹识别的系统，其特征在于，所述估计标识包括第一估计标识；或者

所述估计标识包括第一估计标识和第二估计标识。

9.如权利要求8所述的基于语音降噪的声纹识别的系统，其特征在于，所述第一处理单元具体包括：

10.如权利要求9所述的基于语音降噪的声纹识别的系统，其特征在于，所述第二处理单元具体包括：

11.如权利要求9所述的基于语音降噪的声纹识别的系统，其特征在于，所述第一处理单元包括：

12.如权利要求11所述的基于语音降噪的声纹识别的系统，其特征在于，还包括：

13.一种智能终端，其特征在于，采用如权利要求1-6所述的基于语音降噪的声纹识别的方法。

14.一种智能终端，其特征在于，包括如权利要求7-12所述的基于语音降噪的声纹识别的系统。