CN108461085A

CN108461085A - 一种短时语音条件下的说话人识别方法

Info

Publication number: CN108461085A
Application number: CN201810207343.3A
Authority: CN
Inventors: 李燕萍; 刘俊坤; 凌云志
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-08-28

Abstract

本发明公开了一种短时语音条件下的说话人识别方法，包括以下步骤：（1）：对不同说话人的短时语音进行预处理，提取语音特征向量并相应说话人标记；（2）：用语音特征数据对深度置信网络进行有监督的训练，构建深度置信网络模型；（3）：将深度置信网络模型中瓶颈层之后的网络结构去除，形成瓶颈输出网络模型；（4）：将不同说话人的语音特征向量依次经过瓶颈输出网络模型，提取得到相应的瓶颈特征，然后将瓶颈特征作为矢量量化训练输入，构建矢量量化模型；（5）：将待识别短时语音的语音特征向量经过瓶颈输出网络模型，提取相应瓶颈特征，再将得到的待识别短时语音的瓶颈特征输入矢量量化模型进行识别。本发明具有系统识别率高的优点。

Description

一种短时语音条件下的说话人识别方法

技术领域

本发明涉及信号处理、机器学习和模式识别技术领域，尤其涉及一种短时语音条件下的说话人识别方法。

背景技术

说话人识别又称声纹识别，是一种通过对说话人的语音进行处理和分析，自动鉴别说话人身份的技术。说话人识别是根据语音波形中反映说话人生理和行为个性特征的语音参数来区分说话人的身份。说话人识别技术与其他生物识别技术相比，具有采集设备简单、认证方式友好、易于扩展等优势，在军事安全系统、银行证券系统以及司法鉴定系统等各个领域有广泛的应用。对说话人识别系统实进行研究时，通常进行模型充分训练，采用足够的语料进行测试，但是系统在实际应用时，采集的说话人语音往往都是有限时长，严重影响系统识别率，所以在短时语音条件下更好地发挥系统性能，具有非常重要意义。

目前短时语音条件下说话人识别方法研究的比较少，主要有基于矢量量化的说话人识别方法(简称VQ)以及基于高斯混合模型的说话人识别方法(简称GMM)等识别方法，上述说话人识别方法在短时语音条件下均存在以下缺陷：(1)直接采用说话人语音MFCC特征进行模型训练，MFCC特征参数包含了语音中大量信息，包括语义信息和说话人个性特征信息，当说话人语音时长有限时，加上说话人情绪状态和周围环境的影响，使得识别模型很难对特征进行正确的说话人识别；(2)当说话人数量较多或者说话人语音时长较短时，系统识别率低。

发明内容

本发明的目的在于提供一种在短时语音条件下系统识别率高的的说话人识别方法。

为实现上述目的，本发明采用了如下技术方案：所述的一种短时语音条件下的说话人识别方法，包括以下步骤：

步骤(1)：采集不同说话人的短时语音，并对所采集的不同说话人的短时语音进行预处理，提取不同说话人的语音特征向量，并对所提取的语音特征向量进行相应说话人标记；

步骤(2)：用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练，构建深度置信网络模型；

步骤(3)：将步骤(2)中构建完成的深度置信网络模型中瓶颈层之后的网络结构去除，形成瓶颈输出网络模型；

步骤(4)：将步骤(1)中提取的不同说话人的语音特征向量依次经过步骤(3)中构建完成的瓶颈输出网络模型，提取得到相应的瓶颈特征，然后将提取到的瓶颈特征作为矢量量化输入数据进行矢量量化训练，构建矢量量化模型；

步骤(5)：先将待识别短时语音的语音特征向量经过步骤(3)中构建的瓶颈输出网络模型，提取得到待识别短时语音的瓶颈特征，然后再将提取得到的待识别短时语音的瓶颈特征输入步骤(4)中构建的矢量量化模型进行识别。

进一步地，前述的一种短时语音条件下的说话人识别方法，其中：步骤(1)中采集说话人语音时长为不超过10s的短时语音。

进一步地，前述的一种短时语音条件下的说话人识别方法，其中：步骤(1)中对短时语音的预处理包括：预加重、分帧加窗以及端点检测。

进一步地，前述的一种短时语音条件下的说话人识别方法，其中：步骤(1)中提取说话人语音特征向量的具体方法为：提取说话人语音40维MFCC参数，除去代表直流分量的第一维数据，然后进行5帧拼接成一超帧，形成195维的语音特征向量。

进一步地，前述的一种短时语音条件下的说话人识别方法，其中：在步骤(2)中用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练后，再经网络逐层迭代预训练，接着再用微调的算法构建深度置信网络模型。

通过上述技术方案的实施，本发明的有益效果是：(1)提取说话人语音的40维MFCC参数，除去代表直流分量的第一维数据，然后连续5帧拼接成一超帧，构成一个5*(40-1)＝195维的向量，更好地表征语音数据中时序特征，提高系统识别率；(2)采用深度置信网络对说话人短时语音数据进行训练，克服了传统神经网络无法求出最优解等缺点，提高系统识别率；(3)利用深度置信网络对说话人短时语音数据进行特征挖掘，可以更好的捕获到语音潜在说话人个性特征，改善系统性能；(4)采用自动编码深度置信网络提取瓶颈特征，得到更具表征性的说话人信息特征，提高了系统的识别率；(5)采用矢量量化模型进行识别，确保系统识别率。

附图说明

图1是本发明所述的一种短时语音条件下的说话人识别方法的流程示意图。。

图2是本发明中深度置信网络模型的结构示意图。

图3是本发明中瓶颈输出网络模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对发明作进一步说明。

如图1所示，所述的一种短时语音条件下的说话人识别方法(简称BF-VQ)，包括以下步骤：

步骤(1)：采集不同说话人的短时语音，并对所采集的不同说话人的短时语音进行预加重、分帧加窗以及端点检测等预处理，提取不同说话人的语音特征向量，并对所提取的语音特征向量进行相应说话人标记；其中提取说话人语音特征向量的具体方法为：提取说话人语音40维MFCC参数，除去代表直流分量的第一维数据，然后进行5帧拼接成一超帧，形成195维的语音特征向量；

本实施例采用TIMIT语音库进行实验，TIMIT是一个全英文语音数据库，由麻省理工MIT、斯坦福研究院SRI和德州仪器TI合作设计；该数据库每位说话人录制10句话，平均每句话时长3s，声音采集频率是16000Hz，采样位数为16位；本实施例选取100名说话人，其中男57名，女43名，选取每位说话人6s时长语音作为训练数据，另外选取3s-15s时长语音用作识别，将说话人短时语音经过预处理后提取40维的MFCC参数，除去代表直流分量的第一维数据，然后连续5帧拼接成一超帧，构成5*(40-1)＝195维的超帧，并对每个超帧进行话者标记；

步骤(2)：用步骤(1)中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练后，再经网络逐层迭代预训练，接着再用微调的算法构建深度置信网络模型，深度置信网络模型图参见图2；

本实施例设置由5层受限玻尔兹曼机(RBM)堆叠构成深度置信网络；典型的RBM是由可见层和隐含层构成二部图模型，可见层或隐含层层内没有连接，只有可见层和隐含层节点间存在连接；RBM是一个能量模型，其能量函数表示为：

其中v_i和h_j表示可见层第i个节点状态和隐含层第j个节点状态，W_ij是第i个可见层节点和第j个隐含层节点连接权重，a_i和b_j分别是可见层节点和隐含层节点的偏置。可见层v和隐含层h的联合概率分布为：

其中：Z为分配函数，或称归一化常量，可以通过所有可见层单元和隐含层单元分配能量计算得到，表示如下：

由于RBM在训练时，同一层中条件独立性，条件概率分布如下：

p(h_j＝0|v)＝1-p(h_j＝1|v)

p(v_i＝0|h)＝1-p(v_i＝1|h)

其中函数f为sigmoid函数，为f(x)＝1/(1+e^-x)。可以得到RBM的更新公式：

其中ε为学习率，设置大小为0.0002，<>_data是数据的期望，<>_model是模型的期望，模型期望计算比较复杂，它需要随机初始化可见层状态然后经过长时间采样，本实施例采用对比散度算法；

在本实施例中，多层RBM堆叠，依次将RBM隐含层单元的输出数据做为更高层RBM输入层数据，通过学习下一个RBM对上一个RBM隐藏单元的显著依赖关系进行建模则构成深度置信网络，本实施例中深度置信网络模型的瓶颈层设置在第四层隐含层，该层节点数为195，其他层节点数为1024；

步骤(3)：将步骤(2)中构建完成的深度置信网络模型中瓶颈层之后的网络结构去除，形成瓶颈输出网络模型，瓶颈输出网络模型参见图3；

步骤(4)：将步骤(1)中提取的不同说话人的语音特征向量依次经过步骤(3)中构建完成的瓶颈输出网络模型，提取得到相应的瓶颈特征，然后将提取到的瓶颈特征作为矢量量化输入数据进行矢量量化训练，其中矢量量化码长设置为32，码本设计采用LBG算法，构建矢量量化模型；

下表为在短时语音条件下，本发明所述的BF-VQ与背景技术中所述的VQ及GMM两种识别方法的系统识别率对比结果：

短时语音条件下识别结果

	3s	6s	9s	12s	15s
						BF-VQ	83％	91％	94％	94％	96％
VQ	72％	88％	91％	91％	93％
						GMM	77％	84％	89％	88％	90％

从上表可以看出，当说话人语音时长较短时，本发明所采用的说话人识别方法的系统识别率比其它两种说话人识别方法的系统识别率高。

Claims

1.一种短时语音条件下的说话人识别方法，其特征在于：包括以下步骤：

步骤（1）：采集不同说话人的短时语音，并对所采集的不同说话人的短时语音进行预处理，提取不同说话人的语音特征向量，并对所提取的语音特征向量进行相应说话人标记；

步骤（2）：用步骤（1）中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练，构建深度置信网络模型；

步骤（3）：将步骤（2）中构建完成的深度置信网络模型中瓶颈层之后的网络结构去除，形成瓶颈输出网络模型；

步骤（4）：将步骤（1）中提取的不同说话人的语音特征向量依次经过步骤(3)中构建完成的瓶颈输出网络模型，提取得到相应的瓶颈特征，然后将提取到的瓶颈特征作为矢量量化输入数据进行矢量量化训练，构建矢量量化模型；

步骤（5）：先将待识别短时语音的语音特征向量经过步骤（3）中构建的瓶颈输出网络模型，提取得到待识别短时语音的瓶颈特征，然后再将提取得到的待识别短时语音的瓶颈特征输入步骤（4）中构建的矢量量化模型进行识别。

2.根据权利要求1所述的一种短时语音条件下的说话人识别方法，其特征在于：步骤（1）中采集说话人语音时长为不超过10s的短时语音。

3.根据权利要求1或2所述的一种短时语音条件下的说话人识别方法，其特征在于：步骤（1）中对短时语音的预处理包括：预加重、分帧加窗以及端点检测。

4.根据权利要求1或2所述的一种短时语音条件下的说话人识别方法，其特征在于：步骤（1）中提取说话人语音特征向量的具体方法为：提取说话人语音40维MFCC参数，除去代表直流分量的第一维数据，然后进行5帧拼接成一超帧，形成195维的语音特征向量。

5.根据权利要求1所述的一种短时语音条件下的说话人识别方法，其特征在于：在步骤（2）中用步骤（1）中得到的所有说话人的语音特征数据对深度置信网络进行有监督的训练后，再经网络逐层迭代预训练，接着再用微调的算法构建深度置信网络模型。