CN104732978A

CN104732978A - 基于联合深度学习的文本相关的说话人识别方法

Info

Publication number: CN104732978A
Application number: CN201510107647.9A
Authority: CN
Inventors: 陈楠昕; 葛凌廷; 顾昊; 常烜恺; 钱彦旻; 俞凯
Original assignee: Shanghai Jiaotong University; Suzhou Speech Information Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2015-06-24
Anticipated expiration: 2035-03-12
Also published as: CN104732978B

Abstract

一种智能语音领域的基于联合深度学习的文本相关的说话人识别方法，首先从待检测音频中提出得到FBANK系数，经帧扩展后输入神经网络进行计算，得到待测音频的j‐vector；再训练LDA模型并得到预测阈值，最后将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型，并得到预测结果。本发明能够极大地提高文本相关的说话人识别的精确度。

Description

基于联合深度学习的文本相关的说话人识别方法

技术领域

本发明涉及的是一种智能语音领域的技术，具体是一种基于联合深度学习的文本相关的说话人识别方法。

背景技术

说话人识别，是指在给定声音信息时，接受或拒绝某个说话人的身份认证。说话人识别技术目前已在诸多领域得到了广泛的应用，例如：身份验证、互联网安全、人机交互、银行证券系统、军事刑侦等。说话人识别技术分为文本相关的说话人识别和文本无关的说话人识别。前者要求训练模型的语料与测试语料一致，后者则无此要求。文本相关的说话人识别主要分为特征提取、模型训练和分类识别三大模块。研究表明，传统的文本相关的说话人识别的主要问题存在于说话人的特征提取上，现有的特征提取方法在说话人个性特征的表现力上以及鲁棒性方面有着诸多不足。

近年来现有的技术中，说话人识别在特征提取部分经常采用的特征参数主要有线性预测系数、梅尔倒谱系数和基音及共振峰系数，这些特征提取的方法在表征说话人个性的特征方面尚有不足，从而影响识别精度。此外，这些方法都利用了语音信号的短时平稳性，丢失了语音信号的动态特征，鲁棒性较差，识别效果不理想。

在识别模型部分，主流的方法主要为高斯混合模型‐通用背景模型(GMM‐UBM)和隐马尔可夫模型(HMM)。这两种方法适合处理连续信号，受极大似然准则的限制，在区分类别上能力较弱，其处理结果只能反映同类样本的相似性，却不能较好地区分不同类样本之间的区别，因此，其识别效果较差。

经过对现有技术的检索发现，中国专利文献号CN103700370A公开(公告)日2014.04.02，公开了一种广播电视语音识别方法及系统，包括：根据广播电视数据提取出音频数据；对音频数据进行预处理，得到特征文本数据；将特征文本数据发送给云服务器进行识别处理，得到男女声识别、说话人识别以及语音识别结果；对数据预处理、男女声识别、说话人识别以及语音识别结果进行融合以及结构化文本标识，生成结构化的语音识别结果。该方法对现有语音识别方法进行改进，融合各种广播电视数据预处理技术以及广播电视语音识别方法，对语音数据针对广播电视行业的数据处理要求进行识别处理，对各识别结果进行融合并生成结构化的语音识别结果，能够为后续广播电视节目的其他业务的智能化处理提供基础数据，且处理速度加快并提高准确度。但该技术为文本不相关，在同等条件下与文本相关说话人识别技术的识别准确率有较大差距；并且该技术针对广播电视行业的数据进行了适应性训练，在广播电视的语言环境中较有优势，但不适应其他情况，如签到系统等。

中国专利文献号CN103971690A公开(公告)日2014.08.06，公开了一种声纹识别方法和装置。方法包括：基于无标注语音数据建立深层神经网络初级模型，并且基于有标注语音数据对该深层神经网络初级模型进行训练，以获取深层神经网络二级模型；利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识；接收测试语音数据，基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征，并且基于该测试语音高层声纹特征确定说话人标识。通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息，可以有效抵御噪声干扰。但该技术在训练神经网络时需要在初级模型的基础上使用有标定的语音数据以获取深层网络二级模型，这个过程耗费时间和计算资源较多；并且该技术只考虑了语音信号的声音特性，而没有考虑文本特性。

发明内容

本发明针对现有传统的说话人识别的方法具有特征提取不能准确表征说话人的个性特征以及丢失语音信号的动态特征、鲁棒性较差等局限性以及识别效果不佳的缺点，提出一种基于联合深度学习的文本相关的说话人识别方法，在特征提取阶段，利用联合深度学习提取j‐vector(joint vector，联合特征向量)，且在识别验证阶段采用线性差分分析作为分类器。本发明能够极大地提高文本相关的说话人识别的精确度。

本发明是通过以下技术方案实现的：

本发明包括以下步骤：

步骤1)从待检测音频中提出得到FBANK(对数谱特征)系数，具体为：

1.1建立一系列带通滤波器，优选采用三角窗滤波器；

1.2将频域上的声音信号输入这些滤波器，每一个带通滤波器输出一位FBank系数，它等于此带通滤波器内的信号之和；

1.3计算后得到Mel域上的FBank系数。

步骤2)建立神经网络；

所述的神经网络具有4个隐层，每层1024个结点。

所述的神经网络优选采用具有多个隐层且每层多个结点的深度神经网络，该深度神经网络中的Background和development集的数据被用来训练特征提取神经网络。在这个深度神经网络的训练中，194个类被使用了(bkg和dev共194个说话人)。

对比度散度算法(Contrastive Divergence)用于受限波尔兹曼机(RBM)的训练得到网络参数初始值，基于SGD(随机梯度下降算法)的后向传播算法用于深度神经网络的参数调整。

所述的后向传播算法的后向传播过程中，学习率由模拟退火和尽早停止策略确定。

所述的深度神经网络的损失函数是交叉熵，且有一个系数为10^‐62的欧氏距离(L2‐norm)权重衰减项，因此在训练深度神经网络时将文本信息和说话人同时考虑在内，直接将说话人和文本信息的损失函数相加得到新的损失函数。由于梯度的线性特性，每项系数的梯度可以被独立地计算，然后每个非输出层的系数可以被新的损失函数(两个损失函数的和)的梯度所更新，即将文本信息的交叉熵和说话人信息的交叉熵线性相加。当两个网络的性能不能被提升时，学习率就开始下降。

步骤3)对步骤1得到的FBANK系数进行帧扩展后输入步骤2中建立的神经网络进行计算，得到待测音频的j‐vector，具体为：

3.1将输入的语音信号数字化，并分离为说话人特征和文本特征两部分；

3.2将说话人特征和文本特征分别输入神经网络，并计算在输出层得到输出；

3.3将输出层的说话人特征和文本特征线性叠加，得到待测音频的j‐vector。

所述的帧扩展是指：扩展至39维的FBank系数。

步骤4)训练LDA(线性差分分析)模型并得到预测阈值，具体为：

4.1将LDA模型的训练样本采用步骤1～3方式处理，得到Background和development集中数据的j‐vector后，分别对其进行归一化处理，作为训练集；

4.2通过训练集对LDA模型的训练标定，得到预测阈值。

所述的LDA模型为：每个类密度可以由多维高斯分布建模：其中：∑k和μ_k分别是第k个类的协方差、均值矩阵，该LDA模型假定：Σ_k＝Σ,且后验概率由贝叶斯公式给出：其中：π_k是第k个类的先验概率。

所述的预测阈值是指：经训练后，使得在该预测阈值下，错误地识别出冒认者比率等于错误地未识别出冒认者比率，即LDA模型错误地将同一说话人的注册音频和测试音频认为不是同一说话人的比率等于LDA错误地将不同说话人的注册音频和测试音频认为是同一说话人的比率。

步骤5)将待测试的说话人的注册音频的j‐vector和待测试的说话人的测试音频的j‐vector归一化后输入带有预测阈值的LDA模型，并得到预测结果。

本发明涉及一种实现上述方法的系统，包括：对数谱特征提取模块、深度神经网络模块、以及特征空间分裂模块，其中：对数谱特征提取模块与深度神经网络模块相连并传输对数谱特征信息，深度神经网络模块与特征空间分裂模块相连并传输语音高层声纹特征信息。

技术效果

与现有技术相比，本发明中提出的利用联合深度学习提取的j‐vector特征向量能够更准确地表征说话人的个性特征；而在分类识别部分将初级模型与训练模型分开，在初级模型的基础上使用lda模型计算注册数据与测试数据的矢量距离，加速了计算的同时缩小同类之间的差异，扩大不同类之间的差距，识别效果好，鲁棒性强；此外，本发明所使用的深度特征(即步骤3中深度神经网络输出的特征)，将说话人特征和文本信息特征纳入统一的特征向量中，精度较现有的方法有了很大的提升。

附图说明

图1为本发明j‐vector提取示意图。

图2为本发明流程示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本实施例在深度神经网络的训练时，同时将文本信息和说话人考虑在内，为了实现的简单，直接将说话人和文本信息的损失函数相加得到新的损失函数。由于梯度的线性特性，每项系数的梯度可以被独立地计算，然后每个非输出层的系数可以被新的损失函数(两个损失函数的和)的梯度所更新。当两个网络的性能不能被提升时，学习率就开始下降。

本实施例的联合学习避免了任何一项任务的过拟合，并且使网络变得更有效。一旦网络训练(开发阶段)完成，的网络的最后一层上可以提取出j‐vector特征，如图1所示。这种特征可以用于各种注册和评估模型。

分别选取了余弦距离、线性差分分析(LDA)、概率线性差分分析(PLDA)，经过测试，线性差分模型在本实施例的j‐vector上得到了更好的性能。

所述的LDA模型是指：每个类密度可以由多维高斯分布建模：其中：∑k和μ_k分别是第k个类的协方差、均值矩阵，该LDA模型假定：Σ_k＝Σ,且后验概率由贝叶斯公式给出：其中：π_k是第k个类的先验概率。

当使用本实施例的同时考虑文本信息和说话人信息的j‐vector作为LDA的输入特征时，LDA的每个类也应该同时包含了文本信息和说话人信息。

在实验中，采用I2R发布的RSR2015数据集进行了测试，并与其它方法进行了对比，结果如表1所示。可以看到，本实施例所提出的j‐vector的方法，不论使用哪一种分类器，其结果(相等错误率EER)均是最低，而采用LDA分类器则可以大幅提高识别精度。

表1

为了进一步说明j‐vector和LDA分类器的组合的准确性，又测试了一部分冒认者不在注册数据中的情况：表2中分别是1/5和1/3的冒认测试者不在测试数据中出现过。从图中可以发现，使用j‐vector和LDA进行组合确实可以极大地提高识别的准确性。

表2

综上所述，本实施例与现有技术相比，其主要技术效果包括：1)识别精度较现有的方法大幅提高；2)提取的特征能够更准确地表征说话人的个性特征；3)联合学习避免了任何一项任务的过拟合；4)联合学习使神经网络变得更加有效；5)在不同信道和环境下鲁棒性更强。

Claims

1.一种基于联合深度学习的文本相关的说话人识别方法，其特征在于，包括以下步骤：

步骤1)从待检测音频中提出得到FBANK系数；

步骤2)建立神经网络；

步骤3)对步骤1得到的FBANK系数进行帧扩展后输入步骤2中建立的神经网络进行计算，得到待测音频的j‐vector；

步骤4)训练LDA模型并得到预测阈值；

2.根据权利要求1所述的方法，其特征是，所述的步骤1具体包括：

1.1)建立一系列带通滤波器；

1.2)将频域上的声音信号输入上述滤波器，每一个带通滤波器输出一位FBank系数；

1.3)计算后得到Mel域上的FBank系数。

3.根据权利要求2所述的方法，其特征是，带通滤波器具有31帧窗且每边15帧。

4.根据权利要求1所述的方法，其特征是，所述的神经网络具有4个隐层，每层1024个结点。

5.根据权利要求1所述的方法，其特征是，所述的步骤3具体包括：

3.1)将输入的语音信号数字化，并分离为说话人特征和文本特征两部分；

3.2)将说话人特征和文本特征分别输入神经网络，并计算在输出层得到输出；

3.3)将输出层的说话人特征和文本特征线性叠加，得到待测音频的j‐vector。

6.根据权利要求1所述的方法，其特征是，所述的帧扩展是指：扩展至39维的FBank系数。

7.根据权利要求1所述的方法，其特征是，所述的步骤4具体包括：

4.1)将LDA模型的训练样本采用步骤1～3方式处理，得到Background和development集中数据的j‐vector后，分别对其进行归一化处理，作为训练集；

4.2)通过训练集对LDA模型的训练标定，得到预测阈值。

8.根据权利要求1所述的方法，其特征是，所述的LDA模型为：每个类密度可以由多维高斯分布建模：其中：∑k和μ_k分别是第k个类的协方差、均值矩阵，该LDA模型假定：且后验概率由贝叶斯公式给出：Pr(G＝k|X＝x)＝其中：π_k是第k个类的先验概率。

9.根据权利要求1所述的方法，其特征是，所述的预测阈值是指：经训练后，使得在该预测阈值下，错误地识别出冒认者比率等于错误地未识别出冒认者比率，即LDA模型错误地将同一说话人的注册音频和测试音频认为不是同一说话人的比率等于LDA错误地将不同说话人的注册音频和测试音频认为是同一说话人的比率。

10.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：对数谱特征提取模块、深度神经网络模块、以及特征空间分裂模块，其中：对数谱特征提取模块与深度神经网络模块相连并传输对数谱特征信息，深度神经网络模块与特征空间分裂模块相连并传输语音高层声纹特征信息。