CN105632501B

CN105632501B - 一种基于深度学习技术的自动口音分类方法及装置

Info

Publication number: CN105632501B
Application number: CN201511021329.7A
Authority: CN
Inventors: 刘文举; 陈明明; 张邯平; 高鹏; 董理科; 刘晓飞; 乔利玮; 王桐
Original assignee: Shanxi Zhenzhong Electric Power Co ltd; Institute of Automation of Chinese Academy of Science; Electric Power Research Institute of State Grid Shanxi Electric Power Co Ltd
Current assignee: Shanxi Zhenzhong Electric Power Co ltd; Institute of Automation of Chinese Academy of Science; Electric Power Research Institute of State Grid Shanxi Electric Power Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2019-09-03
Anticipated expiration: 2035-12-30
Also published as: CN105632501A

Abstract

本发明公开了一种基于深度学习技术的自动口音分类方法和装置，方法包括：对训练集中的所有带口音语音进行去除静音并提取MFCC特征；根据所提取的MFCC特征训练各种带口音语音的深层神经网络，以描述各种带口音语音的声学特性，其中所述深层神经网络指至少包含两个隐层的前向人工神经网络；计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分，将概率得分最大的口音类别标签置为该语音帧的口音类别标签；使用待识别语音中的每个语音帧的口音类别进行多数投票，得到待识别语音相对应的口音类别。本发明可以有效利用上下文信息，从而可以提供比传统浅层模型更好的分类效果。

Description

一种基于深度学习技术的自动口音分类方法及装置

技术领域

本发明涉及带口音语音去静音处理及提取特征方法、深层神经网络的建模、参数选取、训练以及推断方法，口音分类等。

背景技术

语音中的口音分为母语口音(native accent)和外语口音(foreign accent)。母语口音是指说话人使用母语发音时受其母语中方言的影响而产生的口音。外语口音是指说话人在用非母语语言发音时，受到母语发音影响而产生的口音。本发明中我们主要针对汉语中母语口音分类问题。

汉语带口音语音分类的常用方法主要有文本相关的方法和文本无关的方法两大类。

文本相关的口音分类方法是指在对口音进行建模时，使用语音对应的文本信息如音素层级(phoneme level)、词语层级(word level)的信息等，建立包含口音信息的特定音素或词语的模型。这种方法的出发点是口音信息是附着于特定的词语或者音素上的，对这些词语或者音素进行建模，可以准确地分别不同口音的语音。实验结果也表明这种建模方式可以取得很高的口音分类准确率。这类方法的问题时，建模时需要词语或者音素等的边界信息，对训练数据要求较好。

文本无关的方法在建模时假设语音对应的文本、说话人或者说话人性别信息都不存在，只使用从语音数据提取的信息。在实际中，将要被处理的语音数据往往没有与之对应的文本、说话人等信息。在这种情况下，对语音数据进行准确的口音分类，对语音处理(如语音识别、语音理解)系统的性能很重要。因此，这类方法的研究在实际应用中有重要的意义。本发明针对文本无关的口音分类方法。

文本无关的口音分类方法在建模时通常使用高斯混合模型(GMM)对口音信息进行建模。在训练高斯混合模型过程中，来自不同口音的语音训练数据被用来不同的GMM模型，因此对于N种口音就会产生N个对应的GMM模型。在测试过程中，对于输入音频，首先经过静音去除模块去掉音频里的静音帧，然后通过特征提取模块提取特征，最后将特征输入到训练得到的各个高斯混合模型中去计算每帧特征在各模型上的后验概率。在计算得到每帧特征的后验概率之后，每一帧的口音类别就是该帧最大的后验概率对应的口音类别。通过这种方式得到一条语句中的每一帧的口音类别之后，该条语句的的口音类别就由所有帧的口音类别进行多数投票决定。

训练高斯混合模型时，通常使用最大似然估计(maximmum likelihoodestimation，简称MLE)准则来估计参数。使用MLE准则训练得到不同口音的GMM模型之间的混淆区域(confusion regions)得不到很好地压制，因为MLE准则在训练过程中会以最大化不同种类的口音数据的概率为目

标。模型尽管GMM模型的区分度训练方法(discriminative training methods)如最小分类错误准则(minimum classification estimation，简称MCE)已经被用来压制混淆区域并且也增加了口音模型的区分能力，但文本无关的口音分类方法的性能还是需要进一步提高。

发明内容

为了进一步提高自动口音分类算法的性能。本发明提出了一种基于深度学习技术的自动口音分类方法。本发明提出的上述方法使用深度学习技术中的深层神经网络来对口音信息建模。在本发明中，深层神经网络是指网络结构中至少含有两个隐层的前向神经网络。对于口音分类任务，作为判别式模型的深层神经网络相比于产生式模型GMM可以对不同口音的混淆区域提供更好的区分性。除此之外，在语音识别任务中，相比于浅层模型，深层神经网络中的多个隐层可以被看成更强的特征提取器。有研究表明，上下文信息可以提高语音识别和韵律事件检测等语音处理任务的性能。因此，本发明还研究了包含长时信息的上下文特征在口音分类任务中的应用。

根据本发明一方面，提供了一种基于深度学习技术的自动口音分类方法，包括下列步骤：

步骤1：对训练集中的所有带口音语音进行去除静音并提取MFCC特征；

步骤2：根据所提取的MFCC特征训练各种带口音语音的深层神经网络，以描述各种带口音语音的声学特性，其中所述深层神经网络指至少包含两个隐层的前向人工神经网络；

步骤3：计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分，将概率得分最大的口音类别标签置为该语音帧的口音类别标签；

步骤4：使用待识别语音中的每个语音帧的口音类别进行多数投票，得到待识别语音相对应的口音类别。

根据本发明另一方面，提供了一种基于深度学习技术的自动口音分类装置，其特征在于，包括：

预处理模块，对训练集中的所有带口音语音进行去除静音并提取MFCC特征；

训练模块，根据所提取的MFCC特征训练各个带口音语音的深层神经网路，以描述各种带口音语音的声学特性，其中所述深层神经网络指至少包含两个隐层的前向人工神经网络；

分类识别模块，计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分，将概率得分最大的口音类别标签置为该语音帧的口音类别标签；

结果获取模块，使用待识别语音中的每个语音帧的口音类别进行多数投票，得到待识别语音相对应的口音类别。

本发明的有益效果：本发明针对传统的口音分类方法中使用的统计模型缺乏利用深层结构来学习更具区分性的高层特征以及上下文信息，提出了一种深度学习技术的口音分类算法，以使用深度学习技术中的深层神经网络来对口音信息进行建模，并在此基础上使用包含上下文信息的特征来进一步提高口音分类算法的性能。基于深度学习技术的口音分类新方法可以通过深层结构来学习出更具区分性的高层特征以及使用上下文特征，并且深层神经网络作为一种判别式模型对不同口音具有更好的分类性能，从而使得提出的新方法具有更好的口音分类效果。

附图说明

本发明进一步的特色和优点将参考说明性的附图在下面描述。

图1是本发明中基于深度学习技术的自动分类算法的流程图；

图2是本发明中对带口音语音进行去除静音并提取特征过程的示意图；

图3是本发明中训练表示各口音语音的深层神经网络的流程图；

图4是本发明中表示计算各语音帧在深层神经网络上的各口音分类的概率得分的流程图；

图5是本发明中表示使用每句带口音语音中的每帧语音的口音类别进行多数投票，得到每句语音相对应的口音类别的流程图；

图6是本发明中表示使用当前帧的前后帧特征对应的上下文信息的流程图。

具体实施方式

应当理解，不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例；被描述的说明性实施例仅仅是例证本发明的各个步骤，其范围由附加的权利要求来定义。

本发明通过建立基于深度学习技术的自动口音分类算法，取代传统方法中使用的浅层模型，通过深度学习技术中的深层神经网络本身具有的更强的区分性以及其深层结构学习出更具鲁棒性的高层特征，从而提高了自动口音分类算法的性能。更近一步的是，使用深度学习技术可以更加有效地利用包含语音上下文信息的特征，从而进一步提高了自动口音分类算法的分类效果。

如图1所示，本发明提出了一种基于深度学习技术的自动口音分类方法。该方法的具体步骤如下：

步骤1：对训练集中每句带口音语音进行去除静音并提取梅尔倒谱系数特征；

步骤2：训练各种带口音语音的深层神经网络，用于描述各种带口音语音的声学特性，这里深层神经网络是指至少包含两个隐层的前向人工神经网络；

步骤4：使用每句待识别带口音语音中的每帧语音的口音类别进行多数投票，得到每句语音相对应的口音类别；

步骤5：使用当前帧语音的前后帧语音特征对应的上下文信息进一步提高口音分类算法的性能。

其中，所述对带口音语音语句去除静音并提取特征，如图2所示，主要包括以下两个步骤：

第一，首先对每句带口音语句中的语音进行加窗分帧操作，得到多个语音帧，每个语音帧窗长为25ms，帧移为10ms。之后计算每个语音帧的短时能量值，设定一个短时能量阈值来去除静音帧，当语音帧的短时能量值小于该阈值则为静音帧需要去除，反之当大于等于时则为语音帧需要保留；

第二，对于经过筛选得到的语音帧，提取梅尔倒谱系数(Mel-Frequency CepstrumCoefficients，简称MFCC)，每帧MFCC特征包含39维特征。提取完训练集上的语音语句的MFCC特征后，对所有训练集上的MFCC特征做零均值归一化操作。

步骤2中所述训练各口音语音的深层神经网络，用于描述各种带口音语音的声学特性，其包括训练一个基于深度学习技术中的深层神经网络的自动口音分类模型，以对各带口音语音的声学特性进行建模。训练步骤包括：

第一，汇集所有训练集中的所有种类的带口音语音的特征数据，使用随机梯度下降(Stochastic Gradient Descent，简称SGD)训练得到一个深层神经网络(Deep NeuralNetwork，简称DNN)。

第二，根据上一步骤中使用的训练数据和训练方法训练不同网络结构和使用不同隐层激活函数的不同深层神经网络，以便取得最优的口音分类口音分类性能。在识别过程中，可以根据这些不同深层神经网络在测试集数据上的性能来选择得到最好性能的深层神经网络进行识别。即利用训练集训练具有不同激活函数和不同网络结构的多个深层神经网络，之后利用所述多个深层神经网络对测试集中的所有带口音语音进行口音识别，将识别结果与所述测试集中的所有带口音语音的真实口音类别进行比较，分别计算所述多个深层神经网络的总体帧分类正确率和整句分类正确率，选择正确率最高的深层神经网络作为最终的口音分类模型，对所述待识别语音进行识别。

如图3所示，训练所述深层神经网络具体包括如下步骤：

选定深层神经网络的结构以及各层使用的激活函数；

使用Glorot-Bengio方法初始化深层神经网络中的参数；

使用各帧语音特征和随机梯度下降算法来训练深层神经网络中的参数；

判断训练得到的深层神经网络中的参数是否已经收敛，未收敛则转上一步骤继续训练，否则结束训练，得到口音分类模型。

步骤3中所述计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分，将概率得分最大的口音类别标签置为该语音帧的口音类别标签，如图4所示，训练步骤包括：

第一，将待识别语音中的语句进行与训练集中数据相同的加窗分帧处理，之后进行同样的去静音及提取MFCC特征操作，最后再对待识别语音中每句的MFCC特征进行零均值归一化时，使用的均值是从整个训练集上得到的均值。

第二，将待识别语音经过上一步骤处理得到的语音帧特征输入到已经训练好的表征口音信息的深层神经网络模型中，计算该语音帧对应于各口音类别的概率得分。选择概率得分最大的口音类别作为该语音帧的口音类别。

所述使用每句带口音语音中的每帧语音的口音类别进行多数投票，得到每句语音相对应的口音类别，如图5所示，包括：

经过以上几个步骤得到待识别语音中每帧语音对应的口音类别信息之后，由于口音分类任务中通常以句准确率作为衡量口音分类算法性能的标准，因此需要取得每句的口音类别。对于每句的口音类别，通常由该语句中所有语音帧进行多数投票决定，所谓多数投票是指统计该句语音帧中各口音类别包含的语音帧的帧数，然后将包含帧数最多的口音类别设置为该句的口音类别。

所述使用当前帧的前后帧特征对应的上下文信息进一步提高口音分类算法的性能。包括：

使用当前语音帧的前后帧特征来表示上下文信息，来提高口音分类算法的性能。口音信息蕴含于语音的一个较长的时间段中，将连续多帧的语音特征作为深层神经网络的输入，可以提高基于深度学习技术的口音分类算法的性能。

如图6所示，利用连续多帧的语音特征提高基于深度学习技术的口音分类算法的性能具体包括：

将每帧语音的特征与其前后n帧连续语音帧的特征拼接在一起，作为输入特征输入到已训练好的深度神经网络口音分类模型中，该模型同样适用前后语音帧的特征训练得到的；

比较该帧在各不同口音类别上的概率得分的大小，将概率得分最大的口音类别设置为该帧的口音类别；

统计该句中各口音类别包含的语音帧的帧数；

将帧数最多的口音类别设置为改语句的口音类别。

根据本说明书，本发明进一步地修改和变化对于所述领域的技术人员是显而易见的。因此，本说明将被视为说明性的并且其目的是向所属领域技术人员讲授用于执行本发明的一般方法。应当理解，本说明书示出和描述的本发明的形式就被看作是当前的优选实施例。

Claims

1.一种基于深度学习技术的自动口音分类方法，其特征在于，包括下列步骤：

步骤4：使用待识别语音中的每个语音帧的口音类别进行多数投票，得到待识别语音相对应的口音类别；

其中，在训练深层神经网络时，将带口音语音中前后连续多帧对应的MFCC特征作为输入进行训练；

利用训练好的深层神经网络对待识别语音进行识别时，将待识别语音中前后连续多帧对应的MFCC特征作为所述深层神经网络的输入进行识别。

2.如权利要求1所述的方法，其特征在于，步骤1中所述对带口音语音去除静音并提取MFCC特征，包括以下两个步骤：

第一，首先对每个带口音语语音进行加窗分帧操作，得到每个带口音语音所包括的所有语音帧，之后计算每个语音帧的短时能量值，根据所述短时能量值去除静音帧；

第二，对于去除了静音帧后的每个语音帧，提取梅尔倒谱系数，提取完训练集上的所有带口音语音的MFCC特征后，对所有MFCC特征做零均值归一化操作。

3.如权利要求1所述的方法，其特征在于，所述步骤2具体包括：

汇集训练集中的所有带口音语音，使用随机梯度下降训练得到多个深层神经网络；所述多个深层神经网络为不同网络结构和使用不同隐层激活函数的深层神经网络。

4.如权利要求1所述的方法，其特征在于，步骤3包括以下步骤：

第一，将待识别语音进行加窗分帧操作，得到待识别语音所包括的所有语音帧，之后计算每个语音帧的短时能量值，根据所述短时能量值去除静音帧；对于去除了静音帧后的每个语音帧提取MFCC特征，并对所提取的所有MFCC特征进行零均值归一化，进行零均值归一化所使用的均值是从所述训练集上得到的均值；

第二，根据所提取的MFCC特征和所述深层神经网络模型，计算待识别语音中各语音帧对应于各口音类别的概率得分，选择概率得分最大的口音类别作为该语音帧的口音类别。

5.如权利要求1所述的方法，其特征在于，步骤4中所述多数投票是指统计各口音类别对应的语音帧的帧数，然后将包含帧数最多的口音类别设置为待识别语音的口音类别。

6.如权利要求3所述的方法，其特征在于，步骤3中利用训练集训练具有不同激活函数和不同网络结构的多个深层神经网络，之后利用所述多个深层神经网络对测试集中的所有带口音语音进行口音识别，将识别结果与所述测试集中的所有带口音语音的真实口音类别进行比较，分别计算所述多个深层神经网络的总体帧分类正确率和整句分类正确率，选择正确率最高的深层神经网络作为最终的口音分类模型，对所述待识别语音进行识别。

7.一种基于深度学习技术的自动口音分类装置，其特征在于，包括：

训练模块，根据所提取的MFCC特征训练各个带口音语音的深层神经网络，以描述各种带口音语音的声学特性，其中所述深层神经网络指至少包含两个隐层的前向人工神经网络，其中，在训练所述深层神经网络时，将带口音语音中前后连续多帧对应的MFCC特征作为输入进行训练；

分类识别模块，计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分，将概率得分最大的口音类别标签置为该语音帧的口音类别标签，其中，所述分类识别模块将待识别语音中前后连续多帧对应的MFCC特征作为所述深层神经网络的输入进行识别；

8.如权利要求7所述的装置，其特征在于，所述训练模块实现如下功能：

9.如权利要求7所述的装置，其特征在于，所述分类识别模块实现如下功能：

将待识别语音进行加窗分帧操作，得到待识别语音所包括的所有语音帧，之后计算每个语音帧的短时能量值，根据所述短时能量值去除静音帧；对于去除了静音帧后的每个语音帧提取MFCC特征，并对所提取的所有MFCC特征进行零均值归一化，进行零均值归一化所使用的均值是从所述训练集上得到的均值；

根据所提取的MFCC特征和所述深层神经网络模型，计算待识别语音中各语音帧对应于各口音类别的概率得分，选择概率得分最大的口音类别作为该语音帧的口音类别。

10.如权利要求8所述的装置，其中，所述分类识别模块利用训练集训练具有不同激活函数和不同网络结构的多个深层神经网络，之后利用所述多个深层神经网络对测试集中的所有带口音语音进行口音识别，将识别结果与所述测试集中的所有带口音语音的真实口音类别进行比较，分别计算所述多个深层神经网络的总体帧分类正确率和整句分类正确率，选择正确率最高的深层神经网络作为最终的口音分类模型，对所述待识别语音进行识别。