CN108492821A

CN108492821A - 一种减弱语音识别中说话人影响的方法

Info

Publication number: CN108492821A
Application number: CN201810257420.6A
Authority: CN
Inventors: 涂志强; 梁亚玲; 杜明辉
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-09-04
Anticipated expiration: 2038-03-27
Also published as: CN108492821B

Abstract

本发明公开了一种减弱语音识别中说话人影响的方法，具体步骤为：(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分；(2)对数据进行基本声学特征提取；(3)对步骤(2)所得的最终特征进行基准语音识别系统训练；(4)对步骤(2)得到的最终特征进行说话人扰动信息提取器的训练；(5)进行带说话人扰动信息提取器的语音识别系统的训练；(6)获取实验结果。本发明无需收集用户样本就能提升基准系统的识别性能，而且本发明对任一用户都能保持一致的识别性能提升。

Description

一种减弱语音识别中说话人影响的方法

技术领域

本发明涉及语音识别领域，尤其涉及一种减弱语言识别中说话人影响的方法。

背景技术

语音信号是一种复杂的信号，即使同一个人重复说同样一句话，表现出来的声学特性也会有所差异；而不同说话人说同一句话，表现出来的声学特性的差异往往会更大；而这往往会降低语音识别系统的性能，而且，当用户的语音样本未出现在语音识别系统的训练集中时，识别性能往往会进一步降低；所以，在语音识别任务中，SI(说话人无关)系统的识别性能往往不如SD(说话人相关)系统的识别性能；而要建一个真正意义上的SD系统，则需要特定说话人的大量语音样本，这往往是不现实的；因此，减弱说话人的影响是提升语音识别系统性能的有效手段。

目前，主流的方法是先建一个SI系统，在收集用户的一些语音样本后，使用SA(说话人自适应)技术来调整SI系统的参数，以适应该用户，提升系统对该用户的识别性能；其中，SA技术主要包括MLLR(Maximum Likelihood Linear Regression)和EIGENVOICES技术。但是，该方法存在着两大局限：1、需要先收集用户的一些语音样本，而这会降低用户体验；2、在现实生活中，往往很难保证系统的使用者只有一个人；当使用SA技术对用户A进行适应后，系统对用户B的识别性能往往会下降；若对每个用户都采用SA技术进行适应，则会有多套系统参数，一方面将增加系统存储，另一方面，还需要搭建一个说话人识别系统来判断当前使用者是哪个用户，以选择相应的系统参数，这会使整个系统变得很复杂，而且说话人识别系统也不能做到100％的识别准确率。

发明内容

本发明的目的在于提供一种减弱语音识别中说话人影响的方法，本发明通过神经网络来搭建一个iEx(说话人扰动信息的提取器)，从语音中提取出说话人扰动信息后，直接减去该扰动信息，以此来减弱说话人的影响，提升系统的识别性能。

一种减弱语音识别中说话人影响的方法，具体步骤包括：

(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分；

(2)对数据进行基本声学特征提取；

(3)对步骤(2)所得的最终特征进行baseSys(基准语音识别系统)训练，具体为：

(3.1)利用卷积神经网络和门控循环神经网络搭建baseSys；

(3.2)将步骤(2)所得的最终特征送入baseSys进行模型训练；

(4)将步骤(2)所得的最终特征进行iEx的训练；

(5)将步骤(2)所得的最终特征进行finalSys(带说话人扰动信息提取器的语音识别系统)的训练；

(6)获取最终实验结果。

进一步地，所述步骤(1)的数据划分采用数据提供的默认划分方式进行划分，其中验证集和测试集各占全部数据的10％左右，剩下的80％作为训练集。

进一步地，所述步骤(2)的具体步骤包括：

(2.1)采用melspectrogram函数提取fbank(梅尔滤波器组)特征，设置函数参数；

(2.2)对fbank特征取自然对数以进行同态信号处理，即把特征中的乘性分量转化为加性分量；

(2.3)使用delta函数提取fbank-delta(梅尔滤波器组的一阶动态特征)，设置函数参数；

(2.4)使用delta函数处理fbank-delta，提取fbank-delta-delta(梅尔滤波器组的二阶动态特征)，设置函数参数；

(2.5)将fbank、fbank-delta、fbank-delta-delta这三个特征组合成一个三通道的特征图，作为最终的特征；

进一步地，所述步骤(4)的具体步骤包括：

(4.1)对步骤(1)得到的训练集进行初步筛选，从每个说话人的语音样本中随机调出20％样本作为验证集，剩下的样本作为训练集；

(4.2)利用卷积神经网络和门控循环神经网络搭建一个sreSys(说话人识别系统)来完成iEx的训练；

(4.3)将步骤(2)所提取的最终特征送入sreSys进行模型训练，将保留在验证集上取得最高识别率时的参数作为sreSys的最终参数；

(4.4)对sreSys的训练结束后，从sreSys中去掉最后两层，获得iEx；

进一步地，所述步骤(5)的具体步骤包括：

(5.1)利用baseSys和iEx构建finalSys，使用baseSys中的subNet1的参数来初始化finalSys中的subNet3的参数；

(5.2)将步骤(2)所提取的最终特征送入finalSys进行模型训练，保留在验证集上取得最高识别率时的参数作为finalSys的最终参数；

本发明相较于现有技术，具有以下的有益效果：

1、无需收集用户样本便能提升基准系统的识别性能，用户体验更佳；

2、模型参数没有偏向任何一个用户，当用户不止一个时，对任一用户都能保持一致的识别性能提升。

附图说明

图1为本发明一种减弱语音识别中说话人影响的方法的流程图；

图2为baseSys的模型示意图；

图3为baseSys的训练过程示意图；

图4为sreSys以及iEx的模型示意图；

图5为sreSys的训练过程示意图；

图6为finalSys的模型示意图；

图7为finalSys的训练过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种减弱语音识别中说话人影响的方法的流程图，所述方法的具体步骤包括：

(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分。

在本实施例中，所述步骤(1)中所使用的实验数据从Google发布的SpeechCommandsDataset数据集中获取，数据划分采用数据提供的默认划分方式进行划分，其中验证集(包含189个说话人)和测试集(包含189个说话人)各占全部数据的10％左右，剩下的80％作为训练集。

(2)对数据进行基本声学特征提取，具体为：

(2.1)在本实施例中，采用librosa音频工具包中的melspectrogram函数提取fbank特征，设置函数参数；

优选地，melspectrogram函数设置为：采样率16k、帧长25ms、帧移10ms、梅尔滤波器组最大与最小频率分别设置为8kHz和20Hz；其他参数采用默认值。

(2.2)对fbank特征取自然对数；

(2.3)在本实施例中，采用librosa音频工具包中的delta函数提取fbank-delta；

优选地，步骤(2.3)中的delta函数设置为：窗口宽度为5；其他参数采用默认值。

(2.4)在本实施例中，使用librosa音频工具包中的delta函数处理fbank-delta，提取fbank-delta-delta，设置函数；

优选地，步骤(2.4)中的delta函数设置为：窗口宽度为5；其他参数采用默认值。

(2.5)将fbank、fbank-delta以及fbank-delta-delta这三个特征组合成一个三通道的特征图，作为最终的特征；

(3)对步骤(2)所得的最终特征进行baseSys训练，具体为：

(3.1)利用卷积神经网络和门控循环神经网络搭建baseSys模型；

具体地，所搭建的baseSys模型如图2所示，该baseSys模型采用了激活函数tanh、relu、softmax，上述函数的具体计算方法分别为：

relu(x)＝max(x，0) (2)

其中，x表示输入，公式(2)中max表示取数值大的那一个数，如max(2,0)＝2，C表示x中元素的个数，x_i、x_j则分别表示x中的第i个、第j个元素。

所述baseSys的参数如表1所示。

表1 baseSys参数设置

(3.2)将步骤(2)所得的最终特征送入baseSys进行模型训练；

具体地，目标函数为交叉熵损失函数，使用RMSprop算法进行参数的更新优化。

更进一步地，所述baseSys模型训练过程具体为：学习率设置为0.001、batch数目为64、整个训练集循环30次；每循环一次训练集，就对验证集进行一次评测，一旦验证集上的交叉熵值连续3次没有发生大于0.01的下降，就将学习率乘以0.2，最终将保留在验证集上取得最高识别率时的参数作为baseSys的最终参数。baseSys的训练过程如图3所示，图中直观地展示了baseSys在训练集和验证集上的识别率。

(4)对步骤(2)所得的最终特征进行iEx的训练。

优选地，从步骤(1)得到的训练集中剔除发音样本最少的300个说话人，从剩下的说话人中随机挑选出500个说话人，共18732个样本；从每个说话人的语音样本中随机调出20％左右的样本作为验证集，共3759条样本；剩下的14973条样本作为训练集。

(4.2)利用卷积神经网络和门控循环神经网络搭建一个sreSys来完成iEx的训练；

具体地，除了最后两层的神经元数目不同，sreSys的模型结构基本与baseSys的模型结构一致；从sreSys中去掉最后两层即为iEx。如图4所示为sreSys以及iEx的模型示意图。所述sreSys以及iEx的参数设置均如表2所示。

表2 sreSys与iEx参数设置

(4.3)将步骤(2)所得的最终特征送入sreSys进行模型训练，将保留在验证集上取得最高识别率时的参数作为sreSys的最终参数；如图5所示为sreSys的训练过程示意图，图中直观地展示了sreSys在训练集和验证集上的识别率。

具体地，进行sreSys模型训练的目标函数为交叉熵损失函数，使用RMSprop算法进行参数的更新优化，所述sreSys模型训练的具体训练过程与步骤(3.2)中baseSys模型训练的具体训练过程保持一致。

(4.4)从sreSys中去掉最后两层，获得iEx；

(5)将步骤(2)所得的最终特征进行finalSys的训练。

(5.1)利用baseSys和iEx构建finalSys。所述finalSys的模型如图6所示。使用baseSys中的subNet1的参数初始化带finalSys中的subNet3的参数；所述finalSys的参数设置如表3所示。

表3 finalSys参数设置

具体地，所述步骤(5.1)具体为：

采用步骤(4)所得到的iEx，固定iEx模型的参数，使所述参数在finalSys的训练过程中不变；使用baseSys中的subNet1的参数来初始化finalSys中的subNet3的参数；finalSys中的subNet2部分是用来减弱说话人的影响。因为扰动有正有负，因此需要进行求和操作和求差操作，使得subNet3的输出中消去说话人不同带来的扰动，具体计算公式为：

p₁＝tanh(W₁·iEx(x)+b₁) (4)

p₂＝W₂·p₁+b₂ (5)

df＝subNet3(x)-p₂ (6)

sm＝subNet3(x)+p₂ (7)

y₁＝relu(df) (8)

y₂＝relu(sm) (9)

y₃＝Concatenate(y₁，y₂) (10)

y₄＝W₃·y₃+b₃ (11)

y＝BN(y₄) (12)

其中，x表示步骤(2)所提取的最终特征，即模型的输入；iEx(x)和subNet3(x)分别表示模型中iEx部分的输出和subNet3部分的输出；BN即Batch Normalization，用以进行0均值1标准差的标准化处理；{W₁，b₁}、{W₂，b₂}、{W₃，b₃}分别是finalSys中TDense2、TDense3、TDense4的参数，用来进行特征变换；relu函数的计算如公式(2)所示，Concatenate函数表示进行向量拼接，如y₁＝[1,2],y₂＝[3,4],Concatenate(y₁,y₂)＝[1,2,3,4]。

(5.2)将步骤(2)所得的最终特征送入finalSys进行模型训练，保留在验证集上取得最高识别率时的参数作为finalSys的最终参数。如图7所示为finalSys的训练过程，图中直观地展示了finalSys在训练集和验证集上的识别率。

具体地，进行finalSys模型训练的目标函数为交叉熵损失函数，使用RMSprop算法进行参数的更新优化，所述finalSys模型训练的具体训练过程与步骤(3.2)中baseSys模型训练的具体训练过程保持一致。

(6)获取最终实验结果。

baseSys和finalSys的识别性能比较如表4所示。从表中可以得出，finalSys的平均识别错误率相较于baseSys降低了9.2％。充分表明本发明能够有效地提升语音识别系统的识别性能。

表4 baseSys和finalSys的性能比较

	baseSys	finalSys
			验证集准确率	95.88％	96.20％
测试集准确率	95.61％	96.08％
			平均准确率	95.75％	96.14％
平均错误率	4.25％	3.86％

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种减弱语音识别中说话人影响的方法，其特征在于，具体步骤包括：

(2)对数据进行基本声学特征提取；

(3)对步骤(2)所得的最终特征进行基准语音识别系统训练，具体为：

(3.1)利用卷积神经网络和门控循环神经网络搭建基准语音识别系统；

(3.2)将步骤(2)所得的最终特征送入基准语音识别系统进行模型训练；

(4)将步骤(2)所得的最终特征进行说话人扰动信息提取器的训练；

(5)将步骤(2)所得的最终特征进行带说话人扰动信息提取器的语音识别系统的训练；

(6)获取最终的实验结果。

2.根据权利要求1所述的一种减弱语音识别中说话人影响的方法，其特征在于，所述数据划分方式，具体为：数据划分采用数据提供的默认划分方式进行划分，其中验证集和测试集各占全部数据的10％，剩下的80％作为训练集。

3.根据权利要求1所述的一种减弱语音识别中说话人影响的方法，其特征在于，所述步骤(2)具体包括：

(2.1)采用melspectrogram函数提取梅尔滤波器组特征，设置函数参数；

(2.2)对梅尔滤波器组特征取自然对数以进行同态信号处理，即把特征中的乘性分量转化为加性分量；

(2.3)使用delta函数提取梅尔滤波器组的一阶动态特征，设置函数参数；

(2.4)使用delta函数处理梅尔滤波器组的一阶动态特征，提取梅尔滤波器组的二阶动态特征，设置函数参数；

(2.5)将梅尔滤波器组的特征、一阶动态特征以及二阶动态特征组合成一个三通道的特征图，作为最终的特征。

4.根据权利要求1所述的一种减弱语音识别中说话人影响的方法，其特征在于，所述步骤(4)具体包括：

(4.2)利用卷积神经网络和门控循环神经网络搭建一个说话人识别系统来完成说话人扰动信息提取器的训练；

(4.3)将步骤(2)所提取的最终特征送入说话人识别系统进行模型训练，将保留在验证集上取得最高识别率时的参数作为说话人识别系统的最终参数；

(4.4)对说话人识别系统的训练结束后，从说话人识别系统中去掉最后两层，获得说话人扰动信息提取器。

5.根据权利要求1所述的一种减弱语音识别中说话人影响的方法，其特征在于，所述步骤(5)具体包括：

(5.1)利用基准语音识别系统和说话人扰动信息提取器构建带说话人扰动信息提取器的语音识别系统，使用基准语音识别系统中的subNet1的参数来初始化带说话人扰动信息提取器的语音识别系统中的subNet3的参数；

(5.2)将步骤(2)所提取的最终特征送入带说话人扰动信息提取器的语音识别系统进行模型训练，保留在验证集上取得最高识别率时的参数作为带说话人扰动信息提取器的语音识别系统的最终参数。

6.根据权利要求1所述的一种减弱语音识别中说话人影响的方法，其特征在于，步骤(3.1)中所述基准语音识别系统所采用的激活函数分别为tanh、relu、softmax，具体计算公式如下所示：

relu(x)＝max(x，0) (2)

其中，x表示输入，max表示取数值大的那一个数，C表示x中元素的个数，x_i、x_j则分别表示x中的第i个、第j个元素。

7.根据权利要求5所述的一种减弱语音识别中说话人影响的方法，其特征在于，所述步骤(5.1)具体为：

采用步骤(4)所得到的说话人扰动信息提取器，固定说话人扰动信息提取器的参数，使所述参数在带说话人扰动信息提取器的语音识别系统的训练过程中不变；使用基准语音识别系统中的subNet1的参数来初始化带说话人扰动信息提取器的语音识别系统中的subNet3的参数；带说话人扰动信息提取器的语音识别系统中的subNet2部分是用来减弱说话人的影响；因为扰动有正有负，因此需要进行求和操作和求差操作，使得subNet3的输出中消去说话人不同带来的扰动，具体计算公式为：

p₁＝tanh(W₁·iEx(x)+b₁) (4)

p₂＝W₂·p₁+b₂ (5)

df＝subNet3(x)-p₂ (6)

sm＝subNet3(x)+p₂ (7)

y₁＝relu(df) (8)

y₂＝relu(sm) (9)

y₃＝Concatenate(y₁，y₂) (10)

y₄＝W₃·y₃+b₃ (11)

y＝BN(y₄) (12)

其中，x表示步骤(2)所提取的最终特征，即模型的输入；iEx(x)和subNet3(x)分别表示模型中说话人扰动信息提取器部分的输出和subNet3部分的输出；BN即BatchNormalization，用以进行0均值1标准差的标准化处理；{W₁，b₁}、{W₂，b₂}、{W₃，b₃}分别是finalSys中TDense2、TDense3、TDense4的参数；Concatenate函数表示进行向量拼接。