CN111179914B

CN111179914B - 一种基于改进动态时间规整算法的语音样本筛选方法

Info

Publication number: CN111179914B
Application number: CN201911227134.6A
Authority: CN
Inventors: 贺前华; 詹俊瑶; 严海康; 苏健彬
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2022-12-16
Anticipated expiration: 2039-12-04
Also published as: CN111179914A

Abstract

本发明公开了一种基于改进动态时间规整算法的语音样本筛选方法，包括步骤：使用基于同一文本录制多个语音样本，去除背景音并标注语音样本的元音和辅音，构建样本的语音特征序列表达；根据去除背景音后语音短时帧中元音和辅音的标注类型，通过语音短时帧内信号最大幅值的变化信息来确定过渡音，并对过渡音进行标注；分别对改进DTW算法的局部距离和整体距离进行加权计算，获得两两样本间的距离，构建所有样本的距离矩阵；根据距离矩阵对语音样本进行筛选。本发明解决了在样本数据量大、不能保证样本质量的情况下，对同一文本的语音样本的筛选问题，降低筛选成本，并为后续处理(如语料库的构建、深度神经网络的学习等)提供了更为可靠的样本数据。

Description

一种基于改进动态时间规整算法的语音样本筛选方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于改进动态时间规整算法的语音样本筛选方法。

背景技术

随着移动便携设备和互联网的快速发展，可多渠道获取语音样本，其数据量也与日俱增。庞大的语音数据给各类语种语料库的构建提供了基础，同时随着人工智能的发展，深度神经网络(Deep Neural Network，DNN)在语音处理领域取得显著效果。2012年Hinton利用深度神经网络在语音识别中取得新的突破，随后研究中又出现更多符合语音序列时序特点的网络结构，比如循环神经网络(Recurrent Neural Network，RNN)、长短期记忆循环神经网络(Long Short-Term Memory，LSTM)等。深度神经网络在语音样本数据量大、样本质量好的情况下，网络学习的准确性高、泛化能力强。当训练过程需要利用同一文本的多语音样本时，由于录制过程和录制者的不确定性，导致某些样本的实际语音文本与目标文本差异较大，甚至完全不同的情况。这种不正确的样本可能会严重影响网络的学习效果，因此需要对语音样本进行筛选，筛选出合格的样本用于不同任务的网络训练。

同一文本语音样本筛选的主要依据是：大多数样本是好的，客观度量的相似性较高。因此利用样本之间的相似性可以将离群的样本剔除，提高样本集质量。所以如何合理度量语音样本的相似性成为筛选的关键，客观相似性度量与主观感知相似性的关联性越高，使得在样本比较时更合理、更具有感知一致意义。

动态时间规整算法(Dynamic Time Warp,DTW)基于动态规划的思想，通过时间轴的扭曲或弯折将两个不同时长的语音进行时间上的对齐，进而得到两者之间较为合理的相似性度量。DTW算法实现简单，在中小词汇量、孤立词的识别上具有优势。但由于该算法主要针对孤立词样本的比较，在应用到短语或者句子的相似性度量时存在一定的缺陷，在算法基本的局部连续性约束和整体路径约束下仍旧存在许多无意义的匹配。语音短时帧根据发音特点可以分为元音、辅音和过渡音三种类型。在度量短语或者句子语音样本的相似性时，结合语音短时帧的类型信息可以使得匹配更加的合理，距离的度量也更有意义。

无论是语料库的构建还是深度神经网络的学习都需要合理、正确的语音样本，如果通过人工试听判断语音样本是否属于同一文本，会造成巨大的工作量，效率低下。尤其是低资源的语种，比如汉语各种方言，对于此类语音样本依靠人工筛选存在一定的难度，耗费巨大。因此需要一种低成本、有效的方法对语音样本进行筛选。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于改进动态时间规整算法的语音样本筛选方法。本发明利用短时帧元音、辅音、过渡音类型的标注、时序位置的差异和样本时长的差异，对动态时间规整算法中的局部距离和整体距离进行加权，使得针对短语或句子的匹配过程更有意义，并且样本间相似性的度量也更加合理，从而筛选出合格的语音样本。

本发明的目的能够通过以下技术方案实现：

一种基于改进动态时间规整算法的语音样本筛选方法，包括步骤：

使用基于同一文本录制多个语音样本，去除背景音并标注语音样本的元音和辅音，构建样本的语音特征序列表达；

根据去除背景音后语音短时帧中元音和辅音的标注类型，通过语音短时帧内信号幅值的变化信息来确定过渡音，并对过渡音进行标注；

分别对改进DTW算法的局部距离和整体距离进行加权计算，获得两两样本间的距离，构建所有样本的距离矩阵；

根据距离矩阵对语音样本进行筛选。

具体地，所述基于同一文本录制的多个语音样本要求为同一语种或者方言，如汉语中的粤语、客家话等，对说话人、录制环境等因素则没有任何约束。

具体地，语音样本进行预处理后，用语音端点检测(VAD)方法去除背景音并标注语音样本的元音和辅音，提取样本短时帧语音特征，构建的样本集的语音特征序列表示为F＝{f_h,h＝1,2,…,H}，其中f_h为第h个样本的语音特征序列。

具体地，所述对过渡音进行标注的步骤中，过渡音的标注方法为：

确定辅音段与元音段的交界点；

交界点向后往元音段搜索k帧，求每帧内信号幅值的最大值a_i，i＝1,2,…,k；若存在s≥k满足a_s＞a_j，j＝1,2,…,k且j≠s，则交界点往后的s帧都标注为过渡音，否则搜索的k帧都标注为过渡音；

交界点向前往辅音段搜索，得到辅音段信号幅度的最大值的点和辅音段末尾的样本点，计算两点连线的斜率，变化呈下降趋势，所以斜率为负值，设置一个阈值：斜率大于阈值时，即变化更平缓，则选取交界点往前的两帧标注为过渡音；斜率小于阈值时，即变化更剧烈，则选取交界点向前的一帧标注为过渡音。

具体地，所述构建所有样本的距离矩阵的步骤中，根据样本元音、辅音、过渡音的标注类型、语音短时帧的时序位置差异对改进的DTW算法中的局部距离进行加权计算，根据样本时长差异对改进的DTW算法中的整体距离分别进行加权计算。因此，改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X，Y的距离的计算公式为：

D_XY＝DTW(X,Y)

其中，μ(T_x,T_y)为样本时长差异的加权，

和

为规整函数，满足边界条件、连续性和单调性，δ(w)为局部连续性约束下的加权，ρ(w)为根据语音短时帧的元音、辅音、过渡音类型差异的加权，

为语音短时帧时序位置差异的加权。

当X＝Y时D_XY＝0，即相同样本之间的距离为0。

两个样本从(1，1)开始到(T_x,T_y)结束，其中，T_x,T_y分别代表X和Y样本的去除静音后的时长信息，两样本最小累积距离计算步骤如下：

δ(1)＝1

ρ(1)＝1

对于能够到达的点1≤x_i≤T_x,1≤y_j≤T_y，距离D(x_i,y_j)按下式计算：

其中，ζ为点(x′_i,y′_j)到点(x_i,y_j)的加权累积失真距离(局部距离)，且1≤x′_i≤x_i,1≤y′_j≤y_j，计算公式为：

其中，L_s为两样本点之间经过的帧数，T′为点(1,1)到点(x_i,y_j)经过总的帧数，加权系数ρ(T′-m)依据短时帧x_i,y_j类型加权，具体为：

如果x_i,y_j为相同的类型，加权系数为α，且一般设为1；

如果x_i,y_j中一方为元音，另一方为辅音，加权系数为β；

如果x_i,y_j中一方为过渡音，另一方为元音或者辅音，加权系数为γ；

上述加权系数满足α＜γ＜β约束。

语音短时帧时序位置差异的加权系数

只考虑元音帧与元音帧的匹配情形，对于匹配的语音短时帧不同时为元音类型时

元音帧与元音帧匹配时分为段时序位置和段内时序位置两种情况，具体为：

i₀,j₀分别为x_i,y_j在样本X,Y中所属元音段的中点，如果

则进行段时序匹配加权，即对所匹配段内所有短时帧距离进行加权，加权系数为ae^t；

否则进行段内时序匹配加权，具体为：

设x_i,y_j所处的元音段长分别为l_x,l_y，而x_i,y_j在所处的元音段内的时序位置分别为i_x,i_y，如果

对短时帧距离加权，加权系数为be^t′；

若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时，仅做类型加权，加权系数为α。

上述加权系数均为经验参数，且满足a＞b≥1，0＜η＜1，0＜ε＜1；所述加权参数以实际效果最佳为准，η与ε大致相近，简单处理可以相同。

如果进行了段时序匹配加权，就不再进行段内时序匹配加权。

由于基于同一文本的语音样本在去除静音部分后两个样本的时长差异不会过大，因此基于时长差异增加整体距离的权重，

因此，构造的H×H规模的样本距离矩阵表示为：

[D_ij]i＝1,2,...,H,j＝1,2,...,H

具体地，所述根据距离矩阵对语音样本进行筛选的步骤中，样本筛选方法为：

计算样本X_i与其他样本X_j(j≠i_c)的平均距离，计算公式为：

其中，N为总样本数；

选择平均距离最小的样本

计算样本

与其他样本X_j(j≠i_c)的距离

的方差δ_c；

如果

将样本X_j移出样本数据集。其中k为经验常数，且1＜k＜1.4。

本发明是依据样本之间的距离是一个随机变量，其分布大概率遵循高斯分布，根据高斯分布的性质，可筛选出原始样本中约68％—84％的样本。

本发明相较于现有技术，具有以下的有益效果：

本发明能够对语音样本进行简易、高效以及低成本的筛选，在保证了筛选出的样本其主观感知合理的情况下，大大降低了人工试听筛选的工作量，减少了低资源语种语料库构建的难度，同时也为深度学习网络提供了质量较好的训练样本，从而推动低资源语种尤其是汉语方言的语音识别、关键词检索等研究的发展。

附图说明

图1是本发明中一种基于改进动态时间规整算法的语音样本筛选方法的流程图；

图2是本发明中构建样本语音特征序列的流程图；

图3是本发明中对过渡音进行标注的流程图；

图4是本发明中基于改进DTW算法构建所有样本的距离矩阵的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示为一种基于改进动态时间规整算法的语音样本筛选方法的流程图，所述方法包括步骤：

(1)使用基于同一文本录制的多个语音样本，去除背景音并标注语音样本的元音和辅音，构建样本语音特征序列表达。

在本实施例中，使用录制的江西客家话的语音样本作为数据集，数据集一共包含115个说话人，每人录制根据关键词构造的672句话，每句话每人录制一次，选取10个关键词作为检测目标，并选取出包含10个关键词的句子所对应的语音样本构造出基于同类文本的语音样本集，根据3:7的比例划分测试集和训练集。对于训练集中每类样本集的样本进行预处理后，用语音端点检测(VAD)方法去除背景音并标注语音样本的元音、辅音，然后提取样本短时帧语音特征，样本集的语音特征表达为F＝{f_h,h＝1,2,…,H}，其中f_h为第h个样本的特征序列。

如图2所示为构建样本语音特征序列的流程图。每类样本集样本利用带通滤波器进行滤波处理，再利用短时能量和过零率的双门限法对样本端点检测，随后分帧提取12维的MFCC特征，最后构建样本语音特征序列表达。

(2)根据去除背景音后语音短时帧中元音和辅音的标注类型，通过语音短时帧内信号幅值的变化信息来确定过渡音，并对过渡音进行标注；

如图3所示为本发明中对过渡音进行标注的流程图，过渡音的标注方法具体为：

确定辅音段与元音段的交界点；

交界点向后往元音段搜索k帧，求每帧内信号幅值的最大值a_ii＝1,2,…,k；若存在s≤k满足a_s＞a_jj＝1,2,…,k且j≠s，则交界点往后的s帧都标注为过渡音，否则搜索的k帧都标注为过渡音；在本实施例中，向后往元音段搜索帧数k＝3。

交界点向前往辅音段搜索，得到辅音段信号幅度的最大值的点和辅音段末尾的样本点，计算两点连线的斜率，变化呈下降趋势，所以斜率为负值，设置一个阈值：斜率大于阈值时，即变化更平缓，则选取交界点往前的两帧标注为过渡音；斜率小于阈值时，即变化更剧烈，则选取交界点向前的一帧标注为过渡音。在本实施例中，斜率阈值取-0.95。

(3)分别对改进DTW算法的局部距离和整体距离进行加权计算，获得两两样本间的距离，构建所有样本的距离矩阵；

如图4所示为本发明中基于改进的DTW算法构建所有样本的距离矩阵的流程图。具体地，所述构建所有样本的距离矩阵的步骤中，根据样本元音、辅音、过渡音的标注类型、语音短时帧的时序位置差异对改进的DTW算法中的局部距离进行加权计算，根据样本时长差异对改进的DTW算法中的整体距离分别进行加权计算。因此，改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X，Y的距离的计算公式为：

D_XY＝DTW(X,Y)

其中，μ(T_x,T_y)为样本时长差异的加权，

和

为语音短时帧时序位置差异的加权。

当X＝Y时D_XY＝0，即相同样本之间的距离为0。

δ(1)＝1

ρ(1)＝1

如果x_i,y_j为相同的类型，加权系数为α；

如果x_i,y_j中一方为元音，另一方为辅音，加权系数为β；

上述加权系数满足α＜γ＜β约束。在本实施例中，α＝1，β＝3，γ＝2。

语音短时帧时序位置差异的加权系数

i₀,j₀分别为x_i,y_j在样本X,Y中所属元音段的中点，如果

否则进行段内时序匹配加权，具体为：

对短时帧距离加权，加权系数为be^t′；

上述加权系数均为经验参数，且满足a＞b≥1，0＜η＜1，0＜ε＜1；所述加权参数以实际效果最佳为准，η与ε大致相近，简单处理可以相同。在本实施例中，加权系数a＝2,b＝1,ε＝1/2,η＝1/2。

两样本的时长相差越大，加权系数值越大，但由于基于同一文本的语音样本在去除静音部分后两个样本的时长差异不会过大，因此基于时长差异增加整体距离的权重，

因此，构造的H×H规模的样本距离矩阵表示为：

[D_ij]i＝1,2,…,H,j＝1,2,...,H

针对训练集利用改进DTW算法筛选数据，再将筛选出的样本作为最终的训练样本，结果表明10个关键词的检出率和准确率较未筛选前有所提升，同时网络训练过程更加稳定。

(4)根据距离矩阵对语音样本进行筛选。

计算样本X_i与其他样本X_j(j≠i_c)的平均距离，计算公式为：

其中，N为总样本数；

选择平均距离最小的样本

计算样本

与其他样本X_j(j≠i_c)的距离

的方差δ_c；

如果

将样本X_j移出样本数据集。其中k为经验常数，且1＜k＜1.4。

在本实施例中，k＝1.2，最终保留样本集中距离靠近中心样本

的前77％的语音样本。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于改进动态时间规整算法的语音样本筛选方法，其特征在于，包括步骤：

所述构建所有样本的距离矩阵的步骤中，改进的DTW算法结合标注类型、时序位置差异和时长差异对样本X，Y的距离的计算公式为：

D_XY＝DTW(X，γ)

其中，μ(T_x，T_y)为样本时长差异的加权，

和

为语音短时帧时序位置差异的加权，T_x，T_y分别代表X和Y样本的去除静音后的时长信息；

当X＝Y时D_XY＝0，即相同样本之间的距离为0；

根据距离矩阵对语音样本进行筛选，计算样本X_i与其他样本X_j(j≠i_c)的平均距离，计算公式为：

其中，N为总样本数；

选择平均距离最小的样本

计算样本

与其他样本X_j(j≠i_c)的距离

的方差δ_c；

如果

将样本X_j移出样本数据集，其中k为经验常数，且1＜k＜1.4。

2.根据权利要求1所述的方法，其特征在于，语音样本进行基本的预处理后，用语音端点检测方法去除背景音并标注语音样本的元音和辅音，提取样本短时帧语音特征，构建的样本集的语音特征序列表示为F＝{f_h，h＝1，2，...，H}，其中f_h为第h个样本的语音特征序列。

3.根据权利要求1所述的方法，其特征在于，所述对过渡音进行标注的步骤中，过渡音的标注方法为：

确定辅音段与元音段的交界点；

交界点向后往元音段搜索k帧，求每帧内信号幅值的最大值a_i，i＝1，2，...，k；若存在s≤k满足a_s＞a_j，j＝1，2，...，k且j≠s，则交界点往后的s帧都标注为过渡音，否则搜索的k帧都标注为过渡音；

交界点向前往辅音段搜索，得到辅音段信号幅度的最大值的点和辅音段末尾的样本点，计算两点连线的斜率，设置一个阈值：斜率大于阈值时，即变化更平缓，则选取交界点往前的两帧标注为过渡音；斜率小于阈值时，即变化更剧烈，则选取交界点向前的一帧标注为过渡音。

4.根据权利要求1所述的方法，其特征在于，两个样本从(1，1)开始到(T_x，T_y)结束，其中，T_x，T_y分别代表X和Y样本的去除静音后的时长信息，两样本最小累积距离计算步骤如下：

δ(1)＝1

ρ(1)＝1

对于能够到达的点1≤x_i≤T_x，1≤y_j≤T_y，距离D(x_i，y_j)按下式计算：

其中，ζ为点(x′_i，y′_j)到点(x_i，y_j)的加权累积失真距离，且1≤x′_i≤x_i，1≤y′_j≤y_j。

5.根据权利要求4所述的方法，其特征在于，局部距离的计算公式为：

其中，L_s为两样本点之间经过的帧数，T′为点(1，1)到点(x_i，y_j)经过总的帧数。

6.根据权利要求5所述的方法，其特征在于，加权系数ρ(T′-m)依据短时帧x_i，y_j类型加权，具体为：

如果x_i，y_j为相同的类型，加权系数为α，且一般设为1；

如果x_i，y_j中一方为元音，另一方为辅音，加权系数为β；

如果x_i，y_j中一方为过渡音，另一方为元音或者辅音，加权系数为γ；

上述加权系数满足α＜γ＜β约束。

7.根据权利要求5所述的方法，其特征在于，语音短时帧时序位置差异的加权系数

i₀，j₀分别为x_i，y_j在样本X，Y中所属元音段的中点，如果

否则进行段内时序匹配加权，具体为：

设x_i，y_j所处的元音段长分别为l_x，l_y，而x_i，y_j在所处的元音段内的时序位置分别为i_x，i_y，如果

对短时帧距离加权，加权系数为be^t′；

若元音帧与元音帧匹配不满足段时序位置和段内时序位置两种加权条件时，仅做类型加权，加权系数为α；

上述加权系数均为经验参数，且满足a＞b≥1，0＜η＜1，0＜ε＜1；

8.根据权利要求1所述的方法，其特征在于，基于时长差异增加整体距离的权重，具体为：

因此，构造的H×H规模的样本距离矩阵表示为：

[D_ij]i＝1，2，...，H，j＝1，2，...，H。