CN111554273B

CN111554273B - 一种语音关键词识别中扩增语料的选取方法

Info

Publication number: CN111554273B
Application number: CN202010347536.6A
Authority: CN
Inventors: 贺前华; 汪星; 严海康
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2023-02-10
Anticipated expiration: 2040-04-28
Also published as: CN111554273A

Abstract

本发明公开了一种语音关键词识别中扩增语料的选取方法，步骤包括：对含关键词的原始语音进行语音转化，得到同一语义但不同说话人信息的语音；对原始语音进行语音端点检测去除静音部分，再获取原始语音和生成语音中的关键词片段；将原始语音关键词片段分为男女两类样本，分别训练UBM_M、UBM_F，用第i个关键词的男女两类原始语音关键词片段分别训练GMM_(M，i)、GMM_(F，i)；采用GMM分离度度量判断GMM分量距离，将分离度较小的设为相似GMM分量，去除GMM_(M，i)、GMM_(F，i)中相似GMM分量，剩下分离度较大分量形成新的GMM′_(M，i)、GMM′_(F，i)，用GMM′_(b，i)、GMM′_(g，i)对生成语音关键词片段进行性别分类；采用改进后的评价系数对生成语音进行评价，选取训练样本。本发明能在存在样本较少或不均衡的情况下更高效地训练模型。

Description

一种语音关键词识别中扩增语料的选取方法

技术领域

本发明涉及连续语音关键词识别技术领域，具体涉及一种语音关键词识别中扩增语料的选取方法。

背景技术

关键词识别(Keyword Recognition,KWS)是指在连续的、无限制的自然语音流中识别出预先设定的一个或多个关键词，随着人工智能的发展，KWS也越来越受到重视，其应用范围也越来越广，当前主流的应用有语音质检、音频监控、音频审核、音频检索等。在公检法机构、机场、铁路、银行等一些领域，越来越多的安防工程需要清晰、逼真的影音同步监控系统，音频监控领域已经成为安防行业的新亮点。音频监控已经成为安防行业的重要组成部分，音频监控在城市安防系统中应用的越来越多，以弥补视频监控的不足。关键词识别的应用，能够在所监听环境下发生异常行为时快速实时响应。

近年来，深度学习算法取得了快速发展，在分类、语音识别等多种认知任务中接近甚至超越了人类的识别准度。在基于深度学习的语音识别技术的推动下，语音逐渐成为用户和电子设备之间最自然的交互方式，例如亚马逊的Echo，苹果的Siri和谷歌的GoogleHome等。基于深度神经网络的关键词识别系统已被证明在模型计算量、内存占用、识别精度等方面优于基于隐马尔可夫模型系统的传统关键词识别系统。但现有的语音关键词识别中存在样本较少或不均衡的问题。本发明提出在电话监控中，关键词识别系统的训练样本较少或样本说话人信息不均衡的一些处理方法。

发明内容

为了克服现有技术存在的缺陷与不足，为了在基于神经网络的语音关键词识别中存在样本较少或不均衡问题时能更高效的训练模型，本发明提供一种语音关键词识别中扩增语料的选取方法，本发明对现有语音(原始语音样本)使用语音转换技术，生成大量不确定说话人信息的语音(生成语音)，再用原始语音样本中关键词所在的语音片段对每一个关键词训练一个UBM-GMM系统，由于生成语音不确定说话人信息，且伴随有一定的失真，使用一种新的通过GMM模型进行二分类的方法确定说话人性别，借用轮廓系数评价思想对生成语音进行评价并选取部分作为训练样本，在存在样本较少或不均衡的情况下能更高效地训练模型。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种语音关键词识别中扩增语料的选取方法，包括下述步骤：

采用语音转换技术对含关键词的原始语音进行语音转化，得到生成语音，所述生成语音包括多个同一语义但不同说话人信息的语音；

对原始语音进行语音端点检测，去除静音部分，再获取原始语音和生成语音中含关键词的语音片段，分别表示为原始语音关键词片段和生成语音中关键词片段；

利用原始语音关键词片段分为男女两类样本，分别训练通用背景混合高斯模型UBM_M、UBM_F，再用第i个关键词的男女两类原始语音关键词片段分别训练混合高斯模型GMM_(M，i)、GMM_(F，i)；

采用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x_(i，j)进行性别分类：

采用GMM分离度度量方法判断GMM分量距离，将分离度较小的设为相似GMM分量，去除混合高斯模型GMM_(M，i)、GMM_(F，i)中相似的GMM分量，使用剩下的分离度较大的分量形成新的混合高斯模型GMM′_(M，i)、GMM′_(F，i)，用新生成的混合高斯模型GMM′_(b，i)、GMM′_(g，i)对生成语音关键词片段进行男女分类，进而得到生成语音的性别信息；

借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后，形成改进后的评价系数对生成语音中关键词片段进行评价，选取满足设定条件的生成语音作为训练样本。

作为优选的技术方案，所述采用语音转换技术对含关键词的原始语音进行语音转化，具体步骤包括：

根据语音转换原理，音调变化在4到8个大调可以改变语音说话人性别，对男性语音进行-2到+8个大调的转换，女性语音进行-8到+2个大调的转换，使每一句含关键词语音得到多个同一语义但不同说话人信息的语音。

作为优选的技术方案，所述对原始语音进行语音端点检测，去除静音部分，再获取原始语音和生成语音中含关键词的语音片段，具体步骤包括：

采用语音端点检测方法去除原始语音样本中的静音部分，再提取语音中关键词所在的语音片段，提取的语音片段时间为：

其中，设语音语义为L_z个字，总时长为L_s，关键词有a个字，关键词为第d到d+a-1个字。

作为优选的技术方案，所述采用GMM分离度度量方法判断GMM分量距离，GMM分离度度量公式如下：

其中，∑(u_i，j-u_k，l)²为对模型G_i的第j个高斯函数和模型G_k的第l个高斯函数各维度均值的平方和，Πσ_i，j是指对模型G_i的第j个高斯函数各维度方差的积，Πσ_k，l是指对模型G_k的第l个高斯函数各维度方差的积。

作为优选的技术方案，所述借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后，形成改进后的评价系数对生成语音中关键词片段进行评价，具体采用GMM的后验概率代替样本与类之间的距离，后验概率越大，代表距离越小，修改后的表达式如下：

若计算类的轮廓系数，P(i)表示第i类样本在该类GMM模型中的后验概率的平均值，P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值；

若计算单个样本的轮廓系数，P(i)表示第i个样本在该类GMM模型中后验概率，P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值，S(i)取值在[-1，1]之间，S越接近1，代表效果越好；

使用原始语音关键词片段得到第i个关键词类的轮廓系数S_i，对单个生成语音片段x°_(i，j)计算轮廓系数

若

则将该语音作为第i个关键词训练样本，反之则舍弃，其中，α_i根据不同关键词类进行取值。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明在使用传统深度神经网络方法的情况下，使用了扩增语料的方法，能有效缓解因数据不平衡或太少造成的训练效果差或无法训练等问题，也能在不缺少数据时提升训练效果，提高系统识别鲁棒性。

(2)本发明在语料说话人性别信息不均衡的情况下，能通过语音转换的方法扩增不同说话人性别信息的语料，能有效缓解数据说话人性别信息不均衡导致的识别性能下降，提高系统识别鲁棒性。

(3)本发明采用GMM分离度度量方法判断对应的混合GMM中GMM分量距离，去除混合高斯模型GMM_(M，i)、GMM_(F，i)中相似的GMM分量，消除相似的GMM分量会对语音的分类造成的不良影响，提高语音分类的准确度。

附图说明

图1为本发明中各语音名称的关系图；

图2为本发明中由原始语音训练GMM到识别生成语音性别的流程图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例以RNN-CTC模型作为关键词检出模型，以AiShell语料库中的部分开源数据作为实验数据，其中关键词为：产品、城市、发展、公司、记者、企业、市场、投资、项目、政策，10个关键词进行关键词检出，每个关键词只使用500句含关键词语句，然后使用SoundTouch生成其他语句，然后用本方法对生成的语音进行筛选，训练两个关键词检出模型，一个只用原始语音作为训练集，另一个用原始语音加生成语音作为训练集，对同一个测试集进行识别，根据两模型的识别结果作为本方法效果的判别依据。

本实施例提供了一种语音关键词识别中扩增语料的选取方法，对现有语音(原始语音)使用语音转换技术，生成大量不确定说话人信息的语音(生成语音)，再用原始语音样本中关键词所在的语音片段对每一个关键词训练一个高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,UBM-GMM)系统，由于生成语音不确定说话人信息，且伴随有一定的失真，使用一种凸显说话人信息的GMM模型对生成语音进行性别分类，借用轮廓系数评价思想对生成语音进行评价并选取部分语音作为训练样本。

具体步骤包括：

S1、利用语音转换工具SoundTouch对AiShell语料库中含关键词的原始语音样本进行语音转化，得到大量同一语义但不同说话人信息的含关键词语音(年龄、性别信息不同，但生成语音不能确定年龄、性别)；

在本实施例步骤S1中，根据语音转换原理，音调变化在4到8个大调可以改变语音说话人性别，利用语音转换工具SoundTouch对含关键词语音进行语音转化时(本实施例也可使用其他语音转换工具)，对男性语音进行-2到+8个大调的转换(-表示降低，+表示增加)，女性语音进行-8到+2个大调的转换，即SoundTouch中的pitch参数男性取值为[-2,8]，女性取值为[-8,2]，经过SoundTouch转换后，一个原始语音得到10个同一语义但不同说话人信息的语音(年龄、性别信息不同，但转换后的语音不能确定年龄、性别)；

S2、使用webRTCvad对语音样本进行语音端点检测，去除静音部分，再获取原始语音和生成语音中含关键词的语音片段(原始语音片段和生成语音片段)；

在本实施例步骤S2中，使用webRTCvad语音端点检测方法(Voice ActivityDetector，VAD)去除原始语音样本中的静音部分，其中灵敏度设置为2，对去除静音后的语音再提取中关键词所在的语音片段，如图1所示，图中可知各个语音之间的关系，具体提取语音中关键词所在的语音片段方法为：设语音语义为L_z个字，总时长为L_s，关键词有a个字，关键词为第d到d+a-1个字，提取的语音片段时间为：

本实施例都是2字的关键词，所以a的值取2，当关键词在句首或句尾时比在句中要少提取部分语音；

S3、利用原始语音关键词片段分为男女两类样本，分别训练一个通用背景混合高斯模型UBM_M、UBM_F，再用第i个关键词的男女两类原始语音片段分别训练混合高斯模型GMM_(M，i)、GMM_(F，i)；

在本实施例步骤S3中，利用10个关键词中的原始语音片段中男女两类样本，分别训练一个通用背景混合高斯模型UBM_M、UBM_F，UBM_M为男性通用背景模型，UBM_F为女性通用背景模型，再用第i个关键词的男女两类原始语音片段分别训练混合高斯模型GMM_(M，i)、GMM_(F，i)，这样每个关键词都有两个混合GMM模型，分别表示男性、女性语音；

S4、使用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x_(i，j)进行性别分类：由于训练混合GMM所使用语料的语义中所含关键词相同，两个混合GMM含部分相似的GMM分量，而相似的GMM分量会对语音的分类造成不好影响，使用一种GMM分离度度量方法判断GMM分量距离，距离较近的为相似GMM分量，去除混合高斯模型GMM_(M，i)、GMM_(F，i)中相似的GMM分量，使用剩下的相差较大的分量形成新的GMM′_(M，i)、GMM′_(F，i)，对生成语音片段进行男女分类，进而得到生成语音的性别信息；

在本实施例步骤S4中，使用一种新的通过GMM模型进行二分类的方法对相应关键词i的生成语音x_(i，j)进行性别分类，如图2所示，其中根据分离度生成新GMM模型的方法如下：

使用混合高斯模型GMM_(M，i)、GMM_(F，i)对生成语音片段进行性别区分，由于训练混合GMM所使用语料的语义中所含关键词相同，两个混合GMM可能含部分相似的GMM分量，而相似的GMM分量会对语音的分类造成不好影响，对生成的混合高斯模型GMM_(M，i)、GMM_(F，i)使用一种GMM分离度度量方法判断对应的混合GMM中GMM分量距离，距离较近(分离度较小)的为相似GMM分量，去除混合高斯模型GMM_(M，i)、GMM_(F，i)中相似的GMM分量，GMM分离度度量公式如下：

上式中，∑(u_i，j-u_k，l)²为对模型G_i的第j个高斯函数和模型G_k的第l个高斯函数各维度均值的平方和；Πσ_i，j是指对模型G_i的第j个高斯函数各维度方差的积，Πσ_k，l是指对模型G_k的第l个高斯函数各维度方差的积；

利用剩下的相差较大的分量形成新的GMM′_(b，i)、GMM′_(g，i)，如此每个关键词都会得到一对混合GMM模型，再用这对混合GMM模型对该关键词生成语音片段进行男女分类，进而得到生成语音的性别信息；

S5、借用轮廓系数评价思想对生成语音进行评价，轮廓系数是类的密集与分散程度的评价指标，进行适合GMM模型的修改后，用它对生成语音片段进行评价，并根据评价筛选出适合的训练样本。

在本实施例步骤S5中，借用轮廓系数评价思想对生成语音进行评价，轮廓系数是类的密集与分散程度的评价指标，进行适合GMM模型的修改，用GMM的后验概率代替样本与类之间的距离，后验概率越大，代表距离越小，修改后其表达式如下：

若计算类的轮廓系数，P(i)表示第i类样本在该类GMM模型中的后验概率的平均值，P(i)′表示第i类样本其它类GMM模型的平均后验概率的最大值(不包含其本身所在类的GMM模型)；

若计算单个样本的轮廓系数，P(i)表示第i个样本在该类GMM模型中后验概率，P(i)′表示第i个样本到其它类GMM模型的后验概率的最大值(不包含其本身所属类的GMM模型)，S(i)取值在[-1，1]之间，S越接近1，代表效果越好。

使用原始语料片段得到第i个关键词类的轮廓系数S_i，对单个生成语音片段x′_(i，j)计算轮廓系数

若

则该语音片段可作为第i个关键词训练样本，反之则舍弃，其中α_i可根据不同关键词类进行取值。

本实施例在语料说话人性别信息不均衡的情况下，能通过语音转换的方法扩增不同说话人性别信息的语料，能有效缓解数据说话人性别信息不均衡导致的识别性能下降，提高系统识别鲁棒性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种语音关键词识别中扩增语料的选取方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的语音关键词识别中扩增语料的选取方法，其特征在于，所述采用语音转换技术对含关键词的原始语音进行语音转化，具体步骤包括：

3.根据权利要求1所述的语音关键词识别中扩增语料的选取方法，其特征在于，所述对原始语音进行语音端点检测，去除静音部分，再获取原始语音和生成语音中含关键词的语音片段，具体步骤包括：

4.根据权利要求1所述的语音关键词识别中扩增语料的选取方法，其特征在于，所述采用GMM分离度度量方法判断GMM分量距离，GMM分离度度量公式如下：

5.根据权利要求1所述的语音关键词识别中扩增语料的选取方法，其特征在于，所述借用轮廓系数评价思想对轮廓系数进行适合GMM模型的修改后，形成改进后的评价系数对生成语音中关键词片段进行评价，具体采用GMM的后验概率代替样本与类之间的距离，后验概率越大，代表距离越小，修改后的表达式如下：

使用原始语音关键词片段得到第i个关键词类的轮廓系数S_i，对单个生成语音片段x′_(i，j)计算轮廓系数

若