CN112071308A - 一种基于语音合成数据增强的唤醒词训练方法 - Google Patents

一种基于语音合成数据增强的唤醒词训练方法 Download PDF

Info

Publication number
CN112071308A
CN112071308A CN202010955500.6A CN202010955500A CN112071308A CN 112071308 A CN112071308 A CN 112071308A CN 202010955500 A CN202010955500 A CN 202010955500A CN 112071308 A CN112071308 A CN 112071308A
Authority
CN
China
Prior art keywords
data
training
voice
word
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010955500.6A
Other languages
English (en)
Inventor
贾彦
张东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010955500.6A priority Critical patent/CN112071308A/zh
Publication of CN112071308A publication Critical patent/CN112071308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及音频信号处理,语音识别等技术领域,更具体地,涉及一种基于语音合成数据增强的唤醒词训练方法。包括以下步骤:S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;S4.由置信度计算语音数据唤醒词的最后得分;S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。有效提高了系统对混淆词的识别率。

Description

一种基于语音合成数据增强的唤醒词训练方法
技术领域
本发明涉及音频信号处理,语音识别等技术领域,更具体地,涉及一种基于语音合成数据增强的唤醒词训练方法。
背景技术
随着智能语音助手的出现,唤醒词识别系统在人机交互中发挥着越来越重要的作用。唤醒词识别旨在检测连续音频流中预定义的关键字或一组关键字。因此,设备上的唤醒词系统要求实时响应和低的计算成本,同时限制内存的消耗和计算设备数量。同时,它对不同的复杂词的检测精度和鲁棒性要求很高。
传统的方法中存在以下问题:问题一,传统方法的泛化性能还不足,识别的误报率和虚警率都较高。难以投入使用。问题二,由于与唤醒词相似的混淆词真实样本难以采集,可使用的数据相对较少。训练性能高,鲁棒性强的模型有较高难度。同时,数据不平衡的问题也会影响系统的整体表现。问题三,神经网络的建模单元选择不妥当,当前大部分的神经网络的建模单元为整个唤醒词或者唤醒词中的单独字,这会导致神经网络很可能只会识别唤醒词中的部分特征。在传统方法中,语音合成技术没有得到充分利用。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种基于语音合成数据增强的唤醒词训练方法,有效提高了系统对混淆词的识别率。
为解决上述技术问题,本发明采用的技术方案是:一种基于语音合成数据增强的唤醒词训练方法,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。
在其中一个实施例中,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。
在其中一个实施例中,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。
在其中一个实施例中,所述的对数梅尔频谱特征的提取具体包括:
S21.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S22.对生成的频率频谱图做梅尔变换;
S23.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
在其中一个实施例中,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。
在其中一个实施例中,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。
在其中一个实施例中,计算在卷积神经网络最后全连接层的倒数第二层输出上的CORAL损失Lcoral;将真实正样本、合成负样本、真实正样本三个领域的数据收集在一起进行训练,计算损失的策略如下:
Figure BDA0002678460380000021
其中,交叉熵损失Lce是通过源分布和目标分布的数据逻辑来计算的;Ctrue-neg、Csynt-neg和Ctrue-neg表示用于CORAL计算的嵌入特征的协方差矩阵;
最后,通过最小化联合损失,使合成负样本与真实负样本的嵌入特征差异最小化,并使合成负样本与真实正样本的嵌入特征差异最大化。
在其中一个实施例中,假设得到了源训练数据DS={xi}和目标数据DT={ui},假设源数据和目标数据的数量分别为nS和nT;x和u都是要学习的输入I的d维深层激活Φ(I);假设
Figure BDA0002678460380000022
表示第i个源数据示例的第j维,CS(CT)表示特征协方差矩阵;CORAL损失定义为:
Figure BDA0002678460380000031
其中
Figure BDA0002678460380000032
表示方阵Frobenius范数;其中特征协方差矩阵表示为:
Figure BDA0002678460380000033
Figure BDA0002678460380000034
在其中一个实施例中,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
在其中一个实施例中,经过训练后,模型将声学特征序列转化为唤醒词的后验概率序列;由于是二元目标模型,置信度计算采用直接判别法进行决策;在输入信号长度为Ts的滑动窗口上反复进行唤醒词检测算法,以从连续的音频流中检测关键字;将
Figure BDA0002678460380000036
作为包含N帧的X段上的一个输入窗口;然后使用最大值定义关键字得分,如下所示:
Figure BDA0002678460380000035
其中,Pkeyword(x(t),Φ)是关键字标签在t帧处的后验概率;该算法的时间复杂度为O(N),适合于实时应用。
本发明提供一种新的基于深度神经网络的唤醒词训练算法,通过一种基于深度学习的唤醒词识别算法对设备采集到的音频流进行分析,达到检测唤醒词的目的。本发明能够通过基于多说话人的语音合成技术来进行数据扩充,减轻混淆词数据量不足带来的性能难以提高问题。通过加入新的损失函数CORAL的方法,充分加大混淆词与正样本特征之间的统计距离,缩小混淆词与负样本特征之间的统计距离。通过深度学习训练,让系统达到较好的泛化性能。本发明的主要应用在于对唤醒词进行检测,保证智能设备更好的用户体验。
与现有技术相比,有益效果是:
1.本发明通过合成音频和掩盖音频的数据扩充方法,充分利用了已有的数据,使得模型更加稳定,抗噪声性能更强。相较于传统唤醒词识别模型,在含有混淆词的识别环境中展现了99%的性能提高。
2.本发明算法使用了加入CORAL损失的神经网络模型。相对于只用交叉熵损失的传统神经网络模型能够得到更高的识别准确率。在具体应用中能够更加鲁棒,稳定。
附图说明
图1是本发明方法整体流程图。
图2是本发明卷积神经网络模型结构示意图。
图3是本发明实施例中模型训练阶段结构示意图。
图4是本发明实施例中模型测试阶段结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1所示,本发明提供一种基于语音合成数据增强的唤醒词训练方法,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。
在语音识别和唤醒词识别领域,复杂词汇和语音条件的影响是一个共同关注的问题。在测试数据集上表现良好的模型在现实生活中往往表现不佳。本发明提出两种算法。第一种算法将掩蔽的正数据集作为负样本,以提高模型的鲁棒性。第二种方法是将多说话人语音合成器产生的混淆词样本与负样本混合,并应用CORAL损失来降低混淆语音模型的失真。
本实施例采用多说话人语音合成器或者掩盖算法生成语音,以提高在含有混淆词环境下的网络性能。该方法的灵感来自于语音识别领域中最大互信息(MMI)准则。首先,进行端到端的无状态时间建模,它可以在限制计算量的同时利用上下文信息。端到端模型指的是一个简单的模型,它具有不需要精确的音素对齐的二元识别模型。进一步证明,在含有混淆词样本的情况下,利用语音合成网络生成的语音样本进行训练,可以使系统的准确率提高99.9%。
在其中一个实施例中,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。
掩盖语音数据扩充:这种方法的灵感来自于人脸识别。在人脸识别中,掩盖正性样本被当作正样本进行训练。在本文中,我们将这种方法扩展到提高模型鲁棒性的任务中。与人脸识别不同,模型必须在触发前识别出唤醒词的所有特征。因此,屏蔽正样本需要作为负样本去增加已经存在的真实数据。例如,一个正采样音频的40%-60%被高斯白噪声代替。重复上述操作5次,每个正样本可产生5个负样本。
合成语音数据扩充方法:数据不足是训练模型中经常遇到的问题。而对在混淆词环境下的唤醒词识别任务来说,这个问题尤为严重,因为相关的数据采集难度大,成本高。同时,采集来的数据的不平衡问题也会严重影响模型的识别效果。因此,数据扩充在神经网络模型训练当中非常重要。在本实施例中,采用了基于语音合成系统的数据扩充方法。使用基于Tacotron 2的文本转语音系统,使用10000种不同的声音来合成12个混淆词音频和与唤醒词无关的音频。唤醒词无关音频的文本信息来自开源数据集Aishell2。这些示例的质量类似于使用Google Cloud Text-to-Speech API生成的音频质量。
在其中一个实施例中,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。将数据扩充完毕之后,接下来进行声学特征的提取,将一维的语音信号转换成二维的声学特征。它能够降低特征的维度,使得信息更容易被模型学习。本专利选择对数梅尔频谱特征。对数梅尔谱频谱特征的提取方法如下:
1.对语音信号序列进行短时傅里叶变换。短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
2.对生成的频率频谱图做梅尔变换。它等效于让特征通过一组三角滤波器。这组三角滤波器有以下的特点,它在低频位置有较高的幅值,较窄的频宽。随着频率的升高,三角滤波器的幅值逐渐降低,频宽逐渐下降。它的作用是重点突出某些频率的信息,使得后续的模型能够更快地学习到频谱的特征规律;
3.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
在本实施例中采用每50毫秒计算80维对数梅尔谱频谱特征,帧移25ms。
在其中一个实施例中,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。
另外,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。
在其中一个实施例中,计算在卷积神经网络最后全连接层的倒数第二层输出上的CORAL损失Lcoral;将真实正样本、合成负样本、真实正样本三个领域的数据收集在一起进行训练,计算损失的策略如下:
Figure BDA0002678460380000061
其中,交叉熵损失Lce是通过源分布和目标分布的数据逻辑来计算的;Ctrue-neg、Csynt-neg和Ctrue-neg表示用于CORAL计算的嵌入特征的协方差矩阵;
最后,通过最小化联合损失,使合成负样本与真实负样本的嵌入特征差异最小化,并使合成负样本与真实正样本的嵌入特征差异最大化。
另外,假设得到了源训练数据DS={xi}和目标数据DT={ui},假设源数据和目标数据的数量分别为nS和nT;x和u都是要学习的输入I的d维深层激活Φ(I);假设
Figure BDA0002678460380000062
表示第i个源数据示例的第j维,CS(CT)表示特征协方差矩阵;CORAL损失定义为:
Figure BDA0002678460380000063
其中
Figure BDA0002678460380000064
表示方阵Frobenius范数;其中特征协方差矩阵表示为:
Figure BDA0002678460380000065
Figure BDA0002678460380000066
在其中一个实施例中,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
在其中一个实施例中,经过训练后,模型将声学特征序列转化为唤醒词的后验概率序列;由于是二元目标模型,置信度计算采用直接判别法进行决策;在输入信号长度为Ts的滑动窗口上反复进行唤醒词检测算法,以从连续的音频流中检测关键字;将
Figure BDA0002678460380000072
作为包含N帧的X段上的一个输入窗口;然后使用最大值定义关键字得分,如下所示:
Figure BDA0002678460380000071
其中,Pkeyword(x(t),Φ)是关键字标签在t帧处的后验概率;该算法的时间复杂度为O(N),适合于实时应用。一旦置信度超过预先设定的阈值,系统就会触发。
为了方便理解,这里举例说明。
训练阶段:如图3所示,先准备好采集到的单通道16kHz的唤醒词正样本数据以及非唤醒词负样本数据。之后,对数据进行数据扩充。数据扩充的手段包括:掩盖语音数据扩充以及合成语音数据扩充。对于掩盖语音数据扩充,一个正采样音频的40%-60%被高斯白噪声代替。重复上述操作5次,每个正样本可产生5个负样本。对于合成语音数据扩充,使用合成音频质量较好的基于Tacotron 2的文本转语音系统,使用10000种不同的声音来合成12个混淆词音频和与唤醒词无关的音频。唤醒词无关音频的文本信息可以自定。
数据扩充完之后。可以使用语音识别系统对扩充之后的数据进行字级别的对齐,以唤醒词的第一个字为时间起点,之后的1.4s作为识别单元。提取短时傅里叶频谱特征。可以采取1024个点的短时傅里叶变换,帧长0.05s,帧移0.025s。提取对数梅尔谱的时候,梅尔滤波器数目选择为80,可以得到121帧的频谱特征。
在基于卷积神经网络的系统中,可以使用上述神经网络结构,将频谱特征输入其中,使用是否为唤醒词作为标签监督。使用上述CORAL损失与交叉熵损失的组合作为整个网络的损失函数。使用Nesterov动量随机梯度下降法作为优化器。初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值。若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
测试阶段:如图4所示,对于收音设备采集回来的音频流进行实时的静音检测,若当前音频段为静音则不做任何处理;若当前音频段中存在声音,则对音频段进行上述方法的特征提取。当连续的音频特征满足神经网络结构的输入,使用训练好的网络结构进行识别,随后对识别所得的唤醒词后验概率进行置信度打分,得分超过预先所定阈值则系统触发。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于语音合成数据增强的唤醒词训练方法,其特征在于,包括以下步骤:
S1.获取语音数据之后,对语音数据进行数据扩充,增加训练数据量;
S2.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S3.利用步骤S2提取的特征训练神经网络模型:对于卷积神经网络系统,训练卷积神经网络之后,利用该模型计算每一帧是唤醒词的后验概率;
S4.由置信度计算语音数据唤醒词的最后得分;
S5.将步骤S4计算的最后得分与预先设定的阈值进行比较,判定是否触发。
2.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的语音数据扩充采用掩盖语音扩充方法和合成语音数据扩充方法。
3.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的S2步骤中选择对数梅尔频谱特征进行特征提取。
4.根据权利要求3所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的对数梅尔频谱特征的提取具体包括:
S21.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S22.对生成的频率频谱图做梅尔变换;
S23.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
5.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的步骤S3中,在进行训练之前,先对提取的特征进行前后若干帧的拼接,从而增加上下文信息。
6.根据权利要求1所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,所述的步骤S3中所选用的卷积神经网络结构由三个卷积层组成,每个卷积层后面都有一个最大池层;卷积核大小为(3,3),步长为(1,1),最大池大小设置为(2,2);然后,使用两个全连接层和一个最终的softmax激活函数来预测唤醒词的概率;在隐层中用整流线性单元ReLU作为激活函数。
7.根据权利要求6所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,计算在卷积神经网络最后全连接层的倒数第二层输出上的CORAL损失Lcoral;将真实正样本、合成负样本、真实正样本三个领域的数据收集在一起进行训练,计算损失的策略如下:
Figure FDA0002678460370000021
其中,交叉熵损失Lce是通过源分布和目标分布的数据逻辑来计算的;Ctrue-neg、Csynt-neg和Ctrue-neg表示用于CORAL计算的嵌入特征的协方差矩阵;
最后,通过最小化联合损失,使合成负样本与真实负样本的嵌入特征差异最小化,并使合成负样本与真实正样本的嵌入特征差异最大化。
8.根据权利要求7所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,假设得到了源训练数据DS={xi}和目标数据DT={ui},假设源数据和目标数据的数量分别为nS和nT;x和u都是要学习的输入I的d维深层激活Φ(I);假设
Figure FDA0002678460370000022
表示第i个源数据示例的第j维,CS(CT)表示特征协方差矩阵;CORAL损失定义为:
Figure FDA0002678460370000023
其中
Figure FDA0002678460370000024
表示方阵Frobenius范数;其中特征协方差矩阵表示为:
Figure FDA0002678460370000025
Figure FDA0002678460370000026
9.根据权利要求7所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,在训练过程中采用有监督的训练,监督的目标为唤醒词语音和其他语音;训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值;若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
10.根据权利要求9所述的基于语音合成数据增强的唤醒词训练方法,其特征在于,经过训练后,模型将声学特征序列转化为唤醒词的后验概率序列;由于是二元目标模型,置信度计算采用直接判别法进行决策;在输入信号长度为Ts的滑动窗口上反复进行唤醒词检测算法,以从连续的音频流中检测关键字;将
Figure FDA0002678460370000031
作为包含N帧的X段上的一个输入窗口;然后使用最大值定义关键字得分,如下所示:
Figure FDA0002678460370000032
其中,Pkeyword(x(t),Φ)是关键字标签在t帧处的后验概率;该算法的时间复杂度为O(N),适合于实时应用。
CN202010955500.6A 2020-09-11 2020-09-11 一种基于语音合成数据增强的唤醒词训练方法 Pending CN112071308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010955500.6A CN112071308A (zh) 2020-09-11 2020-09-11 一种基于语音合成数据增强的唤醒词训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010955500.6A CN112071308A (zh) 2020-09-11 2020-09-11 一种基于语音合成数据增强的唤醒词训练方法

Publications (1)

Publication Number Publication Date
CN112071308A true CN112071308A (zh) 2020-12-11

Family

ID=73696549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010955500.6A Pending CN112071308A (zh) 2020-09-11 2020-09-11 一种基于语音合成数据增强的唤醒词训练方法

Country Status (1)

Country Link
CN (1) CN112071308A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634860A (zh) * 2020-12-29 2021-04-09 苏州思必驰信息科技有限公司 儿童语音识别模型训练语料筛选方法
CN113129868A (zh) * 2021-03-12 2021-07-16 北京百度网讯科技有限公司 获取语音识别模型的方法、语音识别的方法及对应装置
CN114420098A (zh) * 2022-01-20 2022-04-29 思必驰科技股份有限公司 唤醒词检测模型训练方法、电子设备和存储介质
CN114817456A (zh) * 2022-03-10 2022-07-29 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN115116442A (zh) * 2022-08-30 2022-09-27 荣耀终端有限公司 语音交互方法和电子设备
CN116504234A (zh) * 2023-05-29 2023-07-28 镁佳(北京)科技有限公司 一种语音唤醒与检测模型的生成方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555467A (zh) * 2019-08-13 2019-12-10 深圳创新奇智科技有限公司 一种基于模型迁移的工业数据分类方法
CN110827837A (zh) * 2019-10-18 2020-02-21 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555467A (zh) * 2019-08-13 2019-12-10 深圳创新奇智科技有限公司 一种基于模型迁移的工业数据分类方法
CN110827837A (zh) * 2019-10-18 2020-02-21 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘凯: "基于深度学习的语音唤醒研究及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634860A (zh) * 2020-12-29 2021-04-09 苏州思必驰信息科技有限公司 儿童语音识别模型训练语料筛选方法
CN112634860B (zh) * 2020-12-29 2022-05-03 思必驰科技股份有限公司 儿童语音识别模型训练语料筛选方法
CN113129868A (zh) * 2021-03-12 2021-07-16 北京百度网讯科技有限公司 获取语音识别模型的方法、语音识别的方法及对应装置
CN113129868B (zh) * 2021-03-12 2022-02-25 北京百度网讯科技有限公司 获取语音识别模型的方法、语音识别的方法及对应装置
CN114420098A (zh) * 2022-01-20 2022-04-29 思必驰科技股份有限公司 唤醒词检测模型训练方法、电子设备和存储介质
CN114420098B (zh) * 2022-01-20 2024-09-03 思必驰科技股份有限公司 唤醒词检测模型训练方法、电子设备和存储介质
CN114817456A (zh) * 2022-03-10 2022-07-29 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114817456B (zh) * 2022-03-10 2023-09-05 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN115116442A (zh) * 2022-08-30 2022-09-27 荣耀终端有限公司 语音交互方法和电子设备
CN115116442B (zh) * 2022-08-30 2023-01-10 荣耀终端有限公司 语音交互方法和电子设备
CN116504234A (zh) * 2023-05-29 2023-07-28 镁佳(北京)科技有限公司 一种语音唤醒与检测模型的生成方法、装置、设备及介质
CN116504234B (zh) * 2023-05-29 2023-10-13 镁佳(北京)科技有限公司 一种语音唤醒与检测模型的生成方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
Arora et al. Automatic speech recognition: a review
CN111243575A (zh) 基于扩张卷积神经网络的方言种属识别方法
CN109524011A (zh) 一种基于声纹识别的冰箱唤醒方法及装置
Chaudhary et al. Gender identification based on voice signal characteristics
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
CN110265063A (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
CN112825250A (zh) 语音唤醒方法、设备、存储介质及程序产品
Verma et al. An acoustic analysis of speech for emotion recognition using deep learning
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Dharmale et al. Evaluation of phonetic system for speech recognition on smartphone
Khaing et al. Myanmar continuous speech recognition system based on DTW and HMM
Jadhav et al. Review of various approaches towards speech recognition
Zhuang et al. Multi-task joint-learning for robust voice activity detection
Narayanan et al. Coupling binary masking and robust ASR
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
Shahrul Azmi et al. Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition
Gowda et al. Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ
Wang et al. Artificial Intelligence and Machine Learning Application in NPP MCR Speech Monitoring System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination