CN110570845B - 一种基于域不变特征的语音识别方法 - Google Patents

一种基于域不变特征的语音识别方法 Download PDF

Info

Publication number
CN110570845B
CN110570845B CN201910753174.8A CN201910753174A CN110570845B CN 110570845 B CN110570845 B CN 110570845B CN 201910753174 A CN201910753174 A CN 201910753174A CN 110570845 B CN110570845 B CN 110570845B
Authority
CN
China
Prior art keywords
voice
domain
speech
noise
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910753174.8A
Other languages
English (en)
Other versions
CN110570845A (zh
Inventor
熊盛武
李梦
林泽华
徐珊
李小其
董元杰
路雄博
刁月月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN201910753174.8A priority Critical patent/CN110570845B/zh
Publication of CN110570845A publication Critical patent/CN110570845A/zh
Application granted granted Critical
Publication of CN110570845B publication Critical patent/CN110570845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提出了一种基于域不变特征的语音识别方法,将语音域不变特征提取模型应用于端到端语音识别模型。本发明使用的特征提取模型针对鲁棒性问题,通过添加更多类型的语音数据训练语音特征提取模型可以得到更优的参数,得到更好的域不变特征提取模型。基于域不变特征的语音识别方法,利用无标注的纯语音数据训练特征提取模型,利用少量具有文本标注的语音训练端到端声学模型,为提高端到端声学模型的鲁棒性提供了重要的技术支撑。相比于现有技术,本发明在不同噪声环境中的识别准确率更高,语音标注任务的任务量更小,模型的训练和测试速度更快。

Description

一种基于域不变特征的语音识别方法
技术领域
本发明属于语音识别领域,涉及现实噪声环境下的鲁棒语音识别方法,具体是指一种基于域不变特征的语音识别方法,它可快速方便地扩展到新的噪声环境下。
背景技术
近年来,基于深度学习和序列到序列计算框架的端到端语音识别模型的应用日益广泛,但是,在实际运用语音识别模型的过程中,不可避免会遇到多种多样的噪声环境,使语音识别准确率大打折扣。噪声鲁棒性是指语音识别模型在噪声环境下保持原有识别准确率的能力。
目前,常见的提高语音识别模型噪声鲁棒性的常见方法有:(1)增加特征增强模型,用于语音预处理,起到对输入的带噪声语音进行降噪的作用;(2)对训练数据集进行扩充,在原有数据集上叠加噪声,使训练数据尽可能丰富,从而使得训练得到的语音识别模型具备一定噪声鲁棒性。
上述两种方法都不太理想,前者需要利用完全对应的带噪语音和清晰语音数据,因此此类方法大多运用在人工加噪的数据集上,这限制了此类方法的应用场景;后者直接导致训练数据量成倍地增加,使语音识别模型的训练过程所需的计算资源和时间大大增加,并且,人工加噪声无法覆盖所有噪声类型。
近年来,出现了一些基于深度学习的语音特征提取模型,通过提取与噪声信息无关的、只包含语义内容的语音特征,可以用于训练语音识别模型,从而提高语音识别模型的噪声鲁棒性。将不同噪声环境看作不同域,域不变特征指的是只包含语义内容的语音特征。
目前尚无将语音域不变特征提取模型应用于端到端语音识别模型的方法。
发明内容
本发明的目的是为了解决上述背景技术存在的不足,提出一种基于域不变特征的语音识别方法,提高语音识别模型在不同噪声环境下的语音识别准确率。
为了实现上述目的,本发明所采用的技术方案为一种基于域不变特征的语音识别方法,该方法包括如下步骤:
步骤一,构建训练数据集,包括采集不同噪声环境下的语音数据和标注语音对应的内容文本;
步骤二,利用步骤一构建的训练数据集训练基于域不变特征的语音识别模型,所述基于域不变特征的语音识别模型包括语音域不变特征提取模型和语音识别声学模型;
所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络,分别记为Enc1、Enc2和Dec;其中Enc2用于编码噪声域特征,包含多层Conv2D二维卷积层和一个重参数层,其输入为定长语音特征帧序列,即语音分段,输出为该分段对应的特征向量;Enc1用于编码域不变特征,包含两层LSTM循环神经网络层和一个重参数层,其输入为上述相同的语音分段和噪声域特征向量,输出为域不变特征向量;Dec用于对编码的特征进行解码,包含两层LSTM循环神经网络层和一个重参数层,其输入为上述噪声域特征向量和域不变特征向量,输出为重构的语音特征分段;
所述语音识别声学模型包含两层Conv2D二维卷积层、5层双向GRU循环神经网络层和1层输出维度为标签数L的全连接层;
步骤三,利用训练好的基于域不变特征的语音识别模型,进行真实环境下语音识别。
进一步的,步骤一的具体实现方式如下,
(1.1)采集不同噪声环境下的语音数据
采集方式有直接录制和人工合成两种:直接录制是通过在具有背景噪声的自然场景中直接录制语音;人工合成是通过在无背景噪声的安静环境下录制清晰语音,然后在清晰语音上叠加噪声语音;通过上述数据采集过程最终得到的包含不同噪声的无标注语音数据集,记为X={X1,...,XM},其中,M为噪声类型数量,
Figure BDA0002167889770000021
为第i类带噪语音集合,包含Ni条语音;
(1.2)为步骤(1.1)采集到的语音数据标注内容文本
人工对每一条语音标注对应的内容文本,首先根据语音内容类型确定标注元素:英文语音以单词为标注元素,中文语音以字为标注元素,得到标注训练数据集
Figure BDA0002167889770000022
Figure BDA0002167889770000023
其中yi,j为语音xi,j对应的文本,其中,1≤M1≤M。
进一步的,所述Enc2中Conv2D二维卷积层的步长为2,卷积核大小为3×3,卷积核数为32;Enc1和Dec中LSTM循环神经网络层的单元数为256。
进一步的,语音识别声学模型中Conv2D二维卷积层的步长为2,卷积核大小为21×11,卷积核数为32;双向GRU循环神经网络层的单元数为800。
进一步的,所述步骤二的具体步骤如下:
(2.1)利用无标注语音数据集X={X1,...,XM}训练语音域不变特征提取模型,用于提取对噪声鲁棒性较好的语音域不变特征;根据所述语音域不变特征提取模型训练目的设计目标损失函数:整体损失函数表达式为L=Lcon+αLdis+βLgauss,由重构损失函数Lcon、噪声域分类损失函数Ldis和特征分布约束损失函数Lgauss组成,α和β为权重系数,其中,Lcon选取L1距离,Ldis选取根据噪声域特征向量对噪声域类型的分类准确率,Lgauss选取由Enc1和Enc2编码得到的特征向量与标准正态分布之间的KL散度;
语音域不变特征提取模型训练具体步骤如下:
(2.1.1)对X={X1,...,XM}中的语音进行预处理,提取各语音的Fbank特征,然后对各Fbank特征序列进行分段,分段帧数取t,并标记各分段所属噪声域编号,最终得到带域标签的分段数据集DS={(si,mi)},i=1,2,...,NS,其中si为语音特征分段,mi为域编号,NS为总的分段数;
(2.1.2)利用上述得到的分段数据集DS,根据随机梯度下降算法训练语音域不变特征提取模型,重复执行如下步骤直至网络参数收敛:随机选取m个分段数据作为一个Batch,经过网络前向传播后,计算损失函数值,然后用随机梯度下降算法更新网络参数,得到用于域不变特征提取的编码网络Enc1和Enc2
(2.2)利用上述训练好的语音域不变特征提取模型,提取标注数据集
Figure BDA0002167889770000031
Figure BDA0002167889770000032
的语音域不变特征,得到
Figure BDA0002167889770000033
Figure BDA0002167889770000034
对各语音xi,j根据步骤(2.1.1)中的处理过程进行处理得到各语音的特征分段,针对每一条语音对应的分段序列,逐分段输入到域不变特征提取模型,经过编码器编码得到该分段对应的特征向量,顺序拼接后得到每一条语音对应的域不变特征序列fi,j
(2.3)利用上述提取得到的带标注的语音域不变特征数据Df训练语音识别声学模型;
其中,所述语音识别声学模型输入为语音域不变特征序列fi,j,输出为各帧对应的标签元素的分类概率pi,i=1,2,...,T1,其中pi=[pij],j=1,2,...,L,
Figure BDA0002167889770000035
L为标签集元素个数;
语音识别声学模型的训练具体步骤如下:
(2.3.1)随机从Df中采样m条数据,输入的域不变特征序列fi,j经过卷积层后对32个通道的特征进行拼接,然后经过双向GRU和全连接层后得到pi,i=1,2,...,T1
(2.3.2)用pi,i=1,2,...,T1和用整数索引化的文本标注序列yi,j计算常用于表示序列标注准确率的CTC损失函数值,并通过梯度下降算法更新网络参数;
(2.3.3)重复步骤(2.3.1)和(2.3.2)直至网络参数收敛。
进一步的,步骤(2.1.1)中分段帧数取t=20,由于分段窗口具有宽度t=20,因此fi,j比xi,j少T-19帧,记T1=T-19。
进一步的,步骤三的具体实现方式如下,
(3.1)获取一条待识别语音数据;
(3.2)对步骤(3.1)获取的待识别语音数据按照步骤(2.1.1)进行处理,得到该语音对应的Fbank特征
Figure BDA0002167889770000041
以及T1=T-19个语音特征分段,记为
Figure BDA0002167889770000042
(3.3)将每个分段
Figure BDA0002167889770000043
i=1,2,...,T1顺序输入到语音域不变特征提取模型,经过编码网络编码得到该分段对应的特征向量fi,最终得到该待识别语音数据对应的域不变特征序列
Figure BDA0002167889770000044
(3.4)对步骤(3.3)提取得到的域不变特征
Figure BDA0002167889770000045
利用语音识别声学模型、解码网络和语言模型得到最终输出文本;
首先,将
Figure BDA0002167889770000046
输入声学模型,计算得到各帧对应的标签元素的分类概率pi,i=1,2,...,T1,其中pi=[pij],j=1,2,...,L,
Figure BDA0002167889770000047
L为标签集元素个数;然后,通过采用集束搜索算法的解码网络,结合语言模型,对概率序列进行解码,得到最终的识别文本。
本发明的有益效果在于:
(1)噪声鲁棒性好:本发明提供的一种基于域不变特征的语音识别方法,相比于现有技术,在不同噪声环境中的识别准确率更高。
(2)标注量小:本发明可以实现通过无标注的语音数据学习对域不变特征的提取,随后通过部分带标注的语音数据即可学习语音识别模型,从而降低语音标注任务的任务量。
(3)速度快:与现有技术相比,本发明一方面减少了训练声学模型所需标注数据,另一方面通过编码降低了输入声学模型语音特征的维度,使得模型的训练和测试速度更快。
附图说明
图1为本发明一种基于域不变特征的语音识别方法实施的流程图,
图2为本发明实现语音域不变特征提取模型结构示意图,
图3为本发明实施例语音Fbank特征提取流程图,
图4为本发明语音识别声学模型结构示意图,
图5为本发明真实环境下语音识别过程示意图。
具体实施方式
为了具体说明使本发明的目的、技术方案、优点和可实现性,下面结合附图和实施例对本发明做进一步的说明。应当理解,此处所描述的具体实例仅仅用于解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。
如图1所示,一种基于域不变特征的语音识别方法,该方法包括如下步骤:
步骤一,构建训练数据集,包括采集不同噪声环境下的语音数据和标注语音对应的内容文本两个主要子步骤,具体如下:
(1.1)采集不同噪声环境下的语音数据。
采集方式有直接录制和人工合成两种:直接录制是通过在具有背景噪声的自然场景中直接录制语音,例如在嘈杂的公路旁、具有马达噪声的车厢内等环境下录制语音数据;人工合成是通过在无背景噪声的安静环境下录制清晰语音,然后在清晰语音上叠加噪声语音。通过上述数据采集过程最终得到的包含不同噪声的无标注语音数据集,记为X={X1,...,XM},其中,M为噪声类型数量,
Figure BDA0002167889770000051
为第i类带噪语音集合,包含Ni条语音。
(1.2)为步骤(1.1)采集到的语音数据标注内容文本。
人工对每一条语音标注对应的内容文本,首先根据语音内容类型确定标注元素:英文语音以单词为标注元素,中文语音以字为标注元素,得到标注训练数据集
Figure BDA0002167889770000052
Figure BDA0002167889770000053
其中yi,j为语音xi,j对应的文本。其中,1≤M1≤M,由于语音集合数据量可能过大,全部标注会十分耗时,因此可以只标注包含部分噪声类型的语音数据。本发明提供的一种基于域不变特征的语音识别方法,可以实现通过无标注文本的语音数据学习对噪声鲁棒的域不变特征的提取,随后通过部分带标注的语音数据即可学习语音识别模型,从而降低语音标注任务的任务量,并加快模型的训练。
步骤二,训练基于域不变特征的语音识别模型,所述基于域不变特征的语音识别模型包括语音域不变特征提取模型和语音识别声学模型,具体步骤如下:
(2.1)利用无标注语音数据集X={X1,...,XM}训练语音域不变特征提取模型,用于提取对噪声鲁棒性较好的语音域不变特征。
其中,如图2所示,所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络,分别记为Enc1、Enc2和Dec;其中Enc2用于编码噪声域特征,包含多层步长为2,卷积核大小为3×3,卷积核数为32的Conv2D二维卷积层和一个重参数层,其输入为定长语音特征帧序列,也称为语音分段,输出为该分段对应的特征向量;Enc1用于编码域不变特征,包含两层单元数为256的LSTM循环神经网络层和一个重参数层,其输入为上述相同的语音分段和噪声域特征向量,输出为域不变特征向量;Dec用于对编码的特征进行解码,包含两层单元数为256的LSTM循环神经网络层和一个重参数层,其输入为上述噪声域特征向量和域不变特征向量,输出为重构的语音特征分段。本实施例中,特征向量维度均设置为32。
根据所述语音域不变特征提取模型训练目的设计目标损失函数:整体损失函数表达式为L=Lcon+αLdis+βLgauss,由重构损失函数Lcon、噪声域分类损失函数Ldis和特征分布约束损失函数Lgauss组成,α和β为权重系数。其中,Lcon选取L1距离,Ldis选取根据噪声域特征向量对噪声域类型的分类准确率,即预测结果中正确结果数的占比,Lgauss选取上述两种特征向量(指由Enc1和Enc2编码得到的特征向量)与标准正态分布之间的KL散度。
本实施例中,语音域不变特征提取模型训练具体步骤如下:
(2.1.1)对X={X1,...,XM}中的语音进行预处理,提取各语音的Fbank特征,然后对Fbank特征进行分段,并标记每个分段所述噪声类型编号。其中,如图3所示,预处理包括对语音进行分帧、加窗、预加重等处理;语音帧长选取为25毫秒,帧移10毫秒,窗函数选取汉明窗,预加重系数取0.95,提取Fbank特征的过程包括短时傅里叶变换、平方、梅尔滤波器组滤波、取对数等。对各Fbank特征序列进行分段,分段帧数取t=20,并标记各分段所属噪声域编号。最终得到带域标签的分段数据集DS={(si,mi)},i=1,2,...,NS,其中si为语音特征分段,mi为域编号,NS为总的分段数。
(2.1.2)利用上述得到的分段数据集DS,根据随机梯度下降算法训练语音域不变特征提取模型。重复执行如下步骤直至网络参数收敛:随机选取m个分段数据作为一个Batch,经过网络前向传播后,计算损失函数值,然后用随机梯度下降算法更新网络参数。得到的用于域不变特征提取的编码网络Enc1和Enc2
(2.2)利用上述训练好的语音域不变特征提取模型,提取标注数据集
Figure BDA0002167889770000071
Figure BDA0002167889770000072
的语音域不变特征,得到
Figure BDA0002167889770000073
Figure BDA0002167889770000074
对各语音xi,j根据步骤(2.1.1)中的处理过程进行处理得到各语音的特征分段,针对每一条语音对应的分段序列,逐分段输入到域不变特征提取模型,经过编码器编码得到该分段对应的特征向量,顺序拼接后得到每一条语音对应的域不变特征序列fi,j,由于分段窗口具有宽度t=20,因此fi,j比xi,j少T-19帧,记T1=T-19。
(2.3)利用上述提取得到的带标注的语音域不变特征数据Df训练语音识别声学模型。
其中,所述声学模型输入为语音域不变特征序列fi,j,输出为各帧对应的标签元素的分类概率pi,i=1,2,...,T1,其中pi=[pij],j=1,2,...,L,
Figure BDA0002167889770000075
L为标签集元素个数。
本实施例中,如图4所示,声学模型网络结构按照序列到序列模型计算框架进行设计,声学模型包含两层具有32个大小为21×11的卷积核、步长为2的Conv2D二维卷积层、5层单元数为800的双向GRU循环神经网络层和1层输出维度为标签数L的全连接层。其中各卷积层后跟随着一层填充层,将卷积结果各帧重复一次,保持帧数不变,例如,填充可以使序列abcd变成aabbccdd。
声学模型的训练具体步骤如下:
(2.3.1)随机从Df中采样m条数据,输入的域不变特征序列fi,j经过卷积层后对32个通道的特征进行拼接,然后经过双向GRU和全连接层后得到pi,i=1,2,...,T1
(2.3.2)用pi,i=1,2,...,T1和用整数索引化的文本标注序列yi,j计算常用于表示序列标注准确率的CTC损失函数值,并通过梯度下降算法更新网络参数。
(2.3.3)重复步骤(2.3.1)和(2.3.2)直至网络参数收敛。
步骤三,真实环境下语音识别,如图5所示,具体步骤如下:
(3.1)获取一条待识别语音数据。
语音可以通过录音器录制或读取语音文件,待识别语音数据通常是1至15秒的一条语音数据。待识别语音对应的文本内容是未知的,且语音中包含的噪声数据类型也是未知的,噪声类型可能在训练数据中出现过也可能没有出现过。本发明所提的方法的目的就是使语音识别模型在不同噪声环境下的语音识别结果都较好。
(3.2)对步骤(3.1)获取的待识别语音数据按照步骤(2.1.1)进行处理,得到该语音对应的Fbank特征
Figure BDA0002167889770000081
以及T1=T-19个语音特征分段,记为
Figure BDA0002167889770000082
(3.3)将每个分段
Figure BDA0002167889770000083
i=1,2,...,T1顺序输入到语音域不变特征提取模型,经过编码网络编码得到该分段对应的特征向量fi,最终得到该待识别语音数据对应的域不变特征序列
Figure BDA0002167889770000084
(3.4)对步骤(3.3)提取得到的域不变特征
Figure BDA0002167889770000085
利用声学模型、解码网络和语言模型得到最终输出文本。
首先,将
Figure BDA0002167889770000086
输入声学模型,计算得到各帧对应的标签元素的分类概率pi,i=1,2,...,T1,其中pi=[pij],j=1,2,...,L,
Figure BDA0002167889770000087
L为标签集元素个数;然后,通过采用集束搜索算法的解码网络,结合语言模型,对概率序列进行解码,包括去重复、去空白、转换为字母和语言模型纠错等操作,得到最终的识别文本。其中,解码网络和语言模型为语音识别领域常见技术,本发明不予撰述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于域不变特征的语音识别方法,其特征在于,该方法包括如下步骤:
步骤一,构建训练数据集,包括采集不同噪声环境下的语音数据和标注语音对应的内容文本;
步骤二,利用步骤一构建的训练数据集训练基于域不变特征的语音识别模型,所述基于域不变特征的语音识别模型包括语音域不变特征提取模型和语音识别声学模型;
将不同噪声环境看作不同域,域不变特征指的是只包含语义内容的语音特征,所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络,分别记为Enc1、Enc2和Dec;其中Enc2用于编码噪声域特征,包含多层Conv2D二维卷积层和一个重参数层,其输入为定长语音特征帧序列,即语音分段,输出为该分段对应的特征向量;Enc1用于编码域不变特征,包含两层LSTM循环神经网络层和一个重参数层,其输入为上述相同的语音分段和噪声域特征向量,输出为域不变特征向量;Dec用于对编码的特征进行解码,包含两层LSTM循环神经网络层和一个重参数层,其输入为上述噪声域特征向量和域不变特征向量,输出为重构的语音特征分段;
所述语音识别声学模型包含两层Conv2D二维卷积层、5层双向GRU循环神经网络层和1层输出维度为标签数L的全连接层;
步骤三,利用训练好的基于域不变特征的语音识别模型,进行真实环境下语音识别。
2.如权利要求1所述的一种基于域不变特征的语音识别方法,其特征在于:步骤一的具体实现方式如下,
(1.1)采集不同噪声环境下的语音数据
采集方式有直接录制和人工合成两种:直接录制是通过在具有背景噪声的自然场景中直接录制语音;人工合成是通过在无背景噪声的安静环境下录制清晰语音,然后在清晰语音上叠加噪声语音;通过上述数据采集过程最终得到的包含不同噪声的无标注语音数据集,记为X={X1,...,XM},其中,M为噪声类型数量,
Figure FDA0003207326340000011
为第i类带噪语音集合,包含Ni条语音;
(1.2)为步骤(1.1)采集到的语音数据标注内容文本
人工对每一条语音标注对应的内容文本,首先根据语音内容类型确定标注元素:英文语音以单词为标注元素,中文语音以字为标注元素,得到标注训练数据集
Figure FDA0003207326340000012
Figure FDA0003207326340000021
其中yi,j为语音xi,j对应的文本,其中,1≤M1≤M。
3.如权利要求2所述的一种基于域不变特征的语音识别方法,其特征在于:所述Enc2中Conv2D二维卷积层的步长为2,卷积核大小为3×3,卷积核数为32;Enc1和Dec中LSTM循环神经网络层的单元数为256。
4.如权利要求3所述的一种基于域不变特征的语音识别方法,其特征在于:语音识别声学模型中Conv2D二维卷积层的步长为2,卷积核大小为21×11,卷积核数为32;双向GRU循环神经网络层的单元数为800。
5.如权利要求4所述的一种基于域不变特征的语音识别方法,其特征在于:所述步骤二的具体步骤如下:
(2.1)利用无标注语音数据集X={X1,...,XM}训练语音域不变特征提取模型,用于提取对噪声鲁棒性较好的语音域不变特征;根据所述语音域不变特征提取模型训练目的设计目标损失函数:整体损失函数表达式为L=Lcon+αLdis+βLgauss,由重构损失函数Lcon、噪声域分类损失函数Ldis和特征分布约束损失函数Lgauss组成,α和β为权重系数,其中,Lcon选取L1距离,Ldis选取根据噪声域特征向量对噪声域类型的分类准确率,Lgauss选取由Enc1和Enc2编码得到的特征向量与标准正态分布之间的KL散度;
语音域不变特征提取模型训练具体步骤如下:
(2.1.1)对X={X1,...,XM}中的语音进行预处理,提取各语音的Fbank特征,然后对各Fbank特征序列进行分段,分段帧数取t,并标记各分段所属噪声域编号,最终得到带域标签的分段数据集DS={(si,mi)},i=1,2,...,NS,其中si为语音特征分段,mi为域编号,NS为总的分段数;
(2.1.2)利用上述得到的分段数据集DS,根据随机梯度下降算法训练语音域不变特征提取模型,重复执行如下步骤直至网络参数收敛:随机选取m个分段数据作为一个Batch,经过网络前向传播后,计算损失函数值,然后用随机梯度下降算法更新网络参数,得到用于域不变特征提取的编码网络Enc1和Enc2
(2.2)利用上述训练好的语音域不变特征提取模型,提取标注数据集
Figure FDA0003207326340000022
Figure FDA0003207326340000031
的语音域不变特征,得到
Figure FDA0003207326340000032
Figure FDA0003207326340000033
对各语音xi,j根据步骤(2.1.1)中的处理过程进行处理得到各语音的特征分段,针对每一条语音对应的分段序列,逐分段输入到域不变特征提取模型,经过编码器编码得到该分段对应的特征向量,顺序拼接后得到每一条语音对应的域不变特征序列fi,j
(2.3)利用上述提取得到的带标注的语音域不变特征数据Df训练语音识别声学模型;
其中,所述语音识别声学模型输入为语音域不变特征序列fi,j,输出为各帧对应的标签元素的分类概率pi,i=1,2,...,T1,其中pi=[pij],j=1,2,...,L,∑jpij=1,L为标签集元素个数;
语音识别声学模型的训练具体步骤如下:
(2.3.1)随机从Df中采样m条数据,输入的域不变特征序列fi,j经过卷积层后对32个通道的特征进行拼接,然后经过双向GRU和全连接层后得到pi,i=1,2,...,T1
(2.3.2)用pi,i=1,2,...,T1和用整数索引化的文本标注序列yi,j计算常用于表示序列标注准确率的CTC损失函数值,并通过梯度下降算法更新网络参数;
(2.3.3)重复步骤(2.3.1)和(2.3.2)直至网络参数收敛。
6.如权利要求5所述的一种基于域不变特征的语音识别方法,其特征在于:步骤(2.1.1)中分段帧数取t=20,由于分段窗口具有宽度t=20,因此fi,j比xi,j少T-19帧,记T1=T-19。
7.如权利要求6所述的一种基于域不变特征的语音识别方法,其特征在于:步骤三的具体实现方式如下,
(3.1)获取一条待识别语音数据;
(3.2)对步骤(3.1)获取的待识别语音数据按照步骤(2.1.1)进行处理,得到该语音对应的Fbank特征
Figure FDA0003207326340000034
以及T1=T-19个语音特征分段,记为
Figure FDA0003207326340000035
(3.3)将每个分段
Figure FDA0003207326340000036
顺序输入到语音域不变特征提取模型,经过编码网络编码得到该分段对应的特征向量fi,最终得到该待识别语音数据对应的域不变特征序列
Figure FDA0003207326340000037
(3.4)对步骤(3.3)提取得到的域不变特征
Figure FDA0003207326340000041
利用语音识别声学模型、解码网络和语言模型得到最终输出文本;
首先,将
Figure FDA0003207326340000042
输入声学模型,计算得到各帧对应的标签元素的分类概率pi,i=1,2,...,T1,其中pi=[pij],j=1,2,...,L,
Figure FDA0003207326340000043
L为标签集元素个数;然后,通过采用集束搜索算法的解码网络,结合语言模型,对概率序列进行解码,得到最终的识别文本。
CN201910753174.8A 2019-08-15 2019-08-15 一种基于域不变特征的语音识别方法 Active CN110570845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753174.8A CN110570845B (zh) 2019-08-15 2019-08-15 一种基于域不变特征的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753174.8A CN110570845B (zh) 2019-08-15 2019-08-15 一种基于域不变特征的语音识别方法

Publications (2)

Publication Number Publication Date
CN110570845A CN110570845A (zh) 2019-12-13
CN110570845B true CN110570845B (zh) 2021-10-22

Family

ID=68775581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753174.8A Active CN110570845B (zh) 2019-08-15 2019-08-15 一种基于域不变特征的语音识别方法

Country Status (1)

Country Link
CN (1) CN110570845B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048065B (zh) * 2019-12-18 2024-05-28 腾讯科技(深圳)有限公司 文本纠错数据生成方法及相关装置
CN111261146B (zh) * 2020-01-16 2022-09-09 腾讯科技(深圳)有限公司 语音识别及模型训练方法、装置和计算机可读存储介质
CN111291817B (zh) * 2020-02-17 2024-01-23 北京迈格威科技有限公司 图像识别方法、装置、电子设备和计算机可读介质
CN111862967B (zh) * 2020-04-07 2024-05-24 北京嘀嘀无限科技发展有限公司 一种语音识别方法、装置、电子设备及存储介质
CN111768762B (zh) * 2020-06-05 2022-01-21 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN112086087B (zh) * 2020-09-14 2024-03-12 广州市百果园信息技术有限公司 语音识别模型训练方法、语音识别方法及装置
CN113506562B (zh) * 2021-07-19 2022-07-19 武汉理工大学 基于声学特征与文本情感特征融合的端到端语音合成方法及系统
CN113270086B (zh) * 2021-07-19 2021-10-15 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1148471A1 (en) * 2000-04-18 2001-10-24 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US7643630B2 (en) * 2004-06-25 2010-01-05 Texas Instruments Incorporated Echo suppression with increment/decrement, quick, and time-delay counter updating
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN106409289A (zh) * 2016-09-23 2017-02-15 合肥华凌股份有限公司 语音识别的环境自适应方法、语音识别装置和家用电器
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354199B2 (en) * 2015-12-07 2019-07-16 Xerox Corporation Transductive adaptation of classifiers without source data
US10395658B2 (en) * 2017-05-22 2019-08-27 International Business Machines Corporation Pre-processing partial inputs for accelerating automatic dialog response
US20190147854A1 (en) * 2017-11-16 2019-05-16 Microsoft Technology Licensing, Llc Speech Recognition Source to Target Domain Adaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1148471A1 (en) * 2000-04-18 2001-10-24 Matsushita Electric Industrial Co., Ltd. Method for noise adaptation in automatic speech recognition using transformed matrices
US7643630B2 (en) * 2004-06-25 2010-01-05 Texas Instruments Incorporated Echo suppression with increment/decrement, quick, and time-delay counter updating
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
CN104538028A (zh) * 2014-12-25 2015-04-22 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法
CN105448303A (zh) * 2015-11-27 2016-03-30 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN106409289A (zh) * 2016-09-23 2017-02-15 合肥华凌股份有限公司 语音识别的环境自适应方法、语音识别装置和家用电器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Taylor series expansion of psychoacoustic corruption function for noise robust speech recognition》;Biswajit Das et al.;《2016 IEEE 13th International Conference on Signal Processing (ICSP)》;20170331;全文 *
《基于迁移学习的噪声鲁棒语音识别声学建模》;易江燕等;《清华大学学报(自然科学版)》;20181231;全文 *
《鲁棒语音识别技术综述》;吕钊等;《安徽大学学报(自然科学版)》;20130930;全文 *

Also Published As

Publication number Publication date
CN110570845A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN110060690B (zh) 基于STARGAN和ResNet的多对多说话人转换方法
CN109979429A (zh) 一种tts的方法及系统
CN110797002B (zh) 语音合成方法、装置、电子设备及存储介质
CN110600047A (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN111429938A (zh) 一种单通道语音分离方法、装置及电子设备
CN111931736B (zh) 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111429893A (zh) 基于Transitive STARGAN的多对多说话人转换方法
CN111008517A (zh) 一种基于张量分解技术的神经语言模型的压缩方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN111341294A (zh) 将文本转换为指定风格语音的方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
Wang et al. Wavenet with cross-attention for audiovisual speech recognition
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN112364225B (zh) 一种结合用户评论的司法舆情文本摘要方法
CN114360491B (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN113257230B (zh) 语音处理方法及装置、计算机可存储介质
CN115661710A (zh) 一种视频描述生成方法、装置及存储介质
CN112069777B (zh) 一种基于骨架的二阶段数据到文本生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221121

Address after: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee after: WUHAN University OF TECHNOLOGY

Address before: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee before: WUHAN University OF TECHNOLOGY

Patentee before: WUHAN SHUIXIANG ELECTRONIC TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right