CN109754790B - 一种基于混合声学模型的语音识别系统及方法 - Google Patents
一种基于混合声学模型的语音识别系统及方法 Download PDFInfo
- Publication number
- CN109754790B CN109754790B CN201711059592.4A CN201711059592A CN109754790B CN 109754790 B CN109754790 B CN 109754790B CN 201711059592 A CN201711059592 A CN 201711059592A CN 109754790 B CN109754790 B CN 109754790B
- Authority
- CN
- China
- Prior art keywords
- neural network
- hybrid
- voice
- time delay
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。
Description
技术领域
本发明属于语音识别领域,具体涉及一种基于混合声学模型的语音识别系统及方法。
背景技术
语言交流是人类最自然的交流方式之一,人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机发明之前,自动语音识别就已经提上了议程,早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究,语音识别技术已经渗透到我们生活的方方面面,应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。
目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块构成:
信号处理及特征提取模块:该模块的主要任务是从输入信号中提取特征,供声学模型处理;同时,它包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
声学模型;目前主流的是采用神经网络-隐马尔科夫链(DNN-HMM)混合结构模型,如图1所示。其中神经网络是目前研究的热点。
发音词典;发音词典包含系统所能处理的词汇集,及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。
语言模型;语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。
解码器;解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学模型、语言模型及发音词典,寻找能够以最大概率输出该信号的词串。
声学模型通常为神经网络模型,神经网络是一种以连接权重和节点来模拟人脑中神经元工作的技术,可以视作一种分类器,结构主要包括输入层,隐含层和输出层,相邻层的节点之间有带权重的全连接,输出层的节点数量由目标类别数量所决定,数据从输入层进入网络,经由一系列的权重计算和非线性激活函数,最终到达输出层,得到该数据被分为每一类的概率值。目前主流的神经网络结构有卷积神经网络、回馈神经网络以及前向神经网络。不同的神经网络有不同的表达能力,文献[1](H.Sak,A.Senior,and F.Beaufays,“Long short-term memory based recurrent neural network architectures forlarge vocabulary speech recognition,”CoRR,vol.abs/1402.1128,2014)中的长短时记忆网络对长时间序列有很好的建模能力,文献[2](V.Peddinti,D.Povey,andS.Khudanpur,“A time delay neural network architecture for efficient modelingof long temporal contexts,”in Proceedings of INTERSPEECH,2015.)中的卷积神经网络对输入特征的平移变换能更鲁棒建模,前向神经网络在分类任务上能达到计算量和性能的平衡。在文献[3](V.Peddinti,Y.Wang,D.Povey and S.Khudanpur,"Low latencyacoustic modeling using temporal convolution and LSTMs,"in IEEE SignalProcessing Letters,vol.PP,no.99,pp.1-1.doi:10.1109/LSP.2017.2723507)中,通过将时间延迟网络和长短时记忆网络进行融合得到了一个和双向网络性能一致的单向网络:时间延迟及长短时记忆网络。虽然文献[3]提到的混合模型取得了较好的识别性能。但是时间延迟网络和长短时记忆网络在语音识别的鲁棒性方面不如卷积神经网络。
发明内容
本发明的目的在于克服目前语音识别系统中的时间延迟和长短时记忆混合声学模型存在的上述缺陷,基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,通过在时间延迟和长短时混合模型结构前端加入卷积神经网络,可以有效的降低模型识别错误率,提升多个任务集上的语音识别性能。
为了实现上述目的,本发明提供一种基于混合声学模型的语音识别系统,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。
作为上述系统的一种改进,所述卷积神经网络为两层。
一种基于混合声学模型的语音识别方法,所述方法包括:
步骤1)建立训练集,基于训练集训练所述语音识别系统的混合声学模型;
步骤2)提取待识别语音的梅尔频率倒谱系数特征以及说话人特征;
步骤3)利用训练好的声学模型的卷积神经网络对待识别语音的梅尔频率倒谱系数特进行卷积处理;
步骤4)将卷积神经网络输出作为新的特征,和待识别语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;
步骤5)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音。
作为上述方法的一种改进,在所述步骤4)之前还包括:
对卷积神经网络输出的特征降维到1024维,同时对取待识别语音的梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换,转换到512维。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤101)建立训练集;
所述训练集包括若干条语音、每条语音的梅尔频率倒谱系数特征以及说话人特征;
步骤102)利用卷积神经网络对每条语音的梅尔频率倒谱系数特征进行卷积处理;
步骤103)将卷积神经网络输出作为新的特征,和对应语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;
步骤104)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,最终得到训练好的混合声学模型。
作为上述方法的一种改进,在所述步骤103)之前还包括:
对卷积神经网络输出的特征降维到1024维,同时对梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换到512维。
本发明的优势在于:本发明的系统中的混合声学模型通过在时间延迟和长短时混合神经网络的前端加入卷积神经网络,基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。
附图说明
图1是现有技术的时间延迟和长短时记忆混合声学模型的示意图;
图2是本发明的混合声学模型的示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细的说明。
一种基于混合声学模型的语音识别系统,所述系统包括:信号处理及特征提取模块,混合声学模型,发音词典,语言模型和解码器;
如图2所示,所述混合声学模型包括:卷积神经网络和时间延迟及长短时记忆混合神经网络,其中时间延迟及长短时记忆混合神经网络是基础模型。本发明的模型在声学模型层面把卷积神经网络作为一个特征提取模块放置在基础模型时间延迟及长短时记忆混合神经网络之前。每个时间延迟及长短时记忆混合神经网络的输入端都衔接上前端卷积神经网络。每个卷积神经网络提取出来的鲁棒性特征会和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。优选的,所述卷积神经网络为两层。
基于上述系统,本发明还提供了一种基于混合声学模型的语音识别方法,所述方法包括:
步骤1)建立训练集,基于训练集训练所述语音识别系统的混合声学模型;具体包括:
步骤101)建立训练集;
所述训练集包括若干条语音、每条语音的梅尔频率倒谱系数特征以及说话人特征;
步骤102)利用两层卷积神经网络对每条语音的梅尔频率倒谱系数特征进行卷积处理;
步骤103)将卷积神经网络输出作为新的特征,和对应语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;
卷积神经网络在和传统特征进行拼接之前,为了保证各特征拼接后占比合理,对卷积神经网络输出的特征进行了降维,一般情况下会将卷进神经网络的输出的特征降维到1024维,同时也会对梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换,一般情况下会将梅尔频率倒谱系数特征和说话人特征转换到512维。
步骤104)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,最终得到训练好的混合声学模型;
步骤2)提取待识别语音的梅尔频率倒谱系数特征以及说话人特征;
步骤3)利用训练好的声学模型的两层卷积神经网络对每条语音的梅尔频率倒谱系数特进行卷积处理;
步骤4)将卷积神经网络输出作为新的特征,和待识别语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;
步骤5)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音。
基于本发明的语音识别系统的合理性和有效性已经在实际系统上得到了验证,结果见表1与表2。其中表1是switchboard(SWBD)测试的结果,SWBD是一个标准的电话交谈语音识别任务;表2是AMI SDM的测试结果,AMI SDM是远讲电话会议任务。可以看出,本发明的方法能够有效降低错误识别率。
实验平台采用显卡Nvidia Tesla K80,核心频率562MHZ,显存2*12GB,主机配备128GB内存,CPU采用Intel(R)Xeon(R)CPU E5-2650v3@2.30GHz。
表1
在SWBD训练集上,基于卷积神经网络前端的时间延迟和长短时记忆混合模型结构(cnn-tdnn-lstm)与时间延迟和长短时记忆混合模型结构(tdnn-lstm)的词错误率(WER)对比。Swbd测试集是Eval2000,Eval2000测试集是测试集全集,是LDC下的电话交谈风格的语音数据。Train_dev测试集是从训练数据中提取的一部分数据,这部分数据和训练数据完全同源,但是不包含在模型训练的训练数据当中。
表2
AMI SDM | 参数量 | Dev | Eval |
tdnn-lstm | 43.4M | 36.3% | 39.8% |
cnn-tdnn-lstm | 46.7M | 35.2% | 38.5% |
在AMI SDM训练集上,基于卷积神经网络前端的时间延迟和长短时记忆混合模型结构(cnn-tdnn-lstm)与时间延迟和长短时记忆混合模型结构(tdnn-lstm)的词错误率(WER)对比。Eval和dev集子是两个风格类似的测试集。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于混合声学模型的语音识别方法,基于一种基于混合声学模型的语音识别系统实现,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;其特征在于,所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络输出的特征和待识别语音的梅尔频率倒谱系数特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征;所述卷积神经网络为两层;
所述方法包括:
步骤1)建立训练集,基于训练集训练所述语音识别系统的混合声学模型;
步骤2)提取待识别语音的梅尔频率倒谱系数特征以及说话人特征;
步骤3)利用训练好的声学模型的卷积神经网络对待识别语音的梅尔频率倒谱系数特进行卷积处理;
步骤4)将卷积神经网络输出作为新的特征,和待识别语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;
步骤5)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音。
2.根据权利要求1所述的基于混合声学模型的语音识别方法,其特征在于,在所述步骤4)之前还包括:
对卷积神经网络输出的特征降维到1024维,同时对待识别语音的梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换,转换到512维。
3.根据权利要求2所述的基于混合声学模型的语音识别方法,其特征在于,所述步骤1)具体包括:
步骤101)建立训练集;
所述训练集包括若干条语音、每条语音的梅尔频率倒谱系数特征以及说话人特征;
步骤102)利用卷积神经网络对每条语音的梅尔频率倒谱系数特征进行卷积处理;
步骤103)将卷积神经网络输出作为新的特征,和对应语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;
步骤104)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,最终得到训练好的混合声学模型。
4.根据权利要求3所述的基于混合声学模型的语音识别方法,其特征在于,在所述步骤103)之前还包括:
对卷积神经网络输出的特征降维到1024维,同时对梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换到512维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711059592.4A CN109754790B (zh) | 2017-11-01 | 2017-11-01 | 一种基于混合声学模型的语音识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711059592.4A CN109754790B (zh) | 2017-11-01 | 2017-11-01 | 一种基于混合声学模型的语音识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109754790A CN109754790A (zh) | 2019-05-14 |
CN109754790B true CN109754790B (zh) | 2020-11-06 |
Family
ID=66398206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711059592.4A Active CN109754790B (zh) | 2017-11-01 | 2017-11-01 | 一种基于混合声学模型的语音识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109754790B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211588A (zh) | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
CN110223705B (zh) * | 2019-06-12 | 2023-09-15 | 腾讯科技(深圳)有限公司 | 语音转换方法、装置、设备及可读存储介质 |
CN110689880A (zh) * | 2019-10-21 | 2020-01-14 | 国家电网公司华中分部 | 一种应用于电力调度领域的语音识别方法及装置 |
CN112786016B (zh) * | 2019-11-11 | 2022-07-19 | 北京声智科技有限公司 | 一种语音识别方法、装置、介质和设备 |
US10924152B1 (en) * | 2019-11-13 | 2021-02-16 | Micron Technology, Inc. | Mixing coefficient data for processing mode selection |
CN110930980B (zh) * | 2019-12-12 | 2022-08-05 | 思必驰科技股份有限公司 | 一种中英文混合语音的声学识别方法及系统 |
CN111383628B (zh) * | 2020-03-09 | 2023-08-25 | 第四范式(北京)技术有限公司 | 一种声学模型的训练方法、装置、电子设备及存储介质 |
CN111832537B (zh) * | 2020-07-27 | 2023-04-25 | 深圳竹信科技有限公司 | 异常心电信号识别方法及异常心电信号识别装置 |
CN113327616A (zh) * | 2021-06-02 | 2021-08-31 | 广东电网有限责任公司 | 声纹识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845128A (zh) * | 2016-04-06 | 2016-08-10 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
KR20170050029A (ko) * | 2015-10-29 | 2017-05-11 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN107293288A (zh) * | 2017-06-09 | 2017-10-24 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10783900B2 (en) * | 2014-10-03 | 2020-09-22 | Google Llc | Convolutional, long short-term memory, fully connected deep neural networks |
-
2017
- 2017-11-01 CN CN201711059592.4A patent/CN109754790B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170050029A (ko) * | 2015-10-29 | 2017-05-11 | 삼성에스디에스 주식회사 | 음성 인식 시스템 및 방법 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN105845128A (zh) * | 2016-04-06 | 2016-08-10 | 中国科学技术大学 | 基于动态剪枝束宽预测的语音识别效率优化方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107293288A (zh) * | 2017-06-09 | 2017-10-24 | 清华大学 | 一种残差长短期记忆循环神经网络的声学模型建模方法 |
Non-Patent Citations (1)
Title |
---|
Low latency acoustic modeling using temporal convolution and LSTMs;V.Peddinti,et al;《IEEE Signal Processing Letters》;20170704;第373-377页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109754790A (zh) | 2019-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109754790B (zh) | 一种基于混合声学模型的语音识别系统及方法 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
CN107680582B (zh) | 声学模型训练方法、语音识别方法、装置、设备及介质 | |
CN108806667B (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
US20240169975A1 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
CN110610707B (zh) | 语音关键词识别方法、装置、电子设备和存储介质 | |
CN102254555B (zh) | 改进依赖上下文的语音识别器对环境变化的鲁棒性 | |
CN107039036B (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN111210807A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN106601229A (zh) | 一种基于soc芯片的语音唤醒方法 | |
CN104766608A (zh) | 一种语音控制方法及装置 | |
CN105895082A (zh) | 声学模型训练方法、语音识别方法及装置 | |
CN113539232B (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
Adya et al. | Hybrid transformer/ctc networks for hardware efficient voice triggering | |
CN105895081A (zh) | 一种语音识别解码的方法及装置 | |
CN111833878A (zh) | 基于树莓派边缘计算的中文语音交互无感控制系统和方法 | |
CN118280371B (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN102436815B (zh) | 一种应用于英语口语网络机考系统的语音识别装置 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN117765932A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111210812A (zh) | 一种人工智能语音中转系统 | |
CN114171009A (zh) | 用于目标设备的语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |