CN106297773B - 一种神经网络声学模型训练方法 - Google Patents
一种神经网络声学模型训练方法 Download PDFInfo
- Publication number
- CN106297773B CN106297773B CN201510290592.XA CN201510290592A CN106297773B CN 106297773 B CN106297773 B CN 106297773B CN 201510290592 A CN201510290592 A CN 201510290592A CN 106297773 B CN106297773 B CN 106297773B
- Authority
- CN
- China
- Prior art keywords
- neural network
- clue
- node
- triphones
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种神经网络声学模型训练方法,所述方法具体包含:步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。
Description
技术领域
本发明涉及一种在中英文混合语音识别中,增加输出层线索结点来训练神经网络,以提升声学模型的方法。
背景技术
对语音识别技术的研究可以追溯到20世纪50年代,当时的核心技术是用混合高斯模型(Gaussian mixture model,GMM)对隐马尔可夫模型(Hidden Markov model,HMM)进行建模,即采用隐马尔可夫模型描述语音状态的时域跳转,而采用混合高斯模型模拟语音状态的特征分布。近二十年来,随着计算机技术的发展以及硬件系统的提升出现了深度神经网络(Deep Neural Network,DNN),所述深度神经网络是一种模拟大脑神经突触联接的结构进而进行信息处理的数学模型,这种深度神经网络用以替代GMM应用到语音识别中。DNN具有远超GMM的非线性关系表达能力,这使得识别技术得以真正大范围地普及。许多研究机构的报告均显示了DNN-HMM相对GMM-HMM在各类语音识别任务上的性能优势。目前语音识别中常用的神经网络声学模型的结构包括输入层、输出层以及中间的若干隐含层。建模单元为经过聚类的三音素(triphone)状态,输出层每个结点的输出值表示每个状态的后验概率值。
中英文混合指在人们话语中出现中文和英文两个语种间的切换的情况,语种切换的位置可以在句与句之间,比如“好的。Thanks!”;也可以发生在句子中词与词之间,比如“你是VIP会员么?”。由于语种切换的位置和频率依赖于对话场景,话题领域以及说话人个人习惯等,使得任务难度增加。同时,该任务实际需求量大,这是因为中文和英文两个语种无论是在使用人数,还是使用区域广度上来说都位于各语种的前列。另外,英文作为中国最大的外来语种,它逐渐渗入人们的生活,比如OK,Bye-bye之类的用语会直接应用到日常口语中。
DNN的优势使得中英文混合识别中的声学模型也势必要用其来建模。但是无论是训练数据还是实际使用的环境,中文数据量都远多于英文数据量,这使得训练所得模型更偏向中文,识别结果表现为英文词大量错识为中文词。
发明内容
本发明的目的在于,为克服采用传统DNN导致的识别结果表现为英文词大量错识为中文词的缺陷,本发明提供一种神经网络声学模型训练方法。
为了实现上述目的,本发明提供一种神经网络声学模型训练方法,所述方法为:在神经网络输出层增加一组线索结点,基于增加线索节点后的网络对神经网络声学模型进行训练。
可选的,上述方法具体包含:
步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;
步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;
步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;
步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,进而完成针对神经网络声学模型训练,再基于剥离后的网络进行语音识别。
进一步可选的,上述步骤103)具体为:在输出层后串联三个结点作为线索结点,所述三个结点分别用来表示中文、英文或非语音状态,且加入的3个结点与最后一层隐含层的节点进行全连接。
可选的,步骤104)所述针对最终网络架构进行训练的步骤还包含误差回传的步骤具体包含:
1)对三音素状态集与线索结点分别作非线性计算;
2)在基线标注向量的基础上增加三维,其中增加的三维的确定策略为:通过本帧语音对齐得到的三音素状态来获取其在线索类中的归属,将表示该类的维度设为1,其余为0;
3)将步骤2)中所得向量与步骤1)中所得向量相减获得误差向量用于训练进行回传。
上述方法基于softmax函数将输出层前向传播得到的值作非线性计算。
上述所述线索结点的剥离操作即将线索结点与外界的所有连接断开。
与现有技术相比,本发明的优点在于:本发明是在神经网络输出层增加一组线索结点,由于DNN可以看成是一个分类器,结点的加入相当于对网络增加一组分类问题,该问题不同于但又相关于整个网络的分类问题。引入的信息量使得语种间的鉴别性增强,识别时语种错误的情况减少。并且,由于最终的网络结构与基础网络相同,不会影响识别效率。实验表明模型在中英文混合识别中有稳定的效果。
附图说明
图1现有的基线神经网络声学模型结构图;
图2本发明提供的增加线索结点的神经网络声学模型结构图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细介绍。
本发明的目的在于缓解中英文混合识别中,中英文数据量不平衡而导致声学模型训练偏向中文的问题,提出一种在神经网络输出层增加线索结点,来增强网络对于语种区别度的学习。除了中英文混合外,该建模方法可以用于各种其他语种混合的情况,其流程主要由以下四部分组成:
1、搭建基础网络架构:基于常用的训练方法得到基础的网络构架,如图1所示。其输入为包含上下文若干帧的语音特征,输出为决策树聚类得到的三音素状态。另外训练时需要强制对齐得到的标注,即每一帧语音对应为一个三音素状态。
2、对聚类后的三音素分类:将三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类,分类需覆盖所有三音素。
3、增加线索结点:在输出层增加一组线索结点,该组结点分别对应步骤2中得到的三类。加入的线索结点与最后一层隐含层全连接,得到最终网络架构,如图2所示。然后对新网络进行训练。
4、剥离线索结点:步骤3得到的网络训练完成后,将线索结点从网络中剥离,使网络最终架构同原始架构一样。用此网络进行语音识别。
本发明优点:引入线索结点,是对网络增加了中英文区分度的信息量,使得语种间的鉴别性增强,识别时语种错误的情况减少。同时,由于最终的网络结构与基础网络相同,不会影响识别效率。通过以上各步的操作得到的模型在中英文混合识别中有稳定的效果。
下面对本发明过程作进一步描述。
1、搭建基础网络架构:本发明实验的DNN模型输入包含当前帧的52维特征,加上上下文各5帧的扩展构成52*11=572维矢量。其每帧特征使用传统的25ms帧长10ms帧移的方式提取,包含13维plp系数,同时也包含其一阶、二阶以及三阶差分系数。输出为各个经过聚类的三音素状态的后验值,输出维度为3765。故拓扑结构为572-2048-2048-3765。识别任务为涉及中英文两个语种的口语对话风格测试集,共6个:2个纯中文,2个纯英文以及2个中英文混合语音。训练数据为与识别任务风格相同的语料20小时,其中中文和英文数据比例为3:1。
2、对聚类后的三音素分类:将三音素状态根据中心音素分为中文、英文及非语音音素三类。原始音素共206个,其中中文音素为100个,英文97个以及非语音音素9个。非语音音素指模拟停顿、喘气等非语言音段的音素。三音素状态的形式如a-b+c,a和c为b的上下文,b为中心音素,分类即按照b的归属来确定该三音素状态的类别。
3、增加线索结点及训练:本发明在原始输出层后串联三个线索结点分别用来表示中文、英文或非语音状态,加入的结点与最后一层隐含层需进行全连接。新网络的训练与基线网络所用算法相同,不同点在误差回传部分,误差回传需要将输出层前向传播得到的值作非线性计算(语音识别中一般用softmax函数),再与预备好的标注值向量相减得到误差向量用以回传。不同点在于:1)基线对于所有输出结点作非线性计算,而新网络需要对三音素状态集与线索结点分别作非线性计算;2)基线的标注为强制对齐的0-1分布向量,而新网络的标注需要在基线标注向量的基础上增加三维,这三维的确定是通过本帧语音对齐得到的三音素状态来获取其在线索类中的归属,将表示该类的维度设为1,其余为0。
4、剥离线索结点及识别:线索结点的剥离操作即将线索结点与外界的所有连接断开,得到的是与基线相同的网络结构。基线网络与新网络用于识别系统的方法完全相同。
测试结果用错误率来表示,其中中文为字错误率,英文为词错误率,结果如下:
由表中结果可以看出,新的方法有效地降低了识别错误率。在保证中文识别不受影响的情况下,明显地提升了训练数据量较少的英文上的性能。在中英文的测试集上,也体现出了本发明的效果,但是由于中英文测试集中中文相对英文比例大,因此提升不如在英文上明显。本发明在不影响解码速度的前提下,有效地提升中英文混合声学模型的性能。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种神经网络声学模型训练方法,所述方法为:在神经网络输出层增加一组线索结点,对增加线索节点后的神经网络进行训练;当训练完成后将线索结点从神经网络中剥离,得到剥离后的神经网络声学模型;
所述方法具体包含:
步骤101)搭建基础DNN网络架构,所述DNN网络架构包含:输入层,隐含层和输出层,其中输出层用于输出三音素状态集;
步骤102)对输出的三音素状态集聚类,并将聚类后的三音素根据中心音素进行分类,分为中文音素、英文音素及非语音音素三类;
步骤103)在输出层增加一组线索结点,该组线索结点分别对应步骤102)对三音素分类得到的三类结果;其中,加入的线索结点与最后一层隐含层全连接,得到最终网络架构;
步骤104)针对得到的最终网络架构进行训练,当训练完成后将线索结点从网络中剥离,得到剥离后的神经网络声学模型。
2.根据权利要求1所述的神经网络声学模型训练方法,其特征在于,所述方法还包括:基于剥离后的神经网络声学模型进行语音识别。
3.根据权利要求1所述的神经网络声学模型训练方法,其特征在于,所述步骤103)具体为:在输出层后串联三个结点作为线索结点,所述三个结点分别用来表示中文、英文或非语音状态,且加入的3个结点与最后一层隐含层的节点进行全连接。
4.根据权利要求1所述的神经网络声学模型训练方法,其特征在于,针对得到的最终网络架构进行训练的步骤中还包含误差回传的步骤具体包含:
步骤1)对三音素状态集与线索结点分别作非线性计算;
步骤2)在基线标注向量的基础上增加三维,其中增加的三维的确定策略为:通过本帧语音对齐得到的三音素状态来获取其在线索类中的归属,将表示该类的维度设为1,其余为0;
步骤3)将步骤2)中所得向量与步骤1)中所得向量相减获得误差向量用于训练进行回传。
5.根据权利要求4所述的神经网络声学模型训练方法,其特征在于,所述非线性计算为采用softmax函数。
6.根据权利要求1所述的神经网络声学模型训练方法,其特征在于,所述线索结点的剥离操作即将线索结点与外界的所有连接断开。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510290592.XA CN106297773B (zh) | 2015-05-29 | 2015-05-29 | 一种神经网络声学模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510290592.XA CN106297773B (zh) | 2015-05-29 | 2015-05-29 | 一种神经网络声学模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297773A CN106297773A (zh) | 2017-01-04 |
CN106297773B true CN106297773B (zh) | 2019-11-19 |
Family
ID=57654982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510290592.XA Active CN106297773B (zh) | 2015-05-29 | 2015-05-29 | 一种神经网络声学模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297773B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107195295B (zh) * | 2017-05-04 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN107301860B (zh) * | 2017-05-04 | 2020-06-23 | 百度在线网络技术(北京)有限公司 | 基于中英文混合词典的语音识别方法及装置 |
CN109147773B (zh) * | 2017-06-16 | 2021-10-26 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
CN108417207B (zh) * | 2018-01-19 | 2020-06-30 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN110085216A (zh) * | 2018-01-23 | 2019-08-02 | 中国科学院声学研究所 | 一种婴儿哭声检测方法及装置 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN108932943A (zh) * | 2018-07-12 | 2018-12-04 | 广州视源电子科技股份有限公司 | 命令词语音检测方法、装置、设备和存储介质 |
CN109243429B (zh) * | 2018-11-21 | 2021-12-10 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN109616102B (zh) * | 2019-01-09 | 2021-08-31 | 百度在线网络技术(北京)有限公司 | 声学模型的训练方法、装置及存储介质 |
CN110491382B (zh) * | 2019-03-11 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110930980B (zh) * | 2019-12-12 | 2022-08-05 | 思必驰科技股份有限公司 | 一种中英文混合语音的声学识别方法及系统 |
CN111128174A (zh) * | 2019-12-31 | 2020-05-08 | 北京猎户星空科技有限公司 | 一种语音信息的处理方法、装置、设备及介质 |
CN111477220B (zh) * | 2020-04-15 | 2023-04-25 | 南京邮电大学 | 一种面向家居口语环境的神经网络语音识别方法及系统 |
CN111210803B (zh) * | 2020-04-21 | 2021-08-03 | 南京硅基智能科技有限公司 | 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法 |
CN113035247B (zh) * | 2021-03-17 | 2022-12-23 | 广州虎牙科技有限公司 | 一种音频文本对齐方法、装置、电子设备及存储介质 |
CN113763939B (zh) * | 2021-09-07 | 2024-04-16 | 普强时代(珠海横琴)信息技术有限公司 | 基于端到端模型的混合语音识别系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
JPH11265197A (ja) * | 1997-12-13 | 1999-09-28 | Hyundai Electronics Ind Co Ltd | 可変入力神経網を利用した音声認識方法 |
CN101447184A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 基于音素混淆的中英文双语语音识别方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN103400145A (zh) * | 2013-07-19 | 2013-11-20 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
JP2014157323A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
CN104575497A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种声学模型建立方法及基于该模型的语音解码方法 |
-
2015
- 2015-05-29 CN CN201510290592.XA patent/CN106297773B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5805771A (en) * | 1994-06-22 | 1998-09-08 | Texas Instruments Incorporated | Automatic language identification method and system |
JPH11265197A (ja) * | 1997-12-13 | 1999-09-28 | Hyundai Electronics Ind Co Ltd | 可変入力神経網を利用した音声認識方法 |
CN101447184A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 基于音素混淆的中英文双语语音识别方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
JP2014157323A (ja) * | 2013-02-18 | 2014-08-28 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置、音響モデル学習装置、その方法及びプログラム |
CN103400145A (zh) * | 2013-07-19 | 2013-11-20 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN103400577A (zh) * | 2013-08-01 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 多语种语音识别的声学模型建立方法和装置 |
CN104575497A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种声学模型建立方法及基于该模型的语音解码方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106297773A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297773B (zh) | 一种神经网络声学模型训练方法 | |
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN106851216B (zh) | 一种基于人脸和语音识别的课堂行为监控系统及方法 | |
Schuller et al. | Cross-corpus acoustic emotion recognition: Variances and strategies | |
WO2018153213A1 (zh) | 一种多语言混合语音识别方法 | |
CN103971686B (zh) | 自动语音识别方法和系统 | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN108777140A (zh) | 一种非平行语料训练下基于vae的语音转换方法 | |
CN104575497B (zh) | 一种声学模型建立方法及基于该模型的语音解码方法 | |
CN107369440A (zh) | 一种针对短语音的说话人识别模型的训练方法及装置 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN105427858A (zh) | 实现语音自动分类的方法及系统 | |
CN106683666B (zh) | 一种基于深度神经网络的领域自适应方法 | |
CN105931635B (zh) | 一种音频分割方法及装置 | |
CN107146615A (zh) | 基于匹配模型二次识别的语音识别方法及系统 | |
CN109036467A (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
CN108922521A (zh) | 一种语音关键词检索方法、装置、设备及存储介质 | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
CN105261246A (zh) | 一种基于大数据挖掘技术的英语口语纠错系统 | |
CN106782502A (zh) | 一种儿童机器人用的语音识别装置 | |
CN107039036A (zh) | 一种基于自动编码深度置信网络的高质量说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |