CN105702250B - 语音识别方法和装置 - Google Patents
语音识别方法和装置 Download PDFInfo
- Publication number
- CN105702250B CN105702250B CN201610008069.8A CN201610008069A CN105702250B CN 105702250 B CN105702250 B CN 105702250B CN 201610008069 A CN201610008069 A CN 201610008069A CN 105702250 B CN105702250 B CN 105702250B
- Authority
- CN
- China
- Prior art keywords
- audio
- frames
- frame
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000005070 sampling Methods 0.000 claims abstract description 51
- 239000000203 mixture Substances 0.000 claims abstract description 38
- 238000003860 storage Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
为提供更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术,发明人提出了一种语音识别方法,包括下步骤:以预设采样参数以及预设格式存储儿童语音信息;从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;以gmm‑hmm模型为基础初始化一深度信念网络;以经训练的混合高斯模型‑隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn‑hmm模型;利用所述基于深度信念网络的dnn‑hmm模型进行语音识别。发明人同时提供了实现上述语音识别方法的语音识别装置。
Description
技术领域
本发明涉及语音信息处理和软件领域,特别涉及一种语音识别方法和装置。
背景技术
随着语音交互技术不断的发展,语音识别技术已经较为成熟完善。但受限于用户群体和语料的采集难度,儿童语音识别效率一直没有很好的提升手段。
在现有技术中,一种针对儿童的语音识别方法在提取语料声学特征的过程中加入声道长度归一化技术,以此来提升儿童语音的识别效率,并通过叠加多个模型的方式来训练声学模型。然而,现有主流的语音识别交互技术中,受限于语料的采集渠道和采集成本,目前成熟的语料库都只针对于成人的语音识别,鲜有儿童语料。同成年人的发音相比,儿童的发音发声速度变化迅速,咬字不准导致发音不清晰等问题,导致现有的语音识别徐婷对儿童的语音识别准确率极低。并且现有的声学模型构建多是采用高斯混合模型与隐马尔科夫模型相结合的方式,依据现有的特征提取方式,提取出的特征维度较少,不能很好的描述语音本身。
发明内容
基于此,需要提供一种能更全面地提取特征和对音频刻画更为具体因而识别能力更强的语音识别技术。
为实现上述目的,发明人提供了一种语音识别方法,包括如下步骤:
以预设采样参数以及预设格式存储儿童语音信息;
从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;
以gmm-hmm模型为基础初始化一深度信念网络;
以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;
利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
进一步地,所述的语音识别方法中,步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括:
提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
训练所述输入信息的第一层受限玻尔兹曼机;
以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络
进一步地,所述的语音识别方法中,所述“每帧音频及其前后若干帧音频”具体包括:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
进一步地,所述的语音识别方法中,步骤“训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机”具体包括:
使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
进一步地,所述的语音识别方法中,所述“预设采样参数以及预设格式”具体包括:
采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。
进一步地,所述的语音识别方法中,所述“预设采样参数以及预设格式”具体为:
采样率为16000Hz、采样位数为16位、单声道的wav格式。
进一步地,所述的语音识别方法中,步骤“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括:
训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。
进一步地,所述的语音识别方法中,所述步骤“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型”具体包括:
经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型。
发明人同时还提供了一种语音识别装置,包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元;
所述存储单元用于以预设采样参数以及预设格式存储儿童语音信息;
所述参数提取单元用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
所述第一建模单元用于训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;
所述第二建模单元用于以gmm-hmm模型为基础初始化一深度信念网络,并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;
所述识别单元用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
进一步地,所述的语音识别装置中,第二建模单元以gmm-hmm模型为基础初始化一深度信念网络具体包括:
提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
训练所述输入信息的第一层受限玻尔兹曼机;
以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络
进一步地,所述的语音识别装置中,所述“每帧音频及其前后若干帧音频”具体包括:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
进一步地,所述的语音识别装置中,第二建模单元训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机具体包括:
使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
进一步地,所述的语音识别装置中,所述“预设采样参数以及预设格式”具体包括:
采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。
进一步地,所述的语音识别装置中,所述“预设采样参数以及预设格式”具体为:
采样率为16000Hz、采样位数为16位、单声道的wav格式。
进一步地,所述的语音识别装置中,第一建模单元训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型具体包括:
训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。
进一步地,所述的语音识别装置中,第二建模单元以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型具体包括:
经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型。
区别于现有技术,上述技术方案通过采集儿童发音语料,利用深度学习的方法提取儿童语料中的特征参数,利用特征参数对现有的hmm声学模型进行修改,以适应儿童的发音;构建深度神经网络提取音频特征,相比普通的特征提取方式,以更丰富的帧数据作为输入,大大丰富了语音特征的参数个数,提取的特征更能全面、具体的刻画每帧音频,并且利用深度神经网络提升现有的gmm-hmm模型,形成dnn-hmm模型,而不是将多个声学模型进行简单的叠加,由此可大大拓展对儿童的语音识别能力。
附图说明
图1为本发明一实施方式所述的语音识别方法的流程图;
图2为本发明一实施方式所述的语音识别装置的结构示意图。
附图标记说明:
1-存储单元
2-参数提取单元
3-第一建模单元
4-第二建模单元
5-识别单元
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,为本发明一实施方式所述的语音识别方法的流程图;所述方法包括如下步骤:
S1、以预设采样参数以及预设格式存储儿童语音信息;
S2、从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
S3、训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;
S4、以gmm-hmm模型为基础初始化一深度信念网络;
S5、以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;
S6、利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
在某些实施方式中,步骤S1中所述的“预设采样参数以及预设格式”具体包括:采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。、
在某些实施方式中,步骤S3所述的“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括:训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。本发明涉及的技术方案中,每个音素由若干个状态构成,各状态又由若干帧构成,以状态为基础构造隐马尔科夫模型。
在一些更为优化的实施方式中,所述“预设采样参数以及预设格式”具体为:采样率为16000Hz、采样位数为16位、单声道的wav格式。
对于采样参数和存储格式的优化主要鉴于如下考虑:首先,采样率过高可能导致运算量加大,而过低又会导致语音的高频信息丢失严重,因此需要确定一个折中和可以同时兼顾运算量和信息真实度的方案。采样位数方面,数值越大解析度越高,因此需要确定一个可以同时兼顾分辨率和数据量的方案。声道方面,由于立体声主要用于烘托空间感,对于语音识别意义不大,并且要增加两倍的运算量,因此本发明大部分实施方式采取单声道存储。
在某些实施方式中,步骤S4所述的“以gmm-hmm模型为基础初始化一深度信念网络”又具体包括如下分步骤:
S41、提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
S42、训练所述输入信息的第一层受限玻尔兹曼机;
S43、以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
S44、对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络
针对不同的语言和不同的模型,输入音频帧数及其模式的使用效果是可能有差别的,经发明人研究发现,在某些更优化的实施方式中,步骤S41所述的“每帧音频及其前后若干帧音频”具体可以包括如下模式:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
如此一来会有和本发明的语言和模型所适配的较优的效果。
在另外一些优化的实施方式中,步骤S43所述的“训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机”具体做法:使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
进一步地,某些实施方式中,步骤S5所述的“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型”具体包括:
经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型。
请参阅图2,为本发明一实施方式所述的语音识别装置的结构示意图;所述装置包括存储单元1、参数提取单元2、第一建模单元3、第二建模单元4和识别单元5;
所述存储单元1用于以预设采样参数以及预设格式存储儿童语音信息;
所述参数提取单元2用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
所述第一建模单元3用于训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型;
所述第二建模单元4用于以gmm-hmm模型为基础初始化一深度信念网络,并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型;
所述识别单元5用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
在某些实施方式中,存储单元1在存储中所采取的“预设采样参数以及预设格式”具体包括:采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。、
在某些实施方式中,第一建模单元3“训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型”具体包括:训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率。本发明涉及的技术方案中,每个音素由若干个状态构成,各状态又由若干帧构成,以状态为基础构造隐马尔科夫模型。
在一些更为优化的实施方式中,所述“预设采样参数以及预设格式”具体为:采样率为16000Hz、采样位数为16位、单声道的wav格式。
对于采样参数和存储格式的优化主要鉴于如下考虑:首先,采样率过高可能导致运算量加大,而过低又会导致语音的高频信息丢失严重,因此需要确定一个折中和可以同时兼顾运算量和信息真实度的方案。采样位数方面,数值越大解析度越高,因此需要确定一个可以同时兼顾分辨率和数据量的方案。声道方面,由于立体声主要用于烘托空间感,对于语音识别意义不大,并且要增加两倍的运算量,因此本发明大部分实施方式采取单声道存储。
在某些实施方式中,第二建模单元4“以gmm-hmm模型为基础初始化一深度信念网络”的做法具体包括如下分步骤:
S41、提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
S42、训练所述输入信息的第一层受限玻尔兹曼机;
S43、以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
S44、对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络
针对不同的语言和不同的模型,输入音频帧数及其模式的使用效果是可能有差别的,经发明人研究发现,在某些更优化的实施方式中,所述的“每帧音频及其前后若干帧音频”具体可以包括如下模式:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
如此一来会有和本发明的语言和模型所适配的较优的效果。
在另外一些优化的实施方式中,第二建模单元4“训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机”具体做法:使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
进一步地,某些实施方式中,第二建模单元4“以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整,得到基于深度信念网络的dnn-hmm模型”具体包括:
经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型。
区别于现有技术,上述技术方案通过采集儿童发音语料,利用深度学习的方法提取儿童语料中的特征参数,利用特征参数对现有的hmm声学模型进行修改,以适应儿童的发音;构建深度神经网络提取音频特征,相比普通的特征提取方式,以更丰富的帧数据作为输入,大大丰富了语音特征的参数个数,提取的特征更能全面、具体的刻画每帧音频,并且利用深度神经网络提升现有的gmm-hmm模型,形成dnn-hmm模型,而不是将多个声学模型进行简单的叠加,由此可大大拓展对儿童的语音识别能力。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (12)
1.一种语音识别方法,其特征在于,包括如下步骤:
以预设采样参数以及预设格式存储儿童语音信息;
从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
训练各状态的混合高斯模型并构建各状态的隐马尔科夫模型,具体包括,训练各状态的高斯混合模型,每一状态由若干帧构成,以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率;
以gmm-hmm模型为基础初始化一深度信念网络,提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
以经训练的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型;
利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
2.如权利要求1所述的语音识别方法,其特征在于,步骤“以gmm-hmm模型为基础初始化一深度信念网络”具体包括:
训练所述输入信息的第一层受限玻尔兹曼机;
以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络
3.如权利要求2所述的语音识别方法,其特征在于,所述“每帧音频及其前后若干帧音频”具体包括:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
4.如权利要求2所述的语音识别方法,其特征在于,步骤“训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机”具体包括:
使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
5.如权利要求1或2所述的语音识别方法,其特征在于,所述“预设采样参数以及预设格式”具体包括:
采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。
6.如权利要求5所述的语音识别方法,其特征在于,所述“预设采样参数以及预设格式”具体为:
采样率为16000Hz、采样位数为16位、单声道的wav格式。
7.一种语音识别装置,其特征在于,包括存储单元、参数提取单元、第一建模单元、第二建模单元和识别单元;
所述存储单元用于以预设采样参数以及预设格式存储儿童语音信息;
所述参数提取单元用于从存储的儿童语音信息中提取每帧音频的39维梅尔频率倒谱系数,并用混合高斯模型描述所述各帧音频的39维梅尔频率倒谱系数;
所述第一建模单元用于训练各状态的高斯混合模型,每一状态由若干帧构成;以各状态为基础构建隐马尔科夫模型,确定每个状态之间的状态转移概率;
所述第二建模单元用于以gmm-hmm模型为基础初始化一深度信念网络,并以经第一建模单元训练和构建的混合高斯模型-隐马尔科夫模型对所述深度信念网络进行调整对齐,改变原gmm-hmm模型的状态输出概率,得到基于深度信念网络的dnn-hmm模型;
所述识别单元用于利用所述基于深度信念网络的dnn-hmm模型进行语音识别。
8.如权利要求7所述的语音识别装置,其特征在于,第二建模单元以gmm-hmm模型为基础初始化一深度信念网络具体包括:
提取每帧音频及其前后若干帧音频的梅尔频率倒谱系数作为输入信息以构造相应的高斯模型;
训练所述输入信息的第一层受限玻尔兹曼机;
以第一层受限玻尔兹曼机的训练输出作为第二层受限玻尔兹曼机的输入并训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机;
对顶层受限玻尔兹曼机,结合带分类标签的训练数据进行训练,并得到初始化的深度信念网络。
9.如权利要求8所述的语音识别装置,其特征在于,所述“每帧音频及其前后若干帧音频”具体包括:
每帧音频及其前4帧和后4帧音频;
每帧音频及其前5帧和后5帧音频;
每帧音频及其前4帧和后5帧音频;或
每帧音频及其前5帧和后4帧音频。
10.如权利要求8所述的语音识别装置,其特征在于,第二建模单元训练第二层受限玻尔兹曼机,直至顶层受限玻尔兹曼机具体包括:
使用伯努利模型并给予对比散度的快速学习算法迭代多次训练直至第六层受限玻尔兹曼机。
11.如权利要求7或8所述的语音识别装置,其特征在于,所述“预设采样参数以及预设格式”具体包括:
采样率为8000、16000或22050Hz;
采样位数为8位、16位或24位;
单声道的wav格式或mp3格式。
12.如权利要求11所述的语音识别装置,其特征在于,所述“预设采样参数以及预设格式”具体为:
采样率为16000Hz、采样位数为16位、单声道的wav格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610008069.8A CN105702250B (zh) | 2016-01-06 | 2016-01-06 | 语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610008069.8A CN105702250B (zh) | 2016-01-06 | 2016-01-06 | 语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105702250A CN105702250A (zh) | 2016-06-22 |
CN105702250B true CN105702250B (zh) | 2020-05-19 |
Family
ID=56226223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610008069.8A Active CN105702250B (zh) | 2016-01-06 | 2016-01-06 | 语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105702250B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106297792A (zh) * | 2016-09-14 | 2017-01-04 | 厦门幻世网络科技有限公司 | 一种语音口型动画的识别方法及装置 |
CN106531190B (zh) * | 2016-10-12 | 2020-05-05 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
CN106875935A (zh) * | 2017-01-22 | 2017-06-20 | 上海云信留客信息科技有限公司 | 语音智能识别清洗方法 |
CN106816147A (zh) * | 2017-01-25 | 2017-06-09 | 上海交通大学 | 基于二值神经网络声学模型的语音识别系统 |
CN108510979B (zh) * | 2017-02-27 | 2020-12-15 | 芋头科技(杭州)有限公司 | 一种混合频率声学识别模型的训练方法及语音识别方法 |
CN107680582B (zh) * | 2017-07-28 | 2021-03-26 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN109074822B (zh) * | 2017-10-24 | 2023-04-21 | 深圳和而泰智能控制股份有限公司 | 特定声音识别方法、设备和存储介质 |
CN108245177B (zh) * | 2018-01-05 | 2021-01-01 | 安徽大学 | 一种婴儿智能监护可穿戴设备及基于gmm-hmm-dnn的婴儿哭声识别方法 |
CN108417207B (zh) * | 2018-01-19 | 2020-06-30 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN109192200B (zh) * | 2018-05-25 | 2023-06-13 | 华侨大学 | 一种语音识别方法 |
CN109034246B (zh) * | 2018-07-27 | 2021-04-16 | 中国矿业大学(北京) | 一种路基含水状态的确定方法及确定系统 |
CN110853631A (zh) * | 2018-08-02 | 2020-02-28 | 珠海格力电器股份有限公司 | 智能家居的语音识别方法及装置 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN113793602B (zh) * | 2021-08-24 | 2022-05-10 | 北京数美时代科技有限公司 | 一种未成年人的音频识别方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1571012A (zh) * | 2003-07-11 | 2005-01-26 | 中国科学院声学研究所 | 语音识别的概率加权平均缺失特征数据重建方法 |
CN101101751A (zh) * | 2006-07-04 | 2008-01-09 | 株式会社东芝 | 语音识别装置和方法 |
CN102411931A (zh) * | 2010-09-15 | 2012-04-11 | 微软公司 | 用于大词汇量连续语音识别的深度信任网络 |
CN104751845A (zh) * | 2015-03-31 | 2015-07-01 | 江苏久祥汽车电器集团有限公司 | 一种用于智能机器人的声音识别方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9366451B2 (en) * | 2010-12-24 | 2016-06-14 | Commonwealth Scientific And Industrial Research Organisation | System and method for the detection of faults in a multi-variable system utilizing both a model for normal operation and a model for faulty operation |
US20140379346A1 (en) * | 2013-06-21 | 2014-12-25 | Google Inc. | Video analysis based language model adaptation |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
CN103956162B (zh) * | 2014-04-04 | 2017-02-08 | 上海元趣信息技术有限公司 | 针对儿童的语音识别方法及装置 |
US9520127B2 (en) * | 2014-04-29 | 2016-12-13 | Microsoft Technology Licensing, Llc | Shared hidden layer combination for speech recognition systems |
CN104182621B (zh) * | 2014-08-08 | 2017-06-13 | 同济大学 | 基于深度信念网络的adhd判别分析方法 |
CN104157290B (zh) * | 2014-08-19 | 2017-10-24 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104464423A (zh) * | 2014-12-19 | 2015-03-25 | 科大讯飞股份有限公司 | 一种口语考试评测的校标优化方法及系统 |
CN104572940B (zh) * | 2014-12-30 | 2017-11-21 | 中国人民解放军海军航空工程学院 | 一种基于深度学习与典型相关分析的图像自动标注方法 |
-
2016
- 2016-01-06 CN CN201610008069.8A patent/CN105702250B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1571012A (zh) * | 2003-07-11 | 2005-01-26 | 中国科学院声学研究所 | 语音识别的概率加权平均缺失特征数据重建方法 |
CN101101751A (zh) * | 2006-07-04 | 2008-01-09 | 株式会社东芝 | 语音识别装置和方法 |
CN102411931A (zh) * | 2010-09-15 | 2012-04-11 | 微软公司 | 用于大词汇量连续语音识别的深度信任网络 |
CN104751845A (zh) * | 2015-03-31 | 2015-07-01 | 江苏久祥汽车电器集团有限公司 | 一种用于智能机器人的声音识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
"Feature engineering in Context-Dependent Deep neural networks for conversational speech transcription";Frank Seide;《IEEE》;20111215;全文 * |
"基于深度学习的语音识别研究";梁静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;全文 * |
"深度神经网络技术在汉语语音识别声学建模中的优化策略";肖业鸣;《重庆邮电大学学报(自然科学版)》;20140630;第26卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN105702250A (zh) | 2016-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105702250B (zh) | 语音识别方法和装置 | |
CN105427858B (zh) | 实现语音自动分类的方法及系统 | |
Tzinis et al. | Segment-based speech emotion recognition using recurrent neural networks | |
US20230197057A1 (en) | Speech Recognition Using Unspoken Text and Speech Synthesis | |
CN105976812B (zh) | 一种语音识别方法及其设备 | |
CN109065033B (zh) | 一种基于随机深度时延神经网络模型的自动语音识别方法 | |
CN108711421B (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN108305643B (zh) | 情感信息的确定方法和装置 | |
CN106531150B (zh) | 一种基于深度神经网络模型的情感合成方法 | |
CN107039034B (zh) | 一种韵律预测方法及系统 | |
CN108090038B (zh) | 文本断句方法及系统 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN111915707B (zh) | 一种基于音频信息的口型动画展示方法、装置及存储介质 | |
US11823656B2 (en) | Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech | |
CN105931635B (zh) | 一种音频分割方法及装置 | |
CN109065032A (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
CN106688034A (zh) | 具有情感内容的文字至语音转换 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN112185363B (zh) | 音频处理方法及装置 | |
WO2022048404A1 (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
EP4233044A1 (en) | Parallel tacotron: non-autoregressive and controllable tts | |
CN109102800A (zh) | 一种确定歌词显示数据的方法和装置 | |
CN111192659A (zh) | 用于抑郁检测的预训练方法和抑郁检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |