CN113380228A - 一种基于循环神经网络语言模型的在线语音识别方法和系统 - Google Patents
一种基于循环神经网络语言模型的在线语音识别方法和系统 Download PDFInfo
- Publication number
- CN113380228A CN113380228A CN202110636164.3A CN202110636164A CN113380228A CN 113380228 A CN113380228 A CN 113380228A CN 202110636164 A CN202110636164 A CN 202110636164A CN 113380228 A CN113380228 A CN 113380228A
- Authority
- CN
- China
- Prior art keywords
- scoring
- voice
- model
- voice audio
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 20
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统,所述方法包括:针对原始音频进行特征提取,获得完成特征提取的语音音频;将所述语音音频输入至声学模型中进行打分,获得声学模型得分;将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;将解码后的语音音频作为识别结果进行输出。
Description
技术领域
本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统,属于语音识别技术领域。
背景技术
目前基于RNN的语言模型主要用于对传统ASR识别得到的N-best或者lattice做重新打分(rescore),也就是说需要两个阶段,第一阶段是使用传统ASR系统做语音识别,第二阶段是使用RNN语言模型对第一阶段获得的识别结果做重新打分。因此RNN语言模型只用于离线语音识别系统,无法用于在线语音识别系统。
发明内容
本发明提供了一种基于循环神经网络语言模型的在线语音识别方法和系统,用以解决现有RNN语言模型无法应用于在先语音识别中的问题,所采取的技术方案如下:
一种基于循环神经网络语言模型的在线语音识别方法和系统,所述方法包括:
针对原始音频进行特征提取,获得完成特征提取的语音音频;
将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
进一步地,将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括:
利用多元文法构建WFST模型;
将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
利用RNN语音模型所有历史词信息进行重新打分。
进一步地,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
进一步地,利用RNN语音模型所有历史词信息进行重新打分,包括:
利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
利用将向前计算后的语音音频输入至RNN语音模型中;
所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
在到达重新打分的时机时,立即对语音音频进行重新打分。
一种基于循环神经网络语言模型的在线语音识别系统,所述系统包括:
提取模块,用于针对原始音频进行特征提取,获得完成特征提取的语音音频;
打分模块,用于将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
重新打分模块,用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
进一步地,所述重新打分模块包括:
构建模块,用于利用多元文法构建WFST模型;
解码模块,用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
重新打分子模块,用于利用RNN语音模型所有历史词信息进行重新打分。
进一步地,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
进一步地,所述重新打分子模块包括:
向前计算模块,用于利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
输入模块,用于利用将向前计算后的语音音频输入至RNN语音模型中;
解码打分模块,用于所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
打分子模块,用于在到达重新打分的时机时,立即对语音音频进行重新打分。
进一步地,所述系统还包括:
批量处理模块,用于当在同一重新打分的时机时,存在多条路径的语音音频需要进行重新打分时,采用GPU芯片通过高并行处理方式,对多条路径的语音音频进行批量重新打分处理。
本发明有益效果:
本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统能够使RNNR语音模型应用于在线语音识别系统中,并且能够有效提高在线语音识别的准确性和识别效率。同时,本发明提出一种基于RNN语言模型的在线语音识别系统,充分利用RNN语言模型的优势,取得了比传统基于多元文法语言模型在线语音识别系统更好的效果。
附图说明
图1为本发明所述方法的原理图;
图2为本发明所述方法的流程图;
图3为本发明所述系统的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提出了一种基于循环神经网络语言模型的在线语音识别方法和系统,如图1和图2所示,所述方法包括:
S1、针对原始音频进行特征提取,获得完成特征提取的语音音频;
S2、将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
S3、将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
S4、将解码后的语音音频作为识别结果进行输出。
其中,将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括:
S301、利用多元文法构建WFST模型;
S302、将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
S303、利用RNN语音模型所有历史词信息进行重新打分。
其中,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
利用RNN语音模型所有历史词信息进行重新打分,包括:
S3031、利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
S3032、利用将向前计算后的语音音频输入至RNN语音模型中;
S3033、所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
S3034、在到达重新打分的时机时,立即对语音音频进行重新打分。
上述技术方案的效果为:本实施例提出了一种基于循环神经网络语言模型的在线语音识别方法能够使RNNR语音模型应用于在线语音识别系统中,并且能够有效提高在线语音识别的准确性和识别效率。同时,本发明提出一种基于RNN语言模型的在线语音识别方法,充分利用RNN语言模型的优势,取得了比传统基于多元文法语言模型在线语音识别方法更好的效果。
本发明实施例提出了一种基于循环神经网络语言模型的在线语音识别系统,如图3所示,所述系统包括:
提取模块,用于针对原始音频进行特征提取,获得完成特征提取的语音音频;
打分模块,用于将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
重新打分模块,用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
其中,所述重新打分模块包括:
构建模块,用于利用多元文法构建WFST模型;
解码模块,用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
重新打分子模块,用于利用RNN语音模型所有历史词信息进行重新打分。
所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
其中,所述重新打分子模块包括:
向前计算模块,用于利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
输入模块,用于利用将向前计算后的语音音频输入至RNN语音模型中;
解码打分模块,用于所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
打分子模块,用于在到达重新打分的时机时,立即对语音音频进行重新打分。
所述系统还包括:
批量处理模块,用于当在同一重新打分的时机时,存在多条路径的语音音频需要进行重新打分时,采用GPU芯片通过高并行处理方式,对多条路径的语音音频进行批量重新打分处理
上述技术方案的效果为:本实施例提出了一种基于循环神经网络语言模型的在线语音识别系统能够使RNNR语音模型应用于在线语音识别系统中,并且能够有效提高在线语音识别的准确性和识别效率。同时,本发明提出一种基于RNN语言模型的在线语音识别系统,充分利用RNN语言模型的优势,取得了比传统基于多元文法语言模型在线语音识别系统更好的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于循环神经网络语言模型的在线语音识别方法,其特征在于,所述方法包括:
针对原始音频进行特征提取,获得完成特征提取的语音音频;
将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
2.根据权利要求1所述在线语音识别方法,其特征在于,将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括:
利用多元文法构建WFST模型;
将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
利用RNN语音模型所有历史词信息进行重新打分。
3.根据权利要求2所述在线语音识别方法,其特征在于,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
4.根据权利要求2所述在线语音识别方法,其特征在于,利用RNN语音模型所有历史词信息进行重新打分,包括:
利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
利用将向前计算后的语音音频输入至RNN语音模型中;
所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
在到达重新打分的时机时,立即对语音音频进行重新打分。
5.一种基于循环神经网络语言模型的在线语音识别系统,其特征在于,所述系统包括:
提取模块,用于针对原始音频进行特征提取,获得完成特征提取的语音音频;
打分模块,用于将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
重新打分模块,用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
6.根据权利要求5所述在线语音识别系统,其特征在于,所述重新打分模块包括:
构建模块,用于利用多元文法构建WFST模型;
解码模块,用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
重新打分子模块,用于利用RNN语音模型所有历史词信息进行重新打分。
7.根据权利要求6所述在线语音识别系统,其特征在于,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
8.根据权利要求6所述在线语音识别系统,其特征在于,所述重新打分子模块包括:
向前计算模块,用于利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
输入模块,用于利用将向前计算后的语音音频输入至RNN语音模型中;
解码打分模块,用于所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
打分子模块,用于在到达重新打分的时机时,立即对语音音频进行重新打分。
9.根据权利要求5所述在线语音识别系统,其特征在于,所述系统还包括:
批量处理模块,用于当在同一重新打分的时机时,存在多条路径的语音音频需要进行重新打分时,采用GPU芯片通过高并行处理方式,对多条路径的语音音频进行批量重新打分处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636164.3A CN113380228A (zh) | 2021-06-08 | 2021-06-08 | 一种基于循环神经网络语言模型的在线语音识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110636164.3A CN113380228A (zh) | 2021-06-08 | 2021-06-08 | 一种基于循环神经网络语言模型的在线语音识别方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113380228A true CN113380228A (zh) | 2021-09-10 |
Family
ID=77576487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110636164.3A Pending CN113380228A (zh) | 2021-06-08 | 2021-06-08 | 一种基于循环神经网络语言模型的在线语音识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380228A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180174576A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Acoustic-to-word neural network speech recognizer |
CN109215630A (zh) * | 2018-11-14 | 2019-01-15 | 北京羽扇智信息科技有限公司 | 实时语音识别方法、装置、设备及存储介质 |
CN110858480A (zh) * | 2018-08-15 | 2020-03-03 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN110992938A (zh) * | 2019-12-10 | 2020-04-10 | 同盾控股有限公司 | 语音数据处理方法、装置、电子设备及计算机可读介质 |
CN111179916A (zh) * | 2019-12-31 | 2020-05-19 | 广州市百果园信息技术有限公司 | 重打分模型训练方法、语音识别方法及相关装置 |
-
2021
- 2021-06-08 CN CN202110636164.3A patent/CN113380228A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180174576A1 (en) * | 2016-12-21 | 2018-06-21 | Google Llc | Acoustic-to-word neural network speech recognizer |
CN110858480A (zh) * | 2018-08-15 | 2020-03-03 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN109215630A (zh) * | 2018-11-14 | 2019-01-15 | 北京羽扇智信息科技有限公司 | 实时语音识别方法、装置、设备及存储介质 |
CN110992938A (zh) * | 2019-12-10 | 2020-04-10 | 同盾控股有限公司 | 语音数据处理方法、装置、电子设备及计算机可读介质 |
CN111179916A (zh) * | 2019-12-31 | 2020-05-19 | 广州市百果园信息技术有限公司 | 重打分模型训练方法、语音识别方法及相关装置 |
Non-Patent Citations (2)
Title |
---|
张剑: "连续语音识别中的循环神经网络语言模型技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
李华 等: "基于LSTM RNNLM的N-best重打分算法", 《信息工程大学学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429889B (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
US7529671B2 (en) | Block synchronous decoding | |
Cai et al. | From speaker verification to multispeaker speech synthesis, deep transfer with feedback constraint | |
Chen et al. | Pronunciation and silence probability modeling for ASR. | |
CN111916058A (zh) | 一种基于增量词图重打分的语音识别方法及系统 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN1312543A (zh) | 语音识别装置、识别方法以及记录介质 | |
Takashima et al. | Investigation of sequence-level knowledge distillation methods for CTC acoustic models | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP2003515778A (ja) | 別々の言語モデルによる音声認識方法及び装置 | |
US20110161084A1 (en) | Apparatus, method and system for generating threshold for utterance verification | |
WO2009139230A1 (ja) | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 | |
JP2023175029A (ja) | アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル | |
JP3535292B2 (ja) | 音声認識システム | |
CN113380228A (zh) | 一种基于循环神经网络语言模型的在线语音识别方法和系统 | |
JP2002358097A (ja) | 音声認識装置 | |
Li et al. | Speaker embedding extraction with multi-feature integration structure | |
Prabhavalkar et al. | Extreme encoder output frame rate reduction: Improving computational latencies of large end-to-end models | |
KR20240069763A (ko) | 캐스케이드 인코더를 위한 트랜스듀서 기반 스트리밍 심의 | |
Fine et al. | Digit recognition in noisy environments via a sequential GMM/SVM system | |
Wang et al. | ExKaldi-RT: A real-time automatic speech recognition extension toolkit of Kaldi | |
Du et al. | Pan: Phoneme-aware network for monaural speech enhancement | |
CN113160828A (zh) | 智能辅助机器人交互方法、系统、电子设备及存储介质 | |
Magimai-Doss et al. | Joint decoding for phoneme-grapheme continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |