CN113380228A - 一种基于循环神经网络语言模型的在线语音识别方法和系统 - Google Patents

一种基于循环神经网络语言模型的在线语音识别方法和系统 Download PDF

Info

Publication number
CN113380228A
CN113380228A CN202110636164.3A CN202110636164A CN113380228A CN 113380228 A CN113380228 A CN 113380228A CN 202110636164 A CN202110636164 A CN 202110636164A CN 113380228 A CN113380228 A CN 113380228A
Authority
CN
China
Prior art keywords
scoring
voice
model
voice audio
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110636164.3A
Other languages
English (en)
Inventor
欧智坚
刘岩
肖吉
孙磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tasi Intelligent Technology Co ltd
Original Assignee
Beijing Tasi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tasi Intelligent Technology Co ltd filed Critical Beijing Tasi Intelligent Technology Co ltd
Priority to CN202110636164.3A priority Critical patent/CN113380228A/zh
Publication of CN113380228A publication Critical patent/CN113380228A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统,所述方法包括:针对原始音频进行特征提取,获得完成特征提取的语音音频;将所述语音音频输入至声学模型中进行打分,获得声学模型得分;将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;将解码后的语音音频作为识别结果进行输出。

Description

一种基于循环神经网络语言模型的在线语音识别方法和系统
技术领域
本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统,属于语音识别技术领域。
背景技术
目前基于RNN的语言模型主要用于对传统ASR识别得到的N-best或者lattice做重新打分(rescore),也就是说需要两个阶段,第一阶段是使用传统ASR系统做语音识别,第二阶段是使用RNN语言模型对第一阶段获得的识别结果做重新打分。因此RNN语言模型只用于离线语音识别系统,无法用于在线语音识别系统。
发明内容
本发明提供了一种基于循环神经网络语言模型的在线语音识别方法和系统,用以解决现有RNN语言模型无法应用于在先语音识别中的问题,所采取的技术方案如下:
一种基于循环神经网络语言模型的在线语音识别方法和系统,所述方法包括:
针对原始音频进行特征提取,获得完成特征提取的语音音频;
将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
进一步地,将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括:
利用多元文法构建WFST模型;
将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
利用RNN语音模型所有历史词信息进行重新打分。
进一步地,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
进一步地,利用RNN语音模型所有历史词信息进行重新打分,包括:
利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
利用将向前计算后的语音音频输入至RNN语音模型中;
所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
在到达重新打分的时机时,立即对语音音频进行重新打分。
一种基于循环神经网络语言模型的在线语音识别系统,所述系统包括:
提取模块,用于针对原始音频进行特征提取,获得完成特征提取的语音音频;
打分模块,用于将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
重新打分模块,用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
进一步地,所述重新打分模块包括:
构建模块,用于利用多元文法构建WFST模型;
解码模块,用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
重新打分子模块,用于利用RNN语音模型所有历史词信息进行重新打分。
进一步地,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
进一步地,所述重新打分子模块包括:
向前计算模块,用于利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
输入模块,用于利用将向前计算后的语音音频输入至RNN语音模型中;
解码打分模块,用于所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
打分子模块,用于在到达重新打分的时机时,立即对语音音频进行重新打分。
进一步地,所述系统还包括:
批量处理模块,用于当在同一重新打分的时机时,存在多条路径的语音音频需要进行重新打分时,采用GPU芯片通过高并行处理方式,对多条路径的语音音频进行批量重新打分处理。
本发明有益效果:
本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统能够使RNNR语音模型应用于在线语音识别系统中,并且能够有效提高在线语音识别的准确性和识别效率。同时,本发明提出一种基于RNN语言模型的在线语音识别系统,充分利用RNN语言模型的优势,取得了比传统基于多元文法语言模型在线语音识别系统更好的效果。
附图说明
图1为本发明所述方法的原理图;
图2为本发明所述方法的流程图;
图3为本发明所述系统的系统框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提出了一种基于循环神经网络语言模型的在线语音识别方法和系统,如图1和图2所示,所述方法包括:
S1、针对原始音频进行特征提取,获得完成特征提取的语音音频;
S2、将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
S3、将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
S4、将解码后的语音音频作为识别结果进行输出。
其中,将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括:
S301、利用多元文法构建WFST模型;
S302、将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
S303、利用RNN语音模型所有历史词信息进行重新打分。
其中,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
利用RNN语音模型所有历史词信息进行重新打分,包括:
S3031、利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
S3032、利用将向前计算后的语音音频输入至RNN语音模型中;
S3033、所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
S3034、在到达重新打分的时机时,立即对语音音频进行重新打分。
上述技术方案的效果为:本实施例提出了一种基于循环神经网络语言模型的在线语音识别方法能够使RNNR语音模型应用于在线语音识别系统中,并且能够有效提高在线语音识别的准确性和识别效率。同时,本发明提出一种基于RNN语言模型的在线语音识别方法,充分利用RNN语言模型的优势,取得了比传统基于多元文法语言模型在线语音识别方法更好的效果。
本发明实施例提出了一种基于循环神经网络语言模型的在线语音识别系统,如图3所示,所述系统包括:
提取模块,用于针对原始音频进行特征提取,获得完成特征提取的语音音频;
打分模块,用于将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
重新打分模块,用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
其中,所述重新打分模块包括:
构建模块,用于利用多元文法构建WFST模型;
解码模块,用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
重新打分子模块,用于利用RNN语音模型所有历史词信息进行重新打分。
所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
其中,所述重新打分子模块包括:
向前计算模块,用于利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
输入模块,用于利用将向前计算后的语音音频输入至RNN语音模型中;
解码打分模块,用于所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
打分子模块,用于在到达重新打分的时机时,立即对语音音频进行重新打分。
所述系统还包括:
批量处理模块,用于当在同一重新打分的时机时,存在多条路径的语音音频需要进行重新打分时,采用GPU芯片通过高并行处理方式,对多条路径的语音音频进行批量重新打分处理
上述技术方案的效果为:本实施例提出了一种基于循环神经网络语言模型的在线语音识别系统能够使RNNR语音模型应用于在线语音识别系统中,并且能够有效提高在线语音识别的准确性和识别效率。同时,本发明提出一种基于RNN语言模型的在线语音识别系统,充分利用RNN语言模型的优势,取得了比传统基于多元文法语言模型在线语音识别系统更好的效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于循环神经网络语言模型的在线语音识别方法,其特征在于,所述方法包括:
针对原始音频进行特征提取,获得完成特征提取的语音音频;
将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
2.根据权利要求1所述在线语音识别方法,其特征在于,将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括:
利用多元文法构建WFST模型;
将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
利用RNN语音模型所有历史词信息进行重新打分。
3.根据权利要求2所述在线语音识别方法,其特征在于,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
4.根据权利要求2所述在线语音识别方法,其特征在于,利用RNN语音模型所有历史词信息进行重新打分,包括:
利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
利用将向前计算后的语音音频输入至RNN语音模型中;
所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
在到达重新打分的时机时,立即对语音音频进行重新打分。
5.一种基于循环神经网络语言模型的在线语音识别系统,其特征在于,所述系统包括:
提取模块,用于针对原始音频进行特征提取,获得完成特征提取的语音音频;
打分模块,用于将所述语音音频输入至声学模型中进行打分,获得声学模型得分;
重新打分模块,用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分,获得解码后的语音音频;
将解码后的语音音频作为识别结果进行输出。
6.根据权利要求5所述在线语音识别系统,其特征在于,所述重新打分模块包括:
构建模块,用于利用多元文法构建WFST模型;
解码模块,用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码,获得若干条最优词串信息,并将所述若干条最优词串信息保留在当前帧,形成历史词信息;
重新打分子模块,用于利用RNN语音模型所有历史词信息进行重新打分。
7.根据权利要求6所述在线语音识别系统,其特征在于,所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。
8.根据权利要求6所述在线语音识别系统,其特征在于,所述重新打分子模块包括:
向前计算模块,用于利用神经网络对所述打分后的语音音频进行向前计算,获得向前计算后的语音音频;
输入模块,用于利用将向前计算后的语音音频输入至RNN语音模型中;
解码打分模块,用于所述RNN语音模型利用延迟打分策略,通过解码器根据实时的幸存路径和解码参数确定重新打分的时机;
打分子模块,用于在到达重新打分的时机时,立即对语音音频进行重新打分。
9.根据权利要求5所述在线语音识别系统,其特征在于,所述系统还包括:
批量处理模块,用于当在同一重新打分的时机时,存在多条路径的语音音频需要进行重新打分时,采用GPU芯片通过高并行处理方式,对多条路径的语音音频进行批量重新打分处理。
CN202110636164.3A 2021-06-08 2021-06-08 一种基于循环神经网络语言模型的在线语音识别方法和系统 Pending CN113380228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110636164.3A CN113380228A (zh) 2021-06-08 2021-06-08 一种基于循环神经网络语言模型的在线语音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110636164.3A CN113380228A (zh) 2021-06-08 2021-06-08 一种基于循环神经网络语言模型的在线语音识别方法和系统

Publications (1)

Publication Number Publication Date
CN113380228A true CN113380228A (zh) 2021-09-10

Family

ID=77576487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110636164.3A Pending CN113380228A (zh) 2021-06-08 2021-06-08 一种基于循环神经网络语言模型的在线语音识别方法和系统

Country Status (1)

Country Link
CN (1) CN113380228A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174576A1 (en) * 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer
CN109215630A (zh) * 2018-11-14 2019-01-15 北京羽扇智信息科技有限公司 实时语音识别方法、装置、设备及存储介质
CN110858480A (zh) * 2018-08-15 2020-03-03 中国科学院声学研究所 一种基于n元文法神经网络语言模型的语音识别方法
CN110992938A (zh) * 2019-12-10 2020-04-10 同盾控股有限公司 语音数据处理方法、装置、电子设备及计算机可读介质
CN111179916A (zh) * 2019-12-31 2020-05-19 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180174576A1 (en) * 2016-12-21 2018-06-21 Google Llc Acoustic-to-word neural network speech recognizer
CN110858480A (zh) * 2018-08-15 2020-03-03 中国科学院声学研究所 一种基于n元文法神经网络语言模型的语音识别方法
CN109215630A (zh) * 2018-11-14 2019-01-15 北京羽扇智信息科技有限公司 实时语音识别方法、装置、设备及存储介质
CN110992938A (zh) * 2019-12-10 2020-04-10 同盾控股有限公司 语音数据处理方法、装置、电子设备及计算机可读介质
CN111179916A (zh) * 2019-12-31 2020-05-19 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张剑: "连续语音识别中的循环神经网络语言模型技术研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
李华 等: "基于LSTM RNNLM的N-best重打分算法", 《信息工程大学学报》 *

Similar Documents

Publication Publication Date Title
CN111429889B (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
US7529671B2 (en) Block synchronous decoding
Cai et al. From speaker verification to multispeaker speech synthesis, deep transfer with feedback constraint
Chen et al. Pronunciation and silence probability modeling for ASR.
CN111916058A (zh) 一种基于增量词图重打分的语音识别方法及系统
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN1312543A (zh) 语音识别装置、识别方法以及记录介质
Takashima et al. Investigation of sequence-level knowledge distillation methods for CTC acoustic models
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP2003515778A (ja) 別々の言語モデルによる音声認識方法及び装置
US20110161084A1 (en) Apparatus, method and system for generating threshold for utterance verification
WO2009139230A1 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP2023175029A (ja) アテンションベースのジョイント音響およびテキストのオンデバイス・エンド・ツー・エンドモデル
JP3535292B2 (ja) 音声認識システム
CN113380228A (zh) 一种基于循环神经网络语言模型的在线语音识别方法和系统
JP2002358097A (ja) 音声認識装置
Li et al. Speaker embedding extraction with multi-feature integration structure
Prabhavalkar et al. Extreme encoder output frame rate reduction: Improving computational latencies of large end-to-end models
KR20240069763A (ko) 캐스케이드 인코더를 위한 트랜스듀서 기반 스트리밍 심의
Fine et al. Digit recognition in noisy environments via a sequential GMM/SVM system
Wang et al. ExKaldi-RT: A real-time automatic speech recognition extension toolkit of Kaldi
Du et al. Pan: Phoneme-aware network for monaural speech enhancement
CN113160828A (zh) 智能辅助机器人交互方法、系统、电子设备及存储介质
Magimai-Doss et al. Joint decoding for phoneme-grapheme continuous speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210910