CN113380228A

CN113380228A - 一种基于循环神经网络语言模型的在线语音识别方法和系统

Info

Publication number: CN113380228A
Application number: CN202110636164.3A
Authority: CN
Inventors: 欧智坚; 刘岩; 肖吉; 孙磊
Original assignee: Beijing Tasi Intelligent Technology Co ltd
Current assignee: Beijing Tasi Intelligent Technology Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-09-10

Abstract

本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统，所述方法包括：针对原始音频进行特征提取，获得完成特征提取的语音音频；将所述语音音频输入至声学模型中进行打分，获得声学模型得分；将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分，获得解码后的语音音频；将解码后的语音音频作为识别结果进行输出。

Description

一种基于循环神经网络语言模型的在线语音识别方法和系统

技术领域

本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统，属于语音识别技术领域。

背景技术

目前基于RNN的语言模型主要用于对传统ASR识别得到的N-best或者lattice做重新打分(rescore)，也就是说需要两个阶段，第一阶段是使用传统ASR系统做语音识别，第二阶段是使用RNN语言模型对第一阶段获得的识别结果做重新打分。因此RNN语言模型只用于离线语音识别系统，无法用于在线语音识别系统。

发明内容

本发明提供了一种基于循环神经网络语言模型的在线语音识别方法和系统，用以解决现有RNN语言模型无法应用于在先语音识别中的问题，所采取的技术方案如下：

一种基于循环神经网络语言模型的在线语音识别方法和系统，所述方法包括：

针对原始音频进行特征提取，获得完成特征提取的语音音频；

将所述语音音频输入至声学模型中进行打分，获得声学模型得分；

将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分，获得解码后的语音音频；

将解码后的语音音频作为识别结果进行输出。

进一步地，将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括：

利用多元文法构建WFST模型；

将所述完成特征提取的语音音频输入至所述WFST模型中进行解码，获得若干条最优词串信息，并将所述若干条最优词串信息保留在当前帧，形成历史词信息；

利用RNN语音模型所有历史词信息进行重新打分。

进一步地，所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。

进一步地，利用RNN语音模型所有历史词信息进行重新打分，包括：

利用神经网络对所述打分后的语音音频进行向前计算，获得向前计算后的语音音频；

利用将向前计算后的语音音频输入至RNN语音模型中；

所述RNN语音模型利用延迟打分策略，通过解码器根据实时的幸存路径和解码参数确定重新打分的时机；

在到达重新打分的时机时，立即对语音音频进行重新打分。

一种基于循环神经网络语言模型的在线语音识别系统，所述系统包括：

提取模块，用于针对原始音频进行特征提取，获得完成特征提取的语音音频；

打分模块，用于将所述语音音频输入至声学模型中进行打分，获得声学模型得分；

重新打分模块，用于将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分，获得解码后的语音音频；

将解码后的语音音频作为识别结果进行输出。

进一步地，所述重新打分模块包括：

构建模块，用于利用多元文法构建WFST模型；

解码模块，用于将所述完成特征提取的语音音频输入至所述WFST模型中进行解码，获得若干条最优词串信息，并将所述若干条最优词串信息保留在当前帧，形成历史词信息；

重新打分子模块，用于利用RNN语音模型所有历史词信息进行重新打分。

进一步地，所述重新打分子模块包括：

向前计算模块，用于利用神经网络对所述打分后的语音音频进行向前计算，获得向前计算后的语音音频；

输入模块，用于利用将向前计算后的语音音频输入至RNN语音模型中；

解码打分模块，用于所述RNN语音模型利用延迟打分策略，通过解码器根据实时的幸存路径和解码参数确定重新打分的时机；

打分子模块，用于在到达重新打分的时机时，立即对语音音频进行重新打分。

进一步地，所述系统还包括：

批量处理模块，用于当在同一重新打分的时机时，存在多条路径的语音音频需要进行重新打分时，采用GPU芯片通过高并行处理方式，对多条路径的语音音频进行批量重新打分处理。

本发明有益效果：

本发明提出了一种基于循环神经网络语言模型的在线语音识别方法和系统能够使RNNR语音模型应用于在线语音识别系统中，并且能够有效提高在线语音识别的准确性和识别效率。同时，本发明提出一种基于RNN语言模型的在线语音识别系统，充分利用RNN语言模型的优势，取得了比传统基于多元文法语言模型在线语音识别系统更好的效果。

附图说明

图1为本发明所述方法的原理图；

图2为本发明所述方法的流程图；

图3为本发明所述系统的系统框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提出了一种基于循环神经网络语言模型的在线语音识别方法和系统，如图1和图2所示，所述方法包括：

S1、针对原始音频进行特征提取，获得完成特征提取的语音音频；

S2、将所述语音音频输入至声学模型中进行打分，获得声学模型得分；

S3、将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分，获得解码后的语音音频；

S4、将解码后的语音音频作为识别结果进行输出。

其中，将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括：

S301、利用多元文法构建WFST模型；

S302、将所述完成特征提取的语音音频输入至所述WFST模型中进行解码，获得若干条最优词串信息，并将所述若干条最优词串信息保留在当前帧，形成历史词信息；

S303、利用RNN语音模型所有历史词信息进行重新打分。

其中，所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。

利用RNN语音模型所有历史词信息进行重新打分，包括：

S3031、利用神经网络对所述打分后的语音音频进行向前计算，获得向前计算后的语音音频；

S3032、利用将向前计算后的语音音频输入至RNN语音模型中；

S3033、所述RNN语音模型利用延迟打分策略，通过解码器根据实时的幸存路径和解码参数确定重新打分的时机；

S3034、在到达重新打分的时机时，立即对语音音频进行重新打分。

上述技术方案的效果为：本实施例提出了一种基于循环神经网络语言模型的在线语音识别方法能够使RNNR语音模型应用于在线语音识别系统中，并且能够有效提高在线语音识别的准确性和识别效率。同时，本发明提出一种基于RNN语言模型的在线语音识别方法，充分利用RNN语言模型的优势，取得了比传统基于多元文法语言模型在线语音识别方法更好的效果。

本发明实施例提出了一种基于循环神经网络语言模型的在线语音识别系统，如图3所示，所述系统包括：

将解码后的语音音频作为识别结果进行输出。

其中，所述重新打分模块包括：

构建模块，用于利用多元文法构建WFST模型；

所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。

其中，所述重新打分子模块包括：

所述系统还包括：

批量处理模块，用于当在同一重新打分的时机时，存在多条路径的语音音频需要进行重新打分时，采用GPU芯片通过高并行处理方式，对多条路径的语音音频进行批量重新打分处理

上述技术方案的效果为：本实施例提出了一种基于循环神经网络语言模型的在线语音识别系统能够使RNNR语音模型应用于在线语音识别系统中，并且能够有效提高在线语音识别的准确性和识别效率。同时，本发明提出一种基于RNN语言模型的在线语音识别系统，充分利用RNN语言模型的优势，取得了比传统基于多元文法语言模型在线语音识别系统更好的效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于循环神经网络语言模型的在线语音识别方法，其特征在于，所述方法包括：

将解码后的语音音频作为识别结果进行输出。

2.根据权利要求1所述在线语音识别方法，其特征在于，将重新打分后的语音音频输入至WFST和RNN语音模型中进行解码并重新打分包括：

利用多元文法构建WFST模型；

利用RNN语音模型所有历史词信息进行重新打分。

3.根据权利要求2所述在线语音识别方法，其特征在于，所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。

4.根据权利要求2所述在线语音识别方法，其特征在于，利用RNN语音模型所有历史词信息进行重新打分，包括：

利用将向前计算后的语音音频输入至RNN语音模型中；

在到达重新打分的时机时，立即对语音音频进行重新打分。

5.一种基于循环神经网络语言模型的在线语音识别系统，其特征在于，所述系统包括：

将解码后的语音音频作为识别结果进行输出。

6.根据权利要求5所述在线语音识别系统，其特征在于，所述重新打分模块包括：

构建模块，用于利用多元文法构建WFST模型；

7.根据权利要求6所述在线语音识别系统，其特征在于，所述WFST模型进行解码的过程为按照时间顺序一帧一帧向前计算搜索。

8.根据权利要求6所述在线语音识别系统，其特征在于，所述重新打分子模块包括：

9.根据权利要求5所述在线语音识别系统，其特征在于，所述系统还包括：