CN111128141B

CN111128141B - 音频识别解码方法和装置

Info

Publication number: CN111128141B
Application number: CN201911407211.6A
Authority: CN
Inventors: 谭天; 钱彦旻
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-04-19
Anticipated expiration: 2039-12-31
Also published as: CN111128141A

Abstract

本发明公开音频识别解码方法和装置，其中，一种音频识别解码方法，包括：提取待测音频中的声学特征；对所述声学特征进行有效音频检测得到有效音频段；将所述有效音频段分别输入各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；对所述第二轮解码结果使用投票的方法以得到最终解码结果。

Description

音频识别解码方法和装置

技术领域

本发明属于音频识别解码技术领域，尤其涉及音频识别解码方法和装置。

背景技术

现有技术中，存在一些录音笔，能够使用语音识别技术，将长段语音(比如视频，会议，录音)转为文字，用于会议纪要、字幕生成、质检等功能。

发明人在实现本申请的过程中发现，现有技术的方案至少存在以下缺陷：使用场景相比音箱类产品复杂，有噪声干扰时语音识别的精确度低；语音内容更加开放，录音设备更加丰富导致识别难度增加。

发明内容

本发明实施例提供一种音频识别解码方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种音频识别解码方法，包括：提取待测音频中的声学特征；对所述声学特征进行有效音频检测得到有效音频段；将所述有效音频段分别输入至训练好的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；以及对所述第二轮解码结果使用投票的方法以得到最终解码结果。

第二方面，本发明实施例提供一种音频识别解码装置，包括：提取模块，配置为提取待测音频中的声学特征；音频检测模块，配置为对所述声学特征进行有效音频检测得到有效音频段；一轮解码模块，配置为将所述有效音频段分别输入训练后的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；环境自适应模块，配置为结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；第二轮解码模块，配置为使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；以及结果投票模块，配置为对所述第二轮解码结果使用投票的方法以得到最终解码结果。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频识别解码方法的步骤。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的音频识别解码方法的步骤。

本申请的方法和装置提供的方案通过在语音识别自适应时使用了二轮解码的语音识别框架，首先通过环境无关模型得到第一轮识别结果；使用第一轮识别结果和测试音频对音频所处的声学环境进行估计，并对模型进行调整；使用调整后的模型进行第二轮识别，得到识别结果。该方法会根据不同测试环境对声学模型进行不同的微调；不需要对现有的识别框架进行修改，自适应速度快，成本低。对于复杂的声学环境下的语音识别率比普通模型更高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种音频识别解码方法的流程图；

图2为本发明一实施例提供的一种音频识别解码方法的一个具体实施例的流程图；

图3为本发明一实施例提供的一种音频识别解码装置的框图；

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的音频识别解码方法一实施例的流程图，本实施例的音频识别解码方法可以适用于各种具备音频识别解码功能的设备中，包括智能音箱，车载语音识别装置，智能语音手机，智能语音电视，智能语音儿童玩具等，本申请在此没有限制。

如图1所示，在步骤101中，提取待测音频中的声学特征；

在步骤102中，对所述声学特征进行有效音频检测得到有效音频段；

在步骤103中，将所述有效音频段分别输入至训练好的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；

在步骤104中，结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；

在步骤105中，使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；

在步骤106中，对所述第二轮解码结果使用投票的方法以得到最终解码结果。

在本实施例中，对于步骤101，音频识别解码装置提取待测音频中的声学特征，例如可以提取Fbank特征或者其他声学特征，本申请在此没有限制，具体的提取方法现有技术已经有成熟的方案，在此不再赘述。之后，对于步骤102，音频识别解码装置对声学特征进行有效音频检测得到有效音频段，例如可以采用VAD(Voice Activity Detection，语音端点检测，语音活性检测)技术对声学特征进行有效音频检测，获得有效语音段的起始点和终止点。

之后，对于步骤103，音频识别解码装置将所述有效音频输入至训练好的多个环境无关的不同声学单元的声学模型得到各个声学模型的第一轮解码结果，通过输入至各不同声学单元的声学模型中得到多个第一轮解码结果。不同的声学单元包括音素、多音素、声母、韵母、字符等，本申请在此没有限制。

然后，对于步骤104，音频识别解码装置结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型，通过对第一轮解码结果进行环境自适应可以得到环境自适应后的声学模型，从而更好地解码各种不同环境地音频。

之后，对于步骤105，音频识别解码装置使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果，通过使用环境自适应后的声学模型再次对待测音频进行解码可以得到第二轮解码结果，该结果由于是环境自适应之后的声学模型的解码结果，所以微调之后能更好地检测当前场景地待测音频。

最后，对于步骤106，音频识别解码对所述第二轮解码结果使用投票的方法以得到最终解码结果。通过对多个环境自适应后的不同声学单元地声学模型地结果进行投票，从各个结果中选取更精准的部分形成最终的解码结果，相比于普通模型，准确率更高。

本申请实施例提供的方法通过在语音识别自适应时使用了二轮解码的语音识别框架，首先通过环境无关模型得到第一轮识别结果；使用第一轮识别结果和测试音频对音频所处的声学环境进行估计，并对模型进行调整；使用调整后的模型进行第二轮识别，得到识别结果。进一步的，该方法会根据不同测试环境对声学模型进行不同的微调；不需要对现有的识别框架进行修改，自适应速度快，成本低。对于复杂的声学环境下的语音识别率比普通模型更高。

在一些可选的实施例中，上述步骤中进行环境自适应包括：冻结环境无关的声学模型的全部参数，在所述环境无关的声学模型的第一个隐层后添加一个线性缩放层，初始化参数包括设置为1；以及使用CTC(Connectionist Temporal Classification)准则对该线性缩放层进行优化，其中，优化后的模型即为针对测试环境自适应后的声学模型。通过基于不同的环境进行微调，可以更好地适用于不同复杂度的环境中，对于复杂的声学环境下的语音解码识别率比普通模型更高。

在一些可选的实施例中，多个声学模型包括单音素声学模型、三音素声学模型和字符声学模型。

在一些可选的实施例中，对所述第二轮解码结果使用投票的方法以得到最终解码结果包括：将所述单音素声学模型的第二轮解码结果和所述三音素声学模型的第二轮识别结果进行对齐得到第一对齐序列；将所述第一对齐序列与所述字符声学模型的第二解码结果进行对齐得到第二对齐序列；基于所述第二对齐序列在各个声学模型的第二轮解码结果上进行投票，得到最终解码结果。通过对三种不同的声学模型的第二轮解码结果进行投票，最终得到的结果对于复杂的声学环境下的语音识别率比普通模型更高。

在一些可选的实施例中，上述声学模型利用带标注的训练数据采用深度学习的方法进行训练。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现，相关技术中存在的以上缺陷主要是由于以下内容导致的：主流的语音识别的技术，主要针对某种特定语音环境，比如智能音箱主要是室内环境，车载控制是汽车环境；此外，由于交互场景对实时率的要求较高，通常识别系统都只使用一种声学单元来搭建在线识别系统，对长语音场景中复杂的声学环境处理不足。

为了解决现有技术中的上述问题，市场上通常做法是：

1)尽量收集覆盖各种声学场景的数据来进行声学模型训练；

2)通过人工加噪等数据增强的方法模拟出各种声学环境下的数据；

3)使用信号处理的方式进行降噪。

这是最符合原始训练流程的方法，是业内采用最多的方案。

本申请实施例的主要技术包含两方面，基于深度学习的语音识别自适应和基于不同声学单元的系统融合。

基于深度学习的语音识别自适应使用了二轮解码的语音识别框架，首先通过环境无关模型得到第一轮识别结果；使用第一轮识别结果和测试音频对音频所处的声学环境进行估计，并对模型进行调整；使用调整后的模型进行第二轮识别，得到识别结果。该方法会根据不同测试环境对声学模型进行不同的微调；不需要对现有的识别框架进行修改，自适应速度快，成本低。对于复杂的声学环境下的语音识别率比普通模型更高。

基于不同声学单元的系统融合使用不同颗粒度的声学建模单元(比如，单音素，三音素，字符等)分别搭建语音识别系统。不同建模单元的系统对语速，说话风格有不同的敏感度，因此存在互补；在解码时，将测试音频送给不同的系统分别解码，再通过投票的方法融合出最终识别结果。

请参考图2，其示出了本申请一实施例提供的一种基于声学自适应和多系统融合的离线长语音转写系统。

如图2所示，步骤一：在已有的带标注语音数据上，通过深度学习的方法，训练三个不同声学单元的声学模型。分别为：环境无关的单音素模型；环境无关的三音素模型；环境无关的字符模型。

步骤二：对输入的测试音频进行特征提取，采用FBANK特征，并进行有效音频检测，此处采用VAD技术，检测出有效音频的起始点和终止点，去除无效的静音和噪音。

步骤三：将步骤二处理完的有效音频段送入环境无关的单音素模型，得到第一轮解码结果。后续将用该识别结果进行环境的估计。

步骤四：结合步骤二处理完的有效音频段，步骤三得到的第一轮解码结果和各个声学模型分别得到环境自适应后的声学模型。

步骤五：使用环境自适应后的声学模型对测试音频分别解码，得到三个解码结果后使用投票的方法得到最终识别结果。

(环境自适应过程，下面以单音素模型为例，解释环境自适)：

1、使用帧长25ms、帧移10ms的窗对音频进行分帧，每一帧提取40维的Fbank特征用来进行环境自适应。随后将fbank特征进行有效音频检测，此处采用VAD技术，检测出有效音频的起始点和终止点，去除无效的静音和噪音。

2、得到每个语音段的第一轮解码词序列，将其转换为对应的单音素序列。

冻结环境无关的单音素声学模型的全部参数，在其第一个隐层后添加一个线性缩放层，初始化参数为1。使用CTC(Connectionist Temporal Classification)准则对该线性缩放层进行优化。最终，优化完成后的新模型即为针对测试环境自适应后的单音素声学模型。

(基于投票的系统融合方案：)

1、得到环境自适应后的单音素系统，环境自适应后的三音素系统和环境自适应后的字符系统分别的识别结果。假设识别结果分别为：

单音素：AAABCFB

三音素：ABCFFBB

字符：AABFC

首先将单音素系统的识别结果与三音素系统的识别结果做对齐，计算两者间的最小编辑距离。

单音素与三音素对齐：

AAABCF B

A BCFFBB

然后将对齐序列与字符系统进行对齐

单音素：AAABCF B

三音素：A BCFFBB

字符：AA B F C

然后在每个结果上进行投票，得到最终的识别结果AABCFB

发明人在实现本申请的过程中，还采用过以下备选方案：在进行环境自适应时，可以通过无监督的方式比如i-vector获取环境表示，并且将环境表示作为特征输入给神经网络来进行自适应。该方法的优点在于只需要一轮解码。缺点在于因为输入特征变化了，需要重新训练声学模型，训练耗时长，人力物力投入较大。

发明人在实现本申请的过程中还尝试过一些beta版的方案。在进行系统融合的时候，最终采用的是通过投票的方法来进行系统融合。

在beta版中，最初尝试了基于lattice的系统融合，遇到的问题是不同建模单元的声学模型在lattice上的动态范围差异很大，导致融合结果容易被一个系统独占。

优点是搭建的速度快，花费的各种成本低，不需要对原有的识别引擎进行修改，可以直接使用现有成熟的识别引擎。

本申请实施例提出的这种基于自适应和系统融合的离线语音识别系统不仅能很好的解决现有的声学环境复杂的问题，而且成本低，效果好。不需要对原来的系统进行大的修改，可以复用当前已有的成果。不需要开发新的识别框架，减少重复劳动，大大降低了时间成本。

最后需要说明的是，本申请实施例中使用的音频切割的方法是通过现有的开源工具包来实现的。识别引擎使用的现在各个平台免费的开源引擎。

请参考图3，其示出了本发明一实施例提供的一种音频识别解码装置的框图。

如图3所示，音频识别解码装置300，包括提取模块310、音频检测模块320、第一轮解码模块330、环境自适应模块340、第二轮解码模块350和结果投票模块360。

其中，提取模块310，配置为提取待测音频中的声学特征；音频检测模块320，配置为对所述声学特征进行有效音频检测得到有效音频段；第一轮解码模块330，配置为将所述有效音频段分别输入至训练好的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；环境自适应模块340，配置为结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；第二轮解码模块350，配置为使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；以及结果投票模块360，配置为对所述第二轮解码结果使用投票的方法以得到最终解码结果。

在一些可选的实施例中，所述进行环境自适应包括：冻结环境无关的声学模型的全部参数，在所述环境无关的声学模型的第一个隐层后添加一个线性缩放层，初始化参数包括设置为1；以及使用CTC准则对该线性缩放层进行优化，其中，优化后的模型即为针对测试环境自适应后的声学模型。

在另一些可选的实施例中，所述多个声学模型包括单音素声学模型、三音素声学模型和字符声学模型。

应当理解，图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如结果投票模块可以描述为对所述第二轮解码结果使用投票的方法以得到最终解码结果的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如结果投票模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的音频识别解码方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

提取待测音频中的声学特征；

对所述声学特征进行有效音频检测得到有效音频段；

将所述有效音频段分别输入至训练好的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；

结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；

使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；

对所述第二轮解码结果使用投票的方法以得到最终解码结果。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据音频识别解码装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至音频识别解码装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项音频识别解码方法。

图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器410以及存储器420，图4中以一个处理器410为例。音频识别解码方法的设备还可以包括：输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例音频识别解码方法。输入装置430可接收输入的数字或字符信息，以及产生与音频识别解码装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于音频识别解码装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

提取待测音频中的声学特征；

对所述声学特征进行有效音频检测得到有效音频段；

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频识别解码方法，包括：

提取待测音频中的声学特征；

对所述声学特征进行有效音频检测得到有效音频段；

将所述有效音频段分别输入各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；

2.根据权利要求1所述的方法，其中，所述进行环境自适应包括：

冻结环境无关的声学模型的全部参数，在所述环境无关的声学模型的第一个隐层后添加一个线性缩放层，初始化参数包括设置为1；

使用CTC准则对所述线性缩放层进行优化，其中，优化后的模型即为针对测试环境自适应后的声学模型。

3.根据权利要求1所述的方法，其中，多个声学模型包括单音素声学模型、三音素声学模型和字符声学模型。

4.根据权利要求3所述的方法，其中，所述对所述第二轮解码结果使用投票的方法以得到最终解码结果包括：

将所述单音素声学模型的第二轮解码结果和所述三音素声学模型的第二轮识别结果进行对齐得到第一对齐序列；

将所述第一对齐序列与所述字符声学模型的第二解码结果进行对齐得到第二对齐序列；

基于所述第二对齐序列在各个声学模型的第二轮结果上进行投票，得到最终解码结果。

5.根据权利要求1-4中任一项所述的方法，其中，所述声学模型利用带标注的训练数据采用深度学习的方法进行训练。

6.一种音频识别解码装置，包括：

提取模块，配置为提取待测音频中的声学特征；

音频检测模块，配置为对所述声学特征进行有效音频检测得到有效音频段；

第一轮解码模块，配置为将所述有效音频段分别输入训练好的各个环境无关的声学模型中得到各个声学模型的第一轮解码结果；

环境自适应模块，配置为结合所述有效音频段、所述第一轮解码结果以及各个不同声学单元的声学模型进行环境自适应分别得到对应的各个不同声学单元的环境自适应后的声学模型；

第二轮解码模块，配置为使用所述各个不同声学单元的环境自适应后的声学模型对所述待测音频分别解码，得到第二轮解码结果；

结果投票模块，配置为对所述第二轮解码结果使用投票的方法以得到最终解码结果。

7.根据权利要求6所述的装置，其中，所述进行环境自适应包括：

8.根据权利要求6所述的装置，其中，多个声学模型包括单音素声学模型、三音素声学模型和字符声学模型。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。