CN114582332B

CN114582332B - 一种音频的处理方法、装置以及存储介质

Info

Publication number: CN114582332B
Application number: CN202210189514.0A
Authority: CN
Inventors: 罗艺; 李凯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2024-03-22
Anticipated expiration: 2042-02-28
Also published as: CN114582332A

Abstract

本申请公开了一种音频的处理方法、装置以及存储介质，可应用于地图领域。通过获取待识别音频；然后响应于针对待识别音频的识别模式对待识别音频进行识别；若识别模式为流式识别，则提取循环神经网络中的前向分支；进而将待识别音频输入前向分支，以确定流式识别结果，该前向分支包括前向模型、第一全连接层。从而实现基于非流式模型的流式识别过程，由于流式识别过程采用循环神经网络的一部分，即通过对循环神经网络的改造，实现了流式识别过程，避免了非流式模型在流式识别过程中的误判，提高了音频识别的准确性。

Description

一种音频的处理方法、装置以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频的处理方法、装置以及存储介质。

背景技术

随着互联网技术的迅速发展，人们对音频内容的要求越来越高。如何对音频内容进行内容识别、音频增强或音频分离成为了研究重点。

一般，可以对音频内容进行非流式识别，即采用深度神经网络对音频的整体特征进行提取，从而进行内容识别。

但是，非流式识别过程中采用的深度神经网络无法进行实时的音频帧识别，在流式识别过程中会出现误判，影响音频识别的准确性。

发明内容

有鉴于此，本申请提供一种音频的处理方法，可以有效提高音频识别的准确性。

本申请第一方面提供一种音频的处理方法，可以应用于终端设备中包含音频的处理功能的系统或程序中，具体包括：

获取待识别音频；

响应于针对所述待识别音频的识别模式对所述待识别音频进行识别；

若所述识别模式为流式识别，则提取循环神经网络中的前向分支，所述前向分支包括前向模型和第一全连接层；

将所述待识别音频输入所述循环神经网络，以基于所述前向模型提取所述待识别音频对应的实时音频帧中的前向特征信息，并通过所述第一全连接层对所述前向特征信息进行全连接得到全连接信息，以基于所述全连接信息解析得到流式识别结果。

可选的，在本申请一些可能的实现方式中，所述循环神经网络包括所述前向分支和后向分支，所述后向分支包括后向模型和第二全连接层，所述方法还包括：

若所述识别模式为非流式识别，则将所述待识别音频输入所述前向分支中的所述前向模型，以得到对应的前向特征信息；

将所述待识别音频输入所述循环神经网络中的所述后向分支中的所述后向模型，以得到对应的后向特征信息；

将所述前向特征信息与所述后向特征信息进行拼接，以得到第一拼接信息；

将所述第一拼接信息输入所述第二全连接层，以基于所述第一拼接信息确定非流式识别结果。

可选的，在本申请一些可能的实现方式中，所述后向分支用于进行与所述前向分支相同方向的特征提取，所述方法还包括：

若所述识别模式为流式识别，则将所述待识别音频分别输入所述前向分支和所述后向分支；

将所述前向分支和所述后向分支输出的特征信息进行拼接，以得到第二拼接信息；

基于所述第二拼接信息进行流式识别。

可选的，在本申请一些可能的实现方式中，所述后向分支还包括时序反向模块，所述方法还包括：

若所述识别模式为非流式识别，则将所述待识别音频输入输入所述循环神经网络中的所述前向分支，以得到前向特征信息；

将所述待识别音频输入所述时序反向模块，以得到反向音频；

将所述反向音频输入所述后向分支中的后向模型，以得到后向特征信息；

对所述后向特征信息进行反向操作后，将所述前向特征信息与反向操作后的所述后向特征信息进行拼接，以得到第三拼接信息；

将所述第三拼接信息输入第三全连接层，以基于所述第三拼接信息确定非流式识别结果，所述第三全连接层为所述前向分支与所述后向分支共享。

可选的，在本申请一些可能的实现方式中，所述循环神经网络还包括归一化层和残差连接层，所述方法还包括：

将第一全连接层和第二全连接层或第三全连接层输入的全连接信息输入所述归一化层，以得到归一化信息；

将所述归一化信息输入所述残差连接层进行参数优化，以得到优化信息；

基于所述优化信息进行音频识别。

可选的，在本申请一些可能的实现方式中，所述方法还包括：

获取预设非流式模型；

对所述预设非流式模型进行训练，以得到非流式参数；

将所述非流式参数作为流式模型的模型参数，以进行流式识别过程。

获取流式识别结果和非流式识别结果；

基于所述流式识别结果和非流式识别结果确定目标样本；

根据所述目标样本对所述循环神经网络进行多任务训练。

本申请第二方面提供一种音频的处理装置，包括：

获取单元，用于获取待识别音频；

确定单元，用于响应于针对所述待识别音频的识别模式对所述待识别音频进行识别；

处理单元，用于若所述识别模式为流式识别，则提取循环神经网络中的前向分支，所述前向分支包括前向模型和第一全连接层；

所述处理单元，还用于将所述待识别音频输入所述循环神经网络，以基于所述前向模型提取所述待识别音频对应的实时音频帧中的前向特征信息，并通过所述第一全连接层对所述前向特征信息进行全连接得到全连接信息，以基于所述全连接信息解析得到流式识别结果。

可选的，在本申请一些可能的实现方式中，所述循环神经网络包括所述前向分支和后向分支，所述后向分支包括后向模型和第二全连接层，所述处理单元，具体用于若所述识别模式为非流式识别，则将所述待识别音频输入所述前向分支中的所述前向模型，以得到对应的前向特征信息；

所述处理单元，具体用于将所述待识别音频输入所述循环神经网络中的所述后向分支中的所述后向模型，以得到对应的后向特征信息；

所述处理单元，具体用于将所述前向特征信息与所述后向特征信息进行拼接，以得到第一拼接信息；

所述处理单元，具体用于将所述第一拼接信息输入所述第二全连接层，以基于所述第一拼接信息确定非流式识别结果。

可选的，在本申请一些可能的实现方式中，所述后向分支用于进行与所述前向分支相同方向的特征提取，所述处理单元，具体用于若所述识别模式为流式识别，则将所述待识别音频分别输入所述前向分支和所述后向分支；

所述处理单元，具体用于将所述前向分支和所述后向分支输出的特征信息进行拼接，以得到第二拼接信息；

所述处理单元，具体用于基于所述第二拼接信息进行流式识别。

可选的，在本申请一些可能的实现方式中，所述后向分支还包括时序反向模块，所述处理单元，具体用于若所述识别模式为非流式识别，则将所述待识别音频输入输入所述循环神经网络中的所述前向分支，以得到前向特征信息；

所述处理单元，具体用于将所述待识别音频输入所述时序反向模块，以得到反向音频；

所述处理单元，具体用于将所述反向音频输入所述后向分支中的后向模型，以得到后向特征信息；

所述处理单元，具体用于对所述后向特征信息进行反向操作后，将所述前向特征信息与反向操作后的所述后向特征信息进行拼接，以得到第三拼接信息；

所述处理单元，具体用于将所述第三拼接信息输入第三全连接层，以基于所述第三拼接信息确定非流式识别结果，所述第三全连接层为所述前向分支与所述后向分支共享。

可选的，在本申请一些可能的实现方式中，所述循环神经网络还包括归一化层和残差连接层，所述处理单元，具体用于将第一全连接层和第二全连接层或第三全连接层输入的全连接信息输入所述归一化层，以得到归一化信息；

所述处理单元，具体用于将所述归一化信息输入所述残差连接层进行参数优化，以得到优化信息；

所述处理单元，具体用于基于所述优化信息进行音频识别。

可选的，在本申请一些可能的实现方式中，所述处理单元，具体用于获取预设非流式模型；

所述处理单元，具体用于对所述预设非流式模型进行训练，以得到非流式参数；

所述处理单元，具体用于将所述非流式参数作为流式模型的模型参数，以进行流式识别过程。

可选的，在本申请一些可能的实现方式中，所述处理单元，具体用于获取流式识别结果和非流式识别结果；

所述处理单元，具体用于基于所述流式识别结果和非流式识别结果确定目标样本；

所述处理单元，具体用于根据所述目标样本对所述循环神经网络进行多任务训练。

本申请第三方面提供一种计算机设备，包括：存储器、处理器以及总线系统；所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面或第一方面任一项所述的音频的处理方法。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面任一项所述的音频的处理方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或者第一方面的各种可选实现方式中提供的音频的处理方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

通过获取待识别音频；然后响应于针对待识别音频的识别模式对待识别音频进行识别；若识别模式为流式识别，则提取循环神经网络中的前向分支；进一步的，将待识别音频输入前向分支，以确定流式识别结果，前向分支包括前向模型和第一全连接层；进而基于前向模型提取待识别音频对应的实时音频帧中的前向特征信息，并通过第一全连接层对前向特征信息进行全连接得到全连接信息，以基于全连接信息解析得到流式识别结果。从而实现基于非流式模型的流式识别过程，由于流式识别过程采用循环神经网络的一部分，即通过对循环神经网络的改造，实现了流式识别过程，避免了非流式模型在流式识别过程中的误判，提高了音频识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为音频的处理系统运行的网络架构图；

图2为本申请实施例提供的一种音频的处理的流程架构图；

图3为本申请实施例提供的一种音频的处理方法的流程图；

图4为本申请实施例提供的一种音频的处理方法的场景示意图；

图5为本申请实施例提供的另一种音频的处理方法的场景示意图；

图6为本申请实施例提供的另一种音频的处理方法的场景示意图；

图7为本申请实施例提供的另一种音频的处理方法的场景示意图；

图8为本申请实施例提供的一种音频的处理装置的结构示意图；

图9为本申请实施例提供的一种终端设备的结构示意图；

图10为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请实施例提供了一种音频的处理方法以及相关装置，可以应用于终端设备中包含音频的处理功能的系统或程序中，通过获取待识别音频；然后响应于针对待识别音频的识别模式对待识别音频进行识别；若识别模式为流式识别，则提取循环神经网络中的前向分支，前向分支包括前向模型和第一全连接层；进一步的，将待识别音频输入循环神经网络，以基于前向模型提取待识别音频对应的实时音频帧中的前向特征信息，并通过第一全连接层对前向特征信息进行全连接得到全连接信息，以基于全连接信息解析得到流式识别结果。从而实现基于非流式模型的流式识别过程，由于流式识别过程采用循环神经网络的一部分，即通过对循环神经网络的改造，实现了流式识别过程，避免了非流式模型在流式识别过程中的误判，提高了音频识别的准确性。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，对本申请实施例中可能出现的一些名词进行解释。

循环神经网络(recurrent neural network，RNN)：是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。

双向循环神经网络(Bi-directional RNN，Bi-RNN)：每一个训练序列向前和向后分别是两个循环神经网络(RNN),而且这两个都连接着一个输出层。

信噪比(signal-to-noiseratio，SNR)：信号与噪声的比例。

信干比(signal-to-distortionratio，SDR)：信号的能量与干扰能量(如同频干扰,多径等)和加性噪声能量的和的比值。

应理解，本申请提供的音频的处理方法可以应用于终端设备中包含音频的处理功能的系统或程序中，例如音频识别，具体的，音频的处理系统可以运行于如图1所示的网络架构中，如图1所示，是音频的处理系统运行的网络架构图，如图可知，音频的处理系统可以提供与多个信息源的音频的处理过程，即通过终端侧的交互操作对服务器下发音频数据，以使得服务器对音频数据进行识别；可以理解的是，图1中示出了多种终端设备，终端设备可以为计算机设备，在实际场景中可以有更多或更少种类的终端设备参与到音频的处理的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。

本实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，终端以及服务器可以连接组成区块链网络，本申请在此不做限制。

可以理解的是，上述音频的处理系统可以运行于个人移动终端，例如：作为音频识别这样的应用，也可以运行于服务器，还可以作为运行于第三方设备以提供音频的处理，以得到信息源的音频的处理处理结果；具体的音频的处理系统可以是以一种程序的形式在上述设备中运行，也可以作为上述设备中的系统部件进行运行，还可以作为云端服务程序的一种，本实施例可应用于云技术、自动驾驶等场景，具体运作模式因实际场景而定，此处不做限定。

为了解决上述问题，本申请提出了一种音频的处理方法，该方法应用于图2所示的音频的处理的流程框架中，如图2所示，为本申请实施例提供的一种音频的处理的流程架构图，用户通过终端侧的交互，在服务器进行音频识别，在配置相应的模式后，即可调用对应的识别模式进行音频识别。

本实施例的识别过程具体包括基于循环神经网络(RNN)的流式(streaming,causal,online)语音分离与增强系统性能的模型设计与训练方法，使得非流式(non-streaming,noncausal,offline)系统能够切换流式与非流式模式以进行实时或非实时处理，其中流式模式性能相对基线而言有较大性能提升，且非流式模式相对基线而言没有性能损失。

本实施例有效利用语音增强模型中流式与非流式模式之间的关联，将双向循环网络(Bi-RNN)进行分解(decompose)或重构(reorganize)，使得一个非流式神经网络能在不额外增加模型参数的基础上进行流式处理，且性能相比流式处理基线而言性能更高，与非流式模型性能差距更小。同时相对于其他依赖前瞻窗的模型，本实施例提出的RNN模块改造方法能维持帧级别的系统延迟且不额外增加模型复杂度。

可以理解的是，本申请所提供的方法可以为一种程序的写入，以作为硬件系统中的一种处理逻辑，也可以作为一种音频的处理装置，采用集成或外接的方式实现上述处理逻辑。作为一种实现方式，该音频的处理装置通过获取待识别音频；然后响应于针对待识别音频的识别模式对待识别音频进行识别；若识别模式为流式识别，则提取循环神经网络中的前向分支，前向分支包括前向模型和第一全连接层；进一步的，将待识别音频输入循环神经网络，以基于前向模型提取待识别音频对应的实时音频帧中的前向特征信息，并通过第一全连接层对前向特征信息进行全连接得到全连接信息，以基于全连接信息解析得到流式识别结果。从而实现基于非流式模型的流式识别过程，由于流式识别过程采用循环神经网络的一部分，即通过对循环神经网络的改造，实现了流式识别过程，避免了非流式模型在流式识别过程中的误判，提高了音频识别的准确性。

本申请实施例提供的方案涉及人工智能的深度学习技术，具体通过如下实施例进行说明：

结合上述流程架构，下面将对本申请中音频的处理方法进行介绍，请参阅图3，图3为本申请实施例提供的一种音频的处理方法的流程图，该管理方法可以是由服务器或终端执行的，本申请实施例至少包括以下步骤：

301、获取待识别音频。

本实施例中，待识别音频可以是用户即时输入的语音，例如语音通话过程中的音频数据，识别其中的人声进行播放，为一种流式识别过程；待识别音频还可以是一段音乐，例如用于提升音质的整段音乐，为一种非流式识别过程，具体的识别模式因实际场景而定。

具体的，本实施例可以应用于任何基于循环神经网络的流式音频增强与分离系统中。

302、响应于针对待识别音频配置的识别模式对待识别音频进行识别。

本实施例中，针对待识别音频配置的识别模式包括流式识别以及非流式识别，具体的可以是两者中的一个，也可以是动态的模式切换过程。

本实施例通过循环神经网络的分解以及重构，使得循环神经网络具有流式识别以及非流式识别的能力，且可以在两者之间进行切换，且可以采用原有循环神经网络的训练参数。

303、若识别模式为流式识别，则提取循环神经网络中的前向分支。

本实施例中，循环神经网络包括前向分支和后向分支，即为一种双向循环神经网络；具体的，下述实施例使用BLSTM作为示例作为循环神经网络，但任何循环神经网络模块均可用于本实施例提出的模型设计与训练方式，此处不作限定。

在一种可能的场景中，基于循环神经网络的识别过程如图4所示，4为本申请实施例提供的一种音频的处理方法的场景示意图；图中展示了一个带有残差连接(residualconnection)的Bi-RNN模块，其中包括一个Bi-RNN层，一个全连接(fully-connected,FC)层，一个归一化操作(normalization)与残差连接。

本实施例即将一个Bi-RNN通过改造(分解或重构)使得其能使用同样的模型参数进行非流式与流式处理，下面对改造过程，即前向分支以及后向分支的识别过程进行说明。

304、将待识别音频输入循环神经网络，以基于前向模型提取待识别音频对应的实时音频帧中的前向特征信息，并通过第一全连接层对前向特征信息进行全连接得到全连接信息，以基于全连接信息解析得到流式识别结果。

本实施例中，前向分支包括前向模型和第一全连接层，前向模型用于提取待识别音频对应的实时音频帧中的前向特征信息，第一全连接层用于对前向特征信息进行全连接得到全连接信息，全连接信息用于解析得到流式识别结果。

在另一种可能的场景中，若识别模式为非流式识别，则将待识别音频输入循环神经网络中的，首先基于前向分支中的前向模型得到对应的前向特征信息；然后将待识别音频输入循环神经网络中的后向分支，以基于后向模型得到对应的后向特征信息；并将前向特征信息与后向特征信息进行拼接，以得到第一拼接信息；进一步的将第一拼接信息输入后向分支中的第二全连接层，以基于第一拼接信息确定非流式识别结果。

具体的，本实施例中对循环神经网络进行分解后的模型如图5所示，图5为本申请实施例提供的另一种音频的处理方法的场景示意图；图中示出了在非流式模式中，前向分支与后向分支在各自的输出进行拼接后即可进行非流式识别；而在流式模式中，后向分支不被使用，前向分支的输出即可进行流式识别，即将实时音频中的相邻帧进行前向识别，即可实现流式识别。

另外，图5中还示出了归一化层以及残差连接层，即将第一全连接层或第二全连接层输入的全连接信息输入归一化层，以得到归一化信息；然后将归一化信息输入残差连接层进行参数优化，以得到优化信息；并基于优化信息进行音频识别。

下面，以前向分支中的前向模型为RNN，后向分支中的后向模型为RNN为例进行说明，如图6所示，图6为本申请实施例提供的另一种音频的处理方法的场景示意图；图中示出了对于Bi-RNN进行分解后，Bi-RNN中的前向(forward)与后向(backward)RNN层分开展示。在非流式模式中，前向与后向RNN层的输出在拼接(concatenate)后输入给FC2层(第二全连接层)、归一化操作与残差连接；在流式模式中，后向RNN不被使用，前向RNN的输出经过FC1层(第一全连接层)、归一化操作与残差连接后当作整个模块的输出。

应当注意的是，上述过程中流式语音增强与降噪模型中的归一化操作同样需要被修改为不使用未来信息的操作。本实施例选择累进层归一化(cumulativelayernormalization，cLN)作为归一化操作：

其中，f为二维序列特征(如语谱图)，N为特征维度(如频域点个数)，k为沿时间轴的索引(index)。

另外，还可以对RNN进行重构，即后向分支用于进行与前向分支相同方向的特征提取，此时对于识别模式为流式识别，则将待识别音频分别输入前向分支和后向分支；然后将前向分支和后向分支输出的特征信息进行拼接，以得到第二拼接信息；并基于第二拼接信息进行流式识别。

而对于非流式识别，则后向分支配置了时序反向模块，即识别模式为非流式识别，则将待识别音频输入输入循环神经网络中的前向分支，以得到前向特征信息；然后将待识别音频输入时序反向模块，以得到反向音频；并将反向音频输入后向分支中的后向模型，以得到后向特征信息；对后向特征信息进行反向操作后将前向特征信息与后向特征信息进行拼接，以得到第三拼接信息；进而将第三拼接信息输入第三全连接层，以基于第三拼接信息确定非流式识别结果，该第三全连接层为前向分支与后向分支共享。

具体的，还可以将第三全连接层输入的全连接信息输入归一化层，以得到归一化信息；并将归一化信息输入残差连接层进行参数优化，以得到优化信息；进而基于优化信息进行音频识别。

本实施例中的流式语音增强与降噪模型中的归一化操作同样需要被修改为不使用未来信息的操作。本实施例选择累进层归一化(cumulativelayernormalization，cLN)作为归一化操作。

对于上述重构的过程，具体如图7所示，图7为本申请实施例提供的另一种音频的处理方法的场景示意图；对于重构后的循环神经网络，RNN1与RNN2对应图6中的前向或后向RNN，即为时序反向模块，具体的操作代表将输入进行时序反向(timereverse)的操作(即符合后向RNN的输入)。

具体的，在非流式模式中，模块的输入在送入RNN2之前进行时序反向，并进行拼接后输入给FC层(第三全连接层)、归一化层与残差连接层；在流式模式中，模块的输入在送入RNN2之前不进行反向(即RNN1与RNN2均为前向RNN)，然后输入同样进行拼接后送入给FC层(第三全连接层)、归一化层与残差连接层进行处理。

本实施例中，输入前向分支或后向分支之前还可以采用前瞻窗与知识蒸馏方法，这是由于提升流失模型性能的方法主要为使用前瞻窗(look-ahead window)与调整模型训练目标函数(trainingobjective)。在前瞻窗方法中，可以采用Transformer类网络结构；在目标函数中，可以采用知识蒸馏(knowledge distillation)进行。

结合上述实施例可知，通过获取待识别音频；然后响应于针对待识别音频的识别模式对待识别音频进行识别；若识别模式为流式识别，则提取循环神经网络中的前向分支，前向分支包括前向模型和第一全连接层；进一步的，将待识别音频输入循环神经网络，以基于前向模型提取待识别音频对应的实时音频帧中的前向特征信息，并通过第一全连接层对前向特征信息进行全连接得到全连接信息，以基于全连接信息解析得到流式识别结果。从而实现基于非流式模型的流式识别过程，由于流式识别过程采用循环神经网络的一部分，即通过对循环神经网络的改造，实现了流式识别过程，避免了非流式模型在流式识别过程中的误判，提高了音频识别的准确性。

上述实施例介绍了不同的对于循环神经网络的改造方式，下面对改造后的模型的训练方式进行说明。本实施例使用微调(finetune)或课程学习(curriculumtraining)进行训练，即首先获取预设非流式模型；然后对预设非流式模型进行训练，以得到非流式参数；并将非流式参数作为流式模型的模型参数，以进行流式识别过程。具体的，首先训练一个非流式Bi-RNN模型，然后使用训练好的模型参数作为流式模型的初始化参数(initialization)；对于“分解”模式(图6)，非流式Bi-RNN中的前向RNN参数被用于流式RNN的初始化；对于“重构”模式(图7)，非流式Bi-RNN的前向与后向RNN分别被用于RNN1与RNN2的初始化。

另外，本实施例还可以使用多任务训练(multitasktraining)，即让Bi-RNN模型在训练过程中同时进行流式与非流式处理(通过以上图6与图7中调整后向RNN的操作)，同时使用流式与非流式输出进行模型训练。具体的，首先获取流式识别结果和非流式识别结果；然后基于流式识别结果和非流式识别结果确定目标样本；进而根据目标样本对循环神经网络进行多任务训练，从而保证了模型参数的实时更新，提高音频识别的准确性。

下面，对本实施例中训练后的模型的性能进行说明，具体可以在单通道语音分离任务中验证本实施例提出的模型设计与训练方式。即使用人工混合的、包含混响与噪声的双说话人数据集，其中包括20000，5000与3000条4秒长度的音频，采样率均为16kHz。说话人数据来源于公开的Librispeech数据集，噪声数据来源于公开的100NonspeechCorpus数据集。可以使用两类模型进行测试：一类模型为标准的深度循环网络模型(DeepRNN)，其中包括4层双向长短期记忆网络(BLSTM)层；一类为双流循环网络模型(Dual-pathRNN,DPRNN)，其中包括6个DPRNN模块。可以使用时域(time-domain)与频域(frequency-domain)两种信号特征进行模型测试。

首先进行基线模型在不同归一化操作下的性能对比，如表1所示，其中gLN为全局层归一化(global layer normalization)操作，为非流式模型中常用操作。可以可以看到，将gLN替换为流式的cLN对非流式与流式模型均没有明显的性能变化，因此基于cLN的非流式模型的性能可以作为有效的基线用于与本实施例中提出的模型设计与训练进行对比。

表1基线模型在不同归一化操作下的性能对比

下面，进行不同模型设计与训练方式的对比，如表2所示，其中：

(1)Init列表示是否预先训练非流式Bi-RNN并用于微调(finetune)或课程学习(curriculumlearning)的初始化；

(2)MT列表示是否使用多任务训练(multitasklearning)；

(3)Mode列表示使用分解(D)或重构(R)对非流式Bi-RNN进行修改以进行流式处理；

(4)Online列表示所汇报的模型性能为流式或非流式(×)；

(5)TD与FD代表使用时域与频域信号特征的模型。

表2不同模型设计与训练方式的对比

本实施例中，信干比提升(signal-to-distortion ratio improvement,SDRi)与能量无关信干比提升(scale-invariant SDRi,Si-SDRi)作为评价指标(数字越高性能越好)。可以看到在使用初始化进行微调/课程学习但不进行多任务训练的情况下，分解与重构均可提升流式模型的性能(SI-SDRi:7.8->8.8，SDRi:8.8->9.7)；不使用初始化、直接进行多任务训练的情况下，两种模式仍然能获得相对流式模型基线的性能提升(SI-SDRi:7.8->8.3，SDRi:8.8->9.4)，且相对非流式模型基线而言性能影响有限(SI-SDRi:9.5->9.4，SDRi:10.3->10.2)；在同时使用初始化与多任务训练的情况下，两种模式依然能获得相对流式模型基线的性能提升(SI-SDRi:7.8->8.5，SDRi:8.8->9.5)，且相对非流式模型也能获得少量性能提升(SI-SDRi:9.5->9.8，SDRi:10.3->10.6)。

为了更好的实施本申请实施例的上述方案，下面还提供用于实施上述方案的相关装置。请参阅图8，图8为本申请实施例提供的一种音频的处理装置的结构示意图，音频的处理装置800包括：

获取单元801，用于获取待识别音频；

确定单元802，用于响应于针对所述待识别音频的识别模式对所述待识别音频进行识别；

处理单元803，用于若所述识别模式为流式识别，则提取循环神经网络中的前向分支，所述前向分支包括前向模型和第一全连接层；

所述处理单元803，还用于将所述待识别音频输入所述循环神经网络，以基于所述前向模型提取所述待识别音频对应的实时音频帧中的前向特征信息，并通过所述第一全连接层对所述前向特征信息进行全连接得到全连接信息，以基于所述全连接信息解析得到流式识别结果。

可选的，在本申请一些可能的实现方式中，所述循环神经网络包括所述前向分支和后向分支，所述后向分支包括后向模型和第二全连接层，所述处理单元803，具体用于若所述识别模式为非流式识别，则将所述待识别音频输入所述前向分支中的所述前向模型，以得到对应的前向特征信息；

所述处理单元803，具体用于将所述待识别音频输入所述循环神经网络中的所述后向分支中的所述后向模型，以得到对应的后向特征信息；

所述处理单元803，具体用于将所述前向特征信息与所述后向特征信息进行拼接，以得到第一拼接信息；

所述处理单元803，具体用于将所述第一拼接信息输入所述第二全连接层，以基于所述第一拼接信息确定非流式识别结果。

可选的，在本申请一些可能的实现方式中，所述后向分支用于进行与所述前向分支相同方向的特征提取，所述处理单元803，具体用于若所述识别模式为流式识别，则将所述待识别音频分别输入所述前向分支和所述后向分支；

所述处理单元803，具体用于将所述前向分支和所述后向分支输出的特征信息进行拼接，以得到第二拼接信息；

所述处理单元803，具体用于基于所述第二拼接信息进行流式识别。

可选的，在本申请一些可能的实现方式中，所述后向分支还包括时序反向模块，所述处理单元803，具体用于若所述识别模式为非流式识别，则将所述待识别音频输入输入所述循环神经网络中的所述前向分支，以得到前向特征信息；

所述处理单元803，具体用于将所述待识别音频输入所述时序反向模块，以得到反向音频；

所述处理单元803，具体用于将所述反向音频输入所述后向分支中的后向模型，以得到后向特征信息；

所述处理单元803，具体用于对所述后向特征信息进行反向操作后，将所述前向特征信息与反向操作后的所述后向特征信息进行拼接，以得到第三拼接信息；

所述处理单元803，具体用于将所述第三拼接信息输入第三全连接层，以基于所述第三拼接信息确定非流式识别结果，所述第三全连接层为所述前向分支与所述后向分支共享。

可选的，在本申请一些可能的实现方式中，所述循环神经网络还包括归一化层和残差连接层，所述处理单元803，具体用于将第一全连接层和第二全连接层或第三全连接层输入的全连接信息输入所述归一化层，以得到归一化信息；

所述处理单元803，具体用于将所述归一化信息输入所述残差连接层进行参数优化，以得到优化信息；

所述处理单元803，具体用于基于所述优化信息进行音频识别。

可选的，在本申请一些可能的实现方式中，所述处理单元803，具体用于获取预设非流式模型；

所述处理单元803，具体用于对所述预设非流式模型进行训练，以得到非流式参数；

所述处理单元803，具体用于将所述非流式参数作为流式模型的模型参数，以进行流式识别过程。

可选的，在本申请一些可能的实现方式中，所述处理单元803，具体用于获取流式识别结果和非流式识别结果；

所述处理单元803，具体用于基于所述流式识别结果和非流式识别结果确定目标样本；

所述处理单元803，具体用于根据所述目标样本对所述循环神经网络进行多任务训练。

通过获取待识别音频；然后响应于针对待识别音频的识别模式对待识别音频进行识别；若识别模式为流式识别，则提取循环神经网络中的前向分支，前向分支包括前向模型和第一全连接层；进一步的，将待识别音频输入循环神经网络，以基于前向模型提取待识别音频对应的实时音频帧中的前向特征信息，并通过第一全连接层对前向特征信息进行全连接得到全连接信息，以基于全连接信息解析得到流式识别结果。从而实现基于非流式模型的流式识别过程，由于流式识别过程采用循环神经网络的一部分，即通过对循环神经网络的改造，实现了流式识别过程，避免了非流式模型在流式识别过程中的误判，提高了音频识别的准确性。

本申请实施例还提供了一种终端设备，如图9所示，是本申请实施例提供的另一种终端设备的结构示意图，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图9示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图9，手机包括：射频(radio frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作，以及在触控面板931上一定范围内的隔空触控操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监测。可选的，处理器980可包括一个或多个处理单元；可选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，可选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器980还具有执行如上述页面处理方法的各个步骤的功能。

本申请实施例还提供了一种服务器，请参阅图10，图10是本申请实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)1022(例如，一个或一个以上处理器)和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器1000上执行存储介质1030中的一系列指令操作。

服务器1000还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由管理装置所执行的步骤可以基于该图10所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有音频的处理指令，当其在计算机上运行时，使得计算机执行如前述图3至图7所示实施例描述的方法中音频的处理装置所执行的步骤。

本申请实施例中还提供一种包括音频的处理指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3至图7所示实施例描述的方法中音频的处理装置所执行的步骤。

本申请实施例还提供了一种音频的处理系统，所述音频的处理系统可以包含图8所描述实施例中的音频的处理装置，或9所描述实施例中的终端设备，或者图10所描述的服务器。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，音频的处理装置，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音频的处理方法，其特征在于，包括：

获取待识别音频；

若所述识别模式为流式识别，则提取循环神经网络中的前向分支，所述前向分支包括前向模型和第一全连接层；所述循环神经网络包括后向分支和所述前向分支；所述后向分支包括后向模型和第二全连接层；

将所述待识别音频输入所述循环神经网络，以基于所述前向模型提取所述待识别音频对应的实时音频帧中的前向特征信息，并通过所述第一全连接层对所述前向特征信息进行全连接得到全连接信息，以基于所述全连接信息解析得到流式识别结果；

2.根据权利要求1所述的方法，其特征在于，所述后向分支用于进行与所述前向分支相同方向的特征提取，所述方法还包括：

基于所述第二拼接信息进行流式识别。

3.根据权利要求2所述的方法，其特征在于，所述后向分支还包括时序反向模块，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述循环神经网络还包括归一化层和残差连接层，所述方法还包括：

基于所述优化信息进行音频识别。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取预设非流式模型；

对所述预设非流式模型进行训练，以得到非流式参数；

将所述非流式参数作为流式模型的模型参数，以进行流式识别。

6.一种音频的处理装置，其特征在于，包括：

获取单元，用于获取待识别音频；

处理单元，用于若所述识别模式为流式识别，则提取循环神经网络中的前向分支，所述前向分支包括前向模型和第一全连接层；所述循环神经网络包括后向分支和所述前向分支；所述后向分支包括后向模型和第二全连接层；

所述处理单元，还用于将所述待识别音频输入所述循环神经网络，以基于所述前向模型提取所述待识别音频对应的实时音频帧中的前向特征信息，并通过所述第一全连接层对所述前向特征信息进行全连接得到全连接信息，以基于所述全连接信息解析得到流式识别结果；

所述处理单元，还用于若所述识别模式为非流式识别，则将所述待识别音频输入所述前向分支中的所述前向模型，以得到对应的前向特征信息；将所述待识别音频输入所述循环神经网络中的所述后向分支中的所述后向模型，以得到对应的后向特征信息；将所述前向特征信息与所述后向特征信息进行拼接，以得到第一拼接信息；将所述第一拼接信息输入所述第二全连接层，以基于所述第一拼接信息确定非流式识别结果。

7.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至5任一项所述的音频的处理方法。

8.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于计算机可读存储介质，其特征在于，所述计算机可读存储介质中的所述计算机程序/指令被处理器执行时实现上述权利要求1至5任一项所述的音频的处理方法的步骤。

9.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至5任一项所述的音频的处理方法。