CN114242043A

CN114242043A - 语音处理方法、设备、存储介质及程序产品

Info

Publication number: CN114242043A
Application number: CN202210089046.XA
Authority: CN
Inventors: 熊飞飞; 冯津伟
Original assignee: Dingtalk China Information Technology Co Ltd
Current assignee: Dingtalk China Information Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-03-25

Abstract

本申请提供一种语音处理方法、设备、存储介质及程序产品，其中方法包括：确定待处理语音在多个频带上对应的特征信息；针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果；基于各特征信息对应的处理结果，得到处理后的语音。本申请能够基于深度学习模型同时实现去噪和去混响，避免不同算法模块的串联导致的误差传递现象，提升模型的准确性，此外，每个频带的网络模型系数是共享的，可以有效减少网络模型的大小和处理时的计算量，提高处理效率。

Description

语音处理方法、设备、存储介质及程序产品

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音处理方法、设备、存储介质及程序产品。

背景技术

语音增强技术能够从嘈杂的语音信号中提取出有用的语音信号，尽可能地还原纯净的原始语音，在实时语音通信中具有非常重要的作用。

实时语音通信过程中，不仅有不同类型的环境噪音，还有房间混响的干扰，因此，语音处理模型需要能够同时实现去噪和去混响的功能，目前，现有的语音处理模型存在效率较低和准确性较差，以及把去噪去混响作为两个问题分开处理而并没有考虑联合处理的问题。

发明内容

本申请实施例的主要目的在于提供一种语音处理方法、设备、存储介质及程序产品，以提升语音处理的效率和准确性。

第一方面，本申请实施例提供一种语音处理方法，包括：

确定待处理语音在多个频带上对应的特征信息；

针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果；

基于各特征信息对应的处理结果，得到处理后的语音。

可选的，所述方法还包括：

根据获取到的语音流和预设时间窗，得到待处理语音；

对待处理语音进行短时傅里叶变换，得到所述待处理语音在多个频带上对应的频域信息；

其中，所述特征信息为所述频域信息，或者，所述特征信息为基于特征提取器提取到的所述频域信息对应的特征信息。

可选的，确定待处理语音在多个频带上对应的特征信息，包括：

将待处理语音在多个频带上对应的频域信息，输入到特征提取器，提取各频带对应的特征信息；

其中，所述特征提取器包括时域上的特征提取器和/或频域上的特征提取器。

可选的，将待处理语音在多个频带上对应的频域信息，输入到特征提取器，提取各频带对应的特征信息，包括：

将语音流中的待处理语音对应的频域信息，按照时间序列的方式输入到第一特征提取网络，得到所述待处理语音的各频带对应的第一特征信息；

将各频带对应的第一特征信息，按照频率序列的方式输入到第二特征提取网络，得到各频带对应的第二特征信息；所述第二特征信息用于输入至深度学习模型以得到处理结果；

其中，所述第一特征提取网络包括二维卷积神经网络；所述第二特征提取网络包括双向LSTM网络。

可选的，所述第一特征提取网络还包括：批归一化层；

所述批归一化层的输入端与所述二维卷积神经网络的输出端连接，所述批归一化层的输出端与所述双向LSTM网络的输入端连接；

所述第二特征提取网络还包括：全连接层和线性整流单元；

所述全连接层的输入端与所述双向LSTM网络的输出端连接，所述全连接层的输出端与所述线性整流单元连接。

可选的，所述深度学习模型包括单向LSTM网络和全连接层；所述单向LSTM网络的输入端与所述第二特征提取网络的输出端连接，所述全连接层的输入端与所述单向LSTM网络的输出端连接；所述全连接层用于得到各个频带对应的复数理想比值掩蔽信息；

相应的，基于各特征信息对应的处理结果，得到处理后的语音，包括：

根据所述待处理语音在多个频带上的频域信号以及对应的复数理想比值掩蔽信息，计算得到所述待处理语音在频域上的去噪和去混响后的信息；

将所述频域上的去噪和去混响后的信息进行逆短时傅里叶变换，得到去噪和去混响后的语音。

可选的，所述方法还包括：

获取用户输入的下述至少一项信息：用于从语音流中截取待处理语音的时间窗的长度.多个频带的信息.特征提取器和深度学习模型中各模块的输出维度；

根据上述至少一项信息进行模型训练。

可选的，模型训练过程中使用的损失函数，由基于深度学习模型得到的语音信号和实际干净语音信号之差的L2范数以及实际干净语音信号的L2范数确定。

第二方面，本申请实施例还提供一种语音处理方法，应用于第一设备，所述方法包括：

获取第二设备在会议过程中采集的单通道语音；

确定所述单通道语音在多个频带上对应的特征信息；

针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各频域信息对应的处理结果；

基于各频域信息对应的处理结果，得到处理后的语音并播放。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行上述任一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方面所述的方法。

本申请提供的语音处理方法、设备、存储介质及程序产品，可以确定待处理语音在多个频带上对应的特征信息，针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果，并基于各特征信息对应的处理结果，得到去噪和去混响后的语音，能够基于深度学习模型同时实现去噪和去混响，避免不同算法模块的串联导致的误差传递现象，并且基于频率上的序列，在处理每个频带的信息时参考其它频带的信息，由于混响是频率相关的，因此按照频率序列进行处理，能够有效增强去混响的效果，提升模型的准确性，此外，每个频带的网络模型系数是共享的，可以有效减少网络模型的大小和处理时的计算量，提高处理效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例的一种应用场景示意图；

图2为本申请实施例提供的一种语音处理方法的流程示意图；

图3为本申请实施例提供的一种时域上的特征提取器的原理示意图；

图4为本申请实施例提供的一种频域上的特征提取器的原理示意图；

图5为本申请实施例提供的一种通过模型进行去噪和去混响的原理示意图；

图6为本申请实施例提供的一种特征提取器和子网的原理示意图；

图7为本申请实施例提供的一种提取特征信息的流程示意图；

图8为本申请实施例提供的另一种语音处理方法的流程示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

首先对本申请所涉及的名词进行解释：

去噪(Speech Denoising)：又称噪音消除，麦克风接收到的含有噪音的语音，通过算法模块来去除噪音，尽量保留原始语音信号的保真度。

去混响(Speech Dereverberation)：麦克风接收到的含有混响的语音，通过算法模块来去除混响，来达到原始语音不含有混响的效果。

长短期记忆(Long short-term memory，LSTM)网络：循环神经网络的一种，可以学习长期依赖信息，uni-directional(单向)方式可用于实时运算中，bi-directional(双向)方式能更好地学习前后依赖信息，如果是应用于时间轴方向则不适应于实时流式运算。

短时傅里叶变换(Short-time Fourier transform，或Short-term Fouriertransform，STFT)：一种时频转换方法，用以确定时变信号局部区域的频域信息。

本申请实施例可以应用于任意需要进行语音处理的场景，尤其可以应用于对音视频通信系统中的语音进行处理。

在音视频通信系统中，不可避免地会碰到各式各样复杂的空间声学环境，尤其是不同空间(房间、会议室)的不同混响，不同类型的环境噪音(稳态噪音、非稳态噪音)，因此，实时语音增强技术成为了音视频通信系统的关键技术，尤其是在单通道、硬件资源有限的情况下。

单通道实时语音去噪，旨在去除语音中的环境噪音，尤其是非稳态噪音，常用的有音频3A算法之一的降噪算法(Noise suppression)；同理，单通道实时语音去混响，旨在去除空间里的混响效应，提高语音辨识度，常用方案一般为频谱增强去除后混响效应(Latereverberation)。

传统方案的模块往往都聚焦于只解决去噪和去混响中的一个问题，当需要同时去噪和去混响时，串联两个模块，可能会导致效果更差的情况。为解决此问题，亟需一个实时并同时去除噪音和混响的算法，以实现在同一模块下解决上述两个问题，精简链路，减少计算量。

图1为本申请实施例的一种应用场景示意图。如图1所示，在线上音视频会议中，第一用户发言时，原始的人声叠加噪音、混响的效果后，得到含有噪声和混响的语音信号，该语音信号可以由第一用户的设备传输至第二用户的设备。第二用户的设备获取到语音信号后，可以通过模型对语音信号进行去噪和去混响处理，得到去除噪音和混响后的语音信号播放给第二用户，从而可以实现第一用户和第二用户的线上实时交流，且提高语音交流的效果。

通过模型可以得到干净语音信号，能够在一定程度上实现去噪和去混响，但是效率和准确性有待提高。

有鉴于此，本申请实施例提供一种基于深度窄带滤波的语音处理方法，不仅能够在同一个模型下同时实现去噪和去混响，还可以在模型大小和算法复杂度上进行优化以用于实时计算，旨在解决实时语音通信中单通道语音增强的痛点问题。

其中，深度窄带滤波可以是指，通过深度学习方法来训练网络模型系数，此系数相当于滤波器系数来对频域中的每个频带信号进行滤波，而且每个频带的网络模型系数是共享的，即同一套系数来做不同频带的滤波，减少网络系数大小，降低计算量。

具体的，可以提取待处理语音在多个频带上对应的特征信息，将各频带上的特征信息作为序列依次输入到能够处理序列数据的深度学习模型例如LSTM等，从而在处理每个频带的信息时参考相邻频带的信息，由于混响是频率相关的，因此按照频带序列进行处理，能够有效增强去混响的效果，提升模型的准确性，并且，深度学习模型能够使输出结果逼近真实的干净信号，因此同时也具有去噪的能力。

此外，相对于将整个频谱信息(全频带信息)直接输入到模型进行处理的方案，本申请还可以有效降低模型大小以及计算量，提高处理效率。

具体来说，全频带方案需要直接对全频带的信息进行处理，输入维度较大，因此模型需要较多的参数，导致模型较大，并且，由于深度学习模型的复杂性，模型内部的大量节点可能与输入的各个数据都存在依赖关系，因此，在输入维度增加时，模型的计算量的增加程度会远远超过输入维度的增加程度，导致计算量过大。而本申请实施例中，模型的参数量只需要能够处理单个频带的特征信息即可，对于每个频带来说，网络模型系数是共享的，可以有效减少网络模型系数的数据量，降低计算量，提高处理效率。并且，在训练时可以通过依次输入单个频带特征信息的方式实现对模型进行训练，使得模型在不同频带上均有较好的表现能力，兼顾效率与准确性。

因此，本申请实施例相对于利用整个频谱信息直接进行处理的深度学习方案，能够有效提升效率和准确性，非常适用于实时语音通信，尤其是硬件资源有限的设备上的实时语音通信。

下面结合附图，对本申请的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图2为本申请实施例提供的一种语音处理方法的流程示意图。本实施例中方法的执行主体可以为任意具有数据处理功能的设备，例如服务器、终端设备等。所述终端设备可以是专用设备例如音视频一体机，也可以是手机、个人电脑等通用设备。如图2所示，所述方法可以包括：

步骤201、确定待处理语音在多个频带上对应的特征信息。

可选的，所述待处理语音可以需要进行去噪和去混响的语音。示例性地，可以是会议过程中采集到的语音流中的一段语音。

所述待处理语音在频域上可以被提取出多个频带对应的特征信息。其中，所述频带可以用频率范围来表示，例如90Hz～150Hz这一范围代表一个频带，或者，可以用对应的中心频率来表示，例如，中心频率为120Hz的频带。

每一频带上可以有对应的特征信息，所述特征信息可以是能够反映待处理语音在该频带上的频域特征的任意信息，例如，可以是通过短时傅里叶变换得到的频域信息，也可以是对频域信息进一步进行提取后得到的特征信息。

步骤202、针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果。

其中，所述深度学习模型为能够处理序列数据的深度学习模型，并且，在模型在针对序列中的每一数据进行计算时，可以参考序列中其它数据的信息。

可选的，所述深度学习模型可以为LSTM模型或RNN(Recurrent Neural Network，循环神经网络)模型等。

在对多个频带对应的特征信息进行处理时，可以依次输入第1个频带对应的特征信息、第2个频带对应的特征信息、……，以此类推，各个频带的特征信息形成序列，被深度学习模型处理，在处理每一频带的特征信息时，会参考其它一个或多个频带的特征信息。

由于所述深度学习模型用于处理每个频带上的信息，因此，可以称为子带神经网络(Subband neural network)，简称为子网(Subnet)，若无其它说明，下文中以子网指代用于对多个频带对应的特征信息进行处理的深度学习模型。

步骤203、基于各特征信息对应的处理结果，得到处理后的语音。

可选的，对于每一频带，经过子网处理后得到的处理结果可以是干净语音在该频带上对应的频域信息，也可以是用于确定干净语音的其它中间结果，例如某些中间参数，通过将中间参数与频域信息进行计算，得到最终的干净语音。

在实际应用中，设备获取到的可以是含有噪音和混响的语音流，可以从语音流中截取预设长度的待处理语音，例如，每接收到20ms的语音后，可以按照上述方法，将该语音在多个频带上的特征信息依次输入到子网，根据处理结果得到干净语音播放给用户。

综上，本实施例提供的语音处理方法，可以确定待处理语音在多个频带上对应的特征信息，针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果，并基于各特征信息对应的处理结果，得到去噪和去混响后的语音，能够基于深度学习模型同时实现去噪和去混响，避免不同算法模块的串联导致的误差传递现象，并且基于频率上的序列，在处理每个频带的信息时参考其它频带的信息，由于混响是频率相关的，因此按照频率序列进行处理，能够有效增强去混响的效果，提升模型的准确性，此外，每个频带的网络模型系数是共享的，可以有效减少网络模型的大小和处理时的计算量，提高处理效率。

在本申请的一个或多个实施例中，可选的，针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果，可以包括：将多个频带上的特征信息依次输入到所述深度学习模型，得到各个频带对应的复数理想比值掩蔽信息(complex ideal ratio mask，cIRM)。

相应的，基于各特征信息对应的处理结果，得到处理后的语音，可以包括：根据所述待处理语音在多个频带上的频域信号以及对应的复数理想比值掩蔽信息，计算得到所述待处理语音在频域上的去噪和去混响后的信息；将所述频域上的去噪和去混响后的信息进行逆短时傅里叶变换，得到去噪和去混响后的语音。

可选的，设备采集到的待处理语音可以为时域语音信号：

y(t)＝x(t)+n(t)＝s(t)*h(t)+n(t) (1)

其中，x(t)为含混响的语音信号，n(t)为环境噪音，s(t)为干净语音信号，h(t)为空间脉冲响应(用于表述混响效应)。

经过短时傅里叶变换，可以得到待处理语音的频谱，即频域信息：

Y(t，f)＝X(t，f)+N(t，f) (2)

进而，可以基于子网，估计频域上的复数理想比值掩蔽M(t，f)，并根据M(t，f)得到处理后的频谱：

处理后的频谱经过iSTFT(inverse STFT，逆短时傅里叶变换)后得到处理后的时域语音信号

即去噪和去混响后的干净语音信号。

综上，通过短时傅里叶变换可以得到待处理语音的频域信息，并经过深度学习模型得到复数理想比值掩蔽信息，再通过复数理想比值掩蔽信息计算去噪和去混响后的干净语音信号，能够将模型的输出定位在复数理想比值掩蔽信息，简化了模型的输出，有效提升模型的处理速度，提高语音处理的效率。

在本申请的一个或多个实施例中，可选的，可以根据获取到的语音流和预设时间窗，得到待处理语音；对待处理语音进行短时傅里叶变换，得到所述待处理语音在多个频带上对应的频域信息。

其中，所述预设时间窗可以根据实际需要来设置。示例性地，所述预设时间窗的长度可以在20ms到150ms之间。

可选的，子网的输入可以为特征信息，输出可以为复数理想比值掩蔽信息。所述特征信息可以为所述频域信息，或者，所述特征信息可以为基于特征提取器提取到的所述频域信息对应的特征信息。

在一示例中，可以将经过短时傅里叶变换后得到的频域信息直接输入到子网中，得到对应的结果，该方式原理简单，易于实现。

在另一示例中，可以将经过短时傅里叶变换后得到的频域信息输入到特征提取器，提取频域信息对应的特征信息，并将该特征信息输入到子网，得到对应的结果，该方式能够提取频域信息更深层的特征，提升语音处理效果。

综上，通过从语音流中按照预设时间窗提取到待处理语音并进行短时傅里叶变换，得到多个频带上对应的频域信息，再根据频域信息和深度学习模型还原出时域上的干净信号，能够在时间和频域维度上对语音流进行分解处理，实现语音流的细粒度处理，提升对语音流的处理效率和准确性。

在本申请的一个或多个实施例中，可选的，确定待处理语音在多个频带上对应的特征信息，包括：将待处理语音在多个频带上对应的频域信息，输入到特征提取器，提取各频带对应的特征信息；其中，所述特征提取器包括时域上的特征提取器和/或频域上的特征提取器。

其中，输入到时域上的特征提取器可以是指：频域信息按照时间序列依次输入到特征提取器；输入到频域上的特征提取器可以是指：频域信息按照频率序列依次输入到特征提取器。

图3为本申请实施例提供的一种时域上的特征提取器的原理示意图。如图3所示，语音流可以按照时间窗被划分为多个时段，记为t1时段、t2时段、t3时段、……，每一时段对应一待处理语音，在输入到时域上的特征提取器时，可以将信息按照时间方向上的序列依次输入到特征提取器，即，先输入t1时段对应的频域信息，在t1时段对应的频域信息输入完后，再输入t2时段对应的频域信息，从而信息按照时间上的方向依次输入特征提取器，因此，该特征提取器可以被称为时域上的特征提取器。

图4为本申请实施例提供的一种频域上的特征提取器的原理示意图。如图4所示，语音流中的每一段待处理语音，可以按照频率窗被划分为多个频带，记为频带f1、频带f2、频带f3、……，在输入到频域上的特征提取器时，可以将信息按照频率方向上的序列依次输入到特征提取器，即，先输入频带f1对应的频域信息，在频带f1对应的频域信息输入完后，再输入频带f2对应的频域信息，从而信息按照时间上的方向依次输入特征提取器，因此，该特征提取器可以被称为频域上的特征提取器。

可选的，也可以通过时域上的特征提取器和频域上的特征提取器，共同提取待处理语音的特征信息。通过时域上的特征提取器和频域上的特征提取器，能够提取出待处理语音在频谱-时间对应域(Spectro-temporal respective fields，STRF)中的特征。

图5为本申请实施例提供的一种通过模型进行去噪和去混响的原理示意图。如图5所示，时域上的语音信号y(t)经过STFT后，得到的频域信息Y(t，f)可以具有时间、频率两个维度。示例性地，假设语音流按照时间窗、频率窗实现时间和频率上的二维划分，在时间维度上，可以分为时段t、时段t+1等，在频率维度上，可以分为频带f-1、频带f、频带f+1直至频带F等。进而可以基于模型，实现时间、频率两个维度上的信息处理。模型的输出结果与Y(t，f)进行计算，可以得到干净语音信号的频谱，再进行iSTFT，可以得到时域上的干净语音信号。通过模型得到的干净语音信号

与实际的干净语音信号s(t)可以构建损失函数，以优化模型。其中，所述模型可以包括前文所述的子网，还可以包括特征提取器。

综上，通过将待处理语音在多个频带上对应的频域信息，输入到特征提取器，提取各频带对应的特征信息，再根据特征信息，基于子网得到处理后的语音信号，能够提取出频域信息的深层特征，提高模型效果，进一步提升语音处理的准确性。

图6为本申请实施例提供的一种特征提取器和子网的原理示意图。如图6所示，频域信息依次经过第一特征提取网络、第二特征提取网络、子网后，得到处理结果。

其中，第一特征提取网络可以为时域上的特征提取器，第二特征提取网络可以为频域上的特征提取器。第一特征提取网络和第二特征提取网络串联设置，能够提取频域信息在STRF域的特征并送入子网进行处理。各网络的结构和原理将在下文详述。

图7为本申请实施例提供的一种提取特征信息的流程示意图。如图7所示，将待处理语音在多个频带上对应的频域信息，输入到特征提取器，提取各频带对应的特征信息，可以包括：

步骤701、将语音流中的待处理语音对应的频域信息，按照时间序列的方式输入到第一特征提取网络，得到所述待处理语音的各频带对应的第一特征信息。

其中，所述第一特征提取网络可以包括二维卷积神经网络(2D Conv)。

示例性地，含有噪音和混响的语音流，可以按照20ms的时间窗进行处理，得到的20ms的待处理语音的频域信息，可以分为129个频带，假设全频带为0～8000Hz，则每个频带相差8000/129≈62Hz。例如，第一个频带的中心频率为62Hz，第二个为124Hz。

需要说明的是，本实施例中列举的各个数值仅是为方便说明而进行的举例，在实际应用中可以进行调整。

本步骤中，可以将频域信息先按照时间上的序列输入到第一特征提取网络。由于每一时段内可以有多个频带的频域信息，可选的，可以将多个频带的频域信息拼接后输入到第一特征提取网络。

示例性地，参见图6，先输入时段t内的129个频带上的频域信息，再输入时段t+1内的129个频带上的频域信息，以此类推。因此，第一特征提取网络可以看作是时间轴上的特征提取。

可选的，所述第一特征提取网络还包括：批归一化层(Batch Normalization)；所述批归一化层的输入端与所述二维卷积神经网络的输出端连接，所述批归一化层的输出端与第二特征提取网络的输入端连接。

频域信息经过二维卷积神经网络、批归一化层处理后，可以得到维度为D1的第一特征信息。

示例性地，针对每一待处理语音，第一特征提取网络输出的可以是各个频带对应的D1维的特征，129个频带可以得到129个D1维的特征。

在二维卷积神经网络后增加批归一化层，可以针对在时间方向上输入的频域信息提取出的特征的分布进行调整，使得输入到下一层网络的特征更加稳定，提升模型的整体效果。

步骤702、将各频带对应的第一特征信息，按照频率序列的方式输入到第二特征提取网络，得到各频带对应的第二特征信息。

其中，所述第二特征提取网络可以包括双向LSTM(bi-directional LSTM)网络。所述双向LSTM网络的输入端可以与第一特征提取网络中的批归一化层的输出端连接。

示例性地，针对每一待处理语音，第一特征提取网络提取到129个频带的D1维的特征，可以将各个频带的D1维的特征依次输入到第二特征提取网络，因此第二特征提取网络可以看作是用于实现频率轴上的特征提取，其中的双向LSTM的数量可以有一个也可以有多个。

可选的，所述第二特征提取网络还可以包括：全连接层(Full)和线性整流单元(ReLu)；所述全连接层的输入端与所述双向LSTM网络的输出端连接，所述全连接层的输出端与所述线性整流单元的输入端连接。所述线性整流单元的输出端可以与子网连接。

示例性地，双向LSTM的数量可以为2个，针对每一频带的第一特征信息，经过2个双向LSTM后，得到该频带对应的维度为D2的特征，再输入到全连接层和线性整流单元，得到该频带对应的维度为D3的特征。因此，针对每一待处理语音，通过第二特征网络提取单元，最终可以得到129个频带的D3维的特征，记为第二特征信息，该第二特征信息可以用于输入到子网进行处理。

在双向LSTM网络后增加全连接层和线性整流单元，能够针对各频带，对提取到的特征进行整合，并减少梯度爆炸和梯度消失问题，降低网络整体计算成本，实现各频带上的特征提取，进一步提升模型的整体性能。

需要说明的是，如果是按时间序列将信息输入到双向LSTM，那么就难以实现对实时信号进行处理，而本申请实施例中，是按频率序列将信息输入到双向LSTM，相邻两个数据只有频带上的先后关系，而不必然有时间上的先后关系，因此，能够实现对语音的实时处理，提高实时性，满足实际应用需求。

可选的，所述深度学习模型，即子网，可以包括单向LSTM网络和全连接层；所述单向LSTM网络的输入端与所述第二特征提取网络的输出端连接，所述全连接层的输入端与所述单向LSTM网络的输出端连接；所述全连接层用于得到各个频带对应的复数理想比值掩蔽信息。

示例性地，第二特征提取网络输出每个频带的D3维的特征，将各个频带的D3维的特征依次输入到子网中，不同的频带共用同一套子网参数，每个频带得到两个数字作为结果，分别为复数理想比值掩蔽的实部和虚部。依次输入完一个时段内的129个频带的特征信息后，再依次输入下一时段内的129个频带的特征信息。得到每个频带的复数理想比值掩蔽信息后，根据复数理想比值掩蔽信息可以还原干净语音信号。

通过单向LSTM可以根据前一频带的信息指导后一频带的信息处理，提高处理结果的准确性，通过全连接层可以得到复数理想比值掩蔽信息的实部和虚部，简化模型结构，进一步提高语音处理的效率。

在本实施例中，为了更好地得到各个频带相互依赖的信息，针对每个频带的频域信息添加了二维卷积神经网络和频率方向上的双向LSTM网络，两者的结合相当于一个频谱-时间对应域的提取器，再加上子网，整个模型可称为STSubNet。

综上，通过将语音流中的待处理语音对应的频域信息，按照时间序列的方式输入到第一特征提取网络，得到所述待处理语音的各频带对应的第一特征信息，并将各频带对应的第一特征信息，按照频率序列的方式输入到第二特征提取网络，得到各频带对应的第二特征信息，能够先基于时间轴提取出频域信息的深层特征，再基于频率轴提取各个频带的特征信息，实现了频谱-时间域的特征提取，并且双向LSTM可以参考前后频带的信息，从而能够更好地提炼出含有混响的待处理语音的各个频带上的相互依赖信息，将提取到的特征输入到子网中可以获得更加准确的结果，进一步提升模型的准确性。

在其他可选的实现方式中，可以根据实际需要对模型进行调整。例如，第一特征提取网络可以省略，频域信息可以直接输入到第二特征提取网络，再进入子网进行处理。或者，第二特征提取网络可以省略，频域信息经过第一特征提取网络后，直接进入子网进行处理。各个网络中各模块的数量也可以根据实际需要进行调整，例如，单向LSTM网络和双向LSTM网络的数量可以调整，或者，单向LSTM网络和双向LSTM网络可以替换。

在本申请的一个或多个实施例中，可选的，模型训练过程中使用的损失函数，由基于深度学习模型得到的语音信号和实际干净语音信号之差的L2范数以及实际干净语音信号的L2范数确定。

可选的，可以使用训练样本集对模型进行训练，此处的模型可以包括前面的子网以及特征提取器等，这些网络可以同时进行训练。所述训练样本集可以包括多个训练样本，每一样本包括实际干净语音信号以及添加有噪音和混响的语音信号，其中，实际干净语音信号可以是不包含噪音和混响的语音信号，在实际干净语音信号的基础上添加噪音和混响，可以得到对应的添加有噪音和混响的语音信号。

可选的，可以通过如下公式构建损失函数(loss function)：

其中，|| ||²可以用于表示L2范数，s(t)为实际干净语音信号，

为通过模型得到的干净语音信号。

综上，通过基于深度学习模型得到的语音信号和实际干净语音信号之差的L2范数以及实际干净语音信号的L2范数构建损失函数，可以使模型输出的干净语音信号尽量接近实际干净语音信号，并且具有较强的过拟合能力，使得模型的泛化能力更强，满足模型在不同场景下的应用需求。

在本申请的一个或多个实施例中，可选的，模型的参数大小可以是可调的。通过调节神经网络参数(例如S、T、D1、D2、D3、D4)，可以让模型的网络参数很小，又不损失去噪去混响的效果。

通常来说参数越大，网络大小越大，计算量随之越大。在本实施例中，可以通过实时因子(real-time factor，RTF)来反映网络模型的实时性表现，RTF具体可以为处理一帧的计算时间除以一帧的持续时间，小于1即可实现实时运算。

表1不同参数大小对应的RTF

如表1所示，D1、D2、D3、D4可以为不同大小的数值，能够使模型的各个模块输出不同维度的特征。STSubNet、STSubNet₂、STSubNet₃代表三种不同大小的模型，#Para代表对应的网络参数数量，单位为M(million)，例如，STSubNet仅需要36万的参数即可，对应的RTF为0.537，具有较好的实时性。STSubNet₂、STSubNet₃虽然参数数量有所增加，但是RTF仍然小于1，可以满足实时通信的要求。

可选的，可以获取用户输入的下述至少一项信息：用于从语音流中截取待处理语音的时间窗的长度、多个频带的信息、特征提取器和深度学习模型中各模块的输出维度；根据上述至少一项信息进行模型训练。

其中，所述时间窗可以用于确定一帧待处理语音对应的长度，所述多个频带可以是指划分的频带的数量，例如是划分为129个频带还是更多或更少的频带。特征提取器和深度学习模型中各模块具体可以包括：批归一化层、双向LSTM、线性整流单元、子网中的全连接层等。通过对上述至少一项信息进行修改，可以调整网络模型的大小、计算量以及模型准确性。

综上，通过获取用户输入的时间窗的长度、多个频带的信息、特征提取器和深度学习模型中各模块的输出维度等，可以基于用户的选择进行模型的构建和训练，满足用户的个性化需求，实现不同场景下的语音处理，具有较强的灵活性。

在本申请的一个或多个实施例中，可选的，在频域信息输入到模型之前，可以进行归一化操作。可选的，通过如下公式计算时段t对应的平均值：

其中，α为平滑因子，可选的，

L为时间窗的长度；μ(t)为时段t对应的平均值，μ(t-1)为时段t-1即上一时段的平均值，f为1至F之间的正整数，F为频带数量，Y(t，f)为时段t中第f个频带对应的频域信息。

在得到每一时段对应的平均值后，可以根据平均值对该时段的待处理语音对应的频域信息进行归一化操作。示例性地，可以将该时段对应的频域信息除以平均值，得到归一化后的频域信息。输入到模型的频域信息可以是归一化后的频域信息。

上述归一化操作使用的平均值可以通过上一时段的平均值和本时段的信息构建，能够满足实时性要求。

可选的，语音去噪的评估指标可以包括：宽带感知评估语音质量评分(Wide-bandperceptual evaluation of speech quality score，PESQ)、短时客观可懂度评分(Short-time objective intelligibility score，STOI)和尺度不变的信噪比(Scale-invariantsignal-to-distortion ratio，SISDR)；去混响的指标可以包括：PESQ、STOI和归一化语音-混响调制能量比(Normalized speech-to-reverberation modulation energy ratio，SRMR)。在公共测试数据集上，对本申请实施例提供的模型与其它模型的处理效果进行了比较。

表2去噪指标的比较

表3去混响指标的比较

表3中near和far表示两种不同的场景，这两种场景下语音采集装置和播放装置有不同的距离，分别为0.5米和2米。

实验结果表明，在公共测试数据集上，STSubnet的性能优于其他模型，并且STSubnet可以使用较少的网络参数(仅为36万个)，以轻量级的方式进行设计，同时保持具有竞争力的性能。

在本申请的一个或多个实施例中，可选的，可以获取用户输入的偏好信息，所述偏好信息用于表示对去噪和去混响的期望；根据所述偏好信息，选择对应的模型以进行语音处理。示例性地，用户可以选择：优先去噪，或者，优先去混响。

由于噪音和混响是不同原理的干扰，当噪音干扰和混响干扰都比较大时，模型可能很难在这两方面都达到特别好的效果。可以预先训练多个模型，不同的模型在不同场景下的表现不同，有些模型能够更好地去除噪音，有些模型能够更好地去除混响。

例如，增加LSTM网络能够在去除混响时有更好的表现，因此，可以通过调整模型中的单向LSTM网络、双向LSTM网络的数量和位置，从而调整模型去除混响的程度。

在实际应用中，用户可以根据自身需要选择去噪和去混响的偏好信息，设备可以根据偏好信息选择对应的模型进行语音处理。可选的，不同的模型可以存储在服务器中，终端设备可以从服务器获取模型进行语音处理，或者，服务器可以通过模型进行语音处理，并将处理后的语音下发给终端设备。

通过预先训练能够不同程度地去除混响和噪音的模型，并根据用户输入的偏好信息选择对应的模型，能够满足用户的个性化需求，提升用户体验度。

此外，还可以根据实际场景来选择对应的模型。可选的，在进行语音处理之前，可以通过拍摄装置获取房间图像，根据房间图像确定房间尺寸、墙体材质以及室内障碍物信息，并根据房间尺寸、墙体材质以及室内障碍物信息，确定混响程度；通过语音采集设备获取用户未发言时的环境噪音，并根据环境噪音，确定噪音程度；或者，可以获取用户输入的场景信息、房间尺寸、墙体材质以及室内障碍物信息等，以根据这些信息确定噪音程度和/或混响程度。

可选的，可以将房间图像输入到图像识别模型，确定房间尺寸、墙体材质以及室内障碍物信息等。所述房间图像可以为3D图像，能够提高识别准确性。根据房间尺寸、墙体材质以及室内障碍物信息可以确定混响程度，混响程度可以对不同的混响效果进行区分。

可选的，根据用户未发言的情况下的一段时间内的环境噪音，可以确定噪音程度，用于对不同的噪音效果进行区分。用户是否发言可以通过语音识别、声纹识别等实现。

根据确定的混响程度和/或噪音程度，可以选择对应的模型进行语音处理。具体地，可以预先训练不同的模型，不同模型的结构不同，或者，不同模型的结构相同，但是，使用不同的训练样本集进行训练。

示例性地，场景信息可以包括卧室、咖啡厅或会议室，不同场景的混响程度和噪音程度不同，可以获取不同场景对应的训练样本并分别训练模型，得到训练后的不同场景对应的模型。

在实际应用中，在通过模型对语音进行处理之前，可以先确定当前所在环境的噪音程度和混响程度，并选择对应的模型进行语音处理，提高不同环境下的语音处理效果，满足各种场景的需求，具有较强的适应性。

图8为本申请实施例提供的另一种语音处理方法的流程示意图。本实施例是在前述实施例提供的技术方案的基础上，提供了一种应用于线上会议场景的语音处理方法。所述方法的执行主体可以为第一设备。如图8所示，所述方法包括：

步骤801、获取第二设备在会议过程中采集的单通道语音。

可选的，所述第一设备和所述第二设备之间用于实时传递语音，所述语音可以为单通道语音。

步骤802、确定所述单通道语音在多个频带上对应的特征信息。

步骤803、针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各频域信息对应的处理结果。

本实施例中，所述单通道语音可以为待处理语音，步骤802至步骤803的具体实现过程和原理可以参见前述实施例，此处不再赘述。

步骤804、基于各频域信息对应的处理结果，得到处理后的语音并播放。

在得到处理后的语音后，第一设备可以向播放所述语音。

在实际应用中，第一用户和第二用户参加线上会议时，可以分别使用第一设备和第二设备。第二用户可以通过第二设备实现语音输入，第一用户可以通过第一设备播放语音。第二设备采集到的语音可能会含有噪音和混响，第一设备从第二设备接收到语音后，可以按照本实施例提供的方法，实现对第二设备采集到的语音进行处理，得到去噪和去混响后的语音并播放给第一用户。

类似的，第二设备也可以获取第一设备采集到的语音，按照类似的方法对语音进行处理，得到去噪和去混响后的语音并播放给第二用户。

综上，本实施例提供的语音处理方法，可以获取第二设备在会议过程中采集的单通道语音，确定所述单通道语音在多个频带上对应的特征信息，针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各频域信息对应的处理结果，基于各频域信息对应的处理结果，得到处理后的语音并播放，能够实现线上会议过程中的实时语音去噪和去混响处理，且具有较高的效率和准确性，为用户提供流畅、清晰的语音体验，提升用户体验度。

除了可以应用于线上会议以外，本申请实施例中的方法还可以应用于其它线上语音沟通场景，包括但不限于：线上教学、线上庭审等。设备获取到用户在线上教学或线上庭审过程中输入的语音后，可以按照本申请实施例中的方法，对采集到的语音进行处理，以获得去噪和去混响后的语音。

本申请实施例还提供一种语音处理方法，应用于语音识别领域，包括：确定待识别语音在多个频带上对应的特征信息；针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各频域信息对应的处理结果；基于各频域信息对应的处理结果，得到处理后的语音；对所述处理后的语音进行识别，得到对应的说话人信息，和/或，得到所述语音对应的文本信息。

其中，所述待识别语音可以作为前述的待处理语音，通过前述任一实施例可以实现对待识别语音的处理。由于待识别语音中可能包含噪音和混响，影响识别效果，采用本申请实施例提供的方法先对待识别语音进行去噪和去混响，再对语音进行识别，能够有效提高语音识别的准确性。

在本申请各实施例中，方法的执行主体可以根据实际需要来设置。示例性地，可以由终端设备执行，或者，可以由服务器执行，或者，部分步骤由终端设备执行，部分步骤由服务器执行。

对应于上述语音处理方法，本申请实施例还提供一种语音处理装置，所述语音处理装置可以包括：

第一确定模块，用于确定待处理语音在多个频带上对应的特征信息；

第一处理模块，用于针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各特征信息对应的处理结果；

第二处理模块，用于基于各特征信息对应的处理结果，得到处理后的语音。

在本申请的一个或多个实施例中，可选的，所述第一确定模块还用于：

根据获取到的语音流和预设时间窗，得到待处理语音；

在本申请的一个或多个实施例中，可选的，所述第一确定模块具体用于：

在本申请的一个或多个实施例中，可选的，所述第一处理模块具体用于：

在本申请的一个或多个实施例中，可选的，所述第一特征提取网络还包括：批归一化层；

所述第二特征提取网络还包括：全连接层和线性整流单元；

在本申请的一个或多个实施例中，可选的，所述深度学习模型包括单向LSTM网络和全连接层；所述单向LSTM网络的输入端与所述第二特征提取网络的输出端连接，所述全连接层的输入端与所述单向LSTM网络的输出端连接；所述全连接层用于得到各个频带对应的复数理想比值掩蔽信息；

相应的，所述第二处理模块具体用于：

根据上述至少一项信息进行模型训练。

本申请实施例提供的语音处理装置，可用于执行上述图1至图7所示实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例还提供一种语音处理装置，可以应用于第一设备，所述装置可以包括：

获取模块，用于获取第二设备在会议过程中采集的单通道语音；

第二确定模块，用于确定所述单通道语音在多个频带上对应的特征信息；

第三处理模块，用于针对所述多个频带上的特征信息形成的序列，基于用于处理序列数据的深度学习模型，得到各频域信息对应的处理结果；

第四处理模块，用于基于各频域信息对应的处理结果，得到处理后的语音并播放。

本申请实施例提供的信息处理装置，可用于执行上述图8所示实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示，本实施例的电子设备可以包括：

至少一个处理器901；以及

与所述至少一个处理器通信连接的存储器902；

其中，所述存储器902存储有可被所述至少一个处理器901执行的指令，所述指令被所述至少一个处理器901执行，以使所述电子设备执行如上述任一实施例所述的方法。

可选地，存储器902既可以是独立的，也可以跟处理器901集成在一起。

本实施例提供的电子设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现前述任一实施例所述的方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例所述的方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音处理方法，其特征在于，包括：

确定待处理语音在多个频带上对应的特征信息；

基于各特征信息对应的处理结果，得到处理后的语音。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据获取到的语音流和预设时间窗，得到待处理语音；

3.根据权利要求1所述的方法，其特征在于，确定待处理语音在多个频带上对应的特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，将待处理语音在多个频带上对应的频域信息，输入到特征提取器，提取各频带对应的特征信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一特征提取网络还包括：批归一化层；

所述第二特征提取网络还包括：全连接层和线性整流单元；

6.根据权利要求4所述的方法，其特征在于，所述深度学习模型包括单向LSTM网络和全连接层；所述单向LSTM网络的输入端与所述第二特征提取网络的输出端连接，所述全连接层的输入端与所述单向LSTM网络的输出端连接；所述全连接层用于得到各个频带对应的复数理想比值掩蔽信息；

7.根据权利要求3-6任一项所述的方法，其特征在于，还包括：

获取用户输入的下述至少一项信息：用于从语音流中截取待处理语音的时间窗的长度、多个频带的信息、特征提取器和深度学习模型中各模块的输出维度；

根据上述至少一项信息进行模型训练。

8.根据权利要求3-6任一项所述的方法，其特征在于，模型训练过程中使用的损失函数，由基于深度学习模型得到的语音信号和实际干净语音信号之差的L2范数以及实际干净语音信号的L2范数确定。

9.一种语音处理方法，其特征在于，应用于第一设备，所述方法包括：

获取第二设备在会议过程中采集的单通道语音；

确定所述单通道语音在多个频带上对应的特征信息；

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述电子设备执行权利要求1-9任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-9任一项所述的方法。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-9任一项所述的方法。