CN112201229A

CN112201229A - 一种语音处理方法、装置及系统

Info

Publication number: CN112201229A
Application number: CN202011073335.8A
Authority: CN
Inventors: 胡正伦; 陈江
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2021-01-08
Anticipated expiration: 2040-10-09
Also published as: CN112201229B

Abstract

本申请公开了一种语音处理方法、装置及系统，其中，当所述方法应用于客户端中，包括：对采集的语音信号进行降噪处理，生成目标语音信号；获取所述目标语音信号对应的还原信息；将所述还原信息以及所述目标语音信号发送至所述服务器，以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。本实施例在语音场景中使用该目标语音信号可以提升客户端的主观音质，同时还可以由服务器还原得到的未失真的语音信号确保服务器的语音识别效果。

Description

一种语音处理方法、装置及系统

技术领域

本申请实施例涉及自然语言处理技术，尤其涉及一种语音处理方法、装置及系统。

背景技术

语音识别(Automatic Speech Recognition，简称ASR)是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转换为相应的文本或命令的技术。随着信息技术的发展，语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音识别技术的应用场景也变得越来越广泛，例如语音识别技术可以应用在字幕添加、识别谈话中的敏感内容、人机交互等场景。

在一些语音场景中，例如语音通信场景或者语音直播场景等，为了提高用户音质，可以使用语音增强技术来提取有用的语音信号，降低噪声信号的干扰。在相关技术中，可以在客户端中集成单通道语音增强(SE)算法来提升音质，但单通道SE算法往往会引起语音失真，导致ASR识别率降低。

发明内容

本申请提供一种语音处理方法、装置及系统，以解决现有技术中在客户端中集成单通道语音增强(SE)算法来提升音质引起的语音失真，导致ASR识别率降低的问题。

第一方面，本申请实施例提供了一种语音处理方法，应用于客户端中，所述方法包括：

对采集的语音信号进行降噪处理，生成目标语音信号；

获取所述目标语音信号对应的还原信息；

将所述还原信息以及所述目标语音信号发送至所述服务器，以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

第二方面，本申请实施例还提供了一种语音处理方法，应用于服务器中，所述方法包括：

接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息，其中，所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号；

根据所述还原信息将所述目标语音信号还原成原始的语音信号；

对所述原始的语音信号进行语音识别。

第三方面，本申请实施例还提供了一种语音处理系统，所述语音处理系统包括第一客户端和服务器，

所述第一客户端用于对采集的语音信号进行降噪处理，生成目标语音信号，并获取所述目标语音信号对应的还原信息，将所述还原信息以及所述目标语音信号发送至所述服务器；

所述服务器用于根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

第四方面，本申请实施例还提供了一种语音处理装置，应用于客户端中，所述装置包括：

降噪模块，用于对采集的语音信号进行降噪处理，生成目标语音信号；

还原信息获取模块，用于获取所述目标语音信号对应的还原信息；

信息发送模块，用于将所述还原信息以及所述目标语音信号发送至所述服务器，以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

第五方面，本申请实施例还提供了一种语音处理装置，应用于服务器中，所述方法包括：

信息接收模块，用于接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息，其中，所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号；

语音还原模块，用于根据所述还原信息将所述目标语音信号还原成原始的语音信号；

语音识别模块，用于对所述原始的语音信号进行语音识别。

第六方面，本申请实施例还提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的语音处理方法。

第七方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的语音处理方法。

本申请具有如下有益效果：

在本实施例中，客户端可以对采集的语音信号进行降噪处理生成目标语音信号，在语音场景中使用该目标语音信号可以提升主观音质。另外，客户端还可以获取目标语音信号对应的还原信息，并将该还原信息以及目标语音信号发送至服务器，以由服务器根据该还原信息将目标语音信号还原成原始的语音信号，并对原始的语音信号进行语音识别，还原得到的未失真的语音信号可以确保服务器的语音识别效果。

附图说明

图1是本申请实施例一提供的一种语音处理方法实施例的流程图；

图2是本申请实施例二提供的一种语音处理方法实施例的流程图；

图3是本申请实施例二提供的通信框架示意图；

图4是本申请实施例三提供的一种语音处理方法实施例的流程图；

图5是本申请实施例四提供的一种语音处理系统实施例的结构框图；

图6是本申请实施例五提供的一种语音处理装置实施例的结构框图；

图7是本申请实施例六提供的一种语音处理装置实施例的结构框图；

图8是本申请实施例六提供的一种计算设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种语音处理方法实施例的流程图，本实施例可以应用于客户端中，本申请可以应用于语音识别的场景，例如，应用于语音审核的场景，本实施例的客户端可以与语音识别服务器进行通信，将语音信号发送给服务器进行语音识别。

本实施例具体可以包括如下步骤：

步骤110，对采集的语音信号进行降噪处理，生成目标语音信号。

在本实施例中，在客户端本地对采集的语音信号进行降噪处理，达到语音增强的目的，而无需将采集的语音信号传输给用于降噪的服务器进行降噪处理，可以降低传输成本以及降低服务器的负载。

在一种实施方式中，步骤110可以包括如下步骤：

步骤110-1，获取采集的语音信号的语音特征信息，并将所述语音特征信息输入至已训练的降噪网络中，其中，所述降噪网络的输出层的激活函数为基于理想比值掩蔽的滤波函数。

在该步骤中，当客户端采集到语音信号以后，可以提取语音信号的声学特征(即语音特征信息)，如MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征，然后将语音特征信息输入至降噪网络中进行降噪处理。

在一种实施例中，该降噪网络可以为预先训练的深度神经网络，该降噪网络的输出层的激活函数可以为基于理想比值掩蔽(Ideal Ratio Mask，简称IRM)的滤波函数，以将噪声信号掩蔽，保留语音信号。

在一种实施例中，基于理想比值掩蔽的滤波函数在频域上可以表示为如下公式：

其中，t为时间，k为频率，

为噪声信号，

为没有噪声的语音信号。输入带有噪声的语音数据理想上可分解为Y(t,k)＝X(t,k)+N(t,k)，期望降噪后的输出为X(t,k)，但由于存在估测误差所以表示为

和

步骤110-2，获取所述降噪网络对所述语音特征信息进行降噪处理后输出的频域数据。

在该步骤中，降噪网络对每个时频单元进行降噪后输出介于0到1之间的频域数据H(t,k)，则所有时频单元的频域数据可以组成降噪语音

步骤110-3，将所述频域数据转换成时域信号，作为目标语音信号。

在一种实现中，可以将频域数据

经过傅里叶逆变换还原回时域信号

作为目标语音信号。

步骤120，获取所述目标语音信号对应的还原信息。

经过降噪的目标语音信号会存在一定程度的失真，造成根据该目标语音信号进行语音识别时的识别率降低。为了解决该问题，在本实施例中，可以获取目标语音信号对应的还原信息，该还原信息用于对失真的目标语音信号进行还原，降低语音信号的失真程度。

在一种实施例中，还原信息在频域上可以为逆滤波函数

在时域上等价于无限脉冲响应IIR实现的逆滤波器。在一种实现中，客户端可以通过快速傅里叶逆变换(inversefast fourier transform)将基于理想比值掩蔽的滤波函数变换成时域的逆滤波函数

在一种例子中，逆滤波函数

可以表示为如下公式：

其中，

为一个时域单元的频域数据，

为同一时域单元的携带噪声信息的语音信号。

在另一种实施例中，客户端还可以直接将基于理想比值掩蔽的滤波函数作为还原信息传递至服务器中，由服务器进行逆滤波处理。

步骤130，将所述还原信息以及所述目标语音信号发送至所述服务器，以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

在该步骤中，客户端获得目标语音信号的还原信息以后，则可以将该还原信息以及目标语音信号一起发送至所述服务器。

对于服务器而言，可以根据该还原信息将目标语音信号还原成原始的语音信号，并对该原始的语音信号进行语音识别，由于原始的语音信号没有失真，因此可以提高语音识别的识别率。

实施例二

图2为本申请实施例二提供的一种语音处理方法实施例的流程图，本实施例可以应用于客户端中，本申请可以应用于语音通信的场景，本实施例的客户端可以与用于语音识别的服务器进行通信，还可以与另一个客户端进行通信。

本实施例可以包括如下步骤：

步骤210，对采集的语音信号进行降噪处理，生成目标语音信号。

步骤220，将所述目标语音信号编码后发送至与所述客户端通信的对端客户端。

步骤230，获取所述目标语音信号对应的还原信息。

步骤240，将所述还原信息以及所述目标语音信号发送至所述服务器，以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

例如，如图3的通信框架示意图所示，假设本实施例的客户端为图3中的客户端A，客户端A可以与客户端B进行语音通信，也可以与服务器端进行通信，将语音信号发送至服务器端进行语音识别。客户端A对采集的语音信号进行降噪处理获得目标语音信号以后，一方面，可以对目标语音信号编码后发送至客户端B中，则客户端B接收到目标语音信号以后可以解码播放。另一方面，客户端A还可以获得用于对目标语音信号还原的还原信息

并将该还原信息以及目标语音信号传输至服务器端，由服务器根据该还原信息将目标语音信号还原成原始的语音信号，并对原始的语音信号进行语音识别。

在本实施例中，客户端可以对采集的语音信号进行降噪处理生成目标语音信号，在语音通信场景中将该目标语音信号发送至通信对端的客户端，可以提升对端客户端播放该目标语音信号的主观音质。另外，客户端还可以获取目标语音信号对应的还原信息，并将该还原信息以及目标语音信号发送至服务器，以由服务器根据该还原信息将目标语音信号还原成原始的语音信号，并对原始的语音信号进行语音识别，还原得到的未失真的语音信号可以确保服务器的语音识别效果。

实施例三

图4为本申请实施例三提供的一种语音处理方法实施例的流程图，本实施例可以应用于服务器中，本申请可以应用于语音识别的场景，具体可以包括如下步骤：

步骤410，接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息，其中，所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号。

步骤420，根据所述还原信息将所述目标语音信号还原成原始的语音信号。

在该步骤中，服务器接收到目标语音信号以及与目标语音信号相关的还原信息以后，可以根据该还原信息将目标语音信号还原成原始的语音信号。

在一种实施方式中，还原信息可以为基于理想比值掩蔽的滤波函数对应的逆滤波函数，步骤420进一步可以包括如下步骤：

根据所述逆滤波函数以及所述目标语音信号，计算还原后的原始的语音信号。

在该实施例中，服务器接收到逆滤波函数以后，可以采用该逆滤波函数对目标语音信号进行还原，获得原始的携带噪声信号的语音信号。

在一种实现中，可以采用如下公式将目标语音信号还原成原始的语音信号：

其中，

为目标语音信号，

为原始的语音信号，

为逆滤波函数。

在另一种实施方式中，还原信息可以为基于理想比值掩蔽的滤波函数，步骤420进一步可以包括如下步骤：

确定所述滤波函数对应的逆滤波函数；

在该实施例中，服务器接收到滤波函数H(t,k)以后，可以对通过快速傅里叶逆变换将基于理想比值掩蔽的滤波函数变换成时域的逆滤波函数

然后采用该逆滤波函数对目标语音信号进行还原，生成原始的语音信号。

步骤430，对所述原始的语音信号进行语音识别。

在本实施例中，服务器对语音信号进行语音识别前，先将语音信号还原成原始的未失真的语音信号，然后对原始的语音信号进行语音识别可以提高识别率。

实施例四

图5为本申请实施例四提供的一种语音处理系统实施例的结构框图，如图5所示，所述语音处理系统包括第一客户端10和服务器20，

所述第一客户端10用于对采集的语音信号进行降噪处理，生成目标语音信号，并获取所述目标语音信号对应的还原信息，将所述还原信息以及所述目标语音信号发送至所述服务器；

所述服务器20用于根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

在一种实施方式中，如图5所示，所述系统还可以包括与所述第一客户端10通信的第二客户端30，

所述第一客户端10还用于将所述目标语音信号编码后发送至所述第二客户端中；

所述第二客户端30用户对所述目标语音信号进行解码并播放。

在一种实施方式中，所述第一客户端10具体用于：

获取采集的语音信号的语音特征信息，并将所述语音特征信息输入至已训练的降噪网络中，其中，所述降噪网络的输出层的激活函数为基于理想比值掩蔽的滤波函数；

获取所述降噪网络对所述语音特征信息进行降噪处理后输出的频域数据；

将所述频域数据转换成时域信号，作为目标语音信号。

在一种实施方式中，所述还原信息为所述滤波函数，或者，所述还原信息为所述滤波函数的逆滤波函数。

在一种实施方式中，当所述还原信息为基于理想比值掩蔽的滤波函数时，所述服务器20具体用于：

确定所述滤波函数对应的逆滤波函数；

在一种实施方式中，当所述还原信息为基于理想比值掩蔽的滤波函数对应的逆滤波函数，所述服务器20具体用于：

需要说明的是，本申请实施例所提供的上述语音处理系统可执行本申请任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本申请实施例五提供的一种语音处理装置实施例的结构框图，该语音处理装置可以应用于客户端中，可以包括如下模块：

降噪模块610，用于对采集的语音信号进行降噪处理，生成目标语音信号；

还原信息获取模块620，用于获取所述目标语音信号对应的还原信息；

信息发送模块630，用于将所述还原信息以及所述目标语音信号发送至所述服务器，以由所述服务器根据所述还原信息将所述目标语音信号还原成原始的语音信号，并对所述原始的语音信号进行语音识别。

在一种实施方式中，所述装置还包括：

通信模块，用于将所述目标语音信号编码后发送至与所述客户端通信的对端客户端。

在一种实施方式中，所述降噪模块610具体用于：

将所述频域数据转换成时域信号，作为目标语音信号。

需要说明的是，本申请实施例所提供的上述语音处理装置可执行本申请任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果。

实施例六

图7为本申请实施例六提供的一种语音处理装置实施例的结构框图，该语音处理装置可以应用于服务器中，可以包括如下模块：

信息接收模块710，用于接收客户端发送的目标语音信号以及与所述目标语音信号相关的还原信息，其中，所述目标语音信号为所述客户端对采集的语音信号进行降噪处理后生成的信号；

语音还原模块720，用于根据所述还原信息将所述目标语音信号还原成原始的语音信号；

语音识别模块730，用于对所述原始的语音信号进行语音识别。

在一种实施方式中，所述还原信息为基于理想比值掩蔽的滤波函数，所述语音还原模块720具体用于：

确定所述滤波函数对应的逆滤波函数；

在一种实施方式中，所述还原信息为基于理想比值掩蔽的滤波函数对应的逆滤波函数，所述语音还原模块720具体用于：

实施例七

图8为本申请实施例四提供的一种计算设备的结构示意图，该计算设备可以包括服务器设备，或者包括客户端设备，如图8所示，该计算设备包括处理器810、存储器820、输入装置830和输出装置840；计算设备中处理器810的数量可以是一个或多个，图8中以一个处理器810为例；计算设备中的处理器810、存储器820、输入装置830和输出装置840可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储器820作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的语音处理方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的软件程序、指令以及模块，从而执行计算设备的各种功能应用以及数据处理，即实现上述的方法。

存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器820可进一步包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可用于接收输入的数字或字符信息，以及产生与计算设备的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。

实施例八

本申请实施例八还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算设备的处理器执行时用于执行实施例一至实施例三中任一实施例中的方法。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语音处理方法，其特征在于，应用于客户端中，所述方法包括：

对采集的语音信号进行降噪处理，生成目标语音信号；

获取所述目标语音信号对应的还原信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标语音信号编码后发送至与所述客户端通信的对端客户端。

3.根据权利要求1或2所述的方法，其特征在于，所述对采集的语音信号进行降噪处理，生成目标语音信号，包括：

将所述频域数据转换成时域信号，作为目标语音信号。

4.根据权利要求3所述的方法，其特征在于，所述还原信息为所述滤波函数，或者，所述还原信息为所述滤波函数的逆滤波函数。

5.一种语音处理方法，其特征在于，应用于服务器中，所述方法包括：

对所述原始的语音信号进行语音识别。

6.根据权利要求5所述的方法，其特征在于，所述还原信息为基于理想比值掩蔽的滤波函数，所述根据所述还原信息将所述目标语音信号还原成原始的语音信号包括：

确定所述滤波函数对应的逆滤波函数；

7.根据权利要求5所述的方法，其特征在于，所述还原信息为基于理想比值掩蔽的滤波函数对应的逆滤波函数，所述根据所述还原信息将所述目标语音信号还原成原始的语音信号包括：

8.一种语音处理系统，其特征在于，所述语音处理系统包括第一客户端和服务器，

9.根据权利要求8所述的系统，其特征在于，所述系统还包括与所述第一客户端通信的第二客户端，

所述第一客户端还用于将所述目标语音信号编码后发送至所述第二客户端中；

所述第二客户端用户对所述目标语音信号进行解码并播放。

10.一种语音处理装置，其特征在于，应用于客户端中，所述装置包括：

11.一种语音处理装置，其特征在于，应用于服务器中，所述方法包括：

语音识别模块，用于对所述原始的语音信号进行语音识别。

12.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4和/或5-7中任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4和/或5-7中任一所述的方法。