CN114842857A

CN114842857A - 语音处理方法、装置、系统、设备及存储介质

Info

Publication number: CN114842857A
Application number: CN202210307901.XA
Authority: CN
Inventors: 宋琦
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-08-02

Abstract

本申请实施例提供语音处理方法、装置、系统、设备及存储介质，其方法包括：对待编码的语音数据进行特征提取，生成第一语音特征；根据所述第一语音特征，确定编码后的语音数据；根据所述编码后的语音数据，训练生成对抗网络，所述生成对抗网络用于解码语音数据。解决了现有技术无法保证高保真音频质量的同时，实现高效率、低消耗处理的音频编解码的问题。

Description

语音处理方法、装置、系统、设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种语音处理方法、装置、系统、设备及存储介质。

背景技术

随着信息技术的发展，人们对实时通信的需求不断增加，并逐渐成为工作生活中不可或缺的一部分。但是，海量的音视频通话分钟数对互联网基础设施提出了巨大的挑战。

目前，在网络环境中，仍然存在弱网现象，因此，为了实现在有限的带宽下提供高质量的音频体验，一般采用自回归模型或端到端神经音频编解码器。但是，自回归模型，无法并行运算，运行效率低，开销大；端到端神经音频编解码器虽然采用了可并行计算的编解码器，但直接对输入语音进行编码，整体消耗偏高。

因此，现有技术无法保证高保真音频质量的同时，实现高效率、低消耗处理的音频编解码。

发明内容

本申请实施例提供一种语音处理方法、装置、系统、设备及存储介质，以解决现有技术无法保证高保真音频质量的同时，实现高效率、低消耗处理的音频编解码的问题。

第一方面，本申请实施例提供一种语音处理方法，所述方法包括：

对待编码的语音数据进行特征提取，生成第一语音特征；

根据所述第一语音特征，确定编码后的语音数据；

根据所述编码后的语音数据，训练生成对抗网络，所述生成对抗网络用于解码语音数据。

可选的，所述对待编码的语音数据进行特征提取，生成第一语音特征，包括：

若所述待编码的语音数据为频域语音信号，则将所述频域语音信号转换成时域语音信号，并对所述时域语音信号进行特征提取，得到梅尔谱；

若所述待编码的语音数据为所述时域语音信号，则对所述时域语音信号进行特征提取，得到梅尔谱；

其中，所述梅尔谱用于表示所述第一语音特征。

可选的，所述根据所述第一语音特征，确定编码后的语音数据，包括：

对所述第一语音特征进行场景检测，确定与所述第一语音特征匹配的目标场景，并得到与所述目标场景对应的第二语音特征；

根据所述第二语音特征，确定编码后的语音数据。

可选的，所述根据所述第二语音特征，确定编码后的语音数据，包括：

对所述第二语音特征进行残差量化，得到量化后的语音特征，以及生成码本和所述码本对应的索引值；

将所述量化后的语音特征作为编码后的语音数据；

其中，所述码本用于通过索引值查找所述量化后的语音特征。

可选的，所述生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于解码编码后的语音数据，所述判别器网络用于从所述待编码的语音数据中分辨出解码后的语音数据，以更新所述生成器网络；其中，所述待编码的语音数据为多个，相应的，所述编码后的语音数据为多个；所述根据所述编码后的语音数据，训练生成对抗网络，包括：

将多个所述编码后的语音数据划分为多个训练样本集，并针对每个训练样本集重复执行下述步骤，直至满足停止训练条件停止生成器网络和判别器网络的训练：

将所述训练样本集输入到所述生成器网络中，训练得到所述训练样本集中每个编码后的语音数据对应的解码后的语音数据；

将所述解码后的语音数据和所述训练样本集中每个编码后的语音数据对应的待编码的语音数据输入到所述判别器网络中，计算所述生成对抗网络的损失值；

通过所述损失值更新所述生成器网络和所述判别器网络。

第二方面，本申请实施例提供一种语音处理方法，应用于发送端；所述方法包括：

确定待编码的目标语音数据，并对所述待编码的目标语音数据进行特征提取，得到第一目标语音特征；

对所述第一目标语音特征进行编码，得到编码后的目标语音数据；

根据所述编码后的目标语音数据，向接收端发送指示消息，所述指示消息用于指示所述接收端根据所述指示消息中的封装信息，确定所述编码后的目标语音数据，并根据所述目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

第三方面，本申请实施例提供一种语音处理方法，应用于接收端；所述方法包括：

接收发送端发送的指示消息；

对所述指示消息中的封装信息进行解析，得到编码后的目标语音数据，所述编码后的目标语音数据是由接收端通过对待编码的目标语音数据进行特征提取得到第一目标语音特征，并对所述第一目标语音特征进行编码得到的；

根据所述编码后的目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

第四方面，本申请实施例提供一种语音处理装置，所述装置包括：

特征提取模块，用于对待编码的语音数据进行特征提取，生成第一语音特征；

编码模块，用于根据所述第一语音特征，确定编码后的语音数据；

训练模块，用于根据所述编码后的语音数据，训练生成对抗网络，所述生成对抗网络用于解码语音数据。

第五方面，本申请实施例提供一种语音处理装置，应用于发送端，所述装置包括：

处理模块，用于确定待编码的目标语音数据，并对所述待编码的目标语音数据进行特征提取，得到第一目标语音特征；

编码模块，用于对所述第一目标语音特征进行编码，得到编码后的目标语音数据；

发送模块，用于根据所述编码后的目标语音数据，向接收端发送指示消息，所述指示消息用于指示所述接收端根据所述指示消息中的封装信息，确定所述编码后的目标语音数据，并根据所述目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

第六方面，本申请实施例提供一种语音处理装置，应用于接收端，所述装置包括：

接收模块，用于接收发送端发送的指示消息；

处理模块，用于对所述指示消息中的封装信息进行解析，得到编码后的目标语音数据，所述编码后的目标语音数据是由接收端通过对待编码的目标语音数据进行编码得到的；

解码模块，用于根据所述编码后的目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

第七方面，本申请实施例提供一种语音处理系统，所述系统包括：

发送端和接收端，所述发送端和所述接收端通信连接，用以实现端到端的传输；

所述发送端用于实现如第二方面任一项所述的方法；

所述接收端用于实现如第三方面任一项所述的方法；

其中，所述发送端配置有前向纠错功能，用以在网络传输过程中加入冗余信息，支持各种网络环境下的正确传输；

所述接收端配置有丢包补偿后处理功能，用以当语音特征丢失时，会记录当前状态，并对已丢失特征的音频帧进行预测，确定丢失的特征。

第八方面，本申请实施例提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面任一项所述的方法。

第九方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

第十方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如第一方面任一项所述的方法。

本申请实施例提供的语音处理方法、装置、系统、设备及存储介质，该方法通过对待编码的语音数据提取特征，并对提取的特征进行编码，将编码后的语音数据，来训练生成对抗网络，实现解码。通过对语音进行特征提取，得到语音特征，然后对语音特征进行编码，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础。然后采用生成对抗网络训练的方式训练网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请实施例的技术方案应用于其中的一种系统架构示意图；

图1B为本申请实施例提供的语音处理方法的场景示意图；

图2为本申请实施例提供的语音处理方法的流程示意图；

图3为本申请再一实施例提供的语音处理方法的流程示意图；

图4为本申请另一实施例提供的语音处理方法的流程示意图；

图5为本申请又一实施例提供的语音处理方法的流程示意图；

图6为本申请另一实施例提供的语音处理方法的流程示意图；

图7为本申请实施例提供的语音处理装置的结构示意图；

图8为本申请另一实施例提供的语音处理装置的结构示意图；

图9为本申请再一实施例提供的语音处理装置的结构示意图；

图10为本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例还能够包括除了图示或描述的那些实例以外的其他顺序实例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，在网络环境中，仍然存在弱网现象，因此，为了实现在有限的带宽下提供高质量的音频体验，一般采用自回归模型或端到端神经音频编解码器。但是，现有技术无法保证高保真音频质量的同时，实现高效率、低消耗处理的音频编解码。

为了解决上述问题，本申请的发明构思为：先对待编码的语音数据进行特征提取，降低了数据维度，然后对提取的特征进行编码，实现通过降低特征维度，避免了消耗过大的问题，同时能够支持超低码率的传输，适应各种网络环境(比如弱网环境)；然后采用生成对抗训练的方式训练网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。

本申请的技术方案应用于通信场景，在一个实际应用中，特别适用于基于RTC(Real-Time Communication，实时通信)技术实现的通信场景中。

RTC技术是指能够实时发送和接收文本、音频和视频等的通信技术，适用于直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等场景，实现纯音频数据、视频数据等的实时传输。本申请的技术方案即可以具体应用于基于RTC实现的直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等通信场景。

参见图1A，示出了本申请实施例的技术方案可以应用于其中的一种系统架构示意图，该系统可以包括服务端100以及多个客户端200。多个客户端200之间通过服务端100可以建立通信连接，在RTC场景中，服务端100即用来在多个客户端200之间提供RTC服务，多个客户端200可以分别作为发送端或接收端，通过服务端100实现实时通信。

用户通过客户端200可与服务端100进行交互以接收其它客户端200发送的数据，或将数据发送至其它客户端200等。在RTC场景中，可以是用户通过客户端200向服务端100发布数据流，服务端200将该数据流推送至订阅该数据流的客户端中。数据流例如可以是音频流、视频流等媒体数据。如在直播场景中，主播用户通过客户端可以实时采集媒体数据，并发送至服务端，不同主播用户的媒体数据通过直播间进行区分，服务端可以将该主播用户的媒体数据推送至进入该主播用户对应直播间的观看用户。又如在会议场景中，参会用户通过客户端可以实时采集媒体数据并发送至服务端，服务端可以将每个客户端发送的媒体数据推送至其它参会用户的客户端等。

其中，客户端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端100，还可以按照本申请实施例的技术方案对数据进行干扰处理等，在下文会详细介绍。

其中，客户端200与服务端100之间通过网络建立连接。网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

其中，客户端200可以为浏览器、APP(Application，应用程序)、或网页应用如H5(HyperText Markup Language5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，客户端200可以基于服务端提供的相应服务的SDK(Software Development Kit，软件开发工具包)，如基于RTC SDK开发获得等。客户端200可以部署在电子设备中，需要依赖设备运行或者设备中的某些app而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端100可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。

需要说明的是，服务端100可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

需要说明的是，本申请实施例中提供的语音处理方法一般由服务端执行，相应的语音处理装置一般设置于服务端中。但是，在本申请的其它实施例中，客户端也可以与服务端具有相似的功能，从而执行本申请实施例所提供的语音处理方法。在其它实施例中，本申请实施例所提供的语音处理方法还可以是由客户端与服务端共同执行。

下面以具体实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本实施例中，语音处理可以包括两部分：训练过程以及部署过程(应用过程)。其中，训练过程是在服务器上进行的，即以服务器为执行主体。在服务器上可以执行：特征提取、编码以及生成对抗网络训练等操作，在训练过程中可以得到训练好的生成器网络以及判别器网络、训练好的码本以及码本对应的索引值。部署过程可以支持端到端的音频编解码，这里的端可以包括发送端和接收端，发送端和接收端均部署有编解码功能(可以包括特征提取模块、场景检测模块、残差量化模块以及生成器网络；可以实现编码以及解码)，具体配置有训练好的码本、对应的索引值以及生成器网络，即可以实现上述训练过程训练后的模型以及对应的功能。其中，发送端和接收端均可以是终端、服务器等，终端可以是手机、平板、电脑等，这里对发送端和接收端的载体不做具体限定。

示例性的，以部署过程为例，图1B为本申请实施例提供的语音处理方法的场景示意图。终端1和终端2既可以作为接收端，也可以作为发送端，是根据具体通话场景确定的，这里的通话场景可以是语音会议等实时通信场景。实时通信场景：实时通信系统，允许两人或多人使用网络实时的传递文字消息、文件、语音与视频交流。此处可以特指语音或视频的交流。

比如，在语音会议场景中，以终端1为发送端，终端2为接收端为例，实现编解码的过程可以为：

用户1通过使用终端1输入或生成待编码的语音数据(即待编码的语音信号)，然后终端1通过特征提取模块对待编码的语音信号进行特征提取，得到第一语音特征，这里的第一语音特征可以是梅尔谱(即mel谱)，支持超低码率的传输；然后对提取的特征(即第一语音特征，比如mel谱)进行编码处理，比如，通过场景检测模块对人声(单人声，多人声)场景、音乐场景、混响场景进行区分，得到分析后的语音特征，然后通过残差量化模块,比如残差向量量化器(Residual Vector Quantizer，RVQ)对分析后的语音特征进行残差量化，得到量化后的语音特征即编码后的语音数据(或编码后的语音特征)。其中，上述特征提取以及编码过程的网络模型(即特征提取模块、场景检测模块以及残差量化模块)在训练过程中支持自适应训练，不断地更新网络模型参数。

然后终端1将量化后的语音特征，通过码本查找，确定匹配的索引值，然后将索引值(即index值)打包封装成比特流(即bit流)在网络上传输，发送至终端2，终端2接收到bit流后解包恢复出index值，同时结合码本，重新得到经过场景检测模块分析后的语音特征和/或量化后的语音特征，将量化后的语音特征送入生成器网络，得到解码后的语音数据(即解码后的语音信号)，并播放给使用终端2的用户2。这样，终端1和终端2完成一次语音编解码。

因此，本实施例中，首先对语音进行特征提取，得到语音特征，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率(比如低于6kbps)的传输提供了基础，进而能够适用于各种网络环境(比如弱网环境)。然后采用生成对抗训练的方式训练网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。

图2为本申请实施例提供的语音处理方法的流程示意图，本实施例的方法可以由服务器执行。如图2所示，本实施例的方法，可以包括：

S101、对待编码的语音数据进行特征提取，生成第一语音特征。

其中，第一语音特征用于支持超低码率的传输。超低码率：一般指实时通信场景下低于6kbps的音频编码码率。

本实施例中，在训练过程中，首先将通过训练特征提取网络层，执行待编码的语音数据的特征提取操作。这里的特征提取网络层可以作为特征提取模块，这里的语音数据可以是时域语音也可以是频域语音。通过特征提取模块对语音进行特征提取可以降低编码的处理维度，进而能够支持超低码率的传输，使得能够在弱网环境下仍然保证高保真语音质量传输。高保真音质(即高保真语音质量)：指经过网络传输后，解码出来的声音信号无限接近于编码前的声音信号，也可以人耳听不出差别为判别依据。

S102、根据所述第一语音特征，确定编码后的语音数据。

本实施例中，对于提取到的第一语音特征进行一系列的处理，比如场景检测，残差量化等，该处理过程即为编码过程。对第一语音特征进行处理后得到的编码后的语音数据作为训练生成对抗网络的输入量，执行训练操作。

其中，在编码过程中可以生成码本以及码本对应的索引值，在应用过程中，可以直接将索引值封装在bit流中发送给接收端，接收端基于解包得到索引值，再结合码本可以查找到对应的编码的语音特征，降低了网络环境下的资源消耗，尤其是在弱网场景下，能够实现支持超低码率的传输。

S103、根据所述编码后的语音数据，训练生成对抗网络，所述生成对抗网络用于解码语音数据。

其中，生成对抗网络是一种可用于非监督学习、半监督学习、监督学习及强化学习的训练策略。

本实施例中，待编码的语音数据为多个，相应的，编码后的语音数据为多个，可以通过多个编码后的语音数据来训练生成对抗网络。其中，生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于解码编码后的语音数据，判别器网络用于从待编码的语音数据中分辨出解码后的语音数据，以更新生成器网络。通过不断地迭代训练，直至达到训练停止条件停止训练。

本申请实施例提供的语音处理方法，通过对待编码的语音数据提取特征，并对提取的特征进行编码，将编码后的语音数据，来训练生成对抗网络，实现解码。通过对语音进行特征提取，得到语音特征，然后对语音特征进行编码，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础。然后采用生成对抗网络训练的方式训练网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

可选的，所述对待编码的语音数据进行特征提取，生成第一语音特征，可以通过以下步骤实现：

步骤a1、若所述待编码的语音数据为频域语音信号，则将所述频域语音信号转换成时域语音信号，并对所述时域语音信号进行特征提取，得到梅尔谱。

步骤a2、若所述待编码的语音数据为所述时域语音信号，则对所述时域语音信号进行特征提取，得到梅尔谱。

其中，所述梅尔谱用于表示所述第一语音特征。

本实施例中，如果待编码的语音数据为时域语音信号，则可以直接通过特征提取模块，对该时域语音信号进行特征提取，得到mel谱；如果待编码的语音数据为频域语音信号，则需要将频域语音信号转换为时域语音信号后，通过特征提取模块对该时域语音信号进行特征提取，得到mel谱。

具体地，对语音进行特征提取，得到语音特征即mel谱，基于mel谱的特性，将其作为待编码的特征，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础，进而能够适用于各种网络环境(比如弱网环境)。

可选的，所述根据所述第一语音特征，确定编码后的语音数据，可以通过以下步骤实现：

步骤b1、对所述第一语音特征进行场景检测，确定与所述第一语音特征匹配的目标场景，并得到与所述目标场景对应的第二语音特征。

步骤b2、根据所述第二语音特征，确定编码后的语音数据。

本实施例中，在训练过程中，可以通过训练场景检测网络层，执行第一语音特征的场景区分操作。这里的场景检测网络层可以作为场景检测模块，将所述第一语音特征输入到场景检测模块中，得到分析后的语音特征即第二语音特征。然后对第二语音特征继续进行编码操作。

其中，场景检测模块可以对人声(单人声，多人声)、音乐场景、混响场景进行区分。因此，本实施例支持音乐、人声及混响场景下的编解码，支持多场景混合编码，在此不对具体场景进行限定。

具体地，由于实际应用中发送端发送的语音中不仅仅包含人声场景，还可能有其他场景，为了使得训练的模型能够对各类特征均实现精确地解码，因此，加入了场景检测，可以支持对人声(单人声，多人声)场景、音乐场景、混响场景等区分，并支持单场景或多场景自动切换模式，在得到分析后的语音特征，更加符合实际应用场景。

可选的，所述根据所述第二语音特征，确定编码后的语音数据，可以通过以下步骤实现：

步骤c1、对所述第二语音特征进行残差量化，得到量化后的语音特征，以及生成码本和所述码本对应的索引值；

步骤c2、将所述量化后的语音特征作为编码后的语音数据；

本实施例中，在训练过程中，为了实现使用比特流来表示浮点信息，需要对语音特征进行量化，同时，为了使用更少的比特数表示相同的信息量，这里采用残差量化，进而生成编码数据。

具体地，在训练过程中，可以通过训练残差量化网络层，执行第二语音特征的量化操作。这里的残差量化网络层可以作为残差量化模块，将所述第二语音特征输入到残差量化模块中，得到量化后的语音特征形成编码后的语音数据。

其中，在后续的应用过程中，需要将量化后的语音特征对应的索引值封装到比特流上进行网络传输至接收端，接收端基于网络传输的索引值以及结合码本，得到编码后的语音数据，可以无需在网络上传输量化后的语音特征，降低消耗。

可选的，所述生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于解码编码后的语音数据，所述判别器网络用于从所述待编码的语音数据中分辨出解码后的语音数据，以更新所述生成器网络；其中，所述待编码的语音数据为多个，相应的，所述编码后的语音数据为多个；所述根据所述编码后的语音数据，训练生成对抗网络，可以通过以下步骤实现：

步骤d1、将所述训练样本集输入到所述生成器网络中，训练得到所述训练样本集中每个编码后的语音数据对应的解码后的语音数据。

步骤d2、将所述解码后的语音数据和所述训练样本集中每个编码后的语音数据对应的待编码的语音数据输入到所述判别器网络中，计算所述生成对抗网络的损失值。

步骤d3、通过所述损失值更新所述生成器网络和所述判别器网络。

本实施例中，将量化后的语音特征作为生成器网络的输入，来训练生成器网络，生成器网络的输出就是对量化后的语音特征解码，生成解码后的语音数据，然后将解码后的语音数据以及待编码的语音数据都输入到判别器网络中，通过分辨真实语音数据，进而来达到更新生成网络的参数，直到训练停止。

其中，一个训练样本集对应一轮训练，将该训练样本集作为生成器网络的输入，来训练生成器网络，输出解码后的语音数据，然后将解码后的语音数据以及该训练样本集对应的待编码的语音数据都输入到判别器网络中，通过计算损失值来更新生成器网络以及判别器网络的参数，完成一轮训练，并开始下一轮训练，直到损失值达到预设阈值范围内，说明满足了停止训练条件，则停止训练生成对抗网络，即停止训练生成器网络以及判别器网络。

采用生成对抗生网络，可以通过两个网络的互相竞争(生成器网络负责生成假数据试图欺骗判别器网络，判别器网络不断地分辨假数据，不断地对抗)，使得生成器网络输出的结果更加逼近真实数据，使得判别器网络无法分辨真假，不但解码的准确率较高，保证了高语音保真度，同时生成对抗网络的特性支持并行处理，生成效率较高。

具体地，结合图3所示，图3为本申请再一实施例提供的语音处理方法的流程示意图。其中，图3即为训练过程的流程示意图。以待编码的语音数据为时域语音信号为例，首先将待编码的时域语音信号，经特征提取模块处理得到mel谱(即第一语音特征)，然后送入场景检测模块，对人声(单人声，多人声)、音乐场景、混响场景进行区分，得到分析后的语音特征(即第二语音特征)，接下来进入残差量化RVQ模块，得到量化后的特征(即编码后的语音数据)，并保存其码本、对应的索引值。为支持流式处理，生成器网络可以设计为因果生成网络，即其输入是量化后的语音特征，输出是解码后的时域语音信号(即解码后的语音数据)，同时为了增加解码语音的自然度，加入了对抗网络训练，即生成语音和真实语音都会送入判别器网络中，进行训练，不断更新生成器网络的参数以及判别器网络的参数，直到训练结束。

可选的，所述生成器网络包括多个影响因素，所述多个影响因素包括下述至少一项：感受野、频率空间一致性、多尺度频率分辨率。

本实施例中，综合考虑了感受野、频率空间一致性、多尺度频率分辨率等因素，提出了基于1D卷积的轻量化生成模型。

具体地，由于生成器网络的设计考虑了感受野、频率空间一致性、多尺度频率分辨率，使得生成器网络能够实现轻量化处理，实现在较低性能消耗的情况下，获得更好的解码后语音听感。

其中，基于生成对抗网络的高保真音质的音频编解码器，可在移动端实时部署，支持1.6kbps～12kbps编码码率。

因此，在保证一定音质的同时，在数字音频中使用最少的比特表示高保真音频，可以令音频文件传输过程需要占用的带宽以及存储空间有效减少。实现了支持超低码率及高保真音质的音频编解码，同时，兼具低功耗可并行及音乐、人声、混响多场景处理能力，可在每秒3-6kb的网络带宽条件下提供听起来很自然清晰的语音聊天，极大的提升了实时通信过程中的音频体验。

图4为本申请另一实施例提供的语音处理方法的流程示意图，本实施例的方法可以由发送端执行，发送端可以为服务器或终端等，这里对发送端的载体不做具体限制。如图4所示，本实施例的方法，可以包括：

S401、确定待编码的目标语音数据，并对所述待编码的目标语音数据进行特征提取，得到第一目标语音特征。

本实施例中，发送端对获取到的待编码的目标语音数据，通过特征提取模块提取到第一目标语音特征数据，该特征提取的过程与图1B所示的实施例中对待编码的语音数据的特征提取过程类似，在此不再赘述。

S402、对所述第一目标语音特征进行编码，得到编码后的目标语音数据。

本实施例中，对所述第一目标语音特征进行场景检测，确定与所述第一目标语音特征匹配的实际目标场景，并得到与所述实际目标场景对应的第二目标语音特征。根据所述第二目标语音特征，确定编码后的目标语音数据，即对所述第二目标语音特征进行残差量化，得到量化后的目标语音特征。

具体地，首先将第一目标语音特征，通过场景检测模块，得到第二目标语音特征集分析后的目标语音特征，然后将所述第二目标语音特征，通过残差量化模块，得到量化后的目标语音特征，作为编码后的目标语音数据。该编码过程与图1B所示的实施例中对第一语音数据进行编码的过程类似，在此不再赘述。

S403、根据所述编码后的目标语音数据，向接收端发送指示消息，所述指示消息用于指示所述接收端根据所述指示消息中的封装信息，确定所述编码后的目标语音数据，并根据所述目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

可选的，根据所述编码后的目标语音数据，向接收端发送指示消息，可以包括以下步骤：

步骤e1、根据所述编码后的目标语音数据，通过所述码本，确定所述编码后的目标语音数据对应的目标索引值；

步骤e2、将所述目标索引值打包封装为比特流，并通过网络传输至接收端；所述比特流作为指示消息。

具体地，根据所述编码后的目标语音数据，通过所述码本，确定所述编码后的目标语音数据对应的目标索引值；将所述目标索引值打包封装为比特流，并通过网络传输至接收端，以使所述接收端根据解包得到所述目标索引值和配置的所述码本，得到所述编码后的目标语音数据，并根据所述目标语音数据，通过所述生成器网络，得到解码后的目标语音数据。

其中，发送消息中封装信息可以为比特流中的目标索引值。可以结合训练好的码本，查找该目标索引值对应的编码后的目标语音数据，然后将编码后的目标语音数据输入到训练好的生成器网络中，得到解码后的目标语音数据。

实际应用过程，作为发送端，实现编码得到编码后的数据(即量化后的语音特征)，会将与码本对应的索引值打包封装为bit流在网络上传输，然后由接收端解码。

本实施例中，结合图1B和图5所示，其中，图5为本申请又一实施例提供的语音处理方法的流程示意图。通过对语音进行特征提取，得到语音特征，然后对语音特征进行编码，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础。然后将查找到的与编码后的数据匹配的目标索引值打包封装到bit流实现网络传输，并通过接收端对解包得到目标索引值结合码本得到编码后的数据，并采用生成对抗网络训练得到生成器网络实现解码，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

图6为本申请另一实施例提供的语音处理方法的流程示意图，本实施例的方法可以由接收端执行，接收端可以为服务器或终端等，这里对接收端的载体不做具体限制。如图6所示，本实施例的方法，可以包括：

S601、接收发送端发送的指示消息。

可选的，接收发送端发送的比特流，这里的比特流可以作为指示消息。

其中，发送端在确定目标索引值后，将目标索引值打包封装为比特流，通过网络传输至接收端。具体地，发送消息中封装信息可以为比特流中的目标索引值。可以结合训练好的码本，查找该目标索引值对应的编码后的目标语音数据，然后将编码后的目标语音数据输入到训练好的生成器网络中，得到解码后的目标语音数据。

本实施例中，这里的指示消息用于指示所述接收端根据所述指示消息中的封装信息，确定所述编码后的目标语音数据，并根据所述目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

其中，指示消息的生成或确定，可以参见图4所示的实施例中的指示消息的执行过程，在此不再赘述。

S602、对所述指示消息中的封装信息进行解析，得到编码后的目标语音数据，所述编码后的目标语音数据是由接收端通过对待编码的目标语音数据进行特征提取得到第一目标语音特征，并对所述第一目标语音特征进行编码得到的。

可选的，对所述指示消息中的封装信息进行解析，得到编码后的目标语音数据，可以包括以下步骤：

步骤f1、通过对所述比特流解析，得到目标索引值，所述目标索引值为编码后的目标语音数据对应的索引值。

步骤f2、根据配置的所述码本和所述目标索引值，得到所述编码后的目标语音数据。

S603、根据所述编码后的目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

本实施例中，作为接收端，通过码本结合通过网络传输解析到的目标索引值查找到编码后的数据(即量化后的语音特征)，然后输入到生成器网络，实现解码。具体地，接收端接收到bit流后解包恢复出index值，同时结合码本，重新得到经场景检测模块分析后的语音特征，送入生成器网络，得到解码后的语音。同时在应用过程中，无需进行训练，因此，可以无需在接收端或发送端部署判别器网络。

本实施例中，由于接收到的指示信息已经是通过将维度处理的，因此，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础，进而能够适用于各种网络环境(比如弱网环境)。然后采用生成对抗训练的方式训练得到的网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

基于同样的思路，本申请实施例还提供了上述方法对应的装置，如图7所示，图7为本申请实施例提供的语音处理装置的结构示意图。语音处理装置可以包括：

特征提取模块701，用于对待编码的语音数据进行特征提取，生成第一语音特征；

编码模块702，用于根据所述第一语音特征，确定编码后的语音数据；

训练模块703，用于根据所述编码后的语音数据，训练生成对抗网络，所述生成对抗网络用于解码语音数据。

本实施例中，通过设置特征提取模块701、编码模块702以及训练模块703，通过通过对待编码的语音数据提取特征，并对提取的特征进行编码，将编码后的语音数据，来训练生成对抗网络，实现解码。通过对语音进行特征提取，得到语音特征，然后对语音特征进行编码，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础。然后采用生成对抗网络训练的方式训练网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

可选的，特征提取模块，具体用于：

在所述待编码的语音数据为频域语音信号时，将所述频域语音信号转换成时域语音信号，并对所述时域语音信号进行特征提取，得到梅尔谱；

在所述待编码的语音数据为所述时域语音信号时，对所述时域语音信号进行特征提取，得到梅尔谱；

其中，所述梅尔谱用于表示所述第一语音特征。

可选的，编码模块，包括第一编码单元和第二编码单元；

第一编码单元，用于对所述第一语音特征进行场景检测，确定与所述第一语音特征匹配的目标场景，并得到与所述目标场景对应的第二语音特征；

第二编码单元，用于根据所述第二语音特征，确定编码后的语音数据。

可选的，第二编码单元，具体用于：

将所述量化后的语音特征作为编码后的语音数据；

可选的，所述生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于解码编码后的语音数据，所述判别器网络用于从所述待编码的语音数据中分辨出解码后的语音数据，以更新所述生成器网络；其中，所述待编码的语音数据为多个，相应的，所述编码后的语音数据为多个；训练模块，具体用于：

通过所述损失值更新所述生成器网络和所述判别器网络。

本实施例，在保证一定音质的同时，在数字音频中使用最少的比特表示高保真音频，可以令音频文件传输过程需要占用的带宽以及存储空间有效减少。实现了支持超低码率及高保真音质的音频编解码，同时，兼具低功耗可并行及音乐、人声、混响多场景处理能力，可在每秒3-6kb的网络带宽条件下提供听起来很自然清晰的语音聊天，极大的提升了实时通信过程中的音频体验。

本申请实施例提供的装置，可以实现上述如图1-3所示的实施例的方法，其实现原理和技术效果类似，此处不再赘述。

基于同样的思路，本申请实施例还提供了上述方法对应的装置，如图8所示，图8为本申请另一实施例提供的语音处理装置的结构示意图。语音处理装置可以包括：

处理模块801，用于确定待编码的目标语音数据，并对所述待编码的目标语音数据进行特征提取，得到第一目标语音特征；

编码模块802，用于对所述第一目标语音特征进行编码，得到编码后的目标语音数据；

发送模块803，用于根据所述编码后的目标语音数据，向接收端发送指示消息，所述指示消息用于指示所述接收端根据所述指示消息中的封装信息，确定所述编码后的目标语音数据，并根据所述目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

可选的，发送模块，具体用于：

根据所述编码后的目标语音数据，通过所述码本，确定所述编码后的目标语音数据对应的目标索引值；

将所述目标索引值打包封装为比特流，并通过网络传输至接收端；所述比特流作为指示消息。

具体地，发送模块，具体用于：根据所述编码后的目标语音数据，通过所述码本，确定所述编码后的目标语音数据对应的目标索引值；将所述目标索引值打包封装为比特流，并通过网络传输至接收端，以使所述接收端根据解包得到所述目标索引值和配置的所述码本，得到所述编码后的目标语音数据，并根据所述目标语音数据，通过所述生成器网络，得到解码后的目标语音数据。

本实施例中，通过设置处理模块801、编码模块802以及发送模块803，通过对语音进行特征提取，得到语音特征，然后对语音特征进行编码，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础。然后将查找到的与编码后的数据匹配的目标索引值打包封装到bit流实现网络传输，并通过接收端对解包得到目标索引值结合码本得到编码后的数据，并采用生成对抗网络训练得到生成器网络实现解码，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

本申请实施例提供的装置，可以实现上述如图4和5所示的实施例的方法，其实现原理和技术效果类似，此处不再赘述。

基于同样的思路，本申请实施例还提供了上述方法对应的装置，如图9所示，图9为本申请再一实施例提供的语音处理装置的结构示意图。语音处理装置可以包括：

接收模块901，用于接收发送端发送的指示消息；

处理模块902，用于对所述指示消息中的封装信息进行解析，得到编码后的目标语音数据，所述编码后的目标语音数据是由接收端通过对待编码的目标语音数据进行编码得到的；

解码模块903，用于根据所述编码后的目标语音数据，通过生成对抗网络，得到解码后的目标语音数据。

可选的，处理模块，具体用于：

通过对所述比特流解析，得到目标索引值，所述目标索引值为编码后的目标语音数据对应的索引值；

根据配置的所述码本和所述目标索引值，得到所述编码后的目标语音数据。

本实施例中，通过设置接收模块901、处理模块902以及解码模块903，通过码本结合通过网络传输解析到的目标索引值查找到编码后的数据(即量化后的语音特征)，然后输入到生成器网络，实现解码。具体地，接收端接收到bit流后解包恢复出index值，同时结合码本，重新得到经场景检测模块分析后的语音特征，送入生成器网络，得到解码后的语音。同时在应用过程中，无需进行训练，因此，可以无需在接收端或发送端部署判别器网络。

由于接收到的指示信息已经是通过将维度处理的，因此，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础，进而能够适用于各种网络环境(比如弱网环境)。然后采用生成对抗训练的方式训练得到的网络，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

因此，本申请，在保证一定音质的同时，在数字音频中使用最少的比特表示高保真音频，可以令音频文件传输过程需要占用的带宽以及存储空间有效减少。实现了支持超低码率及高保真音质的音频编解码，同时，兼具低功耗可并行及音乐、人声、混响多场景处理能力，可在每秒3-6kb的网络带宽条件下提供听起来很自然清晰的语音聊天，极大的提升了实时通信过程中的音频体验。

本申请实施例提供的装置，可以实现上述如图6所示的实施例的方法，其实现原理和技术效果类似，此处不再赘述。基于同样的思路，本申请实施例还提供了上述方法对应的系统，结合图5所示，该语音处理系统包括：

所述发送端用于实现如第二方面任一项所述的方法；

所述接收端用于实现如第三方面任一项所述的方法；

在实际应用中，部署带内FEC功能，在合理的权衡码本维度及数量的基础上，可以在传输过程中加入一定的冗余，保障在极端弱网下编码特征的正确传输；部署丢包补偿后处理功能，在解码端(即接收端)，当音频特征丢失时，会记录当前状态，进入后处理模块(即丢包补偿后处理功能模块)，对已丢失特征的音频帧进行预测，来最大程度的保障接收端的音频体验。

本实施例中，发送端通过对语音进行特征提取，得到语音特征，然后对语音特征进行编码，区别于现有技术直接对语音进行编码，降低了特征维度，避免了消耗过大的问题，同时由于特征维度大大缩减，为支持超低码率的传输提供了基础。然后将查找到的与编码后的数据匹配的目标索引值打包封装到bit流实现网络传输，接收端通过对解包得到目标索引值结合码本得到编码后的数据，并采用生成对抗网络训练得到生成器网络实现解码，支持并行，进而提高了运行效率，同时对抗训练也更有利于自然度真实的解码语音的生成，准确率较高，进而实现高保真语音质量。因此，在保证高保真音频质量的同时，实现了高效率、低消耗处理的音频编解码。

图10为本申请实施例提供的电子设备的硬件结构示意图。如图10所示，本实施例提供的电子设备1000包括：处理器1001，以及与所述处理器通信连接的存储器。其中，处理器1001、存储器1002通过总线1003连接。

在具体实现过程中，处理器1001执行所述存储器1002存储的计算机执行指令，使得处理器1001执行上述方法实施例中的方法。

处理器1001的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图10所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述方法实施例的语音处理方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上所述的语音处理方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

对待编码的语音数据进行特征提取，生成第一语音特征；

根据所述第一语音特征，确定编码后的语音数据；

2.根据权利要求1所述的方法，其特征在于，所述对待编码的语音数据进行特征提取，生成第一语音特征，包括：

其中，所述梅尔谱用于表示所述第一语音特征。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一语音特征，确定编码后的语音数据，包括：

根据所述第二语音特征，确定编码后的语音数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二语音特征，确定编码后的语音数据，包括：

将所述量化后的语音特征作为编码后的语音数据；

5.根据权利要求1或2所述的方法，其特征在于，所述生成对抗网络包括生成器网络和判别器网络，所述生成器网络用于解码编码后的语音数据，所述判别器网络用于从所述待编码的语音数据中分辨出解码后的语音数据，以更新所述生成器网络；其中，所述待编码的语音数据为多个，相应的，所述编码后的语音数据为多个；所述根据所述编码后的语音数据，训练生成对抗网络，包括：

通过所述损失值更新所述生成器网络和所述判别器网络。

6.一种语音处理方法，其特征在于，应用于发送端；所述方法包括：

7.一种语音处理方法，其特征在于，应用于接收端；所述方法包括：

接收发送端发送的指示消息；

8.一种语音处理装置，其特征在于，所述装置包括：

9.一种语音处理装置，其特征在于，应用于发送端，所述装置包括：

10.一种语音处理装置，其特征在于，应用于接收端，所述装置包括：

接收模块，用于接收发送端发送的指示消息；

11.一种语音处理系统，其特征在于，所述系统包括：发送端和接收端，所述发送端和所述接收端通信连接，用以实现端到端的传输；

所述发送端用于实现如权利要求6所述的方法；

所述接收端用于实现如权利要求7所述的方法；

12.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-5中任一项所述的语音处理方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，当处理器执行所述计算机执行指令时，实现如权利要求1至5任一项所述的语音处理方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1-5任一项所述的语音处理方法。