CN115171705A

CN115171705A - 一种语音丢包补偿的方法、语音通话的方法及装置

Info

Publication number: CN115171705A
Application number: CN202210617394.XA
Authority: CN
Inventors: 刘百云
Original assignee: Alibaba Cloud Computing Beijing Co Ltd
Current assignee: Alibaba Cloud Computing Beijing Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-10-11

Abstract

本发明实施例提供了一种语音丢包补偿的方法、语音通话的方法及装置，该方法包括：获取预先训练的目标生成对抗网络；获取语音数据，并采用目标生成对抗网络对语音数据进行丢包补偿；在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。通过本发明实施例，实现了采用生成对抗网络进行语音丢包补偿，既通过使用未存在数据丢失的语音帧进行重构，能够应用于长时间、连续、突发的丢包情况，又通过使用排序在前的语音帧进行重构，不需要考虑排序在后的语音帧，提升了丢包补偿的实时性。

Description

一种语音丢包补偿的方法、语音通话的方法及装置

技术领域

本发明涉及语音处理领域，特别是涉及一种语音丢包补偿的方法、语音通话的方法及装置。

背景技术

随着互联网技术的发展，实时通信技术(Real Time Communication，RTC)得到广泛的应用，如在直播、在线教育、音视频会议、互动游戏等方面都应用实时通信技术。对于音频链路而言，实时通信技术主要包括采集、前处理、编码、抖动消除、解码、丢包补偿、混音、播放等环节，而在应用实时通信技术的VOIP(Voice Over Internet Phone，互联网电话)等通信方式中，其是将音频数据进行编码压缩，然后在网络上分帧传送，由于基于IP协议的数据分组交换技术提供的是一种“尽力型服务”，不可避免地会导致分组延迟和丢包，进而造成音频质量不佳，则丢包补偿环节显得尤为重要。

在丢包补偿(Packet Loss Concealment，PLC)技术中，是通过正常接收包的参数来预测丢失包的波形，可以包括基于发送端的补偿方法和基于接收端的补偿方法，基于发送端的补偿方法是利用编码冗余信息来恢复丢包的内容，基于接收端的补偿方法是利用丢包前的解码参数信息来重构出语音信号。然而，上述方式通常仅能够处理短时间的数据丢失，如小于40ms的丢包，难以应用于长时间、连续、突发的丢包情况。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种语音丢包补偿的方法、语音通话的方法及装置，包括：

一种语音丢包补偿的方法，该方法包括：

获取预先训练的目标生成对抗网络；

获取语音数据，并采用目标生成对抗网络对语音数据进行丢包补偿；

在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。

可选地，在针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构之前，还包括：

对语音数据中语音帧设置掩码，以标识其是否存在数据丢失。

可选地，目标生成对抗网络具有生成器和鉴别器，目标生成对抗网络采用生成器和鉴别器对抗的方式进行训练，目标生成对抗网络的训练过程包括：

在训练目标生成对抗网络的过程中，采用生成器对存在数据丢失的样本数据进行丢包补偿，并采用生成器对丢包补偿后的样本数据进行鉴别，以根据鉴别结果，对生成器进行调整。

可选地，生成器具有采用U_net结构的编码器和解码器，编码器用于提取语音特征，解码器用于根据语音特征进行重构。

可选地，在训练目标生成对抗网络的过程中，编码器采用半监督学习的方式进行训练。

可选地，目标生成对抗网络的损失函数由多种损失组成而成，多个损失包括：

目标生成对抗网络的生成对抗损失、时域波形的损失、多分辨率的短时傅立叶变换损失、半监督学习的一致性损失。

可选地，鉴别器由多种鉴别器组合而成，多种鉴别器包括：

多周期鉴别器、多尺度鉴别器、多扩张鉴别器。

可选地，编码器和解码器之间采用瓶颈层连接，编码器和解码器具有数量相同的多级处理单元，同一级的处理单元之间设置有层间跳跃连接。

一种语音通话的方法，该方法包括：

在语音通话的过程中，获取语音数据，并采用预先训练的目标生成对抗网络，对语音数据进行丢包补偿；

一种语音丢包补偿的装置，该装置包括：

目标生成对抗网络获取模块，用于获取预先训练的目标生成对抗网络；

第一丢包补偿模块，用于获取语音数据，并采用目标生成对抗网络对语音数据进行丢包补偿；

第一语音帧重构模块，用于在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。

一种语音通话的装置，该装置包括：

第二丢包补偿模块，用于在语音通话的过程中，获取语音数据，并采用预先训练的目标生成对抗网络，对语音数据进行丢包补偿；

第二语音帧重构模块，用于在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。

一种电子设备，包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上语音丢包补偿的方法，或者，实现如上语音通话的方法。

一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上语音丢包补偿的方法，或者，实现如上语音通话的方法。

本发明实施例具有以下优点：

在本发明实施例中，通过获取预先训练的目标生成对抗网络，在获取到语音数据时，采用目标生成对抗网络对语音数据进行丢包补偿，在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构，第二语音帧为未存在数据丢失的语音帧，实现了采用生成对抗网络进行语音丢包补偿，既通过使用未存在数据丢失的语音帧进行重构，避免了在大量使用存在数据丢失但已重构的语音帧进行丢包补偿时对语音质量的影响，能够应用于长时间、连续、突发的丢包情况，又通过使用排序在前的语音帧进行重构，不需要考虑排序在后的语音帧，能够对存在数据丢失的语音帧进行并行处理，提升了丢包补偿的实时性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明一实施例提供的一种实时通信系统的架构示意图；

图1b是本发明一实施例提供的一种音频链路的架构示意图；

图2是本发明一实施例提供的一种语音丢包补偿的步骤流程图；

图3是本发明一实施例提供的一种目标生成对抗网络的框架示意图；

图4a是本发明一实施例提供的一种不同丢包率下POLQA得分的示意图；

图4b是本发明一实施例提供的一种不同丢包率下PESQ得分的示意图；

图4c是本发明一实施例提供的一种不同丢包率下STOI平均得分的示意图；

图5a是本发明一实施例提供的一种不同丢包率下POLQA平均得分的示意图；

图5b是本发明一实施例提供的一种不同丢包率下PESQ平均得分的示意图；

图5c是本发明一实施例提供的一种不同丢包率下STOI平均得分的示意图；

图6是本发明一实施例提供的一种语音通话的方法的步骤流程图；

图7是本发明一实施例提供的一种语音丢包补偿的装置的结构框图；

图8是本发明一实施例提供的一种语音通话的装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例可以应用于通信场景，在一个实际应用中，特别适用于基于实时通信技术实现的通信场景中。实时通信技术是指能够实时发送和接收文本、音频和视频等的通信技术，适用于直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等场景，实现纯音频数据、视频数据等的实时传输。本发明实施例即可以具体应用于基于实时通信技术实现的直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等通信场景。

参见图1a，示出了本发明实施例可以应用于其中的一种实时通信系统的架构示意图，可以包括服务端100以及多个客户端200。多个客户端200之间通过服务端100可以建立通信连接，在实时通信场景中，服务端100即用来在多个客户端200之间提供实时通信服务，多个客户端200可以分别作为发送端或接收端，通过服务端100实现实时通信。

用户通过客户端200可与服务端100进行交互以接收其它客户端200发送的数据，或将数据发送至其它客户端200等。在实时通信场景中，可以是用户通过客户端200向服务端100发布数据流，服务端200将该数据流推送至订阅该数据流的客户端中。数据流例如可以是音频流、视频流等媒体数据。如在直播场景中，主播用户通过客户端可以实时采集媒体数据，并发送至服务端，不同主播用户的媒体数据通过直播间进行区分，服务端可以将该主播用户的媒体数据推送至进入该主播用户对应直播间的观看用户。又如在会议场景中，参会用户通过客户端可以实时采集媒体数据并发送至服务端，服务端可以将每个客户端发送的媒体数据推送至其它参会用户的客户端等。

其中，客户端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端100，客户端200与服务端100之间通过网络建立连接，网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

其中，客户端200可以为浏览器、应用程序(APP，Application)、或网页应用如H5(HyperText Markup Language5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，客户端200可以基于服务端提供的相应服务的软件开发工具包(SDK，Software Development Kit)，如基于RTC SDK开发获得等。客户端200可以部署在电子设备中，需要依赖设备运行或者设备中的某些app而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

其中，服务端100可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。服务端100可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

需要说明的是，本发明实施例中提供的语音丢包补偿的方法及语音通话的方法一般由服务端执行，相应的语音丢包补偿的装置及语音通话的装置一般设置于服务端中。但是，在本发明的其它实施例中，客户端也可以与服务端具有相似的功能，从而执行本发明实施例所提供的语音丢包补偿的方法及语音通话的方法。在其它实施例中，本发明提供的语音丢包补偿的方法及语音通话的方法还可以是由客户端与服务端共同执行。

对于音频链路而言，主要包括采集、前处理、编码、抖动消除、解码、丢包补偿、混音、播放等环节，如图1b所示为音频链路的架构示意图，其可以区分为音频发送(推流)的过程和音频接收(拉流)的过程。

在音频发送的过程，可以包括采集、前处理、编码等环节，具体而言，可以通过采集模块对音频信号进行采集，如采集模块可以为麦克风，然后将模拟信号转换为数据信号，再对音频信号进行前处理。

其中，前处理可以包括三个部分：声学回声消除(AEC，Acoustic EchoCanceller)、自动噪声控制(ANS，Automatic Noise Suppression)、自动增益控制(AGC，Automatic Gain Control)，可以依次对音频信号进行声学回声消除、自动噪声控制、自动增益控制。

在音频信号经过前处理后，可以进行音频编码，即对音频信号进行压缩编码，然后对压缩编码后的音频信号进行封装，进而可以通过网络将其发送至网络服务器。

在音频接收的过程中，可以包括抖动消除、解码、丢包补偿、混音、播放等环节，具体而言，可以先对音频数据包进行抖动消除，如采用抖动缓冲器(Jitterbuffer)进行抖动消除，然后对音频数据包进行音频解码。

对于解码后的音频数据包，如果存在语音帧中数据丢失的情况，则可以存在数据丢失的语音帧进行丢包补偿，在丢包补偿之后，可以对多路的音频流进行混音(MIX)，然后通过播放模块进行播放，如播放模块可以为扬声器。

在丢包补偿技术中，是通过正常接收包的参数来预测丢失包的波形，可以包括基于发送端的补偿方法和基于接收端的补偿方法，基于发送端的补偿方法是利用编码冗余信息来恢复丢包的内容，基于接收端的补偿方法是利用丢包前的解码参数信息来重构出语音信号。然而，上述方式通常仅能够处理短时间的数据丢失，如小于40ms的丢包，难以应用于长时间、连续、突发的丢包情况。

而在深度学习领域，存在生成对抗网络(GAN，Generative AdversarialNetwork)、循环神经网络(RNN，Rerrent Neural Network)、自编码网络(AutoEncoder)等在生成高质量语音方面有较大的优势，将其应用在丢包补偿环节中能取得较好的效果，基于深度学习的丢包补偿算法的工作框架可以包括是离线处理框架和实时处理框架。

对于离线处理框架，除了使用历史未丢失帧之外，还有可能使用了包括未来帧的更广泛上下文，不适合进行实时流式快速处理，例如，第j帧丢失，需要将历史的第j-m帧和未来的j+m帧一起送入深度学习网络去生成第j帧语音信号。

对于实时处理框架，是使用算法进行后处理，只使用历史的未丢失帧，例如，第j帧丢失，需要将历史的第j-m帧送入深度学习网络去生成第j帧语音信号。具体的，实时处理框架可以采用循环神经网络或生成对抗网络。

基于循环神经网络的方法是利用前一帧的有效信息递归的推出当前帧，这将导致要预测的帧的上下文可能包含许多重构帧，而不是原始帧，从而在训练和推理之间造成不匹配。特别是在出现长时间、连续、突发丢包时，产生的波形的能量会大幅度衰减，语音质量有待进一步提高，且补偿语音信号和真实语音信号的相位是不连续的，需要进行平滑操作，该操作将会降低语音信号的质量。基于生成对抗网络的方法在参数数量和推理延迟方面都具有很高的计算复杂度，使得它们难以用于实时处理。

在本发明实施例中，通过获取预先训练的目标生成对抗网络，在获取到语音数据时，采用目标生成对抗网络对语音数据进行丢包补偿，在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构，第二语音帧为未存在数据丢失的语音帧，实现了采用生成对抗网络进行语音丢包补偿，通过使用未存在数据丢失的语音帧进行重构，避免了在大量使用存在数据丢失但已重构的语音帧进行丢包补偿时对语音质量的影响，能够应用于长时间、连续、突发的丢包情况，通过使用排序在前的语音帧进行重构，不需要考虑排序在后的语音帧，能够对存在数据丢失的语音帧进行并行处理，提升了丢包补偿的实时性。

以下对本发明实施例进行进一步说明：

参照图2，示出了本发明一实施例提供的一种语音丢包补偿的方法的步骤流程图，具体可以包括如下步骤：

步骤201，获取预先训练的目标生成对抗网络。

其中，目标生成对抗网络可以具有生成器(Generator)和鉴别器(Discriminator)。

对于生成器：

生成器具有采用U_net结构的编码器(Encoder)和解码器(Decoder)，通过U_net结构(该U_net结构是因果的)，能够保证目标生成对抗网络进行丢包补偿的实时性。

其中，编码器可以用于提取语音特征，解码器可以用于根据语音特征进行重构，在编码器中，可以通过下采样的方式减小语音特征映射的维数，如将16KHZ波形映射到50HZ，进而可以减少参数的数量并减少计算量，且在降维之后可以更加有效、直观地进行数据的训练和特征提取，而在解码器中，可以通过上采样的方式增大语音特征的维数，将语音特征恢复至与语音数据相同的维数。

在本发明一实施例中，编码器和解码器之间可以采用瓶颈层(Bottleneck)连接，瓶颈层可以由2层1-D因果卷积构成，其可以对时序相关性进行建模，进而提升网络在学习时间相关性和增强特征相关性的能力。

在本发明一实施例中，编码器和解码器可以具有数量相同的多级处理单元，同一级的处理单元之间可以设置有层间跳跃连接(Skip-Connection)，进而可以允许相位或对齐的信息通过，保证不丢失输入音频的低维特征。在一示例中，每个处理单元可以具有多个残差单元，如3个残差单元，每个残差单元交替使用1-D空洞卷积和1-D卷积。

如图3所示的目标生成对抗网络的框架，编码器和解码器中可以分别存在4个处理单元EncoderBlock1-EncoderBlock4、DecoderBlock1-DecoderBlock4，编码器和解码器之间通过瓶颈层连接，且处理单元之间设置有层间跳跃连接。

对于鉴别器：

为了尽可能增强目标生成对抗网络中鉴别器甄别合成或真实音频的能力，鉴别器可以由多种鉴别器组合而成，进而可以从不同的角度识别语音信号，如图3中所示，多种鉴别器可以包括：多周期鉴别器(Multi-Period Discriminator，MPD)、多尺度鉴别器(Multi-Scale Discriminator，MSD)、多扩张鉴别器(Multi-Dilation Discriminator，MDD)。

其中，多周期鉴别器可以将单声道音频序列折叠成具有不同固定长度的两声道音频，然后对折叠后的数据进行2-D卷积，但其每个通道上的折叠数据混合了不同频率的伪影。

多尺度鉴别器可以通过平均池化操作，将语音序列的长度依次减半，然后对不同尺度的语音信号进行卷积运算，最后将其展平并输出。

多周期鉴别器可以通过小波变换的方式将单声道音频折叠成多声道音频，然后应用1-D扩张卷积，则折叠数据中的每个通道都包含很少甚至没有其他频率的伪影，保证了判别的稳定性和准确性。

在本发明一实施例中，目标生成对抗网络可以采用生成器和鉴别器对抗的方式进行训练，相应地，步骤201，目标生成对抗网络的训练过程可以包括：在训练目标生成对抗网络的过程中，采用生成器对存在数据丢失的样本数据进行丢包补偿，并采用生成器对丢包补偿后的样本数据进行鉴别，以根据鉴别结果，对生成器进行调整。

在具体实现中，生成器可以并行地对存在数据丢失的样本数据进行丢包补偿，得到丢包补偿后的样本数据，然后输入到鉴别器，鉴别器可以对生成器输入的丢包补偿后的样本数据进行鉴别，然后可以根据鉴别结果指导生成器进行学习，达到生成器合成接近真实的样本，以致于鉴别器无法区分真实和生成样本。

在本发明一实施例中，为了进一步提高编码器提取全局特征的能力，在训练目标生成对抗网络的过程中，编码器可以采用半监督学习(Mean Teacher)的方式进行训练，在半监督学习的过程中，编码器可以具有两个模型(教师模型和学生模型)，先使用教师模型对不存在数据丢失的样本数据进行编码，生成学生模型的学习目标，教师模型中的权重可以作为学生模型中权重的指数移动平均值(Exponential moving average，EMA)，学生模型对存在数据丢失的样本数据进行编码并预测完整的数据表示。

在本发明一实施例中，目标生成对抗网络的损失函数可以由多种损失组成而成，多个损失可以包括：目标生成对抗网络的生成对抗损失、时域波形的损失、多分辨率的短时傅立叶变换(STFT，Short-time Fourier Transform)损失、半监督学习的一致性损失。通过上述损失函数，可以有效捕获真实语音波形的时频分布，即使采用少量参数也可以容易地训练整个网络，并能够有效地减少了推理时间并提高了合成语音的感知质量。

其中，由于目标生成对抗网络是采用生成器和鉴别器对抗的方式进行训练，可以根据真实无损的音频信号和有损的音频信号，计算得到目标生成对抗网络的生成对抗损失。

时域波形的损失可以通过计算真实波形和生成波形之间的L1距离得到。

多分辨率的短时傅立叶变换损失可以根据谱收敛损失和对数STFT幅度谱损失得到。

由于编码器可以采用半监督学习的方式进行训练，可以根据教师模型的输出与学生模型的输出之间的L2距离，得到半监督学习的一致性损失。

步骤202，获取语音数据，并采用目标生成对抗网络对语音数据进行丢包补偿。

对于语音数据，其可以为实时通信过程中获取的语音数据，如在VOIP通信中获得的语音数据，由于获得的语音数据可能会存在数据包丢失的情况，则可以采用目标生成对抗网络对语音数据进行丢包补偿，以重构存在数据丢失的语音帧。

步骤203，在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。

为了兼容在低功耗的移动设备上处理实时音频流，目标生成对抗网络需要体积小，CPU占用率低，则目标生成对抗网络中的卷积层可以是因果关系，即只依赖历史信息而不依赖未来信息，则在进行丢包补偿的过程中，由于语音数据中语音帧具有一定的时间顺序，可以采用排序在第一语音帧之前的语音帧对存在数据丢失的语音帧进行重构，通过使用排序在前的语音帧进行重构，能够对存在数据丢失的语音帧进行并行处理，不用单独进行平滑操作就能保证丢包前后音频的平滑和连贯性，既保证相位的连续性，且整体操作不产生任何延时，提升了丢包补偿的实时性。

而且，为了提升重构语音的质量，可以仅采用不存在数据丢失的语音帧对存在数据丢失的语音帧进行重构，即使用语音数据中原始的语音帧，而不使用进行重构后的语音帧，能够应用于长时间、连续、突发的丢包情况。

在本发明一实施例中，在步骤203之前，还可以包括：

对于语音数据中语音帧，目标生成对抗网络可以判断其是否存在数据丢失，若不存在数据丢失，则可以将其掩码(Mask)为0，可以不经过处理直接将其输出，并可以保存在滑动缓冲区，以便后续作为语音帧重构的依据，若存在数据丢失，则可以将其掩码为1，覆盖其采样点，以表征其需要进行重构。

在一示例中，在训练对目标生成对抗网络的过程中，也可以对输入的样本数据中语音帧设置掩码，以标识其是否存在数据丢失。

为了体现本发明实施例的效果，通过采用3种衡量指标对本发明实施例进行实验：

1、平均意见得分(MOS，Mean Opinion Scor)，通过大量听众来评估由男性和女性说话时大声朗读句子的质量，听众按以下标准给每个句子打分：1分表示很差；2分表示差；3分表示一般；4分表示好；5分表示很好。在汇总评分后，取一个平均值，平均意见得分的得分范围在1-5之间，得分越高表示语音质量越好。

2、语音质量感知评估(PESQ，Perceptual Evaluation of Speech Quality)，其在国际电信联盟的标注化代号为ITU-TP.862，通过采用感知客观听力质量分析(POLQA，Perceptual Objective Listening Quality Analysis)算法对客观语音质量评估提供一个主观平均意见得分的预测值，且可以映射到平均意见得分刻度范围，感知客观听力质量分析得分范围在-0.5–4.5之间，得分越高表示语音质量越好。

3、短时目标可懂度(STOI，Short Time Objective Intelligibility)测量，得分介于0-1之间，值越大说明语音的可懂度越高，语音的质量越好。

在同样的实验条件下，如图4a、图4b、图4c为在不同丢包率的情况下，本发明提出的算法与线上的neteq算法、Lossy算法的POLQA、PESQ，以及STOI得分，横坐标为不同的丢包率，纵坐标为得分，如图5a、图5b、图5c为在不同丢包率的情况下，本发明提出的算法与线上的neteq算法、Lossy算法的POLQA、PESQ，以及STOI的平均得分。可见，采用本发明提出的算法在进行POLQA、PESQ，以及STOI评价方面均优于线上的neteq算法和Lossy算法，其中，感知客观听力质量分析得分平均提升0.5分，语音质量感知评估平均提升0.53分，短时目标可懂度测量平均提升0.17分。而且，采用本发明实施例在丢包30％时的指标比传统算法在丢包20％时的指标更好，即采用本发明实施例可以在丢包率增加10％-15％的情况下，语音质量不变。

参照图6，示出了本发明一实施例提供的一种语音通话的方法的步骤流程图，具体可以包括如下步骤：

步骤601，在语音通话的过程中，获取语音数据，并采用预先训练的目标生成对抗网络，对语音数据进行丢包补偿。

步骤602，在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。

在本发明一实施例中，在步骤602之前，还可以包括：

在本发明一实施例中，目标生成对抗网络可以具有生成器和鉴别器，目标生成对抗网络可以采用生成器和鉴别器对抗的方式进行训练，目标生成对抗网络的训练过程可以包括：

在本发明一实施例中，生成器可以具有采用U_net结构的编码器和解码器，编码器可以用于提取语音特征，解码器可以用于根据语音特征进行重构。

在本发明一实施例中，在训练目标生成对抗网络的过程中，编码器可以采用半监督学习的方式进行训练。

在本发明一实施例中，目标生成对抗网络的损失函数可以由多种损失组成而成，多个损失可以包括：

在本发明一实施例中，鉴别器可以由多种鉴别器组合而成，多种鉴别器可以包括：

多周期鉴别器、多尺度鉴别器、多扩张鉴别器。

在本发明一实施例中，编码器和解码器之间可以采用瓶颈层连接，编码器和解码器可以具有数量相同的多级处理单元，同一级的处理单元之间可以设置有层间跳跃连接。

需要说明的是，对于语音通话的方法的实施例，其具体内容可以参考上文中对语音丢包补偿的方法的实施例的说明。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图7，示出了本发明一实施例提供的一种语音丢包补偿的装置的结构示意图，具体可以包括如下模块：

目标生成对抗网络获取模块701，可以用于获取预先训练的目标生成对抗网络。

第一丢包补偿模块702，可以用于获取语音数据，并采用处理单元目标生成对抗网络对处理单元语音数据进行丢包补偿。

第一语音帧重构模块703，可以用于在进行丢包补偿的过程中，针对处理单元语音数据中存在数据丢失的第一语音帧，在处理单元目标生成对抗网络中采用排序在处理单元第一语音帧之前的第二语音帧进行重构；其中，处理单元第二语音帧为除存在数据丢失的语音帧之外的语音帧。

在本发明一实施例中，还可以包括：

第一掩码设置模块，可以用于对处理单元语音数据中语音帧设置掩码，以标识其是否存在数据丢失。

在本发明一实施例中，处理单元目标生成对抗网络可以具有生成器和鉴别器，处理单元目标生成对抗网络可以采用处理单元生成器和处理单元鉴别器对抗的方式进行训练，处理单元目标生成对抗网络的训练过程可以包括：

在训练处理单元目标生成对抗网络的过程中，采用处理单元生成器对存在数据丢失的样本数据进行丢包补偿，并采用处理单元生成器对丢包补偿后的样本数据进行鉴别，以根据鉴别结果，对处理单元生成器进行调整。

在本发明一实施例中，处理单元生成器可以具有采用U_net结构的编码器和解码器，处理单元编码器可以用于提取语音特征，处理单元解码器可以用于根据语音特征进行重构。

在本发明一实施例中，在训练处理单元目标生成对抗网络的过程中，处理单元编码器可以采用半监督学习的方式进行训练。

在本发明一实施例中，处理单元目标生成对抗网络的损失函数可以由多种损失组成而成，处理单元多个损失可以包括：

处理单元目标生成对抗网络的生成对抗损失、时域波形的损失、多分辨率的短时傅立叶变换损失、半监督学习的一致性损失。

在本发明一实施例中，处理单元鉴别器可以由多种鉴别器组合而成，处理单元多种鉴别器可以包括：

多周期鉴别器、多尺度鉴别器、多扩张鉴别器。

在本发明一实施例中，处理单元编码器和处理单元解码器之间可以采用瓶颈层连接，处理单元编码器和处理单元解码器可以具有数量相同的多级处理单元，同一级的处理单元之间可以设置有层间跳跃连接。

在本发明实施例中，通过获取预先训练的目标生成对抗网络，在获取到语音数据时，采用目标生成对抗网络对语音数据进行丢包补偿，在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构，第二语音帧为未存在数据丢失的语音帧，实现了采用生成对抗网络进行语音丢包补偿，通过使用未存在数据丢失的语音帧进行重构，能够应用于长时间、连续、突发的丢包情况，通过使用排序在前的语音帧进行重构，能够对存在数据丢失的语音帧进行并行处理，提升了丢包补偿的实时性。

参照图8，示出了本发明一实施例提供的一种语音通话的装置的结构框图，具体可以包括如下模块：

第二丢包补偿模块801，可以用于在语音通话的过程中，获取语音数据，并采用预先训练的目标生成对抗网络，对语音数据进行丢包补偿；

第二丢包补偿模块802，可以用于在进行丢包补偿的过程中，针对语音数据中存在数据丢失的第一语音帧，在目标生成对抗网络中采用排序在第一语音帧之前的第二语音帧进行重构；其中，第二语音帧为除存在数据丢失的语音帧之外的语音帧。

在本发明一实施例中，还可以包括：

第二掩码设置模块，可以用于对语音数据中语音帧设置掩码，以标识其是否存在数据丢失。

多周期鉴别器、多尺度鉴别器、多扩张鉴别器。

本发明一实施例还提供了一种电子设备，可以包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序，计算机程序被处理器执行时实现如上语音丢包补偿的方法，或者，实现如上语音通话的方法。

本发明一实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上语音丢包补偿的方法，或者，实现如上语音通话的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种语音丢包补偿的方法、语音通话的方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音丢包补偿的方法，其特征在于，所述方法包括：

获取预先训练的目标生成对抗网络；

获取语音数据，并采用所述目标生成对抗网络对所述语音数据进行丢包补偿；

在进行丢包补偿的过程中，针对所述语音数据中存在数据丢失的第一语音帧，在所述目标生成对抗网络中采用排序在所述第一语音帧之前的第二语音帧进行重构；其中，所述第二语音帧为除存在数据丢失的语音帧之外的语音帧。

2.根据权利要求1所述的方法，其特征在于，在针对所述语音数据中存在数据丢失的第一语音帧，在所述目标生成对抗网络中采用排序在所述第一语音帧之前的第二语音帧进行重构之前，还包括：

对所述语音数据中语音帧设置掩码，以标识其是否存在数据丢失。

3.根据权利要求1或2所述的方法，其特征在于，所述目标生成对抗网络具有生成器和鉴别器，所述目标生成对抗网络采用所述生成器和所述鉴别器对抗的方式进行训练，所述目标生成对抗网络的训练过程包括：

在训练所述目标生成对抗网络的过程中，采用所述生成器对存在数据丢失的样本数据进行丢包补偿，并采用所述生成器对丢包补偿后的样本数据进行鉴别，以根据鉴别结果，对所述生成器进行调整。

4.根据权利要求3所述的方法，其特征在于，所述生成器具有采用U_net结构的编码器和解码器，所述编码器用于提取语音特征，所述解码器用于根据语音特征进行重构。

5.根据权利要求4所述的方法，其特征在于，在训练所述目标生成对抗网络的过程中，所述编码器采用半监督学习的方式进行训练。

6.根据权利要求5所述的方法，其特征在于，所述目标生成对抗网络的损失函数由多种损失组成而成，所述多个损失包括：

所述目标生成对抗网络的生成对抗损失、时域波形的损失、多分辨率的短时傅立叶变换损失、半监督学习的一致性损失。

7.根据权利要求3所述的方法，其特征在于，所述鉴别器由多种鉴别器组合而成，所述多种鉴别器包括：

多周期鉴别器、多尺度鉴别器、多扩张鉴别器。

8.根据权利要求4所述的方法，其特征在于，所述编码器和所述解码器之间采用瓶颈层连接，所述编码器和所述解码器具有数量相同的多级处理单元，同一级的处理单元之间设置有层间跳跃连接。

9.一种语音通话的方法，其特征在于，所述方法包括：

在语音通话的过程中，获取语音数据，并采用预先训练的目标生成对抗网络，对所述语音数据进行丢包补偿；

10.一种语音丢包补偿的装置，其特征在于，所述装置包括：

第一丢包补偿模块，用于获取语音数据，并采用所述目标生成对抗网络对所述语音数据进行丢包补偿；

第一语音帧重构模块，用于在进行丢包补偿的过程中，针对所述语音数据中存在数据丢失的第一语音帧，在所述目标生成对抗网络中采用排序在所述第一语音帧之前的第二语音帧进行重构；其中，所述第二语音帧为除存在数据丢失的语音帧之外的语音帧。

11.一种语音通话的装置，其特征在于，所述装置包括：

第二丢包补偿模块，用于在语音通话的过程中，获取语音数据，并采用预先训练的目标生成对抗网络，对所述语音数据进行丢包补偿；

第二语音帧重构模块，用于在进行丢包补偿的过程中，针对所述语音数据中存在数据丢失的第一语音帧，在所述目标生成对抗网络中采用排序在所述第一语音帧之前的第二语音帧进行重构；其中，所述第二语音帧为除存在数据丢失的语音帧之外的语音帧。

12.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音丢包补偿的方法，或者，实现如权利要求9所述的语音通话的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音丢包补偿的方法，或者，实现如权利要求9所述的语音通话的方法。