CN113823298A

CN113823298A - 语音数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113823298A
Application number: CN202110662105.3A
Authority: CN
Inventors: 阳珊; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-12-21
Anticipated expiration: 2041-06-15
Also published as: CN113823298B

Abstract

本申请实施例公开了一种语音数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：调用语音编码模型，对样本语音数据进行编码，得到样本语音特征；调用语音解码模型，对样本语音特征进行解码，得到目标语音数据；调用语音判别模型，对目标语音数据进行判别，得到第一判别结果；根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音编码模型和语音解码模型。利用样本语音数据联合训练语音编码模型和语音解码模型，并且在训练过程中采用语音判别模型对语音编码模型和语音解码模型进行对抗训练，来提高语音编码模型和语音解码模型的准确性，从而保证对语音数据的处理效果。

Description

语音数据处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种语音数据处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术和网络技术的发展，不同计算机设备之间能够进行语音数据的传输。为了提高传输效率，通常由发送端将语音数据进行压缩，然后向接收端发送压缩后的语音数据。但是压缩语音数据会造成语音数据的质量下降，导致接收端接收到的是有损语音数据。

为了解决上述问题，可以由发送端对语音数据进行滤波处理，从而在频域上提取语音数据的频谱特征等，然后将频谱特征发送给接收端，由接收端根据频谱特征来还原语音数据，但是语音还原的效果仍然不够好。

发明内容

本申请实施例提供了一种语音数据处理方法、装置、计算机设备及存储介质，能够提高语音数据处理的效果。所述技术方案如下：

一方面，提供了一种语音数据处理方法，所述方法包括：

调用语音编码模型，对样本语音数据进行编码，得到样本语音特征，所述语音编码模型用于在第一设备上对语音数据进行编码，以向第二设备发送编码得到的第一语音特征；

调用语音解码模型，对所述样本语音特征进行解码，得到目标语音数据；

调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果；

根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音编码模型和所述语音解码模型。

可选地，所述编码网络包括m个编码层，所述m为大于1的整数，所述调用所述编码网络，对所述样本语音数据进行编码，得到第二语音特征，包括：

调用第k个编码层，对所述样本语音数据进行编码，得到第k个编码语音特征，所述k为小于所述m的正整数；

继续调用所述第k个编码层的下一个编码层，对所述第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的所述第二语音特征。

可选地，所述调用所述语音解码模型中的解码网络，对所述上下文特征进行解码，得到所述目标语音数据，包括：

调用所述解码网络，对所述上下文特征进行解码，得到具有目标特征的所述目标语音数据，所述目标特征用于描述接近未进行编码的语音数据应满足的特征。

可选地，所述解码网络包括n个解码层，所述n为大于1的整数，所述调用所述语音解码模型中的解码网络，对所述上下文特征进行解码，得到所述目标语音数据，包括：

调用第h个解码层，对所述上下文特征进行解码，得到第h个解码语音特征，所述h为小于所述n的正整数；

继续调用所述第h个解码层中的下一个解码层，对所述第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的所述目标语音数据。

另一方面，提供了一种语音数据处理方法，所述方法包括：

调用语音编码模型，对语音数据进行编码，得到第一语音特征；

向第二设备发送所述第一语音特征，所述第二设备用于调用语音解码模型，对所述第一语音特征进行解码，得到所述语音数据；

其中，所述语音编码模型与所述语音解码模型是基于相同的样本语音数据进行对抗训练得到的。

另一方面，提供了一种语音数据处理方法，所述方法包括：

接收第一设备发送的第一语音特征，所述第一语音特征是调用语音编码模型对语音数据进行编码得到的；

调用语音解码模型，对所述第一语音特征进行解码，得到所述语音数据；

另一方面，提供了一种语音数据处理装置，所述装置包括：

编码模块，用于调用语音编码模型，对样本语音数据进行编码，得到样本语音特征；

解码模块，用于调用语音解码模型，对所述样本语音特征进行解码，得到目标语音数据；

判别模块，用于调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，所述第一判别结果用于表示所述目标语音数据是否是调用所述语音解码模型生成的；

模型训练模块，用于根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音编码模型和所述语音解码模型。

可选地，所述编码模块，包括：

编码单元，用于调用所述语音编码模型中的编码网络，对所述样本语音数据进行编码，得到第二语音特征；

量化单元，用于调用所述语音编码模型中的量化网络，对所述第二语音特征进行量化处理，得到所述样本语音特征。

可选地，所述样本语音数据包括多个采样点，所述编码网络包括多个下采样层，所述编码单元，用于：

调用所述多个下采样层，对所述多个采样点进行下采样，得到包括多个语音特征向量的第二语音特征。

可选地，所述量化单元，用于：

调用所述量化网络，在码本集合中搜索每个语音特征向量对应的目标特征向量，所述语音特征向量对应的目标特征向量是指所述码本集合中与所述语音特征向量相似度最高的码本特征向量，所述码本集合包括多个码本特征向量；

将搜索到的多个目标特征向量，确定为所述样本语音特征。

可选地，所述模型训练模块，包括：

第一训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述多个语音特征向量与所述多个码本特征向量之间的差异，更新所述语音编码模型的网络参数、所述语音解码模型的网络参数以及所述码本集合中的码本特征向量。

可选地，所述编码网络包括m个编码层，所述m为大于1的整数，所述编码单元，用于：

可选地，所述样本语音特征包括多个目标特征向量，所述解码模块，包括：

特征提取单元，用于调用所述语音解码模型中的特征提取网络，对所述样本语音特征进行特征提取，得到上下文特征，所述上下文特征表示所述样本语音特征中的多个目标特征向量之间的相关性；

解码单元，用于调用所述语音解码模型中的解码网络，对所述上下文特征进行解码，得到所述目标语音数据。

可选地，所述解码单元，用于：

可选地，所述解码网络包括n个解码层，所述n为大于1的整数，所述解码单元，用于：

可选地，所述样本语音数据包括多个采样点，所述编码模块，包括：

并行编码单元，用于调用所述语音编码模型，并行地对所述多个采样点进行编码，得到包括多个目标特征向量的样本语音特征；

所述解码模块，包括：

并行解码单元，用于调用所述语音解码模型，并行地对所述多个目标特征向量进行解码，得到所述目标语音数据。

可选地，所述判别模块，还用于调用所述语音判别模型，对所述样本语音数据进行判别，得到第二判别结果，所述第二判别结果用于表示所述样本语音数据是否是调用所述语音解码模型生成的；

所述模型训练模块，还用于根据所述第一判别结果和所述第二判别结果，训练所述语音判别模型。

可选地，所述模型训练模块，包括：

第二训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述第一判别结果与所述第二判别结果之间的差异，训练所述语音编码模型和所述语音解码模型。

可选地，所述语音判别模型的数量为多个，每个语音判别模型对应的尺度不同，所述判别模块，包括：

池化单元，用于根据多个语音判别模型对应的尺度，分别对所述目标语音数据进行池化处理，得到多个不同尺度的第一语音数据；

判别单元，用于分别调用每个语音判别模型，对与所述语音判别模型的尺度相同的第一语音数据进行判别，得到多个所述第一判别结果。

另一方面，提供了一种语音数据处理装置，所述装置包括：

编码模块，用于调用语音编码模型，对语音数据进行编码，得到第一语音特征；

特征发送模块，用于向第二设备发送所述第一语音特征，所述第二设备用于调用语音解码模型，对所述第一语音特征进行解码，得到所述语音数据；

另一方面，提供了一种语音数据处理装置，所述装置包括：

特征接收模块，用于接收第一设备发送的第一语音特征，所述第一语音特征是调用语音编码模型对语音数据进行编码得到的；

解码模块，用于调用语音解码模型，对所述第一语音特征进行解码，得到所述语音数据；

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的语音数据处理方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的语音数据处理方法中所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的语音数据处理方法中所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，利用样本语音数据联合训练语音编码模型和语音解码模型，使语音编码模型能够学习到还原语音数据所依据的语音特征，也使语音解码模型能够学习到如何根据语音编码模型所学习到的语音特征，来还原语音数据，并且在训练过程中采用语音判别模型，对语音编码模型和语音解码模型进行对抗训练，来提高语音编码模型和语音解码模型的准确性，从而保证对语音数据的处理效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图。

图2是本申请实施例提供的一种语音编码模型的结构示意图。

图3是本申请实施例提供的一种语音解码模型的结构示意图。

图4是本申请实施例提供的一种语音编码模型和语音解码模型的结构示意图。

图5是本申请实施例提供的一种语音数据处理方法的流程图。

图6是本申请实施例提供的一种语音数据处理方法的流程图。

图7是本申请实施例提供的一种语音数据处理方法的流程图。

图8是本申请实施例提供的一种语音数据处理结果的示意图。

图9是本申请实施例提供的一种语音数据处理装置的结构示意图。

图10是本申请实施例提供的另一种语音数据处理装置的结构示意图。

图11是本申请实施例提供的另一种语音数据处理装置的结构示意图。

图12是本申请实施例提供的另一种语音数据处理装置的结构示意图。

图13是本申请实施例提供的一种终端的结构示意图。

图14是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一语音数据称为第二语音数据，且类似地，可将第二语音数据称为第一语音数据。

其中，至少一个是指一个或者一个以上，例如，至少一个语音特征向量可以是一个语音特征向量、两个语音特征向量、三个语音特征向量等任一大于等于一的整数个语音特征向量。多个是指两个或者两个以上，例如，多个语音特征向量可以是两个语音特征向量、三个语音特征向量等任一大于等于二的整数个语音特征向量。每个是指至少一个中的每一个，例如，每个语音特征向量是指多个语音特征向量中的每一个语音特征向量，若多个语音特征向量为3个语音特征向量，则每个语音特征向量是指3个语音特征向量中的每一个语音特征向量。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括自然语言处理技术和机器学习。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，TextToSpeech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

以下将基于人工智能技术和语音技术，对本申请实施例提供的语音数据处理方法进行说明。

本申请实施例提供的语音数据处理方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。

在一种可能实现方式中，本申请实施例中用于训练语音编码模型和语音解码模型的计算机设备是区块链系统中的节点，该节点能够将训练的语音编码模型和语音解码模型存储在区块链中，之后该节点或者该区块链中的其他设备对应的节点可基于该语音编码模型或者语音解码模型进行有关语音数据的处理。

图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：第一设备101和第二设备102。第一设备101和第二设备102之间通过无线或有线网络连接，第一设备101和第二设备102之间能够进行语音数据的传输。以第一设备101为语音数据的发送端，第二设备102为语音数据的接收端为例来说明，第一设备101中存储有语音编码模型，第二设备102中存储有语音解码模型，第一设备101能够调用语音编码模型对语音数据进行编码，向第二设备102发送编码得到的语音特征，第二设备能够调用语音解码模型对接收到的语音特征进行解码，得到该语音数据，从而完成语音数据的传输。

在一种可能实现方式中，该第一设备101和第二设备102均为终端。可选地，第一设备101和第二设备102与同一服务器建立通信连接。第一设备101对语音数据进行编码得到语音特征之后，向服务器发送该语音特征，由服务器向第二设备102转发该语音特征，第二设备接收该服务器转发的语音特征，对该语音特征进行解码得到该语音数据。

可选地，第一设备101中运行有该服务器提供的第一应用客户端，第二设备102中运行有该服务器提供的第二应用客户端，第一应用客户端和第二应用客户端之间能够传输语音数据，例如实现语音通话等功能。其中，第一设备101通过第一应用客户端对语音数据进行编码，第二设备102通过第二应用客户端对语音数据进行解码。

可选地，服务器训练语音编码模型和语音解码模型，将训练后的语音编码模型和语音解码模型存储于第一应用客户端和第二应用客户端中，则第一应用客户端调用存储的语音编码模型对语音数据进行编码，第二应用客户端调用语音解码模型对语音特征进行解码。

在另一种可能实现方式中，该第一设备101为服务器，第二设备102为终端。第一设备101接收其他终端要发送给第二设备102的语音数据，对该语音数据进行编码，然后向第二设备102发送编码得到的语音特征，第二设备接收该服务器转发的语音特征，对该语音特征进行解码得到该语音数据，从而利用第一设备101，实现其他终端与第二设备102之间的语音数据传输。

本申请实施例提供的语音数据处理方法，可应用于任一处理语音数据的场景下。

传输语音数据的场景，例如语音通话场景、视频通话场景、语音会议场景以及视频会议场景等。第一终端和第二终端中均运行有服务器提供的应用客户端，应用客户端中存储有服务器训练的语音编码模型和语音解码模型，该应用客户端具有语音通话的功能。在进行语音通话时，第一终端通过应用客户端调用语音编码模型，对采集的语音数据进行编码，然后向第二终端发送编码得到的语音特征。第二终端通过应用客户端调用语音解码模型，对接收到的语音特征进行解码，得到该语音数据，从而实现第一终端和第二终端之间的语音数据传输。

图2是本申请实施例提供的一种语音编码模型的结构示意图，参见图2，该语音编码模型包括编码网络201和量化网络202。其中，编码网络201用于对语音数据进行编码得到语音特征，量化网络202用于对语音特征进行量化处理。可选地，编码网络201包括多个编码层211，多个编码层211中每两个相邻的编码层211相互连接，每个编码层211的网络结构相同但网络参数不同，该多个编码层211能够提取语音数据的深层次的特征。

图3是本申请实施例提供的一种语音解码模型的结构示意图，参见图3，该语音解码模型包括特征提取网络301和解码网络302。其中，特征提取网络301用于提取语音特征的多个特征向量之间的上下文特征，解码网络302用于对上下文特征进行解码。可选地，解码网络302包括多个解码层312，多个解码层312中每两个相邻的解码层312相互连接，每个解码层312的网络结构相同但网络参数不同，该多个解码层312能够对深层次的特征进行解码。

在一种可能实现方式中，语音编码模型和语音解码模型的结构示意图如图4所示。语音编码模型的编码网络201包括N个编码层211，N为大于1的整数，每个编码层211包括一个下采样卷积和三个一维卷积，每个编码层211的输出为下采样卷积的输出和最后一个一维卷积的输出之和。语音编码模型的量化网络202包括码本集合，码本集合包括多个码本特征向量。语音解码模型的特征提取网络301包括并联的多个膨胀卷积和一维卷积，多个膨胀卷积的输出之和为一维卷积的输入。语音解码模型的解码网络302包括一个转置卷积和M个解码层312，每个解码层312包括一个膨胀卷积，每个解码层312输出为该解码层312的输入和该膨胀卷积的输出之和。

语音编码模型的作用是在发送端设备将语音数据进行编码，而后将编码得到的语音特征通过网络传输到接收端设备，语音解码模型的作用是在接收端设备对语音特征进行解码，从而还原出语音数据。本申请实施例通过训练语音编码模型和语音解码模型，来提供一种基于语音编码模型和语音解码模型的语音数据处理方法。其中，该语音编码模型和语音解码模型的训练过程详见下述图5和图6的实施例。

图5是本申请实施例提供的一种语音数据处理方法的流程图。本申请实施例的执行主体为计算机设备，可选地，该计算机设备为上述图1的实施例中的第一设备、第二设备或者服务器。参见图5，该方法包括：

501、计算机设备调用语音编码模型，对样本语音数据进行编码，得到样本语音特征。

为了训练语音编码模型和语音解码模型，计算机设备先获取多个样本语音数据作为样本数据集，其中，基于该多个样本语音数据训练语音编码模型和语音解码模型的过程包括多次迭代过程，在每次迭代过程中基于一个样本语音数据来进行训练。需要说明的是，本申请实施例中的步骤501-504仅以一次迭代过程为例进行说明。

计算机设备获取样本数据集中的任一样本语音数据，调用语音编码模型对该样本语音数据进行编码，得到该样本数据对应的样本语音特征，该样本语音特征用于描述样本语音数据的特征。

其中，该语音编码模型的结构详见上述图2和图4的实施例。

502、计算机设备调用语音解码模型，对样本语音特征进行解码，得到目标语音数据。

计算机设备获取到样本语音特征，则调用语音解码模型，对该样本语音特征进行解码，得到目标语音数据。在本申请实施例中，样本语音数据是原始的语音数据，目标语音数据是对样本语音数据进行编码再解码得到的语音数据。

其中，该语音解码模型的结构详见上述图3和图4的实施例。

503、计算机设备调用语音判别模型，对目标语音数据进行判别，得到第一判别结果。

语音判别模型用于判别语音数据是否是调用语音解码模型生成的，其中未经过语音编码模型和语音解码模型处理的语音数据为真实的语音数据，经过语音解码模型进行处理所生成的语音数据可以看作是“虚假”的语音数据，该语音判别模型的目的即为判别语音数据为真实的语音数据还是“虚假”的语音数据。

计算机设备得到目标语音数据，则调用语音判别模型，对目标语音数据进行判别，得到第一判别结果，该第一判别结果用于表示目标语音数据是否是调用语音解码模型生成的。若语音判别模型成功地鉴别出目标语音数据是语音解码模型生成的，则说明语音编码模型的编码能力不足，导致编码得到的样本语音特征不准确，或者语音解码模型的解码能力不足，导致解码得到的目标语音数据不准确。若语音判别模型未鉴别出目标语音数据是语音解码模型生成的，说明语音编码模型具有充分的编码能力，因此编码得到的样本语音特征比较准确，且语音解码模型具有充分的解码能力，因此解码得到的目标语音数据比较准确。因此，可以根据语音判别模型的判别结果，来确定是否需要对语音编码模型和语音解码模型的模型参数进行调整，以使语音编码模型和语音解码模型更加准确。

504、计算机设备根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音编码模型和语音解码模型。

由于样本语音数据是原始的语音数据，目标语音数据是对样本语音数据进行编码再解码得到的语音数据，则目标语音数据与样本语音数据越相似，该语音编码模型和语音解码模型越准确。第一判别结果用于表示目标语音数据是否是调用语音解码模型生成的，如果第一判别结果表示目标语音数据不是调用语音解码模型生成的，则该语音编码模型和语音解码模型越准确，如果第一判别结果表示目标语音数据是调用语音解码模型生成的，则该语音编码模型和语音解码模型越不准确。

因此，计算机设备根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音编码模型和语音解码模型，以提高语音编码模型的编码能力以及语音解码模型的解码能力，从而提高语音编码模型和语音解码模型的准确性。

本申请实施例提供的方法，利用样本语音数据联合训练语音编码模型和语音解码模型，使语音编码模型能够学习到还原语音数据所依据的语音特征，也使语音解码模型能够学习到如何根据语音编码模型所学习到的语音特征，来还原语音数据，并且在训练过程中采用语音判别模型，对语音编码模型和语音解码模型进行对抗训练，来提高语音编码模型和语音解码模型的准确性，从而保证对语音数据的处理效果。

图6是本申请实施例提供的一种语音数据处理方法的流程图。本申请实施例的执行主体为计算机设备，参见图6，该方法包括：

601、计算机设备调用语音编码模型中的编码网络，对样本语音数据进行编码，得到第二语音特征。

为了训练语音编码模型和语音解码模型，计算机设备先获取多个样本语音数据作为样本数据集，其中，基于该多个样本语音数据训练语音编码模型和语音解码模型的过程包括多次迭代过程，在每次迭代过程中基于一个样本语音数据来进行训练。需要说明的是，本申请实施例中的步骤601-606仅以一次迭代过程为例进行说明。

语音编码模型的结构详见上述图2和图4的实施例。该语音编码模型包括编码网络，编码网络用于对语音数据进行编码得到语音特征，计算机设备获取到样本语音数据后，调用语音编码模型中的编码网络，对样本语音数据进行编码，得到第二语音特征，该第二语音特征用于表示该样本语音数据的特征。

在一种可能实现方式中，该样本语音特征包括语音数据的长时语音特征和短时语音特征，长时语音特征包括语音数据的人声特征等，人声特征属于说话人的信息，短时语音特征包括语音数据的韵律特征和内容特征等。该样本语音特征为高维的隐层特征，除此之外，样本语音特征还可以包括其他类型的语音特征，本申请实施例对此不作限定。

在一种可能实现方式中，样本语音数据包括多个采样点，编码网络包括多个下采样层，计算机设备调用多个下采样层，对多个采样点进行下采样，得到包括多个语音特征向量的第二语音特征。

例如，样本语音数据包括N个采样点，编码网络包括M个下采样层，N和M均为大于1的整数，对于每一个下采样层，将下采样层的输入下采样2倍，这意味着对于样本语音数据中的N个采样点，能够通过M个下采样层，得到N/2^M个语音特征向量，从而降低样本语音数据在时间维度的复杂度。

在一种可能实现方式中，编码网络包括m个编码层，m为大于1的整数，m个编码层中每两个相邻的编码层之间相互连接，例如多个编码层分别为用于进行下采样的下采样层。计算机设备调用第k个编码层，对样本语音数据进行编码，得到第k个编码语音特征，k为小于m的正整数，继续调用第k个编码层的下一个编码层，对第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的第二语音特征。

其中，整个编码网络的输入作为第一个编码层的输入，对于第一个编码层之后的每个编码层，前一个编码层的输出作为当前编码层的输入，最后一个编码层的输出就是整个编码网络的输出，该输出也即是第二语音特征。

可选地，每个编码层的网络结构相同，但是网络参数不同，例如每个编码层中的下采样卷积的卷积核大小不同，该多个编码层为不同尺度的多个编码层，多个编码层的尺度不同是指多个编码层下采样的倍数不同，例如，多个编码层下采样的倍数，按照多个编码层的排列顺序由小到大，从而实现通过不同尺度的多个编码层，由精准到粗略地对语音数据进行编码，能够学习到语音数据中的高维的语音特征，便于后续根据高维的语音特征还原出高质量的语音数据。

602、计算机设备调用语音编码模型中的量化网络，对第二语音特征进行量化处理，得到样本语音特征。

该语音编码模型还包括量化网络，该量化网络与编码网络相互连接。计算机设备获取到第二语音特征后，调用语音编码模型中的量化网络，对第二语音特征进行量化处理，得到样本语音特征，该样本语音特征能够表示样本语音数据的特征。

量化网络用于对语音特征进行量化处理，或者说是对语音特征进行离散化处理，来降低语音特征的维度，相当于对语音特征进行了压缩，从而降低样本语音数据的码率。例如，第二语音特征为H＝{h₁,h₂,…,h_T}，该第二语音特征包括多个语音特征向量，通过量化网络对第二语音特征进行量化处理，将相邻的多个语音特征向量量化为相同的特征向量，最终得到量化后的样本语音特征Q＝{q₁,q₂,…,q_T}。本申请实施例采用量化网络对编码网络输出的第二语音特征进行离散化，从而达到低码率编码的目的。

本申请实施例中的语音编码模型的作用是在第一设备对语音数据进行编码得到语音特征，而后，第一设备向第二设备发送编码得到的语音特征。但是考虑到语音编码模型中的编码网络所得到的语音特征为高维的语音特征，如果直接传输高维的语音特征，则传输效率较低。因此为了提高传输效率，计算机设备调用语音编码模型中的量化网络对编码网络输出的第二语音数据进行量化处理，由于该样本语音特征为量化后的语音特征，因此完成了对第二语音特征的降维和压缩，从而降低了语音特征的维度，有利于提高语音特征的传输效率。

在一种可能实现方式中，量化网络包括码本集合，码本集合包括多个码本特征向量，第二语音特征包括多个语音特征向量。计算机设备调用量化网络，在码本集合中搜索每个语音特征向量对应的目标特征向量，将搜索到的多个目标特征向量，确定为样本语音特征。其中，语音特征向量对应的目标特征向量是指码本集合中与语音特征向量相似度最高的码本特征向量。

其中，对于样本语音特征中的每个语音特征向量，计算机设备在码本集合中搜索与该语音特征向量之间的相似度最高的码本特征向量，搜索到的相似度最高的码本特征向量即为该语音特征向量对应的目标特征向量，从而计算机设备能够基于量化网络搜索到每个语音特征向量对应的目标特征向量，搜索到的多个目标特征向量即为量化后的样本语音特征。

例如，样本语音数据表示为X＝{x₁,x₂,…,x_N}，调用编码网络将其进行编码，得到隐层的第二语音特征，该第二语音特征表示为H＝{h₁,h₂,…,h_T}，其中T＝N/2^M，M为在编码网络中进行下采样的次数。该量化过程又称为离散编码过程，该码本(code book)集合C＝{e₁,e₂,…,e_C}，其中C为码本集合中码本特征向量(code vector)的个数。对于每一个语音特征向量h，在码本集合搜索与其相似度最高的码本特征向量，作为目标特征向量q，即：

q＝e_k，k＝arg min_j||h-e_j||₂；

通过该量化网络，能够将第二语音特征H量化为目标特征向量Q＝{q₁,q₂,…,q_T}，其中q_i∈C。此时，语音数据的编码过程就完成了。

本申请实施例中，语音编码模型的编码网络直接接受样本语音数据作为输入，编码网络通过多个不同尺度的下采样层，将样本语音数据进行多次下采样，从而获得样本语音数据的高维的样本语音特征。虽然编码网络减少了样本语音数据的长度，但是该样本语音数据的维度比较高，并不能很好地降低样本语音数据的码率。本申请实施例采用了量化网络对编码网络输出的第二语音特征进行离散化，从而达到低码率编码的目的。

603、计算机设备调用语音解码模型中的特征提取网络，对样本语音特征进行特征提取，得到上下文特征。

语音解码模型的结构详见上述图3和图4的实施例。该语音解码模型包括特征提取网络，特征提取网络用于提取语音特征的多个特征向量之间的上下文特征。计算机设备获取到样本语音特征后，调用语音解码模型中的特征提取网络，对样本语音特征进行特征提取，得到上下文特征，上下文特征表示样本语音特征中的多个目标特征向量之间的相关性。

其中，由于样本语音特征是对第二语音特征进行量化处理所得到的，而量化处理的过程属于编码压缩的过程，因此相比于第二语音特征，该样本语音特征损失了部分信息量，为了补偿由于量化处理所损失的信息量，计算机设备调用特征提取网络，对样本语音特征进行特征提取，从而学习样本语音特征的多个目标特征向量之间的相关性。

604、计算机设备调用语音解码模型中的解码网络，对上下文特征进行解码，得到目标语音数据。

该语音解码模型还包括解码网络，解码网络用于对特征提取网络输出的上下文特征进行解码，该解码网络与特征提取网络相互连接。计算机设备获取到上下文特征后，调用语音解码模型中的解码网络，对上下文特征进行解码，得到目标语音数据。在本申请实施例中，样本语音数据是原始的语音数据，目标语音数据是对样本语音数据进行编码再解码得到的语音数据。训练语音编码模型和语音解码模型的目的即为使目标语音数据越来越接近样本语音数据，从而提高语音编码模型和语音解码模型的准确性。

在一种可能实现方式中，计算机设备调用解码网络，对上下文特征进行解码，得到具有目标特征的目标语音数据，其中，该目标特征用于描述接近未进行编码的语音数据应满足的特征。在模型的训练阶段，语音解码模型通过不断的训练，来学习未进行编码的语音数据应满足的特征，使得得到的目标语音数据所具有的目标特征，越来越接近未进行编码的语音数据应满足的特征，从而避免计算机设备解码得到的目标语音数据偏离未进行编码的语音数据所满足的特征，保证解码得到的目标语音数据的准确性。例如，该目标特征属于听觉感知特征，用于描述人耳对未进行编码的语音数据的感知情况，则解码得到的目标语音数据满足人耳的听觉感知需求，有利于提高目标语音数据的准确性。

在一种可能实现方式中，解码网络包括n个解码层，n为大于1的整数，n个解码层中每两个相邻的解码层之间相互连接。计算机设备调用第h个解码层，对上下文特征进行解码，得到第h个解码语音特征，h为小于n的正整数，继续调用第h个解码层中的下一个解码层，对第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的目标语音数据。

其中，整个解码网络的输入作为第一个解码层的输入，对于第一个解码层之后的每个解码层，前一个解码层的输出作为当前解码层的输入，最后一个解码层的输出就是整个解码网络的输出，该输出也即是目标语音数据。

可选地，每个解码层的网络结构相同，但网络参数不同，例如每个解码层中的膨胀卷积的卷积核大小不同，该多个解码层为不同尺度的多个解码层，通过不同尺度的该多个解码层对上下文特征进行解码，从而还原出高质量的语音数据。

本申请实施例中，样本语音数据为语音编码模型的输入，目标语音数据为语音解码模型的输出，可以将语音编码模型和语音解码模型整体看作是一个端到端的语音编解码模型，也即是将样本语音数据输入语音编解码模型中，该语音编解码模型进行处理后，输出目标语音数据。由于样本语音数据是该端到端的语音编解码模型在编解码过程中的唯一输入，因此在编解码的过程中，该语音编解码模型不依赖其他的辅助特征或者语音数据的基频信息等，该语音编解码模型具有良好的鲁棒性。

本申请实施例中对语音数据进行处理的过程可划分为编解码模块和量化模块，语音编码模型中的编码网络以及语音解码模型属于编解码模块，语音编码模型中的量化网络属于量化模块，该编解码模块和量化模块可以为看作是VQ-VAE(Vector-QuantizedVariational Auto-Encoder，矢量量化的变分自编码器)。

需要说明的是，计算机设备通过执行上述步骤601-604，实现了调用语音编码模型，对样本语音数据进行编码，得到样本语音特征，调用语音解码模型，对样本语音特征进行解码，得到目标语音数据。

在一种可能实现方式中，样本语音数据包括多个采样点。其中，该多个采样点是对连续的语音信号进行采样所得到的采样点，采样点用于表示语音信号在采样位置处的信号强度。计算机设备调用语音编码模型，并行地对多个采样点进行编码，得到包括多个目标特征向量的样本语音特征，调用语音解码模型，并行地对多个目标特征向量进行解码，得到目标语音数据。其中，并行地对多个采样点进行编码是指同时对多个采样点进行编码，同时输出多个目标特征向量，并行地对多个目标特征向量进行解码是指同时对多个目标特征向量进行解码，输出目标语音数据，该目标语音数据也包括多个采样点。

可选地，本申请实施例中的语音编码模型和语音解码模型为可并行处理的全卷积神经网络结构，相比于相关技术中的自回归方式，本申请实施例提供的并行方式进行语音编码和语音解码的处理效率更高。并且，还能够避免采用自回归方式导致错误累积的情况，因此可以提高语音编码和语音解码的准确率。

605、计算机设备调用语音判别模型，对目标语音数据进行判别，得到第一判别结果。

通过上述语音编码模型和语音解码模型，能够对样本语音数据进行编解码得到目标语音数据，但是目标语音数据可能含有潜在的噪声。为了进一步提高语音数据的音质，本申请实施例使用对抗训练的思路来建模语音数据的分布特征。其中，语音判别模型用于判别语音数据是否是调用语音解码模型生成的，未经过语音编码模型和语音解码模型处理的语音数据为真实的语音数据，经过语音解码模型进行处理所生成的语音数据可以看作是“伪造”的语音数据，该语音判别模型的目的即为判别语音数据为真实的语音数据还是“伪造”的语音数据。可选地，该语音判别模型为GAN(Generative adversarial network,对抗式生成网络)。计算机设备得到目标语音数据，则调用语音判别模型，对目标语音数据进行判别，得到第一判别结果，该第一判别结果用于表示目标语音数据是否是调用语音解码模型生成的。

由于目标语音数据为根据样本语音特征生成的语音数据，实际上是伪造的语音数据，而不是真实的样本语音数据。并且，样本语音特征越准确，该伪造的目标语音数据与真实的样本语音数据越相似，因此，可以调用语音判别模型对目标语音数据进行判别，来确定目标语音数据是否是语音解码模型生成的语音数据。若语音判别模型成功地判别出目标语音数据是语音解码模型生成的，说明语音编码模型的编码能力不足，导致提取的语音特征不准确，或者语音解码模型的解码能力不足，导致生成的目标语音数据不准确。若语音判别模型未判别出目标语音数据是语音解码模型生成的，说明语音编码模型具有充分的编码能力，因此提取的语音特征比较准确，且语音解码模型具有充分的解码能力，因此生成的目标语音数据比较准确。因此，可以根据语音判别模型的判别结果来对语音编码模型和语音解码模型的模型参数进行调整，以使语音编码模型和语音解码模型更加准确。

在一种可能实现方式中，语音判别模型的数量为多个，每个语音判别模型对应的尺度不同，语音判别模型用于判别与该语音判别模型的尺度相同的语音数据。计算机设备根据多个语音判别模型对应的尺度，分别对目标语音数据进行池化处理，得到多个不同尺度的第一语音数据，分别调用每个语音判别模型，对与语音判别模型的尺度相同的第一语音数据进行判别，得到多个第一判别结果。

对于任意一个语音判别模型，计算机设备按照该语音判别模型对应的尺度，对第一语音数据进行池化处理，得到与该语音判别模型的尺度相同的第一语音数据，然后调用该语音判别模型，对该第一语音数据进行判别，得到一个第一判别结果。计算机设备包括多个不同尺度的语音判别模型，对于每个尺度的语音判别模型均执行上述步骤，则能够得到多个第一判别结果，后续根据多个第一判别结果，来训练语音编码模型和语音解码模型。本申请实施例使用对抗训练的思路来建模语音数据的分布特征，调用不同尺度的语音判别模型，对不同尺度的第一语音数据进行判别，能够分别关注到第一语音数据的整体分布特征以及局部分布特征，有利于提高对抗训练过程的准确性。

606、计算机设备根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音编码模型和语音解码模型。

在一种可能实现方式中，该第一判别结果为第一判别概率，该第一判别概率用于表示目标语音数据不是调用语音解码模型生成的语音数据的概率。计算机设备根据样本语音数据与目标语音数据之间的差异以及第一判别概率，更新语音编码模型的网络参数和语音解码模型的网络参数，以使样本语音数据与目标语音数据之间的差异越来越小，且第一判别概率越来越大，从而提高语音编码模型和语音解码模型的准确性。

在一种可能实现方式中，计算机设备对语音编码模型的网络参数、语音解码模型的网络参数以及码本集合中的码本特征向量进行联合训练。则计算机设备还获取上述步骤601中得到的第二语音特征，根据样本语音数据与目标语音数据之间的差异、第一判别结果以及多个语音特征向量与多个码本特征向量之间的差异，更新语音编码模型的网络参数、语音解码模型的网络参数以及码本集合中的码本特征向量。

其中，多个语音特征向量即为第二语音特征，多个码本特征向量即为码本集合，码本集合用于对第二语音特征进行量化，量化后的样本语音特征与第二语音特征之间的相似度越高，则量化后的样本语音特征越准确。由于量化后的样本语音特征中的目标特征向量均为码本集合中的码本特征向量，因此为了提高量化后的样本语音特征与第二语音特征之间的相似度，需要提高码本集合与第二语音特征之间的相似度。则计算机设备可以根据第二语音特征与码本集合之间的差异，更新码本集合中的码本特征向量，以使第二语音特征与码本集合之间的差异越来越小，从而提高量化过程的准确性。

在一种可能实现方式中，计算机设备调用语音判别模型，对样本语音数据进行判别，得到第二判别结果，第二判别结果用于表示样本语音数据是否是调用语音解码模型生成的。计算机设备根据第一判别结果和第二判别结果，训练语音判别模型。其中，目标语音数据为伪造的语音数据，样本语音数据为真实的语音数据。如果第一判别结果表示目标语音数据是调用语音解码模型生成的，第二判别结果表示样本语音数据不是调用语音解码模型生成的，则说明语音判别结果能够准确判别语音数据是否是调用语音解码模型生成的。如果第一判别结果表示目标语音数据不是调用语音解码模型生成的，或者第二判别结果表示样本语音数据是调用语音解码模型生成的，则说明语音判别结果无法准确判别语音数据是否是调用语音解码模型生成的。因此计算机设备可以根据第一判别结果和第二判别结果，训练语音判别模型，以使语音判别模型能够准确判别语音数据是否是调用语音解码模型生成的。可选地，第一判别结果为第一判别概率，第一判别概率用于表示目标语音数据不是调用语音解码模型生成的语音数据的概率，第二判别结果为第二判别概率，第二判别概率用于表示样本语音数据不是调用语音解码模型生成的语音数据的概率，则计算机设备根据第一判别概率和第二判别概率，更新语音判别模型的网络参数，以使第一判别概率越来越小，第二判别概率越来越大，从而提高语音判别模型的准确性。

在训练过程中，语音判别模型的准确性越高，则对语音编码模型和语音解码模型的准确性的要求越高，从而促使不断提高语音编码模型和语音解码模型的准确性，而语音编码模型和语音解码模型的准确性越高，则对语音判别模型的准确性的要求越高，从而促使不断提高语音判别模型的准确性，由此形成相互对抗的良性循环，使训练得到的语音编码模型和语音解码模型的准确性越来越高。本申请实施例提出使用对抗训练的方式来提高低码率情形下语音编解码的效果，基于上述语音编码模型和语音解码模型，额外构建了一个语音判别模型，来建模语音数据的分布特性，从而提升语音编解码的质量。

可选地，计算机设备采用以下公式，获取第一损失值，根据第一损失值更新语音判别模型的网络参数。

其中，L_D表示第一损失值，D_k(·)表示调用语音判别模型进行判别，

表示数学期望，x表示样本语音数据，G(x)表示目标语音数据，G(·)表示调用语音编码模型和语音解码模型进行编解码。

在另一种可能实现方式中，计算机设备根据样本语音数据与目标语音数据之间的差异、第一判别结果以及第一判别结果与第二判别结果之间的差异，训练语音编码模型和语音解码模型。

目标语音数据为根据样本语音特征生成的语音数据，实际上是伪造的语音数据，而不是真实的语音数据，样本语音数据为真实的语音数据。其中，语音判别模型对样本语音数据和目标语音数据分别进行判别所得到的第一判别结果与第二判别结果之间的差异越小，目标语音数据与样本语音数据之间的差异越小，也即是目标语音数据越准确。因此，计算机设备还可以根据第一判别结果与第二判别结果之间的差异，训练语音编码模型和语音解码模型，以使第一判别结果与第二判别结果之间的差异越来越小，从而提高语音编码模型和语音解码模型的准确性。

可选地，计算机设备采用以下公式，获取目标损失值，根据目标损失值更新语音编码模型的网络参数、语音解码模型的网络参数以及码本集合中的码本特征向量。

L＝λ₁L_G+λ₂L_mel+λ₃L_F+λ₄L_vqvae；

其中，L表示目标损失值，λ₁、λ₂、λ₃和λ₄表示各个损失值对应的权重参数，L_G表示第二损失值，L_mel表示第三损失值，L_F表示第四损失值，L_vqvae表示第五损失值。

第二损失值的公式如下：

其中，N表示语音判别模型的个数，k表示当前语音判别模型在多个语音判别模型中的序号，x表示样本语音数据，G(x)表示目标语音数据，G(·)表示调用语音编码模型和语音解码模型进行编解码，D_k(G(x))表示第一判别结果，D_k(·)表示调用语音判别模型进行判别，

表示数学期望。

第三损失值的公式如下：

其中，f(·)表示梅尔谱的提取过程，x表示样本语音数据，

表示目标语音数据，||·||₂表示二范数。

第四损失值的公式如下：

其中，

表示第k个语音判别模型中第i层网络的输出，N表示语音判别模型的个数，T表示语音判别模型中的网络的层数，x表示样本语音数据，G(x)表示目标语音数据，

表示数学期望。

第五损失值的公式如下：

其中，x表示样本语音数据，

表示目标语音数据，h表示多个语音特征向量，e表示多个码本特征向量，β表示权重系数，sg[·]为梯度截断操作，||·||₂表示二范数。

需要说明的是，上述步骤601-606仅以一次迭代过程为例进行说明，在训练语音编码模型和语音解码模型的过程中，需要进行多次迭代。在一种可能实现方式中，响应于迭代伦次达到第一阈值，停止对该语音编码模型和语音解码模型进行训练；或者，响应于当前迭代轮次得到的损失值不大于第二阈值，停止对语音编码模型和语音解码模型进行训练。其中，第一阈值和第二阈值均为任意的数值，例如，第一阈值为10或15等，第二阈值为0.4或0.3等。

本申请实施例中，语音编码模型和语音解码模型的目标是在发送端设备将语音数据以一定码率进行压缩，而后通过网络传输到接收端设备进行解码，从而还原出语音数据。如果能够将语音数据以极低码率进行压缩，并且在接收端设备能够保证语音数据的质量，就能够减少网络的传输开销。本申请实施例使用语音编码模型将语音数据压缩到离散的码本特征向量中，然后通过语音解码模型从离散的码本特征向量中还原语音数据，并且使用对抗训练的方式提高还原语音数据的质量。

并且，调用量化网络对编码网络输出的第二语音数据进行量化处理，样本语音特征，由于该样本语音特征为量化后的语音特征，因此完成了对第二语音特征的降维和压缩，从而降低了语音特征的维度，有利于提高语音特征的传输效率。

并且，相比于第二语音特征，该样本语音特征损失了部分信息量，为了补偿由于量化处理所损失的信息量，调用特征提取网络，对样本语音特征进行特征提取，从而学习样本语音特征的多个目标特征向量之间的相关性，进而保证解码过程的准确性。

并且，并行地对多个采样点进行编码以及并行地对多个目标特征向量进行解码，实现了同时对多个信息进行处理，有利于提高语音编码和语音解码的处理效率。

并且，在训练过程中，语音判别模型的准确性越高，则对语音编码模型和语音解码模型的准确性的要求越高，从而促使不断提高语音编码模型和语音解码模型的准确性，而语音编码模型和语音解码模型的准确性越高，则对语音判别模型的准确性的要求越高，从而促使不断提高语音判别模型的准确性，由此形成相互对抗的良性循环，使训练得到的语音编码模型和语音解码模型的准确性越来越高。

上述图5和图6的实施例中所训练的语音编码模型和语音解码模型可应用于语音数据传输的任务中，语音编码模型和语音解码模型的使用过程详见下述图7的实施例。

图7是本申请实施例提供的一种语音数据处理方法的流程图。本申请实施例的交互主体为第一设备和第二设备，参见图7，该方法包括：

701、第一设备调用语音编码模型，对语音数据进行编码，得到第一语音特征。

本申请实施例中的第一设备和第二设备为任一设备，第一设备与第二设备之间能够进行语音数据的传输。在本申请实施例中，以第一设备为语音数据的发送端设备，第二设备为语音数据的接收端设备为例进行说明。其中，第一设备中存储有上述图6的实施例中所训练的语音编码模型，第二设备中存储有上述图6的实施例中所训练的语音解码模型，该语音编码模型与语音解码模型是基于相同的样本语音数据进行对抗训练得到的。

第一设备获取语音数据，可选地，该语音数据为用户输入的语音数据，或者为第一设备中已存储的语音数据，第一设备调用语音编码模型，对语音数据进行编码，得到第一语音特征，该第一语音特征用于描述语音数据的特征。

其中，该步骤701与上述步骤601-602同理，在此不再一一赘述。

702、第一设备向第二设备发送第一语音特征。

第一设备获取到第一语音特征后，向第二设备发送该第一语音特征，第二设备用于调用语音解码模型，对第一语音特征进行解码，得到语音数据。

703、第二设备接收第一设备发送的第一语音特征。

在一种可能实现方式中，第一设备和第二设备中存储有码本集合。与上述步骤601-602中的样本语音特征相同，该第一语音特征是利用码本集合进行量化得到的，该第一语音特征包括多个语音特征向量，该多个语音特征向量为码本集合中的码本特征向量，则第一设备确定每个语音特征向量的索引值，语音特征向量的索引值用于表示在语音特征向量在码本集合中的排列顺序。第一设备向第二设备发送该多个语音特征向量的索引值。

则第二设备接收第一设备发送的多个索引值，根据该多个索引值，在码本集合中搜索与多个索引值匹配的语音特征向量，将搜素到的多个语音特征向量确定为第一语音特征。

704、第二设备调用语音解码模型，对第一语音特征进行解码，得到语音数据。

第二设备获取到第一语音特征，则调用语音解码模型，对第一语音特征进行解码，得到语音数据。在本申请实施例中，输入至语音编码模型中的语音数据是原始的语音数据，语音解码模型输出的语音数据是对语音数据进行编码再解码所得到的语音数据。

其中，该步骤704与上述步骤603-604同理，在此不再一一赘述。

本申请实施例中，该语音编码模型与语音解码模型是基于相同的样本语音数据进行对抗训练得到的，因此语音编码模型能够学习到还原语音数据所依据的语音特征，语音解码模型也能够学习到如何根据语音编码模型所学习到的语音特征，来还原语音数据，有利于提高语音编码模型和语音解码模型的准确性，并且对抗训练的方式，能够进一步提高语音编码模型和语音解码模型的准确性，从而保证第一设备与第二设备之间进行语音数据传输的质量。

以16kHz、16bit采样的语音数据为例，当语音数据的长度为一秒时，该语音数据总共含有16000个采样点。如果不经任何压缩传输该语音数据，则计该语音数据需要使用16000*16＝256000bit表示，也即传输256000bit，此时的传输码率为256kb/s。而采用本申请实施例提供的方法，首先调用语音编码模型中的编码网络将语音数据下采样64倍，也即将[16000,1]的语音数据压缩为[250,D]的语音特征。由于维度D较大，因此使用量化网络进行量化处理。其中码本集合的大小为[256,D]，也即语音特征中的每一个语音特征向量，都可以用码本集合中的某一个码本特征向量代替。而对于[256,D]大小的码本集合来讲，可以用唯一索引值来表示一个码本特征向量，此时传输码率与维度D无关。也即可以用0来表示第一个码本特征向量，255来表示最后一个码本特征向量。转化为二进制来讲，由于2⁸＝256，因此只需要8bit就能表示所有的码本特征向量，从而能够实现以比特流的方式来传输语音数据。此时，对于上述一秒的语音数据所对应的[250,D]的语音特征，只需要256个索引就能表示该语音数据。

为了验证本申请实施例提供的语音数据处理方法，在真实的录音数据集上进行了验证，来衡量了不同模型的处理效果，并比较了相关技术中的Opus语音编解码器和Speex语音编解码器在低码率下的效果。本申请实施例提供的不同模型的配置如下：

模型A：下采样64倍，码本特征向量的数量为512，码率为2.25kb/s；

模型B：下采样64倍，码本特征向量的数量为256，码率为2kb/s；

模型C：下采样128倍，码本特征向量的数量为256，码率为1kb/s；

模型D：下采样256倍，码本特征向量的数量为256，码率为0.5kb/s。

首先衡量模型的客观指标PESQ(Perceptual evaluation of speech quality，语音质量感知评估)，PESQ越高模型的处理效果越好。结果如下述表1所示：

表1

模型	码率(b/s)	语音质量感知评价(PESQ)
			Speex	4000	1.57
Opus	4000	1.12
			Opus	6000	1.29
模型A	2250	2.09
			模型B	2000	2.13
模型C	1000	1.63
			模型D	500	1.30

从表1可以看出，本申请实施例提出的语音编码模型和语音解码模型，在1kb/s码率的情况下就已经超过了相关技术中的语音编解码器在4kb/s下的效果。而在2kb/s码率的情况下，本申请实施例提出的语音编码模型和语音解码模型要显著优于相关技术中的语音编解码器。

而为了进一步衡量本申请实施例提出的模型的效果，组织了主管测听来对不同模型所还原的语音数据的质量进行MUSHRA(Multi-Stimulus Test with Hidden Referenceand Anchor，多激励隐藏参考基准测试方法)打分，满分为100分，结果如图8所示。从图8可以发现，不经过压缩的语音数据的得分为92分，而本申请实施例提出的模型，在2kb/s码率的压缩条件下，所还原的语音数据的分数接近90分，这意味着本申请实施例提出的模型能够以极低的码率压缩语音数据，能够很好的还原出语音数据。而相关技术中的语音编解码器在4kb/s和6kb/s码率压缩下的得分只有不到30分，这意味着相关技术中的语音编解码器在低码率压缩的情况下会极大地损失语音数据的质量，甚至损伤了语音数据的可懂度。

此外，由于相关技术中的语音编解码器是基于信号处理的方式进行压缩还原，而本申请实施例提出的模型是基于神经网络的生成式模型。因此，还衡量了不同模型对说话人的鲁棒性。在说话人鲁棒性测试中，让测听者根据语音数据对不同方法的还原结果进行说话人音色相似度MOS(Mean opinion score，主观平均分数)打分，取值范围为0-5，其中reference表示的是同一个说话人不同语音数据的打分结果，结果如下述表2所示：

表2

模型	码率(b/s)	MOS得分
			Reference	256000	3.797±0.260
Speex	4000	2.196±0.239
			Opus	6000	2.096±1.433
模型A	2250	3.323±0.315
			模型B	2000	3.408±0.284
模型C	1000	3.131±0.299
			模型D	500	2.436±0.317

从表2中可以发现，在本申请实施例提出的模型中，对于没有见过的说话人，在2kb/s的压缩码率下，模型B能够得到3.408的得分，最接近真实语音数据的得分3.797，并显著优于相关技术中的语音编解码器在低码率下的还原效果。

图9是本申请实施例提供的一种语音数据处理装置的结构示意图。参见图9，该装置包括：

编码模块901，用于调用语音编码模型，对样本语音数据进行编码，得到样本语音特征；

解码模块902，用于调用语音解码模型，对样本语音特征进行解码，得到目标语音数据；

判别模块903，用于调用语音判别模型，对目标语音数据进行判别，得到第一判别结果，第一判别结果用于表示目标语音数据是否是调用语音解码模型生成的；

模型训练模块904，用于根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音编码模型和语音解码模型。

本申请实施例提供的语音数据处理装置，利用样本语音数据联合训练语音编码模型和语音解码模型，使语音编码模型能够学习到还原语音数据所依据的语音特征，也使语音解码模型能够学习到如何根据语音编码模型所学习到的语音特征，来还原语音数据，并且在训练过程中采用语音判别模型，对语音编码模型和语音解码模型进行对抗训练，来提高语音编码模型和语音解码模型的准确性，从而保证对语音数据的处理效果。

可选地，参见图10，编码模块901，包括：

编码单元911，用于调用语音编码模型中的编码网络，对样本语音数据进行编码，得到第二语音特征；

量化单元921，用于调用语音编码模型中的量化网络，对第二语音特征进行量化处理，得到样本语音特征。

可选地，参见图10，样本语音数据包括多个采样点，编码网络包括多个下采样层，编码单元911，用于：

调用多个下采样层，对多个采样点进行下采样，得到包括多个语音特征向量的第二语音特征。

可选地，参见图10，量化单元921，用于：

调用量化网络，在码本集合中搜索每个语音特征向量对应的目标特征向量，语音特征向量对应的目标特征向量是指码本集合中与语音特征向量相似度最高的码本特征向量，码本集合包括多个码本特征向量；

将搜索到的多个目标特征向量，确定为样本语音特征。

可选地，参见图10，模型训练模块904，包括：

第一训练单元914，用于根据样本语音数据与目标语音数据之间的差异、第一判别结果以及多个语音特征向量与多个码本特征向量之间的差异，更新语音编码模型的网络参数、语音解码模型的网络参数以及码本集合中的码本特征向量。

可选地，参见图10，编码网络包括m个编码层，m为大于1的整数，编码单元911，用于：

调用第k个编码层，对样本语音数据进行编码，得到第k个编码语音特征，k为小于m的正整数；

继续调用第k个编码层的下一个编码层，对第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的第二语音特征。

可选地，参见图10，样本语音特征包括多个目标特征向量，解码模块902，包括：

特征提取单元912，用于调用语音解码模型中的特征提取网络，对样本语音特征进行特征提取，得到上下文特征，上下文特征表示样本语音特征中的多个目标特征向量之间的相关性；

解码单元922，用于调用语音解码模型中的解码网络，对上下文特征进行解码，得到目标语音数据。

可选地，参见图10，解码单元922，用于：

调用解码网络，对上下文特征进行解码，得到具有目标特征的目标语音数据，目标特征用于描述未进行编码的语音数据应满足的特征。

可选地，参见图10，解码网络包括n个解码层，n为大于1的整数，解码单元922，用于：

调用第h个解码层，对上下文特征进行解码，得到第h个解码语音特征，h为小于n的正整数；

继续调用第h个解码层中的下一个解码层，对第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的目标语音数据。

可选地，参见图10，样本语音数据包括多个采样点，编码模块901，包括：

并行编码单元931，用于调用语音编码模型，并行地对多个采样点进行编码，得到包括多个目标特征向量的样本语音特征；

解码模块902，包括：

并行解码单元932，用于调用语音解码模型，并行地对多个目标特征向量进行解码，得到目标语音数据。

可选地，参见图10，判别模块903，还用于调用语音判别模型，对样本语音数据进行判别，得到第二判别结果，第二判别结果用于表示样本语音数据是否是调用语音解码模型生成的；

模型训练模块904，还用于根据第一判别结果和第二判别结果，训练语音判别模型。

可选地，参见图10，模型训练模块904，包括：

第二训练单元924，用于根据样本语音数据与目标语音数据之间的差异、第一判别结果以及第一判别结果与第二判别结果之间的差异，训练语音编码模型和语音解码模型。

可选地，语音判别模型的数量为多个，每个语音判别模型对应的尺度不同，判别模块903，包括：

池化单元913，用于根据多个语音判别模型对应的尺度，分别对目标语音数据进行池化处理，得到多个不同尺度的第一语音数据；

判别单元923，用于分别调用每个语音判别模型，对与语音判别模型的尺度相同的第一语音数据进行判别，得到多个第一判别结果。

需要说明的是：上述实施例提供的语音数据处理装置在处理语音数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音数据处理装置与语音数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种语音数据处理装置的结构示意图。参见图11，该装置包括：

编码模块1101，用于调用语音编码模型，对语音数据进行编码，得到第一语音特征；

特征发送模块1102，用于向第二设备发送第一语音特征，第二设备用于调用语音解码模型，对第一语音特征进行解码，得到语音数据；

其中，语音编码模型与语音解码模型是基于相同的样本语音数据进行对抗训练得到的。

本申请实施例提供的语音数据处理装置，该语音编码模型与语音解码模型是基于相同的样本语音数据进行对抗训练得到的，因此语音编码模型能够学习到还原语音数据所依据的语音特征，语音解码模型能够学习到如何根据语音编码模型学习到的语音特征还原语音数据，有利于提高语音编码模型和语音解码模型的准确性，并且对抗训练的方式，能够进一步提高语音编码模型和语音解码模型的准确性，从而保证第一设备与第二设备之间进行语音数据传输的质量。

需要说明的是：上述实施例提供的语音数据处理装置在处理语音数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将第一设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音数据处理装置与语音数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12是本申请实施例提供的一种语音数据处理装置的结构示意图。参见图12，该装置包括：

特征接收模块1201，用于接收第一设备发送的第一语音特征，第一语音特征是调用语音编码模型对语音数据进行编码得到的；

解码模块1202，用于调用语音解码模型，对第一语音特征进行解码，得到语音数据；

本申请实施例提供的语音数据处理装置，该语音编码模型与语音解码模型是基于相同的样本语音数据进行对抗训练得到的，因此语音编码模型能够学习到还原语音数据所依据的语音特征，语音解码模型能够学习到如何根据语音编码模型所学习到的语音特征，来还原语音数据，有利于提高语音编码模型和语音解码模型的准确性，并且对抗训练的方式，能够进一步提高语音编码模型和语音解码模型的准确性，从而保证第一设备与第二设备之间进行语音数据传输的质量。

需要说明的是：上述实施例提供的语音数据处理装置在处理语音数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将第二设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音数据处理装置与语音数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音数据处理方法中所执行的操作。

可选地，该计算机设备提供为终端。图13示出了本申请一个示例性实施例提供的终端1300的结构示意图。

终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有GPU(Graphics Processing Unit，图像处理的交互器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1301所具有以实现本申请中方法实施例提供的语音数据处理方法。

在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。可选地，外围设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置在终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端1300的前面板，后置摄像头设置在终端1300的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位终端1300的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1308可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时，由处理器1301根据用户对显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商标志集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1313采集的环境光强度，控制显示屏1305的显示亮度。可选地，当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图14是本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1401和一个或一个以上的存储器1402，其中，所述存储器1402中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音数据处理方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备实现如上述实施例的语音数据处理方法中所执行的操作。在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

调用语音编码模型，对样本语音数据进行编码，得到样本语音特征；

调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，所述第一判别结果用于表示所述目标语音数据是否是调用所述语音解码模型生成的；

2.根据权利要求1所述的方法，其特征在于，所述调用语音编码模型，对样本语音数据进行编码，得到样本语音特征，包括：

调用所述语音编码模型中的编码网络，对所述样本语音数据进行编码，得到第二语音特征；

调用所述语音编码模型中的量化网络，对所述第二语音特征进行量化处理，得到所述样本语音特征。

3.根据权利要求2所述的方法，其特征在于，所述样本语音数据包括多个采样点，所述编码网络包括多个下采样层，所述调用所述语音编码模型中的编码网络，对所述样本语音数据进行编码，得到第二语音特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述调用所述语音编码模型中的量化网络，对所述第二语音特征进行量化处理，得到所述样本语音特征，包括：

将搜索到的多个目标特征向量，确定为所述样本语音特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音编码模型和所述语音解码模型，包括：

根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述多个语音特征向量与所述多个码本特征向量之间的差异，更新所述语音编码模型的网络参数、所述语音解码模型的网络参数以及所述码本集合中的码本特征向量。

6.根据权利要求1所述的方法，其特征在于，所述样本语音特征包括多个目标特征向量，所述调用语音解码模型，对所述样本语音特征进行解码，得到目标语音数据，包括：

调用所述语音解码模型中的特征提取网络，对所述样本语音特征进行特征提取，得到上下文特征，所述上下文特征表示所述样本语音特征中的多个目标特征向量之间的相关性；

调用所述语音解码模型中的解码网络，对所述上下文特征进行解码，得到所述目标语音数据。

7.根据权利要求1所述的方法，其特征在于，所述样本语音数据包括多个采样点，所述调用语音编码模型，对样本语音数据进行编码，得到样本语音特征，包括：

调用所述语音编码模型，并行地对所述多个采样点进行编码，得到包括多个目标特征向量的样本语音特征；

所述调用语音解码模型，对所述样本语音特征进行解码，得到目标语音数据，包括：

调用所述语音解码模型，并行地对所述多个目标特征向量进行解码，得到所述目标语音数据。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

调用所述语音判别模型，对所述样本语音数据进行判别，得到第二判别结果，所述第二判别结果用于表示所述样本语音数据是否是调用所述语音解码模型生成的；

根据所述第一判别结果和所述第二判别结果，训练所述语音判别模型。

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音编码模型和所述语音解码模型，包括：

根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述第一判别结果与所述第二判别结果之间的差异，训练所述语音编码模型和所述语音解码模型。

10.根据权利要求1所述的方法，其特征在于，所述语音判别模型的数量为多个，每个语音判别模型对应的尺度不同，所述调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，包括：

根据多个语音判别模型对应的尺度，分别对所述目标语音数据进行池化处理，得到多个不同尺度的第一语音数据；

分别调用每个语音判别模型，对与所述语音判别模型的尺度相同的第一语音数据进行判别，得到多个所述第一判别结果。

11.一种语音数据处理方法，其特征在于，所述方法包括：

12.一种语音数据处理方法，其特征在于，所述方法包括：

13.一种语音数据处理装置，其特征在于，所述装置包括：

14.一种语音数据处理装置，其特征在于，所述装置包括：

15.一种语音数据处理装置，其特征在于，所述装置包括：

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至10任一项所述的语音数据处理方法中所执行的操作，或者实现如权利要求11所述的语音数据处理方法中所执行的操作，或者实现如权利要求12所述的语音数据处理方法中所执行的操作。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至10任一项所述的语音数据处理方法中所执行的操作，或者实现如权利要求11所述的语音数据处理方法中所执行的操作，或者实现如权利要求12所述的语音数据处理方法中所执行的操作。