CN113823296A

CN113823296A - 语音数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113823296A
Application number: CN202110660920.6A
Authority: CN
Inventors: 阳珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-12-21

Abstract

本申请实施例公开了一种语音数据处理方法、装置、计算机设备及存储介质，属于计算机技术领域。该方法包括：获取有损语音数据和有损语音数据对应的样本语音数据，有损语音数据是对样本语音数据进行压缩所得到的；调用语音处理模型，对有损语音数据进行编码得到语音特征，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据；根据样本语音数据与目标语音数据之间的差异，训练语音处理模型。利用有损语音数据和样本语音数据训练语音处理模型，能够使语音处理模型学习到进行语音还原时所需依据的特征，从而提供一种基于语音处理模型来修复语音数据的方式，能够提高语音数据的处理效果。

Description

语音数据处理方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种语音数据处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术和网络技术的发展，不同计算机设备之间能够进行语音数据的传输。为了提高传输效率，通常由发送端将语音数据以较低的码率进行压缩，然后向接收端发送压缩后的语音数据。但是压缩语音数据会造成语音数据的质量下降，导致接收端接收到的是有损语音数据。

为了解决上述问题，接收端可以对接收到的有损语音数据进行滤波处理，从而在频域上提取语音数据的频谱特征，然后根据频谱特征来还原得到无损语音数据，但是语音还原的效果仍然不够好。

发明内容

本申请实施例提供了一种语音数据处理方法、装置、计算机设备及存储介质，能够提高语音数据处理的效果。所述技术方案如下：

一方面，提供了一种语音数据处理方法，所述方法包括：

获取有损语音数据和所述有损语音数据对应的样本语音数据，所述有损语音数据是对所述样本语音数据进行压缩所得到的；

调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，所述质量参数表征语音数据的质量损失程度；

根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型。

另一方面，提供了一种语音数据处理装置，所述装置包括：

数据获取模块，用于获取有损语音数据和所述有损语音数据对应的样本语音数据，所述有损语音数据是对所述样本语音数据进行压缩所得到的；

语音处理模块，用于调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，所述质量参数表征语音数据的质量损失程度；

模型训练模块，用于根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型。

可选地，所述语音处理模型包括编码网络和解码网络，所述编码网络包括m个编码层，所述解码网络包括n个解码层，所述m和所述n为大于1的整数，所述语音处理模块，包括：

编码单元，用于调用第k个编码层，对所述有损语音数据进行编码，得到第k个编码语音特征，所述k为小于所述m的正整数；

所述编码单元，还用于继续调用所述第k个编码层的下一个编码层，对所述第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的所述语音特征；

解码单元，用于调用第h个解码层，对所述语音特征进行解码，得到第h个解码语音特征，所述h为小于所述n的正整数；

所述解码单元，还用于继续调用所述第h个解码层的下一个解码层，对所述第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的所述目标语音数据。

可选地，所述有损语音数据包括多个采样点，所述语音处理模块，包括：

采样点编码单元，用于调用所述语音处理模型，并行地对所述多个采样点进行编码，得到所述语音特征，对所述语音特征进行解码，得到所述目标语音数据。

可选地，所述语音处理模块，包括：

子带划分单元，用于对所述有损语音数据进行子带划分，得到多个有损子带数据，每个有损子带数据所属的频段不同；

子带数据编码单元，用于调用所述语音处理模型，对所述多个有损子带数据进行编码，得到所述语音特征，对所述语音特征进行解码，得到多个目标子带数据；

子带合并单元，用于对所述多个目标子带数据进行子带合并，得到所述目标语音数据。

可选地，所述子带合并单元，用于对所述多个目标子带数据进行子带合并，将子带合并所得到的语音数据进行平滑处理，得到所述目标语音数据。

可选地，所述模型训练模块，包括：

梅尔谱提取单元，用于分别对所述样本语音数据和所述目标语音数据进行梅尔谱提取，得到所述样本语音数据对应的样本梅尔谱特征，以及所述目标语音数据对应的目标梅尔谱特征；

第一训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异，以及所述样本梅尔谱特征与所述目标梅尔谱特征之间的差异，训练所述语音处理模型。

可选地，所述装置还包括：

语音判别模块，用于调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，所述第一判别结果用于表示所述目标语音数据是否是调用所述语音处理模型生成的；

所述模型训练模块，包括：

第二训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音处理模型。

可选地，所述语音判别模块，还用于调用所述语音判别模型，对所述样本语音数据进行判别，得到第二判别结果，所述第二判别结果用于表示所述样本语音数据是否是调用所述语音处理模型生成的；

所述模型训练模块，还用于根据所述第一判别结果和所述第二判别结果，训练所述语音判别模型。

可选地，所述模型训练模块，包括：

第三训练单元，用于根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述第一判别结果与所述第二判别结果之间的差异，训练所述语音处理模型。

可选地，所述语音判别模型包括频域判别模型和时域判别模型，所述第一判别结果包括所述频域判别模型输出的第三判别结果和所述时域判别模型输出的第四判别结果，所述语音判别模块，包括：

频域变换单元，用于对所述目标语音数据进行频域变换，得到频域语音数据；

第一判别单元，用于调用所述频域判别模型，对所述频域语音数据进行判别，得到所述第三判别结果；

第二判别单元，用于调用所述时域判别模型，对所述目标语音数据进行判别，得到所述第四判别结果。

可选地，所述语音处理模块，还用于调用训练后的所述语音处理模型，对任一语音数据进行编码得到第一语音特征，对所述第一语音特征进行解码，得到质量参数高于所述任一语音数据的语音数据。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行以实现如上述方面所述的语音数据处理方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如上述方面所述的语音数据处理方法中所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取所述计算机程序代码，处理器执行所述计算机程序代码，使得所述计算机设备实现如上述方面所述的语音数据处理方法中所执行的操作。

本申请实施例提供的方法、装置、计算机设备及存储介质，利用有损语音数据和对应的样本语音数据训练语音处理模型，该样本语音数据为压缩前的无损语音数据，该有损语音数据为压缩后的有损语音数据，因此能够使语音处理模型学习到进行语音还原时所需依据的特征，从而提供一种基于语音处理模型来修复语音数据的方式，能够提高语音数据的处理效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图。

图2是本申请实施例提供的一种语音处理模型的结构示意图。

图3是本申请实施例提供的一种语音处理模型的结构示意图。

图4是本申请实施例提供的一种残差卷积的结构示意图。

图5是本申请实施例提供的一种语音数据处理方法的流程图。

图6是本申请实施例提供的一种语音数据处理方法的流程图。

图7是本申请实施例提供的一种频域判别模型的结构示意图。

图8是本申请实施例提供的一种时域判别模型的结构示意图。

图9是本申请实施例提供的一种语音数据处理结果的示意图。

图10是本申请实施例提供的另一种语音数据处理结果的示意图。

图11是本申请实施例提供的一种语音数据处理装置的结构示意图。

图12是本申请实施例提供的另一种语音数据处理装置的结构示意图。

图13是本申请实施例提供的一种终端的结构示意图。

图14是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一编码层称为第二编码层，且类似地，可将第二编码层称为第一编码层。

其中，至少一个是指一个或者一个以上，例如，至少一个采样点可以是一个采样点、两个采样点、三个采样点等任一大于等于一的整数个采样点。多个是指两个或者两个以上，例如，多个采样点可以是两个采样点、三个采样点等任一大于等于二的整数个采样点。每个是指至少一个中的每一个，例如，每个采样点是指多个采样点中的每一个采样点，若多个采样点为3个采样点，则每个采样点是指3个采样点中的每一个采样点。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括自然语言处理技术和机器学习。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和语音合成技术(TTS，TextToSpeech)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

以下将基于人工智能技术和语音技术，对本申请实施例提供的语音数据处理方法进行说明。

本申请实施例提供的语音数据处理方法，能够用于计算机设备中。可选地，该计算机设备为终端或服务器。可选地，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

在一种可能实现方式中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备能够组成区块链系统。

在一种可能实现方式中，本申请实施例中用于训练语音处理模型的计算机设备是区块链系统中的节点，该节点能够将训练的语音处理模型存储在区块链中，之后该节点或者该区块链中的其他设备对应的节点可基于该语音处理模型进行语音数据的处理。

图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：终端101和服务器102。终端101和服务器102之间通过无线或有线网络连接。可选地，服务器102用于采用本申请实施例提供的方法，训练语音处理模型，该语音处理模型用于对语音数据进行处理，还原出更高质量的语音数据。服务器102将训练好的语音处理模型发送给终端101，终端101即可调用该语音处理模型，对语音数据进行处理，得到处理后的语音数据。

在一种可能实现方式中，终端101中运行有该服务器提供的应用客户端，服务器102将训练好的语音处理模型存储于该应用客户端中，该应用客户端具有语音传输以及语音处理等功能。终端101基于该应用客户端，调用语音处理模型，对语音数据进行处理，得到处理后的语音数据。

需要说明的是，图1中仅以服务器102训练语音处理模型并发送给终端101为例进行说明，在另一实施例中，还可以由终端101直接训练语音处理模型。

本申请实施例提供的语音数据处理方法，可应用于任一处理语音数据的场景下。

传输语音数据的场景，例如语音通话场景、视频通话场景、语音会议场景以及视频会议场景等。第一终端采集原始语音数据，为了提高语音数据的传输效率，第一终端对原始语音数据进行编码，向第二终端发送编码得到的语音特征。第二终端对接收到的语音特征进行解码，得到有损语音数据，相比于原始语音数据，该有损语音数据损失了部分信息量，则第二终端调用语音处理模型，对该有损语音数据进行处理，来还原出目标语音数据，相比于有损语音数据，通过这种处理所还原出的该目标语音数据的质量更高。

图2是本申请实施例提供的一种语音处理模型的结构示意图，参见图2，该语音处理模型包括编码网络201和解码网络202。其中，编码网络201用于对语音数据进行编码得到语音特征，解码网络202用于对语音特征进行解码得到语音数据。可选地，编码网络201包括多个编码层211，多个编码层211中每两个相邻的编码层211相互连接，每个编码层211的网络结构相同但网络参数不同，该多个编码层211能够提取语音数据的深层次的特征。可选地，解码网络202包括多个解码层212，多个解码层212中每两个相邻的解码层212相互连接，每个解码层212的网络结构相同但网络参数不同，该多个解码层212能够对深层次的特征进行解码。

在一种可能实现方式中，语音处理模型的结构示意图如图3所示。语音处理模型的编码网络201包括N个编码层211，N为大于1的整数，N个编码层211中每两个相邻的编码层211相互连接，编码层211的输出作为下一个编码层211的输入，将最后一个编码层211的输出作为编码网络201的输出。其中，每个编码层211包括一个下采样卷积和多个并联的残差卷积，每个编码层211的输出为多个残差卷积的输出之和。语音处理模型的解码网络202包括N个解码层212，N个解码层212中每两个相邻的解码层212相互连接，解码层212的输出作为下一个解码层212的输入，将最后一个解码层212的输出作为解码网络202的输出。其中，每个解码层212包括一个上采样卷积和多个并联的残差卷积，每个解码层212输出为多个残差卷积的输出之和。可选地，该语音处理模型中还包括多个一维卷积的网络结构。可选地，残差卷积的结构示意图如图4所示，每个残差卷积是由3组膨胀卷积和一维卷积构成的。

语音处理模型的作用是对接收端设备解码出来的语音数据进行处理，以还原出质量更高的语音数据。本申请实施例通过训练语音处理模型，来提供一种基于语音处理模型的语音数据处理方法。其中，该语音处理模型的训练过程详见下述图5和图6的实施例。

图5是本申请实施例提供的一种语音数据处理方法的流程图。本申请实施例的执行主体为计算机设备，可选地，该计算机设备为上述图1的实施例中的终端或者服务器。参见图5，该方法包括：

501、计算机设备获取有损语音数据和有损语音数据对应的样本语音数据。

为了训练语音处理模型，计算机设备先获取样本训练集，该样本数据集包括多个有损语音数据和有损语音数据对应的样本语音数据。基于样本训练集训练语音处理模型的过程包括多次迭代过程，在每次迭代过程中，基于一对有损语音数据和有损语音数据对应的样本语音数据来进行训练。需要说明的是，本申请实施例中的步骤501-503仅以一次迭代过程为例进行说明。

其中，有损语音数据是对样本语音数据进行压缩所得到的，压缩包括编码和/或量化等处理，由于压缩的过程会损失语音数据中的部分信息量，因此该样本语音数据可以看作是原始的无损语音数据，有损语音数据可以看作是压缩后的有损语音数据。

502、计算机设备调用语音处理模型，对有损语音数据进行编码得到语音特征，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据。

计算机设备中存储有语音处理模型，该语音处理模型的结构详见上述图2-4的实施例。计算机设备获取样本数据集中的有损语音数据及对应的样本语音数据，调用语音处理模型对有损语音数据进行编码得到语音特征，该语音特征用于描述有损语音数据的特征。计算机设备调用语音处理模型，继续对该语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据，质量参数表征语音数据的质量损失程度，质量参数与语音数据的质量损失程度负相关。

503、计算机设备根据样本语音数据与目标语音数据之间的差异，训练语音处理模型。

由于语音处理模型的目标是对有损语音数据进行处理，以使处理得到的目标语音数据更接近样本语音数据，从而提高语音数据的质量。因此目标语音数据与样本语音数据越相似，该语音处理模型越准确。则计算机设备根据样本语音数据与目标语音数据之间的差异，训练语音处理模型，以提高语音处理模型的处理能力，从而提高语音处理模型的准确性。

本申请实施例提供的方法，利用有损语音数据和对应的样本语音数据训练语音处理模型，该样本语音数据为压缩前的无损语音数据，该有损语音数据为压缩后的有损语音数据，因此能够使语音处理模型学习到进行语音还原时所需依据的特征，从而提供一种基于语音处理模型来修复语音数据的方式，能够提高语音数据的处理效果。

图6是本申请实施例提供的一种语音数据处理方法的流程图。本申请实施例的执行主体为计算机设备，参见图6，该方法包括：

601、计算机设备获取有损语音数据和有损语音数据对应的样本语音数据。

其中，该步骤601与上述步骤501同理，在此不再一一赘述。

602、计算机设备调用语音处理模型中的编码网络，对有损语音数据进行编码，得到语音特征。

计算机设备中存储有语音处理模型，该语音处理模型的结构详见上述图2-4的实施例。该语音处理模型包括编码网络，编码网络用于对语音数据进行编码得到语音特征，计算机设备获取到有损语音数据后，调用语音处理模型中的编码网络，对样本语音数据进行编码，得到语音特征，该语音特征用于表示该有损语音数据的特征。

在一种可能实现方式中，该语音特征包括语音数据的长时语音特征和短时语音特征，长时语音特征包括语音数据的人声特征等，人声特征属于说话人的信息，短时语音特征包括语音数据的韵律特征和内容特征等。该语音特征为高维的隐层特征，除此之外，语音特征还可以包括其他类型的语音特征，本申请实施例对此不作限定。

在一种可能实现方式中，编码网络包括m个编码层，m为大于1的整数，m个编码层中每两个相邻的编码层之间相互连接。计算机设备调用第k个编码层，对有损语音数据进行编码，得到第k个编码语音特征，k为小于m的正整数；继续调用第k个编码层的下一个编码层，对第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的语音特征。

其中，整个编码网络的输入作为第一个编码层的输入，对于第一个编码层之后的每个编码层，前一个编码层的输出作为当前编码层的输入，最后一个编码层的输出就是整个编码网络的输出，该输出也即是对有损语音数据进行编码所得到的语音特征。

可选地，每个编码层的网络结构相同，但是网络参数不同，例如每个编码层中的残差卷积的卷积核大小不同，该多个编码层为不同尺度的多个编码层，多个编码层的尺度不同是指多个编码层下采样的倍数不同，例如，多个编码层下采样的倍数，按照多个编码层的排列顺序由小到大，从而实现通过不同尺度的多个编码层，由精准到粗略地对语音数据进行编码，能够学习到语音数据中的高维的语音特征，便于后续根据高维的语音特征还原出高质量的语音数据。

603、计算机设备调用语音处理模型中的解码网络，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据。

该语音处理模型还包括解码网络，解码网络用于对语音特征进行解码。计算机设备获取到语音特征后，调用语音处理模型中的解码网络，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据。

其中，该质量参数表征语音数据的质量损失程度，质量参数与语音数据的质量损失程度负相关，语音数据的质量参数越大，则语音数据的质量损失程度越小，语音数据的质量参数越小，则语音数据的损失程度越大。由于有损语音数据是进行压缩后的语音数据，压缩处理导致有损语音数据丢失了一部分特征，本申请实施例中将丢失的这部分特征通过语音处理模型进行建模，并基于这部分特征来确定语音数据的质量参数，在模型的训练阶段，语音处理模型通过不断的训练，来学习如何补充丢失的这部分特征，从而提高语音数据的质量参数，使得目标语音数据的质量参数，越来越接近未进行压缩的语音数据的质量参数，避免计算机设备解码得到的目标语音数据偏离未进行压缩的语音数据所满足的特征。

例如，压缩后的语音数据所丢失的特征属于听觉感知特征，质量参数是基于听觉感知特征确定的，听觉感知特征用于描述人耳对语音数据的感知情况，因此该质量参数能够衡量人耳对语音数据的听觉感知情况。本申请实施例通过对语音特征进行解码，得到具有听觉感知特征的目标语音数据，使得人耳对目标语音数据的听觉感知情况，越来越接近人耳对未进行压缩的语音数据的听觉感知情况，从而提高目标语音数据的质量参数。例如，为了测试人耳对语音数据的感知情况，对语音数据进行MUSHRA(Multi-Stimulus Testwith Hidden Reference and Anchor，多激励隐藏参考基准测试方法)打分，未进行压缩的语音数据的得分为95分，有损语音数据的得分为60分，则调用语音处理模型对有损语音数据进行处理后，得到质量参数高于有损语音数据的目标语音数据，以使目标语音数据的得分接近95分。

在本申请实施例中，样本语音数据是原始的语音数据，有损语音数据是对样本语音数据进行压缩后得到的语音数据，训练语音处理模型的目的即为使语音处理模型输出的目标语音数据越来越接近样本语音数据，从而达到从有损语音数据中还原出样本语音数据的效果，来提高语音处理模型的准确性。

在一种可能实现方式中，解码网络包括n个解码层，n为大于1的整数，n个解码层中每两个相邻的解码层之间相互连接。计算机设备调用第h个解码层，对语音特征进行解码，得到第h个解码语音特征，h为小于n的正整数；继续调用第h个解码层的下一个解码层，对第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的目标语音数据。

其中，整个解码网络的输入作为第一个解码层的输入，对于第一个解码层之后的每个解码层，前一个解码层的输出作为当前解码层的输入，最后一个解码层的输出就是整个解码网络的输出，该输出也即是目标语音数据。

可选地，每个解码层的网络结构相同，但网络参数不同，例如每个解码层中的膨胀卷积的卷积核大小不同，该多个解码层为不同尺度的多个解码层，多个解码层的尺度不同是指多个解码层上采样的倍数不同，例如，多个解码层上采样的倍数，按照多个解码层的排列顺序由小到大，从而实现通过不同尺度的多个解码层，由精准到粗略地对语音数据进行解码，从而还原出高质量的语音数据。

本申请实施例中，有损语音数据为语音处理模型的输入，目标语音数据为语音处理模型的输出，可以将语音处理模型看作是一个端到端的语音处理模型。由于有损语音数据是该端到端的语音处理模型在处理过程中的唯一输入，因此在处理的过程中，该语音处理模型不依赖其他的辅助特征或者语音数据的基频信息等，该语音处理模型具有良好的鲁棒性。

需要说明的是，计算机设备通过执行上述步骤602-603，实现了调用语音处理模型，对有损语音数据进行编码得到语音特征，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据。

在一种可能实现方式中，有损语音数据包括多个采样点。其中，该多个采样点是对连续的语音信号进行采样所得到的采样点，采样点用于表示语音信号在采样位置处的信号强度。计算机设备调用语音处理模型，并行地对多个采样点进行编码，得到语音特征，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据。其中，并行地对多个采样点进行编码是指同时对多个采样点进行编码，同时输出多个目标特征向量。该多个目标特征向量即为语音特征，然后并行地对多个目标特征向量进行解码，也即是同时对多个目标特征向量进行解码，输出目标语音数据，该目标语音数据也包括多个采样点。

可选地，本申请实施例中的语音处理模型为可并行处理的全卷积神经网络结构，相比于相关技术中的自回归方式，本申请实施例提供的并行方式进行语音处理的处理效率更高。并且，还能够避免采用自回归方式导致错误累积的情况，因此可以提高语音处理的准确率。

在一种可能实现方式中，计算机设备对有损语音数据进行子带划分，得到多个有损子带数据，调用语音处理模型，对多个有损子带数据进行编码，得到语音特征，对语音特征进行解码，得到多个目标子带数据，对多个目标子带数据进行子带合并，得到目标语音数据。

每个有损子带数据所属的频段不同，计算机设备将有损语音数据的频率划分为多个频段，每个频段的有损语音数据作为一个有损子带数据。由于本申请实施例将语音数据划分为多个不同的子带数据分别进行处理，能够减少语音数据的时间序列的长度，有利于加快语音处理模型的处理过程，提高语音处理模型的处理效率。

其中，有损子带数据属于时域的数据，有损语音数据包括多个采样点，每个有损子带数据也包括多个采样点。例如，有损语音数据包括16000*1的采样点，也即是16000个1维的采样点，将有损语音数据划分为4个有损子带数据，每个有损子带数据包括4000个1维的采样点。计算机设备将4个有损子带数据合并成矩阵来作为一个整体，调用语音处理模型，对这4个有损子带数据进行编码。可以理解为，4个有损子带数据合并成矩阵后，包括4000*4的采样点，也即是4000个4维的采样点，计算机设备可以采用并行处理的方式，对每个4维的采样点进行处理，从而实现对4个有损子带数据进行处理。

可选地，计算机设备利用PQMF(Pseudo quadratue mirror filter，伪正交镜像滤波器组)对有损语音数据进行子带划分，得到多个有损子带数据。后续还利用PQMF对多个目标子带数据进行子带合并，得到目标语音数据。

可选地，计算机设备对多个目标子带数据进行子带合并，将子带合并所得到的语音数据进行平滑处理，得到目标语音数据。如图3所示，为了避免目标子带数据合并时由于边界问题所导致的频率不连续现象，可以在PQMF的后面部署一维卷积的网络结构，来对合并得到的语音数据进行平滑处理，得到平滑处理之后的目标语音数据。

604、计算机设备调用语音判别模型，对目标语音数据进行判别，得到第一判别结果。

通过上述语音处理模型，能够从有损语音数据还原出的目标语音数据，但是目标语音数据可能含有潜在的噪声。为了进一步提高语音数据的音质，本申请实施例使用对抗训练的思路来建模语音数据的分布特征。其中，语音判别模型用于判别语音数据是否是调用语音处理模型生成的，未经过语音处理模型处理的语音数据为真实的语音数据，经过语音处理模型进行处理所生成的语音数据可以看作是“伪造”的语音数据，该语音判别模型的目的即为判别语音数据为真实的语音数据还是“伪造”的语音数据。可选地，该语音判别模型为GAN(Generative adversarial network,对抗式生成网络)。计算机设备得到目标语音数据，则调用语音判别模型，对目标语音数据进行判别，得到第一判别结果，该第一判别结果用于表示目标语音数据是否是调用语音处理模型生成的。

由于目标语音数据为根据语音特征生成的语音数据，实际上是伪造的语音数据，而不是真实的样本语音数据。并且，语音特征越准确，该伪造的目标语音数据与真实的样本语音数据越相似，因此，可以调用语音判别模型对目标语音数据进行判别，来确定目标语音数据是否是语音处理模型生成的语音数据。若语音判别模型成功地判别出目标语音数据是语音处理模型生成的，说明语音处理模型的处理能力不足，导致提取的语音特征不准确，或者导致语音处理模型生成的目标语音数据不准确。若语音判别模型未判别出目标语音数据是语音处理模型生成的，说明语音处理模型具有充分的处理能力，因此提取的语音特征以及生成的目标语音数据都比较准确。因此，可以根据语音判别模型的判别结果来对语音处理模型的模型参数进行调整，以使语音处理模型更加准确。

在一种可能实现方式中，语音判别模型包括频域判别模型和时域判别模型，第一判别结果包括频域判别模型输出的第三判别结果和时域判别模型输出的第四判别结果。计算机设备对目标语音数据进行频域变换，得到频域语音数据，调用频域判别模型，对频域语音数据进行判别，得到第三判别结果，调用时域判别模型，对目标语音数据进行判别，得到第四判别结果。其中，该频域判别模型可以为一个或者多个，该时域判别模型可以为一个或者多个。

可选地，频域判别模型的数量为多个，时域判别模型的数量为多个。计算机设备调用多个频域判别模型，分别对频域语音数据进行判别，得到多个第三判别结果，后续根据多个第三判别结果，来训练语音处理模型。例如，该多个频域判别模型为不同分辨率的频域判别模型，计算机设备对目标语音数据进行多次频域变换，得到多个不同分辨率的频域语音数据，然后调用频域判别模型，对相同分辨率的频域语音数据进行判别，得到多个第三判别结果。计算机设备调用多个时域判别模型，分别对目标语音数据进行判别，得到多个第四判别结果，后续根据多个第四判别结果，来训练语音处理模型。例如，该多个时域判别模型为不同尺度的时域判别模型，计算机设备对目标语音数据进行池化处理得到多个不同尺度的时域语音数据，然后调用时域判别模型，对相同尺度的时域语音数据进行判别，得到多个第四判别结果。

图7是本申请实施例提供的一种频域判别模型的结构示意图，参见图7，每个频域判别模型中包括1个二维卷积和3个卷积块，每个卷积块中包括下采样二维卷积以及二维卷积。计算机设备对分别对目标语音数据进行多次短时傅里叶变换，能够得到多个不同分辨率的频域语音数据，并分别输入至对应的频域判别模型中进行判别。

图8是本申请实施例提供的一种时域判别模型的结构示意图，参见图8，每个时域判别模型中包括3个一维卷积和1个分组一维卷积。计算机设备对分别对目标语音数据进行多次池化处理，能够得到多个不同尺度的时域语音数据，并分别输入至对应的时域判别模型中进行判别。

605、计算机设备在根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音处理模型。

由于样本语音数据是原始的语音数据，目标语音数据是对压缩后的有损语音数据进行还原处理得到的语音数据，则目标语音数据与样本语音数据越相似，该语音处理模型越准确。第一判别结果用于表示目标语音数据是否是调用语音处理模型生成的，如果第一判别结果表示目标语音数据不是调用语音处理模型生成的，则该语音处理模型越准确，如果第一判别结果表示目标语音数据是调用语音处理模型生成的，则该语音处理模型越不准确。

在一种可能实现方式中，该第一判别结果为第一判别概率，该第一判别概率表示目标语音数据不是调用语音处理模型生成的概率。计算机设备根据样本语音数据与目标语音数据之间的差异以及第一判别概率，更新语音处理模型的网络参数，以使样本语音数据与目标语音数据之间的差异越来越小，且第一判别概率越来越大，从而提高语音处理模型的准确性。

在一种可能实现方式中，计算机设备调用语音判别模型，对样本语音数据进行判别，得到第二判别结果，第二判别结果用于表示样本语音数据是否是调用语音处理模型生成的。计算机设备根据第一判别结果和第二判别结果，训练语音判别模型。

其中，目标语音数据为伪造的语音数据，样本语音数据为真实的语音数据。如果第一判别结果表示目标语音数据是调用语音处理模型生成的，第二判别结果表示样本语音数据不是调用语音处理模型生成的，则说明语音判别结果能够准确判别语音数据是否是调用语音处理模型生成的。如果第一判别结果表示目标语音数据不是调用语音处理模型生成的，或者第二判别结果表示样本语音数据是调用语音处理模型生成的，则说明语音判别结果无法准确判别语音数据是否是调用语音处理模型生成的。因此计算机设备可以根据第一判别结果和第二判别结果，训练语音判别模型，以使语音判别模型能够准确判别语音数据是否是调用语音处理模型生成的。可选地，第一判别结果为第一判别概率，第一判别概率表示目标语音数据不是调用语音处理模型生成的概率，第二判别结果为第二判别概率，第二判别概率表示样本语音数据不是调用语音处理模型生成的概率，则计算机设备根据第一判别概率和第二判别概率，更新语音判别模型的网络参数，以使第一判别概率越来越小，第二判别概率越来越大，从而提高语音判别模型的准确性。

在训练过程中，语音判别模型的准确性越高，则对语音处理模型的准确性的要求越高，从而促使不断提高语音处理模型的准确性，而语音处理模型的准确性越高，则对语音判别模型的准确性的要求越高，从而促使不断提高语音判别模型的准确性，由此形成相互对抗的良性循环，使训练得到的语音处理模型的准确性越来越高。本申请实施例提出使用对抗训练的方式来提高有损语音数据的修复效果，基于上述语音处理模型，额外构建了一个语音判别模型，来建模语音数据的分布特性，从而提升语音数据处理的质量。

可选地，计算机设备采用以下公式，获取第一损失值，根据第一损失值更新语音判别模型的网络参数。

其中，

表示第一损失值，

表示有损语音数据，x表示样本语音数据，G(·)表示语音处理模型，

表示目标语音数据，D_s表示第s个语音判别模型，

表示数学期望，||·||₁表示一范数。

在另一种可能实现方式中，计算机设备根据样本语音数据与目标语音数据之间的差异、第一判别结果以及第一判别结果与第二判别结果之间的差异，训练语音处理模型。

目标语音数据为对压缩后的有损语音数据进行还原处理得到的语音数据，实际上是伪造的语音数据，而不是真实的语音数据，样本语音数据为真实的语音数据。其中，语音判别模型对样本语音数据和目标语音数据分别进行判别所得到的第一判别结果与第二判别结果之间的差异越小，目标语音数据与样本语音数据之间的差异越小，也即是目标语音数据越准确。因此，计算机设备还可以根据第一判别结果与第二判别结果之间的差异，训练语音处理模型，以使第一判别结果与第二判别结果之间的差异越来越小，从而提高语音处理模型的准确性。

需要说明的是，本申请实施例以利用语音判别模型进行对抗训练为例进行说明。在另一实施例中，还可以不利用语音判别模型进行对抗训练，则无需执行上述步骤604，计算机设备直接根据样本语音数据与目标语音数据之间的差异，训练语音处理模型。

在另一种可能实现方式中，计算机设备分别对样本语音数据和目标语音数据进行梅尔谱提取，得到样本语音数据对应的样本梅尔谱特征，以及目标语音数据对应的目标梅尔谱特征，根据样本语音数据与目标语音数据之间的差异，以及样本梅尔谱特征与目标梅尔谱特征之间的差异，训练语音处理模型。其中，梅尔谱特征是为人类的听觉感知而优化的一种二维特征，保留了感知方面的信息。通过样本梅尔谱特征与目标梅尔谱特征之间的差异，训练语音处理模型，使得训练过程考虑到对样本语音数据的听觉感知情况与对目标语音数据的听觉感知情况之间的差异，有利于使语音处理模型学习到听觉感知方面的特征。

可选地，计算机设备采用以下公式，获取目标损失值，根据目标损失值更新语音处理模型的网络参数。

其中，L表示目标损失值，λ₁、λ₂和λ₃表示各个损失值对应的权重参数，

表示第二损失值，

表示第三损失值，L_F表示第四损失值。

第二损失值的公式如下：

其中，

表示目标语音数据，φ(·)表示梅尔谱的提取过程，

表示数学期望，||·||₁表示一范数。

第三损失值的公式如下：

其中，

表示目标语音数据，G(·)表示语音处理模型，

表示目标语音数据，D_s表示第s个语音判别模型，

表示数学期望。

第四损失值的公式如下：

其中，

表示目标语音数据，

表示第s个语音判别模型中第i层网络的输出，N表示语音判别模型的个数，T表示语音判别模型中的网络的层数，

表示数学期望，||·||₁表示一范数。

需要说明的是，上述步骤601-605仅以一次迭代过程为例进行说明，在训练语音处理模型的过程中，需要进行多次迭代。在一种可能实现方式中，响应于迭代伦次达到第一阈值，停止对该语音处理模型进行训练；或者，响应于当前迭代轮次得到的损失值不大于第二阈值，停止对语音处理模型进行训练。其中，第一阈值和第二阈值均为任意的数值，例如，第一阈值为10或15等，第二阈值为0.4或0.3等。

语音编码器和语音解码器的目标是在发送端设备将语音数据以一定码率进行压缩，而后通过网络传输到接收端设备进行解码，从而还原出语音数据。但是当采用较低的码率对语音数据进行编码时，接收端设备难以恢复出高质量的语音数据。

本申请实施例提出一种端到端的有损语音数据还原方法，能够将经过低码率的语音编码器和语音解码器后生成的语音数据，修复成无损的语音数据。基于本申请实施例提供的语音处理模型，能够在不改变编解码框架的条件下，使得在传输低码率的语音数据的情况下，也能够还原出高质量的语音数据，既兼容了不同的编解码框架，同时能够降低语音数据传输的成本。

并且，并行地对多个采样点进行编码，实现了同时对多个信息进行处理，有利于提高语音数据处理的处理效率。

并且，将语音数据划分为多个不同的子带数据分别进行处理，能够减少语音数据的时间序列的长度，有利于加快语音处理模型的处理过程，提高语音处理模型的处理效率。

并且，在训练过程中，语音判别模型的准确性越高，则对语音处理模型的准确性的要求越高，从而促使不断提高语音处理模型的准确性，而语音处理模型的准确性越高，则对语音判别模型的准确性的要求越高，从而促使不断提高语音判别模型的准确性，由此形成相互对抗的良性循环，使训练得到的语音处理模型的准确性越来越高。

上述图5和图6的实施例中所训练的语音处理模型可应用于修复语音数据的任务中。计算机设备调用训练后的语音处理模型，对任一语音数据进行编码得到第一语音特征，对第一语音特征进行解码，得到质量参数高于该任一语音数据的语音数据。该任一语音数据为待修复的语音数据，例如为接收端设备对接收的语音特征进行解码后得到的有损语音数据。质量参数高于该任一语音数据的语音数据为修复后的语音数据，修复后的语音数据的质量比修复前的语音数据的质量高，因此实现了对任一语音数据进行修复，来获取高质量的语音数据。

为了验证本申请实施例提供的语音数据处理方法，评测了对不同码率语音编解码所得到的有损语音数据的修复效果。首先衡量模型的客观指标PESQ(Perceptualevaluation of speech quality，语音质量感知评估)，PESQ越高模型的处理效果越好。结果如下述表1所示，其中Opus代表未修复的有损语音数据，Opus-GAN(Opus-GenerativeAdversarial Networks，编码-生成对抗网络)代表对有损语音数据进行修复所得到的语音数据。

表1

从表1来看，在不同的码率条件下，本申请实施例提出的语音处理模型能够明显提升低码率情况下的Opus直接编解码所获得语音数据的效果，这意味着在网络传输条件较差时，Opus即使在低码率的编码模式工作，接收端设备也能通过语音处理模型获得高质量的语音数据。此外，在6kb/s的编解码条件下，申请实施例提出的语音处理模型的效果甚至超越了10kb/s下的编解码效果，因此在降低网络的传输码率的情况下能够保证语音数据的质量，从而节省网络传输成本。

而为了进一步衡量本申请实施例提出的语音处理模型的效果，组织了主管测听，并对不同语音编码器所还原的语音数据的质量进行MUSHRA(Multi-Stimulus Test withHidden Reference and Anchor，多激励隐藏参考基准测试方法)打分，满分为100分，结果如图9所示。从图9可以发现，不经过压缩的原始语音数据的得分为95分以上，而低码率下不进行语音还原的语音数据的得分在6kb/s条件下只有不到40分，这意味着压缩后的语音数据会极大地损失语音数据的质量，甚至损伤了语音数据的可懂度。而采用本申请实施例的语音处理模型，所还原的语音数据的质量得到了明显的改善，在6kb/s码率下获得了80分的结果，这意味着本申请实施例的语音处理模型能够大幅提升语音数据的质量，从而在有损语音数据中还原出高质量的语音数据。

由于上述实验是基于高保真麦克风录制的语音合成数据进行，为了进一步在真实的语音数据上进行验证，针对不同的码率需要分别构建对应的语音处理模型，以及构建混合码率的语音处理模型，首先获取客观指标PESQ，结果如下述表2所示：

表2

在表2中，Opus-GAN为与码率相关的语音处理模型，Opus-GAN-mix则为与码率无关的语音处理模型。从表2中结果可以看出，本申请实施例的语音处理模型仍然能够很好地修复有损语音数据的音质。此外，Opus-GAN-mix模型也能够提升有损语音数据的音质，Opus-GAN-mix模型的客观指标PESQ略差于Opus-GAN模型。

同样地，进一步针对不同码率的处理效果进行了MUSHRA打分，结果如图10所示。从图10可以发现，由于测试数据的质量较低，不经过压缩的原始语音数据的得分只有90分左右，而低码率下不进行语音还原的语音数据的得分在6kb/s条件下只有不到30分。而当加入本申请实施例的语音处理模型，还原出的语音数据的质量得到了明显改善，在6kb/s码率下获得了接近70的得分。而对于Opus-GAN-mix模型来讲，其MUSHRA得分仅略低于Opus-GAN模型。上述结果表明，本申请实施例的语音处理模型，能够修复不同质量的压缩语音数据，从而达到提升传输音质、降低传输码率的目的。

图11是本申请实施例提供的一种语音数据处理装置的结构示意图。参见图11，该装置包括：

数据获取模块1101，用于获取有损语音数据和有损语音数据对应的样本语音数据，有损语音数据是对样本语音数据进行压缩所得到的；

语音处理模块1102，用于调用语音处理模型，对有损语音数据进行编码得到语音特征，对语音特征进行解码，得到质量参数高于有损语音数据的目标语音数据，质量参数表征语音数据的质量损失程度；

模型训练模块1103，用于根据样本语音数据与目标语音数据之间的差异，训练语音处理模型。

本申请实施例提供的语音数据处理装置，利用有损语音数据和对应的样本语音数据训练语音处理模型，该样本语音数据为压缩前的无损语音数据，该有损语音数据为压缩后的有损语音数据，因此能够使语音处理模型学习到进行语音还原时所需依据的特征，从而提供一种基于语音处理模型来修复语音数据的方式，能够提高语音数据的处理效果。

可选地，参见图12，语音处理模型包括编码网络和解码网络，编码网络包括m个编码层，解码网络包括n个解码层，m和n为大于1的整数，语音处理模块1102，包括：

编码单元1112，用于调用第k个编码层，对有损语音数据进行编码，得到第k个编码语音特征，k为小于m的正整数；

编码单元1112，还用于继续调用第k个编码层的下一个编码层，对第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的语音特征；

解码单元1122，用于调用第h个解码层，对语音特征进行解码，得到第h个解码语音特征，h为小于n的正整数；

解码单元1122，还用于继续调用第h个解码层的下一个解码层，对第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的目标语音数据。

可选地，参见图12，有损语音数据包括多个采样点，语音处理模块1102，包括：

采样点编码单元1132，用于调用语音处理模型，并行地对多个采样点进行编码，得到语音特征，对语音特征进行解码，得到目标语音数据。

可选地，参见图12，语音处理模块1102，包括：

子带划分单元1142，用于对有损语音数据进行子带划分，得到多个有损子带数据，每个有损子带数据所属的频段不同；

子带数据编码单元1152，用于调用语音处理模型，对多个有损子带数据进行编码，得到语音特征，对语音特征进行解码，得到多个目标子带数据；

子带合并单元1162，用于对多个目标子带数据进行子带合并，得到目标语音数据。

可选地，子带合并单元1162，用于对多个目标子带数据进行子带合并，将子带合并所得到的语音数据进行平滑处理，得到目标语音数据。

可选地，参见图12，模型训练模块1103，包括：

梅尔谱提取单元1113，用于分别对样本语音数据和目标语音数据进行梅尔谱提取，得到样本语音数据对应的样本梅尔谱特征，以及目标语音数据对应的目标梅尔谱特征；

第一训练单元1123，用于根据样本语音数据与目标语音数据之间的差异，以及样本梅尔谱特征与目标梅尔谱特征之间的差异，训练语音处理模型。

可选地，参见图12，装置还包括：

语音判别模块1104，用于调用语音判别模型，对目标语音数据进行判别，得到第一判别结果，第一判别结果用于表示目标语音数据是否是调用语音处理模型生成的；

模型训练模块1103，包括：

第二训练单元1133，用于根据样本语音数据与目标语音数据之间的差异以及第一判别结果，训练语音处理模型。

可选地，参见图12，语音判别模块1104，还用于调用语音判别模型，对样本语音数据进行判别，得到第二判别结果，第二判别结果用于表示样本语音数据是否是调用语音处理模型生成的；

模型训练模块1103，还用于根据第一判别结果和第二判别结果，训练语音判别模型。

可选地，参见图12，模型训练模块1103，包括：

第三训练单元1143，用于根据样本语音数据与目标语音数据之间的差异、第一判别结果以及第一判别结果与第二判别结果之间的差异，训练语音处理模型。

可选地，参见图12，语音判别模型包括频域判别模型和时域判别模型，第一判别结果包括频域判别模型输出的第三判别结果和时域判别模型输出的第四判别结果，语音判别模块1104，包括：

频域变换单元1114，用于对目标语音数据进行频域变换，得到频域语音数据；

第一判别单元1124，用于调用频域判别模型，对频域语音数据进行判别，得到第三判别结果；

第二判别单元1134，用于调用时域判别模型，对目标语音数据进行判别，得到第四判别结果。

可选地，参见图12，语音处理模块1102，还用于调用训练后的语音处理模型，对任一语音数据进行编码得到第一语音特征，对第一语音特征进行解码，得到质量参数高于该任一语音数据的语音数据。

需要说明的是：上述实施例提供的语音数据处理装置在处理语音数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音数据处理装置与语音数据处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音数据处理方法中所执行的操作。

可选地，该计算机设备提供为终端。图13示出了本申请一个示例性实施例提供的终端1300的结构示意图。

终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有GPU(Graphics Processing Unit，图像处理的交互器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一条计算机程序，该至少一条计算机程序用于被处理器1301所具有以实现本申请中方法实施例提供的语音数据处理方法。

在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。可选地，外围设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307、定位组件1308和电源1309中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置在终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。可选地，摄像头组件1306包括前置摄像头和后置摄像头。前置摄像头设置在终端1300的前面板，后置摄像头设置在终端1300的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

定位组件1308用于定位终端1300的当前地理位置，以实现导航或LBS(LocationBased Service，调用位置的服务)。定位组件1308可以是调用美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1309用于为终端1300中的各个组件进行供电。电源1309可以是交流电、直流电、一次性电池或可充电电池。当电源1309包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1300还包括有一个或多个传感器1310。该一个或多个传感器1310包括但不限于：加速度传感器1311、陀螺仪传感器1312、压力传感器1313、指纹传感器1314、光学传感器1315以及接近传感器1316。

加速度传感器1311可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1311可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1311采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1311还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1312可以检测终端1300的机体方向及转动角度，陀螺仪传感器1312可以与加速度传感器1311协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1312采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1313可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1313设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1313采集的握持信号进行左右手识别或快捷操作。当压力传感器1313设置在显示屏1305的下层时，由处理器1301根据用户对显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1314用于采集用户的指纹，由处理器1301根据指纹传感器1314采集到的指纹识别用户的身份，或者，由指纹传感器1314根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1301授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1314可以被设置在终端1300的正面、背面或侧面。当终端1300上设置有物理按键或厂商Logo时，指纹传感器1314可以与物理按键或厂商标志集成在一起。

光学传感器1315用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1315采集的环境光强度，控制显示屏1305的显示亮度。可选地，当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1315采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1316，也称距离传感器，设置在终端1300的前面板。接近传感器1316用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1316检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该计算机设备提供为服务器。图14是本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1401和一个或一个以上的存储器1402，其中，所述存储器1402中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以实现上述实施例的语音数据处理方法中所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机程序代码，计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得计算机设备实现如上述实施例的语音数据处理方法中所执行的操作。在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音处理模型包括编码网络和解码网络，所述编码网络包括m个编码层，所述解码网络包括n个解码层，所述m和所述n为大于1的整数，所述调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，包括：

调用第k个编码层，对所述有损语音数据进行编码，得到第k个编码语音特征，所述k为小于所述m的正整数；

继续调用所述第k个编码层的下一个编码层，对所述第k个编码语音特征进行编码，得到下一个编码语音特征，直至得到最后一个编码层输出的所述语音特征；

调用第h个解码层，对所述语音特征进行解码，得到第h个解码语音特征，所述h为小于所述n的正整数；

继续调用所述第h个解码层的下一个解码层，对所述第h个解码语音特征进行解码，得到下一个解码语音特征，直至得到最后一个解码层输出的所述目标语音数据。

3.根据权利要求1所述的方法，其特征在于，所述有损语音数据包括多个采样点，所述调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，包括：

调用所述语音处理模型，并行地对所述多个采样点进行编码，得到所述语音特征，对所述语音特征进行解码，得到所述目标语音数据。

4.根据权利要求1所述的方法，其特征在于，所述调用语音处理模型，对所述有损语音数据进行编码得到语音特征，对所述语音特征进行解码，得到质量参数高于所述有损语音数据的目标语音数据，包括：

对所述有损语音数据进行子带划分，得到多个有损子带数据，每个有损子带数据所属的频段不同；

调用所述语音处理模型，对所述多个有损子带数据进行编码，得到所述语音特征，对所述语音特征进行解码，得到多个目标子带数据；

对所述多个目标子带数据进行子带合并，得到所述目标语音数据。

5.根据权利要求4所述的方法，其特征在于，所述对所述多个目标子带数据进行子带合并，得到所述目标语音数据，包括：

对所述多个目标子带数据进行子带合并，将子带合并所得到的语音数据进行平滑处理，得到所述目标语音数据。

6.根据权利要求1所述的方法，其特征在于，所述根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型，包括：

分别对所述样本语音数据和所述目标语音数据进行梅尔谱提取，得到所述样本语音数据对应的样本梅尔谱特征，以及所述目标语音数据对应的目标梅尔谱特征；

根据所述样本语音数据与所述目标语音数据之间的差异，以及所述样本梅尔谱特征与所述目标梅尔谱特征之间的差异，训练所述语音处理模型。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，所述第一判别结果用于表示所述目标语音数据是否是调用所述语音处理模型生成的；

所述根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型，包括：

根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音处理模型。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

调用所述语音判别模型，对所述样本语音数据进行判别，得到第二判别结果，所述第二判别结果用于表示所述样本语音数据是否是调用所述语音处理模型生成的；

根据所述第一判别结果和所述第二判别结果，训练所述语音判别模型。

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本语音数据与所述目标语音数据之间的差异以及所述第一判别结果，训练所述语音处理模型，包括：

根据所述样本语音数据与所述目标语音数据之间的差异、所述第一判别结果以及所述第一判别结果与所述第二判别结果之间的差异，训练所述语音处理模型。

10.根据权利要求7所述的方法，其特征在于，所述语音判别模型包括频域判别模型和时域判别模型，所述第一判别结果包括所述频域判别模型输出的第三判别结果和所述时域判别模型输出的第四判别结果，所述调用语音判别模型，对所述目标语音数据进行判别，得到第一判别结果，包括：

对所述目标语音数据进行频域变换，得到频域语音数据；

调用所述频域判别模型，对所述频域语音数据进行判别，得到所述第三判别结果；

调用所述时域判别模型，对所述目标语音数据进行判别，得到所述第四判别结果。

11.根据权利要求1所述的方法，其特征在于，所述根据所述样本语音数据与所述目标语音数据之间的差异，训练所述语音处理模型之后，所述方法还包括：

调用训练后的所述语音处理模型，对任一语音数据进行编码得到第一语音特征，对所述第一语音特征进行解码，得到质量参数高于所述任一语音数据的语音数据。

12.一种语音数据处理装置，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述语音处理模型包括编码网络和解码网络，所述编码网络包括m个编码层，所述解码网络包括n个解码层，所述m和所述n为大于1的整数，所述语音处理模块，包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以实现如权利要求1至11任一项所述的语音数据处理方法中所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以实现如权利要求1至11任一项所述的语音数据处理方法中所执行的操作。