CN115910081A

CN115910081A - 语音信号处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN115910081A
Application number: CN202110898046.XA
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2023-04-04

Abstract

本申请实施例提供了一种语音信号处理方法、装置、电子设备及计算机存储介质，涉及人工智能和云技术领域。包括：接收待处理语音信号对应的编码码流，编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的；对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；对各帧原始语音信号的频域特征进行还原(插值和神经网络模型)处理，得到各帧重建语音信号的频域特征；对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号。在本申请中，由发送端设备对抽帧后的语音信号进行编码并发送至接送端，有效降低带宽。

Description

语音信号处理方法、装置、电子设备及计算机存储介质

技术领域

本申请涉及人工智能和云技术领域，具体而言，本申请涉及一种语音信号处理方法、装置、电子设备及计算机存储介质。

背景技术

语音编解码技术在现代通讯系统中占有重要的地位，比如，在语音通话应用中，对于采集到的模拟的语音信号，发送端设备通过模数转换电路将模拟的语音信号转换为数字语音信号，数字信号经过语音编码器进行压缩，然后按照通信网络传输格式和协议打包发送到接收端设备，接收端设备接收到数据包后解码数据包，并通过语音解码器处理得到数字语音信号，最后数字语音信号进行播放。通过语音编解码技术可有效地降低语音信号传输的带宽，对于节省语音信号存储传输成本，保障通信网络传输过程中的语音信息完整性方面起了决定性作用。因此，对于一些对通话带宽有限或通话带宽消耗较高的场景，如何更有效地降低传输带宽是目前亟待解决的技术问题。

发明内容

本申请提供了一种语音信号处理方法、装置、电子设备及计算机存储介质，能够有效降低带宽。

一方面，本申请实施例提供了一种语音信号处理方法，该方法包括：

接收待处理语音信号对应的编码码流，编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的；

对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；

基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征；

将各帧原始语音信号的频域特征和各补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧待重建语音信号包括各帧原始语音信号和各补偿帧信号；

基于各帧待重建语音信号的频谱增益以及各帧待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；

对上述各帧重建语音信号的频域特征进行频时变换，得到目标语音信号。

另一方面，本申请实施例提供了一种语音信号处理方法，该方法包括：

获取待处理语音信号，按照设定帧间隔对待处理语音信号进行抽帧处理，得到不连续的语音信号；

对不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到待处理语信号对应的编码码流；

将编码码流发送至接收端设备，以使接收端设备对编码码流进行以下处理得到目标语音信号：

基于各帧重建语音信号的频域特征，确定目标语音信号。

又一方面，本申请实施例提供了一种语音信号处理装置，该装置包括：

语音信号接收模块，用于接收待处理语音信号对应的编码码流，该编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，上述不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的；

解码模块，用于对上述编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；

插值处理模块，用于基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征；

频谱增益确定模块，用于将各帧原始语音信号的频域特征和各补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧待重建语音信号包括各帧原始语音信号和各补偿帧信号；

重建语音信号确定模块，用于基于各帧待重建语音信号的频谱增益以及各帧待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；

语音处理模块，用于对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号。

可选的，上述插值处理模块在基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征时，具体用于：对于各帧原始语音信号中每对相邻帧信号，基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征；根据各相邻帧信号之间的补偿帧信号的频域特征，确定各帧原始语音信号之间的补偿帧信号的频域特征。

可选的，对于各帧信号中每对相邻帧信号，上述插值处理模块在基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征时，具体用于：获取相邻帧信号之间的补偿帧信号的频域特征与相邻帧信号中各帧原始语音信号的频域特征之间的第一关联关系；基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行内插值处理，得到相邻帧信号之间的补偿帧信号的频域特征。

可选的，对于各帧原始语音信号中每对相邻帧信号，上述相邻帧信号中包括第一信号和第二信号，上述第一信号在第二信号之前；上述插值处理模块在基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征时，具体用于：

基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行内插值处理，得到相邻帧信号之间的内插信号的频域特征；获取相邻帧信号之间的补偿帧信号的频域特征、相邻帧信号的第三信号的频域特征和第一信号的频域特征之间的第二关联关系，第三信号为第一信号的前一帧信号；基于第二关联关系、第一信号的频域特征和第三信号的频域特征，对相邻帧信号进行外插值处理，得到相邻帧信号之间的外插信号的频域特征；对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合，得到相邻帧信号之间的补偿帧信号的频域特征。

可选的，上述插值处理模块在对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合，得到相邻帧的信号之间的补偿帧信号的频域特征时，具体用于：获取各帧内插信号对应的第一权重以及各帧外插信号对应的第二权重；对于各帧内插信号中的每帧内插信号，对内插信号的频域特征和内插信号对应的第一权重进行加权处理，得到加权后的内插信号的频域特征；对于各帧外插信号中的每帧外插信号，对外插信号的频域特征和外插信号对应的第二权重进行加权处理，得到加权后的外插信的频域特征；基于各帧加权后的内插信号的频域特征和各帧加权后的外插信号的频域特征，确定相邻帧信号之间的补偿帧信号的频域特征。

可选的，上述神经网络模型是通过以下模型训练模块训练得到的：

模型训练模块，用于获取样本数据，样本数据包括多个样本语音信号；对于每个样本语音信号，对样本语音信号进行分帧处理，得到各帧分帧语音信号，并按照设定帧间隔对各帧分帧语音信号进行抽帧处理，得到不连续的抽帧样本语音信号；确定不连续的抽帧样本语音信号中各帧的频域特征；对不连续的抽帧样本语音信号中各帧的频域特征进行插值处理，得到各帧待重建样本语音信号的频域特征；基于各帧待重建样本语音信号的频域特征和各帧分帧语音信号，确定各帧待重建样本语音信号的真实频谱增益；

重复执行以下训练步骤直至损失值满足训练结束条件，得到神经网络模型：将各帧待重建样本语音信号的频域特征输入至初始神经网络模型，得到各帧待重建样本语音信号对应的预测频谱增益；基于各预测频谱增益和各真实频谱增益，确定初始神经网络模型对应的损失值，若损失值满足训练结束条件，结束训练，得到神经网络模型；若不满足，调整初始神经网络模型的模型参数，并重复训练步骤。

可选的，上述模型训练模块在确定不连续的抽帧样本语音信号中各帧的频域特征时，具体用于：对不连续的抽帧样本语音信号中各帧抽帧样本语音信号进行线性时频变换，得到各帧抽帧样本语音信号的线性频域特征；对各帧抽帧样本语音信号的线性频域特征进行特征提取，得到各帧抽帧样本语音信号的对数频域特征，将各帧抽帧样本语音信号的对数频域特征作为各帧抽帧样本语音信号的频域特征。

可选的，上述解码模块在确定各帧原始语音信号的频域特征时，具体用于：对各帧原始语音信号进行时频变换，得到各帧原始语音信号的频域特征和相位特征；

上述语音处理模块在对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号时，具体用于：基于各帧原始语音信号的相位特征和各帧重建语音信号的频域特征，对各帧重建语音信号的频域特征进行频时变换，得到各帧重建语音信号的时域特征；将各帧重建语音信号的时域特征作为目标语音信号。

可选的，若上述频域特征为梅尔谱频域特征，上述语音处理模块在对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号时，具体用于：基于各帧重建语音信号的梅尔谱频域特征，对还原后的各帧语音信号的频域特征进行频时变换，得到目标语音信号。

语音信号获取模块，用于获取待处理语音信号，按照设定帧间隔对待处理语音信号进行抽帧处理，得到不连续的语音信号；

编码模块，用于对不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到待处理语信号对应的编码码流；

发送模块，用于将编码码流发送至接收端设备，以使接收端设备对编码码流进行以下处理得到目标语音信号：

基于各帧重建语音信号的频域特征，确定目标语音信号。

再一方面，本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器执行语音信号处理方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行语音信号处理方法。

另一方面，本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述本申请任一可选实施例中提供的语音信号处理方法。

本申请实施例提供的技术方案带来的有益效果是：

在本申请实施例中，在语音信号的发送端，对待处理语音信号进行抽帧处理，抽取语音信号中的部分信号(各帧原始语音信号)进行编码，将编码得到的编码码流传到接收端，在语音信号的接收端，先对这部分信号进行解码，得到各帧原始语音信号，再基于各帧原始语音信号的频域特征通过插值处理和神经网络模型进行还原处理，得到各帧重建语音信号的频域特征，还原的目的是将部分信号还原为抽帧处理之前完整的频域的语音信号，最后基于各帧重建语音信号的频域特征得到目标语音信号，本申请方案中，由于在发送端是对待处理语音信号的部分信号进行编码传输，可有效的降低带宽，尤其对于通话带宽有限和通话带宽消耗较高的场景，还可降低运营成本。进一步地，在接收端，对各帧原始语音信号通过插值处理和神经网络模型进行还原处理，可使得最终得到的目标语音信号具有较高的语音质量，接近待处理语音信号的语音质量，通过本申请的方案可实现在极低的码率下也可以保持较好的语音可懂度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音信号处理方法的流程示意图；

图2为本申请实施例提供的又一种语音信号处理方法的流程示意图；

图3为本申请实施例提供的一种初始神经网络的结构的示意图；

图4为本申请实施例提供的一种待处理语音信号的语谱图示意图；

图5为本申请实施例提供的一种语音信号处理方法的处理流程示意图；

图6为本申请实施例提供的另一种语音信号处理方法的流程示意图；

图7为本申请实施例提供的一种语音信号处理装置的结构示意图；

图8为本申请实施例提供的又一种语音信号处理装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

相关技术中，对于一些并发规模较大的语音会议、语音直播广播业务，以及一些带宽极其受限(比如，2G基带模式)的业务应用，由于通话带宽对运营成本影响很大，因此，为了节省运营成本，或者在带宽非常有限的情况下，如何更有效地降低带宽是非常值得研究的。参见图1所示的现有语音编解码方案的流程示意图，在发送端通过采集设备采集一帧(例如20ms)音频信号(图1中所示的声音信号采集处理)，对该帧音频信号做连续编码(包括图1中所示的语音编码和信道编码，其中，语音编码属于通讯中信源编码，主要是信源数字化和压缩；信道编码主要用于检测传输错误和纠正错误，压缩数据率，去除信号中的冗余)，得到码流数据，发送端设备将该码流数据通过网络发送至接收端设备，接收端对接收到的码流数据进行解码(包括图1中所示的信道解码和语音解码)以及音频信号播放(图1中所示的声音信号播放)等处理。现有方案中每一帧信号都要进行编码及传输的，通话带宽消耗较大。

为了解决上述技术问题，本申请实施例提出的一种语音信号处理方法，本申请的方案适用于任何需要从发送端传输语音信号到接收端的场景，尤其是通话带宽有限的场景或一些对通话带宽有较高消耗的场景(比如，一些并发规模较大的语音会议、语音直播广播业务)，基于本申请的方法，在发送端是对待处理语音信号的部分信号(比如，按照设定设定帧间隔进行抽帧得到部分信号)进行编码传输，对于通话带宽有限的场景，可有效的降低带宽，假如，设定设定帧间隔为N，则通过本申请方案传输待处理语音信号所用码率仅为现有方案的N分之一。进一步地，在接收端，对各帧原始语音信号通过插值处理和神经网络模型进行还原处理，可使得最终得到的目标语音信号具有较高的语音质量，接近待处理语音信号的语音质量，通过本申请的方案可实现在极低的码率下也可以保持较好的语音可懂度。

本申请实施例所提供的方法可以由任一电子设备执行，该电子设备可以是服务器或终端设备。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，本申请在此不做限制。

可选的，该电子设备可以为云设备，本申请实施例中涉及的数据处理/计算可以基于云技术实现。比如，对各帧原始语音信号的频域特征进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征的步骤，可以采用云计算实现。

其中，云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。

作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。

按照逻辑功能划分,在IaaS(Infrastructure as a Service，基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS(Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、短信群发器等。一般来说，SaaS和PaaS相对于IaaS是上层。

可选的，本申请实施例中所提供的方法中的神经网络模型是基于人工智能的方式训练得到的，其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2示出了本申请实施例提供的一种语音信号处理方法的流程示意图，该方法可以由电子设备执行，其中，该电子设备可以是语音信号的发送端，也可以是语音信号的接收端，如图2中所示，在该示例中，执行主体可以为接收端，该方法可以包括以下步骤：

步骤S110，接收待处理语音信号对应的编码码流，编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的。

其中，待处理语音信号指的是需要从发送端传输到接收端的语音信号，待处理语音信号可以为通过声音采集设备采集的模拟语音信号，也可以是将模拟语音信号进行模数转换得到的数字语音信号。对于在接收端设备接收到待处理语音信号对应的编码码流，发送端设备对待处理语音信号进行了以下处理得到的编码码流：获取待处理语音信号，按照设定帧间隔对待处理语音信号进行抽帧处理，得到不连续的语音信号；对不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到待处理语信号对应的编码码流；将编码码流发送至接收端设备。

其中，在按照设定帧间隔(M)对待处理语音信号进行抽帧之前，先基于帧长对待处理语音信号进行分帧处理，得到多帧原始语音信号，通常帧长为10ms至30ms，即每秒的帧数约为33帧至100帧，M的取值受帧长影响，M的取值可以为2-4。M值取值越大则最终的语音编码码率和传输码率越低，质量相对降低，因此，可基于实际需求选择M的取值。比如，设定帧间隔为2，则表示从多帧原始语音信号中每两帧抽取一帧。

对于语音信号，尤其是浊音信号，其帧间语音信号之间具有较强的相关性和相似性，对于一段时间长的语音信号(比如，90ms的语音信号)，随着时间变化语谱变化较为缓慢。本申请利用语音的这一特点，采取抽样式编码和解码，只需抽取其中部分信号进行编码，再对解码得到的非连续的语音信号(部分信号)进行补偿和修复，可以实现在较低的码率下也能保持较好的语音可懂度。

其中，上述抽帧得到的不连续的语音信号指的是抽取得到的语音信号在待处理语音信号中是不连续的。比如，待处理语音信号分帧后共有20帧，如果每隔两帧抽取一帧，则抽取后的不连续的语音信号为第1，4,7,10，13,16,19共7帧，这7帧语音信号中每两帧都是不连续的语音信号。

在本申请方案中，在抽取得到多帧不连续的语音信号后，可分别对不连续的语音信号中的每帧原始语音信号进行编码，由于本申请方案中是非连续编码方式，所以选择独立帧编码方式的语音编解码器，比如，iLBC(internet Low Bitrate Codec)语音编解码器，iLBC是现有的基于独立帧的语音编解码器，基于该语音编解码器，可以对每帧原始语音信号进行编码。

可选的，在本申请的可选方案中，可对待处理语音信号采用非均匀抽帧的方式进行抽帧处理，比如，先隔第一设定帧数抽一帧，然后隔第二设定帧数抽一帧，再隔第一设定帧数再抽一帧，第一设定帧数不等于第二设定帧数，本申请方案中不限定抽帧的具体方式，均在本申请所保护的方案中。

步骤S120，对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征。

其中，接收端设备在接收到待处理语音信号对应的编码码流后，先对编码码流进行解码，通常编码时对应编码的是多少帧原始语音信号，解码时得到对应数量帧的原始语音信号。然后对各帧原始语音信号进行时频变换，得到各帧原始语音信号的频域特征。其中，时频变换指的是将时域的信号转换到频域，可选的，可通过对各帧原始语音信号分别进行傅里叶变换得到各帧原始语音信号的频域特征。其中，频域特征包括功率谱或频谱中的至少一项。在进行时频变换时，还可得到各帧原始语音信号的相位特征。

步骤S130，基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征。

步骤S140，将各帧原始语音信号的频域特征和各补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧待重建语音信号包括各帧原始语音信号和各补偿帧信号。

步骤S150，基于各帧待重建语音信号的频谱增益以及各帧待重建语音信号的频域特征，确定各帧重建语音信号的频域特征.

其中，对各帧原始语音信号进行还原(插值和神经网络模型)处理，指的是对各帧原始语音信号的频域特征进行补偿和修复，使得还原后的各帧语音信号的帧数与抽帧之前的语音信号的帧数接近，还原后的各帧语音信号的频域特征接近抽帧之前的语音信号的频域特征，理想情况下，帧数和频域特征这两个指标还原后都与抽帧前相同，这样才可使得最后得到的目标语音信号更加接近待处理语音信号。其中，插值处理的主要目的是使得插值后的各帧语音信号的帧数与抽帧之前的语音信号的帧数接近，通过神经网络模型进行处理的主要目的是使得处理后的各帧语音信号的频域特征接近抽帧之前的语音信号的频域特征。

其中，各帧原始语音信号之间的补偿帧信号指的是在一对相邻帧信号各帧原始语音信号之间插入的其他帧信号。理想状态下，插入的帧数与各原始语音信号的帧数之和等于未抽帧之前的帧数。

可选的，基于各帧待重建语音信号的频谱增益以及各帧待重建语音信号的频域特征的一种可选实现方式为：将各帧待重建语音信号与对应的频谱增益进行相乘，以得到各帧重建语音信号。

上述神经网络模型是用来预测语音信号的频谱增益的，模型的输入为各帧语音信号的频域特征，输出是各帧语音信号的频谱增益。神经网络模型的训练过程将在下文具体描述。

在本申请的可选方案中，对各帧原始语音信号的频域特征进行插值处理，可以为内插处理或外插处理中的至少一项。具体如何进行插值处理的将在下文进一步进行说明，在此不再赘述。

步骤S160，对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号。

其中，在得到各帧重建语音信号的频域特征，还需要对各帧重建语音信号的频域特征进行频时变换，才能得到目标语音信号。

在本申请的可选方案中，上述对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号，包括：

基于各帧原始语音信号的相位特征和各帧重建语音信号的频域特征，对各帧重建语音信号的频域特征进行频时变换，得到各帧重建语音信号的时域特征；

将各帧重建语音信号的时域特征作为目标语音信号。

其中，频时变换指的是将频域的特征转换为时域的特征，频时变换可以为傅里叶反变换。在频时变换过程中，各帧重建语音信号的相位特征可采取各帧原始语音信号对应的相位特征。

可选的，上述频域特征可以为线性频域特征、对数频域特征或Bark域特征中的任一项。如果频域特征为对数频域特征，频域特征可以为梅尔谱频域特征，若频域特征为梅尔谱频域特征，上述对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号，包括：

基于各帧重建语音信号的梅尔谱频域特征，对还原后的各帧语音信号的频域特征进行频时变换，得到目标语音信号。

在对梅尔谱频域特征进行频时变换时，不需要各帧重建语音信号的相位特征。

在本申请实施例中，在语音信号的发送端，对待处理语音信号进行抽帧处理，抽取语音信号中的部分信号(各帧原始语音信号)进行编码，将编码得到的编码码流传到接收端，在语音信号的接收端，先对这部分信号进行解码，得到各帧原始语音信号，再基于各帧原始语音信号的频域特征进行还原(插值和神经网络模型)处理，得到各帧重建语音信号的频域特征，还原的目的是将部分信号还原为抽帧处理之前完整的频域的语音信号，最后基于各帧重建语音信号的频域特征得到目标语音信号，本申请方案中，由于在发送端是对待处理语音信号的部分信号进行编码传输，可有效的降低带宽，尤其对于通话带宽有限和通话带宽消耗较高的场景，还可降低运营成本。

进一步地，在接收端，对各帧原始语音信号通过插值处理和神经网络模型进行还原处理，可使得最终得到的目标语音信号具有较高的语音质量，接近待处理语音信号的语音质量，通过本申请的方案可实现在极低的码率下也可以保持较好的语音可懂度。

本申请的方案可用于解决极低码率下的语音传输问题。基于本申请的方案进行语音信号的传输，可仅用现有语音编码码率的二分之一甚至几分之一，对于通话带宽非常有限、并发大规模语音会议以及语音类直播的应用场景，能够非常显著地降低运营成本。

在本申请可选的实施例中，对于前文描述的插值处理方式(包括内插处理方式和或外插处理方式中的至少一项)，上述基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征，包括：

对于各帧原始语音信号中每对相邻帧信号，基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征；

根据各相邻帧信号之间的补偿帧信号的频域特征，确定各帧原始语音信号之间的补偿帧信号的频域特征。

其中，相邻帧信号之间的补偿帧信号指的是在一对相邻帧信号之间插入的其他帧信号，一对相邻帧信号指的是各帧原始语音信号中相邻的两帧信号，对于每对相邻帧信号，基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，预测出相邻帧信号之间的补偿帧信号的频域特征。

可以理解的是，各各帧原始语音信号之间的补偿帧信号等于各相邻帧信号之间的补偿帧信号之和，相邻帧之间插入的补偿帧的数量与设定帧间隔相等。

作为一个示例，设定帧间隔为2，假如相邻帧信号为第四帧信号和第七帧信号，则在这两帧信号之间可插入至少两帧补偿帧信号，各补偿帧信号的频域特征可基于第七帧信号的频域特征和第七帧信号的频域特征预测。

如果上述插值处理方式为外插处理方式，在本申请可选的实施例中，对于各帧信号中每对相邻帧信号，相邻帧信号中包括第一信号和第二信号，第一信号在第二信号之前；上述基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征，包括：

获取相邻帧信号之间的补偿帧信号的频域特征、相邻帧信号的第三信号的频域特征和第一信号的频域特征之间的第二关联关系，第三信号为第一信号的前一帧信号；

基于第二关联关系、第一信号的频域特征和第三信号的频域特征，对相邻帧信号进行外插值处理，得到相邻帧信号之间的外插信号的频域特征，将外插信号的频域特征作为补偿帧信号的频域特征。

其中，考虑到各帧信号之间的关联系，可以采用外插值处理的方式进行还原处理，外插值处理指的是基于相邻帧中的第一信号和第一信号的前一帧信号(第三信号)，在相邻帧之间进行插值的方式。

作为一个示例，设定帧间隔为2，假如第三信号为第一帧信号，相邻帧信号为第四帧信号(第一信号)和第七帧信号(第二信号)，则在这两帧信号之间可插入至少两帧补偿帧信号，各补偿帧信号的频域特征可基于第四帧信号的频域特征和第一帧信号的频域特征预测。

如果上述插值处理方式为内插处理方式，在本申请可选的实施例中，对于各帧信号中每对相邻帧信号，基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征，包括：

获取相邻帧信号之间的补偿帧信号的频域特征与相邻帧信号中各帧原始语音信号的频域特征之间的第一关联关系；

基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行内插值处理，得到相邻帧信号之间的补偿帧信号的频域特征。

其中，考虑到各帧信号之间的关联系，还可以采用内插值处理的方式进行还原处理，内插值处理指的是基于相邻帧中的第一信号和第二信号，在相邻帧之间进行插值的方式。

作为一个示例，设定帧间隔为2，假如相邻帧信号为第四帧信号(第一信号)和第七帧信号(第二信号)，则在这两帧信号之间可插入至少两帧补偿帧信号，各补偿帧信号的频域特征可基于第一帧信号的频域特征和第二帧信号的频域特征预测。

如果上述插值处理方式内插和外插处理方式，在本申请可选的实施例中，对于各帧原始语音信号中每对相邻帧信号，基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征，包括：

基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行内插值处理，得到相邻帧信号之间的内插信号的频域特征；

基于第二关联关系、第一信号的频域特征和第三信号的频域特征，对相邻帧信号进行外插值处理，得到相邻帧信号之间的外插信号的频域特征；

对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合，得到相邻帧信号之间的补偿帧信号的频域特征。

其中，上述先进行内插值处理还是外插值处理在本申请方案中并不限定，可先进行内插值处理，再进行外插值处理，也可先进行外插值处理，再进行内插值处理。无论是内插值处理还是外插值处理，插值处理后得到的都是相邻帧信号之间的补偿帧信号。

可选的，对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合通常是将各帧内插信号的频域特征与各帧外插信号的频域特征中对应帧的频域特征进行融合。

在本申请的可选方案中，上述对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合，得到相邻帧的信号之间的补偿帧信号的频域特征，包括：

获取各帧内插信号对应的第一权重以及各帧外插信号对应的第二权重；

对于各帧内插信号中的每帧内插信号，对内插信号的频域特征和内插信号对应的第一权重进行加权处理，得到加权后的内插信号的频域特征；

对于各帧外插信号中的每帧外插信号，对外插信号的频域特征和外插信号对应的第二权重进行加权处理，得到加权后的外插信号的频域特征；

基于各帧加权后的内插信号的频域特征和各帧加权后的外插信号的频域特征，确定相邻帧信号之间的补偿帧信号的频域特征。

其中，由于相邻帧信号中的两帧信号(第一信号和第二信号)与补偿帧信号的关联性，与第一信号和第三信号与补偿帧信号的关联性不同，进而内插信号和外插信号相对于补偿帧信号的重要程度不同，为此，为各帧内插信号配置对应的第一权重，为各帧外插信号配置对应的第二权重，通过第一权重表征内插信号相对于补偿帧信号的重要程度，通过第二权重表征外插信号相对于补偿帧信号的重要程度。第一权重和第二权重可以是基于实际需求配置的，各帧内插信号中每帧内插信号对应的权重都是第一权重，各帧外插信号中每帧外插信号对应的权重都是第二权重，第一权重和第二权重之和为1。

可以理解的是，在基于各帧加权后的内插信号的频域特征和各帧加权后的外插信号的频域特征确定相邻帧信号之间的补偿帧信号的频域特征时，对于每个补偿帧信号，分别基于该补偿帧信号对应的加权后的内插信号的频域特征和加权后的外插信号的频域特征，确定该补偿帧信号对应的的频域特征。

在本申请的可选方案中，上述神经网络模型是通过以下方式训练得到的：

获取样本数据，样本数据包括多个样本语音信号；

对于每个样本语音信号，对样本语音信号进行分帧处理，得到各帧分帧语音信号，并按照设定帧间隔对各帧分帧语音信号进行抽帧处理，得到不连续的抽帧样本语音信号；

确定不连续的抽帧样本语音信号中各帧的频域特征；

对不连续的抽帧样本语音信号中各帧的频域特征进行还原处理，得到各帧待重建样本语音信号的频域特征；

基于各帧待重建样本语音信号的频域特征和各帧分帧语音信号，确定各帧待重建样本语音信号的真实频谱增益；

重复执行以下训练步骤直至损失值满足训练结束条件，得到神经网络模型：

将各帧待重建样本语音信号的频域特征输入至初始神经网络模型，得到各帧待重建样本语音信号对应的预测频谱增益；

基于各预测频谱增益和各真实频谱增益，确定初始神经网络模型对应的损失值，若损失值满足训练结束条件，结束训练，得到神经网络模型；若不满足，调整初始神经网络模型的模型参数，并重复训练步骤。

其中，对于每个样本语音信号，可基于对待处理语音信号相同的抽帧处理方式，对该样本语音信号进行抽帧处理，得到不连续的抽帧样本语音信号，可选的，对于每帧待重建样本语音信号，基于各帧待重建样本语音信号的频域特征和各帧分帧语音信号，确定各帧待重建样本语音信号的真实频谱增益，具体可包括：该帧待重建样本语音信号对应的分帧语音信号的频域特征除以该帧待重建样本语音信号的频域特征，得到该帧待重建样本语音信号的真实频谱增益。

其中，假如设定帧间隔为N，当N值较小时，而神经网路模型的拟合能力足够强时，得到的最终音频信号质量可以达到较高的水平(接近待处理语音信号的语音质量，具有较好的语音可懂度)，而所用码率仅为现有方案的N分之一。

其中，上述损失值表征了各预测频谱增益和各真实频谱增益之间的差异。

可选的，上述初始神经网络模型可以为lstm(Long Short-Term Memory，是长短期记忆网络)、rnn(Recurrent Neural Network，循环神经网络)、cnn(Convolutional NeuralNetworks，卷积神经网络)、gru(Gated Recurrent Units，循环神经网络)等不同的结构。

作为一个示例，参见图3中所示的网络结构示意图，在该示例中，初始神经网络模型(图3中所示的深度学习网络)为gru网络，该网络包括级联的输入DENSE单元、两层GRU网络单元和输出DENSE单元，该网络的输入为各帧待重建样本语音信号的功率谱(图3中所示的N帧插值信号功率谱，本示例中，频谱特征为功率谱，N为分帧处理后对应的帧数，插值信号为待重建样本语音信号)，输出为各帧待重建样本语音信号对应的增益值(图3中所示的频点增益)，在还原时，可将各增益值乘以对应帧的待重建语音信号的功率谱，最终得到通过神经网络模型还原的各帧重建语音信号的功率谱(N帧信号功率谱，)。

在本申请的可选方案中，上述确定不连续的抽帧样本语音信号中各帧的频域特征，包括：

对不连续的抽帧样本语音信号中各帧抽帧样本语音信号进行线性时频变换，得到各帧抽帧样本语音信号的线性频域特征；

对各帧抽帧样本语音信号的线性频域特征进行特征提取，得到各帧抽帧样本语音信号的对数频域特征，将各帧抽帧样本语音信号的对数频域特征作为各帧抽帧样本语音信号的频域特征。

其中，在神经网络模型训练过程中，各帧抽帧样本语音信号的频域特征可以为对数频域特征，相较于线性频域特征，对数频域特征更接近真实的语音信号的效果，并且，相同的语音信号对应的对数频域特征相较于线性频域特征数量少，则基于对数频域特征在模型的训练过程中，减少数据处理量，降低模型复杂度。

如图6中所示，在该示例中，执行主体可以为发送端，该方法可以包括以下步骤：

步骤S210，获取待处理语音信号，按照设定帧间隔对待处理语音信号进行抽帧处理，得到不连续的语音信号；

步骤S220，对不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到待处理语信号对应的编码码流；

步骤S230，将编码码流发送至接收端设备，以使接收端设备对编码码流进行以下处理得到目标语音信号：

对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征；将各帧原始语音信号的频域特征和各补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧待重建语音信号包括各帧原始语音信号和各补偿帧信号；基于各帧待重建语音信号的频谱增益以及各帧待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；基于各帧重建语音信号的频域特征，确定目标语音信号。

在本申请实施例中，在语音信号的发送端，对待处理语音信号进行抽帧处理，抽取语音信号中的部分信号(各帧原始语音信号)进行编码，将编码得到的编码码流传到接收端，在语音信号的接收端，先对这部分信号进行解码，得到各帧原始语音信号，再基于各帧原始语音信号的频域特征进行还原处理，得到各帧重建语音信号的频域特征，还原的目的是将部分信号还原为抽帧处理之前完整的频域的语音信号，最后基于各帧重建语音信号的频域特征得到目标语音信号，本申请方案中，由于在发送端是对待处理语音信号的部分信号进行编码传输，可有效的降低带宽，尤其对于通话带宽有限和通话带宽消耗较高的场景，还可降低运营成本。

上述方案与图2中所示的语音信号处理方法只是执行主体不同的方案，其实现原理是相同的，具体可参见前文描述的方案，在此不再赘述。

为了更好的说明及理解本申请所提供的方法的原理，下面结合一个可选的具体实施例对本申请的方案进行说明。需要说明的是，该具体实施例中的各步骤的具体实现方式并不应当理解为对于本申请方案的限定，在本申请所提供的方案的原理的基础上，本领域技术人员能够想到的其他实现方式也应视为本申请的保护范围之内。

在本示例中，基于上述神经网络模型的训练方式训练得到训练好的神经网络模型。结合图4和图5对本申请方案进行进一步的说明：

步骤1，在语音会议场景，发送端设备采集语音会议中的语音信号，将采集的语音信号转换为数字语音信号，将数字语音信号作为待处理语音信号(图4中所示的语音信号连续采集)。

步骤2，对该待处理语音信号进行时频变换(本示例中，傅里叶变换)，得到待处理语音信号对应的频域特征和相位特征，并确定该待处理语音信号语谱图(对待处理语音信号进行分帧处理)，具体参见图5(a)图所示的语谱图示意图，在该语谱图中，图中的横坐标代表帧序号，纵坐标代表不同频点的幅值。比如，待处理信号包含7帧信号(示例性说明)，每帧频域上划分为10个频点(这里只是示意，实际应用中可根据快速傅里叶变换的点数来决定频点数量)，图5(a)中的每个小格子代表了不同帧序号在不同频点上对应的功率谱幅值信息(本示例中，频域特征为功率谱)。

在本示例中，可先对待处理语音信号进行时频变换，再进行分帧处理，也可以先进行分帧处理，再进行时频变换，本申请方案中并不限定其执行的先后顺序。

步骤3，每隔2帧，从分帧处理后的待处理语音信号(7帧信号)中抽取一帧信号，得到不连续的语音信号(图4中所示的间隔N帧语音编码),抽帧后可参见图5(b)图中所示的不连续的语音信号的示意图，图5(b)中所示的不连续的语音信号中的各帧原始语音信号分别为第一帧语音信号，第四帧语音信号和第七帧语音信号。

步骤4，通过iLBC语音编解码器对这三帧原始语音信号分别进行编码，得到编码码流(图4中所示的信道编码)，并将编码码流通过网络发送至接收端设备。

上述步骤1至步骤4为发送端设备做的。

步骤5，接收端设备在接收到编码码流后，对该编码码流进行解码，得到各帧原始语音信号，即第一帧语音信号，第四帧语音信号和第七帧语音信号(图4中所示的信道解码)。

图5(b)中所示的抽样编解码信号(语谱)指的是对抽样语谱得到的各帧信号进行编码以及解码。

步骤6，获取相邻帧信号之间的补偿帧信号的频域特征与相邻帧信号中各帧原始语音信号的频域特征之间的第一关联关系；基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行内插值处理，得到相邻帧信号之间的内插信号的频域特征。

在本示例中，以相邻帧信号为第四帧语音信号和第七帧语音信号为例进行后续说明。

第一关联关系可通过以下公式(1)表示：

其中，X₁(i,j+n)代表各帧原始语音信号中的第j帧原始语音信号后的第n个补偿帧的第i个频点功率谱幅值的插值估计值，Y(i,j)代表第j帧原始语音信号的第i个频点功率谱幅值的真值(真实功率谱值),Y(i,j+1)代表第j+1帧的原始语音信号的第i个频点功率谱幅值的真值。X₁(i,j+n)是第一次插值的结果(内插信号的功率谱值)。其中，n范围是1～N-1的整数，N为设定帧间隔。

如果N为2，对相邻帧信号进行内插值处理，得到相邻帧信号之间的内插信号的帧数为2，即在第四帧语音信号和第七帧语音信号之间插入两帧补偿帧信号。

基于第一关联关系，第四帧语音信号的功率谱值，第七帧语音信号的功率谱值，可得到两帧补偿帧信号的功率谱值(内插信号的功率谱值)。

步骤7，获取相邻帧信号之间的补偿帧信号的频域特征、相邻帧信号的第三信号的频域特征和第一信号的频域特征之间的第二关联关系，第三信号为第一信号的前一帧信号；基于第二关联关系、第一信号的频域特征和第三信号的频域特征，对相邻帧信号进行外插值处理，得到相邻帧信号之间的外插信号的频域特征；

接上例，在进行内插处理得到两帧补偿帧信号(内插信号)之后，可基于第二关联关系，第四帧语音信号的功率谱值(第一信号的频域特征)，第一帧语音信号的功率谱值(第三信号的频域特征)，确定第四帧语音信号和第七帧语音信号之间插入两帧补偿帧信号(外插信号)的功率谱值。

上述第二关联关系可通过以下公式(2)表示：

其中，X₂(i,j+n)代表各帧原始语音信号中的第j帧原始语音信号后的第n个补偿帧的第i个频点功率谱幅值的插值估计值，Y(i,j)代表第j帧原始语音信号的第i个频点功率谱幅值的真值(真实功率谱值),Y(i,j-1)代表第j-1帧的原始语音信号的第i个频点功率谱幅值的真值，第j-1帧的原始语音信号为第j帧信号的前一帧信号。X₂(i,j+n)是第二次插值的结果(外插信号的功率谱值)。其中，n范围是1～N-1的整数，N为设定帧间隔。

基于第二关联关系，第四帧语音信号的功率谱值，第一帧语音信号的功率谱值，可得到两帧补偿帧信号的功率谱值(外插信号的功率谱值)。

步骤8，对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合，得到相邻帧信号之间的补偿帧信号的频域特征。

具体融合的方式可参见以下公式(3)：

X(i,j+n)＝a×X₁(i,j+n)+(1-a)×X₂(i,j+n) (3)

其中，X(i,j+n)代表各帧原始语音信号中的第j帧原始语音信号后的第n个补偿帧的第i个频点功率谱幅值的插值估计值，a为第一权重，(1-a)为第二权重，X₁(i,j+n)为内插信号的功率谱值，X₂(i,j+n)为外插信号的功率谱值，a×X₁(i,j+n)表示加权后的内插信号的功率谱值，(1-a)×X₂(i,j+n)表示加权后的外插信号的功率谱值。X(i,j+n)表示各补偿帧信号的功率谱值。

本示例中，可选的，a＝0.7。

基于上述公式(3)，可得到各补偿帧信号的功率谱值(图4中所示的语音解码)。

在得到各补偿帧信号的功率谱值之后(图5(c)中所示的二次加权插值信号之后)，此时，共有7帧语音信号，参见图5(c)所示的各帧信号示意图，其中，虚线部分表示各补偿帧信号的功率谱值，实线部分表示各相邻帧信号。

步骤9，将各帧原始语音信号的频域特征和各补偿帧信号的频域特征(7帧语音信号的功率谱值)输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧待重建语音信号包括各帧原始语音信号和各补偿帧信号。

步骤10，将各帧待重建语音信号(7帧语音信号)的频谱增益与对应的频域特征相乘，确定各帧重建语音信号的频域特征。参见图5(d)所示的各帧重建语音信号(图5(c)中的深度学习还原信号)的频域特征(图4中所示的深度学习N帧还原处理)。

步骤11，基于各帧原始语音信号的相位特征和各帧重建语音信号的频域特征，对各帧重建语音信号的频域特征进行频时变换，得到各帧重建语音信号的时域特征；将各帧重建语音信号的时域特征作为目标语音信号，通过接收端设备播放该目标语音信号(图4中所示的语音信号播放)。

本示例中，上述步骤5至步骤11在接收端设备执行。在该示例中，接收端设备可以为各个参与语音会议的用户的终端设备，发送端设备可以为语音会议中正在讲话的用户的终端设备。

本申请实施例提供了一种语音信号处理装置，如图7所示，该语音信号处理装置30可以包括：语音信号接收模块310、解码模块320、插值处理模块330、频谱增益确定模块340、重建语音信号确定模块350以及语音处理模块360，其中，

语音信号接收模块310，用于接收待处理语音信号对应的编码码流，编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，不连续的语音信号是按照设定帧间隔对待处理语音信号进行抽帧处理得到的；

解码模块320，用于对编码码流进行解码得到各帧原始语音信号，并确定各帧原始语音信号的频域特征；

插值处理模块330，用于基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征；

频谱增益确定模块340，用于将各帧原始语音信号的频域特征和各补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧待重建语音信号包括各帧原始语音信号和各补偿帧信号；

重建语音信号确定模块350，用于基于各帧待重建语音信号的频谱增益以及各帧待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；

语音处理模块360，用于对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号。

可选的，上述插值处理模块330在基于各帧原始语音信号的频域特征，对各帧原始语音信号进行插值处理，得到各帧原始语音信号之间的补偿帧信号的频域特征时，具体用于：对于各帧原始语音信号中每对相邻帧信号，基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征；根据各相邻帧信号之间的补偿帧信号的频域特征，确定各帧原始语音信号之间的补偿帧信号的频域特征。

可选的，对于各帧信号中每对相邻帧信号，上述插值处理模块330在基于相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征时，具体用于：获取相邻帧信号之间的补偿帧信号的频域特征与相邻帧信号中各帧原始语音信号的频域特征之间的第一关联关系；基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行内插值处理，得到相邻帧信号之间的补偿帧信号的频域特征。

可选的，对于各帧原始语音信号中每对相邻帧信号，上述相邻帧信号中包括第一信号和第二信号，上述第一信号在第二信号之前；上述插值处理模块330在基于第一关联关系和相邻帧信号中每帧原始语音信号的频域特征，对相邻帧信号进行插值处理，得到相邻帧信号之间的补偿帧信号的频域特征时，具体用于：

可选的，上述插值处理模块330在对各帧内插信号的频域特征与各帧外插信号的频域特征进行融合，得到相邻帧的信号之间的补偿帧信号的频域特征时，具体用于：获取各帧内插信号对应的第一权重以及各帧外插信号对应的第二权重；对于各帧内插信号中的每帧内插信号，对内插信号的频域特征和内插信号对应的第一权重进行加权处理，得到加权后的内插信号的频域特征；对于各帧外插信号中的每帧外插信号，对外插信号的频域特征和外插信号对应的第二权重进行加权处理，得到加权后的外插信的频域特征；基于各帧加权后的内插信号的频域特征和各帧加权后的外插信号的频域特征，确定相邻帧信号之间的补偿帧信号的频域特征。

可选的，上述还原模块320在确定各帧原始语音信号的频域特征时，具体用于：对各帧原始语音信号进行时频变换，得到各帧原始语音信号的频域特征和相位特征；

上述语音处理模块360在对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号时，具体用于：基于各帧原始语音信号的相位特征和各帧重建语音信号的频域特征，对各帧重建语音信号的频域特征进行频时变换，得到各帧重建语音信号的时域特征；将各帧重建语音信号的时域特征作为目标语音信号。

可选的，若频域特征为梅尔谱频域特征，上述语音处理模块360在对各帧重建语音信号的频域特征进行频时变换，得到目标语音信号时，具体用于：基于各帧重建语音信号的梅尔谱频域特征，对还原后的各帧语音信号的频域特征进行频时变换，得到目标语音信号。

本申请实施例提供了一种语音信号处理装置，如图8所示，该语音信号处理装置40可以包括：语音信号获取模块410、编码模块420以及发送模块430，其中，

语音信号获取模块410，用于获取待处理语音信号，按照设定帧间隔对待处理语音信号进行抽帧处理，得到不连续的语音信号；

编码模块420，用于对不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到待处理语信号对应的编码码流；

发送模块430，用于将编码码流发送至接收端设备，以使接收端设备对编码码流进行解码得到各帧原始语音信号，确定各帧原始语音信号的频域特征，对各帧原始信号的频域特征进行以下处理得到目标语音信号：

本申请实施例的语音信号处理装置可执行本申请实施例提供的一种语音信号处理方法，其实现原理相类似，此处不再赘述。

在一些实施例中，本发明实施例提供的语音信号处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的语音信号处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的语音信号处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

本申请实施例提供了一种电子设备，如图9所示，图9所示的电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选地，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现图7和图8所示的各模块的功能。

处理器2001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备，RAM或者可存储信息和计算机程序的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。

存储器2003用于存储执行本申请方案的应用程序的计算机程序，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序，以实现图7和图8所示实施例提供的语音信号处理装置的动作。

本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由所述处理器执行时，使得所述处理器上述实施例中的任一项方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行上述实施例中的任一项方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种语音信号处理方法，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音信号处理方法，其特征在于，包括：

接收待处理语音信号对应的编码码流，所述编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，所述不连续的语音信号是按照设定帧间隔对所述待处理语音信号进行抽帧处理得到的；

对所述编码码流进行解码得到各帧所述原始语音信号，并确定各帧所述原始语音信号的频域特征；

基于各帧所述原始语音信号的频域特征，对各帧所述原始语音信号进行插值处理，得到各帧所述原始语音信号之间的补偿帧信号的频域特征；

将各帧所述原始语音信号的频域特征和各所述补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧所述待重建语音信号包括各帧所述原始语音信号和各所述补偿帧信号；

基于各帧所述待重建语音信号的频谱增益以及各帧所述待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；

对各帧所述重建语音信号的频域特征进行频时变换，得到目标语音信号。

2.根据权利要求1所述的方法，其特征在于，所述基于各帧所述原始语音信号的频域特征，对各帧所述原始语音信号进行插值处理，得到各帧所述原始语音信号之间的补偿帧信号的频域特征，包括：

对于各帧所述原始语音信号中每对相邻帧信号，基于所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征；

根据各相邻帧信号之间的补偿帧信号的频域特征，确定各帧所述原始语音信号之间的补偿帧信号的频域特征。

3.根据权利要求2所述的方法，其特征在于，对于各帧所述信号中每对相邻帧信号，所述基于所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征，包括：

获取相邻帧信号之间的补偿帧信号的频域特征与所述相邻帧信号中各帧原始语音信号的频域特征之间的第一关联关系；

基于所述第一关联关系和所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行内插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征。

4.根据权利要求3所述的方法，其特征在于，对于各帧所述原始语音信号中每对相邻帧信号，所述相邻帧信号中包括第一信号和第二信号，所述第一信号在所述第二信号之前；所述基于所述第一关联关系和所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行插值处理，得到所述相邻帧信号之间的补偿帧信号的频域特征，包括：

基于所述第一关联关系和所述相邻帧信号中每帧原始语音信号的频域特征，对所述相邻帧信号进行内插值处理，得到所述相邻帧信号之间的内插信号的频域特征；

获取相邻帧信号之间的补偿帧信号的频域特征、所述相邻帧信号的第三信号的频域特征和所述第一信号的频域特征之间的第二关联关系，所述第三信号为所述第一信号的前一帧信号；

基于所述第二关联关系、所述第一信号的频域特征和所述第三信号的频域特征，对所述相邻帧信号进行外插值处理，得到所述相邻帧信号之间的外插信号的频域特征；

对各帧所述内插信号的频域特征与各帧所述外插信号的频域特征进行融合，得到所述相邻帧信号之间的补偿帧信号的频域特征。

5.根据权利要求4所述的方法，其特征在于，所述对各帧所述内插信号的频域特征与各帧所述外插信号的频域特征进行融合，得到所述相邻帧的信号之间的补偿帧信号的频域特征，包括：

获取各帧所述内插信号对应的第一权重以及各帧所述外插信号对应的第二权重；

对于各帧所述内插信号中的每帧内插信号，对所述内插信号的频域特征和所述内插信号对应的第一权重进行加权处理，得到加权后的内插信号的频域特征；

对于各帧所述外插信号中的每帧外插信号，对所述外插信号的频域特征和所述外插信号对应的第二权重进行加权处理，得到加权后的外插信的频域特征；

基于各帧所述加权后的内插信号的频域特征和各帧所述加权后的外插信号的频域特征，确定所述相邻帧信号之间的补偿帧信号的频域特征。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述神经网络模型是通过以下方式训练得到的：

获取样本数据，所述样本数据包括多个样本语音信号；

对于每个样本语音信号，对所述样本语音信号进行分帧处理，得到各帧分帧语音信号，并按照设定帧间隔对各帧所述分帧语音信号进行抽帧处理，得到不连续的抽帧样本语音信号；

确定所述不连续的抽帧样本语音信号中各帧的频域特征；

对所述不连续的抽帧样本语音信号中各帧的频域特征进行插值处理，得到各帧待重建样本语音信号的频域特征；

基于各帧所述待重建样本语音信号的频域特征和各帧所述分帧语音信号，确定各帧所述待重建样本语音信号的真实频谱增益；

重复执行以下训练步骤直至损失值满足训练结束条件，得到所述神经网络模型：

将各帧所述待重建样本语音信号的频域特征输入至初始神经网络模型，得到各帧所述待重建样本语音信号对应的预测频谱增益；

基于各所述预测频谱增益和各所述真实频谱增益，确定所述初始神经网络模型对应的损失值，若所述损失值满足训练结束条件，结束训练，得到所述神经网络模型；若不满足，调整所述初始神经网络模型的模型参数，并重复所述训练步骤。

7.根据权利要求6所述的方法，其特征在于，所述确定所述不连续的抽帧样本语音信号中各帧的频域特征，包括：

对所述不连续的抽帧样本语音信号中各帧抽帧样本语音信号进行线性时频变换，得到各帧所述抽帧样本语音信号的线性频域特征；

对各帧所述抽帧样本语音信号的线性频域特征进行特征提取，得到各帧所述抽帧样本语音信号的对数频域特征，将各帧所述抽帧样本语音信号的对数频域特征作为各帧所述抽帧样本语音信号的频域特征。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述确定各帧所述原始语音信号的频域特征，包括：

对各帧所述原始语音信号进行时频变换，得到各帧所述原始语音信号的频域特征和相位特征；

所述对各帧所述重建语音信号的频域特征进行频时变换，得到目标语音信号，包括：

基于各帧所述原始语音信号的相位特征和各帧所述重建语音信号的频域特征，对各帧所述重建语音信号的频域特征进行频时变换，得到各帧所述重建语音信号的时域特征；

将各帧重建语音信号的时域特征作为所述目标语音信号。

9.根据权利要求1至5中任一项所述的方法，其特征在于，若所述频域特征为梅尔谱频域特征，所述对各帧所述重建语音信号的频域特征进行频时变换，得到目标语音信号，包括：

基于各帧所述重建语音信号的梅尔谱频域特征，对所述还原后的各帧语音信号的频域特征进行频时变换，得到目标语音信号。

10.一种语音信号处理方法，其特征在于，包括：

获取待处理语音信号，按照设定帧间隔对所述待处理语音信号进行抽帧处理，得到不连续的语音信号；

对所述不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到所述待处理语信号对应的编码码流；

将所述编码码流发送至接收端设备，以使所述接收端设备对所述编码码流进行以下处理得到目标语音信号：

基于各帧所述重建语音信号的频域特征，确定目标语音信号。

11.一种语音信号处理装置，其特征在于，包括：

语音信号接收模块，用于接收待处理语音信号对应的编码码流，所述编码码流是发送端设备对不连续的语音信号中的各帧原始语音信号分别进行编码处理得到的，所述不连续的语音信号是按照设定帧间隔对所述待处理语音信号进行抽帧处理得到的；

解码模块，用于对所述编码码流进行解码得到各帧所述原始语音信号，并确定各帧所述原始语音信号的频域特征；

插值处理模块，用于基于各帧所述原始语音信号的频域特征，对各帧所述原始语音信号进行插值处理，得到各帧所述原始语音信号之间的补偿帧信号的频域特征；

频谱增益确定模块，用于将各帧所述原始语音信号的频域特征和各所述补偿帧信号的频域特征输入至训练好的神经网络模型，得到各帧待重建语音信号的频谱增益，各帧所述待重建语音信号包括各帧所述原始语音信号和各所述补偿帧信号；

重建语音信号确定模块，用于基于各帧所述待重建语音信号的频谱增益以及各帧所述待重建语音信号的频域特征，确定各帧重建语音信号的频域特征；

语音处理模块，用于对各帧所述重建语音信号的频域特征进行频时变换，得到目标语音信号。

12.一种语音信号处理装置，其特征在于，包括：

语音信号获取模块，用于获取待处理语音信号，按照设定帧间隔对所述待处理语音信号进行抽帧处理，得到不连续的语音信号；

编码模块，用于对所述不连续的语音信号中的各帧原始语音信号分别进行编码处理，得到所述待处理语信号对应的编码码流；

发送模块，用于将所述编码码流发送至接收端设备，以使所述接收端设备对所述编码码流进行以下处理得到目标语音信号：

基于所述各帧重建语音信号的频域特征，确定目标语音信号。

13.一种电子设备，其特征在于，包括处理器以及存储器：

所述存储器被配置用于存储计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行上述权利要求1-10中任一项所述的方法。