CN113035207B

CN113035207B - 音频处理方法及装置

Info

Publication number: CN113035207B
Application number: CN202110234594.2A
Authority: CN
Inventors: 王晓红; 陈佳路; 刘鲁鹏; 元海明; 李贝; 夏龙
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2024-03-22
Anticipated expiration: 2041-03-03
Also published as: CN113035207A

Abstract

本说明书提供音频处理方法及装置，其中所述音频处理方法包括：获取待处理音频；对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列；根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列；基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频，实现了精准的对待处理音频进行补偿，有效的提高了补偿效率以及补偿精准度。

Description

音频处理方法及装置

技术领域

本说明书涉及计算机技术领域，特别涉及一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网越来越普及，实时语音通信应用被应用的越来越广泛，但是由于存在网络状态及相关因素的影响，实时语音通讯的丢包问题在所难免，与视频传输不同，语音丢包处理不佳，会让通话双方体验严重下降，因此为了避免这一问题，现有技术中，通常采用基于接收端补偿的补偿方法解决上述问题；而基于接收端补偿通常采用错误隐蔽算法的丢包补偿技术，通过产生一个与丢包的语音包相似的替代语音实现补包操作，但是由于算法限制其仅能处理较小的丢包率(<15％)和较小的语音包(4-40ms)，并且该算法精准度较低，在部分业务场景中很难满足业务需求，因此亟需一种有效的方案以解决该问题。

发明内容

有鉴于此，本说明书实施例提供了一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种音频处理方法，包括：

获取待处理音频；

对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列；

根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列；

基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频。

可选地，所述对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列，包括：

对所述待处理音频进行分帧处理，获得时域帧序列；

按照预设的变换策略对所述时域帧序列进行变换处理，获得所述全局频域帧序列。

可选地，所述按照预设的变换策略对所述时域帧序列进行变换处理，获得所述全局频域帧序列，包括：

确定所述时域帧序列对应的时域信息，并在所述预设的变换策略中选择与所述时域信息对应的变换参数；

通过所述变换参数对所述时域帧序列进行变换处理，获得所述全局频域帧序列。

可选地，所述根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，包括：

确定所述全局频域帧序列对应的频域信息，并基于所述频域信息确定所述全局频域帧序列的频域帧、分量以及复数；

基于所述频域帧、所述分量以及所述复数构建所述待处理音频对应的所述音频特征集合。

可选地，所述将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列，包括：

将所述音频特征集合输入至所述音频处理模型，通过所述音频处理模型中的卷积层对所述音频特征集合进行处理，获得中间音频特征集合；

基于所述音频处理模型中的预设参考幅值对所述中间音频特征集合进行调整，获得目标音频特征集合；

通过所述音频处理模型中的输出层对所述目标音频特征集合进行处理，获得所述音频处理模型输出的所述局部频域帧序列。

可选地，所述基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频，包括：

基于所述局部频域帧序列对所述全局频域帧序列进行更新，获得目标全局频域帧序列；

根据所述目标全局频域帧序列生成用于替换所述待处理音频的所述目标音频。

可选地，所述基于所述局部频域帧序列对所述全局频域帧序列进行更新，获得目标全局频域帧序列，包括：

在所述全局频域帧序列中确定与所述局部频域帧序列对应的初始局部频域帧序列；

根据所述局部频域帧序列对所述全局频域帧序列中的所述初始局部频域帧序列进行更新，获得所述目标全局频域帧序列。

可选地，所述根据所述局部频域帧序列对所述全局频域帧序列中的所述初始局部频域帧序列进行更新，获得所述目标全局频域帧序列，包括：

根据所述初始局部频域帧序列在所述全局频域帧序列中确定固定频域帧序列；

将所述固定频域帧序列与所述局部频域帧序列进行拼接，获得所述目标全局频域帧序列。

可选地，所述根据所述目标全局频域帧序列生成用于替换所述待处理音频的所述目标音频，包括：

对所述目标全局频域帧序列进行逆处理，获得目标全局时域帧序列；

根据所述目标全局时域帧序列生成用于替换所述待处理音频的目标音频。

可选地，所述获取待处理音频，包括：

获取多个音频数据包，并基于所述多个音频数据包生成初始音频；

在基于所述多个音频数据包分别对应的序列号确定丢包的情况下，根据所述多个音频数据包分别对应的序列号确定丢包序列号；

基于所述丢包序列号在所述初始音频中确定包含丢失音频区间的音频片段，将包含所述丢失音频区间的音频片段作为所述待处理音频。

可选地，所述音频处理模型采用如下方式训练：

获取样本音频以及所述样本音频对应的样本局部频域帧序列；

对所述样本音频进行预处理获得所述样本音频对应的样本全局频域帧序列，并根据所述样本全局频域帧序列构建样本音频特征集合；

将所述样本音频特征集合和所述样本局部频域帧序列输入至初始音频处理模型进行训练，直至所述初始音频处理模型满足训练停止条件，根据训练结果获得所述音频处理模型。

可选地，所述训练停止条件由所述初始音频处理模型的损失值确定；

相应的，所述损失值由幅值损失和相位损失确定，用于确定训练过程中的初始音频处理模型的预测精准度。

根据本说明书实施例的第二方面，提供了一种音频处理装置，包括：

获取模块，被配置为获取待处理音频；

预处理模块，被配置为对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列；

模型处理模块，被配置为根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列；

生成模块，被配置为基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取待处理音频；

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述音频处理方法的步骤。

本申请提供的一种音频处理方法，在获取到所述待处理音频后，可以对所述待处理音频进行预处理，以得到所述待处理音频对应的全局频域帧序列，实现在频域维度对需要补包的音频片段进行预测，之后根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将其输入至所述音频处理模型进行处理获得所述局部频域帧序列，最后基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频，实现了通过结合待处理音频的上下文音频数据，更好的预测了谐波信息，并且采用在频域维度进行处理，解决了相位单独计算困难的问题，有效的提高了生成目标音频的质量，从而进一步的保证了生成目标音频的处理效率和精准度。

附图说明

图1是本说明书一实施例提供的一种音频处理方法的流程图；

图2是本说明书一实施例提供的一种音频处理方法中音频信号对应的示意图；

图3是本说明书一实施例提供的一种音频处理方法中时频转换对应的示意图；

图4是本说明书一实施例提供的一种音频处理方法中时域帧和频域帧对应关系的示意图；

图5是本说明书一实施例提供的一种音频处理方法中音频处理模型结构对应的示意图；

图6是本说明书一实施例提供的一种应用于即时通讯场景中的音频处理方法的处理流程图；

图7是本说明书一实施例提供的一种音频处理装置的结构示意图；

图8是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

信噪比：(signal-to-noise ratio，SNR)是指一个电子设备或者电子系统中信号与噪声的比例。这里面的信号指的是来自设备外部需要通过这台设备进行处理的电子信号，噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息)，并且该种信号并不随原信号的变化而变化。

客观差异等级：(objective difference grade，ODG)反映了处理后信号与原始信号的差异程度。

线性预测编码：(linear predictive coding，LPC)用于音频信号处理与语音处理中，根据线性预测模型的信息用压缩形式表示数字语音信号谱包络(en:spectralenvelope)的工具。它是最有效的语音分析技术之一，也是低位速下编码高质量语音最有用的方法之一，它能够提供非常精确的语音参数预测。

短时傅里叶变换：(short-time Fourier transform，STFT)选择一个时频局部化的窗函数，假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。

在本说明书中，提供了一种音频处理方法，本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，实时语音通信应用场景中由于网络状态等原因，很容易造成丢包的问题，致使传输的音频播放效果不佳，为了避免这一问题，通常会采用错误隐蔽算法的丢包补偿技术，或基于深度神经网络来根据上下文信息恢复丢失的音频内容。但是基于深度神经网络来根据上下文信息恢复丢失的音频内容所针对的场景是丢失64ms音频数据的情形，在该场景下，通常会采用一种Encoder+Decoder的DNN(Deep Neural Networks)结构，其输入特征为64ms缺口的上下文音频数据的短时傅里叶变换的系数，使用的数据集是音乐和器乐两种音频信号，需要分别训练复数系数和幅值系数两种DNN网络。在信噪比(SNR:signal-to-noise ratio)和客观差异等级(ODG：objective difference grade)上，幅值DNN比复数DNN虽然表现要好一些，但是对于器乐数据集，参考的线性预测编码(LPC：linearpredictive coding)方法在SNR和ODG两种度量标准上均要胜出，但是在音乐信号上，LPC表现比幅值DNN要差。这表明幅值DNN的潜力，尤其在补偿比单乐器声音更复杂的声音信号方面具有更大的优势。

但是，现有技术中的幅值DNN技术方案，DNN网络仅会输出幅值信息，相位信息需要单独计算：先使用gradient heap integration算法来设置相位的初始值，再使用快速Griffin-Lim算法迭代100次得到最终的相位，计算复杂度高，运行缓慢。而基于复数DNN技术方案中，是把STFT(short-time Fourier transform)后的实部和虚部作为2维特征值，而神经网络层的参数都是实数，该方案比幅值DNN方案的预测质量还要差。并且上述方案仅会针对64毫秒的长时丢包补偿，并且丢包位置前后各需128毫秒的数据，不适用于需要实时处理的场合。因此亟需一种有效的方案以解决上述问题。

本申请提供的一种音频处理方法，在获取到所述待处理音频后，可以对所述待处理音频进行预处理，以得到所述待处理音频对应的全局频域帧序列，实现在频域维度对需要补包的音频片段进行预测，之后根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将其输入至所述音频处理模型进行处理获得所述局部频域帧序列，最后基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频，实现了通过结合待处理音频的上下文音频数据更好的预测了谐波信息，并且采用在频域维度进行处理，解决了相位单独计算困难的问题，有效的提高了生成目标音频的质量，从而进一步的保证了生成目标音频的处理效率和精准度。

图1示出了根据本说明书一实施例提供的一种音频处理方法的流程图，具体包括以下步骤：

步骤S102，获取待处理音频。

具体的，所述待处理音频具体是指包含丢失音频区间的音频，且丢失音频区间在所述待处理音频中相邻的音频区间均为未丢失的音频区间。需要说明的是，本实施例提供的音频处理方法，其目的是为了能够对待处理音频中丢失的音频区间进行补偿，即可以基于丢失音频区间的上下文音频对丢失的音频区间进行预测，以得到替换所述待处理音频的目标音频，而在大多数具有音频传输需求的场景下，都可能因为网络波动等因素引起组成音频的音频数据包丢失，如实时语音通信场景(即时通讯语音通话)，语音合成场景(端到端的语音合成)，以及音频收听场景(广播、音乐或电台)等，都需要有服务端向客户端发送音频数据，以支持客户端对音频进行播放；而本实施例提供的音频处理方法即为解决音频传输过程中丢包补偿的问题，且在上述应用场景中均可以使用，因此本实施例提供的音频处理方法应用的场景可以根据实际应用场景进行设置，本实施例在此不作任何限定。

基于此，由于不同的应用场景下发送的音频长度不同，而如果对任意场景下的任意发生丢包的音频作为一个整体进行处理，可能需要消耗较多的计算资源才能够完成，因此为了能够节省计算资源的消耗，可以根据实际应用场景在音频中选择包含丢失音频区间的音频片段作为所述待处理音频，以用于后续的补包处理过程，本实施例中，具体实现方式如下所述：

具体的，所述多个音频数据包具体是指在实际应用场景中由客户端所接收的通过网络传输过来的音频数据包，如在即时通讯场景中，用户U1与用户U2通过即时通讯软件W进行语音通话，若用户U1通过软件W向用户U2发送了一段长度为5s的语音，则此时用户U2的终端设备将接收到该段语音，且由于网络传输的特性，因此该5s的语音将划分为多个音频数据包进行传输；相应的，所述初始音频具体是指通过所述多个音频数据包生成的音频片段，即基于多个音频数据包生成的5s的语音片段。所述序列号具体是指每个音频数据包所具有的唯一标识，且所述序列号是连续的，通过分析所述序列号可以确定发生丢包的情况，即丢包的情况下，序列号将出现缺失，根据缺失情况即可确定丢包情况；相应的，所述丢包序列号即为发生丢失的音频数据包具有的序列号。所述丢失音频区间即为丢失的音频数据包所对应的音频区间。

基于此，在获取到由其他客户端或服务端传输的多个音频数据包后，此时即可根据所述多个音频数据包生成初始音频，并且可以通过确定多个音频数据包分别对应的序列号确定是否发生丢包的问题，若未发生，则可以直接将所述初始音频进行播放；若发生，则可以根据序列号确定丢包序列号，之后再通过所述丢包序列号即可在所述初始音频中确定包含丢失音频区间的音频片段，为了能够对丢包序列号对应的音频片段进行丢包补偿，此时可以将包含所述丢包音频区间的音频片段作为所述待处理音频，以用于后续的处理过程。

需要说明的是，丢失音频区间在所述音频片段中，其前后相邻具有未丢失的音频区间，也就是说，丢失音频区间在所述音频片段中的偏中间位置，这样后续能够通过复数深度神经网络对丢包的音频区间进行精准的预测，从而得到满足替换需求的目标音频。

实际应用中，由于不同场景下传输的初始音频长度不同，因此为了能够精准的对发生丢包的音频进行丢包补偿，可以在确定包含所述丢失音频区间的音频片段时，选择合适处理长度的音频片段作为所述待处理音频，该长度可以根据实际应用场景进行设定，本实施例在此不作任何限定，即如果初始音频长度过短，则可以直接将所述初始音频作为所述待处理音频，如果初始音频长度过长，则可以选择初始音频中包含丢失音频区间的音频片段作为所述待处理音频。

而在此过程中，为了能够方便在不同场景下，可以在所述初始音频中选择出合适后续处理的待处理音频，可以根据丢失音频区间的长度选择在丢包位置前N倍的数据，以及选择丢包位置后的M倍的数据组成所述待处理音频，以用以后续的处理操作，例如丢包音频区间为T_lost＝8ms，则可以选择丢包位置前的N*T_lost的未丢包音频区间，以及丢包位置后的M*T_lost的未丢包音频区间组成待处理音频；其中N与M的取值可以根据实际应用场景设定，本实施例在此不作任何限定，同时可以通过减小M的值的方式，使该方案适用于基于RTP/UDP的低延时直播网络，以达到丢包补偿的目的。

举例说明，服务端向客户端发送了长度为T的英语口语教学音频，以供持有客户端的用户学习音频中的英语口语知识；在此过程中，服务端会根据通信协议将长度为T的英语口语教学音频打包为N个音频数据包(其中，各个音频数据包将按照各自的序列号进行传输，各个音频数据包的序列号的排列顺序为N₁，N₂…N_n)，通常情况下客户端将接收到N个音频数据包，之后基于N个音频数据包即可创建出长度为T的英语口语教学音频(参见图2中(a)所示的未丢包的音频信号对应的时域示意图)进行播放。

但是由于服务端和客户端之间的网络波动，造成丢包的问题发生，此时客户端根据接收到的音频数据包对应的序列号，确定序列号为N₉的音频数据包并未被接收到，说明音频数据包N₉丢失，而为了能够向用户播放质量较高的教学音频，此时可以对丢失的音频片段进行补包处理；基于此，此时可以根据接收到的N-1个音频数据包生成初始音频(参见图2中(b)所示的发生丢包后的音频信号对应的时域示意图)，之后基于音频数据包序列号N₉在初始音频中确定丢失的音频区间为65ms-72ms，丢失音频区间T_lost的长度为8ms；则此时可以根据初始音频中的丢失音频区间前的音频区间T_left，丢失音频区间T_lost，以及丢失音频区间后的音频区间T_right组成待处理音频，以用于后续的丢包补偿处理。其中，丢失音频区间前的音频区间T_left＝64ms，丢失音频区间后的音频区间T_right＝48ms，在音频输入为16k采样率的情况下，可以取丢失音频区间T_lost＝8ms(128采样点)，T_left＝64毫秒(1024采样点)，T_right＝48毫秒(768采样点)。此外，T_lost/T_left/T_right可以取不同的值，只要T_left和T_right相对于T_lost提供了足够的谐波相关性即可。

综上，通过选择丢失音频区间的相邻音频区间组成所述音频片段，后续在处理过程中可以更好的预测谐波信息，从而提高丢包补偿操作的精准度，以实现生成质量更佳的目标音频。

步骤S104，对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列。

具体的，在上述获取到所述待处理音频后，说明所述待处理音频中包含需要进行丢包补偿的丢失音频片段，在此基础上，为了能够更加精准高效的对所述待处理音频中的丢失音频区间进行补偿，本实施例选择在频域维度进行处理，即此时将对获取到的所述待处理音频进行预处理，以得到所述待处理音频对应的所述全局频域帧序列，其中，所述全局频域帧序列具体是指通过对时域维度的待处理音频进行变换后，得到该音频对应的全部频域帧组成的序列。

基于此，由于现有技术实现的方案在进行丢包补偿后，会出现相位误差大的问题，以及丢包补偿结果与上下文搭接不连贯的问题，为了能够避免上述问题对丢包补偿后的音频的质量产生影响，本实施例采用在复数域进行处理，以达到精准高效的完成丢包补充操作，即对所述待处理音频进行预处理，以得到与所述待处理音频对应的全局频域帧序列，以用于后续的丢包补偿处理。

而在此过程中，考虑到在不同的场景下需要采用不同的参数对待处理音频进行预处理，以得到更加适合后续处理的全局频域帧序列，因此需要按照预设的变换策略对所述待处理音频对应的时域帧序列进行处理，本实施例中，具体实现方式如下所述：

对所述待处理音频进行分帧处理，获得时域帧序列；

具体的，所述时域帧序列具体是指在时域维度对所述待处理音频进行分帧处理后得到的多个时域帧组成的序列；相应的，所述变换策略具体是指对所述时域序列进行变换处理所需要使用的策略，如短时傅里叶变换策略。

基于此，在获取到所述待处理音频后，为了能够提高后续丢包补偿的精准度，此时可以对所述待处理音频进行分帧处理，以得到所述待处理音频在时域维度的时域帧序列；之后再按照预设的变换策略对所述时域帧序列进行变换处理，即可得到所述待处理音频在频域维度对应的所述全局频域帧序列，从而实现为后续的丢包补偿操作打下基础，方便后续快速完成丢包补偿处理。

更进一步的，在基于预设的变换策略对所述时域帧序列进行变换处理的过程中，由于不同的待处理音频会转换出不同长度的时域帧序列，因此此时可以选择与当前场景契合度较高的变换参数进行后续的变换处理过程，本实施例中，具体实现方式如下所述：

具体的，所述时域信息具体是指在时域维度所述时域帧序列所具有的信息，包括但不限于待处理音频中未丢包的音频区间的长度，丢包音频区间的长度；相应的，所述变换参数具体是指在进行短时傅里叶变换时所需要配置的参数，通过该参数可以对所述时域帧序列进行变换处理，所述变换参数包括但不限于frame_length的取值，frame_step的取值，fft_length的取值，以及加窗类型等。

基于此，在对所述待处理音频进行分帧处理得到所述时域帧序列之后，此时可以确定所述时域帧序列对应的时域信息，同时在预设的变换策略中选择与所述时域信息对应的变换参数，最后通过所述变换参数对所述时域帧序列进行变换处理，即可得到所述待处理音频在频域维度对应的所述全局频域帧序列。

沿用上例，在确定丢失音频区间前的音频区间T_left，丢失音频区间T_lost，以及丢失音频区间后的音频区间T_right组成的待处理音频后，此时可以对待处理音频进行分帧处理，获得由[T₁～T₈，T_lost，T₁₀～T₁₅]的多个时域帧组成的时域帧序列，参见图3所示的时频转换的示意图，其中，T_lost左侧的T₁～T₈为T_left，T_lost右侧的T₁₀～T₁₅为T_right，虚线表示T_lost。基于此，根据时域帧序列的时域信息，确定选取frame_length＝512，frame_step＝128，fft_length＝512，加汉宁窗，不加padding(0填充)对时域帧序列进行变换处理，根据处理结果将获得由12个频域帧组成的全局频域帧序列(stft帧1至stft帧12)，即图3中每个stft帧将对应4个时域帧，其stft变换后的频域帧与时域帧的对应关系如图4所示。

此外，frame_length/frame_step/fft_length可以取不同的值。一般来讲，frame_length/frame_step的比值越大，丢包补偿的效果越好，但是所需的T_left和T_right也越大。

综上所述，为了能够保证后续可以精准对丢失音频区间进行补偿处理，此时将根据时域帧序列的时域信息选择合适的变换参数对其进行短时傅里叶变换处理，从而得到更加符合场景需求的全局频域帧序列，为后续进行丢包补偿操作打下基础，实现精准高效的得到所述目标音频。

步骤S106，根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列。

具体的，在上述对所述待处理音频进行预处理得到所述全局频域帧序列的基础上，进一步的，此时将在频域维度对所述待处理音频中丢失的音频区间进行预测，实现通过复数神经网络的方式预测出丢失音频区间对应的音频片段，以达到对丢失的音频片段进行补偿的目的。而在此过程中，为了能够对幅值信息和相位信息都进行预测，本实施例提供的音频处理模型将采用复数深度神经网络(complex-valued deep neural network)进行构建，使得模型的输入不仅是复数形式，神经网络的各个层也都是复数形式，确保了丢包的相位和幅值的预测都更接近于真实值，丢包补偿的质量远高于现有技术的复数DNN技术方案。

基于此，由于所述音频处理模型采用了复数深度神经网络构建，因此模型的输入也需要采用复数形式，因此在得到所述全局频域帧序列之后，将基于此构建所述待处理音频对应的音频特征集合，所述音频特征集合即为通过多维度数据组成的复数形式的输入shape，同时模型的输出也将与输入的表征相对应，从而保证模型对丢失的音频区间的预测精准度；相应的，所述音频处理模型具体是指基于复数深度神经网络为架构构建的预测模型；所述局部频域帧序列具体是指通过模型预测处理后得到的包含丢失音频区间对应的预测音频区间的频域帧组成的序列，所述局部频域帧序列中包含至少一个局部频域帧，且至少一个局部频域帧中包含预测音频区间，预测音频区间具体是指通过模型进行预测处理后能够对丢失音频区间进行补偿的音频区间。

进一步的，在根据所述全局频域帧序列构建所述音频特征集合的过程中，由于全局频域帧序列中包含丢失的音频区间，因此需要结合全局频域帧序列对应的频域信息完成构建，本实施例中，具体实现方式如下所述：

具体的，所述全局频域帧序列对应的频域信息具体是指在频域维度所述全局频域帧序列所具有的信息，相应的，所述频域帧具体是指所述全局频域帧序列中包含的各个频域帧所对应的值，所述分量具体是指短时傅里叶变换后所对应的各个频点，所述复数具体是指短时傅里叶变换后由实部和虚部组成的复数。

基于此，在经过预处理得到所述全局频域帧序列的基础上，此时将确定所述全局频域帧序列对应的频域信息，之后即可根据所述频域信息确定所述全局频域帧序列的频域帧、分量以及复数，最后再基于所述频域帧、所述分量以及所述复数即可构建出所述音频特征集合，以作为所述音频处理模型的输入，进行后续的预测处理即可。

沿用上例，在获得由12个频域帧组成的全局频域帧序列(stft帧1至stft帧12)之后，此时即可根据全局频域帧序列构建模型的输入shape，模型的输入shape为(batch，12,257,2)，由于T_lost是需要通过模型进行预测的丢失音频区间，因此将对T_lost填充0，此时12表示stft帧1至stft帧12分别对应的频域帧，257表示512点的stft变换后的前257个分量，2表示实部和虚部组成的复数。由于在进行变换处理时，选择了fft_length＝512，因此分量可以通过fft_length/2+1的计算方式获得，即分量＝512/2+1＝257，同时由于音频对应16k的采样率，频域是8kHz，因此在当前场景下选择257个分量用于构建模型的输入特征，即可有效的对丢包的音频进行预测。

综上，通过采用频域帧，分量和复数三个维度组成的shape作为模型的输入，保证以复数形式进行表达，实现更加契合所述音频处理模型，方便后续模型对其进行预测处理，以得到更加精准的局部频域帧序列。

更进一步的，在获得所述音频特征集合后，即可将其输入至所述音频处理模型进行处理，以得到局部频域帧序列，以用于后续生成所述目标音频。而在通过音频处理模型进行处理的过程中，由于输入的音频特征集合中，存在多个全局频域帧包含丢失音频区间，因此模型在处理时也将输出多个包含预测音频区间的局部频域帧，以组成所述局部频域帧序列，本实施例中，具体实现方式如下所述：

具体的，所述中间音频特征集合具体是指通过所述音频处理模型中设定个数的卷积层对其进行处理后得到的音频特征集合。相应的，所述预设参考幅值具体是指对所述中间音频特征集合进行调整的参数，通过所述参考幅值可以提高所述音频处理模型的预测精准度。相应的，所述目标音频特征集合具体是指通过所述参考幅值对中间音频特征集合进行调参后得到的音频特征集合。

基于此，在得到所述音频特征集合后，即可将其输入至所述音频处理模型，通过所述音频处理模型中设定个数的卷积层对所述音频特征集合进行处理，即可得到所述中间音频特征集合；之后再根据所述音频处理模型中的所述参考幅值对所述中间音频特征集合进行调整，以得到所述目标音频特征集合，最后将所述目标音频特征集合输入至所述音频处理模型中的输出层，即可得到所述音频处理模型输出的所述局部频域帧序列。

实际应用中，参考幅值是影响所述音频处理模型输出精准度的重要因素，因此为了能够保证音频处理模型的预测精准度，所述预设的参考幅值可以根据实际应用场景选择全局频域帧序列中的全局频域帧进行计算获得，具体计算方式可以采用如下式(1)得到：

Ra＝(a，b，c，d)/sqrt(2) (1)

其中，Ra表示参考幅值，a，b，c，d分别表示四个包含丢失音频区间的全局频域帧对应的幅值。实际应用中，由于音频中的丢包的时间比较短，在此情况下，得出音频的幅值变化可能较小，并且音频处理模型的输出可以认为是一个掩模，而模型的激活函数是复数双曲正切，所以模型的输出结果在正负1之间，即实部和虚部都在正负1之间，如果按照最大值进行处理的话，幅值就是根号2，所以参考幅值在计算时需要除以sqrt(2)，而为了能够提高模型的预测精准度，可以将b＝a，以及c＝d，即因为丢包的音频帧的幅值与相邻的音频帧的幅值比较相近，此外，由于汉宁窗的中间值(权重)比较大，所以如果选择其他全局频域帧可能会受到补位0的影响太大，因此可以将b＝a，以及c＝d，以提高模型的预测精准度。

此外，所述音频处理模型的卷积层可以由设定数量的“复数卷积+复数批标准化+复数双曲正切”组成，卷积层的数量可以根据实际应用场景进行设定，本实施例在此不作任何限定。

举例说明，在基于全局频域帧序列(stft帧1至stft帧12)构建模型的输入shape为(batch，12,257,2)的基础上，进一步的，参见图5所示的模型框架示意图，在将(batch，12,257,2)输入至音频处理模型的过程中，由于模型采用的复数深度神经网络的架构进行构建，且输入特征为包含复数(实部和虚部)的矩阵(矩阵的表达形式为12*3，其中“12”表示各个频域帧，“3”表示频域、分量和复数三个维度)，因此在将(batch，12,257,2)通过模型的输入层输入模型后，可以对输入特征进行矩阵分解，以得到对应实部的特征表达Rp＝(batch，12,257,1)(其中“1”表示复数中的实部)，虚部的特征表达Ip＝(batch，12,257,1)(其中“1”表示复数中的虚部)。之后再将对应实部的特征表达Rp和对应虚部的特征表达Ip输入至音频处理模型中的卷积层，本实施例以B＝7为例，即需要进行7次卷积以得到中间音频特征集合；对应的7层卷积参数如表(1)所示：

表1

	filters	kernel_size	padding
				层1	64	[1,7]	same
层2	64	[7,1]	same
				层3	64	[5,5]	same
层4	64	[5,1]	same
				层5	64	[5,5]	same
层6	64	[9,1]	valid
				层7	1	[1,1]	same

需要说明的是，由于深度神经网络是根据网络自身学习每一层的参数的值的，因此在不同训练停止条件下音频处理模型中各个卷积层的kernel_size(卷积核)并不是固定的。本实施例提供的7个卷积层中，各个卷积层的kernel_size的大小仅为可以成功对丢失的音频进行预测所对应的值。实际应用中，音频处理模型中的卷积层个数以及各个卷积层中kernel_size的大小可以根据实际需求进行调整，相应的，filters对应的参数以及padding填充的值也可以根据实际应用场景进行调整，本实施例在此不作任何限定。

进一步的，通过7层卷积得到中间音频特征集合的过程中，由于模型在处理过程中是采用实部和虚部分解且相互关联学习的方式进行处理，因此通过卷积层处理后将得到由实部对应的特征表达Rp₁和虚部对应的特征表达Ip₁组成的中间音频特征集合，此时可以将实部对应的特征表达Rp₁和虚部对应的特征表达Ip₁进行矩阵拼接，以得到包含实部和虚部的中间音频特征集合(batch，4,257,2)。之后再通过参考幅值(batch，4,257,1)＝(stft帧6，stft帧6，stft帧9，stft帧9)的幅值/sqrt(2)对中间音频特征集合进行调整，即可得到音频处理模型输出的(batch,4,257,2)，根据(batch,4,257,2)即可确定局部频域帧序列(预测stft帧6，预测stft帧7，预测stft帧8，预测stft帧9)，即预测stft帧6至预测stft帧9中均包含丢失音频区间对应的预测音频区间，在确定预测stft帧6至预测stft帧9组成的局部频域帧序列后，即可用于后续对全局频域帧序列进行更新，以得到目标音频。其中，参考幅值是用于对中间音频特征集合进行调整时所引入的参数，因此参考幅值的最后一维特征引入实部即可(参考幅值的输入表达中的“1”表示实部)，以实现对中间音频特征集合进行调整，最后再经过模型的输出层即可输出局部频域帧序列。

综上，为了能够对幅值信息和相位信息都进行预测，本实施例提供的音频处理模型将采用复数深度神经网络构建所述音频处理模型，实现在频域维度对丢失的音频区间进行预测，从而达到精准的对丢失音频区间进行丢包补偿操作。

本实施例提供的一个或多个实施例中，所述音频处理模型可以采用如下方式进行训练：

获取样本音频以及所述样本音频对应的样本局部频域帧序列；对所述样本音频进行预处理获得所述样本音频对应的样本全局频域帧序列，并根据所述样本全局频域帧序列构建样本音频特征集合；将所述样本音频特征集合和所述样本局部频域帧序列输入至初始音频处理模型进行训练，直至所述初始音频处理模型满足训练停止条件，根据训练结果获得所述音频处理模型。

具体的，所述样本音频具体是指包含丢失音频区间的样本音频，相应的，所述样本局部频域帧序列具体是指训练模型时所述样本音频对应的输出结果，基于此，在获取到所述样本音频以及所述样本音频对应的样本局部频域帧序列之后，即可对所述样本音频进行预处理获得所述样本音频对应的样本全局频域帧序列，同时根据所述样本全局频域帧序列构建样本音频特征集合，之后根据所述样本音频特征集合和所述样本局部频域帧序列对初始音频处理模型进行训练，当所述初始音频处理模型满足训练停止条件，即可得到所述音频处理模型。其中，所述训练停止条件由所述初始音频处理模型的损失值确定；相应的，所述损失值由幅值损失和相位损失确定，用于确定训练过程中的初始音频处理模型的预测精准度。

具体的，在根据所述样本音频特征集合和所述样本局部频域帧序列对所述初始音频处理模型进行训练的过程中，实则是将所述样本音频特征集合输入至所述初始音频处理模型进行预测处理，获得所述初始音频处理模型输出的预测样本局部频域帧序列，之后基于预测样本局部频域帧序列和所述样本局部频域帧序列计算模型的损失值，若损失值不满足模型的训练停止条件，则选择新的样本继续对模型进行训练，若损失值满足模型的训练停止条件，则可以将当前训练后的模型作为所述音频处理模型，以用于相应的业务场景中。

基于此，由于所述音频处理模型可以对相位信息和幅值信息都进行预测，因此可以将相位损失和幅值损失的权重设置相同，均为0.5，同时在在计算相位损失时，不是单纯的使用相位输出信息，而是结合了整个频谱(全局频域帧序列)这样可以帮助网络关注大多数语音信号所在的幅值较高的T-F bin。进一步的，在计算幅值损失时，要先对能量进行压缩，压缩系数为0.3。

实际应用中，损失值可以通过如下式(2)，式(3)和式(4)计算得到：

L＝0.5*L_a+0.5*L_p (2)

其中，L_a为幅值损失，L_p为相位损失，L为损失值，S^out表示网络输出的频谱，S^gt表示目标频谱。表示对S^out的幅值进行幂律压缩，压缩系数为0.3。/>表示对S^gt的幅值进行幂律压缩，压缩系数为0.3。MSE表示均方误差(Mean Square Error)，abs表示幅值。

此外，音频处理模型的输入shape取决于T_lost/T_left/T_right/frame_length/frame_step/fft_length的具体参数。此外，输入与输出的shape也可以相同，且音频处理模型中的卷积层的kernel_size和个数可以自行变化，也可以添加复数全连接层，本实施例在此不作任何限定。

步骤S108，基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频。

具体的，在上述获得所述局部频域帧序列的基础上，进一步的，此时说明已经针对丢失的音频区间进行预测完毕，而由于所述局部频域帧序列中的局部频域帧为仅包含预测音频区间的频域帧，因此此时需要结合所述全局频域帧序列以生成用于替换所述待处理音频的目标音频，所述目标音频即为针对所述待处理音频进行丢包补偿后生成的音频。

基于此，在根据所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频的过程中，由于当前的表征方式为频域维度下的表征，因此需要变换到时域维度才能够得到用于播放的目标音频。而在此过程中，需要采用先替换再变换的方式生成所述目标音频，即通过局部频域帧序列对全局频域帧序列进行更新，之后利用更新后的全局频域帧序列变换出所述目标音频，本实施例中，具体实现方式如下所述：

步骤1，基于所述局部频域帧序列对所述全局频域帧序列进行更新，获得目标全局频域帧序列。

具体的，所述目标全局频域帧序列具体是指已经对丢失音频区间进行补包完成后在频域维度所对应的频域帧序列；基于此，由于所述局部频域帧序列中的各个局部频域帧均包含预测音频区间，且所述全局频域帧序列具有对应的包含丢失音频区间的全部频域帧，因此此时可以通过所述局部频域帧序列对所述全局频域帧序列进行更新，以得到所述目标全局频域帧序列。

进一步的，而在基于所述局部频域帧序列对所述全局频域帧序列进行更新的过程中，由于所述全局频域帧序列中还包含其他未包含丢失音频区间的全局频域帧，因此需要基于所述局部频域帧序列对其他未包含丢失音频区间的全局频域帧的全局频域帧进行更新，本实施例中，具体实现方式如下所述：

具体的，所述初始局部频域帧序列具体是指所述全局频域帧序列中包含丢失音频区间的全局频域帧组成的序列，基于此，在得到所述局部频域帧序列后，即可根据所述局部频域帧序列在所述全局频域帧序列中确定需要进行替换的所述初始局部频域帧序列，之后基于所述局部频域帧序列中包含的各个局部频域帧对所述初始局部频域帧序列中包含的各个初始局部频域帧进行替换，即可得到所述目标全局频域帧序列。

更进一步的，在替换的过程中，为了能够提高最后得到的目标音频的质量，可以选择所述全局频域帧序列中的固定频域帧序列与局部频域帧序列进行拼接，本实施例中，具体实现方式如下所述：

具体的，所述固定频域帧序列具体是指所述全局频域帧序列中未包含丢失音频区间的全局频域帧。基于此，在从所述全局频域帧序列中确定所述初始局部频域帧序列之后，即可根据所述初始局部频域帧序列在所述全局频域帧序列中确定固定频域帧序列，之后将所述固定频域帧序列中包含的固定频域帧与所述局部频域帧序列中包含的局部频域帧进行拼接，即可得到所述目标全局频域帧序列，以用于后续生成所述目标音频。

综上，通过采用确定初始局部频域帧序列和固定频域帧序列的方式进行确定所述目标全局频域帧序列，不仅可以保证精准的对丢失音频区间进行替换，还能够保证丢包补偿效率，从而加快了生成所述目标音频的效率。

步骤2，根据所述目标全局频域帧序列生成用于替换所述待处理音频的所述目标音频。

具体的，在得到所述目标全局频域帧序列之后，即可根据所述目标全局频域帧序列生成用于替换所述待处理音频的所述目标音频。而由于当前替换处理操作发生在频域维度，因此需要通过对所述目标全局频域帧序列进行反变换，即反向短时傅里叶变换，才能够得到时域信号以生成所述目标音频，本实施例中，具体实现方式如下所述：

具体的，所述逆处理具体是指对所述目标全局频域帧序列作反向短时傅里叶变换，相应的，所述目标全局时域帧序列具体是指在时域维度由多个全局时域帧组成的序列，且通过所述目标全局时域帧序列可以生成所述目标音频，也即是说所述目标全局时域帧序列中包含预测音频区间对应的全局时域音频帧。

基于此，在得到所述目标全局频域帧序列之后，由于所述目标全局频域帧序列是频域维度的表征，因此为了能够生成方便用户收听的目标音频，此时可以对所述目标全局频域帧序列进行逆处理，获得目标全局时域帧序列，最后即可根据所述目标全局时域帧序列生成用于替换所述待处理音频的目标音频。

沿用上例，在音频处理模型输出局部频域帧序列(预测stft帧6，预测stft帧7，预测stft帧8，预测stft帧9)的基础上，进一步的，根据局部频域帧序列在全局频域帧序列(stft帧1至stft帧12)中确定初始局部频域帧序列为(stft帧6，stft帧7，stft帧8，stft帧9)，之后再根据初始局部频域帧序列在全局频域帧序列中确定固定频域帧序列(stft帧1至stft帧5，stft帧10至stft帧12)；此时将固定频域帧序列(stft帧1至stft帧5，stft帧10至stft帧12)与局部频域帧序列(预测stft帧6，预测stft帧7，预测stft帧8，预测stft帧9)进行拼接，即可得到目标全局频域帧序列(stft帧1至stft帧5，预测stft帧6，预测stft帧7，预测stft帧8，预测stft帧9，stft帧10至stft帧12)。

更进一步的，再通过对目标全局频域帧序列进行反变换，即可得到目标全局时域帧序列，而由于局部频域帧序列(预测stft帧6，预测stft帧7，预测stft帧8，预测stft帧9)中每个局部频域帧对应四个时域帧，因此根据预测stft帧6至预测stft帧9确定在时域维度，时域帧T₆、T₇、T₈、T₁₀、T₁₁和T₁₂也将被重新预测，也就是说，在进行反变换后，长度为T的英语口语教学音频(原始音频)在时域维度仅会保留原始音频中的时域帧T₁～T₅以及T₁₃～T₁₅，而原始音频在时域维度对应的T₆、T₇、T₈、T₁₀、T₁₁和T₁₂均会被反变换后的预测时域帧T_6a、T_7a、T_8a、T_10a、T_11a和T_12a进行替换。基于此，经过反变换后得到的目标全局时域帧序列为[T₁～T₅，T_6a，T_7a，T_8a，T_compensate，T_10a，T_11a，T_12a，T₁₃～T₁₅]，其中T_compensate表示经过模型预测后得到的用于替换T_lost的时域帧；最后再通过目标全局时域帧序列即可生成长度为T的英语口语教学音频，用于向用户播放即可使得用户收到到相应的音频内容。

综上，通过采用先替换再变换的方式生成所述目标音频，不仅可以保证生成的目标音频的精准度，还能够有效的保证目标音频的质量，从而使得音频的播放效果不会因为丢包补偿后发生改变的问题，进一步提高收听音频的体验，同时由于预测音频区间前后相邻的音频区间也会进行替换，因此可以进一步保证目标音频的顺滑度，保证目标音频的音频质量。

下述结合附图6，以本说明书提供的音频处理方法在即时通信场景中的应用为例，对所述音频处理方法进行进一步说明。其中，图6示出了本说明书一实施例提供的一种应用于即时通信场景中的音频处理方法的处理流程图，具体包括以下步骤：

步骤S602，获取客户端通过即时通讯软件接收到的待处理音频。

步骤S604，对待处理音频进行分帧处理获得时域帧序列，并基于预设的变换参数对时域帧序列进行变换处理获得全局频域帧序列。

步骤S606，根据所述全局频域帧序列构建待处理音频对应的音频特征集合，并将音频特征集合输入至所述音频处理模型。

步骤S608，通过音频处理模型中的卷积层对音频特征集合进行处理，获得中间音频特征集合。

步骤S610，基于音频处理模型中的预设参考幅值对中间音频特征集合进行调整，获得目标音频特征集合。

步骤S612，通过音频处理模型中的输出层对目标音频特征集合进行处理，获得音频处理模型输出的局部频域帧序列。

步骤S614，对局部频域帧序列进行逆处理获得局部时域帧序列，以及对全局频域帧序列进行逆处理获得全局时域帧序列。

步骤S616，基于局部时域帧序列对全局时域帧序列进行更新，根据更新结果生成目标全局时域帧序列。

步骤S618，根据目标全局时域帧序列生成用于替换待处理音频的目标音频，并通过客户端中的即时通讯软件播放目标音频。

综上所述，实现了通过结合待处理音频的上下文音频数据更好的预测了谐波信息，并且采用在频域维度进行处理，解决了相位单独计算困难的问题，有效的提高了生成目标音频的质量，从而进一步的保证了生成目标音频的处理效率和精准度。

与上述方法实施例相对应，本说明书还提供了音频处理装置实施例，图7示出了本说明书一实施例提供的一种音频处理装置的结构示意图。如图7所示，该装置包括：

获取模块702，被配置为获取待处理音频；

预处理模块704，被配置为对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列；

模型处理模块706，被配置为根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列；

生成模块708，被配置为基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频。

一个可选的实施例中，所述预处理模块704进一步被配置为：

对所述待处理音频进行分帧处理，获得时域帧序列；按照预设的变换策略对所述时域帧序列进行变换处理，获得所述全局频域帧序列。

一个可选的实施例中，所述预处理模块704进一步被配置为：

确定所述时域帧序列对应的时域信息，并在所述预设的变换策略中选择与所述时域信息对应的变换参数；通过所述变换参数对所述时域帧序列进行变换处理，获得所述全局频域帧序列。

一个可选的实施例中，所述模型处理模块706进一步被配置为：

确定所述全局频域帧序列对应的频域信息，并基于所述频域信息确定所述全局频域帧序列的频域帧、分量以及复数；基于所述频域帧、所述分量以及所述复数构建所述待处理音频对应的所述音频特征集合。

将所述音频特征集合输入至所述音频处理模型，通过所述音频处理模型中的卷积层对所述音频特征集合进行处理，获得中间音频特征集合；基于所述音频处理模型中的预设参考幅值对所述中间音频特征集合进行调整，获得目标音频特征集合；通过所述音频处理模型中的输出层对所述目标音频特征集合进行处理，获得所述音频处理模型输出的所述局部频域帧序列。

一个可选的实施例中，所述生成模块708进一步被配置为：

基于所述局部频域帧序列对所述全局频域帧序列进行更新，获得目标全局频域帧序列；根据所述目标全局频域帧序列生成用于替换所述待处理音频的所述目标音频。

一个可选的实施例中，所述生成模块708进一步被配置为：

在所述全局频域帧序列中确定与所述局部频域帧序列对应的初始局部频域帧序列；根据所述局部频域帧序列对所述全局频域帧序列中的所述初始局部频域帧序列进行更新，获得所述目标全局频域帧序列。

一个可选的实施例中，所述生成模块708进一步被配置为：

根据所述初始局部频域帧序列在所述全局频域帧序列中确定固定频域帧序列；将所述固定频域帧序列与所述局部频域帧序列进行拼接，获得所述目标全局频域帧序列。

一个可选的实施例中，所述生成模块708进一步被配置为：

对所述目标全局频域帧序列进行逆处理，获得目标全局时域帧序列；根据所述目标全局时域帧序列生成用于替换所述待处理音频的目标音频。

一个可选的实施例中，所述获取模块702进一步被配置为：

获取多个音频数据包，并基于所述多个音频数据包生成初始音频；在基于所述多个音频数据包分别对应的序列号确定丢包的情况下，根据所述多个音频数据包分别对应的序列号确定丢包序列号；基于所述丢包序列号在所述初始音频中确定包含丢失音频区间的音频片段，将包含所述丢失音频区间的音频片段作为所述待处理音频。

一个可选的实施例中，所述音频处理模型采用如下方式训练：

一个可选的实施例中，所述训练停止条件由所述初始音频处理模型的损失值确定；相应的，所述损失值由幅值损失和相位损失确定，用于确定训练过程中的初始音频处理模型的预测精准度。

本实施例提供的音频处理装置，在获取到所述待处理音频后，可以对所述待处理音频进行预处理，以得到所述待处理音频对应的全局频域帧序列，实现在频域维度对需要补包的音频片段进行预测，之后根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，并将其输入至所述音频处理模型进行处理获得所述局部频域帧序列，最后基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频，实现了通过结合待处理音频的上下文音频数据更好的预测了谐波信息，并且采用在频域维度进行处理，解决了相位单独计算困难的问题，有效的提高了生成目标音频的质量，从而进一步的保证了生成目标音频的处理效率和精准度。

上述为本实施例的一种音频处理装置的示意性方案。需要说明的是，该音频处理装置的技术方案与上述的音频处理方法的技术方案属于同一构思，音频处理装置的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

图8示出了根据本说明书一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行如上所述的音频处理方法对应的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于上述音频处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取包含丢失音频区间的待处理音频；

根据所述全局频域帧序列对应的频域帧、分量和复数构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型，依次通过所述音频处理模型的卷积层、参考幅值和输出层进行处理获得局部频域帧序列，其中，所述复数由实部和虚部组成，所述参考幅值为所述音频处理模型中预设的模型参数，基于所述全局频域帧序列中的全局频域帧进行计算获得；

2.根据权利要求1所述的音频处理方法，其特征在于，所述对所述待处理音频进行预处理，获得所述待处理音频对应的全局频域帧序列，包括：

对所述待处理音频进行分帧处理，获得时域帧序列；

3.根据权利要求2所述的音频处理方法，其特征在于，所述按照预设的变换策略对所述时域帧序列进行变换处理，获得所述全局频域帧序列，包括：

4.根据权利要求1所述的音频处理方法，其特征在于，所述根据所述全局频域帧序列构建所述待处理音频对应的音频特征集合，包括：

5.根据权利要求1至4任意一项所述的音频处理方法，其特征在于，所述将所述音频特征集合输入至音频处理模型进行处理获得局部频域帧序列，包括：

6.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述局部频域帧序列和所述全局频域帧序列生成用于替换所述待处理音频的目标音频，包括：

7.根据权利要求6所述的音频处理方法，其特征在于，所述基于所述局部频域帧序列对所述全局频域帧序列进行更新，获得目标全局频域帧序列，包括：

8.根据权利要求7所述的音频处理方法，其特征在于，所述根据所述局部频域帧序列对所述全局频域帧序列中的所述初始局部频域帧序列进行更新，获得所述目标全局频域帧序列，包括：

9.根据权利要求6所述的音频处理方法，其特征在于，所述根据所述目标全局频域帧序列生成用于替换所述待处理音频的所述目标音频，包括：

10.根据权利要求1所述的音频处理方法，其特征在于，所述获取待处理音频，包括：

11.根据权利要求1所述的音频处理方法，其特征在于，所述音频处理模型采用如下方式训练：

12.根据权利要求11所述的音频处理方法，其特征在于，所述训练停止条件由所述初始音频处理模型的损失值确定；

13.一种音频处理装置，其特征在于，包括：

获取模块，被配置为获取包含丢失音频区间的待处理音频；

模型处理模块，被配置为根据所述全局频域帧序列对应的频域帧、分量和复数构建所述待处理音频对应的音频特征集合，并将所述音频特征集合输入至音频处理模型，依次通过所述音频处理模型的卷积层、参考幅值和输出层进行处理获得局部频域帧序列，其中，所述复数由实部和虚部组成，所述参考幅值为所述音频处理模型中预设的模型参数，基于所述全局频域帧序列中的全局频域帧进行计算获得；

14.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

获取包含丢失音频区间的待处理音频；

15.一种计算机可读存储介质，其特征在于，其存储有计算机指令，该指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。