CN111640442B

CN111640442B - 处理音频丢包的方法、训练神经网络的方法及各自的装置

Info

Publication number: CN111640442B
Application number: CN202010486267.1A
Authority: CN
Inventors: 王晓红; 陈佳路; 刘鲁鹏; 元海明; 高强; 夏龙; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2023-05-23
Anticipated expiration: 2040-06-01
Also published as: CN111640442A

Abstract

本申请提供处理音频丢包的方法、训练神经网络的方法及各自的装置，其中所述处理音频丢包的方法包括：获取用于预测丢包位置音频信息的音频数据；提取所述音频数据的音频特征；将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息；其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道，从而通过信息交互通道能够对丢包位置的幅值信息进行修正和/或对相位信息进行修正，减少相位信息和/或幅值信息误差，提高音频连贯性。

Description

处理音频丢包的方法、训练神经网络的方法及各自的装置

技术领域

本申请涉及多媒体技术领域，特别涉及处理音频丢包的方法、训练神经网络的方法及各自的装置、计算设备和计算机可读存储介质。

背景技术

音频丢包，是在各种音频处理任务中发生的本地降级甚至丢失的现象。例如，音频文件损坏、音频传输中音频信息丢失如IP语音传输中包丢失、音频信号被噪声本地干扰等等。

为了对音频丢包进行修补恢复，目前通常采用基于DNN的用于数字语音传输的丢包隐藏(PLC)方法。在训练阶段，使用对数功率谱和相位信息作为输入。用受限的Boltzmann机(RBN)做初始化DNN的预训练，最小平方误差(MMSE)用于反向传播算法。在重建阶段，使用时域上之前帧的对数功率谱和相位以及训练好的模型，来估计当前丢失帧的对数功率谱和相位。然后再使用交叉衰落(cross-fading)技术来减少时域重建信号和良好的帧信号之间的不连续性。

但是，目前的技术方案预测的相位信息误差较大，听觉上能够感知到相位跳变，生成结果连贯性不佳。

发明内容

有鉴于此，本申请实施例提供了处理音频丢包的方法、训练神经网络的方法及各自的装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种处理音频丢包的方法，包括：获取用于预测丢包位置音频信息的音频数据；提取所述音频数据的音频特征；将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息；其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道；其中，所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正。

可选地，所述幅值流神经网络仅包括幅值流卷积层以及幅值流全连接层；所述幅值流卷积层输出的幅值信息在进入所述幅值流全连接层之前，被通过所述信息交互通道获得的相位信息修正。

可选地，所述相位流神经网络仅包括相位流卷积层；所述相位流卷积层输出的相位信息在进入幅值归一化之前，被通过所述信息交互通道获得的幅值信息修正。

可选地，所述获取用于预测丢包位置音频信息的音频数据包括：获取用于预测丢包位置音频信息的、无缺失采样点的音频数据。

可选地，所述获取用于预测丢包位置音频信息的音频数据包括：获取所述丢包位置之前的音频数据。

可选地，所述获取用于预测丢包位置音频信息的音频数据包括：获取用于预测丢包位置音频信息的多帧音频数据，所述多帧音频数据中，位于丢包位置之前的一帧与丢包位置所在帧的频域信号具有重叠区域。所述提取所述音频数据的音频特征包括：对所述音频数据做stft变换，得到所述音频的音频特征；其中，所述stft变换中帧长度为帧位移的N倍，其中，N的取值由所述重叠区域的大小确定。

可选地，所述将音频特征输入已完成训练的双流卷积神经网络，得到丢包位置的幅值信息以及相位信息包括：将所述音频特征输入已完成训练的双流卷积神经网络，得到丢包位置与所述重叠区域的幅值信息以及相位信息；所述第一卷积神经网络，用于对丢包位置与所述重叠区域的幅值信息进行预测，所述第二卷积神经网络，用于对丢包位置与所述重叠区域的相位信息进行预测。所述方法还包括：将预测得到的丢包位置与所述重叠区域的音频信息，替换到原丢包音频数据中的对应帧处。

可选地，所述将音频特征输入已完成训练的双流卷积神经网络，得到丢包位置的幅值信息以及相位信息包括：将所述音频特征输入已完成训练的双流卷积神经网络，得到丢包位置所在帧以及后一帧的幅值信息以及相位信息；所述第一卷积神经网络，用于对丢包位置所在帧以及后一帧的幅值信息进行预测，所述第二卷积神经网络，用于对丢包位置所在帧以及后一帧的相位信息进行预测。所述方法还包括：将预测得到的所述丢包位置的后一帧的音频信息与所述后一帧的实际音频信息进行加权混合，得到所述丢包位置的后一帧的混合音频信息；将预测得到的所述丢包位置的音频信息及所述后一帧的混合音频信息，替换到原丢包音频数据中的对应帧处。

可选地，所述利用幅值信息对相位信息进行修正包括：根据修正后的相位信息等于修正前的相位信息与修正前的幅值信息的激活值的乘积，得到修正后的相位信息；所述修正前的幅值信息是所述幅值流神经网络中的1*1卷积层输出的幅值信息。

可选地，所述利用相位信息对幅值信息进行修正包括：根据修正后的幅值信息等于修正前的幅值信息与修正前的相位信息的激活值的乘积，得到修正后的幅值信息；所述修正前的相位信息是所述相位流神经网络中的1*1卷积层输出的相位信息。

根据本申请实施例的第二方面，提供了一种处理音频丢包的装置，包括：获取输入模块，被配置为获取用于预测丢包位置音频信息的音频数据；输入特征提取模块，被配置为提取所述音频数据的音频特征；信息预测模块，被配置为将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息；其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道；其中，所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正。

根据本申请实施例的第三方面，提供了一种训练神经网络的方法，包括：获取用于预测丢包位置音频信息的音频数据样本；提取所述音频数据样本的音频特征；将所述音频特征输入双流神经网络进行预测丢包位置音频信息的训练，得到完成训练的双流神经网络；其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道；其中，所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正。

根据本申请实施例的第四方面，提供了一种训练神经网络的装置，包括：样本获取模块，被配置为获取用于预测丢包位置音频信息的音频数据样本。样本特征提取模块，被配置为提取所述音频数据样本的音频特征。样本训练模块，被配置为将所述音频特征输入双流神经网络进行预测丢包位置音频信息的训练，得到完成训练的双流神经网络。其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道。其中，所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现本申请任意实施例所述处理音频丢包的方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现本申请实施例所述处理音频丢包的方法的步骤。

根据本申请实施例的第七方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现本申请实施例所述训练神经网络的方法的步骤。

根据本申请实施例的第八方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现本申请实施例所述训练神经网络的方法的步骤。

本申请一方面实施例提供的处理音频丢包的方法中，由于采用了具有信息交互通道的双流神经网络，其中，幅值流神经网络用于对幅值信息进行预测，相位流神经网络用于对相位信息进行预测，从而相位流神经网络能够通过信息交互通道获得幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，幅值流神经网络能够通过信息交互通道获得相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正，因此，本申请实施例提供的处理音频丢包的方法在获取用于预测丢包位置音频信息的音频数据，提取所述音频数据的音频特征，将音频特征输入已完成训练的双流卷积神经网络之后，针对丢包位置，能够得到经过幅值信息修正的相位信息和/或经过相位信息修正的幅值信息，减少相位信息和/或幅值信息误差，提高音频连贯性；

本申请另一方面实施例提供的训练神经网络的方法中，由于采用了具有信息交互通道的双流神经网络，其中，幅值流神经网络用于对幅值信息进行预测，相位流神经网络用于对相位信息进行预测，从而相位流神经网络能够通过信息交互通道获得幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，幅值流神经网络能够通过信息交互通道获得相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正，因此，本申请实施例提供的训练神经网络的方法在获取用于预测丢包位置音频信息的音频数据样本，提取所述音频数据样本的音频特征，将音频特征输入双流神经网络进行预测丢包位置音频信息的训练之后，得到的双流神经网络，能够使预测的相位信息被幅值信息修正和/或幅值信息被相位信息修正，提高预测准确性。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请一实施例提供的处理音频丢包的方法的流程图；

图3是本申请实施例提供的双流神经网络结构示意图；

图4是本申请实施例提供的时域频域转换示意图；

图5是本申请另一实施例提供的处理音频丢包的方法的流程图；

图6是本申请一实施例提供的处理音频丢包的装置的结构示意图；

图7是本申请另一实施例提供的处理音频丢包的装置的结构示意图；

图8是本申请实施例提供的训练神经网络的方法的流程图；

图9是本申请实施例提供的训练神经网络的装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本申请中，提供了处理音频丢包的方法、训练神经网络的方法及各自的装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

一方面中，处理器120可以执行图2所示处理音频丢包的方法中的步骤。

图2示出了根据本申请一实施例的处理音频丢包的方法的流程图，包括步骤202至步骤206。

步骤202：获取用于预测丢包位置音频信息的音频数据。

音频信息，例如可以包括幅值信息、相位信息。用于预测丢包位置音频信息的音频数据例如可以是丢包位置之前的多帧音频数据。需要获取的音频数据量可以根据实际需要来设置，只要相对于丢包位置提供了足够的谐波相关性即可。

步骤204：提取所述音频数据的音频特征。

需要说明的是，本申请实施例对于提取音频特征的具体实施方式不限。例如，可以通过stft变换来提取音频特征。

步骤206：将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息。

其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道。所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正。

例如，所述利用幅值信息对相位信息进行修正包括：根据修正后的相位信息等于修正前的相位信息与修正前的幅值信息的激活值的乘积，得到修正后的相位信息；所述修正前的幅值信息是所述幅值流神经网络中的1*1卷积层输出的幅值信息。表达式如：

其中，Tensor_amp是修正前的幅值信息，Tensor_pha是修正前的相位信息，Tanh是激活函数，Info Comm_amp是修正后的幅值信息；conv是卷积核为1x1的二维卷积。

再例如，所述利用相位信息对幅值信息进行修正包括：根据修正后的幅值信息等于修正前的幅值信息与修正前的相位信息的激活值的乘积，得到修正后的幅值信息；所述修正前的相位信息是所述相位流神经网络中的1*1卷积层输出的相位信息。表达式如：

其中/>

代表逐项相乘操作。/>

可见，由于该方法采用了具有信息交互通道的双流神经网络，其中，幅值流神经网络用于对幅值信息进行预测，相位流神经网络用于对相位信息进行预测，从而相位流神经网络能够通过信息交互通道获得幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，幅值流神经网络能够通过信息交互通道获得相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正，因此，本申请实施例提供的处理音频丢包的方法在获取用于预测丢包位置音频信息的音频数据，提取所述音频数据的音频特征，将音频特征输入已完成训练的双流卷积神经网络之后，针对丢包位置，能够得到经过幅值信息修正的相位信息和/或经过相位信息修正的幅值信息，减少相位信息和/或幅值信息误差，提高音频连贯性。

为了使本申请实施例提供的处理音频丢包的方法更加易于理解，下面，结合图3示出的双流神经网络结构示意图进行详细说明。例如，本申请实施例提供的处理音频丢包的方法以及训练神经网络的方法可以采用图3所示双流神经网络。图3中，图中每层的输入输出的通用表达方式为(batch，frame，freq，features)。其中，batch，是一次训练所选取的样本个数；frame，是频域帧的个数；freq，是频域的bin数，例如在音频特征采用stft变换来提取的情况下，freq值＝(1+fft_length/2)；features，是特征值的个数。conv2d(mxn)表示二维卷积层，(m,n)是卷积核，表示不够卷积核大小的块就补“0”。conv2d(mxn)valid表示二维卷积层，(m,n)是卷积核，表示不够卷积核大小的块丢弃。dense(n)表示全连接层，n为unit个数。参考幅值例如可以取丢包位置前一帧的幅值，也可设置其它值。例如，通过图3所示双流神经网络对如图4所示的时域频域转换示意图中的frame9、frame10、frame11帧进行预测，frame9、frame10、frame11帧的参考幅值可以都取frame8帧的实际幅值。需要说明的是，图3所示双流神经网络仅用于对本申请实施例提供的方法进行示意性说明，并不构成限制。例如，图3所示的双流神经网络中，幅值流神经网络以及相位流神经网络还可以有未在图3中示意出的卷积层，如信息通道之前的卷积核为1x1的二维卷积层，如卷积模块的kernel_size和个数可以按需取其他值，全连接层的feature数也可以按需取其他值。

根据图3所示双流神经网络，本申请一个或多个实施例中，幅值流神经网络可以仅使用卷积层和全连接层，使整体模型复杂度低，降低延时，尤其在实时直播网络的场景下，能够满足直播所需的低延时要求。具体地，例如，如图3所示的双流神经网络，所述幅值流神经网络仅包括幅值流卷积层以及幅值流全连接层；所述幅值流卷积层输出的幅值信息在进入所述幅值流全连接层之前，被通过所述信息交互通道获得的相位信息修正。

根据图3所示双流神经网络，本申请一个或多个实施例中，相位流神经网络可以仅使用卷积层，使整体模型复杂度低，降低延时，尤其在实时直播网络的场景下，能够满足直播所需的低延时要求。具体地，例如，如图3所示的双流神经网络，所述相位流神经网络仅包括相位流卷积层；所述相位流卷积层输出的相位信息在进入幅值归一化之前，被通过所述信息交互通道获得的幅值信息修正。

为了避免预测后的幅值偏低的问题，本申请一个或多个实施例中，所述获取用于预测丢包位置音频信息的音频数据可以包括：获取用于预测丢包位置音频信息的、无缺失采样点的音频数据。

例如，如图4所示时域频域转换示意图，其中，frame1-frame11表示频域帧，每一个频域帧由对应的两帧相邻的时域帧加汉宁窗后再经过stft转换得到。T_lost表示丢失的时域帧，也即丢包位置。如图4所示，T_lost前面共有9帧时域帧，生成了frame1至frame8共8帧频域帧。由于丢包位置之后的音频数据可能正在传输中，并不完整，如果丢包之后的音频作为预测使用，不完整的部分需要用如“0”来填充缺失的采样点，在预测时缺失的采样点会存在拉低幅值的现象。因此，在该示例中，可以获取frame1至frame8共8帧无缺失采样点的音频数据来预测丢包位置音频信息。

在该实施例中，由于获取无缺失采样点的音频数据来预测丢包位置音频信息，无需使用padding(填充)，避免了预测时缺失的采样点拉低幅值的现象，提高了预测的准确度。

为了避免音频数据在传输中的延迟，本申请一个或多个实施例中，所述获取用于预测丢包位置音频信息的音频数据可以包括：获取所述丢包位置之前的音频数据。

可以理解的是，在直播环境中，对丢包补偿的及时性要求较高，如果采用丢包位置之前的音频数据来预测丢包位置音频信息，则无需对丢包位置之后音频数据进行等待，发现丢包位置即可仅使用丢包帧前的音频数据作为输入，满足因果关系，充分满足直播环境的低延时需求。

为了提高音频的连贯性，本申请一个或多个实施例中，所述获取用于预测丢包位置音频信息的音频数据包括：获取用于预测丢包位置音频信息的多帧音频数据，所述多帧音频数据中，位于丢包位置之前的一帧与丢包位置所在帧的频域信号具有重叠区域。例如，结合该实施例，在采用stft变换提取音频特征的情况下，所述提取所述音频数据的音频特征可以包括：对所述音频数据做stft变换，得到所述音频的音频特征；其中，所述stft变换中帧长度为帧位移的N倍，其中，N的取值由所述重叠区域的大小确定。

在该实施例中，由于丢包位置相邻的两帧音频的频域信号具有重叠区域，使得相邻两帧在stft反变换时自动发生重叠相加，自然地解决了丢包位置前帧的搭接问题。

结合丢包位置相邻的两帧音频的频域信号具有重叠区域的实施例，为了提高补偿后音频丢包位置与前帧的连贯性，本申请一个或多个实施例中，对于丢包位置T_lost与重叠区域T_lost-1(如图4中的frame9帧)，可以用预测得到的音频信息在经过stft反变换后替换到原丢包音频数据中的对应帧处，从而T_lost-1的真实音频信息被替换为预测得到的音频信息，T_lost的音频信息为补偿出来的音频信息。具体地，例如，所述将音频特征输入已完成训练的双流卷积神经网络，得到丢包位置的幅值信息以及相位信息包括：将所述音频特征输入已完成训练的双流卷积神经网络，得到丢包位置与所述重叠区域的幅值信息以及相位信息；所述第一卷积神经网络，用于对丢包位置与所述重叠区域的幅值信息进行预测，所述第二卷积神经网络，用于对丢包位置与所述重叠区域的相位信息进行预测。所述方法还包括：将预测得到的丢包位置与所述重叠区域的音频信息，替换到原丢包音频数据中的对应帧处。

在该实施例中，由于丢包位置相邻的两帧音频的频域信号具有重叠区域，使得相邻两帧自动发生重叠相加，通过替换预测出的丢包位置及重叠区域的音频信息到原丢包音频数据中，使丢包位置与前帧的音频信息搭接连贯，自然地解决了补偿后的音频数据丢包位置前帧的搭接问题。

为了进一步提高补偿后音频丢包位置与后帧的连贯性，本申请一个或多个实施例中，对丢包后的一帧，采用预测加实际混合的算法来解决搭接问题。具体地，例如，所述将音频特征输入已完成训练的双流卷积神经网络，得到丢包位置的幅值信息以及相位信息可以包括：将所述音频特征输入已完成训练的双流卷积神经网络，得到丢包位置所在帧以及后一帧的幅值信息以及相位信息；所述第一卷积神经网络，用于对丢包位置所在帧以及后一帧的幅值信息进行预测，所述第二卷积神经网络，用于对丢包位置所在帧以及后一帧的相位信息进行预测。所述方法还包括：将预测得到的所述丢包位置的后一帧的音频信息与所述后一帧的实际音频信息进行加权混合，得到所述丢包位置的后一帧的混合音频信息；将预测得到的所述丢包位置的音频信息及所述后一帧的混合音频信息，替换到原丢包音频数据中的对应帧处。

需要说明的是，本申请实施例对于加权混合的具体实施方式不限。例如，在采用stft转换提取音频特征的实施方式中，可以在stft反变换之前对频域帧的音频信息即相位信息以及幅值信息分别进行加权混合，也可以在stft反变换之后，对反变换得到的时域帧音频信息进行加权混合。本申请一实施例中，在stft反变换之后，对时域帧音频信息进行加权混合如下：

例如，对于时域上的丢包位置T_lost的后一帧T_lost+1，进行预测加实际的加权混合运算。例如，混合运算所采用的公式如下：

Merged[i]＝[(M-i)*PLC[i]+i*GT[i]]/M

其中，Merged[i]是加权混合后的值，PLC表示预测出来的T_lost+1的值，GT表示真实的后一帧的值，M表示每帧采样点的个数例如160，(M-i)/M是预测值的权重，i/M是真实值的权重，对于任意i∈[0,M-1]，两个权重的和等于1。可以理解的是，i值越小，混合后的值越接近于预测出来的值；i值越大，混合后的值越接近于真实值。需要说明的是，上述混合算法所采用的公式仅用于对本申请实施例所述加权混合算法进行示意性说明，在应用中，可以根据实际需要调整加权混合算法的公式，本申请实施例对此并不进行限制。

在该实施例中，由于丢包位置的后一帧采用预测加混合的算法来计算出混合音频信息，使补偿后的音频数据中丢包与后一帧音频信息搭接连贯，解决了补偿后的音频数据丢包位置后帧的搭接问题。

例如，在每帧160个采样点的情况下，frame_length＝320，frame_step＝160，frame_length/frame_step＝2，即N＝2，从而频域覆盖时域2帧，stft反变换时，能够恢复出时域的一帧。对应图4的时域频域转换图，时域的T_lost由频域的frame9和frame10进行stft反变换后overlap add得出，时域的T_lost+1帧由频域的frame10和frame11进行stft反变换后overlap add得出。如图3所示的双流神经网络的输出对应的是频域的frame9、frame10、frame11。frame8和双流神经网络输出的frame9，进行stft反变换后overlap add得出时域的T_lost-1帧。frame10和frame11进行stft反变换后overlap add得出了预测的时域T_lost+1帧，与实际的T_lost+1帧进行时域加权混合，得到平滑后的T_lost+1帧。可见，由于相邻的两帧音频的频域信号重叠了1个单位的时域帧，从而在通过stft反变换计算时，两帧自动overlap add(重叠相加)，自然地解决了丢包位置前帧的搭接问题，并且通过后一帧预测与实际值的加权混合，解决了丢包位置后帧的搭接问题，使得补偿后的音频更加连贯流畅。

下面，对结合了上述多个实施例的实施方式进行详细说明。图5示出了本申请另一实施例的处理音频丢包的方法，该处理音频丢包的方法以采用stft变换来提取音频特征为例进行描述，包括步骤502至步骤516。

步骤502：获取丢包的音频数据。

步骤504：使用stft变换来提取丢包位置前frame1到frame8共8帧频域数据的音频特征。

例如，每帧数据为10ms，对于16K采样率的音频，也就是160个采样点。需要说明的是，每帧的采样点数，可以根据应用的需求而变化。丢包位置前所使用的总采样点数也可以变化，相对于T_lost提供了足够的谐波相关性即可。

例如，取frame_length＝320,frame_step＝160,fft_length＝512，汉宁窗，不加padding。stft变换后，T_lost左侧共生成了frame1到frame8共8帧频域数据；与丢包和搭接相关的频域帧是frame9、frame10和frame11共3帧。

步骤506：将frame1-frame8共8帧频域数据输入双流神经网络，预测得到frame9-frame11共3帧的幅值信息以及相位信息。

例如，根据如上stft变换的参数示例，双流神经网络的输入shape为(batch，8，257，2)，其中“8”对应图4中的frame1-frame8。双流神经网络的输出shape为(batch，3，257，2)，其中“3”对应图4中的frame9、frame10和frame11。根据如图3所示的双流神经网络，左侧幅值流的预测结果为幅值掩膜mask，幅值掩膜mask＝真实幅值/参考幅值，其取值为正的实数；右侧相位流的预测结果是相位谱，最后一维2，分别为stft变换后复数的实部和虚部。需要说明的是，神经网络的输入shape取决于步骤502和步骤504中的具体参数，幅值和相位两个输入可以是一样的，也可以是不一样的。

步骤508：将输出的频谱与输入的频谱进行拼接，拼成完整的频域的11帧数据。

步骤510：对完整的频域的11帧数据做stft反变换，得到时域信号。

步骤512：将所述时域信号中T_lost-1帧以及T_lost帧替换到原丢包音频数据中的对应帧处。

步骤514：将所述时域信号中T_lost+1帧与原丢包音频数据中真实的T_lost+1帧的实际音频信息进行加权混合，得到T_lost+1帧的混合音频信息。

步骤516：将T_lost+1帧的混合音频信息替换到原丢包音频数据中的对应帧处。

可见，在该实施例中相位和幅值同时预测，并交互通信，改善生成音频的质量，并且仅使用丢包帧前的音频数据作为输入，满足因果关系，适合直播环境的低延时需求，而且丢包帧前的音频数据作为输入，stft变换无需加padding,规避了预测输出的幅值低的问题，对丢包前的一帧，采用stft变换的frame_length是frame_step的2倍来解决搭接问题，对丢包后的一帧，采用预测加混合的算法来解决搭接问题，从而达到了补偿音频连贯，高效及时的效果。

与上述方法实施例相对应，本申请还提供了处理音频丢包的装置实施例，图6示出了本申请一个实施例的处理音频丢包的装置的结构示意图。如图6所示，该装置600包括：获取输入模块602、输入特征提取模块604及信息预测模块606。

该获取输入模块602，可以被配置为获取用于预测丢包位置音频信息的音频数据。

该输入特征提取模块604，可以被配置为提取所述音频数据的音频特征。

该信息预测模块606，可以被配置为将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息。

其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道。

其中，所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正。

可见，由于该装置采用了具有信息交互通道的双流神经网络，其中，幅值流神经网络用于对幅值信息进行预测，相位流神经网络用于对相位信息进行预测，从而相位流神经网络能够通过信息交互通道获得幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，幅值流神经网络能够通过信息交互通道获得相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正，因此，本申请实施例提供的处理音频丢包的装置在获取用于预测丢包位置音频信息的音频数据，提取所述音频数据的音频特征，将音频特征输入已完成训练的双流卷积神经网络之后，针对丢包位置，能够得到经过幅值信息修正的相位信息和/或经过相位信息修正的幅值信息，减少相位信息和/或幅值信息误差，提高音频连贯性。

一个或多个实施例中，所述获取输入模块602，可以被配置为获取用于预测丢包位置音频信息的、无缺失采样点的音频数据。一个或多个实施例中，所述获取输入模块602，可以被配置为获取所述丢包位置之前的音频数据。

一个或多个实施例中，所述获取输入模块602，可以被配置获取用于预测丢包位置音频信息的多帧音频数据，所述多帧音频数据中，位于丢包位置之前的一帧与丢包位置所在帧的频域信号具有重叠区域。所述输入特征提取模块604，可以被配置为对所述音频数据做stft变换，得到所述音频的音频特征。其中，所述stft变换中帧长度为帧位移的N倍，其中，N的取值由所述重叠区域的大小确定。

图7示出了本申请另一个或多个实施例的处理音频丢包的装置的结构示意图。如图7所示，所述信息预测模块606，被配置为将所述音频特征输入已完成训练的双流卷积神经网络，得到丢包位置与所述重叠区域的幅值信息以及相位信息；所述第一卷积神经网络，用于对丢包位置与所述重叠区域的幅值信息进行预测，所述第二卷积神经网络，用于对丢包位置与所述重叠区域的相位信息进行预测。所述装置还包括：丢包前拼接模块608，可以被配置为将预测得到的丢包位置与所述重叠区域的音频信息，替换到原丢包音频数据中的对应帧处。

一个或多个实施例中，如图7所示，所述信息预测模块606，可以被配置为将所述音频特征输入已完成训练的双流卷积神经网络，得到丢包位置所在帧以及后一帧的幅值信息以及相位信息；所述第一卷积神经网络，用于对丢包位置所在帧以及后一帧的幅值信息进行预测，所述第二卷积神经网络，用于对丢包位置所在帧以及后一帧的相位信息进行预测。所述装置还包括：加权混合模块612，可以被配置为将预测得到的所述丢包位置的后一帧的音频信息与所述后一帧的实际音频信息进行加权混合，得到所述丢包位置的后一帧的混合音频信息。丢包后拼接模块614，可以被配置为将预测得到的所述丢包位置的音频信息及所述后一帧的混合音频信息，替换到原丢包音频数据中的对应帧处。

另一方面中，处理器120可以执行图8所示训练神经网络的方法中的步骤。

图8示出了根据本申请一实施例的训练神经网络的方法的流程图，包括步骤802至步骤806。

步骤802：获取用于预测丢包位置音频信息的音频数据样本。

步骤804：提取所述音频数据样本的音频特征。

步骤806：将所述音频特征输入双流神经网络进行预测丢包位置音频信息的训练，得到完成训练的双流神经网络。

本申请实施例提供的训练神经网络的方法，由于采用了具有信息交互通道的双流神经网络，其中，幅值流神经网络用于对幅值信息进行预测，相位流神经网络用于对相位信息进行预测，从而相位流神经网络能够通过信息交互通道获得幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，幅值流神经网络能够通过信息交互通道获得相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正，因此，本申请实施例提供的训练神经网络的方法在获取用于预测丢包位置音频信息的音频数据样本，提取所述音频数据样本的音频特征，将音频特征输入双流神经网络进行预测丢包位置音频信息的训练之后，得到的双流神经网络，能够使预测的相位信息被幅值信息修正和/或幅值信息被相位信息修正，提高预测准确性。

与上述方法实施例相对应，本申请还提供了训练神经网络的装置实施例，图9示出了本申请一个实施例的训练神经网络的装置的结构示意图。如图9所示，该装置900包括：样本获取模块902、样本特征提取模块904及样本训练模块906。

该样本获取模块902，可以被配置为获取用于预测丢包位置音频信息的音频数据样本。

该样本特征提取模块904，可以被配置为提取所述音频数据样本的音频特征。

该样本训练模块906，可以被配置为将所述音频特征输入双流神经网络进行预测丢包位置音频信息的训练，得到完成训练的双流神经网络。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令。一方面，所述处理器执行所述指令时可以实现所述的处理音频丢包的方法的步骤。另一方面，所述处理器执行所述指令时可以实现所述的训练神经网络的方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令。该指令被处理器执行时可以实现如前所述处理音频丢包的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的处理音频丢包的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述处理音频丢包的方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令。该指令被处理器执行时可以实现如前所述训练神经网络的方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的训练神经网络的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述训练神经网络的方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种处理音频丢包的方法，其特征在于，包括：

获取用于预测丢包位置音频信息的音频数据；

提取所述音频数据的音频特征；

将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息；

其中，所述双流神经网络包括用于对幅值信息进行预测的幅值流神经网络以及用于对相位信息进行预测的相位流神经网络，所述幅值流神经网络与所述相位流神经网络之间具有信息交互通道；

其中，所述信息交互通道用于使所述相位流神经网络获得所述幅值流神经网络的幅值信息并利用该幅值信息对相位信息进行修正，和/或者，所述信息交互通道用于使所述幅值流神经网络获得所述相位流神经网络的相位信息并利用该相位信息对幅值信息进行修正；

所述幅值流神经网络包括幅值流卷积层以及幅值流全连接层；所述幅值流卷积层输出的幅值信息在进入所述幅值流全连接层之前，被通过所述信息交互通道获得的相位信息修正；

所述相位流神经网络包括相位流卷积层；

所述相位流卷积层输出的相位信息在进入幅值归一化之前，被通过所述信息交互通道获得的幅值信息修正。

2.根据权利要求1所述的方法，其特征在于，所述获取用于预测丢包位置音频信息的音频数据包括：

获取用于预测丢包位置音频信息的、无缺失采样点的音频数据。

3.根据权利要求1所述的方法，其特征在于，所述获取用于预测丢包位置音频信息的音频数据包括：

获取所述丢包位置之前的音频数据。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述获取用于预测丢包位置音频信息的音频数据包括：

获取用于预测丢包位置音频信息的多帧音频数据，所述多帧音频数据中，位于丢包位置之前的一帧与丢包位置所在帧的频域信号具有重叠区域；

所述提取所述音频数据的音频特征包括：

对所述音频数据做stft变换，得到所述音频的音频特征；

其中，所述stft变换中帧长度为帧位移的N倍，其中，N的取值由所述重叠区域的大小确定。

5.根据权利要求4所述的方法，其特征在于，所述将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息包括：

将所述音频特征输入已完成训练的双流神经网络，得到丢包位置与所述重叠区域的幅值信息以及相位信息；所述双流神经网络包括幅值流神经网络，所述幅值流神经网络为第一卷积神经网络，用于对丢包位置与所述重叠区域的幅值信息进行预测，所述双流神经网络包括相位流神经网络，所述相位流神经网络为第二卷积神经网络，用于对丢包位置与所述重叠区域的相位信息进行预测；

所述方法还包括：

将预测得到的丢包位置与所述重叠区域的音频信息，替换到原丢包音频数据中的对应帧处。

6.根据权利要求1所述的方法，其特征在于，所述将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息包括：

将所述音频特征输入已完成训练的双流神经网络，得到丢包位置所在帧以及后一帧的幅值信息以及相位信息；所述双流神经网络包括幅值流神经网络，所述幅值流神经网络为第一卷积神经网络，用于对丢包位置所在帧以及后一帧的幅值信息进行预测，所述双流神经网络包括相位流神经网络，所述相位流神经网络为第二卷积神经网络，用于对丢包位置所在帧以及后一帧的相位信息进行预测；

所述方法还包括：

将预测得到的所述丢包位置的后一帧的音频信息与所述后一帧的实际音频信息进行加权混合，得到所述丢包位置的后一帧的混合音频信息；

将预测得到的所述丢包位置的音频信息及所述后一帧的混合音频信息，替换到原丢包音频数据中的对应帧处。

7.根据权利要求1所述的方法，其特征在于，所述利用该幅值信息对相位信息进行修正包括：

根据修正后的相位信息等于修正前的相位信息与修正前的幅值信息的激活值的乘积，得到修正后的相位信息；所述修正前的幅值信息是所述幅值流神经网络中的1*1卷积层输出的幅值信息。

8.根据权利要求1所述的方法，其特征在于，所述利用该相位信息对幅值信息进行修正包括：

根据修正后的幅值信息等于修正前的幅值信息与修正前的相位信息的激活值的乘积，得到修正后的幅值信息；所述修正前的相位信息是所述相位流神经网络中的1*1卷积层输出的相位信息。

9.一种处理音频丢包的装置，其特征在于，包括：

获取输入模块，被配置为获取用于预测丢包位置音频信息的音频数据；

输入特征提取模块，被配置为提取所述音频数据的音频特征；

信息预测模块，被配置为将所述音频特征输入已完成训练的双流神经网络，得到丢包位置的幅值信息以及相位信息；

所述相位流神经网络包括相位流卷积层；

10.一种训练神经网络的方法，其特征在于，包括：

获取用于预测丢包位置音频信息的音频数据样本；

提取所述音频数据样本的音频特征；

将所述音频特征输入双流神经网络进行预测丢包位置音频信息的训练，得到完成训练的双流神经网络；

所述相位流神经网络包括相位流卷积层；

11.一种训练神经网络的装置，其特征在于，包括：

样本获取模块，被配置为获取用于预测丢包位置音频信息的音频数据样本；

样本特征提取模块，被配置为提取所述音频数据样本的音频特征；

样本训练模块，被配置为将所述音频特征输入双流神经网络进行预测丢包位置音频信息的训练，得到完成训练的双流神经网络；

所述相位流神经网络包括相位流卷积层；

12.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求10所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求10所述方法的步骤。