CN109841222B

CN109841222B - 音频通信方法、通信设备及存储介质

Info

Publication number: CN109841222B
Application number: CN201711227296.0A
Authority: CN
Inventors: 王天宝
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2022-07-01
Anticipated expiration: 2037-11-29
Also published as: CN109841222A

Abstract

本发明实施例公开了一种音频通信方法、通信设备及存储介质。应用于第一通信设备中的所述音频通信方法，包括：接收第二通信设备发送的第一音频数据及所述第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是基于所述目标音频停止之后的背景噪音产生的音频数据；输出所述第一音频数据；在相邻两个所述第一音频数据的输出时间间隔内，基于所述第二音频数据持续输出音频，其中，输出所述第二音频数据的时长小于所述输出时间间隔的时长。

Description

音频通信方法、通信设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种音频通信方法、通信设备及存储介质。

背景技术

在音频通信尤其是语音通信为主的场景中，需要传输的有效声音在整个通信时段的占比通常不到二分之一。比如语音通话时，通话双方不是时时刻刻在讲话的，字句之间都有停顿。

为了节省传输带宽，减少有效数据的发送时延。在现有技术中，发送端在发送数据时，会仅截取有需要对方听到的音频的时间段内的音频数据发送，这样的话，字句之间停顿的时间内采集的背景噪音等音频数据就不用传输了。这样的话，显然减少了传输的音频数据量，减少了占用的传输带宽，在同样的带宽环境中，显然可以有更多的传输资源用于传输有效的音频数据，故可以提升有效的音频数据的传输速率。

但是，这种音频数据的传输方案，若通信双方有一个较长一定时间的停顿时，接收端就收不到发送端的音频数据，发送端就只能输出静音数据。而在发送端有音频数据的过程中，输出发送端发送的音频数据。但是这种音频数据中还是携带了有背景噪音的。这样反而增大了输出发送端数据时顺带输出的背景噪音和输出数据时的对比度，更加凸显出正常声音输出时的背景噪音，这样就导致用户的听觉体验的下降。

发明内容

有鉴于此，本发明实施例期望提供一种音频通信方法、通信设备及存储介质，至少部分解决上述用户体验听觉感受差和/或传输数据量大的问题。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供一种音频通信方法，应用于第一通信设备中，包括：

接收第二通信设备发送的第一音频数据及所述第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是基于所述目标音频停止之后的背景噪音产生的音频数据；

输出所述第一音频数据；

在相邻两个所述第一音频数据的输出时间间隔内，基于所述第二音频数据持续输出音频，其中，输出所述第二音频数据的时长小于所述输出时间间隔的时长。

可选地，所述方法还包括：

根据所述第二音频数据生成第三音频数据，其中，所述第三音频数据与所述第二音频数据满足预设相似条件；

所述在相邻两个所述第一音频数据的输出时间间隔内，基于所述第二音频数据持续输出音频，包括：

在两个所述第一音频数据的输出时间间隔内，输出所述第三音频数据。

可选地，所述根据所述第二音频数据生成第三音频数据，包括：

根据所述第二音频数据，构建噪声发生器；

随机生成待处理的音频数据；

将所述随机生成的待处理的音频数据输入所述噪声发生器，并由所述噪声发生器输出与所述第二音频数据满足所述预设相似条件的第三音频数据。

可选地，所述根据所述第二音频数据，构建噪声发生器，包括：

以所述第二音频数据为样本数据，并以与所述预设相似条件对应的约束条件，构建音频的染色滤波器；

所述生成待处理的音频数据，包括：

生成白噪声；

所述将所述随机生成的待处理的音频数据输入所述噪声发生器，并由所述噪声发生器输出与所述第二音频数据满足所述预设相似条件的第三音频数据，包括：

将所述白噪声输入所述染色滤波器，以生成所述第三音频数据。

根据所述预设相似条件，提取出生成所述第二音频数据所需满足的音频参数；

根据所述音频参数，利用预设发生器模拟出与所述第二音频数据满足预设相似条件的所述第三音频数据。

第二方面，本发明实施例提供一种音频通信方法，应用于第二通信设备中，包括

检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据；其中，所述第一音频数据包括：背景噪音和目标音频的叠加音频数据；所述第二音频数据包：背景噪音的音频数据，用于供第一通信设备在相邻两个第二音频数据的输出时间间隔内基于所述第二音频数据持续输出音频；输出所述第二音频数据对应的输出，小于所述输出时间间隔的时长；

将所述第一音频数据和所述第二音频数据，发送给所述第二通信设备。

可选地，所述检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据，包括：

检测所述原始音频数据，确定出所述目标音频读在所述原始音频数据中对应的分布边界；

基于所述分布边界，从所述原始音频数据中截取出所述第一音频数据和所述第二音频数据。

可选地，所述基于所述分布边界，从所述原始音频数据中截取出所述第一音频数据和所述第二音频数据，包括：

根据所述分布边界，确定所述第一音频数据并在每一个所述第一音频数据之后保留预设长度的所述第二音频数据。

可选地，所述预定长度的第二音频数据包括：

预设时间长度内产生的所述第二音频数据；

或者，

预定数据长度的所述第二音频数据。

第三方面，本发明实施例提供一种通信设备，所述通信设备为第一通信设备，包括：

接收单元，用于接收第二通信设备发送的第一音频数据及所述第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是基于所述目标音频停止之后的背景噪音产生的音频数据；

输出单元，用于输出所述第一音频数据；

所述输出单元，还用于在相邻两个所述第一音频数据的输出时间间隔内，基于所述第二音频数据持续输出音频，其中，输出所述第二音频数据的时长小于所述输出时间间隔的时长。

可选地，所述第一通信设备还包括：

生成单元，用于根据所述第二音频数据生成第三音频数据，其中，所述第三音频数据与所述第二音频数据满足预设相似条件；

所述输出单元，具体用于在两个所述第一音频数据的输出时间间隔内，输出所述第三音频数据。

可选地，所述生成单元，具体用于根据所述第二音频数据，构建噪声发生器；随机生成待处理的音频数据；将所述随机生成的待处理的音频数据输入所述噪声发生器，并由所述噪声发生器输出与所述第二音频数据满足所述预设相似条件的第三音频数据。

第四方面，本发明实施例提供一种通信设备，所述通信设备为第二通信设备，包括

检测单元，用于检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据；其中，所述第一音频数据包括：背景噪音和目标音频的叠加音频数据；所述第二音频数据包：背景噪音的音频数据，用于供第一通信设备在相邻两个第二音频数据的输出时间间隔内基于所述第二音频数据持续输出音频；输出所述第二音频数据对应的输出，小于所述输出时间间隔的时长；

发送单元，用于将所述第一音频数据和所述第二音频数据，发送给所述第二通信设备。

第五方面，本发明实施例提供一种通信设备，包括：收发器、存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序；

所述处理器，分别与所述收发器及所述存储器连接，用于通过执行所述计算机程序的执行，实现前述一个或多个应用于第一通信设备中的音频通信方法，或实现前述一个或多个应用于第二通信设备中的音频通信方法。

第六方面，本发明实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后，能够实实现前述一个或多个应用于第一通信设备中的音频通信方法，或实现前述一个或多个应用于第二通信设备中的音频通信方法。

本发明实施例提供音频通信方法、通信设备及存储介质，在本实施例中第一通信设备接收的音频数据包第一音频数据和第二音频数据。而第二音频数据为时域内相邻两个第一音频数据之间所有音频数据中的部分音频数据。即传输的仅基于背景音产生的音频数据的部分音频数据，显然并非所有的背景音的音频数据。

第一方面，本发明实施例中减少了传输的音频数据的数据量，从而减少了因音频数据传输占用的传输资源和传输带宽。

第二方面，由于传输了背景音的部分音频数据(即第二音频数据)，可以使得需要输出音频数据的第一通信设备，可以基于传输的第二音频数据，在相邻两个第一音频数据的输出间隙内持续输出与第一音频数据输出时背景音相似的音频，从而避免静默或静音凸显出第一音频数据输出的背景噪音的问题，从而提升了用户听觉体验。

附图说明

图1为本发明实施例提供的第一种音频通信方法的流程示意图；

图2为本发明实施例提供的第二种音频通信方法的流程示意图；

图3为本发明实施例提供的一种产生第三音频数据的示意图；

图4为本发明实施例提供的一种第一通信设备的结构示意图；

图5为本发明实施例提供的一种第二荣欣设备的结构示意图；

图6为本发明实施例提供的一种噪音发生器的结构示意图；

图7为本发明实施例提供的发送音频数据和仅发送第一音频数据和第二音频数据，在接收端的波形比对示意图；

图8为本发明实施例提供的发送音频数据和仅发送第一音频数据和第二音频数据，在接收端的时频谱比对示意图；

图9为本发明实施例提供的一种音频通信方法的流程示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

如图1所示，本实施例提供一种音频通信方法，应用于第一通信设备中，包括：

步骤S110：接收第二通信设备发送的第一音频数据及第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是基于所述目标音频停止之后的背景噪音产生的音频数据；

步骤S120：输出所述第一音频数据；

步骤S130：在相邻两个所述第一音频数据的输出时间间隔内，基于所述第二音频数据持续输出音频，其中，输出所述第二音频数据的时长小于所述输出时间间隔的时长。

所述第一通信设备可为接收所述第一音频数据和第二音频数据，需要输出所述音频数据，使得用户听到对应的音频的设备。所述第一通信设备可为手机、平板电脑、笔记本电脑、可穿戴式设备等可以通过传输网络进行数据传输的设备；可选地为无线网络设备。

在本实施例中，所述第一通信设备至少在输出第一音频数据之前，会从第二通信设备接收所述第一音频数据和第二音频数据。

所述第一音频数据至少基于目标音频和目标音频的背景噪音产生的音频数据，换句话说，所述第一音频数据包括：所述目标音频和目标音频的背景噪声的混合音频噪声。在本实施例中，所述目标音频为需要所述第一通信设备输出，供用户听到的音频。例如，所述第一通信设备和第二通信设备进行语音通信，所述语音通信可为基于专用线路(传输隧道)的语音通信，也可以是基于语音数据包的语音通信。第二通信设备采集的用户的说话的音频则为所述目标音频，所述背景噪音为所述目标音频以外的其他音频，均为背景音频。

在一些实施例中，所述第二音频数据可为在没有目标音频时采集的音频数据，通常仅包括背景音频噪声。

在本实施例中，所述第一通信设备同时会接收到第一音频数据和第二音频数据。

在第一通信设备接收到的一个或多个音频数据包中，可能包括：多个在时间维度上(或者说是时域上)分离的不连续的第一音频数据。若直接按照第一音频数据的采集时间，仅直接输出第一音频数据，会使得相邻两个第一音频数据之间出现静默时间。这个静默时间即为没有音频数据的输出时间间隔。为了避免静默导致用户认为是输出异常，可能会输出到一定静音数据，但是静音数据或直接静默，会使得在输出第一音频数据时的背景噪音的输出突出更加明显。在本实施例中，会基于所述第二音频数据输出音频。在本实施例中，所述第二音频数据的输出时长，通常是短于相邻两个第一音频数据之间的输出时间间隔的长度的。

在一些实施例中，所述步骤S130可包括：

在所述输出时间间隔内，输出所述第二音频数据，并在输出所述第二音频数据之后输出基于所述第二音频数据产生的第三音频数据；

或者，

在所述输出时间间隔内，输出基于所述第二音频数据直接输出所述第三音频数据。

其中，所述第二音频数据和所述第三音频数据是满足预设相似条件的。例如，所述第二音频数据和第三音频数据表征的音频，均可以用音频参数来指示音频特点，例如，响度、音色、音调、音频的频率成分、音频的功率频谱等。在本实施例中，所述第二音频数据和所述第三音频数据满足预设相似条件，可为在第二音频数据和第三音频数据对应的两个音频，在上述一个或多个音频参数上呈现出相同或相似的特性。所述相似的特性，为两个音频参数的差异度在预设范围的，可视为是相似的特性。

在本实施例中，一方面，所述第三音频数据和所述第二音频数据对应的音频具有相似，而非相同性，这样就可以避免用户重复听到相同的音频，认为是重复输出导致的用户听觉体验差的问题。第三音频数据与第二音频数据具有相似性，由于第二音频数据又与第一音频数据的背景噪音由于采集环境的相似性，具有相似性，这样的话，这种相似性可以使得用户听起来是有变化的，且这种变化又不是突兀的，是自然的，从而从这一层面提升用户的体验，尤其是在两个包含有目标音频的第一音频数据的输出时间间隔内的用户听觉体验。

另一方面，第二音频数据的输出时长是短于两个相邻输出第一音频数据的输出时间间隔的时长的。通常若编码率一定，输出时长越大，则需要越多的音频数据，这表明，第二音频数据的数据量，是少于整个输出时间间隔所需的数据量的，这样的话，显然相对于完全从第二通信设备接收整个输出时间间隔内基于所有背景音频产生的音频数据，数据量是大大减少的，这样可以了通信双方传输的数据量，减少了传输带宽的占用。

例如，在一些实施例中，持手机A(为第二通信设备的一种)的用户A在时间t0至t1之间有说话，并在t2至t3之间有说话，而在t1至t2之间没有说话。持手机B(即所述第一通信设备的一种)的用户B在等待用户A的应答的时间t0至t3之间，手机B会收到两个第一音频数据，分别对应的t0至t1之间采集的音频数据，和位于这两个第一音频数据之间的一个第二音频数据，分别是t1至t1.1的音频数据。其中，所述t1.1晚于t1且早于所述t2。

所述输出时间间隔为t1至t2，而所述第二音频数据的输出时长等于其采集时长，为所述t1至t1.1。

可选地，在本实施例中，所述第二音频数据在时域上可是紧接着每一个与其相邻的前一个第一音频数据的。

若所述t1至t2之间的时长为2秒，所述t1至t1.1可为0.1秒，这样的话，显然相对于传输2秒和0.1秒以相同的采集参数采集及相同的编码率的发送的音频数据，0.1秒对应的音频数据的数据量，是2秒的音频数据的1/20，显然大大的减少了音频数据的传输量。

值得注意的是，在本实施例中，时间上相邻输出的两个第一音频数据的输出时间间隔内，需要持续基于所述第二音频数据输出音频。基于前述例子，即在所述t1至t2时间内，均需要基于t1至t1.1时间内采集的音频数据，在整个t1至t2时间内持续输出音频，以避免输出中断产生的静默时间，以确保用户听觉体验。

可选地，如图2所示，所述方法还包括：

步骤S121：根据所述第二音频数据生成第三音频数据，其中，所述第三音频数据与所述第二音频数据满足预设相似条件；

所述步骤S130可包括步骤S131，所述步骤S131可包括：

在本实施例中可选地由所述第一通信设备，基于所述第二音频数据生成所述第三音频数据。在步骤S130中输出的为所述第三音频数据。

在本实施例中，所述第一通信设备接收到第一音频数据和第二音频数据之后，一边输出第一音频数据，一边基于第二音频数据产生第三音频数据，当所述第一音频数据输出完成之后，通常这边第三音频数据也产生完毕，已经处于输出就绪状态，可以直接输出所述第二音频数据。故，在本实施例中，所述步骤S121可包括：在输出所述第一音频数据，或，在输出第一音频数据和所述第二音频数据的时间内，基于所述第二音频数据产生第三音频数据。在另一些实施例中，所述步骤第三音频数据是实时产生，实时输出；这样的话，不用等待填满所述输出时间间隔内的所有第三数据产生完之后，再输出所述第三音频数据。

所述步骤S130可包括：在至少输出完所述第三音频数据对应的第一音频数据之后，输出所述第三音频数据。

可选地，所述步骤S121可包括：

根据所述第二音频数据，构建噪声发生器；

随机生成待处理的音频数据；

在本实施例中，首先基于第二音频数据构建噪声发生器。所述噪声发生器，可如图所示包括：输入、处理结构及输出。所述噪声发生器可对应于处理函数，所述输入可对应于处理函数的自变量；所述输出，可对应于处理函数的因变量；所述处理结果，又可以称之为处理网络，可对应于处理函数的运算符等计算因子和计算因子之间的运算关系。

在本实施例中，可以以所述第二音频数据为样本数据，进行函数拟合或模拟等处理，构建出噪声发生器。这样构建出的噪声发生器，显然是具有第二音频数据的某些音频特点的。

随机生成待处理的音频数据，例如，利用随机算法产生随机噪声，随机生成待处理的音频数据，该音频数据可作为所述构建的噪声发生器的输入，输入到所述噪声发生器中，这样的话，所述噪声发生器就会基于所述第二音频数据的音频特点对输入的音频数据进行处理，从而产生得到与所述第二音频数据满足所述预设相似条件的第三音频数据。

在本实施例中，可基于每一个接收到第二音频数据，构建特定的噪声发生器，然后利用构建的噪声发生器产生所述第三音频数据。

在本实施例中，所述噪声发生器，可为：进行音频数据处理的线性滤波器，也可以是非线性滤波器。所述线性滤波器为对数据进行线性滤波的滤波器，所述非线性滤波器为对音频数据进行非线性处理的滤波器。典型的所述线性滤波器可包括：线性相位滤波器。典型的所述非线性滤波器，可包括：卡尔曼滤波器。

进一步地，所述根据所述第二音频数据，构建噪声发生器，包括：

如图3所示，所述生成待处理的音频数据，包括：

生成白噪声；

所述与预设相似条件对应的约束条件可包括：所述预设相似条件允许的误差；或者，所述预设相似条件限定的误差。这种误差或偏差，可以体现功率误差，或不同功率频谱的误差等。

在本实施例中，构建的噪声发生器为染色滤波器，可为对白噪声进行处理，得到一个基于白噪声但是由不同白噪声的噪声，该噪声生成染色噪声，而产生染色噪声的滤波器，即为所述染色滤波器。

所述白噪声可为：指功率谱密度在整个频域内均匀分布的噪声。所有频率具有相同能量密度的随机噪声称为白噪声。

在一些实施例中，所述白噪声可为高斯白噪声。如果一个白噪声的瞬时值服从高斯分布，而该白噪声的功率谱密度又是均匀分布的，则称它为高斯白噪声。在另一些实施例中，所述白噪声还可为高斯白噪声以外的其他类型的白噪声，例如，瞬时值不服从高斯分布的其他白噪声。

将白噪声输入到染色滤波器之后，自然就会生成以与所述第二音频数据对应的背景噪声相似而又不一定相同的染色噪声。

进一步地，所述根据所述第二音频数据生成第三音频数据，包括：

在前一个实施例中，所述噪声发生器是基于第二音频参数动态构建的。在本实施例中，产生与所述第二音频参数满足预设相似条件的滤波器可为预先设定的，称之为预设发生器。所述预设发生器是可以产生第三音频数据，而利用这些预设的滤波器进行第三音频数据产生的控制变量，为从所述第二音频数据中提取的音频参数。所述音频参数可为：频率频谱等参数，但不局限于所述功率频谱。

在一些实施例中，所述方法还包括：

与所述第二通信设备交互与网络传输状况对应的传输指示，其中，所述传输指示为：第一传输指示或第二传输指示；

所述步骤S110可包括：

接收所述第二通信设备基于所述第一传输指示传输的所述第一音频数据和所述第二音频数据。

在另一些实施例中，所述方法还包括：

接收所述第二通信设备基于所述第二传输指示传输的原始音频数据；其中，所述原始音频数据是产生所述第一音频数据和第二音频数据的基础音频数据，或者说，第一音频数据和所述第二音频数据是从所述原始音频数据中截取的。

所述第一传输指示表征所述第一通信设备和第二通信设备之间的传输带宽受限或传输资源有限，不足以满足传输原始音频数据的需求，或者，传输流量有限，这样一方面确保用户的听觉感受，另一方面减少传输的数据量。

所述第二传输指示表征所述第一通信设备和所述第二通信设备之间的传输大款不受限或传输资源足以满足传输原始音频数据的需求，为了简化，第一通信设备和第二通信设备对音频数据的处理操作，直接传输所述原始音频数据。这样第一通信设备接收到所述原始音频数据之后，直接输出所述原始音频数据即可。

在本实施例中，所述获取与第二通信设备之间的网络传输状况信息可包括以下至少其中之一：

获取传输网络的类型，例如，是当前的传输网络为移动数据网络或WiFi网络等；

根据之前交互的音频数据在发送端的发送时间，和在接收端的接收时间，计算传输时长，基于传输时长确定所述传输网络状况信息等；

获取通信双方的网络设置参数，例如，有些情况下，通信设备基于用户输入设置了传输带宽等。

总之，获取所述传输网络状况信息的方式有多种，在此就不再一一重复了。

在一些实施例中，所述方法还包括：

获取与所述第二通信设备之间的网络传输状况信息；根据所述网络传输状况信息，向所述第二通信设备发送所述传输指示；所述网络传输状况信息为指示所述网络传输状况的信息；

或者，

接收所述第二通信设备确定的传输指示；

向所述第二通信设备发送选择的或确认的传输指示的应答信息。所述应答信息，用于确定或选择传输指示为第一传输指示或所述第二传输指示。

如图所示，本发明实施例还提供一种音频通信方法，应用于第二通信设备中，包括：

步骤S210：检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据；其中，所述第一音频数据包括：背景噪音和目标音频的叠加音频数据；所述第二音频数据包：背景噪音的音频数据，用于供第一通信设备在相邻两个第二音频数据的输出时间间隔内基于所述第二音频数据持续输出音频；输出所述第二音频数据对应的输出，小于所述输出时间间隔的时长；

步骤S220：将所述第一音频数据和所述第二音频数据，发送给所述第二通信设备。

在本实施例中，所述第二通信设备同样可为手机、平板电脑、笔记本电脑、可穿戴式设备等可以通过传输网络进行数据传输的设备；可选地为无线网络设备。

所述原始音频数据，可为所述第二通信设备自行采集的音频数据，也可以是从采集设备接收的音频数据。例如，所述原始音频数据可为如麦克风采集的音频数据。所述原始音频数据是包括：第一音频数据和位于第一音频数据之间的其他音频数据。所述第二音频数据可为所述其他音频数据中的部分音频数据。

所述目标音频可为说话对象产生的音频数据。所述背景噪音可为目标音频以外的所有音频，例如，环境噪音，或目标对象以外的非目标对象的说话声音等。

在本实施例中会对所述原始音频数据检测，从而基于检测的结果从所述原始频数据中截取出第一音频数据和第二音频数据。

在本实施例中，所述第一音频数据和第二音频数据的相关描述可以参见前述实施例，再次就不再重复描述了。

在本实施例中，所述第二通信设备不是直接发送原始音频数据，也不是不发送第二音频数据，而是发送第一音频数据的同时，发送第一音频数据之外的其他音频数据的部分音频数据，即所述第二音频数据。而发送的所述第二音频数据，用于供第一通信设备基于第二音频数据，在两个相邻输出的第一音频数据的输出时间间隔内，持续输出音频。一方面，可以减少第二通信设备向第一通信设备发送的数据量，减少传输资源的使用。另一方面，由于传输了少量的第二音频数据，可以供第一通信设备基于第二音频数据的重建等处理，使得在所述输出时间间隔内可以输出第一音频数据输出时的背景噪音相似的音频，从而提升用户听觉感受。

可选地，所述步骤S210可包括：

检测所述原始音频数据，确定出所述目标音频在所述原始音频数据中对应的分布边界；

由于目标音频和背景噪音具有明显的音频差异，故在本实施例中，可以通过检测原始音频数据，基于目标音频和背景噪音的音频差异，检测出目标音频中断的时间点，即区分有目标音频时采集的音频数据和没有目标音频时采集的音频数据。故进行音频采集的同时，就会产生对应的边界。例如，以前述t0至t1，t2至t3，其中，t1时刻和t2时刻即为在时间维度上的分布边界。

例如，利用语音活动检测(Voice Activity Detection，VAD)技术检测所述原始音频数据，从而区分第一音频数据和第一音频数据以外其他音频数据，然后截取第一音频数据的同时，截取部分其他音频数据作为所述第二音频数据。

所述基于分布边界，从原始音频数据中截取所述第一音频数据可包括以下步骤：

按照拓展参数拓展所述分布边界，以获得截取边界；

利用所述截取边界，截取所述原始音频数据，就自然会获得包括第一音频数据和第二音频数据的截取音频数据。

分布边界可为边界采集时间，所述拓展参数可为延长时长；例如，边界采集时间为T，所述延长时长为detaT，则截取边界对应的截取边界时间为：T+detaT；根据所述T+detaT，在一个时间窗内截取所述原始音频数据中截取到T+detaT之前的音频数据，作为所述第一音频数据和第二音频数据，而T+detaT之后到下一个时间窗内的音频数据就是需要原始数据中丢弃的不传输给第一通信设备的音频数据。

若采用本时候死例中方式，所述detaT可对应于第一音频数据以外的其他音频数据中任意时刻点的音频数据，在本实施例中为了进一步提升用户听觉感受效果上的延续性，在截取第二音频数据时，优选选择与第一音频数据相邻的detaT时长的音频数据作为第二音频数据。故一次截取的第一音频数据和第二音频数据，在原始音频数据中的分布是连续的，而非分连续的。

进一步地，所述预定长度的所述第二音频数据可包括：

预设时间长度内产生的所述第二音频数据；例如，所述预设时间长度可为前述detaT。

在另一些实施例中，所述预定长度的第二音频数据可包括：预定数据量长度的所述第二音频数据。例如，所述预设数据长度可为预设数据量，例如，x兆第二音频数据。所述x取值为正数，可为小数或整数，例如，0.1M。例如，构建噪声发生器，x兆数据量即可，则可以采用预设数据长度。

所述预设长度可为时间维度上的时间长度，或数据量对应的数据长度；当然以上仅是举例，具体实现时不局限于上述任意一个。

在一些实施例中，所述方法还包括：

与所述第一通信设备交互传输指示，

所述步骤S220可包括：

根据第一传输指示，传输所述第一音频数据和第二音频数据。

在另一些实施例中，所述方法还包括：

根据所述第二传输指示，传输所述原始音频数据。

如图4所示，本实施例提供一种通信设备，所述通信设备为第一通信设备，包括：

接收单元110，用于接收第二通信设备发送的第一音频数据及第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是基于所述目标音频停止之后的背景噪音产生的音频数据；

输出单元120，用于输出所述第一音频数据；

所述输出单元120，还用于在相邻两个所述第一音频数据的输出时间间隔内，基于所述第二音频数据持续输出音频，其中，输出所述第二音频数据的时长小于所述输出时间间隔的时长。

所述接收单元110，可包括：各种类型的收发器，例如，有线或无线的通信接口。有线的通信接口可包括：电缆接口或光缆接口。所述无线的通信接口可为收发天线。所述接收单元110，可接收第二通信设备发送的第一音频数据及第二音频数据。

所述输出单元120可对应于扬声器或喇叭等各种音频输出设备，可用于输出所述第一音频数据和第二音频数据。

可选地，所述第一通信设备还包括：

所述输出单元120，具体用于在两个所述第一音频数据的输出时间间隔内，输出所述第三音频数据。

所述生成单元，可对应于处理器。所述处理器可包括：中央处理器、微处理器、数字信号处理器、应用处理器、可编程阵列或专用集成电路等。所述处理器可通过计算机程序等执行，实现所述第三音频数据的生成。

在一些实施例中，所述生成单元，具体用于以所述第二音频数据为样本数据，并以与所述预设相似条件对应的约束条件，构建音频的染色滤波器；生成白噪声；并将所述白噪声输入所述染色滤波器，以生成所述第三音频数据。

在另一些实施例中，所述生成单元，可具体用于根据所述预设相似条件，取出生成所述第二音频数据所需满足的音频参数；根据所述音频参数，利用预设发生器模拟出与所述第二音频数据满足预设相似条件的所述第三音频数据。

如图5所示，本实施例还提供一种通信设备，所述通信设备为第二通信设备，包括

检测单元210，用于检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据；其中，所述第一音频数据包括：背景噪音和目标音频的叠加音频数据；所述第二音频数据包：背景噪音的音频数据，用于供第一通信设备在相邻两个第二音频数据的输出时间间隔内基于所述第二音频数据持续输出音频；输出所述第二音频数据对应的输出，小于所述输出时间间隔的时长；

发送单元220，用于将所述第一音频数据和所述第二音频数据，发送给所述第二通信设备。

所述检测单元210，可对应于处理器，可用于检测所述音频数据从而截取出所述第一音频数据和所述第二音频数据。

所述发送单元220，可对应于与所述处理器连接的通信接口，可用于第一音频数据和第二音频数据的发送。

可选地，所述检测单元，具体用于检测所述原始音频数据，确定出所述目标音频读在所述原始音频数据中对应的分布边界；基于所述分布边界，从所述原始音频数据中截取出所述第一音频数据和所述第二音频数据。

在另一些实施例中，所述检测单元，具体用于根据所述分布边界，确定所述第一音频数据并在每一个所述第一音频数据之后保留预设长度的所述第二音频数据。

此外，所述预定长度的所述第二音频数据包括：预设时间长度内产生的所述第二音频数据；或者，预定数据长度的所述第二音频数据。

以下结合上述任意实施例提供几个具体示例：

示例1：

本示例提供一种音频数据通信方法，包括：由发送端执行的步骤及由接收端执行的步骤。

由发送端执行的步骤包括：

发送端获取原始音频数据，例如，采集音频以获得所述原始音频数据。该语音数据包括：语音时段的语音数据和非语音时段的非语音数据；所述语音时段可为用户说话的时间段，所述非语音时段为用户不说话的时段，例如，两句话之间的间隙。所述语音数据可包括：基于用户所说的话产生的音频数据，所述非语音数据可包括：用户在未说话时采集的背景音的音频数据。

在获得所述原始音频数据之后，通过VAD检测语音(即前述目标音频)，但VAD检测出的语音段后要保留一小段背景音(即前述背景音频)。

编码截取的语音和保留的一小段背景音；

将编码后的音频数据发送给接收端。

举例：如果话音激活检测(VAD)检测出从时刻0s到5s之间是语音，时刻5s之后是背景音。发送端将0s到5.1s时刻的声音编码发送。这里语音之后的所多出的0.1s的背景音发送给接收端，可供接收端进行背景噪声的重建。

由接收端执行的步骤包括：

每次当码流中断时，都用语音中断前的0.1s内的声音进行功率谱分析，然后构建一个噪声发生器。该噪声发生器产生的噪声和此0.1s的背景音功率谱颜色相近且强度相当。而这个产生的噪声用来代替要播放的静音(即码流中断时用这段噪声作为播放声音)。从而使收听者感受不到背景噪声突然中断，其感受就像发送端没有为了节约带宽而间歇发包一样。

示例2：

本示例提供一种基于发送端发送的背景音从够噪声的方法，包括：

噪声发生器的构建：

白噪声的产生；

利用构建的噪声发生器基于产生的白噪声，产生染色噪声。

所述噪声发生器的构建可包括：分析从发送端接收的0.1s的背景噪音，得到该0.1秒的频响并构造出与这0.1s的颜色相近的滤波器(可称之为染色滤波器)，构建出的滤波器可用于对高斯白噪声进行滤波。例如，假设待分析信号(即所述0.1s的背景音)由一个白噪声激励一个染色滤波器而得到，由于白噪声功率谱是平坦的，那么如果得到这个染色滤波器，就可以算出这个信号的功率谱。这个过程通过下属办法实现：

让信号通过一个线性误差滤波器，该滤波器可如图6所示:

其中，p为阶数，α_i为系数；待分析信号s(n)及重构误差e(n)。这里的e(n)可为前述的预设条件的其中之一。所述s(n)可为前述语音之后携带的背景音的音频数据。这个过程当以重构误差均方最小为准则时，其重构误则对应产生的为白噪声。构建噪声发生器时是需要求α_i使得E[e²(n)]需要为最小，当得到了A(z)时，其倒数就是前文所说的染色滤波器。所述E[e²(n)]表示的e(n)的期望。A(z)表示的为z变换。

求解过程如下：

令

即

将(3-2)代入上式，得

其中r(j)＝E[s(n)s(n-j)]是s(n)的自相关序列。

可写为矩阵形式r-RA＝0，求解该方程后，可得到此时的最小均方误差：

至此得到线性重构问题的完整求解表达式：

但是这里的自相关序列r(j)的求解，涉及到集合平均，在本示例中分析的信号都为短窗信号可以认为短时平稳，即认为此随机信号是各态遍历的平稳随机信号，那么集合平均等于时间平均。

可以用

对其进行估值，这里去掉了1/N，因为它不影响方程的解。对n的求和范围不同，将导致不同的解法。本示例使用的是Burg法。

求解后就可以得到α_i以及E_p，也就是说，可以得到A(z)和重构误差功率。如果用e(n)经过1/A(z)滤波则可得到原来的s(n)。

要解决的是这个噪声s(n)突然断掉的问题，要构造一个和s(n)其功率相当且颜色相近的噪声。在本示例中可以从s(n)语音断掉之前的一小段时间的信号，估计出产生s(n)的染色滤波器1/A(z)和激励这个滤波器的白噪声的功率E_p，所以，在运用上述方法球的1/A(z)和E_p后，只需构造一个白噪声。在实际情况中，一般使用正态分布的白噪声。

所述白噪声的产生可包括以下步骤：

产生生成噪声的随机数，可包括：

均匀分布的概率密度函数为：

采用混合同余法产生均匀分布随机数：

给定初值x₀(可以是任意值)，然后以

得到(0，1)区间的随机序列y_i，其中a＝2045,c＝1,M＝2²⁰

然后通过

z_i＝a+(b-a)y_i(3-10)

得到(a，b)区间上均匀分布的随机数。

基于产生的随机数定义高斯白噪声，具体可包括：

正态分布的概率密度为：

其中μ为均值，σ²为方差，通常记为N(μ,σ²)，产生正态分布随机数的方法如下：

设r₁,r₂,…,r_n为(0，1)上n个相互独立的均匀分布的随机数，由于

根据中心极限定理，当n充分大时，

的分布近似于N(0，1)，通常n取12就够了。通过变换y＝μ+σx便可得到N(μ,σ²)分布的随机数。

染色噪声的产生，可如下：

令μ为0，σ²＝E_p，得到的就是所需的功率为E_p的正态分布的白噪声，将其送入3.2.1中估计出的染色滤波器1/A(z)就得到了和s(n)功率颜色相近的噪声，也就完成了断掉时段的声音重建。

图7所示，接收端在接收原始音频数据和仅接收第一音频数据和第二音频数据的波形比对示意图。图7的上半部分为：接收端仅接收第一音频数据及第二音频数据的示意图；图7的下半部分为：接收端接收原始音频数据的示意图。在图7中横轴表示的时间，纵轴表示的对应于音频数据的电信号，例如，声音信号的功率等参数。显然，在图7的上半部分存在着一段空白时间，该空白时间未接收任何数据。

图8所示，为接收端在接收原始音频数据和仅接收第一音频数据和第二音频数据的时频谱比对示意图。图8的上半部分为：接收端仅接收第一音频数据及第二音频数据的时频谱示意图；图8的下半部分为：接收端接收原始音频数据的时频谱示意图。在图8中横轴表示时间，纵轴表示频率。图8中线条的颜色深浅程度可表征的功率成分的多寡。显然，由于仅接收第一音频数据和第二音频数据，在未接收音频数据的空白时间内同样存在时频谱的缺失。

如图9所示，本发明实施例一种通信设备，包括：收发器330、存储器310、处理器320及存储在存储器310上并由所述处理器320执行的计算机程序340；

所述处理器320，分别与所述存储器310及收发器330连接，用于通过执行所述计算机程序340，控制所述存储器310的信息存储及所述收发器330的信息收发，并实现上述任意一个或多个技术方案提供的音频通信方法。

本实施例提供的通信设备可为前述的第一通信设备或第二通信设备。

本实施例中所述收发器330可对应于网络接口，所述网络接口可为电缆接口、可以用于其他网元进行数据交互。

所述存储器310可包括：各种类型的存储介质，可以用于数据存储。在本实施例中，所述存储器310包括的存储介质至少部分为非易失性存储介质，可以用于存储所述计算机程序340。

所述处理器320可包括：中央处理器、微处理器、数字信号处理器、应用处理器、专用集成电路或可编程阵列等，可以用于通过计算机程序340的执行音频通信方法。

在本实施例中，所述处理器320可通过集成电路总线等设备内总线，与所述收发器330及存储器310连接。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行后，并实现上述任意一个或多个技术方案提供的音频通信方法。

本发明实施例提供的计算机存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。可选为，所述计算机存储介质可为非瞬间存储介质。这里的非瞬间存储介质又可以称为非易失性存储介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频通信方法，其特征在于，应用于第一通信设备中，包括：

接收第二通信设备发送的第一音频数据及第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是采集所述目标音频停止之后的背景噪音形成的音频数据；

输出所述第一音频数据；

在相邻两个所述第一音频数据的输出时间间隔内，输出所述第三音频数据，其中，输出所述第三音频数据的时长小于所述输出时间间隔的时长。

2.根据权利要求1所述的方法，其特征在于，

所述根据所述第二音频数据生成第三音频数据，包括：

根据所述第二音频数据，构建噪声发生器；

随机生成待处理的音频数据；

3.根据权利要求2所述的方法，其特征在于，

所述根据所述第二音频数据，构建噪声发生器，包括：

所述生成待处理的音频数据，包括：

生成白噪声；

4.根据权利要求1所述的方法，其特征在于，

所述根据所述第二音频数据生成第三音频数据，包括：

5.一种音频通信方法，其特征在于，应用于第二通信设备中，包括：

检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据；其中，所述第一音频数据包括：背景噪音和目标音频的叠加音频数据；所述第二音频数据包括：背景噪音的音频数据，用于供第一通信设备生成第三音频数据，所述第三音频数据与所述第二音频数据满足预设相似条件，并在相邻两个第一音频数据的输出时间间隔内输出所述第三音频数据；输出所述第三音频数据对应的时长，小于所述输出时间间隔的时长；

将所述第一音频数据和所述第二音频数据，发送给所述第一通信设备。

6.根据权利要求5所述的方法，其特征在于，

所述检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据，包括：

7.根据权利要求6所述的方法，其特征在于，

所述基于所述分布边界，从所述原始音频数据中截取出所述第一音频数据和所述第二音频数据，包括：

8.根据权利要求7所述方法，其特征在于，

所述预定长度的第二音频数据包括：

预设时间长度内产生的所述第二音频数据；

或者，

预定数据长度的所述第二音频数据。

9.一种通信设备，其特征在于，所述通信设备为第一通信设备，包括：

接收单元，用于接收第二通信设备发送的第一音频数据及第二音频数据，其中，所述第一音频数据是采集目标音频和所述目标音频的背景噪音形成的音频数据；所述第二音频数据是基于所述目标音频停止之后的背景噪音产生的音频数据；

输出单元，用于输出所述第一音频数据；

所述输出单元，还用于在相邻两个所述第一音频数据的输出时间间隔内，输出所述第三音频数据，其中，输出所述第三音频数据的时长小于所述输出时间间隔的时长。

10.根据权利要求9所述的通信设备，其特征在于，

所述生成单元，具体用于根据所述第二音频数据，构建噪声发生器；随机生成待处理的音频数据；将所述随机生成的待处理的音频数据输入所述噪声发生器，并由所述噪声发生器输出与所述第二音频数据满足所述预设相似条件的第三音频数据。

11.一种通信设备，其特征在于，所述通信设备为第二通信设备，包括

检测单元，用于检测原始音频数据，以从所述原始音频数据中提取出第一音频数据及第二音频数据；其中，所述第一音频数据包括：背景噪音和目标音频的叠加音频数据；所述第二音频数据包括：背景噪音的音频数据，用于供第一通信设备生成第三音频数据，所述第三音频数据与所述第二音频数据满足预设相似条件，并在相邻两个第一音频数据的输出时间间隔内输出所述第三音频数据；输出所述第三音频数据对应的时长，小于所述输出时间间隔的时长；

发送单元，用于将所述第一音频数据和所述第二音频数据，发送给所述第一通信设备。

12.一种通信设备，包括：收发器、存储器、处理器及存储在所述存储器上并由所述处理器执行的计算机程序；

所述处理器，分别与所述收发器及所述存储器连接，用于通过执行所述计算机程序的执行，实现权利要求1至4任一项提供的音频通信方法，或实现权利要求5至8任一项提供的音频通信方法。

13.一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后，能够实现权利要求1至4任一项提供的音频通信方法，或实现权利要求5至8任一项提供的音频通信方法。