CN110035299A

CN110035299A - 沉浸式对象音频的压缩传输方法与架构

Info

Publication number: CN110035299A
Application number: CN201910311965.5A
Authority: CN
Inventors: 马士超; 姜珊珊; 郑天垚
Original assignee: (beijing) Information Technology Co Ltd
Current assignee: (beijing) Information Technology Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-19
Anticipated expiration: 2039-04-18
Also published as: CN110035299B

Abstract

本发明提供一种沉浸式对象音频的压缩传输方法与架构，其中，该方法包括以下步骤：服务器获取沉浸式对象音频；服务器基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；服务器采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；服务器将所述压缩后的沉浸式对象音频发送至客户端；客户端采用所述最优压缩算法对所述压缩后的沉浸式对象音频进行解压缩，获得所述沉浸式对象音频。本发明所提出的基于压缩‑解压缩的架构提高了沉浸式对象音频的压缩传输速率。

Description

沉浸式对象音频的压缩传输方法与架构

技术领域

本发明涉及沉浸式音频的网络传输技术领域，特别涉及一种沉浸式对象音频的压缩传输方法与架构。

背景技术

音频压缩技术属于数据压缩的一种，这种技术可以减少音频文件的大小，并降低音频流传输的带宽需求。音频压缩方法通常可以被分为无损压缩和有损压缩两类。无损音频压缩是一个可逆的过程，此类方法利用音频中的冗余信息对数据进行压缩。无损压缩方法减小了音频的文件大小，但压缩后的文件保留所有原始音频信息，播放效果与原始音频文件完全一致。常见的无损压缩技术有APE、FLAC、ALAC等。

有损音频压缩方法通常对原始文件的某些不重要信息做近似处理，以得到更小的压缩文件，压缩后文件大小约为原本的百分之五至百分之二十。但有损压缩是一个不可逆的压缩过程。有损压缩方法将心理学、人类听觉系统等因素纳入音频压缩的考量之中。这类压缩方法在理论上损失了原始文件中的部分信息，但这类信息的损失不一定能被人耳清晰分辨。最常见的有损音频压缩技术有ADPCM、WMA、MP3、AAC、AC3、OGG、Opus等。有损音频压缩通常采用改进的离散余弦变换(Modified Discrete Cosine Transform,MDCT)对音频文件进行压缩，并利用人类的听觉掩蔽以及听觉阈特性，舍弃不重要的声音信息。

沉浸式音频重新定义了音频后期制作的思维方式。杜比全景声、Auro 3D、DTS:X等技术通过引入高维空间坐标系，为观众提供了更好的立体音频体验。对象音频不再将立体音频视为简单的多声道表示，而是将音频在三维空间中进行重构，对象音频在三维空间的理论点定位声音，并在空间中建立虚拟音频模型。基于对象的混音的本质是一种高分辨率音频模型，可根据虚拟音源的位置适应音箱布局，并保持与传统环绕声环境的向后兼容性。

伴随着沉浸式音频技术的不断发展，沉浸式音频的应用领域日益广泛，音频质量不断提高，对沉浸式音频传输技术的需求也日益增加。传统的沉浸式对象音频传输方法直接传输对象音频，传输速率较慢且不能实时播放，对不同类型的场景的适应性较差。

发明内容

本发明实施例提供了一种沉浸式对象音频的压缩传输方法与架构，解决了现有技术中直接传输对象音频传输速率较慢且不能实时播放，对不同类型的场景的适应性较差的技术问题。

第一方面，该沉浸式对象音频的压缩传输方法包括：

服务器获取沉浸式对象音频；

服务器基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

服务器采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

服务器将所述压缩后的沉浸式对象音频发送至客户端；

客户端采用所述最优压缩算法对所述压缩后的沉浸式对象音频进行解压缩，获得所述沉浸式对象音频。

第二方面，该沉浸式对象音频的压缩传输方法包括：

获取沉浸式对象音频；

基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

将所述压缩后的沉浸式对象音频发送至客户端。

第三方面，该沉浸式对象音频的压缩传输架构包括：服务器和客户端；

其中，所述服务器用于：

获取沉浸式对象音频；

将所述压缩后的沉浸式对象音频发送至客户端。

所述客户端用于：

采用所述最优压缩算法对所述压缩后的沉浸式对象音频进行解压缩，获得所述沉浸式对象音频。

第四方面，该沉浸式对象音频的压缩传输架构包括：

沉浸式对象音频获取模块，用于获取沉浸式对象音频；

最优压缩算法确定模块，用于基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

沉浸式对象音频压缩模块，用于采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

沉浸式对象音频传输模块，用于将所述压缩后的沉浸式对象音频发送至客户端。

第五方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

在本发明实施例中，基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法，通过优压缩算法对沉浸式对象音频进行压缩，然后将压缩后的沉浸式对象音频发送至客户端，客户端采用最优压缩算法对所述压缩后的沉浸式对象音频进行解压缩，获得所述沉浸式对象音频。与传统的沉浸式对象音频传输方法相比较，本发明不直接传输对象音频，而是传输的压缩后的沉浸式对象音频，这样提高了传输速率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种沉浸式对象音频的压缩传输方法(服务器和客户端整体)流程图；

图2是本发明实施例提供的一种从沉浸式对象音频的压缩传输方法(服务器和客户端整体)角度说明的沉浸式对象音频的分布式存储与计算方案流程图；

图3是本发明实施例提供的一种从沉浸式对象音频的压缩传输方法(服务器和客户端整体)角度说明的压缩方案的自适应选择方法流程图；

图4是本发明实施例提供的一种对象音频的传输流程图；

图5是本发明实施例提供的一种沉浸式对象音频的压缩传输架构(服务器和客户端整体)框图；

图6是本发明实施例提供的一种沉浸式对象音频的压缩传输方法(服务器端)流程图；

图7是本发明实施例提供的一种从沉浸式对象音频的压缩传输方法(服务器端)角度说明的沉浸式对象音频分布式存储与计算方案流程图；

图8是本发明实施例提供的一种从沉浸式对象音频的压缩传输方法(服务器端)角度说明的压缩方案的自适应选择方法流程图；

图9是本发明实施例提供的一种沉浸式对象音频的压缩传输架构(服务器端)框图(一)；

图10是本发明实施例提供的一种沉浸式对象音频的压缩传输架构(服务器端)框图(二)；

图11是本发明实施例提供的一种沉浸式对象音频的压缩传输架构(服务器端)框图(三)。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，提供了一种沉浸式对象音频的压缩传输方法，如图1所示，该方法包括：

步骤101：服务器获取沉浸式对象音频；

步骤102：服务器基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

步骤103：服务器采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

步骤104：服务器将所述压缩后的沉浸式对象音频发送至客户端；

步骤105：客户端采用所述最优压缩算法对所述压缩后的沉浸式对象音频进行解压缩，获得所述沉浸式对象音频。

在本发明实施例中，传统的沉浸式对象音频传输方法采用集中存储、串行计算的方案，压缩速度慢，且计算时间长，不利于沉浸式对象音频的实时传输。基于此，本发明提出了在压缩过程中采用分布存储、并行计算的方案，该方案可以通过并行计算节约计算时间，通过分帧的方式实现了对象音频的实时传输，提高了沉浸式对象音频的压缩速率。如图2所示，该沉浸式对象音频的压缩传输方法中的服务器为多个，包括一个主服务器和多个从服务器1；

其中，主服务器获取沉浸式对象音频，根据应用场景对所述沉浸式对象音频进行下混音(downmix)，将下混音后的沉浸式对象音频根据从服务器的数量进行分块，将分块后的下混音后的沉浸式对象音频发送至对应的从服务器；

从服务器基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法，采用所述最优压缩算法对所述分块后的下混音后的沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频，将所述压缩后的沉浸式对象音频发送至客户端。

混音是指将多种来源的声音整合到立体音轨中去。而下混音是指将声道数目较多的对象音频整合成声道数目较少的对象音频，以减少所需传输的数据量。沉浸式对象音频信号包括原始音频信号和位置信号，在进行下混音过程中，需要位置信号进行辅助计算。

在将对象音频进行分块时，分块方法可以自行选择，例如，可以按照频域、时域、声道等进行划分。各服务器分别对分块后的音频进行压缩运算。

在本发明实施例中，采用如下的方案选择最优的压缩算法：

步骤1021：服务器基于正交分解将所述沉浸式对象音频划分为多个频带；

步骤1022：对于每个频带，基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法。

具体的，在将沉浸式对象音频进行正交分解时，划分准则可随不同应用场景改变，并可采用不同类型的正交基底。划分后各音频频带记为B＝{b¹,…,b^m}。

本发明在压缩算法方面，将压缩算法的选择问题转化为优化问题，针对不同应用场合的要求(功耗、延迟、网络带宽等)，从多种压缩方案APE、FLAC、ALAC、ADPCM、WMA、MP3、AAC、AC3、OGG、Opus中选择最优压缩函数方案，以此提高沉浸式对象音频传输架构的普适性，如图3所示。

假设网络带宽所允许最大存储空间为c_fixed，计算过程的最大功耗为p_fixed，所允许的最大的延迟为D_fixed，c_j是第j个频段的存储空间，p_j是第j个频段计算时的功耗，d_j是第j个频段计算所产生的延迟，k为傅里叶变换的频点数目，为原始音频频谱，W＝{w¹,w²,…,w^k}为各频点之权值，S_compress表示采用某种压缩方案压缩后的音频频谱，为各频点压缩后的损失函数(每一频段针对每一种压缩方案对应一个损失函数)，记优化函数如下所示：

该优化函数的直观含义是：在指定网络带宽、最大功率、延迟上限的情况下，采用不同的压缩方案对音频进行压缩后，使得压缩后各频点损失之和最小。通过求解以上优化函数，可以根据网络带宽、最大功率、延迟上限等条件自动选择与当前音频所对应的压缩方案，达到节约能源、降低延迟、减小带宽占用等目的。

在本发明实施例中，在对沉浸式对象音频进行传输时，是基于TCP、UDP等网络协议对分帧音频进行传输。如图4所示，在对传输精确度要求较高的应用场合，使用TCP协议进行传输；在对实时性要求较高的场合，使用UDP协议进行传输。这种协议选择策略亦有助于提高本沉浸式音频传输方法的普适性。

基于同一发明构思，本发明实施例中还提供了一种沉浸式对象音频的压缩传输架构，如下面的实施例所述。由于沉浸式对象音频的压缩传输架构解决问题的原理与沉浸式对象音频的压缩传输方法相似，因此沉浸式对象音频的压缩传输架构的实施可以参见沉浸式对象音频的压缩传输方法的实施，重复之处不再赘述。

如图5所示，该沉浸式对象音频的压缩传输架构包括：服务器和客户端；所述服务器为多个，包括一个主服务器和多个从服务器；

其中，所述主服务器用于：

获取沉浸式对象音频；

根据应用场景对所述沉浸式对象音频进行下混音；

将下混音后的沉浸式对象音频根据从服务器的数量进行分块；

将分块后的下混音后的沉浸式对象音频发送至对应的从服务器。

所述从服务器用于：

基于正交分解将所述沉浸式对象音频划分为多个频带；

对于每个频带，基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

采用所述最优压缩算法对所述分块后的下混音后的沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

基于TCP协议或UDP协议将所述压缩后的沉浸式对象音频发送至客户端。

所述客户端用于：

采用所述最优压缩算法对所述压缩后的沉浸式对象音频进行解压缩并重组，获得所述沉浸式对象音频并输出。

上述是从服务器和客户端整个系统来说的，下面从服务器单一角度来说。

如图6所示，该沉浸式对象音频的压缩传输方法包括以下步骤：

步骤601：获取沉浸式对象音频；

步骤602：基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

步骤603：采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

步骤604：将所述压缩后的沉浸式对象音频发送至客户端。

在本发明实施例中，如图7所示，该该沉浸式对象音频的压缩传输方法还包括：

步骤701：根据应用场景对所述沉浸式对象音频进行下混音；

步骤702：将下混音后的沉浸式对象音频根据从服务器的数量进行分块；

步骤603具体包括：

采用所述最优压缩算法对分块后的下混音后的沉浸式对象音频进行压缩。

在本发明实施例中，如图8所示，该该沉浸式对象音频的压缩传输方法还包括：

步骤801：基于正交分解将所述沉浸式对象音频划分为多个频带。

步骤602具体包括：

对于每个频带，基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法。

在本发明实施例中，步骤604具体包括：

基于同一发明构思，本发明实施例中还提供了一种沉浸式对象音频的压缩传输架构(服务器端)，如下面的实施例所述。由于沉浸式对象音频的压缩传输架构解决问题的原理与沉浸式对象音频的压缩传输方法相似，因此沉浸式对象音频的压缩传输架构的实施可以参见沉浸式对象音频的压缩传输方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

如图9所示，该沉浸式对象音频的压缩传输架构(服务器端)包括：

沉浸式对象音频获取模块901，用于获取沉浸式对象音频；

最优压缩算法确定模块902，用于基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法；

沉浸式对象音频压缩模块903，用于采用所述最优压缩算法对所述沉浸式对象音频进行压缩，获得压缩后的沉浸式对象音频；

沉浸式对象音频传输模块904，用于将所述压缩后的沉浸式对象音频发送至客户端。

在本发明实施例中，如图10所示，该沉浸式对象音频的压缩传输架构还包括：

下混音模块1001，用于根据应用场景对所述沉浸式对象音频进行下混音；

分块模块1002，用于将下混音后的沉浸式对象音频根据从服务器的数量进行分块。

沉浸式对象音频压缩模块903具体用于：

在本发明实施例中，如图11所示，该沉浸式对象音频的压缩传输架构还包括：

正交分解模块1101，用于基于正交分解将所述沉浸式对象音频划分为多个频带；

最优压缩算法确定模块902具体用于：

在本发明实施例中，沉浸式对象音频传输模块904具体用于：

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述所述方法的计算机程序。

综上所述，本发明与现有技术相比，具有如下关键创新点：

(1)本发明提出针对沉浸式对象音频的压缩-解压缩传输架构。传统的沉浸式对象音频传输方法直接传输对象音频，传输速率较慢且不能实时播放，对不同类型的场景的适应性较差。本发明所提出的架构基于压缩-解压缩的架构提高了沉浸式对象音频的压缩传输速率，且通过分帧的方式实现了对象音频的实时传输。

(2)本发明针对不同应用场景，自适应选择不同的压缩算法与传输方法，以此提高沉浸式对象音频传输架构的普适性。首先在压缩算法方面，将压缩算法的选择问题转化为优化问题，通过求解优化函数的方式，针对不同应用场合的要求(功耗、延迟、网络带宽等)选择最优压缩函数组合。其次在传输技术方面，在对沉浸式音频传输精确度要求较高的应用场合，使用TCP协议进行传输；而在对传输实时性要求较高的场合，使用UDP协议进行传输。该策略提高了本传输架构的普适性，对不同应用场合有较高的适应能力。

(3)本发明针对沉浸式对象音频的特点，对沉浸式对象音频进行分布式存储，且在压缩前针对应用场合对音频进行下混音，在压缩过程中对多对象、多声道的音频进行并行计算，以提高沉浸式对象音频的压缩速率。传统的集中存储、串行计算的方法压缩速度慢，且计算时间长，不利于沉浸式对象音频的实时传输。而对沉浸式对象音频进行并行计算可以节约计算时间，提高沉浸式对象音频传输的实时性。因此本传输架构将下混音后的对象音频根据服务器的数量分块，并经主服务器分发给从服务器，并在各服务器中进行分布式存储与计算。这种分布存储、并行计算的方案能显著提高沉浸式对象音频的压缩与传输效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图中一个流程或多个流程和/或方框图中一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种沉浸式对象音频的压缩传输方法，其特征在于，包括：

服务器获取沉浸式对象音频；

服务器将所述压缩后的沉浸式对象音频发送至客户端；

2.如权利要求1所述的沉浸式对象音频的压缩传输方法，其特征在于，服务器为多个，包括一个主服务器和多个从服务器；

其中，主服务器获取沉浸式对象音频，根据应用场景对所述沉浸式对象音频进行下混音，将下混音后的沉浸式对象音频根据从服务器的数量进行分块，将分块后的下混音后的沉浸式对象音频发送至对应的从服务器；

3.如权利要求1所述的沉浸式对象音频的压缩传输方法，其特征在于，服务器基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法，包括：

服务器基于正交分解将所述沉浸式对象音频划分为多个频带；

4.如权利要求3所述的沉浸式对象音频的压缩传输方法，其特征在于，所述优化函数为：

其中，c_fixed为网络带宽所允许最大存储空间；p_fixed为计算过程的最大功耗；D_fixed为所允许的最大的延迟；c_j为第j个频段的存储空间；p_j为第j个频段计算时的功耗；d_j为第j个频段计算所产生的延迟；k为傅里叶变换的频点数目；W＝{w¹,w²,…,w^k}为各频点的权值；S_compress为压缩后的音频频谱；为原始音频频谱；为各频点压缩后的损失函数。

5.一种沉浸式对象音频的压缩传输方法，其特征在于，包括：

获取沉浸式对象音频；

将所述压缩后的沉浸式对象音频发送至客户端。

6.如权利要求5所述的沉浸式对象音频的压缩传输方法，其特征在于，还包括：

根据应用场景对所述沉浸式对象音频进行下混音；

采用所述最优压缩算法对所述沉浸式对象音频进行压缩，包括：

7.如权利要求5所述的沉浸式对象音频的压缩传输方法，其特征在于，还包括：

基于正交分解将所述沉浸式对象音频划分为多个频带；

基于预设的优化函数对多种压缩算法进行评价，确定最优压缩算法，包括：

8.如权利要求7所述的沉浸式对象音频的压缩传输方法，其特征在于，所述优化函数为：

9.一种沉浸式对象音频的压缩传输架构，其特征在于，包括：服务器和客户端；

其中，所述服务器用于：

获取沉浸式对象音频；

将所述压缩后的沉浸式对象音频发送至客户端；

所述客户端用于：

10.一种沉浸式对象音频的压缩传输架构，其特征在于，包括：

沉浸式对象音频获取模块，用于获取沉浸式对象音频；

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一所述方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至8任一所述方法的计算机程序。