CN114710475B

CN114710475B - 流媒体音频融合方法和装置

Info

Publication number: CN114710475B
Application number: CN202210373017.6A
Authority: CN
Inventors: 姜川; 吴迪; 李磊; 黄思远
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2024-03-15
Anticipated expiration: 2042-04-11
Also published as: CN114710475A

Abstract

本申请公开一种流媒体音频融合方法和装置，其中方法包括：基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息；按照基于对象的音频(object‑based audio)的音频编码方式，将所有所述流媒体的音频数据转码为一路音频数据；将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放。采用本申请可以提高多个流媒体播放场景下音频播放的灵活性、降低流媒体播放的资源开销且不依赖于终端系统平台的混音功能。

Description

流媒体音频融合方法和装置

技术领域

本发明涉及流媒体播放技术，特别是涉及一种流媒体音频融合方法和装置。

背景技术

随着互联网流媒体的高速发展，用户经常同时播放多个流媒体，比如同时打开多个播放器观看不同视频，或者浏览器同一个网页中包含了多个视频内容。多个视频部分可以采用屏幕区域的分割和叠加来显示，而对音频而言，受限于的声音播放设备的唯一性，往往需要对多路音频进行混音处理后播放。

目前，终端对多路音频的混音处理的通常做法是：将各个播放器解码后的音频数据送到终端系统平台的音频部件(如声卡)进行混音处理，将混音处理结果发送给扬声器，以实现多路音频的同时播放。

申请人在实现本发明的过程中发现，上述现有的混音处理方案存在：混音处理灵活性差，解码资源开销大，依赖于终端的系统平台提供音频混音功能等问题，具体分析如下：

在现有的混音处理方案中，终端需要先对每个流媒体的音频进行解码处理，然后再基于解码结果进行混音，如此，混音处理的对象是当前播放的所有流媒体的音频，用户无法根据需要，灵活地选择哪些流媒体的音频参与混音处理，因此，存在混音处理灵活性差的问题，从而无法满足用户选择部分流媒体音频进行同时播放的需要。并且，由于在混音处理前，需要每个播放器对各自播放的流媒体的音频进行解码，因此，需要运行多个解码器进行解码，从而导致解码资源开销大的问题。

另外，由于上述方案的混音处理是由终端的系统平台实现的，因此，也需要依赖于终端的系统平台提供音频混音功能，这样，如果终端的系统平台没有提供音频混音功能，则无法利用上述方案实现混音播放效果。

发明内容

有鉴于此，本发明的主要目的在于提供一种流媒体音频融合方法和装置，可以提高音频播放的灵活性、降低流媒体播放的资源开销，且不依赖于终端系统平台的混音功能。

为了达到上述目的，本发明实施例提出的技术方案为：

一种流媒体音频融合方法，包括：

基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息；

按照基于对象的音频object-based audio的音频编码方式，将所有所述流媒体的音频数据转码为一路音频数据；

将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放。

本发明实施例还公开了一种流媒体音频融合装置包括：

融合配置单元，用于基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息；

音频融合单元，用于按照基于对象的音频object-based audio的音频编码方式，将所有所述流媒体的音频数据转码为一路音频数据；

数据发送单元，用于将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放。

本发明实施例还公开了一种流媒体音频融合设备，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述流媒体音频融合方法。

本发明实施例还公开了一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上所述流媒体音频融合方法。

本发明实施例还公开了一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如上所述的流媒体音频融合方法的步骤。

综上所述，本发明实施例提出的流媒体音频融合方案，在将流媒体数据发送给终端播放器播放之前，对多路音频数据进行融合，即先基于每个待播放流媒体的资源描述信息，构建音频融合方案集合，并记录在新的资源描述信息中；并按照基于对象的音频object-based audio的音频编码方式，将所有所述流媒体的音频数据转码为一路音频数据，这样，推送给播放器播放的音频数据只有一路，从而使得在多路流媒体播放场景下对于音频数据，只需要一个播放器的音频解码器进行解码处理即可，因此可以有效降低流媒体播放的资源开销。

上述方案在解码处理前先构建出用户可以采用的音频融合方案，使得播放器在进行音频解码前，可以根据用户设置的播放配置，选择相匹配的音频融合方案，以进行解码，如此，用户可以随时根据需要设置同时播放的音频，从而可以提高音频播放的灵活性。并且，上述方案并不需要解码后的混音处理，因此，也不依赖于终端系统平台提供混音功能。

附图说明

图1为本发明实施例的音频融合方法流程示意图；

图2为本发明实施例的AC-4编码示例图；

图3为本发明实施例在音频融合服务器侧执行的流程示例图；

图4为本发明实施例的音频融合装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例的流媒体音频融合方法流程示意图，如图1所示，该实施例主要包括：

步骤101、基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息。

本步骤中，在将待播放流媒体的数据发送给终端播放器播放之前，基于每个待播放流媒体的资源描述信息，构建音频融合方案集合，并生成相应的新的资源描述信息，以将音频融合方案集合记录于新的资源描述信息中，这样，播放器可以基于新的资源描述信息获取可以采用的音频融合方案，并基于与用户播放配置匹配的音频融合方案进行音频解码，以使得用户可以根据需要灵活选择同时播放的音频。

一种实施方式中，具体可以采用下述方法构建音频融合方案集合：

步骤a1、基于每个所述流媒体的资源描述信息，确定所述流媒体各自包含的音频流集合。

在实际应用中，为了满足用户的个性播放需求，一个流媒体可能会提供不同语言(如英语、中文等)、不同声道类型(如2.1、5.1、7.1等)和/或不同编码类型的多种音频流。相应的，所述音频流集合具体可以由不同语言、声道类型和/或编码类型的音频流组成。本步骤中，需要基于每个流媒体的资源描述信息，确定其包含了哪些音频流，以便在后续步骤区分流媒体的不同音频流，进行不同流媒体的音频组合，以得到可以采用的流媒体音频融合方案。

步骤a2、按照预设的音频组合策略，基于所述音频流集合，构建候选音频流组合。

本步骤，用于基于每个待播放流媒体包含的音频流集合，来构建候选音频流组合，以在候选音频流组合范围内选择可以提供给用户选择的音频融合方案，从而可以将可行的流媒体音频融合方案提供给播放器，实现多个流媒体音频的同时播放，且用户可以灵活设置参与同时播放的音频组合。

在实际应用中可由本领域技术人员根据实际需要设置合适的音频组合策略，例如，可以为：每个流媒体在组合中音频流最多仅有一个，且组合中的音频流类型相同，比如，都是中文音频，或者，都是英文音频，但不限于此。

下面以两个流媒体来举例，对上述候选音频流组合的构建进行示例性说明：

主要流媒体(Main Streaming)包含两路音频(英语和中文)：

Audio1.1(英语),Audio1.2(CN)；

次要流媒体(Sub Streaming)包含两路音频(英语和中文)：

Audio2.1(英语)Audio2.2(CN)。

相应的候选音频流组合可以如下表所示：

编号	语言类型	候选音频流组合
			01	英语	Audio1.1+Audio2.1
02	中文	Audio1.2+Audio2.2
			03	英语	Audio1.1
04	中文	Audio1.2
			05	英语	Audio2.1
06	中文	Audio2.2

因此，Main Streaming的音频部分包含了两个Streaming中的所有音频数据，总共有六种组合方式，播放终端可以依据需要灵活选择任何一种音频混音组合来播放。

步骤a3、如果当前存在用户播放定制信息，则从所述候选音频流组合中，筛选出与所述播放定制信息匹配的组合，将筛选出的每个组合作为音频融合方案，得到所述音频融合方案集合；否则，将候选音频流组合中的每个组合作为音频融合方案，得到所述音频融合方案集合。

这里，需要在步骤a2得到的候选音频流组合的基础上，进一步基于用户播放定制信息，从中选择出与用户播放定制信息相匹配的音频融合方案。

在上面两个流媒体示例中，假设用户设置了播放定制信息，比如语言偏好设置为英语，那么，本步骤中最终得到的音频融合方案集合如下表所示：

方案编号	语言类型	音频融合方案
			01	英语	Audio1.1+Audio2.1
02	英语	Audio1.1
			03	英语	Audio2.1

在实际应用中，本实施例的流媒体音频融合处理可以在终端中执行，为了减少终端的资源开销，也可以在服务器中执行。

一种实施方式中，当流媒体音频融合方法在音频融合服务器侧执行时，服务器将基于终端发送的流媒体播放请求，触发相应的音频融合过程，即：在构建所述音频融合方案集合之前，所述音频融合服务器接收所述终端发送的流媒体播放请求；当音频融合服务器检测到所述流媒体播放请求携带音频融合标识和至少两个流媒体的下载地址时，会判定对所述流媒体播放请求指示的流媒体需要进行音频融合处理，并基于流媒体播放请求提供的下载地址，获取所述流媒体的资源描述信息。

其中，上述音频融合标识用于指示终端支持流媒体音频融合处理。

相应地，对于流媒体的媒体数据的下载，可以获取流媒体的资源描述信息的同时下载，也可以在构建完成所述音频融合方案集合后，根据音频融合方案集合的需要，下载相应的数据，以尽量避免下载播放不需要的媒体数据，减少资源开销，对于后者，具体实现如下：

一种实施方式中，在构建完成所述音频融合方案集合时，音频融合服务器基于所述下载地址，获取所述音频融合方案集合需要的媒体数据，并从所述媒体数据中提取音频数据，具体地将通过对下载的媒体数据进行解析，得到其包含的各类媒体数据。

步骤101中，在构建完所述音频融合方案集合后，需要基于所述音频融合方案集合，生成新的资源描述信息，以在资源描述信息中记录该音频融合方案集合。

例如，基于DASH流媒体格式，在MPD文件中采用Preselection Info元素来描述不同的NGA音频融合方案，在实际应用中，不限于采用DASH流媒体格式，生成资源描述信息。

在实际应用中，生成新的资源描述信息不限于在步骤101中执行，只要在步骤103进行所述发送之前执行即可。

步骤102、按照基于对象的音频(object-based audio)的音频编码方式，将所有所述流媒体的音频数据转码为一路音频数据。

本步骤，用于对所有待播放流媒体的音频数据，按照NGA音频编码格式(即object-based audio音频编码方式)进行重新编码，即对所有流媒体的音频数据进行转码，如此，所有音频数据被融合为一路音频数据，从而使得在进行播放时只需要一个音频解码器进行解码即可。

具体地，object-based audio音频编码方式可以为AC-4、MPEG-H、DTS-UHD，但不限于此。

下面结合步骤a2中的示例，以AC-4为例说明NGA音频中多路音频的组成方式。

图2给出了AC-4编码示例图，如图所示，每帧包含四种音频即AC-4编码的Audio1.1、AC-4编码的Audio1.2、AC-4编码的Audio2.1和AC-4编码的Audio2.2。

一种实施方式中，所述用户播放定制信息包括：语言偏好、播放终端的音频设备类型和/或音频特殊辅助信息。

上述用户播放定制信息可由用户根据播放需要设置，以获得与用户需求相匹配的播放效果。

其中，音频特殊辅助信息用于表示用户的特殊播放需要，例如，用户有听力障碍，此情况下在确定音频融合方案时，需要考虑选取在特殊音轨放大人声、去噪的音频，或者用户有视觉障碍，此情况下在确定音频融合方案时，需要考虑选取包含用于说明视频画面内容的旁白的音频。

基于播放终端的音频设备类型，可以在确定音频融合方案时，选择与终端播放特性相匹配的音频进行组合。

需要说明的是，在实际应用中流媒体的内容往往不仅是音频还有视频，这样，当将所有流媒体的音频转码为一路音频后，包含有视频的流媒体中会余下视频数据。将音频融合得到的一路音频与其中的一个流媒体的视频数据进行封装，即会得到一个新的流媒体数据包，而其他流媒体经过音频融合后，则不会再包含音频数据。这样，播放器仅对一个包含有音频内容的流媒体进行音频解码即可。

较佳地，一种实施方式中，可以将融合得到的音频数据标记为主要流媒体的音频数据，即所有的流媒体中的音频部分将融合到主要流媒体数据中，其他流媒体为次要流媒体，这些次要流媒体将只有视频数据。

以同时播放下列两路流媒体来举例，

Main Streaming包含三路视频(不同分辨率)和两路音频(英语和中文)：

视频：Video1.1(2160p)、Video1.2(1080p)、Video1.3(720p)；

音频：Audio1.1(EN),Audio1.2(CN)；

Sub Streaming包含两路视频(不同分辨率)和两路音频(英语和中文)：

视频：Video2.1(1080p)、Video2.2(720p)；

音频：Audio2.1(EN)、Audio2.2(CN)。

假设没有用户播放定制信息，相应的，经过音频融合后，上述两路流媒体包含的内容分别如下：

Main Streaming的视频包含Video1.1+Video1.2+Video1.3，音频部分可以如下表所示：

Sub Streaming中只包含视频部分，即Video2.1+Video2.2。

步骤103、将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放。

一种实施方式中，在将融合得到的音频数据标记为主要流媒体的音频数据的情况下，为了确保多路流的视频和音频数据融合后得到的一路音频数据的时间基准相同，可以将所有流媒体的原始视频数据按照主要流媒体的时间基准重新封装成新的视频数据，然后，再将融合得到的一路音频数据和主要流媒体的视频数据进行封装，生成新的主要流媒体的媒体数据包。

一种实施方式中，具体可以采用下述方式进行所述播放：

从所述资源描述信息指示的音频融合方案集合中，筛选出与当前的播放配置信息匹配的音频融合方案；所述播放配置信息包含同时播放的音频集合；然后，将筛选出的音频融合方案通知给音频解码器，以便按照筛选出的音频融合方案，基于所述转码得到的音频数据，进行音频解码处理，并输出解码得到的流媒体中的声音。

一种实施方式中，为了进一步增强多个流媒体播放场景下音频播放的灵活性，音频解码器可以根据用户设置的播放配置信息，实时切换当前解码处理所依据的音频融合方案，具体方法如下：

在所述播放过程中，当检测到所述同时播放的音频集合发生变更时，从所述音频融合方案集合中，筛选出与变更后的所述同时播放的音频集合匹配的音频融合方案，将当前音频解码处理所依据的音频融合方案切换为当前筛选出的所述音频融合方案。

从上述流媒体音频融合方法实施例可以看出，上述方案通过在进行音频解码前，先将所有流媒体的音频数据转码为一路音频，使得只需要一个播放器的音频解码器进行解码处理即可，从而可以有效降低流媒体播放的资源开销。并且，播放器可以根据用户设置的播放配置，选择相匹配的音频融合方案，进行解码，如此，用户可以随时根据需要设置同时播放的音频，从而可以提高多个流媒体播放场景下音频播放的灵活性。另外，上述方案并不需要解码后的混音处理，因此，也不依赖于终端系统平台提供混音功能。

下面结合在音频融合服务器侧执行音频融合方法的具体示例，进一步对上述方案的具体应用进行详细说明。如图3所示，该方法过程包括下述步骤：

步骤1：用户终端向音频融合服务器(如边缘计算服务器(MEC server))发送流媒体播放请求，其中包含两个流媒体的网址URL，即URL1和URL2两个URL，音频融合标识(MULTI-STREAM_AUDIO_MIX)，AC-4音频编码支持(符合NGA标准的codec信息)。

步骤2：MEC server的融合配置单元，解析用户播放请求信息后，将用户请求的URL集合传递给媒体流下载器。

步骤3：流媒体下载器将两个URL(URL1和URL2)向对应的Web server发送HTTP下载请求，获取对应的流媒体资源配置文件(Manifest file)、原始视频和音频数据。

步骤4：流媒体解析器解析获取到的资源配置文件，将流媒体的音视频详细信息传递给融合配置单元，并继续向Web server请求音视频数据，以便持续进行流媒体数据融合。

步骤5：融合配置单元，根据流媒体的原始资源配置文件，制作新的资源配置文件。当用户没有指定哪个URL作为主要流媒体时，默认第一个URL为主要流媒体，主要流媒体URL1的资源配置文件中除了包含URL1的视频以外，还包含URL1音频和URL2音频；次要流媒体URL2的资源配置文件中仅仅包含URL2的视频部分。

步骤6：MEC server将分离出的音频发送给音频数据实时转码器。

步骤7:音频数据实时转码器采用用户终端支持的音频编码，对所有的音频数据进行转码操作，然后传递给数据发送单元。

步骤8～步骤9：数据发送单元，把转码后的音频，原始视频部分以及制作好的资源配置文件，重新制作新的URL1和URL2流媒体数据，最后发送给用户终端使用。

用户终端分别启动Streaming player1播放器来播放URL1流，Streaming player2播放器来播放URL2流，当需要声音控制时，只需要在Streaming player1中控制即可。

无论是需要URL1和URL2声音都需要播放时，还是当需要播放URL2声音而关闭URL1声音时，仅需要Streaming player1播放器向解码器AC-4decoder发送相应的配置信息，解码器内部完成混音和切换的处理，Streaming Player2仅仅需要播放只有视频的URL2流即可。

基于上述方法实施例，本申请实施例还提出一种流媒体音频融合装置，如图4所示，该装置包括：

融合配置单元401，用于基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息；

音频融合单元402，用于按照基于对象的音频object-based audio的音频编码方式，将所有所述流媒体的音频数据转码为一路音频数据；

数据发送单元403，用于将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放。

上述流媒体音频融合方法和流媒体音频融合装置是基于同一发明构思的，由于它们解决问题的原理相似，因此，上述方法和装置的实施可以相互参见，重复之处不再赘述。

基于上述流媒体音频融合方法实施例，本发明实施例还实现了一种流媒体音频融合设备，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述流媒体音频融合方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述流媒体音频融合方法实施方式中任一实施方式的功能。

其中，存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

本申请实施例实现了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上所述流媒体音频融合方法的步骤。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种流媒体音频融合方法，其特征在于，包括：

基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息；其中，所述音频融合方案集合包含候选音频流组合，所述候选音频流组合通过按照预设的音频组合策略，基于每个待播放流媒体包含的音频流集合得到；

将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放；所述播放包括：

从所述新的资源描述信息指示的音频融合方案集合中，筛选出与当前的播放配置信息匹配的音频融合方案；所述播放配置信息包含同时播放的音频集合；

按照所述筛选出的音频融合方案，基于所述转码得到的音频数据，进行音频解码处理，并输出解码得到的流媒体中的声音。

2.根据权利要求1所述的方法，其特征在于，所述构建音频融合方案集合包括：

基于每个所述流媒体的资源描述信息，确定所述流媒体各自包含的音频流集合；

按照预设的音频组合策略，基于所述音频流集合，构建候选音频流组合；

如果当前存在用户播放定制信息，则从所述候选音频流组合中，筛选出与所述播放定制信息匹配的组合，将筛选出的每个组合作为音频融合方案，得到所述音频融合方案集合；否则，将所述候选音频流组合中的每个组合作为音频融合方案，得到所述音频融合方案集合。

3.根据权利要求2所述的方法，其特征在于，所述用户播放定制信息包括：语言偏好、播放终端的音频设备类型和/或音频特殊辅助信息。

4.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：将所述转码得到的音频数据标记为主要流媒体的音频数据。

5.根据权利要求1所述的方法，其特征在于，所述流媒体音频融合方法在音频融合服务器侧执行；

所述方法进一步包括：

在构建所述音频融合方案集合之前，所述音频融合服务器接收所述终端发送的流媒体播放请求；

当检测到所述流媒体播放请求携带音频融合标识和至少两个流媒体的下载地址时，所述音频融合服务器判定对所述流媒体播放请求指示的流媒体进行音频融合处理，并基于所述下载地址，获取所述流媒体的资源描述信息。

6.根据权利要求5所述的方法，其特征在于，所述方法进一步包括：

在构建完成所述音频融合方案集合时，所述音频融合服务器基于所述下载地址，获取所述音频融合方案集合需要的媒体数据，并从所述媒体数据中提取音频数据。

7.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

8.一种流媒体音频融合装置，其特征在于，包括：

融合配置单元，用于基于每个待播放流媒体的资源描述信息，构建音频融合方案集合；基于所述音频融合方案集合，生成新的资源描述信息；其中，所述音频融合方案集合包含候选音频流组合，所述候选音频流组合通过按照预设的音频组合策略，基于每个待播放流媒体包含的音频流集合得到；

数据发送单元，用于将所述新的资源描述信息和所述转码得到的音频数据，发送给终端的流媒体播放器播放；所述播放包括：从所述新的资源描述信息指示的音频融合方案集合中，筛选出与当前的播放配置信息匹配的音频融合方案；所述播放配置信息包含同时播放的音频集合；按照所述筛选出的音频融合方案，基于所述转码得到的音频数据，进行音频解码处理，并输出解码得到的流媒体中的声音。

9.一种流媒体音频融合设备，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至7中任一项所述流媒体音频融合方法。

10.一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如权利要求1至7中任一项所述流媒体音频融合方法。