CN116643712A

CN116643712A - 电子设备、音频处理的系统及方法、计算机可读存储介质

Info

Publication number: CN116643712A
Application number: CN202310115400.6A
Authority: CN
Inventors: 迈克尔·埃嫩克尔; 斯特凡·乌利希; 乔治·法布罗
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2022-02-24
Filing date: 2023-02-14
Publication date: 2023-08-25
Also published as: US20230269552A1

Abstract

本公开涉及电子设备、音频处理的系统及方法、计算机可读存储介质。一种包括电路的电子设备，该电路被配置为：接收音频混合信号和与音频混合信号中存在的源相关的侧信息；对音频混合信号执行音频源分离，以获得分离源，并且基于分离源和侧信息生成相应的虚拟音频对象。

Description

电子设备、音频处理的系统及方法、计算机可读存储介质

技术领域

本公开总体上涉及音频处理领域，尤其涉及用于源分离和混合的设备、系统、方法和计算机程序。

背景技术

有许多音频内容是可用的，例如，以光盘(CD)、磁带、可以从因特网下载的音频数据文件的形式，但是也可以以例如存储在数字视频盘等上的视频的音轨的形式。通常，音频内容已经混合，例如，用于单声道或立体声设置，而没有保留来自已经用于制作音频内容的原始音频源的原始音频源信号。然而，存在设想混合音频内容的情况或应用。

尽管通常存在用于混合音频内容的技术，但是通常期望改进用于混合音频内容的设备和方法。

发明内容

根据第一方面，本发明提供一种包括电路的电子设备，该电路被配置为：接收音频混合信号和与音频混合信号中存在的源相关的侧信息(side information)；对音频混合信号执行音频源分离，以获得分离源；以及基于分离源和侧信息，生成相应的虚拟音频对象。

根据第二方面，本公开提供了一种包括电路的电子设备，该电路被配置为：对3D音频信号执行下混合，以获得音频混合信号；对3D音频信号执行混合参数提取，以获得侧信息；以及传输音频混合信号和与音频混合信号中存在的源相关的侧信息。

根据第三方面，本公开提供了一种系统，包括：第一电子设备，被配置为对3D音频信号执行下混合，并且向第二电子设备传输音频混合信号和侧信息，其中，第二电子设备被配置为基于从第一电子设备获得的音频混合信号和侧信息来生成相应的虚拟音频对象。

根据第四方面，本公开提供了一种方法，包括：接收音频混合信号和与音频混合信号中存在的源相关的侧信息；对音频混合信号执行音频源分离，以获得分离源；以及基于分离源和侧信息，生成相应的虚拟音频对象。

根据第五方面，本公开提供了一种计算机程序，包括程序代码，当程序代码在计算机上执行时，程序代码使计算机：接收音频混合信号和与音频混合信号中存在的源相关的侧信息；对音频混合信号执行音频源分离，以获得分离源；以及基于分离源和侧信息，生成相应的虚拟音频对象。

在从属权利要求、以下描述和附图中阐述了进一步的方面。

附图说明

参考附图通过示例的方式解释实施例，其中：

图1示意性地示出了通过盲源分离(BSS)(例如，音乐源分离(MSS))进行音频上混合/再混合的一般方法；

图2示意性地示出了使用音频源分离的下混合和再混合/上混合的过程的实施例；

图3示意性地更详细地示出了图2中描述的发送方的实施例；

图4示出了包含在3D音频信号中的元数据和音频数据的实施例；

图5示意性地更详细地示出了图2中描述的接收方的实施例；

图6示意性地示出了包括3D音频信号的每个分离源的相应渲染信息的侧信息，如上面关于图3所述，对3D音频信号执行源分离，以获得分离源；

图7示出了侧信息中包括的谱图与分离源的谱图的匹配过程；

图8提供了应用数字化单极子合成算法的系统的示意图；

图9示意性地示出了音频输入信号增强的实施例，其中，如图2中所述，被输入以用于下混合的音频信号是增强的音频信号；

图10示出了音频信号的两个乐器的直方图，其中，这两个乐器具有谱重叠；

图11示出了可视化使用音频源分离来执行音频信号的下混合和再混合/上混合的方法的流程图；以及

图12示意性地描述了可以使用音频源分离来实现下混合和再混合/上混合的过程的电子设备的实施例；

具体实施方式

在参考图1至12详细描述实施例之前，先进行一般性解释。

通常，音频文件(音乐)含有几个源或音频对象的混合。为了传输原始源，例如，音频对象，需要比立体声或单声道混音更高的带宽。

由于回放系统向3D音频的转变，在不增加所利用的传输带宽(例如，音频流服务)的情况下获得音频对象，同时保持定义的回放质量水平，这将是很好的。

盲源分离(BSS)又称盲信号分离，是从一组混合信号中分离出一组源信号。盲源分离(BSS)的一个应用是将音乐分离成单独的乐器轨道，使得原始内容能够上混合或再混合。

在下文中，术语再混合、上混合和下混合可以指基于源自混合输入音频内容的分离的音频源信号生成输出音频内容的整个过程，而术语“混合”可以指分离的音频源信号的混合。因此，分离的音频源信号的“混合”会导致输入音频内容的混合音频源的“再混合”、“上混合”或“下混合”。

下面描述的实施例提供了一种包括电路的电子设备，该电路被配置为：接收音频混合信号和与音频混合信号中存在的源相关的侧信息；对音频混合信号执行音频源分离，以获得分离源；以及基于分离源和侧信息，生成相应的虚拟音频对象。

电子设备例如可以是任何音乐或电影再现设备，例如，智能手机、耳机、电视机、蓝光播放器等。

电子设备的电路可以包括处理器，例如，可以是CPU、存储器(RAM、ROM等)、存储器和/或存储设备、接口等。电路可以包括或者可以与对于电子设备(计算机、智能手机等)众所周知的输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如，液晶、(有机)发光二极管等)、扬声器等、(无线)接口等连接。此外，电路可以包括或可以与用于感测静止图像或视频图像数据(图像传感器、相机传感器、视频传感器等)，用于感测环境参数(例如，雷达、湿度、光线、温度)等的传感器连接。

音频混合信号可以是立体声、单声道或者甚至是多声道信号。

与音频混合信号中存在的源相关的侧信息可以包括元信息，例如，渲染信息。与音频混合信号中存在的源相关的侧信息可以包括音频数据，例如，源的谱图。音频混合信号中存在的源可以是音频信号中存在的任何声源，例如，人声、鼓、低音(bass)、吉他等。

在音频源分离中，包括多个源(例如，乐器、声音等)的输入信号被分解成分离。音频源分离可以是无监督的(称为“盲源分离”BSS)或部分监督的。“盲”意味着盲源分离不一定具有关于原始源的信息。例如，可能不一定知道原始信号包含多少个源，或者输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在事先不知道原始信号分离的情况下分解原始信号分离。盲源分离单元可以使用技术人员已知的任何盲源分离技术。在(盲)源分离中，可以搜索在概率或信息论意义上或基于非负矩阵分解最小相关或最大独立的源信号，可以找到对音频源信号的结构约束。执行(盲)源分离的方法是技术人员已知的，并且基于例如主成分分析、奇异值分解、(独立)相关成分分析、非负矩阵分解、人工神经网络等。

尽管一些实施例使用盲源分离来生成分离的音频源信号，但是本公开不限于不使用更多信息来分离音频源信号的实施例，而是在一些实施例中，使用更多信息来生成分离的音频源信号。这种进一步的信息可以是例如关于混合过程的信息、关于包括在输入音频内容中的音频源的类型的信息、关于包括在输入音频内容中的音频源的空间位置的信息等。

电子设备可以从另一电子设备(例如，发送方等)接收音频混合信号和与音频混合信号中存在的源相关的侧信息。发送方可以是音频分发设备等。

虚拟音频对象可以是虚拟声源。例如，虚拟声源可以是声场，其给出声源位于预定空间的印象。例如，虚拟声源的使用可以允许生成空间受限的音频信号。特别地，生成虚拟声源可以被认为是在整个三维空间(包括在收听者的后面、上面或下面)中生成虚拟扬声器的一种形式。

可以基于3D音频渲染操作来执行虚拟音频对象生成，该3D音频渲染操作可以例如基于波场合成。可以使用波场合成技术来产生声场，该声场给出音频点源位于预定空间内的印象。这种印象可以例如通过使用驱动扬声器阵列的波场合成方法来实现，从而生成虚拟声源的印象。

3D音频渲染操作可以基于单极子合成。单极子合成技术可用于生成声场，该声场给出音频点源位于预定空间内的印象。这种印象可以例如通过使用驱动扬声器阵列的单极子合成方法来实现，从而生成虚拟声源的印象。

音频源分离(例如，盲源分离)可以从混音(the mix)中重构原始音频对象。这些新对象可以在回放设备上的3D空间中再混合。3D混合参数也可以作为二进制数据(x，y，z坐标，增益，扩展)被高度压缩地传输，或者甚至以听不见的方式隐藏在音频数据中。这样，可以使用更少的带宽，并且设备上的存储空间也更少。

以这种方式，可以传输多声道音频，使得不需要更多带宽，并且可以在传统接收方上作为“正常音频”播放，例如，在两个扬声器上播放，因为混合是立体声音频，同时允许使用源分离作为3D音频播放。

侧信息可以包括每个分离源的相应的渲染信息。渲染信息可以是在产生3D音频信号时在混合阶段(发送方)获得的3D混合参数。渲染信息可以是空间信息，例如，X、Y、Z坐标、增益参数、扩展参数等。

该电路可以被配置为通过将分离源与其相应的渲染信息相关联来生成虚拟音频对象。例如，虚拟音频对象的渲染器获得每个对象的ID号，并且渲染信息也包含该ID号。因此，两者可以对齐。可以通过将与音频混合信号中存在的源相关的侧信息与音频混合的分离源进行匹配，来执行虚拟音频对象与其相应的渲染信息的关联。也就是说，可以通过将音频混合中存在的源的谱图(该谱图包括在侧信息中)与通过对音频混合执行(音频)源分离而获得的分离源的谱图进行匹配，来执行虚拟音频对象与其相应的渲染信息的关联。

在一些实施例中，可以接收侧信息，作为二进制数据。

在一些实施例中，可以接收侧信息，作为包含在音频混合信号中的听不见的数据。

在一些实施例中，侧信息可以包括指示特定源存在于音频混合信号中的信息。特定源可以是音频混合信号(例如，人声、低音、鼓、吉他等)中存在的任何乐器。指示特定源存在于音频混合信号中的信息可以是来自元数据文件或者来自在发送方运行的乐器检测器的信息。

在一些实施例中，侧信息可以包括指示特定源的空间定位参数的信息。空间定位参数可以包括关于音频混合信号中存在的特定源的位置的信息，即，其中，特定源可以被回放设备放置在3D空间中。空间混合参数可以是三维(3D)音频混合参数。3D混合参数可以作为二进制数据(x，y，z坐标，增益，扩展)被高度压缩地传输，或者甚至以听不见的方式隐藏在音频数据中。

在一些实施例中，侧信息可以包括指示要用于源分离的网络架构的信息。

在一些实施例中，侧信息可以包括指示要用于音频源分离的多个存储的分离器模型中的分离器模型的信息。指示分离器模型的信息可以是关于以下的信息：如果电子设备(例如，接收方)具有电子设备(例如，接收方)可以从中选择的若干模型(例如，针对音乐流派优化的不同权重集)，哪个分离器模型可以用于音频源分离。例如，每个乐器(即对于音频混合信号中存在的每个特定源)与至少一个网络模型相关联。根据音频混合信号中存在的特定源，电子设备能够选择最合适的网络模型来执行音频源分离。以这种方式，音频源分离提供了优化的结果。

该电路还可以被配置为通过回放设备来渲染所生成的虚拟音频对象。

在一些实施例中，音频混合信号可以是立体声信号。

在一些实施例中，音频混合信号可以是单声道信号。

下面描述的实施例还提供了一种电子设备，该电子设备包括电路，该电路被配置为：对3D音频信号执行下混合，以获得音频混合信号；对3D音频信号执行混合参数提取，以获得侧信息；以及传输音频混合信号和与音频混合信号中存在的源相关的侧信息。可以显式传输侧信息，例如，WAV文件报头中的附加位，或者可以嵌入到音频波形中，例如，嵌入到PCM信号的最低有效位中。侧信息可以嵌入到音频流中，例如，立体声音频信号。

以这种方式，可以减少用于多声道或基于对象的音频数据传输的声道数量。可以动态调整传输的质量水平。谱混合方法也可能用于古典音乐制作。可以使用高度压缩的二进制混合数据在3D空间中再混合传输的音频。

侧信息可以包括与3D音频信号相关的渲染信息。

在一些实施例中，电路可以被配置为对3D音频信号执行谱解耦，以获得3D音频信号的解耦谱。例如，可以使用混合过程，该混合过程可能不是针对立体声回放而优化的，而是针对解码期间最小化的伪像而优化的，同时保持作为经典立体声混合的良好质量。通过在谱上分离不同的乐器，即特定的源，音频源分离算法可以以极好的质量执行。

在一些实施例中，电路可以被配置为对3D音频信号的解耦谱执行谱重叠比较，以获得增强的3D音频信号。例如，可以执行谱重叠的比较。如果没有例如两个特定源的重叠，则音频混合可以简单地传输到接收方。否则，特定源可以在谱上交织在一起，例如，每个乐器使用奇数和偶数FFT窗口(FFT bin)。或者如果存在谱重叠，则可以传输更多的声道或对象，以便动态地优化质量带宽比。由于谱重叠也可能存在于音频混合任务中，所以这种谱交错方案也可能有好处。

下面描述的实施例还提供了一种系统，包括：第一电子设备，第一电子设备被配置为对3D音频信号执行下混合，并且向第二电子设备传输音频混合信号和侧信息，其中，第二电子设备被配置为基于从第一电子设备获得的音频混合信号和侧信息来生成相应的虚拟音频对象。

该系统可以减少多声道或基于对象的音频数据传输的声道数量。可以动态调整传输的质量水平。谱混合方法也可能用于古典音乐制作。可以使用高度压缩的二进制混合数据在3D空间中再混合传输的音频。也可以与正常的立体声音频制作兼容。

下面描述的实施例还提供了一种方法，包括：接收音频混合信号和与音频混合信号中存在的源相关的侧信息；对音频混合信号执行音频源分离，以获得分离源；以及基于分离源和侧信息，生成相应的虚拟音频对象。

下面描述的实施例还提供了一种包括程序代码的计算机程序，当在计算机上执行时，该程序代码使计算机：接收音频混合信号和与音频混合信号中存在的源相关的侧信息；对音频混合信号执行音频源分离，以获得分离源；以及基于分离源和侧信息，生成相应的虚拟音频对象。

现在参考附图描述实施例。

通过音频源分离进行音频混合

图1示意性地示出了通过盲源分离(BSS)(例如，音乐源分离(MSS))进行音频上混合/再混合的一般方法。

首先，执行源分离(也称为“分层”)，其将包括多个声道I和来自多个音频源源1、源2、…、源K(例如，乐器、语音等)的音频的源音频信号1分解分解成“分离”，在此处分解成针对每个声道i的源估计2a至2d，其中，K是整数，表示音频源的数量。在此处的实施例中，源音频信号1是具有两个声道i＝1和i＝2的立体声信号。由于音频源信号的分离可能是不完美的，例如，由于音频源的混合，除了分离的音频源信号2a至2d之外，还生成残差信号3(r(n))。残差信号可以例如表示输入音频内容和所有分离的音频源信号之和之间的差异。由每个音频源发出的音频信号在输入音频内容1中由其相应记录的声波来表示。对于具有多于一个音频声道的输入音频内容，例如，立体声或环绕声输入音频内容，音频源的空间信息通常也由输入音频内容包括或表示，例如，由不同音频声道中包括的音频源信号的比例表示。基于盲源分离或能够分离音频源的其他技术来执行将输入音频内容1分离成分离的音频源信号2a至2d和残差3。

在第二步骤中，分离2a至2d和可能的残差3再混合并呈现为新的扬声器信号4，此处是包括五个声道4a至4e的信号，即5.0声道系统。基于分离的音频源信号和残差信号，通过基于空间信息混合分离的音频源信号和残差信号，来生成输出音频内容。输出音频内容在图1中用附图标记4示例性地示出和表示。

在下文中，输入音频内容的音频声道的数量被称为M_in，输出音频内容的音频声道的数量被称为M_out。由于图1的示例中的输入音频内容1具有两个声道i＝1和i＝2，并且图1的示例中的输出音频内容4具有五个声道4a至4e，M_in＝2和M_out＝5。图1中的方法通常被称为再混合，特别是当M_in＜M_out时被称为上混合。在图1的示例中，输入音频内容1的音频声道的数量M_in＝2小于输出音频内容4的音频声道的数量M_out＝5，因此，这是从立体声输入音频内容1到5.0环绕声输出音频内容4的上混合。

通过音频源分离的音频渲染

图2示意性地示出了使用音频源分离的下混合和再混合/上混合的过程的实施例。在包括发送方和接收方的系统上执行该过程，其中，在发送方侧执行下混合，在接收方侧执行使用音频源分离的再混合/上混合。

三维(3D)音频信号200(见图1中的音频输入信号1)含有多个源(见图1中的1，2，…，K)，例如，具有多个声道(例如，M_in＝3或更多)，例如，一段音乐，该三维(3D)音频信被输入到发送方201并被处理，以获得音频混合信号202(例如，立体声音频信号)以及侧信息203(例如，3D混合参数)。接收方204处理音频混合信号202和侧信息203，以获得虚拟音频对象205，例如，单极子(monopole)。回放设备206渲染虚拟音频对象205。

在图2的实施例中，发送方201可以压缩三维(3D)音频信号200，以获得音频混合信号202，该音频混合信号可以是立体声信号或单声道信号。此外，发送方201可以压缩3D音频信号200，以获得侧信息，例如，3D混合参数。回放设备206可以是能够渲染虚拟音频对象的任何设备，例如，回放设备206可以是智能手机、膝上型电脑、计算机或具有扬声器阵列的任何电子设备。

如在图3的实施例中更详细描述的，发送方201可以执行下混合过程和混合参数提取过程。接收方204可执行音频源分离过程(例如，盲源分离)和音频对象生成过程，如在图6的实施例中更详细描述的。

应当注意，利用图2的上述过程，可以传输多声道音频，使得不需要更多带宽，并且可以在传统接收方上作为“正常音频”播放，例如，在两个扬声器上播放，因为混合是立体声音频，同时允许使用盲源分离作为3D音频播放。图2的上述过程可以利用更少的带宽，但也可以利用回放设备上更少的存储空间。以这种方式，减少了用于多声道或基于对象的音频数据传输的声道数量，并且可以动态地调整传输的质量水平。

音频下混合

图3示意性地更详细地示出了图2中描述的发送方的实施例。包含多个源的三维(3D)音频信号200被输入到发送方201并被处理，以获得音频混合信号202和侧信息203，如上面图2中所述。三维(3D)音频信号200包含若干音频源或多个音频对象的混合。三维(3D)音频信号200的带宽高于立体声音频信号或单声道音频信号的带宽。

下混合300压缩三维(3D)音频信号200，以获得音频混合信号202，例如，立体声音频信号。对三维(3D)音频信号200执行混合参数提取301和谱图生成303，以获得侧信息203(例如3D混合参数)。3D混合参数可以被传输到接收方(见图2中的204)，该接收方被高度压缩为包括X、Y、Z坐标、增益、扩展等的二进制数据，在这方面不限制本实施例。3D混合参数可以以听不见的方式隐藏在音频混合信号202(即，音频数据)中。侧信息203可以包括元数据，例如，元信息和音频数据。

从数据编码的角度来看，音频对象由音频数据组成，该音频数据作为音频位流加上相关联的元数据(对象位置、增益等)包括在音频对象流中。与音频对象相关的关联元数据例如包括与音频对象相关的定位信息，即描述音频对象应该位于3D音频场景中何处的信息。该定位信息可以例如表示为音频对象的3D坐标(x，y，z)(参见图2中的205)。在图3的实施例中，混合参数提取301获得音频对象流内的音频对象的坐标(x，y，z)。音频对象的这些提取的坐标(x，y，z)表示驾驶员沉浸其中的收听领域。

音频对象流通常由元数据模型的结构来描述，该元数据模型允许可靠地描述音频文件的格式和内容。在下面的实施例中，被描述为元数据模型的示例，即在ITU建议ITU-RBS.2076-1音频定义模型(ITU Recommendation ITU-R BS.2076-1 Audio DefinitionModel)中指定的音频定义模型(ADM)。这个音频定义模型指定了如何生成XML元数据来提供音频对象的定义。

如ITU-R BS.2076-1中所述，音频对象流由音频流格式来描述，例如，包括typeDefinition属性的audioChannelFormat，该音频流格式用于定义声道的类型。ITU-RBS.2076-1定义了五种类型的声道，名为DirectSpeaker、矩阵(Matrix)、对象(Object)、HOA和双耳(Binaural)，如ITU-R BS.2076-1的表10所述，我们将其如下再现：

表10

typeDefinitions

在这个实施例中，集中讨论在ITU-R BS.2076-1的§5.4.3.3部分中描述的类型定义“对象”。在ITU-R BS.2076-1的这一部分中，描述了基于对象的音频包括描述音频对象的位置(可以动态改变)的参数、对象尺寸以及是扩散声音还是相干声音。位置和对象尺寸参数的定义取决于所使用的坐标系，分别在ITU建议ITU-R BS.2076-1音频定义模型(ITURecommendation ITU-R BS.2076-1Audio Definition Model)的表14、15和16中描述。

在“对象”的audioBlockFormat的子元素“位置”中描述音频对象的位置。ITU-RBS.2076-1提供了描述音频对象位置的两种替代方式，即在极坐标系统中，以及或者在笛卡尔坐标系中。在ITU-R BS.2076-1的表16中，坐标子元素“笛卡尔”被定义为具有值0或1。该坐标参数指定使用哪种类型的坐标系。

表16对象的audioBlockFormat子元素

如果“笛卡尔”参数为零(这是默认值)，则使用极坐标系统。因此，在ITU-RBS.2076-1中定义的主坐标系是极坐标系统，其使用ITU-R BS.2076-1的表14中定义的方位角、仰角和距离参数，下面如下再现：

表14对象的audioBlockFormat子元素(极)

或者，可以指定音频对象在笛卡尔坐标系中的位置。对于笛卡尔坐标系，位置值(X、Y和Z)和尺寸值被标准化为立方体：

表15对象的audioBlockFormat子元素(笛卡尔)

通过以下方式在ITU-R BS.2076-1的5.4.3.3.1部分中给出了样本XML代码，该代码说明了位置坐标(x，y，z)

基于上面更详细描述的ITU-R BS.2076-1音频定义模型的描述，上面关于图3描述的坐标提取过程(参见图3中的301)可以例如通过从包括在音频对象流的元数据中的audioBlockFormat定义的位置的子元素读取这些坐标属性(x，y，z)或(方位角，仰角，距离)来实现。

在ITU-R BS.2076-1的5.4.3.3部分的表16和图7中给出了音频对象的音频块的元数据的示例。元数据的这个示例还包含上述提取的参数。

在图3的实施例中，提取的3D混合参数被传输到例如图4的接收方204，被高度压缩为二进制数据。提取的3D混合参数也可以被传输到例如下混合300，并且用于下混合目的。下混合300压缩三维(3D)音频信号200，以获得例如立体声音频信号。这种下混合也可以用单极子合成来执行，其中，只有两个扬声器，并且对应于左/右声道。

在图3的实施例中，下混合300可以如下面图9所述来实现。在图3的实施例中，由混合参数提取301提取的侧信息203可以是关于音频信号200中存在哪些乐器(即，音频源)的信息。侧信息203可以包括三维(3D)音频信号200的每个音频源的相应渲染信息。该信息源自元数据文件或可在发送方201上实现的乐器检测器。侧信息203可以是关于哪个分离器模型可以用于音频源分离的信息，如果例如接收方(参见图2中的204)可以在几个模型之间进行选择，例如，针对音乐流派优化的不同权重集。此外，侧信息203可以是关于可用于音频源分离的最佳网络架构的信息，例如，如果存在如Cai、Han等人在已发表的论文“Once-for-all:Train one network and specialize it for efficient deployment”(arXiv预印本arXiv：1908.09791(2019))中所描述的那样训练的“一劳永逸(once-for-all)”超网(supernet)。此外，侧信息203可以包含关于音频信号200的音频源的位置的信息，即这些音频源可以被回放设备放置在3D空间中的何处(参见图2中的206)。

应当注意，可以显式传输侧信息203，例如，WAV文件报头中的附加位，或者可以嵌入到音频波形中，例如，嵌入到PCM信号的最低有效位中。

由混合参数提取301提取的侧信息203可以用于由回放设备(参见图2中的206)(例如，由回放设备的扬声器阵列)将音频混合信号202渲染到3D空间中的合适位置，从而可以优化最终输出声音。

图4示出了包含在3D音频信号中的元数据和音频数据的实施例。3D音频信号200包括元数据200-1、200-2、200-3和音频数据200-4、200-5、200-6。元数据200-1、200-2、200-3包括指示3D音频信号中存在什么特定源的元信息以及渲染信息，即空间参数等。此处，音频数据200-4、200-5、200-6包括例如3D音频信号200中存在的每个特定源的谱图。存在于3D音频信号200中的每个特定源的谱图是指纹图谱(fingerprint)，该指纹图谱可用于识别音频信号的分离源，如图5和6中更详细描述的。每个特定源的谱图可以以非常低的分辨率与音频混合一起传输。

在图4的实施例中，3D音频信号200包括三个源，即源1、源2和源3。源1是人声，源2是鼓，源3是低音。第一源200-1是人声，并且与指示作为空间参数的坐标X：1.8，Y：5.4，Z：6.1的渲染信息相关。第二源200-2是鼓，并且与指示作为空间参数的坐标X：2.9，Y：3.7，Z：1.5的渲染信息相关。第三源200-3是低音，并且与指示作为空间参数的坐标X：5.6，Y：4.8，Z：4.9的渲染信息相关。

元数据200-1、200-2、200-3和音频数据200-4、200-5、200-6可通过执行如上图3中所述的混合参数提取(参见301)从3D音频信号200中提取。

基于分离源的音频对象生成

图5示意性地更详细地示出了图2中描述的接收方的实施例。接收方204基于与音频混合信号202相关的侧信息203(例如，3D混合参数)来处理音频混合信号202(例如，立体声音频)。通过对音频信号(参见图2和图3中的200)执行下混合(参见图3中的300)，来获得音频混合信号202，如上面图2中所述。通过对音频信号(参见图2和图3中的200)执行混合参数提取(参见图3中的301)，来获得侧信息203，例如，3D混合参数，如上面图2中所述。

对音频混合信号202执行源分离400，以获得分离源401。基于分离源401并基于与音频混合信号202相关的侧信息203(例如，3D混合参数)，来执行音频对象生成402，以获得虚拟音频对象205(例如，单极子)。

在图5的实施例中，源分离400是音频源分离，例如，盲源分离，并且如上面图1中更详细描述的那样执行。音频混合信号202可以是立体声信号或单声道音频信号。通过使用正常的立体声或甚至单声道音频信号传输，接收方204可以从混音中重构原始音频对象或音频源(乐器)。然后，这些新对象可以在回放设备上的3D空间中再混合。以这种方式，如图2中所描述的，由例如具有扬声器阵列的回放设备在3D空间中输出所生成的音频对象205。

在图5的实施例中，侧信息203包括例如3D混合参数。侧信息203还可以包括关于用于执行源分离400(分离器网络)的最佳设置的信息。以这种方式，在给定的使用情况下，可以优化源分离400(分离器网络)的性能。音频对象生成402可以如下面图9中所述来实现。

在图5的实施例中，侧信息203可以包括每个分离源401的相应的渲染信息，如图6所示。可以通过将分离源401中的分离源与其相应的渲染信息相关联来生成虚拟音频对象205，如图7所示。虚拟音频对象205的渲染器获得分离源401中的每个分离源的ID号，并且渲染信息也包含该ID号。通过这种方式，两者可以对齐。

分离源与其相应的渲染信息关联

图6示意性地示出了侧信息，该侧信息包括3D音频信号的每个分离源的相应渲染信息。如上关于图3所述，对3D音频信号执行源分离，以获得分离源。

在此处，3D音频信号包括三个特定源，即源1、源2和源3。源1是人声，源2是鼓，源3是低音。侧信息203包括与特定源203-1、203-2、203-3相关的相应渲染信息X、Y、Z，相应渲染信息X、Y、Z与3D音频信号的三个分离源401-1、401-2、401-3中的每一个相关联。

与第一特定源(源1)相关的第一元信息包括指示什么乐器是第一特定源(此处是人声)的信息、指示第一特定源的X、Y、Z坐标(此处是X：1.8、Y：5.4、Z：6.1)的渲染信息以及指示第一特定源的谱图(谱图_S1)的信息。与第二特定源(源2)相关的第二元信息包括指示什么乐器是第二特定源(此处是鼓)的信息、指示第二分离源的X、Y、Z坐标(此处是X：2.9，Y：3.7，Z：1.5)的渲染信息以及指示第二特定源的谱图(谱图_S2)的信息。与第三特定源(源3)相关的元信息包括指示什么乐器是第三特定源(此处是低音)的信息、指示第三特定源的X、Y、Z坐标(此处是X：5.6、Y：4.8、Z：4.9)的渲染信息以及指示第三特定源的谱图(谱图_S3)的信息。

包括在侧信息203中并且与相应的特定源相关的第一、第二和第三元信息中的每一个都与通过如本文所述对3D音频信号的混合信号执行源分离而获得的相应的分离源401-1、401-2、401-3相关联。每个分离源由相应的谱图表示，即第一分离源401-1具有谱图_SS1，第二分离源401-2具有谱图_SS2，第三分离源401-3具有谱图_SS3。

每个分离源401-1、401-2、401-3与其相应的元信息和渲染信息X、Y、Z匹配并因此与其相关联，如图7所示。

在图6的实施例中，元信息可以提供关于音频信号中每个特定源的频率空间的信息。渲染信息可以是在产生3D音频信号时在混合阶段(发送方)获得的3D混合参数。

图7示出了侧信息中包括的谱图与分离源的谱图的匹配过程。通过将侧信息的每个渲染信息中包括的谱图(即，频谱)与每个分离源的谱图(即，频谱)进行比较来执行匹配过程。在此处，在图7的左上和右上部分，作为人声谱图的谱图谱图_S1包括在侧信息的第一渲染信息中(参见203)。在图7的左下部分，谱图谱图_SS1是第一分离源的谱图，在此处是人声。在图7的右下部分，谱图谱图_SS2是第二分离源的谱图。

在侧信息中包括的源的每个谱图和音频混合信号中包括的每个分离源的谱图之间执行匹配过程。在图7的左部，侧信息中包括的源(此处是人声)的谱图谱图_S1与谱图谱图_SS1匹配，因此，第一分离源(此处是人声)与其相应的渲染信息(此处是第一渲染信息203-1)相关联。在图7的右侧，侧信息中包括的源(此处是人声)的谱图谱图_S1与谱图谱图_SS2不匹配，因此，具有谱图_SS2的分离源不与包括谱图_S1的渲染信息(即人声的谱图)相关联。通过执行匹配过程，每个分离源与其相应的渲染信息相关联。

在图7的实施例中，通过执行例如谱图比较，将每个分离源与其相应的渲染信息相关联。例如，通过量化两个谱图之间的差异。两个谱图之间的差异可能与频率范围有关。可以基于使用例如“谱图”函数获得的功率谱密度(PSD)来计算特定频率下的平均功率。

用于数字化音频对象合成的系统

图8提供了应用数字化单极子合成算法的系统的示意图。

在专利申请US 2016/0037282A1中更详细地描述该系统的理论背景，该专利申请通过引用结合于此。

在US 2016/0037282A1的实施例中实现的技术在概念上类似于波场合成，其使用有限数量的声学外壳来生成定义的声场。然而，实施例的生成原理的基本基础是特定的，因为合成并不试图精确地建模声场，而是基于最小二乘法。

目标声场被建模为放置在定义的目标位置的至少一个目标单极子。在一个实施例中，目标声场被建模为单个目标单极子。在其他实施例中，目标声场被建模为放置在相应定义的目标位置的多个目标单极子。目标单极子的位置可能正在移动。例如，目标单极子可以适应要衰减的噪声源的运动。如果使用多个目标单极子来表示目标声场，则如下所述，基于一组定义的合成单极子来合成目标单极子的声音的方法可以独立地应用于每个目标单极子，并且可以对每个目标单极子获得的合成单极子的贡献进行求和，以重构目标声场。

源信号x(n)被馈送到由z^-np标记的延迟单元和放大单元a_p，其中，p＝1，…，N是用于合成目标单极子信号的相应合成单极子的指数。根据该实施例的延迟和放大单元可以应用US 2016/0037282A1的方程式(117)来计算产生的信号y_p(n)＝s_p(n)，其用于合成目标单极子信号。产生的信号s_p(n)被功率放大并馈送到扬声器S_p。

在该实施例中，因此，以源信号x的延迟和放大分量的形式执行合成。

根据该实施例，指数为p的合成单极子的延迟n_p对应于目标单极子r₀和发生器r_p之间的欧几里德距离(Euclidean distance)r＝R_p0＝|r_p-r₀|的声音传播时间。

此外，根据该实施例，放大系数与距离r＝R_p0成反比。

在系统的替代实施例中，可以使用根据US 2016/0037282A1的方程式(118)的修改的放大因数。

在该系统的又一替代实施例中，关于US 2016/0037282A1的图9所述的映射因数可以用于修改放大。

音频输入信号增强

图9示意性地示出了音频输入信号增强的实施例，其中，如图2所述，被输入用于下混合的音频信号是增强的音频信号。

执行谱解耦600，以对三维(3D)音频信号200的不同音频源(例如，乐器)进行谱解耦，从而获得三维(3D)音频信号200的解耦谱601。谱重叠比较602比较三维(3D)音频信号200的解耦谱601，以获得增强的三维(3D)音频信号603。

在图9的实施例中，对三维(3D)音频信号200执行谱解耦600，以通过对音频信号的不同乐器进行谱解耦来增强三维(3D)音频信号200，使得在接收方侧执行的音频源分离(例如，BSS)算法(参见图2中的204)可以以优化的质量执行。谱重叠比较602确定是否存在谱重叠。如果在音频信号中没有例如两个音频源的重叠，则音频混合可以简单地传输到接收方(参见图2中的204)。如果在三维(3D)音频信号中存在例如两个音频源的谱重叠，则谱重叠的音频源可以谱交织在一起，例如，对于每个音频源(例如，每个乐器)使用奇数和偶数快速傅立叶变换(FFT)窗口(参见图10)。如果无法避免谱重叠，则更多的声道或音频对象可以被传输到接收方，使得可以动态优化质量带宽比。

或者，如果混音中存在两个或更多谱交织的乐器，则可以以时间交替的方式传输这些乐器。接收方可以获得两个乐器仍然同时演奏的信息，然后以并行的方式渲染。

应当注意，谱解耦600和谱重叠比较602可以最小化解码期间可能出现的伪像，同时保持作为经典立体声混合的良好质量。

参考图9描述的谱混合方法可以用于古典音乐制作。可以使用高度压缩的二进制混合数据在3D空间中再混合传输的音频。以这种方式，减少了用于多声道或基于对象的音频数据传输的声道数量，可以动态地调整传输的质量水平，并且可以与正常的立体声音频制作兼容。

图10示出了音频信号的两个乐器的直方图，其中，这两个乐器具有谱重叠。横坐标显示频率，纵坐标显示每个乐器信号的振幅。一种乐器用斜线图案表示，另一种乐器用点状图案表示。每个矩形700、701表示频率窗口(频域数据点)，其中，频率窗口是频域中样本之间的间隔。信号值的整个范围被分成一系列间隔。

如果在音频信号中存在例如两个音频源(例如，乐器)的谱重叠，则谱重叠的音频源可以谱交织在一起，例如，对于每个音频源(例如，每个乐器)使用奇数和偶数快速傅立叶变换FFT窗口。

方法

图11示出了可视化使用音频源分离来执行音频信号的下混合和再混合/上混合的方法的流程图。

在800，电子系统接收三维(3D)音频信号(参见图2、图3中的200)。在801，对接收到的3D音频信号执行下混合(参见图3中的300)，以获得音频混合信号(参见图2、图3、图5中的202)(例如，立体声音频信号或单声道音频信号)以及侧信息(参见图2、图3、图5、图6中的203)，例如，3D混合参数。在802，对接收的音频混合信号执行源分离(参见图5中的400)，例如，盲源分离，以获得分离源(参见图6中的401-1、401-2、401-3)。在803，基于分离源(参见图5中的401)和侧信息来执行音频对象生成(参见图5中的402)，以获得虚拟音频对象(参见图2、图3、图5中的205)，例如，单极子。在804，在3D空间中渲染生成的虚拟音频对象。例如，通过电子设备(参见图12中的900)的扬声器系统(参见图12中的910)来渲染生成的虚拟音频对象。

实现方式

图12示意性地描述了电子设备的实施例，该电子设备可以实现如上所述的基于音频混合信号和与音频混合信号相关的侧信息的虚拟音频对象生成的过程以及渲染所生成的虚拟音频对象的过程。电子设备900包括作为处理器的CPU 901。电子设备900还包括连接到处理器901的麦克风阵列911、扬声器阵列910和卷积神经网络(CNN)单元907。处理器901可以例如实现下混合300、混合参数提取301、盲源分离600和音频对象生成602，这些实现了关于图2、图3、图5、图8和图9更详细描述的过程。CNN单元907可以例如是硬件中的人工神经网络，例如，GPU上的神经网络或专用于实现人工神经网络的任何其他硬件。扬声器阵列910由分布在预定义空间上的一个或多个扬声器组成，并且被配置为渲染3D音频。电子设备900还包括连接到处理器901的音频接口908。音频接口908充当输入接口，用户能够经由该输入接口输入音频信号，例如，音频接口可以是USB音频接口等。此外，电子设备900还包括连接到处理器901的用户接口909。该用户接口909充当人机接口，并实现管理员和电子系统之间的对话。例如，管理员可以使用该用户接口909对系统进行配置。电子设备900还包括以太网接口906、蓝牙接口904和WLAN接口905。这些单元904、905和906充当与外部设备进行数据通信的I/O接口。例如，具有以太网、WLAN或蓝牙连接的附加扬声器、麦克风和摄像机可以经由这些接口904、905和906耦接到处理器901。

电子系统900还包括数据存储器902和数据存储器903(此处是RAM)。数据存储器903被设置成临时存储或缓存数据或计算机指令，以供处理器901处理。数据存储器902被设置为长期存储器，例如，用于记录从麦克风阵列911获得的传感器数据。数据存储器902还可以存储表示音频消息的音频数据，公共广播系统可以将该音频数据传送给在预定义空间中移动的人。

应当注意，上面的描述仅仅是示例配置。可替换的配置可以用附加的或其他的传感器、存储设备、接口等来实现。

***

应当认识到，实施例描述了具有方法步骤的示例性排序的方法，例如，图11。然而，仅仅是出于说明的目的而给出方法步骤的特定顺序，不应该被解释为具有约束力。

还应注意，将图12的电子系统划分成单元仅出于说明目的，且本公开不限于特定单元中的任何特定功能划分。例如，至少部分电路可以由分别编程的处理器、现场可编程门阵列(FPGA)、专用电路等来实现。

如果没有另外说明，在本说明书中描述的和在所附权利要求中要求保护的所有单元和实体可以被实现为例如芯片上的集成电路逻辑，并且如果没有另外说明，由这样的单元和实体提供的功能可以由软件实现。

就至少部分使用软件控制的数据处理设备来实现上述公开的实施例而言，将会理解，提供这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或其他介质被设想为本公开的方面。

注意，本技术也可以如下所述进行配置。

(1)一种电子设备，包括电路，该电路被配置为：

接收音频混合信号(202)和与音频混合信号(202)中存在的源(203-1、203-2、203-3)相关的侧信息(203)；

对音频混合信号(202)执行音频源分离(400)，以获得分离源(401；401-1、401-2、401-3)；以及

基于分离源(401)和侧信息(203)，生成相应的虚拟音频对象(205)。

(2)根据(1)所述的电子设备，其中，侧信息(203)包括每个分离源(401；401-1、401-2、401-3)的相应的渲染信息(X，Y，Z)。

(3)根据(2)所述的电子设备，其中，电路被配置为通过将分离源(401-1、401-2、401-3)与其相应的渲染信息(X，Y，Z)相关联来生成虚拟音频对象(205)。

(4)根据(1)至(3)中任一项所述的电子设备，其中，接收侧信息(203)，作为二进制数据。

(5)根据(1)至(4)中任一项所述的电子设备，其中，接收侧信息(203)，作为包括在音频混合信号(202)中的听不见的数据。

(6)根据(1)至(5)中任一项所述的电子设备，其中，侧信息(203)包括指示特定源(203-1、203-2、203-3)存在于音频混合信号(202)中的信息。

(7)根据(1)至(6)中任一项所述的电子设备，其中，侧信息(203)包括指示特定源(203-1、203-2、203-3)的空间定位参数(X，Y，Z)的信息。

(8)根据(1)至(7)中任一项所述的电子设备，其中，侧信息(203)包括指示要用于源分离(400)的网络架构的信息。

(9)根据(1)至(8)中任一项所述的电子设备，其中，侧信息(203)包括指示要用于音频源分离(400)的多个存储的分离器模型之中的分离器模型的信息。

(10)根据(1)至(9)中任一项所述的电子设备，其中，该电路还被配置为借助于回放设备(206)来渲染所生成的虚拟音频对象(205)。

(11)根据(1)至(10)中任一项所述的电子设备，其中，音频混合信号(202)是立体声信号。

(12)根据(1)至(11)中任一项所述的电子设备，其中，音频混合信号(202)是单声道信号。

(13)一种电子设备，包括电路，该电路被配置为：

对3D音频信号(200)执行下混合(300)，以获得音频混合信号(202)；

对3D音频信号(200)执行混合参数提取(301)，以获得侧信息(203)；以及

传输音频混合信号(202)和与音频混合信号(202)中存在的源(203-1、203-2、203-3)相关的侧信息(203)。

(14)根据(13)所述的电子设备，其中，侧信息(203)包括与3D音频信号(200)相关的渲染信息(203-1、203-2、203-3)。

(15)根据(13)或(14)所述的电子设备，其中，该电路被配置为对3D音频信号(200)执行谱解耦(600)，以获得3D音频信号(200)的解耦谱(601)。

(16)根据(15)所述的电子设备，其中，该电路被配置为对3D音频信号(200)的解耦谱(601)执行谱重叠比较(602)，以获得增强的3D音频信号(200)。

(17)一种系统，包括：

根据(13)所述的电子设备，即第一电子设备，该第一电子设备被配置为对3D音频信号(200)执行下混合(300)，并且向(1)所述的电子设备，即第二电子设备，传输音频混合信号(202)和侧信息(203)，其中，第二电子设备被配置为基于从所述第一电子设备获得的音频混合信号(202)和侧信息(203)来生成相应的虚拟音频对象(205)。

(18)一种方法，包括：

对音频混合信号(202)执行音频源分离(400)，以获得分离源(401)；以及

(19)一种计算机程序，包括程序代码，当程序代码在计算机上执行时，该程序代码使计算机执行根据(18)所述的方法。

Claims

1.一种电子设备，包括电路，所述电路被配置为：

接收音频混合信号和与所述音频混合信号中存在的源相关的侧信息；

对所述音频混合信号执行音频源分离，以获得分离源；以及

基于所述分离源和所述侧信息，生成相应的虚拟音频对象。

2.根据权利要求1所述的电子设备，其中，所述侧信息包括每个分离源的相应的渲染信息。

3.根据权利要求2所述的电子设备，其中，所述电路被配置为通过将所述分离源与所述分离源的相应的渲染信息相关联来生成虚拟音频对象。

4.根据权利要求1所述的电子设备，其中，所述侧信息被作为二进制数据接收。

5.根据权利要求1所述的电子设备，其中，所述侧信息被作为包含在所述音频混合信号中的听不见的数据接收。

6.根据权利要求1所述的电子设备，其中，所述侧信息包括指示特定源存在于所述音频混合信号中的信息。

7.根据权利要求1所述的电子设备，其中，所述侧信息包括指示特定源的空间定位参数的信息。

8.根据权利要求1所述的电子设备，其中，所述侧信息包括指示要用于源分离的网络架构的信息。

9.根据权利要求1所述的电子设备，其中，所述侧信息包括指示要用于音频源分离的多个存储的分离器模型之中的分离器模型的信息。

10.根据权利要求1所述的电子设备，其中，所述电路还被配置为借助于回放设备来渲染所生成的虚拟音频对象。

11.根据权利要求1所述的电子设备，其中，所述音频混合信号是立体声信号。

12.根据权利要求1所述的电子设备，其中，所述音频混合信号是单声道信号。

13.一种电子设备，包括电路，所述电路被配置为：

对3D音频信号执行下混合，以获得音频混合信号；

对所述3D音频信号执行混合参数提取，以获得侧信息；以及

传输所述音频混合信号和与存在于所述音频混合信号中的源相关的所述侧信息。

14.根据权利要求13所述的电子设备，其中，所述侧信息包括与所述3D音频信号相关的渲染信息。

15.根据权利要求13所述的电子设备，其中，所述电路被配置为对所述3D音频信号执行谱解耦，以获得所述3D音频信号的解耦谱。

16.根据权利要求15所述的电子设备，其中，所述电路被配置为对所述3D音频信号的所述解耦谱执行谱重叠比较，以获得增强的3D音频信号。

17.一种音频处理的系统，包括：

根据权利要求13所述的电子设备，即第一电子设备，被配置为对3D音频信号执行下混合，并且向根据权利要求1所述的电子设备，即第二电子设备，传输音频混合信号和侧信息，其中，所述第二电子设备被配置为基于从所述第一电子设备获得的所述音频混合信号和所述侧信息来生成相应的虚拟音频对象。

18.一种音频处理的方法，包括：

接收音频混合信号和与音频混合信号中存在的源相关的侧信息；

对所述音频混合信号执行音频源分离，以获得分离源；以及

基于所述分离源和所述侧信息，生成相应的虚拟音频对象。

19.一种计算机可读存储介质，存储有包括程序代码的计算机程序，当所述程序代码在计算机上执行时，所述程序代码使计算机执行根据权利要求18所述的方法。