CN106537502A

CN106537502A - 用于生成音频内容的方法和装置

Info

Publication number: CN106537502A
Application number: CN201580017815.3A
Authority: CN
Inventors: 法宾·卡迪诺; 迈克尔·埃嫩克尔; 弗兰克·吉龙; 托马斯·肯普; 斯特凡·乌利希
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-03-31
Filing date: 2015-03-17
Publication date: 2017-03-22
Anticipated expiration: 2035-03-17
Also published as: WO2015150066A1; US20180176706A1; EP3127115A1; EP3127115B1; CN106537502B; US10595144B2

Abstract

在方法中，执行如下：接收表示混合音频源的输入音频内容；分离混合音频源，从而获得分离的音频源信号和残留信号；以及通过混合分离的音频源信号和残留信号，生成输出音频内容。

Description

用于生成音频内容的方法和装置

技术领域

本公开总体涉及用于生成音频内容的方法和装置。

背景技术

例如，存在以光盘(CD)、磁带、可从互联网下载的音频数据文件的形式，还有以例如存储在数字视频磁盘等上的视频的声轨的形式等的许多可用的传统音频内容。

通常，例如，针对单声道或者立体声设置，传统音频内容已从原始音频源信号混合而无需从用于产生音频内容的原始音频源中保持原始音频源信号。

然而，存在期望再混合或者上混合音频内容的情况或者应用。例如，在将在比提供的音频内容具有更多可用音频信道的设备上播放音频内容的情况，例如，要在立体声设备上播放单声道音频内容、要在具有六个音频信道的环绕声设备上播放立体声音频内容等。在其他情况下，将修正所感知的音频源的空间位置或者将修正所感知的音频源的响度。

虽然普遍存在用于再混合音频内容的技术，但是，通常期望改进用于再混合音频内容的方法和装置。

发明内容

根据第一方面，本公开提供了如下方法，包括：接收表示混合音频源的输入音频内容；分离混合音频源，从而获得分离的音频源信号和残留信号；以及通过混合分离的音频源信号和残留信号，生成输出音频内容。

根据第二方面，本公开提供了如下装置，包括：音频输入，配置为接收表示混合音频源的输入音频内容；源分离器，配置为分离混合音频源，从而获得分离的音频源信号和残留信号；以及音频输出发生器，配置为通过混合分离的音频源信号和残留信号，生成输出音频内容。

在独立权利要求、以下描述以及附图中阐述了另外的方面。

附图说明

通过关于附图的实例的方式解释实施方式，其中：

图1总体示出了音频内容的再混合；

图2示意性地示出了用于再混合音频内容的装置；以及

图3是用于再混合音频内容的方法的流程图。

具体实施方式

在参考图2和图3详细描述实施方式之前，作出总体解释。

如从一开始提到的，例如，存在以光盘(CD)、磁带、可从互联网下载的音频数据文件的形式，还有以例如存储在数字视频磁盘等上的视频的声轨的形式等的许多可用的传统音频内容，例如，针对单声道或者立体声设置，传统音频内容已混合而无需从用于产生音频内容的原始音频源中保持原始音频源信号。

如上所述，存在期望再混合或者上混合音频内容的情况或者应用。例如：

·通过相应的上混合，例如单声道->立体声、立体声->5.1环绕声等，产生比原始音频内容更高的空间环绕声；

·通过再混合(例如立体声->立体声)改变所感知的音频源的空间位置；

·通过再混合(例如立体声->立体声)改变所感知的音频源的响度；

或其任何组合等。

目前，由于不同音频源的波重叠并且互相干涉，将混合的音频内容解混合(demixing)是困难的任务。在没有每一个音频源的声波的原始信息的情况下，几乎不可能针对音频源中的每一个提取混合音频源的原始波。

通常，存在用于分离源的技术，但是通常，通过(再)混合利用这种技术分离的音频源而产生的音频内容的质量差。

在一些实施方式中，用于再混合、上混合和/或下混合音频内容中的混合音频源的方法包括：接收表示混合音频源的输入音频内容；分离混合音频源，从而获得分离的音频源信号和残留信号；并且例如，基于空间信息、基于抑制音频源(例如乐器)和/或基于增加/减小音频源(例如乐器)的振幅，通过混合分离的音频源信号和残留信号生成输出音频内容。

在下文中，术语再混合、上混合以及下混合可以指基于分离的音频源信号生成输出音频内容的整个处理，其中分离的音频源信号来源于混合的输入音频内容，而术语“混合”可以指混合分离的音频源信号。因此，“混合”分离的音频源信号可以导致“再混合”、“上混合”或者“下混合”输入音频内容的混合音频源。

在下文中，出于图示的目的，方法还将参考图1解释。

输入音频内容可以包括多个(一个、两个及以上)音频信号，其中，每一个音频信号对应于一个信道。例如，图1示出具有第一信道输入音频信号1a和第二信道输入音频信号1b的立体声输入音频内容1，而本公开不限于输入音频内容具有两个音频信道，而是输入音频内容可以包括任意数量的信道。在下文中，输入音频内容的音频信道的数量也称为“M_in”。因此，针对图1的实例，输入音频内容1具有两个信道，M_in＝2。

输入音频内容可以是任意类型。其可以是以模拟信号、数字信号的形式，其可以来源于光盘、数字视频磁盘等，其可以是数据文件，诸如波文件、mp3文件等，并且本公开不限于输入音频内容的具体格式。

如图1中还示出，输入音频内容表示多个混合音频源，其中输入音频内容1包括音频源1、2、…、K，其中，K是整数并且表示音频源的数量。

音频源可以是产生声波的任何实体，例如乐器、语音、歌声(vocals)、(例如来源于合成器的)人工生成声音等。音频源由输入音频内容(例如，通过其相应的记录的声波)表示。对于具有超过一个音频信道的输入音频内容，诸如立体声输入音频内容或者环绕声输入音频内容，音频源的空间信息也可以包括在输入音频内容内或者通过输入音频内容表示，例如通过包括在表示相应音频信道的不同的音频信号内的每一个音频源的不同声波表示。

输入音频内容表示或者包括混合音频源，这意味着声音信息并不是分离地可用于输入音频内容的所有音频源，而是例如，针对不同音频源的声音信息至少部分地重叠或者混合。

在图1的图片中，这意味着K个音频源混合并且音频信号1a和音频信号1b中的每一个可以包括K个音频源的混合，即K个音频源中的每一个的声波的混合。

混合音频源(图1中1、…、K)分离(也称为“解混合”)为分离的音频源信号，其中，例如，针对混合音频源中的每一个音频源生成分离的音频源信号。例如，由于混合音频源并且缺乏针对混合音频源中的每一个音频源的声音信息，音频源信号的分离是不完美的，因此，除了分离的音频源信号之外生成残留信号。

如本文中使用的术语“信号”不限于任何具体格式，并且其可以是模拟信号、数字信号或存储在数据文件中的信号或任何其他格式。

残留信号可以表示输入音频内容与所有分离的音频源信号的和之间的差值。

这在图1中同样可视，在图1的具体实例中，其中输入音频内容1的K个源分离为多个分离的音频源信号1、…、L，其中，分离的音频源信号1、…、L的全体由参考标号2表示并且第一个分离的音频源信号1由参考标号2a表示、第二个分离的音频源信号2由参考标号2b表示，以及第L个分离的音频源信号L由参考标号2d表示。如所提到的，输入音频内容的分离是不完美的，并且因此，除了L个分离的音频源信号之外，生成在图1中由参考标号3表示的残留信号r(n)。

源的数量K和分离的音频源信号的数量L可以不同。例如，这可以是当仅提取一个音频源信号，而(所有)其他源由残留信号表示时的情况。针对L小于K的情况的另一实例是其中提取的音频源信号表示源组。例如，源组可以表示包括相同类型的乐器(例如小提琴组)的组。在这种情况下，可能不可能和/或不期望针对音频源组的个体(例如小提琴组中的单个小提琴)提取音频源信号，但是可能足以分离表示源组的一个音频源信号。例如，在源组(例如，如果是小提琴组)位于一个空间位置的情况下，这对于输入音频内容会是有用的。

可以基于己知的盲源分离(也称为“BSS”)或者能够分离音频源的其他技术，执行将输入音频内容分离为分离的音频源信号。盲源分离允许在没有关于(音频)源信号或者混合处理的信息的帮助下，从混合的(音频)信号分离(音频)源信号。尽管一些实施方式使用盲源分离用于生成分离的音频源信号，但是本公开不限于其中没有另外的信息用于分离音频源信号的实施方式，而是在一些实施方式中，另外的信息用于生成分离的音频源信号。例如，这种另外的信息可以是关于混合处理的信息、关于输入音频内容中包括的音频源的类型的信息、关于输入音频内容中包括的音频源的空间位置的信息等。

在(盲)源分离中，搜索在概率意义或者信息论意义上最小相关或者最大独立的源信号，或者基于音频源信号上的非负矩阵分解结构约束可以找到源信号。例如，己知的用于执行(盲)源分离的方法基于主成分分析、奇异值分解、独立分量分析、非负矩阵分解等。

基于分离的音频源信号和残留信号，基于空间信息、抑制音频源(例如乐器)以及减小/增加音频源(例如乐器)的振幅中的至少一个，通过混合分离的音频源信号和残留信号生成输出音频内容。

在图1中示例性示出输出音频内容并且输出音频内容由参考标号4表示。输出音频内容表示基于分离的音频源信号和残留信号的音频源1、2、…、K。如图1所示，输出音频内容可以包括多个音频信道信号，其中输出音频内容4包括五个音频输出信道信号4a至4d。在下文中，输出音频内容中包括的音频信道的数量也称为“M_out”，并且因此，在图1的示例性情况下，M_out＝5。

在图1的实例中，输入音频内容1的音频信道的数量M_in＝2小于输出音频内容4的音频信道的数量M_out＝5，因此，从立体声输入音频内容1上混合至5.1环绕声输出音频内容4。

通常，在输入音频内容的音频信道的数量M_in等于输出音频内容的音频信道的数量M_out(即M_in＝M_out)的情况下混合分离的音频源信号的处理可以称为“再混合”，而在输入音频内容的音频信道的数量M_in小于输出音频内容的音频信道的数量M_out(即M_in<M_out)的情况下混合分离的音频源信号的处理可以称为“上混合”，并且在输入音频内容的音频信道的数量M_in大于输出音频内容的音频信道的数量M_out(即M_in>M_out)的情况下混合分离的音频源信号的处理可以称为“下混合”。本公开不限于音频信道的具体数量；各种再混合、上混合以及下混合可以实现。

如所提到的，基于空间信息(图1和图2中，也称为“SI”)生成输出音频内容。例如，空间信息可以包括由分离的音频源信号表示的相应音频源的位置信息。位置信息可以指收听音频内容的虚拟用户的位置。本领域内这种虚拟用户的位置也称为“最佳听音位置”。在一些实施方式中，空间信息也可以从输入音频内容推导。例如，输入音频内容中包括的平移信息可以用作空间信息。此外，在一些实施方式中，用户可以经由界面例如图形用户界面选择位置信息。然后例如，用户可以在具体位置放置音频源(例如，在左前方位置放置小提琴等)。

例如，作为技术人员通常己知的，第一音频源可以位于这种最佳听音位置的前方，第二音频源可以位于左角落，第三音频源位于右角落等。因此，在一些实施方式中，生成输出音频内容包括将空间位置分配至分离的音频源信号中的每一个，使得当在最佳听音位置收听输出音频内容时，在所分配的空间位置处感知相应的音频源。

为了基于空间信息生成输出音频内容，可以实现任何己知的空间渲染方法，例如，矢量基振幅平移(“VBAP”)、波场合成、高保真度立体声响复制(ambisonics)等。

同样如上所示，在一些实施方式中，输入音频内容包括多个输入音频信号(例如图1中，M_in＝2的音频信号1a和音频信号1b)，每一个输入音频信号表示一个音频信道。生成输出音频内容可以包括混合分离的音频源信号(例如图1中，分离的音频源信号2a至2d)，使得输出音频内容包括多个输出音频信号，每一个输出音频信号表示一个音频信道(诸如图1中，输出音频信号4a至4d)，其中，输出音频信号的数量M_out大于或等于输入音频信号的数量M_in。输出音频信号的数量M_out也可以低于输入音频信号的数量M_in。

如以下将更加详细解释，在一些实施方式中，调节分离的音频源信号中的每一个的振幅，从而最小化残留信号的能量或者振幅。

在一些实施方式中，生成输出音频内容包括将空间位置分配至残留信号，使得，例如，输出音频内容包括关于最佳听音位置在预定空间位置处的混合残留信号。例如，空间位置可以是虚拟房间的中心或者任何其他位置。在一些实施方式中，残留信号也可以视为又一个分离的音频源信号。

在一些实施方式中，生成输出音频内容包括，基于分离的音频源信号的数量将残留信号划分为多个分频残留信号并且将分频残留信号分别添加至分离的音频源信号。因此，残留信号可以均等地分布至分离的音频源信号。

例如，在分离的源信号数量为L的情况下，权重可以计算为

从而获得数量为L的分频残留信号r₁(n)、r₂(n)、…、r_L(n)，每一个信号具有权重因子

因此，在这个实施方式中，分频残留信号具有相同的权重。

由于残留信号分布至所有分离的音频源信号，在利用距最佳听音位置有不同距离的扬声器播放输出音频内容的情况下，残留信号的时间延迟将不明显。在这种实施方式中，残留信号以时间变量方式由所有分离的音频源信号共享。

在一些实施方式中，分频残留信号中的每一个具有可变权重，例如时间依赖。在一些实施方式中，分频残留信号中的每一个具有一个可变权重，其中，不同的分频残留信号的权重彼此不同。

可变权重中的每一个可以取决于如下中的至少一个：相关的分离的音频源信号的当前内容，相关的分离的音频信号的先前内容以及相关的分离的音频信号的未来内容。

每一个可变权重与要添加相应的分频残留信号的相应的分离的音频源信号相关联。例如，分离的音频源信号可以以时间帧或者任何其他时间依赖块划分。因此，分离的音频源信号的当前内容可以是分离的音频源信号的当前时间帧的内容，分离的音频源信号的先前内容可以是分离的音频源信号的一个或多个先前时间帧的内容(时间帧不需要彼此连续)，并且分离的音频源信号的未来内容可以是在分离的音频源信号的当前帧之后的一个或多个未来时间帧的内容(时间帧不需要彼此连续)。

在可变权重取决于相关的分离的音频信号的未来内容的实施方式中，可以以非实时方式进行生成输出音频内容，并且例如，分离的音频源信号存储在用于处理的存储器中。

此外，可变权重也可以以模拟方式取决于残留信号的当前内容、残留信号的先前内容以及残留信号的未来内容中的至少一个。

可以对可变权重和/或加权的分频残留信号进行低通滤波以避免由于时变权重而造成的明显的失真。

因此，在一些实施方式中，能够添加更多残留信号至其最可能属于的相应的分离的音频源信号。

例如，可变权重可以与相关的分离的音频源信号的能量(例如振幅)成比例。因此，能量(或者振幅)随相关的分离的音频源信号的能量(例如振幅)相应地变化，即相关的分离的音频源信号“越强”，相关的可变权重就越大。换言之，残留信号基本上属于具有最高能量的分离的音频源信号。

可变权重还可取决于残留信号与相关的分离的音频源信号之间的相关性。例如，可变权重可以取决于当前时间帧的残留信号与先前时间帧或未来时间帧的相关的分离的音频源信号之间的相关性。可变权重可以与通过当前时间帧的残留信号与先前时间帧或未来时间帧的相关的分离的音频源信号之间的相关而获得的平均相关值或者最大相关值成比例。在计算与相关的分离的音频源信号的未来时间帧的相关性的情况下，例如，计算可以基于存储的残留信号和音频源信号以非实时方式执行。

在其他实施方式中，还可以实时地执行(可变)权重的计算。

参考图1，现在针对具体的数学办法解释以上描述的方法，而本公开不限于这个具体办法。

如所提到的，输入音频内容(1，图1)可以分离为或者解混合为数量为“L”的分离的音频源在下文中也称为从原始输入音频内容中“分离”，其中“M”表示分离s₁(n)的音频信道的数量并且n表示离散时间。通常，分离s₁(n)的音频信道的数量M将等于输入音频内容x(n)的音频信道的数量M_in。当音频信道的数量大于一时分离s₁(n)和输入音频内容x(n)是矢量。

如所讨论的，可以利用任何合适的源分离方法完成将输入音频内容1分离为L个分离的音频源信号2a至2d，并且其可以利用任意种分离法则完成。

出于清晰和简单而不限制本公开于这方面的目的，在下文中假设乐器作为音频源完成分离(其中，歌声视为乐器)，使得例如，s₁(n)可以是吉他、s₂(n)可以是键盘等。

接下来，如果需要的话，即在M_in和/或M大于一的情况下，输入音频内容还有分离的音频源信号可以通过任何己知技术转换为单信道格式即单声道。在一些实施方式中，通常，输入音频内容和分离的音频源信号转换为单声道格式用于进一步处理。

因此，矢量“分离的音频源”s₁(n)和“输入音频内容”x(n)转换为标量：

因此，例如，获得如图1所示的L个分离的音频源信号2a至2d。

接下来，同样如以上提到的，调节分离的音频源信号s₁(n)(现在是单声道格式)中的每一个的平均振幅以最小化残留信号的能量。在一些实施方式中，这通过解以下最小平方问题完成：

为了取消不同的分离s_l(n)之间的时间延迟，在一些实施方式中可以估计时移使得

最小化。

因此，可以通过从单声道型输入音频信号x(n)中减去所有的L个分离的音频源信号s_l(n)(l＝1、…、L)计算残留信号r(n)，其中，分离的音频源信号中的每一个利用与其相关的调节的平均振幅加权：

然后，例如，通过将其添加至调幅的分离的音频源信号或者如上所述的任何其他方法，残留信号r(n)可以结合(混合)到输出音频内容中。

这同样在图1中示出，其中残留信号r(n)和调幅的分离的音频源信号基于空间信息“SI”利用己知的空间渲染方法混合，以便生成针对每一个音频信道包含多个M_out音频信号4a至4d的输出音频内容4，其中，输出音频内容4中的每一个音频信号4a至4d包括如上所述混合的分离的音频源信号2a至2d。因此，输出音频内容4表示输入音频内容1的K个音频源。

在一些实施方式中，装置包括配置为执行本文中所描述的方法(具体如上所述)的一个或多个处理器。

在一些实施方式中，配置为执行本文中所描述的方法(具体如上所述)的装置，包括：音频输入，配置为接收表示混合音频源的输入音频内容；源分离器，配置为分离混合音频源，从而获得分离的音频源信号和残留信号；以及音频输出发生器，配置为基于空间信息通过混合分离的音频源信号和残留信号生成输出音频内容。

在一些实施方式中，同样如上所述，输入音频内容包括多个输入音频信号，每一个输入音频信号表示一个音频信道，并且其中，音频输出发生器进一步配置为混合分离的音频源信号使得输出音频内容包括多个输出音频信号，每一个输出音频信号表示一个音频信道，其中，输出音频信号的数量大于或等于输入音频信号的数量。

如上所述，装置可以进一步包括配置为调节分离的音频源信号的振幅调节器，从而最小化残留信号的振幅。

如上所述，在一些实施方式中，音频输出发生器进一步配置为将空间位置分配至分离的音频源信号和/或残留信号中的每一个。

如上所述，音频输出发生器可以进一步配置为基于分离的音频源信号的数量将残留信号划分为多个分频残留信号，并且将分频残留信号分别添加至分离的音频源信号。

在一些实施方式中，如上所述，分频残留信号具有相同的权重和/或它们具有可变权重。

如上所述，可变权重和/或残留信号可以取决于如下中的至少一个：相关的分离的音频信号的当前内容、相关的分离的音频信号的先前内容以及相关的分离的音频信号的未来内容，并且可变权重可以与相关的分离的音频源信号的能量成比例，和/或与残留信号及相关的分离的音频源信号之间的相关性成比例。

装置可以是环绕声系统、音频播放器、音频视频接收器、电视、计算机、便携式设备(智能手机、膝上型电脑等)、游戏机等。

输出音频内容可以是任何格式，即模拟/数字信号、数据文件等，并且其可以包括任何类型的音频信道格式，诸如单声道、立体声、3.1、5.1、6.1、7.1、7.2环绕声等。

在一些实施方式中，通过使用残留信号，即使在分离为分离的音频源信号导致声音品质劣化的情况下，与没有残留信号相比，输出音频内容包含更少的伪影和/或至少被收听者所感知的更少的伪影。

此外，在一些实施方式中，不需要另外的关于混合处理和/或输入音频内容的源的信息。

返回至图2，示出了以5.1环绕声系统形式的装置10，其在下文中称为“声音系统10”。

声音系统10具有用于接收输入音频信号5的输入11。在本实例中，输入音频信号是立体声格式并且具有左信道输入音频信号5a和右信道输入音频信号5b，5a和5b各自包括示例性的四个源1至4，源是纯用于图示目的的歌声源1、吉他源2、贝斯源3以及鼓源4。

输入11实现为立体声束带插头(cinch plug)输入，并且例如，其从光盘播放器(未示出)接收输入音频内容5。

输入音频内容5的两个输入音频信号5a和5b馈入到声音系统10的源分离器12中，源分离器12执行如以上讨论的源分离。

源分离器12针对输入音频内容的四个源中的每一个生成作为输出的四个分离的音频源信号6，即用针对歌声的第一分离的音频源信号6a、针对吉他的第二分离的音频源信号6b、针对贝斯的第三分离的音频源信号6c以及针对鼓的第四分离的音频源信号6d。

如上所述，两个输入音频源信号5a和5b还有分离的音频源信号6馈入到声音系统10的单声道转换器13中，单声道转换器13将两个输入音频源信号5a和5b还有分离的音频源信号6转换为单信道(单声道)格式。

为了将两个输入音频源信号5a和5b馈送至单声道转换器13，输入11耦接至单声道转换器，而本公开不限于这方面。例如，两个输入音频源信号5a和5b还可以通过源分离器12馈入至单声道转换器13。

如上所述，单声道型分离的音频源信号馈入到声音系统10的振幅调节器14中，振幅调节器14调节并且平均分离的音频源信号的振幅。另外，如上所述，振幅调节器14取消分离的音频源信号之间的任何时移。

如上所述，振幅调节器14还从单声道型输入音频信号中减去所有的调幅的分离的音频源信号，计算残留信号7。

从而获得的残留信号7馈入到输出音频内容发生器16的分频器16中，并且调幅的分离的音频源信号馈入到输出音频内容发生器16的混合器18中。

分频器16将残留信号7划分为对应于分离的源信号的数量的多个分频残留信号，在本情况下该数量是四。

分频残留信号馈入到输出音频内容发生器16的权重单元17中，权重单元17针对分频残留信号计算权重并且将权重添加至分频残留信号。

在本实施方式中，权重单元17根据以上描述的公式即计算权重，当L＝4时在本情况下权重结果是1/2。当然，在其他实施方式中，权重单元17和输出音频内容发生器16可以分别适配为执行用于计算权重(诸如以上讨论的可变权重)的任何其他的方法。

如上所述，由此得到的权重分频残留信号也馈入混合器18中，混合器18基于空间信息SI并且基于己知的空间渲染方法，混合调幅的分离的音频源信号和权重分频残留信号。

空间信息SI包括表示四个源歌声、吉他、贝斯以及鼓的四个分离的音频源信号中的每一个的空间位置。如所讨论的，在其他实施方式中，空间信息SI还可以包括残留信号的空间位置，例如，如以上讨论的在残留信号视为另一个源的情况下。

因此，输出音频内容发生器16生成输出音频内容8，输出音频内容8经由声音系统10的输出19输出。

输出音频内容8是以5.1环绕声格式并且其具有五个音频信道信号8a至8d，每一个音频信道信号包括混合的源歌声、吉他、贝斯以及鼓，音频信道信号可以从输出19馈入至相应的扬声器(未示出)。

应当注意，将声音系统10划分为单元11至单元19仅用于图示的目的并且本公开不限于具体单元中的功能的具体划分。例如，声音系统10可以至少部分通过相应的编程处理器、现场可编程门阵列(FPGA)等实现。

用于生成输出音频内容的方法30，例如，其可以通过以上讨论的声音系统10执行，在下文中并参考图3描述该方法。该方法也可以实现为当在计算机和/或处理器上执行时促使计算机和/或处理器执行该方法的计算机程序。在一些实施方式中，还设置在其中存储计算机程序产品的非瞬时性计算机可读记录介质，当通过处理器(诸如以上描述的处理器)执行时，计算机程序产品促使执行所描述的方法。

在31处，接收包括输入音频信号的输入音频内容，诸如如上所述的输入音频内容1或5。

如上所述，在32处，输入音频内容中包括的混合音频源分离为分离的音频源信号。

如上所述，在33处，输入音频信号和分离的音频源信号转换为单信道格式即单声道。

如上所述，在34处调节分离的音频源信号的振幅，并且在35处通过从单声道型输入音频信号中减去调幅的分离的音频源信号的和，计算最终残留信号。

如上所述，在36处最终残留信号基于分离的音频源信号的数量划分为分频残留信号，并且在37处计算分频残留信号的权重。

如上所述，在38处，空间位置分配至分离的音频源信号。

在39处基于权重分频残留信号、调幅的分离的音频源信号以及空间信息，生成输出音频内容诸如输出音频内容4或输出音频内容8(分别在图1和图2中)。

在一些实施方式中，如本文中所描述的方法也实现为当在计算机和/或处理器上执行时促使计算机和/或处理器执行该方法的计算机程序。在一些实施方式中，还设置在其中存储计算机程序产品的非瞬时性计算机可读记录介质，当通过处理器(诸如以上描述的处理器)执行时，计算机程序产品促使执行本文中所描述的方法。

如果不另外陈述，例如，本说明书中描述的以及所附权利要求中要求保护的所有单元和实体可以在芯片上实现为集成电路逻辑，并且如果不另外陈述，由这样的单元和实体提供的功能性可以通过软件实现。

迄今为止，以上描述的本公开的实施方式至少部分使用软件控制的数据处理装置实现，将认识到，设置这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或者其他介质设想为本公开的方面。

应当注意，本技术也可以如以下描述配置。

(1)一种方法，包括：

接收表示混合音频源的输入音频内容；

分离混合音频源，从而获得分离的音频源信号和残留信号；以及

通过混合分离的音频源信号和残留信号，生成输出音频内容。

(2)根据(1)的方法，其中，基于空间信息执行输出音频内容的生成。

(3)根据(1)或(2)的方法，其中，输入音频内容包括多个输入音频信号，每一个输入音频信号表示一个音频信道，并且其中，生成输出音频内容包括混合分离的音频源信号使得输出音频内容包括多个输出音频信号，每一个输出音频信号表示一个音频信道，其中，输出音频信号的数量大于或等于输入音频信号的数量。

(4)根据(1)至(3)中任一项的方法，进一步包括调节分离的音频源信号的振幅，从而最小化残留信号的振幅。

(5)根据(1)至(4)中任一项的方法，其中，生成输出音频内容包括将空间位置分配至分离的音频源信号中的每一个。

(6)根据(1)至(5)中任一项的方法，其中，生成输出音频内容包括将空间位置分配至残留信号。

(7)根据(1)至(6)中任一项的方法，其中，生成输出音频内容包括基于分离的音频源信号的数量将残留信号划分为多个分频残留信号，并且将分频残留信号分别添加至分离的音频源信号。

(8)根据(7)的方法，其中，分频残留信号具有相同的权重。

(9)根据(7)的方法，其中，分频残留信号具有可变权重。

(10)根据(9)的方法，其中，可变权重取决于如下中的至少一个：相关的分离的音频源信号的当前内容、相关的分离的音频源信号的先前内容以及相关的分离的音频源信号的未来内容。

(11)根据(9)或(10)的方法，其中，可变权重与相关的分离的音频源信号的能量成比例。

(12)一种装置，包括：

音频输入，配置为接收表示混合音频源的输入音频内容；

源分离器，配置为分离混合音频源，从而获得分离的音频源信号和残留信号；以及

音频输出发生器，配置为通过混合分离的音频源信号和残留信号生成输出音频内容。

(13)根据(12)的装置，其中，音频输出发生器配置为基于空间信息，通过混合分离的音频源信号和残留信号生成输出音频内容。

(14)根据(12)或(13)的装置，其中，输入音频内容包括多个输入音频信号，每一个输入音频信号表示一个音频信道，并且其中，音频输出发生器进一步配置为混合分离的音频源信号使得输出音频内容包括多个输出音频信号，每一个输出音频信号表示一个音频信道，其中，输出音频信号的数量大于或等于输入音频信号的数量。

(15)根据(12)至(14)中任一项的装置，进一步包括配置为调节分离的音频源信号的振幅调节器，从而最小化残留信号的振幅。

(16)根据(12)至(15)中任一项的装置，其中，音频输出发生器进一步配置为将空间位置分配至分离的音频源信号中的每一个。

(17)根据(12)至(16)中任一项的装置，其中，音频输出发生器进一步配置为将空间位置分配至残留信号。

(18)根据(12)至(17)中任一项的装置，其中，音频输出发生器进一步配置为基于分离的音频源信号的数量将残留信号划分为多个分频残留信号，并且将分频残留信号分别添加至分离的音频源信号。

(19)根据(18)的装置，其中，分频残留信号具有相同的权重。

(20)根据(18)的装置，其中，分频残留信号具有可变权重。

(21)根据(20)的装置，其中，可变权重取决于如下中的至少一个：相关的分离的音频源信号的当前内容、相关的分离的音频源信号的先前内容以及相关的分离的音频源信号的未来内容。

(22)根据(20)或(21)的装置，其中，可变权重与相关的分离的音频源信号的能量成比例。

(23)包括程序代码的计算机程序，当在计算机上执行时促使计算机执行根据(1)至(11)中任一项的方法。

(24)在其中存储计算机程序产品的非瞬时性计算机可读记录介质，当通过处理器执行时，计算机程序产品促使执行根据(1)至(11)中任一项的方法。

(25)包括至少一个处理器的装置，处理器配置为执行根据(1)至(11)中任一项的方法。

Claims

1.一种方法，包括：

接收表示混合音频源的输入音频内容；

分离所述混合音频源，从而获得分离的音频源信号和残留信号；以及

通过混合所述分离的音频源信号和所述残留信号，生成输出音频内容。

2.根据权利要求1所述的方法，其中，基于空间信息执行所述输出音频内容的生成。

3.根据权利要求1所述的方法，其中，所述输入音频内容包括多个输入音频信号，每一个输入音频信号表示一个音频信道，并且其中，生成所述输出音频内容包括混合所述分离的音频源信号，使得所述输出音频内容包括多个输出音频信号，每一个所述输出音频信号表示一个音频信道，其中，所述输出音频信号的数量大于或等于所述输入音频信号的数量。

4.根据权利要求1所述的方法，进一步包括调节所述分离的音频源信号的振幅，从而最小化所述残留信号的振幅。

5.根据权利要求1所述的方法，其中，生成所述输出音频内容包括将空间位置分配至所述分离的音频源信号中的每一个。

6.根据权利要求1所述的方法，其中，生成所述输出音频内容包括将空间位置分配至所述残留信号。

7.根据权利要求1所述的方法，其中，生成所述输出音频内容包括基于所述分离的音频源信号的数量将所述残留信号划分为多个分频残留信号，并且将分频残留信号分别添加至分离的音频源信号。

8.根据权利要求7所述的方法，其中，所述分频残留信号具有相同的权重。

9.根据权利要求7所述的方法，其中，所述分频残留信号具有可变权重。

10.根据权利要求9所述的方法，其中，所述可变权重取决于如下中的至少一个：相关的所述分离的音频源信号的当前内容、相关的所述分离的音频源信号的先前内容以及相关的所述分离的音频源信号的未来内容。

11.根据权利要求9所述的方法，其中，所述可变权重与相关的所述分离的音频源信号的能量成比例。

12.一种装置，包括：

音频输入，配置为接收表示混合音频源的输入音频内容；

源分离器，配置为分离所述混合音频源，从而获得分离的音频源信号和残留信号；以及

音频输出发生器，配置为通过混合所述分离的音频源信号和所述残留信号生成输出音频内容。

13.根据权利要求12所述的装置，其中，所述音频输出发生器配置为基于空间信息，通过混合所述分离的音频源信号和所述残留信号生成输出音频内容。

14.根据权利要求12所述的装置，其中，所述输入音频内容包括多个输入音频信号，每一个输入音频信号表示一个音频信道，并且其中，所述音频输出发生器进一步配置为混合所述分离的音频源信号，使得所述输出音频内容包括多个输出音频信号，每一个所述输出音频信号表示一个音频信道，其中，所述输出音频信号的数量大于或等于所述输入音频信号的数量。

15.根据权利要求12所述的装置，进一步包括配置为调节所述分离的音频源信号的振幅调节器，从而最小化所述残留信号的振幅。

16.根据权利要求12所述的装置，其中，所述音频输出发生器进一步配置为将空间位置分配至所述分离的音频源信号中的每一个。

17.根据权利要求12所述的装置，其中，所述音频输出发生器进一步配置为将空间位置分配至所述残留信号。

18.根据权利要求12所述的装置，其中，所述音频输出发生器进一步配置为基于所述分离的音频源信号的数量将所述残留信号划分为多个分频残留信号，并且将分频残留信号分别添加至分离的音频源信号。