CN102016983A

CN102016983A - 用于对多个输入数据流进行混合的设备

Info

Publication number: CN102016983A
Application number: CN200980114170XA
Authority: CN
Inventors: 马库斯·施内尔; 曼弗雷德·卢茨基; 马库斯·马特拉斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2008-03-04
Filing date: 2009-03-04
Publication date: 2011-04-13
Anticipated expiration: 2029-03-04
Also published as: AU2009221443A1; CA2717196C; EP2260487B1; WO2009109374A2; KR101178114B1; BRPI0906079B1; CA2716926A1; WO2009109374A3; CN102789782B; MX2010009666A; US8290783B2; JP5302980B2; EP2378518A3; EP2378518B1; CN102016983B; EP2378518A2; JP5654632B2; RU2473140C2; WO2009109373A2; KR101192241B1

Abstract

根据本发明实施例用于对第一输入数据流(510-1)的第一帧(540-1)和第二输入数据流(510-2)的第二帧(540-2)进行混合的设备(500)包括：处理单元(520)，适于产生输出帧(550)，其中，输出帧(550)包括对输出频谱中直至输出转变频率的较低部分进行描述的输出频谱数据，其中，输出帧还包括通过输出时间/频率栅格分辨率中的能量相关值的方式，对输出频谱中在输出转变频率以上的较高部分进行描述的输出SBR数据。处理单元(520)还适于使得在频谱域中产生与第一帧、第二帧的转变频率和输出转变频率中的最小值以下的频率相对应的输出频谱数据，并在SBR域中处理与第一帧、第二帧的转变频率和输出转变频率中的最大值以上的频率相对应的输出SBR数据。

Description

用于对多个输入数据流进行混合的设备

技术领域

根据本发明的实施例涉及用于对多个输入数据流进行混合以获得输出数据流的设备，该设备可以用于例如包括视频会议系统和电话会议系统在内的会议系统领域。

背景技术

在许多应用中，要以以下方式来处理多于一个音频信号：根据多个音频信号，要产生一个信号或至少减小数目的信号，这通常称为“混合”。因此，混合音频信号的过程可以称为将多个单独音频信号捆绑为生成信号。例如在创建音乐用于致密光盘(“配音”)时，使用这一过程。在这种情况下，典型地，将不同乐器的不同音频信号与包括声乐表演(歌唱)的一个或多个音频信号混合为歌曲。

混合处理扮演重要角色的其他应用领域是视频会议系统和电话会议系统。典型地，这种系统能够通过采用中心服务器来对会议中的多个在空间上分散的参与者进行连接，中心服务器对注册参与者的输入视频和音频数据进行适当混合，并将生成信号返回发送给每个参与者。该生成信号或输出信号包括所有其他会议参与者的音频信号。

在现代数字会议系统中，多个部分矛盾的目标和方面互相竞争。必须考虑重构音频信号的质量，以及针对不同类型音频信号(例如话音信号相比于一般音频信号和音乐信号)，一些编码和解码技术的实用性和有效性。在设计和实现会议系统时还要考虑的其他方面是可用带宽和延迟问题。

例如，在对一方面质量和另一方面带宽进行平衡时，在多数情况下，折衷不可避免。然而，可以通过实现现代编码和解码技术，如AAC-ELD技术(AAC＝高级音频编解码；ELD＝增强低延迟)，来实现与质量相关的改进。然而，可实现的质量可能以更多的基本问题和方面对采用这种现代技术的系统造成负面影响。

仅列出要满足的一个挑战，所有数字信号传输面临所需量化的问题，至少在原理上，该问题在无噪声的模拟系统中的理想环境下是可避免的。由于量化过程，不可避免地将特定量的量化噪声引入要处理的信号。为了对抗可能和可听的失真，可能尝试增加量化级的数目，从而相应提高了量化分辨率。然而，这导致要发送更大数目的信号值，从而导致要发送的数据量增大。换言之，通过减小由量化噪声引入的可能失真来提高质量，在特定环境下将增大要发送的数据流，并且可能最终违反施加于传输系统上的带宽限制。

在会议系统的情况下，由于典型地要处理多于一个输入音频信号，因此对质量、可用带宽和其他参数之间的权衡进行改进的挑战甚至更加复杂。因此，在产生由会议系统产生的输出信号或生成信号时，必须考虑多于一个音频信号所施加的边界条件。

尤其是考虑到实现具有充分低延迟的会议系统的另一挑战：在不引入参与者认为不可接受的实质延迟的情况下，实现会议参与者之间的直接通信，这种挑战进一步提升。

在会议系统的低延迟实现中，典型地在延迟源的数目方面对其进行限制，另一方面，这可能导致在通过叠加或添加相应信号可以实现音频信号混合的时域之外处理数据的挑战。

在一般音频信号的情况下，为了改进质量与比特率之间的权衡，存在大量技术，能够进一步改进这种矛盾参数(如重构信号的质量、比特率、延迟、计算复杂度和其他参数)之间的权衡。

用于改进上述权衡的一种高灵活性的工具是所谓频谱带表示工具(SBR)。SBR模块典型地不被实现为中心编码器(如MPEG-4 AAC编码器)的一部分，而是附加的编码器和解码器。SBR利用音频信号内较高和较低频率之间的相关性。SBR基于以下假设：信号的较高频率仅是基础振荡的整数倍，使得可以基于较低频谱来复制较高频率。由于在较高频率的情况下，人耳的可听分辨率具有对数特性，因此，只有非常有经验的收听者能够进一步认识到与较高频率相关的较小差异，使得大多数收听者将很可能不会注意到SBR编码器引入的不精确性。

SBR编码器对提供给MPEG-4编码器的音频信号进行预处理，并将输入信号分离为频率范围。由所谓转变频率将较低频率范围或频带与较高频带或频率范围分开，根据可用比特率和其他参数，可以对转变频率进行可变设置。SBR编码器利用滤波器组来分解频率，该滤波器组典型地被实现为正交镜像滤波器组(QMF)。

SBR编码器从较高频率范围的频率表示中提取能量值，该能量值随后用于基于较低频带来重构该频率范围。

因此，SBR编码器向核心编码器提供了SBR数据或SBR参数以及滤波后的音频信号或滤波后的音频数据，基于原始音频信号的采样频率的一半将核心编码器应用至较低频带。这提供了对明显较少的采样值进行处理的机会，从而可以更加精确地设置各个量化级。SBR编码器提供的附加数据，即SBR参数，将存储至MPEG-4编码器或任何其他编码器的生成比特流中，作为辅助信息。这可以使用合适的比特复用器来实现。

在解码器侧，比特解复用器首先对输入比特流进行解复用，比特解复用器分离至少SBR数据并将其提供给SBR解码器。然而，在SBR解码器处理SBR参数之前，核心解码器将首先解码较低频带以重构较低频带的音频信号。SBR解码器本身基于SBR能量值(SBR)参数和较低频率范围的频谱信息，来计算音频信号的频谱的较高部分。换言之，SBR解码器基于较低频带以及在上述比特流中传输的SBR参数，来复制音频信号的较高频谱带。除了上述SBM模块的可能性之外，为了增强重构音频信号的整体音频感知，SBR还提供了对附加噪声源以及各个正弦波进行编码的可能性。

因此，SBR表现为一种非常灵活的工具，用于改进质量和比特率之间的权衡，这也使得SBR成为会议系统领域中应用的值得注意的候选。然而，由于复杂度和大量可能性和选择，目前仅通过将相应音频信号完全解码为时域信号以在时域中执行实际混合过程，然后将混合信号重新编码为SBR编码信号，从而在时域中对SBR编码的音频信号进行混合。除了由于将信号编码至时域而引入的附加延迟之外，对编码的音频信号的频谱信息的重构也可能需要较高计算复杂度，例如在便携式或其他能效或计算复杂度效率较高的应用的情况下，这可能缺乏吸引力。

发明内容

因此，本发明的目的是降低对SBR编码的音频信号进行混合时涉及的计算复杂度。

这一目的是通过根据权利要求1或3的设备、根据权利要求15的方法或根据权利要求16的程序来实现的。

根据本发明的实施例基于可以通过以下操作来降低计算复杂度的发现：针对通过在频谱域中混合频谱信息而引入的转变频率的最小值以下的频率、针对SBR域中最大转变频率以上的频率、以及针对该最小值与该最大值之间的区域中的频率，通过估计至少一个SBR值并基于至少所估计的SBR值来产生对应的SBR值，或基于相应SBR数据来估计频谱值或频谱信息，并且基于所估计的频谱值或频谱信息来产生频谱信息的频谱值，来执行混合。

换言之，根据本发明的实施例基于以下发现：针对最大转变频率以上的频率，可以在SBR域中执行混合；而针对转变频率的最小值以下的频率，可以通过直接处理对应频谱值，在频谱域中执行混合。此外，根据本发明的实施例的设备可以针对该最大值和该最小值之间的频率，通过根据对应SBR值估计频谱值或通过根据频谱值来估计SBR值以在SBR域或频谱域中，基于所估计的值来执行实际混合，从而在SBR域或频谱域中执行混合。在该上下文中，应注意，输出转变频率可以是输入数据流的转变频率中的任一个或者其他值。

因此，减少了设备要执行的步骤数目，从而降低了相关计算复杂度，因为基于相应域中的直接混合来执行所有相关转变频率以上和以下的实际混合；而仅在所有转变频率的最小值与所涉及的所有转变频率的最大值之间的中间区域中要执行估计。基于该估计，然后计算或确定实际SBR值或实际频谱值。因此，在许多情况下，即使在该中间频率区域中，也降低了计算复杂度，因为针对所涉及的所有输入数据流，典型地不需要执行估计和处理。

在根据本发明实施例的实施例中，输出转变频率可以等于输入数据流的转变频率之一，或者可以独立选择，例如考虑心理声学估计。此外，在根据本发明的实施例中，所产生的SBR数据或所产生的频谱值可以以不同方式应用于平滑或改变中间频率范围中的SBR数据或频谱值。

附图说明

以下，参考以下附图来描述根据本发明的实施例。

图1示出了会议系统的框图；

图2示出了基于一般音频编解码器的会议系统的框图；

图3示出了使用比特流混合技术，在频域中操作的会议系统的框图；

图4示出了包括多个帧在内的数据流的示意图；

图5示意了频谱分量和频谱数据或信息的不同形式；

图6a示出了根据本发明实施例用于对第一输入数据流的第一帧和第二输入数据流的第二帧进行混合的设备的简化框图；

图6b示出了数据流的帧的时间/频率栅格分辨率的框图；

图7示出了根据本发明实施例的设备的更详细框图；

图8示出了在会议系统环境中根据本发明另一实施例用于对多个输入数据流进行混合的设备的框图；

图9a和9b分别示出了根据本发明实施例提供给设备的第一和第二输入数据流的第一帧和第二帧；

图9c示出了图9a和9b中所示的输入帧的覆盖情况；

图9d示出了根据本发明实施例的设备使用输出转变频率来产生的输出帧，所述输出转变频率是输入帧的两个转变频率中的较小者；

图9e示出了根据本发明实施例的设备使用输出转变频率来产生的输出帧，所述输出转变频率是输入帧的转变频率中的较大者；以及

图10示意了将低和高频率栅格分辨率进行匹配。

具体实施方式

参照图4至10，更详细描述根据本发明的不同实施例。然而，在更详细描述这些实施例之前，首先参照图1至3，考虑在会议系统的框架中可能变得重要的挑战和需求，来给出简要介绍。

图1示出了会议系统100的框图，会议系统100也可以称为多点控制单元(MCU)。从与其功能相关的描述中变得显而易见，如图1所示，会议系统100是在时域中操作的系统。

如图1所示，会议系统100适于经由合适数目的输入110-1，110-2，110-3，...(图1中仅示出其中3个)来接收多个输入数据流。每个输入110耦合至相应解码器120。更准确地，针对第一输入数据流的输入110-1耦合至第一解码器120-1，而第二输入110-2耦合至第二解码器120-2，第三输入110-3耦合至第三解码器120-3。

会议系统100还包括合适数目的加法器130-1，130-2，130-3，...图1仍示出了其中3个。每个加法器与会议系统100的输入110之一相关联。例如，第一加法器130-1与第一输入110-1和对应的解码器120-1相关联。

每个加法器130耦合至所有解码器120的输出，但是输入110所耦合的解码器120除外。换言之，第一加法器130-1耦合至所有解码器120，但第一解码器120-1除外。相应地，第二加法器130-2耦合至所有解码器120，但第二解码器120-2除外。

每个加法器130还包括耦合至一个编码器140的输出。因此，第一加法器130-1输出耦合至第一编码器140-1。相应地，第二和第三加法器130-2、130-3也分别耦合至第二和第三编码器140-2、140-3。

继而，每个编码器140耦合至相应输出150。换言之，例如第一编码器耦合至第一输出150-1。第二和第三编码器140-2、140-3也分别耦合至第二和第三输出150-2、150-3。

为了能够更详细地描述图1所示的会议系统100的操作，图1还示出了第一参与者的会议终端160。会议终端160例如可以是数字电话(例如ISDN电话(ISDN＝综合业务数字网))、包括IP语音基础设施的系统、或类似终端。

会议终端160包括编码器170，编码器170耦合至会议系统100的第一输入110-1。会议终端160还包括解码器180，解码器180耦合至会议系统100的第一输出150-1。

在其他参与者的站点处还可以有类似的会议终端160。仅为了简单起见，图1中未示出这些会议终端。还应当注意，会议系统100和会议终端160目前不需要在物理上彼此紧邻。会议终端160和会议系统100可以布置在不同站点，例如可以仅通过WAN技术(WAN＝广域网)连接。

会议终端160还可以包括或连接至附加组件，如麦克风、放大器和扬声器或耳机，以实现以更全面的方式与人类用户交换音频信号。仅为了简单起见，图1中未示出这些。

如上所述，图1中示出的会议系统100是在时域中操作的系统。例如，当第一参与者对麦克风(图1中未示出)说话时，会议终端160的编码器170将相应音频信号编码为对应比特流，并将比特流发送至会议系统100的第一输入110-1。

在会议系统100内，比特流由第一解码器120-1解码，并变换回时域。由于第一解码器120-1耦合至第二和第三混合器130-1、130-3，因此通过简单地将重构的音频信号与分别来自第二和第三参与者的其他重构音频信号相加，在时域中对第一参与者产生的音频信号进行混合。

对于分别由第二和第三输入110-2、110-3接收并由第二和第三解码器120-2、120-3处理的、由第二和第三参与者提供的音频信号而言，也同样如此。然后，将第二和第三参与者的这些重构音频信号提供给第一混合器130-1，第一混合器130-1继而将时域中的相加后的音频信号提供给第一编码器140-1。编码器140-1对相加的音频信号进行重新编码，以形成比特流，并在第一输出150-1处将其提供给第一参与者会议终端160。

类似地，第二和第三编码器140-2、140-3也对分别从第二和第三加法器130-2、130-3接收到的时域中相加后的音频信号进行编码，并分别经由第二和第三输出150-2、150-3将编码的数据发送回相应参与者。

为了执行实际混合，以非压缩形式对音频信号进行完全解码并相加。此后，可选地，可以通过对相应输出信号进行压缩来执行等级调整，以防止限幅效应(即超过允许值范围)。当单采样值升至允许值范围以上或降至允许值范围以下，使得对应值被截止(限幅)时，可能出现限幅。在16比特量化的情况下(如在CD情况下所采用的)，针对每采样值，-32768与32767之间的整数值范围可用。

为了对抗对信号的可能的过度操作或操作不足，采用压缩算法。这些算法限制了特定阈值以上或以下的发展，以将采样值保持在可允许的值范围内。

在会议系统(如图1所示的会议系统100)中对音频数据进行编码时，接受一些缺点，从而以最容易可实现的方式，在未编码状态下执行混合。此外，附加地，编码的音频信号的数据速率被限制在所传输频率的较小范围，因为根据奈奎斯特-仙农采样定理，较小的带宽允许较低的采样频率，从而允许较少的数据。奈奎斯特-仙农采样定理指出，采样频率取决于采样信号的带宽并且大小需要(至少)为该带宽的2倍。

国际电信联盟(ITU)及其电信标准化部门(ITU-T)已经开发了针对多媒体会议系统的多个标准。H.320是针对ISDN的标准会议协议。H.323定义了针对基于分组的网络(TCP/IP)的标准会议系统。H.324定义了针对模拟电话网络和无线通信系统的会议系统。

在这些标准内，不仅定义了信号的传输，还定义了音频数据的编码和处理。由一个或多个服务器，根据标准H.321的所谓多点控制单元(MCU)来进行会议的管理。多点控制单元还负责多个参与者的视频和音频数据的处理和分发。

为了实现这一点，多点控制单元向每个参与者发送包括所有其他参与者的音频数据在内的混合输出或生产信号，并将该信号提供给相应参与者。图1不仅示出了会议系统100的框图，还示出了这种会议情形下的信号流。

在H.323和H.320标准的框架中，定义了G.7xx类别的音频编解码器以在相应会议系统中操作。标准G.711用于线缆绑定的电话系统中的ISDN传输。在8kHz的采样频率处，G.711标准覆盖300至3400Hz之间的音频带宽，需要8比特(量化)深度的64Kbit/s的比特率。该编码由产生仅0.125ms的非常低延迟的、称为μ律或A律的简单对数编码形成。

G.722标准以16kHz的采样频率，对从50至7000Hz的较大音频带宽进行编码。因此，以1.5ms的延迟，在比特率48、56或64Kbit/s处，与频带更窄的G.7xx音频编解码器相比，该编解码器实现了更好的质量。此外，存在两个其他改进：G.722.1和G.722.2，在甚至更低的比特率提供了可比的话音质量。G722.2允许以25ms的延迟，在6.6kbit/s与23.85kbit/s之间进行比特率选择。

G.729标准典型用于IP电话通信(也称为IP语音通信(VoIP))的情况。该编解码器针对话音进行了优化，并发送分解的话音参数的集合，以便随后与误差信号一起进行合成。因此，与G.711标准相比，G.729标准以可比的采样率和音频带宽，实现了近似8kbit/s的明显更好的编码。然而，这种更加复杂的算法造成了近似15ms的延迟。

作为缺点，G.7xx编解码器是针对话音编码进行优化的，除了较窄的频率带宽之外，在对音乐与话音一起或者纯音乐进行编码时，表现出明显的问题。

因此，尽管在发送和处理话音信号时，如图1所示的会议系统100可以用于可接受的质量，但是在采用针对话音优化的低延迟编解码器时，不能令人满意地处理一般音频信号。

换言之，采用用于对话音信号进行编码和解码的编解码器来处理一般音频信号，包括例如具有音乐的音频信号，在质量方面不能产生满意的结果。如图1所示，通过在会议系统100的框架中采用用于对一般音频信号进行编码和解码的音频编解码器，能够提高质量。然而，如在图2的上下文中更详细阐述的，在这种会议系统中采用一般音频编解码器可能导致其他不利效果，例如增大延迟(仅列出一项)。

然而，在更详细地描述图2之前，应当注意，在本描述中，当对象在实施例或附图中出现多于一次，或者在多个实施例或附图中出现时，使用相同或相似的参考标记来表示相应对象。除非另外进行显式或隐式表示，使用相同或相似参考标记来表示的对象可以以相似或相等的方式来实现，例如在其电路、编程、特征或其他参数方面。因此，在附图的多个实施例中出现并且使用相同或相似的参考标记来表示的对象可以被实现为具有相同的规格、参数和特征。自然，也可以实现改变和适配，例如在边界条件或其他参数根据不同附图或根据不同实施例而改变的情况下。

此外，在以下概括中，参考标记将用于表示一组或一类对象，而不是单个对象。在图1的框架中已经这样做，例如在将第一输入表示为110-1，将第二输入表示为110-2，将第三输入表示为110-3时，已经仅以概括参考标记110的方式讨论了这些输入。换言之，除非另外显式注明，与使用概括参考标记来表示的对象相关的描述的部分也与具有相应单独参考标记的其他对象相关。

由于对于使用相同或相似参考标记来表示的对象而言也是如此，这些措施有助于缩短描述并以更清楚和简要的方式来描述其中公开的实施例。

图2示出了另一会议系统100以及会议终端160的框图，两者都与图1中所示的类似。图2中示出的会议系统100还包括：输入110、解码器120、加法器130、编码器140和输出150，这些以与图1所示的会议系统100同样的方式进行互连。图2中所示的会议终端160也包括编码器170和解码器180。因此，参照图1所示的会议系统100的描述。

然而，图2所示的会议系统100，以及图2所示的会议终端160适于使用一般音频编解码器(编码器-解码器)。因此，编码器140、170中的每一个包括在量化器/编码器200之前耦合的时间/频率转换器190的串联连接。时间/频率转换器190在图2中也示意为“T/F”，而图2中将量化器/编码器200标记为“Q/C”。

解码器120、180均包括解码器/解量化器210(图2中称为“Q/C^-1”)，与频率/时间转换器220(图2中称为“T/F^-1”)串联连接。仅为了简单起见，仅在编码器140-3和解码器120-3的情况下，将时间/频率转换器190、量化器/编码器200和解码器/解量化器210以及频率/时间转换器220如此标记。然而，以下描述也涉及其他这种元件。

从编码器开始，如编码器140或编码器170，转换器190将提供给时间/频率转换器190的音频信号从时域转换至频域或频率相关域。此后，在时间/频率转换器190产生的频谱表示中，对转换后的音频数据进行量化和编码，以形成比特流，然后例如在编码器140的情况下，将比特流提供给会议系统100的输出150。

对于解码器，如解码器120或解码器180，首先对提供给解码器的比特流进行解码和重新量化，以形成至少一部分音频信号的频谱表示，然后，频率/时间转换器220将频谱表示转换回时域。

因此，时间/频率转换器190，以及反转元件，频率/时间转换器220，分别适于产生向其提供的至少一段音频信号的频谱表示和将频谱表示重新变换为时域中的音频信号的对应部分。

再将音频信号从时域转换为频域、以及从频域转换回时域的过程中，可能出现偏差，使得重新建立的、重构的、或解码的音频信号可能不同于原始或原音频信号。在量化器编码器200和重新编码器210的框架中执行的量化和解量化的附加步骤可能加入另外的伪像。换言之，原始音频信号，以及重新建立的音频信号，可能互不相同。

例如，时间/频率转换器190，以及频率/时间转换器220可以基于MDCT(修正离散余弦变换)、MDST(修正离散正弦变换)、基于FFT的转换器(FFT＝快速傅立叶变换)或另一基于傅立叶的转换器来实现。在量化器/编码器200和解码器/解量化器210的框架中的量化和重新量化可以例如基于线性量化、对数量化、或另一更复杂的量化算法(例如更具体地考虑人类的听觉特性)来实现。量化器/编码器200和解码器/解量化器210的编码器和解码器部分可以例如通过采用霍夫曼编码或霍夫曼解码方案来工作。

然而，在这里描述的不同实施例和系统中，也可以采用更复杂的时间/频率和频率/时间转换器190、220以及更复杂的量化器/编码器和解码器/解量化器200、210，作为例如AAC-ELD编码器(作为编码器140、170)和AAC-ELD解码器(作为解码器120、180)的一部分或形成AAC-ELD编码器和AAC-ELD解码器。

不言自明，在会议系统100和会议终端160的框架中，实现相同或至少兼容的编码器170、140和解码器180、120是可取的。

如图2所示，基于一般音频信号编码和解码方案的会议系统100还在时域中执行音频信号的实际混合。向加法器130提供时域中的重构音频信号，以执行叠加并向后续编码器140的时间/频率转换器190提供时域中的混合信号。因此，会议系统再次包括解码器120和编码器140的串联连接，这是如图1和2所示的会议系统100典型地被称为“串联编码系统”的原因。

串联(tandem)编码系统通常表现出高复杂度的缺点。混合的复杂度高度依赖于所采用的解码器和编码器的复杂度，并且在多个音频输入和音频输出信号的情况下可能明显倍增。此外，由于多数编码和解码方案是无损的事实，在图1和2所示的会议系统100中采用的串联编码方案典型地造成对质量的负面影响。

作为另一缺点，解码和编码的重复步骤也加大了会议系统的输入110和输出150之间的总体延迟(也称为端到端延迟)。根据所使用的解码器和编码器的初始延迟，会议系统100本身可能将延迟增大至使得在会议系统的框架中的使用变得没有吸引力(如果不是恼人或甚至不可能的话)的程度。通常，50ms的延迟被认为是会话中参与者可以接受的最大延迟。

作为延迟的主要来源，时间/频率转换器190以及频率/时间转换器220对会议系统110的端到端延迟负责，附加延迟由会议终端160施加。其他元件，即量化器/编码器200和解码器/解量化器210造成的延迟相对次要，因为与时间/频率转换器和频率/时间转换器190、220相比，这些组件可以在更高得多的频率上操作。多数时间/频率转换器和频率/时间转换器190、220是块操作或帧操作的，这意味着，在许多情况下，必须考虑作为时间量的最小延迟，该最小延迟等于填充具有块的帧的长度的缓冲器或存储器所需的时间。然而该时间受到采样频率的显著影响，采样频率典型地在几kHz至几十kHz的范围内；而量化器/编码器200以及解码器/解量化器210的操作速度主要由基础系统的时钟频率确定。这典型地要更大至少2、3、4或更多个数量级。

因此，在采用一般音频信号编解码器的会议系统中，已经引入了所谓比特流混合技术。例如，比特流混合方法可以基于MPEG-4AAC-ELD编解码器来实现，该编解码器提供了避免上述由串联编码引入的至少一些缺陷的可能性。

然而，应当注意，原则上，如图2所示的会议系统100还可以基于与先前描述的G.7xx编解码器族的基于话音的码相比具有类似比特率和明显更大频率带宽的MPEG-4 AAC-ELD编解码器来实现。这直接还意味着，可以以明显增大的比特率为代价，能够实现针对所有信号类型的明显更好的音频质量。尽管MPEG-4 AAC-ELD提供了在G.7xx编解码器延迟范围内的延迟，但是，在图2所示的会议系统的框架中实现MPEG-4 AAC-ELD可能不能产生实际会议系统100。以下将关于图3来概述基于前述所谓比特流混合的更实际的系统。

应当理解，仅为了简单起见，将主要关注MPEG-4 AAC-ELD编解码器及其数据流和比特流。然而，在如图3中示意和示出的会议系统100的环境中，也可以采用其他编码器和解码器。

图3示出了如在图2的上下文中描述的根据比特流混合原理来工作的会议系统100以及会议终端160的框图。会议系统100本身是图2中示出的会议系统100的简化版本。更精确地，图2中的会议系统100的解码器120已经由图3中示出的解码器/解量化器220-1，220-2，210-3，...所取代。换言之，与图2和3中示出的会议系统100相比，已经去除了解码器120的频率/时间转换器120。类似地，图2的会议系统100的编码器140已经由量化器/编码器200-1，200-2，200-3所取代。因此，与图2和3中示出的会议系统100相比，已经去除了编码器140的时间/频率转换器190。

因此，加法器130不再在时域中操作，而是由于缺少频率/时间转换器220和时间/频率转换器190而在频域或频率相关域中操作。

例如，在MPEG-4 AAC-ELD编解码器的情况下，仅在会议终端160中出现的时间/频率转换器190和频率/时间转换器220基于MDCT变换。因此，在会议系统100内，混合器130直接在MDCT频率表示中的音频信号成分处。

由于在图2所示的会议系统100的情况下，转换器190、220表示了延迟的主要来源，因此通过去除这些转换器190、220，明显减小了延迟。此外，还明显减小了会议系统100内由两个转换器190、220引入的复杂度。例如，在MPEG-2 AAC解码器的情况下，在频率/时间转换器220的框架中执行的逆MDCT变换占总复杂度的近似20％。由于MPEG-4转换器也是基于类似变换，因此，通过从会议系统100中仅去除频率/时间转换器220，可以去除总复杂度中并非无关紧要的成分。

由于在MDCT变换的情况下或在类似的基于傅立叶的变换的情况下，这些变换是线性变换，因此可以在MDCT域或另一频域中混合音频信号。因此，这些变换具有数学加性属性，即：

f(x+y)＝f(x)+f(y)， (1)

以及数学同质性，即：

f(a·x)＝a·f(x)， (2)

其中f(x)是变换函数，x和y是其适当自变量，a是实值或复值常数。

MDCT变换或另一基于傅立叶的变换的这两种特征允许以在时域中混合相似的方式，在相应频域中进行混合。因此，可以同样地基于频谱值来执行所有计算。不需要将数据变换至时域。

在一些情况下，可能要满足另一条件。针对所有相关频谱分量，在混合过程中，所有相关频谱数据就其时间索引而言应当相等。如果在变换期间采用所谓块切换技术，使得会议终端160的编码器可以根据特定条件在不同块长度之间自由切换，则最终可能不满足上述条件。由于在不同块长度和对应的MDCT窗长度之间进行切换，除非要混合的数据已经以相同的窗进行处理，否则块切换可能危及将各个频谱值唯一分配给时域中的采样的可能性。由于在具有分布式会议终端160的一般系统中，这可能最终得不到保证，因此可能需要复杂的插值，这继而可能造成附加延迟和复杂度。因此，最终不基于块长度切换来实现比特流混合过程可能是可取的。

相反，AAC-ELD编解码器基于单一块长度，因此能够更容易地保证上述分配或频率数据的同步，从而可以更容易地实现混合。换言之，图3中所示的会议系统100是一种能够在变换域或频域中执行混合的系统。

如上所述，为了消除图2所示的会议系统100中的转换器190、200所引入的附加延迟，在会议终端160中使用的编解码器使用具有固定长度和形状的窗。这使得在不将音频流变换回时域的情况下，能够直接实现所描述的混合处理。这种方式能够限制额外引入的算法延迟量。此外，由于解码器中不存在逆变换步骤，编码器中不存在正变换步骤，因此降低了复杂度。

然而，同样在如图3所示的会议系统100的框架中，可能需要在加法器130进行混合之后对音频数据进行重新量化，这可能引入附加的量化噪声。例如，由于提供给会议系统100的不同音频信号的不同量化步长，可能造成附加量化噪声。因此，例如在非常低比特率传输的情况下(其中量化步长的数目已经有限)，在频域或变换域中混合两个音频信号的过程可能导致所产生的信号中不期望的附加噪声量或其他失真。

在以用于对多个输入数据流进行混合的设备的形式来描述根据本发明的第一实施例之前，关于图4来简要描述数据流或比特流以及其中包括的数据。

图4示意性示出了比特流或数据流250，比特流或数据流250包括频谱域中的至少一个(或者更经常多于一个)音频数据帧260。更准确地，图4示出了频谱域中的3个音频数据帧260-1、260-2和260-3。此外，数据流250还可以包括附加信息或附加信息块270，例如指示音频数据的编码方式的控制值、其他控制值或与时间索引或其他相关数据有关的信息。自然，图4中所示的数据流250还可以包括附加帧，或者帧260可以包括对于一个声道的音频数据。例如，在立体声音频信号的情况下，每个帧260可以例如包括来自左声道、右声道的音频数据，从左和右声道导出的音频数据、或上述数据的任何组合。

因此，图4示意了数据流250可以不仅包括频谱域中的音频数据帧，还包括附加控制信息、控制值、状态值、状态信息、协议相关值(例如校验和)等等。

图5示意性示出了例如数据流250的帧260中包括的与频谱分量相关的(频谱)信息。更准确地，图5示出了帧260的单一声道的频谱域中的信息的简化图。在频谱域中，音频数据帧可以例如以其强度值I(作为频率f的函数)来描述。在离散系统(例如数字系统)中，频率分辨率也是离散的，使得频谱信息典型地仅针对特定频谱分量(如单独频率或窄带或子带)而存在。单独频率或窄带以及子带被称为频谱分量。

图5示意性示出了针对6个单独频率300-1，...，300-6以及在图5所示的情况下包括4个单独频率的频带或子带310的强度分布。单独频率或对应窄带300以及子带或频带310形成频谱分量，对于所述频谱分量，帧包括与频谱域中的音频数据相关的信息。

与子带310相关的信息可以例如是总体强度或平均强度值。除了强度或其他与能量相关的值(如幅度)之外，相应频谱分量本身的能量，或从能量或幅度、相位信息和其他信息导出的另一值也可以包括在帧中，从而被视为与频谱分量相关的信息。

根据本发明的实施例的操作原理并非使得在所有输入流被解码的意义上以直接的方式进行混合，这包括反变换至时域、混合和再次对信号重新编码。

根据本发明的实施例基于在相应编解码器的频域中进行的混合。一种可能的编解码器可以是AAC-ELD编解码器，或者具有均匀变换窗的任何其他编解码器。在这种情况下，不需要时间/频率变换以能够对相应数据进行混合。根据本发明实施例的实施例利用以下事实：可以访问所有比特流参数，如量化步长和其他参数，可以使用这些参数来产生混合的输出比特流。

根据本发明实施例的实施例利用以下事实：与频谱分量相关的频谱线或频谱信息的混合可以通过源频谱线或频谱信息的加权和来执行。加权因子可以是0或1，或者原则上可以是0和1之间的任何值。0值意味着将源视为不相关并且将完全不使用。在根据本发明的实施例的情况下，线组，如频带或缩放因子频带，可以使用相同的加权因子。然而如上所述，针对单一输入数据流的单一帧的频谱分量，加权因子(例如0和1的分布)可以改变。此外，目前，根据本发明实施例的实施例在混合频谱信息时，不需要排他地使用0或1的加权因子。可以有如下情况：在一些情况下，不是针对单一情况，而是针对输入数据流的帧的多个总体频谱信息，相应加权因子可以不同于0或1。

一种特殊情况在于，一个源(输入数据流510)的所有频带或频谱分量被设置为因子1，而其他源的所有因子被设置为0。在这种情况下，一个参与者的完整输入比特流被相同地拷贝为最终混合比特流。可以逐帧计算加权因子，但是可以基于更长的帧组或序列来计算或确定加权因子。自然，如上所述，即使在这种帧序列之内或者在单一帧之内，加权因子也可以针对不同频谱分量而不同。在根据本发明实施例一些实施例中，可以根据心理声学模型的结果来计算或确定加权因子。

心理声学模型或相应模型可以计算仅包括一些输入流以得到能量值E_f的混合信号与具有能量值E_c的完整混合信号之间的能量比值r(n)。然后，将能量比值r(n)计算为E_f除以E_c的对数的20倍。

如果该比值足够高，则可以认为主要声道掩蔽了次要声道。因此，处理不相关性减小，意即仅包括完全不可察觉的、具有加权因子1的流，而所有其他流(一个频谱分量的至少一个频谱信息)被丢弃。换言之，使这些流具有加权因子0。

更具体地，这可以例如根据以下等式来实现：

E_{C} = Σ_{n = 1}^{N} E_{n} - - - (3)

以及

E_{f^{(n)}} = Σ_{\underset{n &NotEqual; 1}{n = 1}}^{N} E_{i} - - - (4)

根据以下等式来计算比率r(n)：

r (n) = 20 \cdot \log \frac{E_{f^{(n)}}}{E_{c}} - - - (5)

其中n是输入数据流的索引，N是所有或相关输入数据流的数目。如果比值r(n)足够高，则可以认为输入数据流510的次要声道或次要帧被主要声道或主要帧所掩蔽。因此，可以处理不相关性减小，意即仅包括流中完全可察觉的频谱分量，而丢弃其他流。

在等式(3)至(5)的框架中要考虑的能量值可以例如通过计算相应强度值的平方而从强度值导出。在与频谱分量相关的信息可以包括其他值的情况下，可以根据帧中包括的信息的形式来执行类似计算。例如，在复值信息的情况下，可能必须执行：计算组成与频谱分量相关的信息的各个值的实部和虚部的模。

除了各个频率之外，针对根据等式(3)至(5)的心理声学模型的应用，等式(3)和(4)中的和值可以包括多于一个频率。换言之，在等式(3)和(4)中，可以使用与多个单独频率相对应的总能量值(频带的能量)来代替相应能量值E_n，或者更一般而言，可以使用与一个或多个频谱分量相关的单一频谱信息或多个频谱信息来代替相应能量值E_n。

例如，由于AAC-ELD以逐频带方式对频谱线进行操作，与人类听觉系统同时处理的频率组相似，可以以类似方式执行不相关性估计或心理声学模型。通过以这种方式来应用心理声学模型，可以在必要时仅去除或取代单一频带的信号的部分。

如心理声学实验已经表明，信号被另一信号掩蔽取决于相应信号类型。可以应用最坏情况场景作为不相关性确定的最小阈值。例如，为了使用正弦或另一独特而良好定义的声音来掩蔽噪声，典型地需要21至28dB的差值。测试已经表明，近似28.5dB的阈值得到良好的替代结果。还考虑所考虑的实际频带，可以最终改进该值。

因此，在心理声学评估或者基于所考虑的频谱分量的不相关性评估方面，根据等式(5)大于-28.5dB的值r(n)可以被认为不相关。对于不同的频谱分量，可以使用不同的值。因此，对于所考虑的帧，使用10dB至40dB、20dB至30dB、或25dB至30dB的阈值作为输入数据流的心理声学不相关性的指示符可以被认为是有用的。

可以得到以下优点：由于重新量化步长的数目减少，串联编码的效应较少出现或不出现。由于每个量化步长表现出减小附加量化噪声的显著风险，因此可以通过采用用于对多个输入数据流进行混合的设备的形式的根据本发明的实施例来提高音频信号的总体质量。当产生输出数据流从而维持与所确定的输入流或其部分的帧的量化级分布可比的量化级分布时，可以是这种情况。

图6a示出了用于对第一输入数据流510-1和第二输入数据流510-2的帧进行混合的设备500的简化框图。设备500包括适于产生输出数据流530的处理单元520。更准确一些，设备500和处理单元520适于基于第一和第二输入数据流510-1、510-2中的相应第一帧540-1和第二帧540-2来产生输出数据流530中包括的输出帧550。

第一帧540-1和第二帧540-2分别包括与第一和第二音频信号相关的频谱信息。该频谱信息被分离为频谱的较低部分和相应频谱的较高部分，其中，以时间/频率栅格分辨率中的能量或能量相关值的形式，通过SBR数据来描述频谱的较高部分。频谱的较低部分和较高部分在所谓的转变频率处互相分离，转变频率是SBR参数之一。以相应帧540内的频谱值的形式来描述频谱的较低部分。在图6a中，通过频谱信息560的示意表示，示意性地示出了这一点。以下将在图6b的上下文中更详细地描述频谱信息560。

自然，实现具有设备500形式的根据本发明的实施例，使得在输入数据流510中的帧序列540的情况下，在比较和确定期间仅考虑与相似或相同的时间索引相对应的帧540是可取的。

输出帧550还包括类似的频谱信息表示560，这也在图6a中示意性示出。相应地，输出帧550还包括具有输出频谱的较高部分和输出频谱的较低部分的类似频谱信息表示560，该较高部分与较低部分在输出转变频率处互相接触。与输入数据流610的帧540类似，也以输出频谱值的形式描述了输出帧550的输出频谱的较低部分，而以包括输出时间/频率栅格分辨率中的能量值的SBR数据的形式描述了频谱的上部(较高部分)。

如上所述，处理单元520适于产生和输出如上所述的输出帧。应当注意，在一般情况下，第一帧540-1的第一转变频率与第二帧540-2的第二转变频率不同。因此，处理单元适于使得基于第一和第二频谱数据，在频谱域中直接产生与第一转变频率、第二转变频率和输出转变频率中的最小值以下的频率相对应的输出频谱数据。例如，这可以通过将与相同频谱分量的相应频谱信息相加或线性组合来实现。

此外，处理单元520还适于通过在SBR域中直接处理第一和第二帧540-1、540-2的相应第一和第二SBR数据，来输出对输出帧550的输出频谱的上部进行描述的SBR数据。这将参照图9a至9e来更详细地进行解释。

如以下也要更详细解释的，处理单元520可以适于使得针对如上定义的最小值与最大值之间的频率区域，根据第一和第二频谱数据中的至少一个来估计至少一个SBR值，并基于至少所估计的SBR值来产生输出SBR数据的对应SBR值。例如，当频率和所考虑的频谱分量的考虑低于所涉及的最大转变频率，但高于其最小值时，可以是这种情况。

在这种情况下，由于相应频谱分量位于输出转变频率之上，因此可能出现以下情况：输入帧540中的至少一个包括作为相应频谱的较低部分的一部分的频谱值，而输出帧期望SBR数据。换言之，在所涉及的转变频率的最小值与所涉及的转变频率值的最大值之间的该中间频率区域中，可以出现以下情况：必须基于来自频谱之一的较低部分的频谱数据来估计对应的SBR数据。然后，与所考虑的频谱分量相对应的输出SBR数据至少基于所估计的SBR数据。针对根据本发明的实施例如何执行该操作的更详细的描述以下将在图9a至9e的上下文中给出。

另一方面，可能出现以下情况：针对位于先前定义的中间频域区域中的所涉及的频谱分量或频率，输出帧550期望频谱值，这是因为相应频谱分量属于输出频谱的较低部分。然而，输入帧540之一可能仅包括针对相关频谱分量的SBR数据。在这种情况下，基于SBR数据，并且可选地基于所考虑的输入帧的频谱的较低部分的频谱信息或其部分，来估计相对应的频谱信息可能是可取的。换言之，在一些情况下，也可能需要基于SBR数据的频谱数据的估计。基于所估计的频谱值，然后可以通过在频谱域中直接处理该频谱值来确定或获得相应频谱分量的对应频谱值。

然而，为了便于更好地理解根据本发明实施例的设备500的处理和操作以及总体理解SBR，图6b示出了采用SBR数据的频谱信息的更详细表示560。

如本说明书的介绍部分所述，SBR工具或SBR模块典型地作为与基础MPEG-4编码器或解码器相邻的独立编码器或解码器来操作。SBR工具基于采用也表示线性变换的正交镜像滤波器组(QMF)。

SBR工具在MPEG编码器的数据流或比特流内存储其自身的信息和数据(SBR参数)，以便于对所描述的频率数据进行正确解码。对于SBR工具，将信息描述为帧栅格或时间/频率栅格分辨率。时间/频率栅格仅包括关于当前帧540、550的数据。

图6b示意性示出了针对单一帧540、550的这种时间/频率栅格。横坐标是时间轴，而纵坐标是频率轴。

如上所述，通过先前定义的转变频率(f_x)570，将以频率f显示的频谱分离为较低部分580和上部或较高部分590。频谱的较低部分580典型地从较低可访问频率(例如0Hz)延伸至转变频率570；而频谱的上部590从转变频率570处开始，典型地在转变频率的两倍(2f_x)处结束，如图6b中的线600所示。

频谱的较低部分580典型地由频谱数据或频谱值610描述为阴影区域，因为在许多基于帧的编解码器及其时间/频率转换器中，音频数据的相应帧被完全转换至频域，使得频谱数据610典型地不包括显式的帧内部时间依赖性。因此，对于频谱的较低部分580，频谱数据610可能未完全正确地显示在图6b中所示的这种时间时间/频率坐标系中。

然而，如上所述，SBR工具基于至少将频谱的上部590分离为多个子带的QMF时间/频率转换来操作，其中，每个子带信号包括时间依赖性或时间分辨率。换言之，SBR工具执行的对子带域的转换创建了“混合的时间和频率表示”。

如本说明书的介绍部分所示，基于频谱的上部590与较低部分580具有明显相似并且因此具有明显相关的假设，SBR工具能够导出能量相关值或能量值，来以拷贝至上部590的频谱分量中的频率的、频谱的较低部分580的频谱数据的幅度的频率操作方面来进行描述。因此，如工具的名称所示的含义，通过将频谱信息从较低部分580拷贝至上部590的频率，并且修改其相应幅度，可以复制频谱数据的上部590。

频谱的较低部分580的时间分辨率固有地存在，而例如通过包括相位信息或其他参数，频谱的上部590的子带描述允许直接访问该时间分辨率。

SBR工具产生SBR参数，SBR参数包括针对每个SBR帧(与帧540、550相同)的多个时隙，其中，SBR帧长度与基础编码器帧长度兼容，并且SBR工具和基础编码器或解码器均不使用块切换技术。例如，MPEG-4 AAC-ELD编解码器满足这一边界条件。

时隙将SBR模块的帧540、550的时间访问分为较小的、均等间隔的时间区域。每个SBR帧中这些时间区域的数目是在对相应帧进行编码之前确定的。在MPEG-4 AAC-ELD编解码器的上下文中使用的SBR工具被设置为16时隙。

然后，将这些时隙组合以形成一个或多个封包。每个封包包括形成一组的至少两个或多个时隙。每个封包具有与其相关联的、指定数目的SBR频率数据。在帧栅格中，将时隙的数目和长度与每个封包一起存储。

图60中所示的频谱信息560的简化表示示出了第一和第二封包620-1、620-2。尽管原则上封包620可以自由定义，甚至具有小于两个时隙的长度，但是在MPEG-4 AAC-ELD编解码器的框架中，SBR帧仅属于以下两个类别中的任一个：FIXFIX类别和LD_TRAN类别。因此，尽管原则上在封包方面时隙的任何分布都是可能的，但是以下将主要参考MPEG-4 AAC-ELD编解码器，从而主要描述其实现。

FIXFIX类别将16个可用时隙分为多个等长的封包(例如1、2、4个封包，分别包括16、6、4个时隙)，而LD_TRAN类别包括两个或3个封包，其中每个封包正好包括2个时隙。包括正好2个时隙在内的封包包括音频信号的瞬变，或者换言之，包括音频信号的突变，如非常大而突然的声音。在该瞬变之前和之后的时隙可以包括在多至2个其他封包中，只要相应封包足够长。

换言之，由于SBR模块实现了将帧动态划分为封包，因此可以以更精确的频率分辨率对音频信号中的瞬变做出反应。在当前帧中存在瞬变的情况下，SBR编码器将帧分为合适的封包结构。如上所述，在AAC-ELD以及SBR的情况下，并且根据由变量TRANPOS所表征的、瞬变的时隙位置，对帧划分进行标准化。

在存在瞬变的情况下SBR编码器选择的SBR帧类别，LD_TRAN类别典型地包括3个封包。起始封包包括帧的开始直至瞬变位置，其中时隙索引从0至TRANPOS-1，瞬变将由包括正好2个时隙(时隙索引从TRANPOS至TRANPOS+2)的封包所包围。第三个封包包括所有后续时隙(时隙索引为TRANPOS+3至TRANPOS+16)。然而，AAC-ELD编解码器以及SBR中的封包的最小长度限于2个时隙，从而具有接近帧边界的瞬变的帧将被划分入2个封包。

在图6b中，示出了以下情况：两个封包620-1、620-2等长，属于具有多个2个封包的FIXFIX SBR帧类别。相应地，每个封包包括8个时隙的长度。

每个封包所具有的频率分辨率确定了针对每个封包要计算并存储的能量值或SBR能量值的数目。在AAC-ELD编解码器的上下文中的SBR工具可以在高与低分辨率之间进行切换。在高分辨率封包的情况下，与低分辨率封包相比。在高分辨率封包的情况下，与低分辨率封包相比，将使用两倍数目的能量值来实现该封包的更加准确的频率分辨率。用于高或低分辨率封包的频率值的数目取决于编码器参数，如比特率、采样频率和其他参数。在MPEG-4 AAC-ELD编解码器的情况下，在高分辨率封包中，SBR工具很经常地使用16至14个值。相应地，在低分辨率封包中，能量值的数目通常在每封包7至8个值的范围内。

图6b针对两个封包620-1、620-2中的每一个，示出了6个时间/频率区域630-1a，...，630-1f，630-2a，...，630-2f，每个时间/频率区域表示一个能量或能量相关SBR值。仅为了简单起见，针对两个封包620-1、620-2中的每一个，对时间/频率区域630中的3个进行了这样的标记。此外，出于相同原因，针对两个封包620-1、620-2，以相同的方式选择时间/频率区域630的频率分布。自然，这仅表示多种可能性中的一种可能性。更准确地，针对每个封包620，时间/频率区域630可以单独分布。因此，在封包620之间进行切换时，目前不需要将频谱或其上部590划分为相同的分布。还应当注意，时间/频率区域630的数目可以同样取决于如上所述所考虑的封包620。

此外，作为附加SBR数据，每个封包620中还可以包括噪声相关能量值和正弦相关能量值。仅为了简单起见，未示出这些附加值。噪声相关值描述了与预定噪声源的相应时间/频率区域630的能量值相关的能量值，而正弦能量值与具有预定频率的正弦振荡以及与相应时间/频率区域的能量值相等的能量值相关。典型地，每个封包620可以包括2至3个噪声相关或正弦相关值。然而，也可以包括更小或更大的数目。

图7示出了根据基于图6a的、本发明实施例的设备500的另一更详细框图。因此，参照图6a的描述。

如先前在图6b中对频谱信息和表示560的讨论所示，对于根据本发明的实施例，首先分解帧栅格以产生用于输出帧550的新的帧栅格是可取的。因此，处理单元520包括分解器640，向分解器640提供两个输入数据流510-1、510-2。处理单元520还包括频谱混合器650，输入数据流510或分解器640的输出耦合至频谱混合器650。此外，处理单元520还包括SBR混合器660，SBR混合器660也耦合至输入数据流510或分解器640的输出。处理单元520还包括估计器670，估计器670也耦合至两个输入数据流510和/或分解器640，以接收分解的数据和/或输入数据流(其中包括有帧540)。根据具体实现，估计器670可以耦合至频谱混合器650中的至少一个，或者SBR混合器660，以针对所涉及的转变频率的最大值与其最小值之间的、先前定义的中间区域中的频率，向其中的至少一个提供估计的SBR值或估计的频谱值。

SBR混合器660以及频谱混合器650耦合至混合器680，混合器680产生并输出包括输出帧550在内的输出数据流530。

关于操作模式，分解器640适于分解帧540，以确定其中包括的帧栅格，并产生包括例如转变频率在内的新的帧栅格。频谱混合器650适于在频谱域中，针对所涉及的转变频率的最小值以下的频率或频谱分量，对帧540的频谱值或频谱信息进行混合，类似地，SBR混合器660适于在SBR域中对相应SBR数据进行混合。估计器670提供了上述最大值与其最小值之间的中间频率区域，两个混合器650、660中的任一个使用频谱域或SBR域中的合适数据，使这些混合器在必要时也能够在该中间频域中操作。然后，混合器680对从两个混合器650、660接收到的频谱和SBR数据进行编辑，以形成和产生输出帧550。

根据本发明的实施例可以例如在会议系统(例如具有多于两个参与者的电话/视频会议系统)的框架中采用。与时域混合相比，这种会议系统可以提供较低复杂度的优点，因为可以省去时间-视频变换步骤和重新编码步骤。此外，与在时域中进行混合相比，由于不存在滤波器组延迟，这些组件未造成另外的延迟。

然而，根据本发明的实施例也可以在更复杂的应用中采用，包括如感知噪声替换(PNS)、时间噪声成形(TNS)和不同模式的立体声编码之类的模块。将参照图8对这种实施例进行更详细描述。

图8示出了用于对多个输入数据流进行混合的设备500的示意框图，设备500包括处理单元520。更准确地，图8示出了一种高灵活性的设备500，能够处理输入数据流(比特流)中编码的差异较大的音频信号。因此，以下将描述的一些组件是可选组件，不需要在所有情况下以及在根据发明的所有实施例的框架中都实现。

针对处理单元520要处理的每个输入数据流或编码的音频比特流，处理单元520包括比特流解码器700。仅为了简单起见，图8仅示出了两个比特流解码器700-1、700-2。自然，根据要处理的输入数据流的数目，可以实现更多数目或更少数目的比特流解码器700(如果例如比特流解码器700能够顺序处理多于一个输入数据流)。

比特流解码器700-1以及其他比特流解码器700-2，...均包括比特流读取器710，比特流读取器710适于接收信号并处理接收的信号，以及隔离和提取比特流中包括的数据。例如，比特流读取器710可以适于将输入数据与内部时钟同步，还可以适于将输入比特流分离为合适的帧。

比特流解码器700还包括：Huffman解码器720，耦合至比特流读取器710的输出以从比特流读取器710接收隔离的数据。Huffman解码器720的输出耦合至解量化器730(也称为反量化器)。耦合在Huffman解码器720之后的解量化器730后接缩放器740。Huffman解码器720、解量化器730和缩放器740形成第一单元750，在第一单元750的输出处，相应输入数据流的音频信号的至少一部分在参与者的编码器(图8中未示出)所操作的频域或频率相关域中可用。

比特流解码器700还包括：第二单元760，按数据耦合在第一单元750之后。第二单元760包括：立体声解码器770(M/S模块)，其后耦合有PNS解码器。PNS解码器780按数据后接TNS解码器790，TNS解码器790与PNS解码器780一起在立体声解码器770处形成第二单元760。

除了所描述的音频数据的流程之外，比特流解码器700还包括与控制数据相关的不同模块之间的多个连接。更准确地，比特流读取器710也耦合至Huffman解码器720以接收合适的控制数据。此外，Huffman解码器720直接耦合至缩放器740以向缩放器740发送缩放信息。立体声解码器770、PNS解码器780和TNS解码器790也均耦合至比特流读取器710以接收合适的控制数据。

处理单元520还包括混合单元800，混合单元800继而包括频谱混合器810，频谱混合器810按输入耦合至比特流解码器700。频谱混合器810可以例如包括一个或多个加法器，以在频域中执行实际混合。此外，频谱混合器810还可以包括乘法器，以允许比特流解码器700提供的频谱信息的任意线性组合。

混合单元800还包括：优化模块820，按数据耦合至频谱混合器810的输出。然而，优化模块820还耦合至频谱混合器810以向频谱混合器810提供控制信息。优化模块820按数据表示混合单元800的输出。

混合单元800还包括：SBR混合器830，直接耦合至不同比特流解码器700的比特流读取器710的输出。SBR混合器830的输出形成混合单元800的另一输出。

处理单元520还包括：比特流编码器850，耦合至混合单元800。比特流编码器850包括第三单元860，第三单元860包括TNS编码器870、PNS编码器880和立体声编码器890(以所描述的顺序串联耦合)。因此，第三单元860形成比特流解码器700的第一单元750的反单元。

比特流编码器850还包括第四单元900，第四单元900包括缩放器910、量化器920和Huffman编码器930(形成第四单元的输入与其输出之间的串联连接)。因此，第四单元900形成第一单元750的反模块。相应地，缩放器910直接耦合至Huffman编码器930，以向Huffman编码器930提供相应控制数据。

比特流编码器850还包括：比特流写入器940，耦合至Huffman编码器930的输出。此外，比特流写入器940还耦合至TNS编码器870、PNS编码器880、立体声编码器890和Huffman编码器930，以从这些模块接收控制数据和信息。比特流写入器940的输出形成处理单元520的输出和设备500的输出。

比特流编码器850还包括：心理声学模块950，也耦合至混合单元800的输出。比特流编码器850适于向第三单元860的模块提供合适的控制信息，例如指示在第三单元860的单元的框架中，哪个单元可以用于对混合单元800输出的音频信号进行编码。

因此，原则上，在第二单元760的输出直至第三单元860的输入处，如发送方侧使用的编码器所定义的，可以在频谱域中处理音频信号。然而，如上所述，如果例如输入数据流之一的帧的频谱信息是主要的，则最终可以不需要完整的解码、解量化、解缩放和另外的处理步骤。根据本发明的实施例，然后将相应频谱分量的频谱信息的至少一部分拷贝至输出数据流的相应帧的频谱分量。

为了允许这种处理，设备500和处理单元520包括另外的信号线来进行优化的数据交换。为了在图8所示的实施例中允许这种处理，Huffman解码器720的输出，以及缩放器740、立体声解码器770和PNS解码器780的输出，与其他比特流读取器710的相应组件一起，耦合至混合单元800的优化模块820，以进行相应处理。

在相应处理之后，为了便于比特流编码器850内的相应数据流，还实现了针对优化数据流的对应数据线。更准确地，优化模块820的输出耦合至PNS编码器780的输入，立体声编码器890、第四单元900的输入和缩放器910，以及Huffman编码器930的输入。此外，优化模块820的输出还直接耦合至比特流写入器940。

如上所述，几乎所有上述模块都是可选模块，在根据本发明的实施例中不必需实现这些可选模块。例如，在音频数据流仅包括单一声道的情况下，可以省去立体声编码和解码单元770、890。相应地，在没有基于PNS的信号要处理的情况下，也可以省去对应的PNS解码器和PNS编码器780、880。在要处理的信号和要输出的信号不基于TNS数据的情况下，还可以省去TNS模块790、870。在第一和第四单元750、900内，还可以最终省去反量化器730、缩放器740、量化器920以及缩放器910。因此，这些模块也可以认为是可选组件。

Huffman解码器720和Huffman编码器930可以以不同方式实现，使用不同算法，或者完全省略。

对于设备500以及其中包括的处理单元520的操作模式，比特流读取器710首先读取输入的输入数据流并将其分离为合适的信息。在Huffman解码之后，最终，得到的频谱的信息可以由解量化器730重新量化，并由解缩放器740进行合适缩放。

此后，根据输入数据流中包括的控制信息，在立体声解码器770的框架中，可以将输入数据流中编码的音频信号分解为两个或多个声道的音频信号。如果例如音频信号包括中声道(M)和侧声道(S)，则通过将中声道和侧声道数据相加或相减，可以获得对应的左声道和右声道数据。在许多实现中，中声道与左声道和右声道音频数据之和成比例，而侧声道与左声道(L)与右声道(R)之差成比例。根据实现方式，可以考虑因子1/2来对上述声道进行相加和/或相减，以防止限幅效应。一般而言，线性组合可以处理不同声道以产生对应声道。

换言之，在立体声解码器770之后，如果合适，可以将音频数据分解为两个单独的声道。自然，立体声解码器770还可以执行反解码。如果例如比特流读取器710接收的音频信号包括左和右声道，则立体声解码器770同样可以计算或确定合适的中声道和侧声道数据。

不仅根据设备500的实现，还根据提供相应输入数据流的参与者的编码器的实现，相应数据流可以包括PNS参数(PNS＝感知噪声替换)。PNS基于以下事实：在有限的频率范围或频谱分量(如频带或单独的频率)中，人耳很可能无法将类似噪声的声音与合成产生的噪声区分开。因此，PNS将音频信号中实际类似噪声的成分替换为指示要合成引入相应频谱分量的噪声电平并忽略实际音频信号的能量值。换言之，PNS解码器780可以在一个或多个频谱分量中，基于输入数据流中包括的PNS参数，来产生实际类似噪声的音频信号成分。

对于TNS解码器790和TNS编码器870，可能必须将相应音频信号变换回相对于在发送方侧操作的TNS模块而言未修改的版本。时间噪声成形(TNS)是用于减小量化噪声导致的预回声伪像的手段，该伪像可能存在于音频信号帧中类似瞬变的信号的情况下。为了对抗这种瞬变，从频谱的低侧、频谱的高侧或者频谱的两侧开始，对频谱信息应用至少一个自适应预测滤波器。可以对预测滤波器的长度以及应用相应滤波器的频率范围进行适配。

换言之，TNS模块的操作基于计算一个或多个自适应IIR滤波器(IIR＝无限冲激响应)，并通过编码和发送对预测和实际音频信号之间的差值进行描述的误差信号以及预测滤波器的滤波器系数来进行。因此，可以提高音频质量，同时通过在频域中应用预测滤波器来处理类似瞬变的信号，以减小其余误差信号的幅度(然后，可以使用与以类似的量化噪声对类似瞬变的音频信号进行直接编码相比较少的量化步长来对其余误差信号进行编码)，从而维持发送方数据流的比特率。

对于TNS应用，在一些情况下采用TNS解码器760的功能来对输入数据流的TNS部分进行解码，以达到所使用的编解码器所确定的、频谱域中的“纯”表示是可取的。如果不能基于TNS参数中包括的预测滤波器的滤波器系数已经估计出心理声学模型(例如应用于心理声学模块950中的心理声学模型)的估计，则应用TNS解码器790的功能是有用的。在至少一个输入数据流使用TNS而另一个不使用TNS的情况下，这尤其重要。

当处理单元基于输入数据流的帧的比较确定要使用来自使用TNS的输入数据流的帧的频谱信息时，TNS参数可以用于输出数据的帧。如果例如出于不兼容性的原因，输出数据流的接收者不能解码TNS数据，则不拷贝误差信号的相应频谱数据以及和另外的TNS参数，而根据TNS相关数据来处理重构数据以获得频谱域中的信息，并且不使用TNS编码器870可能是有用的。这再次示意了，在根据本发明的不同实施例中，不需要实现图8中所示的组件或模块的部分。

在对PNS数据进行比较的至少一个音频输入流的情况下，可以应用类似的策略。如果在针对输入数据流的频谱分量对帧进行的比较中表明一个输入数据流在其当前帧和相应频谱分量方面是主导的，则也可以将相应PNS参数(即相应能量值)直接拷贝至输出帧的相应频谱分量。然而，如果接收者不能接受PNS参数，则可以通过使用相应能量值指示的合适的能量等级来产生噪声，从而根据相应频谱分量的PNS参数来重构频谱信息。然后，可以在频谱域中相应地处理噪声数据。

如上所述，发送的数据还包括SBR数据，然后，SBR混合器830执行上述功能来处理SBR数据。

由于SBR允许两个编码立体声声道，对左声道和右声道单独编码，以及在耦合声道(C)方面对左声道和右声道进行编码，因此，根据本发明的实施例，对相应SBR参数或至少其部分进行处理可以包括将SBR参数的C元素拷贝至要确定和发送的SBR参数的左和右元素，或者反之。

此外，由于在根据本发明实施例的不同实施例中，输入数据流可以分别包括单声道以及包括一个和两个单独声道的立体声音频信号，因此，在处理输入数据流的帧和产生输出数据流的输出帧的框架中，可以附加地执行单声道至立体声上混或立体声至单声道下混。

如之前的描述所示，在TNS参数方面，处理相应TNS参数以及从主要输入数据流至输出数据流的整个帧的频谱信息，以防止重新量化是可取的。

在基于PNS的频谱信息的情况下，处理各个能量值而不对作为基础的频谱分量进行解码是可行的方式。此外，在这种情况下，通过仅处理从多个输入数据流的帧的主要频谱分量至输出数据流的输出帧的对应频谱分量的相应PNS参数，不引入附加的量化噪声。

如上所述，根据本发明的实施例还可以包括：在比较多个输入数据流的帧之后，以及在基于所述比较，针对输出数据流的输出帧的频谱分量，确定正好一个数据流为频谱信息的源之后，简单地拷贝与频谱分量相关的频谱信息。

在心理声学模块950的框架中执行的替换算法检查与所得到的信号的基础频谱分量(例如频带)相关的每个频谱信息，以标识仅具有单一有效分量的频谱分量。对于这些频带，可以从编码器拷贝输入比特流的相应输入数据流的量化值，而不对指定频谱分量的相应频谱数据进行重新编码或重新量化。在一些情况下，所有量化数据可以从单一有效输入信号取得，以形成输出比特流或者输出数据流，使得对于设备500而言能够实现输入数据流的无损编码。

此外，可以省略编码器内如心理声学分析之类的处理步骤。这允许缩短编码过程，从而降低计算复杂度，因为原则上仅将数据从一个比特流拷贝入另一比特流必须在特定情况下执行。

例如，在PNS的情况下，可以执行替换，因为PNS编码的频带的噪声因子可以从输出数据流之一拷贝至输出数据流。可以使用合适的PNS参数来替换各个频谱分量，因为PNS参数是针对频谱分量指定的，或者换言之，是互相独立的非常好的近似。

然而，可能出现以下情况：所描述的算法的两个有力应用可能得到退化的收听体验或者不利的质量降低。因此，将替换限制在各个帧，而不是与各个频谱分量相关的频谱信息，是可取的。在这种操作模式中，可以不变地执行不相关性估计或不相关性确定以及替换分析。然而，在这种操作模式中，仅当有效帧内的所有或至少大量频谱分量可替换时，才执行替换。

尽管这可能导致较少次数的替换，在一些情况下，可以改进频谱信息的内在强度，得到甚至略微改进的质量。

返回根据本发明实施例的SBR混合，不考虑图8所示的设备500的附加和可选组件，现在更详细描述SBR的操作原理和SBR数据的混合。

如上所述，SBR工具使用表示线性变换的QMF(正交镜像滤波器组)。因此，不仅可以在频谱域中直接处理频谱数据610(见图6b)，还可以处理与频谱的上部590中的每个时间/频率区域630相关联的能量值(将图6b)。然而，如上所述，在混合之前首先调整所涉及的时间/频率栅格是可取的，在一些情况下设置是必要的。

尽管原则上可以产生全新的时间/频率栅格，但是以下将描述将一个源中出现的时间/频率栅格用作输出帧550的时间/频率栅格的情形。例如可以基于心理声学考虑来决定可以使用哪个时间/频率栅格。例如，当栅格之一包括瞬变时，使用包括该瞬变或者与该瞬变兼容的时间/频率栅格是可取的，因为由于人类听觉系统的掩蔽效应，当偏离该指定栅格时，最终可能引入可听伪像。例如，在根据本发明实施例的设备500要处理具有瞬变的两个或更多帧的情况下，选择与这些瞬变中最早的一个一致的时间/频率栅格是可取的。再次，由于掩蔽效应，基于心理声学考虑，选择包含最早的起音在内的栅格可以是优选选择。

然而，应当指出，即使在这些情况下，也可以计算其他时间/频率栅格，或者可以选择不同的时间/频率栅格。

因此，在对SBR帧栅格进行混合时，在一些情况下，分析和确定帧540中包括的一个或多个瞬变的存在和位置是可取的。此外，或备选地，这还可以通过以下操作来实现：评估相应帧540的SBR数据的帧栅格，并验证帧栅格本身是否与相应瞬变的存在一致，或者指示相应瞬变的存在。例如，在AAC ELD编解码器的情况下，使用LD_TRAN帧类别可以指示存在瞬变。由于该类别还包括TRANSPOSE变量，分解器640也知道瞬变的时隙位置，如图7所示。

然而，由于可以使用另一SBR帧类别FIXFIX，因此在产生输出帧550的时间/频率栅格时，可能产生不同的星座。

例如，可能出现没有瞬变的帧或者具有相等瞬变位置的帧。如果帧不包括瞬变，则甚至可以使用仅具有展开至整个帧的单一封包的封包结构。此外，在封包数目相同的情况下，可以拷贝基本帧结构。在一个帧中包括的封包数目为另一帧中包括的封包数目的整数倍的情况下，也可以使用更细化的封包分布。

类似地，当所有帧540在相同位置包括瞬变时，可以从两个栅格中的任一个拷贝时间/频率栅格。

当对没有瞬变、具有单一封包的帧和具有瞬变的帧进行混合时，可以拷贝包括瞬变的帧的帧结构。在这种情况下，可以安全地假定，在混合相应数据时不会产生新的瞬变。很可能的是，只有已经存在的瞬变可能被放大或抑制。

在涉及具有不同瞬变位置的帧的情况下，每个帧包括相对于基础时隙的不同位置处的瞬变。在这种情况下，基于瞬变位置的合适分布是有利的。在许多情况下，第一个瞬变的位置是相关的，因为第一个瞬变的后效应最可能掩蔽预回声效应和其他问题。在这种情况下，将帧栅格相应适配至第一个瞬变的位置可能是合适的。

在相对于帧确定了封包的分布之后，可以确定各个封包的频率分辨率。典型地，使用输入封包的最高分辨率作为新封包的分辨率。如果例如所分解的封包之一的分辨率较高，则输出帧也包括在其频率方面具有较高分辨率的封包。

为了更详细地示意这种情形，尤其在两个输入数据流510-1、510-2的输入帧540-1、540-2包括不同的转变频率的情况下，图9a和图9b分别示意了针对两个输入帧510-1、540-2，如图6a所示的相应表示。由于图6b的非常具体的描述，这里可以缩短图9a和9b的描述。此外，图9a所示的帧540-1与图6b中所示的相同。如上所述，帧540-1包括两个等长的封包620-1、620-2，其中多个时间/频率区域630在转变频率570之上。

图9b中示意性示出的第二帧540-2在一些方面不同于图9a中所示的帧。除了帧栅格包括不等长的3个封包620-1、620-2和620-3之外，与时间/频率区域630和转变频率570相关的频率分辨率也不同于图9a中所示的情况。在图9b中所示的示例中，转变频率570大于图9a中帧540-1的转变频率。因此，相应地，频谱的上部590大于图9a中所示的帧540-1的频谱上部。

基于AAC ELD编解码器提供了如图9a和9b中所示的帧540的假定，帧540-2的栅格包括3个不等长封包620的事实得出以下结论：3个封包620中的第二个包括瞬变。相应地，至少相对于时间分布而言，第二帧540-2的帧栅格是要选择用于输出帧550的分辨率。

然而，如图9c所示，由于这里采用了不同的转变频率570，带来了另外的挑战。更具体地，图9c示出了一种覆盖情形，其中两个帧540-1、540-2在其频谱信息表示560方面被一起示出。通过仅考虑如图9a所示第一帧540的转变频率570-1(转变频率f_x1)和如图9b所示第二帧540-2的较高转变频率570-2(转变频率f_x2)，中间频率范围1000，对于该范围，仅有来自第一帧540-1的SBR数据和来自第二帧540-1的频谱数据610可用。换言之，对于中间频率范围1000内的频率的频谱分量，混合过程依赖于图7所示的估计器670所提供的估计的SBR值或估计的频谱数据。

在图9c所示的情形中，在频率方面由两个转变频率570-1、570-2包围的中间频率范围1000表示估计器670和处理单元520所操作的频率范围。在该频率范围1000中，SBR数据仅从第一帧540-1可用，而从第二帧540-2，在该频率范围中仅有频谱信息或频谱值可用。因此，根据中间频率范围1000的频率或频谱分量在输出转变频率以上还是以下，在将估计值与来自帧540-1、540-2之一的原始值在SBR域进行混合之前要评估SBR至或频谱值是在频谱域中。

图9d示意了输出帧的转变频率等于两个转变频率570-1、570-2中的较低者的情形。因此，输出转变频率570-3(f_xo)等于第一转变频率570-1(f_x1)，这也将编码的频谱的上部限制在上述转变频率的两倍。

通过基于先前确定的时间分辨率或其封包分布来拷贝或重新确定时间/频率栅格的频率分辨率，在中间频率范围1000(见图9c)中，通过根据第二帧540-2的频谱数据610，针对这些频率来估计对应的SBR数据，来确定输出SBR数据。

可以考虑针对第二转变频率570-2以上的频率的SBR数据，基于该频率范围内第二帧540-2的频谱数据610来执行该估计。这是基于以下假定：在时间分辨率或封包分布方面，在第二转变频率570-2周围的频率最可能受到等效的影响。因此，例如通过基于每个频谱分量的频谱信息，以SBR数据所描述的最精细的时间和频率分辨率来计算相应能量值，并通过基于第二帧540-2的SBR数据的封包所指示的幅度的时间进展来衰减或放大每一个，可以实现对中间频率范围1000中的SBR数据的估计。

此后，通过应用平滑滤波器或另一滤波步骤，将估计的能量值映射至针对输出帧550确定的时间/频率栅格的时间/频率区域630上。如图9d所示的方案可以覆盖例如对于较低比特率感兴趣。所有输入流的最低SBR转变频率将用作针对输出帧的SBR转变频率，根据频谱信息或频谱系数，针对核心编码器(操作直至转变频率)与SBR编码器(在转变频率以上操作)之间的间隙中的频率区域1000来估计SBR能量值。可以基于例如从MDCT(修正的离散余弦变换)或从LDFB(低延迟滤波器组)频谱系数可导出的多种频谱信息来执行估计。相应地，可以应用平滑滤波器以缩小核心编码器与SBR部分之间的间隙。

还应当注意，该方案还可以用于将例如包括64kbit/s的高比特率流拆剥为包括例如仅32kbit/s的较低比特流。实现这种方案可能是可取的一种情形是例如向对混合单元具有低数据率连接(例如由调制解调器拨入连接等等建立)的参与者提供比特流。

图9e中示意了不同转变频率的另一种情况。

图9e示出了将两个转变频率570-1、570-2中的较高者用作输出转变频率570-3的情况。因此，输出帧550包括直至输出转变频率的频谱信息610以及输出转变频率以上的对应SBR数据(典型地，直至转变频率570-3的两倍的频率)。然而，这种情形带来了如何在中间频率范围1000(见图9c)中重新建立频谱数据的问题。在确定时间/频率栅格的时间分辨率或封包分布之后，以及在针对输出转变频率570-3以上的频率拷贝或至少部分确定时间/频率栅格的频率分辨率之后，基于中间频率范围1000中的第一帧540-1的SBR数据，处理单元520和估计器670要估计频谱数据。这可以通过以下操作来实现：可选地考虑到尽管在第一转变频率570-1以下的一些或所有频谱信息610(见图9a)，基于针对第一帧540-1的该频率范围1000的SBR数据来部分重构频谱信息。换言之，可以通过对中间频率范围1000的频率至少部分应用SBR解码器的重构算法来对来自SBR数据的频谱信息和频谱的较低部分580的对应频谱信息进行频谱复制，可以实现对丢失的频谱信息的估计。

在通过例如应用部分SBR解码或重构至频域来估计中间频率范围的频谱信息之后，例如通过应用线性组合，可以将得到的估计频谱信息与第二帧540-2的频谱信息在频谱域中直接混合。

针对转变频率以上的频率或特殊分量的频谱信息的重构或复制也可以称为其反滤波。在该上下文中，应当注意，在针对中间频率范围1000中的频率或分量来估计相应频谱信息时，也可以考虑附加谐频和附加噪声能量值。

对于连接至具有较高比特率可用于处理的设备500或混合单元的参与者而言，这种方案可能是感兴趣的。可以对频谱域的频谱信息(例如对MDCT或LDFB频谱系数)应用修补或拷贝算法，以将其从较低频带拷贝至较高频带，从而缩小核心编码器与SBR部分之间由相应转变频率分离的间隙。根据SBR净荷中存储的能量参数对这些拷贝系数进行衰减。

在图9d和9e中描述的两种场景中，最低转变频率以下的频谱信息可以直接在频谱域中处理，而在最高转变频率以上的SBR数据可以直接在SBR域中处理。对于SBR数据所描述的、在最高频率中的最低者以上的较高频率(典型地在所涉及的转变频率的最小值的两倍以上)，根据输出帧550的转变频率，可以应用不同的方法。原则上，如图9e所示，在使用所涉及的转变频率中的最高值作为输出转变频率570-3时，针对最高频率的SBR数据主要仅基于第二帧540-2的SBR数据。作为另一选择，可以以在对针对低于该转变频率的频率的SBR能量值进行线性组合的框架中应用的归一化因子或衰减因子来衰减这些值。在如图9d中示意的情形中，当利用可用转变频率的最低值作为输出转变频率时，可以不考虑第二帧540-2的相应SBR数据。

自然，应当注意，根据本发明的实施例目前不限于仅两个输入数据流，可以容易地扩展至包括多于两个输入数据流的多个输入数据流。在这种情况下，根据考虑输入数据流而使用的实际转变频率，可以容易地将所描述的方法应用至不同的输入数据流。例如，当该输入数据流的转变频率具有该输入数据流中包括的帧是高于输出帧550的输出转变频率时，可以应用在图9d的上下文中描述的算法。相反，当对应的转变频率较低时，可以对该输入数据流应用在图9e的上下文中描述的算法和过程。SBR数据或频谱信息的实际混合在对多于两个相应数据被求和的意义上。

此外，应当注意，可以任意选择输出转变频率570-3。目前，输出转变频率570-3不需要与输入数据流的任一转变频率相同。例如，在图9d和9e的上下文中描述的情形中，转变频率也可以位于输入数据流510的两个转变频率570-1、570-2之间、之下或之上。在这种情况下，输出帧550的转变频率可以自由选择，在估计频谱数据以及SBR数据方面实现所有上述算法是可取的。

另一方面，根据本发明的一些实施例可以被实现为使得始终使用最低或始终使用最高转变频率。在这种情况下，可能不需要实现如上所述的完整功能。例如，在始终采用最低转变频率的情况下，典型地，估计器670不需要能够估计频谱信息，而仅需要估计SBR数据。因此，这里可以最终免去估计频谱数据的功能。相反，在根据本发明的实施例被实现为始终采用最高输出转变频率的情况下，可以不需要估计器670能够估计SBR数据的功能，因此该功能可省略。

根据本发明的实施例还包括多声道下混或多声道上混组件，例如在一些参与者可能发送立体声或其他多声道流而一些参与者仅发送单声道流的情况下，包括立体声下混或立体声上混组件。在这种情况下，实现在输入数据流中包括的声道数目方面对应的上混或下混是可取的。通过上混或下混来处理一些流，以提供与输入流的参数匹配的混合比特流是可取的。这可以意味着，发送单声道流的参与者也可能想要接收单声道流作为回应。因此，来自其他参与者的立体声或其他多声道音频数据可能必须被转换为单声道流，或者反之。

根据实现限制和其他边界条件，这可以例如通过实现根据本发明实施例的多个设备来实现，或者基于单一设备来处理所有输入数据流，其中，在设备进行处理之前对输入数据流进行下混或上混，并且在处理之后进行下混或上混，以匹配参与者的终端的要求。

SBR还允许两种模式的编码立体声声道。一种操作模式对左声道和右声道(LR)分别进行处理，而第二种操作模式，对耦合的声道(C)进行操作。为了混合LR编码和C编码的元素，必须将LR编码的元素映射至C元素，或者反之。对要使用哪个编码方法的实际决定可以是预设的，或者可以考虑如能量消耗、计算和复杂度等之类的条件来进行，或者可以基于分离处理的相关性方面的心理声学估计。

如以上所指出的，通过相应能量值的线性组合，可以在SBR域中实现对实际SBR能量相关数据的混合。这可以根据以下等式来实现

E (\underset{n}{}) = Σ_{R = 1}^{N} a_{k} \cdot E_{k} | n), - - - (6)

其中a_k是加权因子；E_k(n)是输入数据流k的能量值，与n指示的时间/频率栅格中的位置相对应。E(n)是与相同索引n相对应的相应SBR能量值。N是输入数据流的数目，在图9a和9e所示的示例中等于2。

系数a_k可以用于执行归一化以及加权，输出帧550的每个时间/频率区域630与相应输入帧450的对应时间/频率区域630重叠。例如，在输出帧550和相应输入帧540的两个时间/频率区域630互相重叠至50％的程度时(在输出帧550的所考虑的时间/频率区域630的50％由输入帧540的对应时间/频率区域630组成的意义上)，可以将值0.5(＝50％)乘以指示相应音频输入流和其中包括的输入帧540的相关性的总增益因子。

更一般地，每个系数a_k可以根据以下等式来定义

a_{k} = Σ_{i = 1}^{M} r_{ik} \cdot g, - - - (7)

其中，r_ik是指示输入帧540和输出帧550各自的两个时间/频率区域630i和k的重叠区域的值。M输入帧540的所有时间/频率区域630的数目；g是全局归一化因子，可以例如等于1/N，以防止混合过程的结果超出可允许值范围的上限或下限。系数r_ik可以在0和1之间的范围中，其中0指示两个时间/频率区域630完全不重叠，值1指示输入帧540的时间/频率区域630完全包括在输出帧550的相应时间/频率区域630中。

然而，还会出现输入帧540的帧栅格相等的情况。在这种情况下，可以将帧栅格从输入帧540之一拷贝到输出帧550。因此，能够非常容易地执行混合相关SBR能量值。通过添加和归一化输出值，在这种情况下能够与混合对应频谱信息(例如MDCT值)类似地添加对应的频率值。

然而，由于在频率方面，时间/频率区域630的数目可以根据相应封包的分辨率而改变，因此实现低封包至高封包和高封包至低封包的映射是可取的。

图10针对8个时间/频率区域630-1的示例示意了这一点，高封包包括16个对应的时间/频率区域630-h。如上所述，与高分辨率的封包相比，低分辨率的封包典型地仅包括一半数量的频率数据，可以如图10所示建立简单的匹配。在将低分辨率封包映射至高分辨率封包时，将低分辨率封包的每个时间/频率区域630-1映射至高分辨率封包的两个对应时间/频率区域630-h。

根据具体情况，例如，在归一化方面，可取地采用0.5的附加因子来防止超过混合SBR能量值。在以相反方式进行映射的情况下，可以通过确定算术平均值来对两个相邻时间/频率区域630-h进行平均，以获得低分辨率封包的一个时间/频率区域630-1。

换言之，在关于等式(7)的第一情形中，因子r_ik为0或1，而因子g等于0.5；在第二种情况中，因子g可以被设置为1，而因子r_ik可以是0或0.5。

然而，可能必须考虑要混合的输入数据流的数目，通过包括附加归一化因子来进一步修改因子g。为了对所有输入信号的能量值进行混合，将其相加并可选地与在频谱混合过程中应用的归一化因子相乘。在确定等式(7)中的因子g时，最终可能也必须考虑该附加归一化因子。因此，这可以最终确保基础编解码器的频谱系数的缩放因子与SBR能量值的可允许值范围相匹配。

自然，根据本发明的实施例可以具有不同的实现方式。尽管在签署实施例中，将Huffman解码和编码描述为单一熵编码方案，但是也可以使用其他熵编码方案。此外，目前不需要实现熵编码器或熵解码器。相应地，尽管先前实施例的描述主要关注ACC-ELD编解码器，但是也可以使用其他编解码器来提供输入数据流和对参与者侧的输出数据流进行解码。例如，可以采用基于例如无块长度切换的单一窗口的任何编解码器。

如图8所示的实施例的先前描述也已经示出，其中描述的模块不是强制必需的。例如，根据本发明实施例的设备可以简单地通过对帧的频谱信息进行操作来实现。

还应当注意，根据本发明的实施例可以以非常不同的方式来实现。例如，可以基于离散的电学和电子设备(如电阻器、晶体管、电感器等等)来实现用于对多个输入数据流进行混合的设备500及其处理单元520。此外，还可以仅基于集成电路，例如以SOC(SOC＝片上系统)、如CPU(CPU＝中央处理单元)、GPU(GPU＝图形处理单元)之类的处理器以及如专用集成电路(ASIC)之类的其他集成电路(IC)，来实现根据本发明的实施例。

还应当注意，在实现根据本发明实施例的设备的整个过程中，作为离散时间的一部分或作为集成电路的一部分的电学设备可以用于不同目的和不同功能。自然，还可以使用基于集成电路和离散电路的电路的组合来实现根据本发明的实施例。

基于处理器，根据本发明的实施例还可以基于计算机程序、软件程序或在处理器上执行的程序来实现。

换言之，根据本发明方法的实施例的特定实现要求，本发明方法的实施例可以以硬件或软件来实现。可以使用数字存储介质，尤其是盘、CD或DVD来执行实现，所述数字存储介质上存储有电子可读信号，与可编程计算机或处理器协作，以执行本发明方法的实施例。因此，一般地，本发明的实施例是一种计算机程序产品，具有在机器可读载体上存储的程序代码，当计算机程序产品在计算机或处理器上运行时，所述程序代码操作用于执行本发明方法的实施例。再换言之，因此，本发明方法的实施例是一种具有程序代码的计算机程序，当计算机程序在计算机或处理器上运行时，程序代码用于执行本发明方法的至少一个实施例。可以由计算机、芯片卡、智能卡、专用集成电路、片上系统(SOC)或集成电路(IC)来形成处理器。

参考标记列表

100 会议系统

110 输入

120 解码器

130 加法器

140 编码器

150 输出

160 会议终端

170 编码器

180 解码器

190 时间/频率转换器

200 量化器/编码器

210 解码器/解量化器

220 频率/时间转换器

250 数据流

260 帧

270 附加信息块

300 频率

310 频带

500 设备

510 输入数据流

520 处理单元

530 输出数据流

540 帧

550 输出帧

560 频谱信息表示

570 转变频率

580 频谱的较低部分

590 频谱的较高部分

600 线

610 频谱数据

620 封包

630 时间/频率区域

640 分解器

650 频谱混合器

660 SBR混合器

670 估计器

680 混合器

700 比特流解码器

710 比特流读取器

720 Huffman编码器

730 解量化器

740 缩放器

750 第一单元

760 第二单元

770 立体声解码器

780 PNS解码器

790 TNS解码器

800 混合单元

810 频谱混合器

820 优化模块

830 SBR混合器

850 比特流编码器

860 第三单元

870 TNS编码器

880 PNS编码器

890 立体声编码器

900 第四单元

910 缩放器

920 量化器

930 Huffman编码器

940 比特流写入器

950 心理声学模块

1000 中间频率范围

Claims

1.一种对第一输入数据流(510-1)的第一帧(540-1)和第二输入数据流(510-2)的第二帧(540-2)进行混合以获得输出数据流(530)的输出帧(550)的设备(500)，其中，第一帧(540-1)包括对第一转变频率(570)以下的第一音频信号的第一频谱的较低部分(580)进行描述的第一频谱数据和对第一转变频率(570)以上的第一频谱的较高部分(590)进行描述的第一频谱带重复SBR数据，其中，第二帧(540-2)包括对第二转变频率(570)以下的第二音频信号的第二频谱的较低部分(580)进行描述的第二频谱数据和对第二转变频率(570)以上的第二频谱的较高部分(590)进行描述的第二SBR数据，其中，第一和第二SBR数据通过时间/频率栅格分辨率中的能量相关值描述了第一和第二频谱的相应较高部分(590)，其中，第一转变频率(570)与第二转变频率(570)不同，

所述设备(500)包括：

处理单元(520)，适于产生输出帧(550)，输出帧(550)包括对输出转变频率(570)以下的输出频谱的较低部分(580)进行描述的输出频谱数据，输出帧(550)还包括通过输出时间/频率栅格分辨率中的能量相关值对输出转变频率(570)以上的输出频谱的(590)进行描述的输出SBR数据，

其中，处理单元(520)在频谱域中基于第一和第二频谱数据来产生与第一转变频率(570)、第二转变频率(570)和输出转变频率(570)中的最小值以下的频率相对应的输出频谱数据；

其中，处理单元(520)还在SBR域中基于第一和第二SBR数据来处理与第一转变频率(570)、第二转变频率(570)和输出转变频率(570)中的最大值以上的频率相对应的输出SBR数据；以及

其中，处理单元(520)还针对所述最小值和所述最大值之间的频率区域，根据第一和第二频谱数据中的至少一个来估计至少一个SBR值，并至少基于所估计的SBR值来产生输出SBR数据的相应SBR值。

2.根据权利要求1所述的设备(500)，其中，处理单元(520)基于与要估计的SBR值相对应的频率分量的对应频谱值估计所述至少一个SBR值。

3.一种对第一输入数据流(510-1)的第一帧(540-1)和第二输入数据流(510-2)的第二帧(540-2)进行混合以获得输出数据流(530)的输出帧(550)的设备(500)，其中，第一帧(540-1)包括对第一转变频率(570)以下的第一音频信号的第一频谱的较低部分(580)进行描述的第一频谱数据和对第一转变频率(570)以上的第一频谱的较高部分(590)进行描述的第一频谱带重复(SBR)数据，其中，第二帧(540-2)包括对第二转变频率(570)以下的第二音频信号的第二频谱的较低部分(580)进行描述的第二频谱数据和对第二转变频率(570)以上的第二频谱的较高部分(590)进行描述的第二SBR数据，其中，第一和第二SBR数据通过时间/频率栅格分辨率中的能量相关值描述了第一和第二频谱的相应较高部分(590)，其中，第一转变频率(570)与第二转变频率(570)不同，

所述设备(500)包括：

处理单元(520)，产生输出帧(550)，输出帧(550)包括对输出转变频率(570)以下的输出频谱的(580)进行描述的输出频谱数据，输出帧(550)还包括通过输出时间/频率栅格分辨率中的能量相关值对输出转变频率(570)以上的输出频谱的较高部分(590)进行描述的输出SBR数据，

其中，处理单元(520)还针对所述最小值和所述最大值之间的频率区域，根据第一和第二帧中的至少一个，基于相应帧的SBR数据来估计至少一个频谱值，并至少基于所估计的频谱值，通过在频谱域中处理所估计的频谱值来产生输出频谱数据的相应频谱值。

4.根据权利要求3所述的设备，其中，处理单元基于SBR数据和相应帧的相应频谱的较低部分的频谱数据来重构频谱分量的至少一个频谱值，从而估计所述至少一个频谱值。

5.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)将输出转变频率(570)确定为第一转变频率或第二转变频率。

6.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)将输出转变频率设置为第一和第二转变频率中的较低转变频率，或者将输出转变频率设置为第一和第二转变频率中的较高转变频率。

7.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)将输出时间/频率栅格分辨率确定为与第一或第二帧的时间/频率栅格分辨率所指示的瞬变的瞬变位置相一致。

8.根据权利要求7所述的设备(500)，其中，处理单元(520)在第一和第二帧的时间/频率栅格分辨率指示多于一个瞬变的存在时，将时间/频率栅格分辨率设置为与第一和第二帧的时间/频率栅格分辨率所指示的较早的瞬变相一致。

9.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)基于SBR频域或SBR域中的线性组合，输出频谱数据或输出SBR数据。

10.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)基于第一和第二帧的正弦相关SBR数据的线性组合，产生包括正弦相关SBR数据的输出SBR数据。

11.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)基于第一和第二帧的噪声相关SBR数据的线性组合，产生包括噪声相关SBR数据的输出SBR数据。

12.根据权利要求10或11中任一项所述的设备(500)，其中，处理单元(520)包括基于第一和第二帧的相应SBR数据的相关性的心理声学估计的正弦相关或噪声相关SBR数据。

13.根据之前任一权利要求所述的设备(500)，其中，处理单元(520)基于平滑滤波来产生输出SBR数据。

14.根据之前任一权利要求所述的设备(500)，其中，所述设备(500)处理多个输入数据流(510)，所述多个输入数据流包括多于两个输入数据流，其中，所述多个输入数据流包括第一和第二输入数据流(510-1、510-2)。

15.一种对第一输入数据流(510-1)的第一帧(540-1)和第二输入数据流(510-2)的第二帧(540-2)进行混合以获得输出数据流(530)的输出帧(550)的方法，其中，第一帧包括对第一转变频率(570)以下的第一音频信号的频谱的较低部分(580)进行描述的第一频谱数据和对第一转变频率以上的频谱的较高部分(590)进行描述的第一频谱带重复(SBR)数据，其中，第二帧包括对第二转变频率以下的第二音频信号的第二频谱的较低部分进行描述的第二频谱数据和对从第二转变频率以上的第二频谱的较高部分进行描述的第二SBR数据，其中，第一和第二SBR数据通过时间/频率栅格分辨率中的能量相关值描述了第一和第二频谱的相应较高部分，其中，第一转变频率与第二转变频率不同，

所述方法包括：

产生输出帧，输出帧包括对输出转变频率以下的输出频谱的较低部分进行描述的输出频谱数据，输出帧还包括通过输出时间/频率栅格分辨率中的能量相关值对输出转变频率以上的输出频谱的较高部分进行描述的输出SBR数据；

在频谱域中基于第一和第二频谱数据来产生与第一转变频率、第二转变频率和输出转变频率中的最小值以下的频率相对应的频谱数据；

在SBR域中基于第一和第二SBR数据来产生与第一转变频率、第二转变频率和输出转变频率中的最大值以上的频率相对应的输出SBR数据；以及

针对所述最小值和所述最大值之间的频率区域，根据第一和第二频谱数据中的至少一个来估计至少一个SBR值，并至少基于所估计的SBR值来产生输出SBR数据的相应SBR值；或者

针对所述最小值和所述最大值之间的频率区域，根据第一和第二帧中的至少一个，基于相应帧的SBR数据来估计至少一个频谱值，并至少基于所估计的频谱值，通过在频谱域中处理所估计的频谱值来产生输出频谱数据的频谱值。

16.一种程序，在处理器上运行时，执行根据权利要求15所述的对第一输入数据流的第一帧和第二输入数据流的第二帧的第二帧进行混合的方法。