CN102171750A

CN102171750A - 用于输送对齐的多通道音频的方法和设备

Info

Publication number: CN102171750A
Application number: CN200880131409XA
Authority: CN
Inventors: A.R.琼斯
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2008-10-06
Filing date: 2008-10-06
Publication date: 2011-08-31
Anticipated expiration: 2028-10-06
Also published as: BRPI0823209A8; ES2570967T4; ES2715750T3; EP2650877B1; EP3040986A1; EP3040986B1; RU2011118340A; US8538764B2; BRPI0823209B1; EP2340535B1; WO2010040381A1; EP2340535A1; BRPI0823209A2; US20130329892A1; EP2650877A3; HUE041788T2; US20110196688A1; EP2650877A2; CN102171750B; ES2434828T3

Abstract

提供了一种将音频编码并将所述编码音频包括到数字传输流中的方法，其包括在编码器输入接收多个时间上处于同一位置的音频信号，每单位时间将相同的时间戳指派到所述多个时间上处于同一位置的音频信号的所有信号，以及将加有相同时间戳的音频信号结合到数字传输流中。也提供了将所述编码数据解码的方法和编码设备及解码设备。

Description

用于输送对齐的多通道音频的方法和设备

技术领域

本发明一般涉及音频编码，并且具体涉及用于输送对齐的多通道（multi-channel）音频的方法和设备。

背景技术

诸如MPEG-1和MPEG-2等现代视听编码提供用于在单个传输流内传输多个音频和视频分量的方式。单独和分开的音频分量与选定视频分量是可对齐的。诸如环绕声等同步多通道音频只按照单个预混合的环绕声音频分量来提供，例如，单个Dolby 5.1音频分量。然而，当前未提供用于以同步形式来传输个体化多通道音频分量的方式。

具体而言，MPEG-1和MPEG-2音频规范（分别为ISO/IEC 11172-3和ISO/IEC 13818-3）描述将数字音频信号编码和封包的方式。这些方式包括指定用于支持使用单个MPEG-2传输流分量的各种形式的多通道声音的方案。这些规定向后兼容以前的MPEG-1音频系统。在现有技术中，只有通过将几个音频通道汇集到此类单个传输分量中，才可能确保通道的所要求的同步。这些方案均要求：

[a] 使用环绕声压缩方法（例如，Dolby 5.1）或者

[b] 使用专有压缩技术，或者

[c] 使用未压缩音频。

使用环绕声压缩方法通过利用几个通道之间存在的冗余，并且还利用使声音的某些空间特性变得不可检测并因此在处理中可掩蔽的人耳听觉系统的特征，降低了多通道所要求的比特率。这些复杂的方案提供了处理其中预期只有一个编码和解码操作的单编码级的适当方式，但对于传送网络中可能需要重新编码几次的信号，出于可行和操作原因（例如，源从远程位置馈送到中央编辑设施），它们不是理想的选择。这是由于依次进行的多次编码操作产生的级联问题恶化了音频质量。尤其在容量受限的情况下是这样，造成比特率大幅降低，留下很少的余量（headroom）来处理级联编码和传送中的此类恶化。

使用专有压缩技术一般要求使用另外的外部专用设备，导致更大的费用和操作复杂度。此方法也可能遭受多于一个编码/解码级的级联产生的相同质量恶化。

然而，如果音频以未压缩格式发送（例如，未压缩线性PCM样本），则要求的数据率是极高的数据率（例如，每双通道对大约3Mbit/s）。

虽然在向消费者提供最终的视听媒体时以上所述一般不是问题，但它确实提出了视听媒体制作行业的问题，因为该行业越来越多地利用无处不在的现代高速数据网络在制作设施之间即时发送压缩格式中的“原始”视听媒体（即，用于制作电视、电影和其它媒体的源材料），或者实际上从制作设施发送出去到电视或音频网络分发点，例如地面传送器、卫星上行链路或有线头端。

例如，位置摄制组一般将视听材料馈送到电视演播室，以便编辑和分发到下属电视台，并最终广播到观看者。上述视听编码标准不允许无预混合地发送同步多通道音频，因此，增加了其现场设备的复杂性，或者阻止它们提供多通道音频。

存在一个特别的需要是能够传送具有对准确的通道到通道对齐的要求的多通道音频，使得在多通道的时间对齐是重要的情况下音频信号随后能够编码为环绕声音频，该编码使用上述MPEG标准，因为大多数制作设备已经设置为与这些标准一起使用。

相应地，本发明提议了方法和设备，这些提议的方法和设备在保持通道间准确的时间对齐和声音质量的同时，提供了用于输送多通道音频的具成本效益且方便的机制。

发明内容

本发明的实施例提供一种将音频编码并将所述编码音频包括到数字传输流中的方法，其包括在编码器输入接收多个时间上处于同一位置的音频信号，每单位时间将相同的时间戳指派到所述多个时间上处于同一位置的音频信号的所有信号，以及将加有相同时间戳的音频信号结合到数字传输流中。

可选的是，接收的步骤还包括对时间上处于同一位置的音频信号采样以形成预定大小的音频数据的帧，以及对齐音频数据的所述帧以保持音频信号在时间上处于同一位置，并且其中指派相同时间戳的步骤在音频数据的对齐帧上执行。

可选的是，该方法还包括在指派时间戳之前通过相同的音频编码器配置设置来压缩音频数据的对齐帧，以及将压缩的和加有相同时间戳的音频数据分配到传输流的多个单通道。

可选的是，多个单通道包括一个或多个常规的双单（dual mono）音频分量。

可选的是，预定大小是MPEG标准中访问单元（Access Unit）的大小，并且视频传输流是MPEG-1或MPEG-2传输流。

可选的是，时间戳是呈现时间戳。

可选的是，前面权利要求的任一项的方法中，将音频结合到数字视频流中的步骤包括将压缩的且加有相同时间戳的音频数据复用到传输流中。

本发明的实施例还提供一种将包括根据任何上述编码方法编码的音频的数字传输流解码的方法，其包括接收多个加有相同时间戳的音频信号，表示多个时间上处于同一位置的各个音频通道，检测时间戳以确定共享的时间戳，以及根据检测的时间戳，将多个时间上处于同一位置的各个音频通道作为多个通道输出。

可选的是，多个加有相同时间戳的音频信号已被采样和对齐以形成音频数据的对齐帧，以及其中相同时间戳已被应用到音频数据的对齐帧。

可选的是，音频数据的对齐帧在时间戳的指派前已被压缩，并且该方法还包括将音频数据的所述帧解压缩以产生用于输出的各个音频信号。

可选的是，输出多个时间上处于同一位置的各个音频通道的步骤包括使用时间上处于同一位置的音频信号的仅一个音频信号的时间戳来呈现音频。

可选的是，数字传输流是数字视频传输流，并且音频数据的对齐帧包括PES分组。

本发明的实施例还提供一种适合于执行任何上述编码方法的编码设备。

本发明的实施例还提供一种适合于执行任何上述解码方法的解码设备。

本发明的实施例还提供一种数字传输系统，该系统包括至少一个所述编码设备、至少一个所述解码设备及在其之间的通信链路。

本发明的实施例还提供一种携带指令的计算机可读媒体，所述指令在执行时促使计算机逻辑执行任何所述编码、解码或两种方法。

本发明的实施例还提供一种用于编码音频并从多个时间上处于同一位置的音频通道产生传输流的编码设备，该编码设备包括：用于根据预定压缩来编码音频的至少一个编码器；每编码器一个封包功能，用于将编码的音频封包到音频的预定部分中；汇集功能，适合于提供相同时间戳到封包功能以便包括在音频数据的多个预定部分中，使得编码的音频指示音频通道在时间上处于同一位置；以及用于一起复用至少一个编码器和封包功能对的输出的复用器。

附图说明

现在将只通过示例，参照附图来描述用于输送对齐的多通道音频的方法和设备，其中：

图1示出根据现有技术的模拟或数字单编码设备的一部分的示意框图；

图2示出根据现有技术的模拟或数字单解码设备的一部分的示意框图；

图3示出根据现有技术的模拟或数字立体声或双单编码设备的一部分的示意框图；

图4示出根据现有技术的模拟或数字立体声或双单解码设备的一部分的示意框图；

图5示出根据本发明一实施例的用于输送对齐的多通道音频的方法的编码部分的流程图；

图6示出根据本发明一实施例的用于输送对齐的多通道音频的方法的解码部分的流程图；

图7示出根据本发明一实施例的多通道模拟或数字编码设备的一部分的示意框图；

图8示出根据本发明一实施例的多通道模拟或数字解码设备的一部分的示意框图。

具体实施方式

现在将参照附图描述本发明的一实施例，附图中为相同或类似的部分或步骤提供了相同或类似的引用数字。

下述内容将基于MPEG-2标准。然而，将明白，基础发明同样适用于支持双单编码的其它压缩音频标准，如高级音频编码(AAC)或Dolby数字（Dolby Digital）。

MPEG-1和MPEG-2音频规范描述编码和封包数字音频信号的方式。处理的音频信号传递到MPEG系统层(ISO/IEC 13818-1)以便进一步封包到传输流(TS)中，然后通过诸如电信或广播系统等通信网络来传送。这些MPEG封包规则定义对比特流给出结构的语法。具体而言，比特流包含时间戳，时间戳由解码器用于控制解码和恢复的输出音频的时序。这些时间戳用于对音频和视频分量准确定时序。

MPEG标准定义两种类型的时间戳 - 定义接收的编码数据要何时向解码器呈现的解码器时间戳(DTS)和定义解码的音频或视频何时要由系统输出以便分别听到或看到的呈现时间戳(PTS)。最常使用的是后一类型的时间戳。

通过如下面更详细描述的来管理这些时间戳，根据本发明的一实施列的视听传送系统能够适当地同时呈现用于编码或解码的多通道集合的几个单独音频信号，由此实现多通道集合之间要求的同步。

图1示出根据现有技术的模拟或数字单编码设备的一部分的示意框图，它示出通过例如诸如MPEG-2的编码过程的音频数据的系统流程。解码过程是其的逆过程，并且在图2中示出。

图中的所有示例示出双模拟110和数字105输入，模拟输入在输入编码器130前通过模数(A/D)转换器120以进行数字化。数字音频105直接输入编码器130。各个通道由标签a-d表示。然而，将明白，本发明不限于任何设置数量的通道，并且完全可伸缩，以及音频输入可以是仅模拟格式、仅数字格式或如所示的双格式。

在输入是在模拟形式中的情况下，在模拟声音输入编码器130之前，例如以线性脉冲码调制(PCM)的形式对它进行数字采样，其中它被转换成比特减少的形式。

编码器130将多个编码的数字比特流（每个单独的音频通道一个比特流）输出到封包功能140，封包功能140将音频封包到音频样本中。音频样本的定义组按照称为访问单元的比特块在编码的域中汇集和关联。每个访问单元是音频的封好包的部分，例如，1152个音频样本的帧。

随后，通过复用器150将各个封包的通道复用在一起以形成传输流160。

解码设备在图2中示出，并且基本是逆过程。传输流160由解复用器250进行解复用，解复用器250提供封包的各个音频通道以便由解包功能240解包，之后在解码级235中解码并且作为直接数字流105输出，或者经数模转换器220输出成模拟形式110。

图3和4示出用于双单或同步立体声情况的编码和解码设备。多个立体声或双单对可添加到系统，但这些对将不会锁定在一起，因为MPEG规范未对其做明确规定（不同于遇到背景技术部分中所述问题的环绕声选项），并且因此它们保持为带有分开时间戳的分开实体，每个在解码器的输出单独重新构建。

例如不同语言声轨等多个独立音频通道可存在以便包括任何给定传输流，每一个单独编码。

根据系统操作员选择的用于每个通道的比特率分配和质量准则、要求的通道数量，在输入音频组与其编码的对应物之间存在多个不同关联。普通操作模式是这些音频通道独立编码，并且不存在特殊要求将它们锁定在一起。

这些通道中的一些可与伴随的视频信号相关联（即，在音频是视频或电视声音的情况下），并且系统将使用对视频和音频流共同的时间戳，使这些信号与其相应视频适当对齐。音频对齐在此情况下不是很精确 - 它只需要确保满足唇同步要求。此级别的对齐不如多通道环绕声所需的那么精确。

因此，通常每个独立的单声道音频信号、双单声道或立体声对（参见图3）在复用的输出流内具有单独的身份（即，基本流），并且因此每个具有其自己的在封包阶段期间由编码设备独立生成的时间戳，并且在解码器单独使用。

在简要概述中，对上述现有技术的缺点的提议解决方案是通过利用为这些情况提供的时序控制并将它们扩展到多通道情况的时序控制，适应用于标准单声道或双通道立体声通道的普通MPEG-2传送格式。因此，根据本发明的实施例的解码器能够呈现精确对齐的多个音频通道，并且这因而解决了同步问题，以及避免了编码系统的级联和伴随的质量恶化。

该解决方案与现有MPEG-2语法完全兼容，并且因此普通相容的解码器将能够在常规时间关系中呈现多通道音频，以及该方法能实现其在级联系统中的重复，而不担心质量恶化，即使没有与根据本发明的一实施例的解码器相同程度的对齐精度。

更详细地说，在提议的多通道同步方法中，要求在单独和同步方式中处理的几个输入音频信号通过相同的时序控制来处理，使得在传送语法中分配相同时间戳，以便解码器将也保持对齐。

图5示出根据本发明一实施例的编码方法500的一部分。

在步骤510，要同步并通过单个传输流传输而不转换成单个分量的预定数量(N)的独立音频通道被输入编码设备。编码设备每单位时间形成K个对齐的音频样本，从每个输入音频通道取一个样本，其中，样本对应于相同的时刻。

编码设备每单位时间形成K个对齐音频样本的N/2个帧（步骤520），其中，每个帧对应于相同的起始时间，但对于各个音频通道，已准备好使用在步骤530选择的压缩方法进行压缩以形成访问单元，一般为每对音频通道使用双单音频压缩。

随后，在步骤540，为音频样本的压缩帧（即访问单元）指派相同的时间戳，一般以报头字段的形式。

在步骤550，音频样本的加有时间戳的压缩帧被封装（即，封包）成PES分组，其包含例如MPEG-2标准的使用中的相应标准的双单对。剩余的编码过程与正常情况下相同，即，封包的音频与任何有关视频（如果适用）和其它通道一起被传输封包和复用到输出传输流160中。

图6示出根据本发明一实施例的逆解码过程。

具体而言，解码方法包括接收N/2对单音频通道610，检测时间戳620，确定哪些对共享时间戳630，将那些对解压缩成与相同呈现时间有关的单音频样本的N个访问单元640，以及随后输出解压缩的音频以根据单个共同时间戳，精确地同时呈现N个样本650。

将明白，对齐、压缩和时间戳供应可通过编码设备的单个硬件组件来完成，并且逆过程可由解码设备的单个硬件组件来完成。

根据本发明一实施例的用于执行上述编码方法的编码设备在图7中示出，其中，能够看到，存在处理的附加级（即，多通道成帧级770），提供其以对齐几个音频信号以及安排和提供用于在封包级140在单独但同步的音频通道之间使用共同时间戳。

所述方法和设备优选地通过使用双单通道携带单独但同步的音频通道来操作。因此，图7的编码设备700（及图8的其对应解码设备800）示出为每对音频通道具有单独的编码器/解码器和封包/解包。

图7示出具有要一起同步的四个单独音频通道的一示例，带有双（模拟/数字）输入能力。模拟通道经过A/D 120(a-d)以便在提供到成帧级770前数字化。数字输入直接被馈送到成帧级770中。

成帧级770从所有音频通道创建时间上处于同一位置的音频样本的块，并标记它们以便与用于所有其它时间上处于同一位置的音频样本的相同时间戳一起处理。这一般采用时间戳同步信号780的形式，其传递到处理管线（pipeline）更下方的封包级140。

同时，音频样本作为如在成帧级770中形成的双单采样对的共同定时的（co-timed）帧，提供到标准编码级730，标准编码级730又将编码的音频样本提供到封包级140，在该级中，根据成帧级770提供的时间戳同步信号780将它们封包。

一优选实施例将使用访问单元大小的样本块和相关联的呈现时间戳(PTS)，访问单元属于使用单个数字信号处理器压缩的多通道对，产生带有相同PTS值的PES分组的集合，包含与音频数据精确共同定时的原样本有关的压缩音频。

在有奇数个输入通道并且双单通道正在用作传输机制的情况下，则可简单地为双单通道之一填充静音。

随后，每个双单链（编码器和封包功能对）的输出由复用器150以普通方式复用在一起，以提供输出传输流160。

图8中示出根据本发明一实施例的解码设备800。

解码操作将与多个双单音频分量有关的音频的离散访问单元解压缩，保持其呈现时间戳835。随后，根据它们之间共享的共同时间戳，在相同时间由帧呈现级870呈现解码的样本的帧。因此，与精确共同定时的样本时间有关的多个样本对在一起呈现，因而实现了通过整个编码/解码处理链、跨多个通道对保持精确的通道到通道音频对齐的目标。

因此，用于同步音频的几个通道的完整方案在编码设备使用以下特征：

∙ 跨多个音频通道的输入处时间上处于同一位置的样本被形成音频样本的对齐的帧以匹配压缩的访问单元大小；

∙ 对齐的音频帧通过相同的音频编码器配置进行压缩，优选的是分配两个单声道通道（作为一对）到每个压缩的音频分量。然而，也可使用立体声通道或各个单通道，以及或转而使用双单对；

∙ 压缩的访问单元优选地指派有相同的呈现时间戳值或带有预定时间延迟的解码器时间戳(DTS)；

∙ 压缩的音频分量作为MPEG-2传输流中多个常规双通道单压缩的音频分量来传送。

在解码设备（即，接收位置）：

∙ 多个压缩的音频分量被解码，结果是对于相应流中的任何给定点，音频样本的解压缩帧的多个集合（即，解码的通道）跨通道具有相同的时间戳；

∙ 通过使用仅一个分量的呈现时间戳，向输出呈现用于多个通道的解压缩的音频帧，使得输出音频样本在时间上处于同一位置（或在DTS后预定的时间时期）。

上述方法和设备提供了由其可通过通信系统来传送音频的几个通道、使得它们始终相互保持同步到样本准确度的方式。实现此同步的以前方式受限于立体声对和级联编码的多级时导致质量恶化的环绕声编码。所述方法和设备避免了现有技术系统的质量恶化，并且无需更复杂且有时专有的环绕声解决方案。

因此，本发明的实施例提供了用于“原始”多通道音频（即，尚未混合到环绕声形式中）和与它相关的视频跨相同的传输流来发送的方式，由此降低由于其它以前已知音频传输方法有关的级联或其它问题所造成的声音质量的恶化。这也避免了需要在传送前使用有损环绕声处理或使用极高带宽未压缩的线性PCM。

本发明特别适合利用多通道音频而不将它转换成单个分量（例如，5.1环绕声）的广播质量视频传送。然而，将明白，本发明的实施例可同样适用于仅音频传输流，如用于输送多通道无线电声音或诸如此类的那些流。

在发送压缩音频以便在另一位置处理成环绕声的系统中，本发明特别有益。这是因为在环绕混合中使用此类压缩的源时，压缩的音频样本的不对齐可造成压缩的假象（artefact），这又可造成最终环绕音频混合中不合需要的音频损害。

典型的实现将包括在通信链路的一端根据本发明的一实施例的编码设备和在另一端根据本发明的一实施例的解码设备。如果要求，此类系统对可跨多个通信链路重复。

上述方法可由任何适当适应或设计的硬件来执行。方法的部分也可在计算机可读媒体中存储的指令集中实施，指令集在载入计算机、数字信号处理器(DSP)或类似装置时，促使该计算机执行上述方法。

同样地，所述方法可实施为特殊编程的或硬件设计的集成电路，该电路操作以在加载到所述集成电路中的音频数据上执行所述方法。集成电路可形成为诸如PC及诸如此类的通用计算装置的部分，或者它可形成为诸如游戏控制台、移动电话、便携式计算机装置或硬件音频/视频编码器/解码器等更专门化的装置的部分。

一个示范硬件实施例是编程为执行所述方法和/或提供所述设备的现场可编程门阵列(FPGA)的实施例，FPGA位于数据中心中容纳的机架安装的视频服务器的子板上以便例如在IPTV电视系统和/或电视演播室或支持现场新闻小组的位置视频上行链路车（uplink van）中使用。

本发明的另一示范硬件实施例是包括传送器和接收器对的音频和视频发送器的实施例，其中，传送器包括编码设备，并且接收器包括解码设备，其中每个编码设备实施为专用集成电路(ASIC)。

本领域技术人员将明白，本文所述方法中执行的步骤的精确顺序和内容可根据如编码的速度及诸如此类的执行参数的特定集合的要求而改变。此外，将明白，公开的设备的不同实施例可根据本发明整体的特定实现的要求，选择性地以不同组合实现本发明的某些特征。相应地，不得将权利要求编号视为对在权利要求项之间移动特征的能力的严格限制，并且因此可自由利用从属权利要求的部分。

Claims

1. 一种编码音频并将所述编码的音频包括到数字传输流中的方法，包括：

在编码器输入接收多个时间上处于同一位置的音频信号；

每单位时间将相同时间戳指派到所述多个时间上处于同一位置的音频信号的所有音频信号；以及

将加有相同时间戳的音频信号结合到所述数字传输流中。

2. 如权利要求1所述的方法，其中接收的步骤还包括：

对所述时间上处于同一位置的音频信号采样以形成预定大小的音频数据的帧；以及

对齐音频数据的所述帧以保持所述音频信号在所述时间上处于同一位置；

以及其中指派相同时间戳的步骤在音频数据的对齐帧上执行。

3. 如权利要求2所述的方法，还包括：

在指派所述时间戳之前通过相同音频编码器配置设置来压缩音频数据的对齐帧；以及

将所压缩的并加有相同时间戳的音频数据分配到传输流的多个单通道。

4. 如权利要求3所述的方法，其中所述多个单通道包括一个或多个常规双单音频分量。

5. 如权利要求2到4的任一项所述的方法，其中所述预定大小是MPEG标准中访问单元的大小，并且所述视频传输流是MPEG-1或MPEG-2传输流。

6. 如前面权利要求任一项所述的方法，其中所述时间戳是呈现时间戳。

7. 如前面权利要求任一项所述的方法，其中将所述音频结合到数字视频流中的步骤包括：

将所压缩的并加有相同时间戳的音频数据复用到传输流中。

8. 一种解码包括根据权利要求1到7的任一项来编码的音频的数字传输流的方法，包括：

接收多个加有相同时间戳的音频信号；

表示多个时间上处于同一位置的各个音频通道；

检测所述时间戳以确定共享的时间戳；以及

根据所检测的时间戳，将所述多个时间上处于同一位置的各个音频通道作为多个通道输出。

9. 如权利要求8所述的方法，其中所述多个加有相同时间戳的音频信号已被采样和对齐以形成音频数据的对齐帧，以及其中所述相同时间戳已被应用到音频数据的所述对齐帧。

10. 如权利要求9所述的方法，其中音频数据的所述对齐帧在所述时间戳的指派前已被压缩，并且所述方法还包括：

将音频数据的所述帧解压缩以产生用于输出的各个音频信号。

11. 如权利要求8到10的任一项所述的方法，其中输出所述多个时间上处于同一位置的各个音频通道的步骤包括使用所述时间上处于同一位置的音频信号中的仅一个音频信号的时间戳来呈现所述音频。

12. 如前面权利要求任一项所述的方法，其中所述数字传输流是数字视频传输流，并且音频数据的所述对齐帧包括PES分组。

13. 一种编码设备，适合于执行方法权利要求1到7的任一项。

14. 一种解编设备，适合于执行方法权利要求8到12的任一项。

15. 一种数字传输系统，包括：

至少一个如权利要求13所述的编码设备；

至少一个如权利要求14所述的解码设备；以及

在其之间的通信链路。

16. 一种携带指令的计算机可读媒体，所述指令在执行时促使计算机逻辑执行方法权利要求1到12的任一项。