CN109935236A

CN109935236A - 音频编码器和解码器

Info

Publication number: CN109935236A
Application number: CN201910200906.0A
Authority: CN
Inventors: H·普恩哈根; K·克约尔林; A·格罗舍尔; J·波普; K·J·罗德恩
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2013-04-05
Filing date: 2014-04-04
Publication date: 2019-06-25
Anticipated expiration: 2034-04-04
Also published as: US20210375304A1; US11037582B2; HK1221327A1; EP2981962A1; CN109935235A; EP2981962B1; CN105074821A; CN109935236B; US20160055864A1; TW201506910A; CN109935235B; US11676622B2; TWI557727B; JP6190942B2; CN105074821B; JP2016515722A; US9911434B2; WO2014161990A1; US20230274755A1; US20180247660A1

Abstract

本公开涉及音频编码器和解码器。音频处理系统(100)接受具有多个预定义音频帧率中的一个的音频比特流。该系统包括前端组件(110)，该前端组件(110)接收与预定义音频帧率中的任一个中的一个音频帧对应的可变数量的量化谱分量，并且根据预定的频率相关量化水平执行逆量化。该前端组件可以不知道音频帧率。该音频处理系统还包括频域处理级(120)和采样率转换器(130)，其提供在与音频帧率无关的目标采样频率下采样的重构音频信号。通过其帧率适应性，该系统可被配置为与接受多个视频帧率的视频处理系统并行地、帧同步地操作。

Description

音频编码器和解码器

本申请是申请号为201480019917.4、申请日为2014年4月4日、发明名称为“音频编码器和解码器”的发明专利申请的分案申请。

相关申请的交叉引用

本申请要求在2013年4月5日提交的美国临时专利申请No.61/808,701的优先权，该申请的全部内容特此通过引用并入。

技术领域

本文所公开的发明一般涉及视听媒体分发。特别地，它涉及适于接受多个音频帧长度并因此适合形成处理帧同步视听媒体格式的媒体解码器的一部分的音频解码器。

背景技术

在当前可用的大多数商业应用中使用的音频和视频帧率(或帧频率)遵循单独建立的工业标准以及用于在通信方之间传输音频和视频的协定格式，这些标准在记录和回放软件产品、硬件组件两者中显示自己。音频帧率一般是特定于不同编码算法的，并且与诸如44.1和48kHz的音频采样频率相关联，这些采样频率在它们各自的地理区域中与视频帧率29.97fps(NTSC)和25fps(PAL)一样出名；另外的标准视频帧率包括23.98、24和30fps或者更一般的形式24、25、30fps和(24，25，30)×1000/1001fps。尝试统一或协调音频帧率还没有成功，尽管有从模拟到数字分发的转变，这意味着音频帧(例如，适合在网络上传输的包(packet)或编码单元)一般不与整数数量的视频帧对应。

作为时钟漂移的结果，或者当从不同的源接收数个流以用于服务器中的共同处理、编辑或拼接时(这是在广播站中频繁遇到的情况)，对于同步视听数据流的要求不断出现。在图3所示的情况下，音频帧(流S1中的A11、A12、…和流S2中的A21、A22、…)和视频帧(流S1中的V11、V12、…和流S2中的V21、V22、…)不匹配，通过复制或抛弃流中的一个中的视频帧(在例如拼接流的尝试中)来改善流之间的视频对视频同步性的尝试一般导致该流内的音频对视频异步性。一般地，即使对应的音频帧被删除或复制－异步性也持续－至少在某种程度上。

以更多的处理为代价，可通过在同步期间将音频暂时解码为与分成帧无关的低级格式(例如以原始采样频率分辨的脉冲编码调制(PCM)或基带格式)，创建更大的操纵空间。然而，这样的解码使元数据到特定的音频段的精确锚定模糊，并且产生不能通过解码成“完美”的中间格式来补救的信息损失。作为一个示例，动态范围控制(DRC)一般是模式相关的和设备相关的，并且因此可仅在实际回放的时候被消耗；在整个音频包上管控DRC的特性的数据结构难以在同步已发生之后如实地恢复。由此，这种类型的经过连续解码、同步和编码阶段的保留(preserve)元数据的任务不是简单的任务，如果经受复杂性约束的话。

关于被设计为携载双声道PCM信号并因此能够仅以编码形式处理多声道内容的遗留基础设施，可能出现甚至更严重的困难。

在给定帧中的数据精确地与记录和编码视听信号中的同一时间段对应的意义上，帧同步地编码音频和视频数据必定更方便。这在视听流的逐帧操纵(即，流中的一个或多个整个独立编码单元的复制或抛弃)下保留音频对视频同步性。在Dolby E^TM音频格式中可用的帧长度匹配视频帧长度。在448kbps的典型比特率的情况下，该格式被设计主要用于专业制作(其中像数字视频盒一样的硬媒介作为其优选的存储模态)的目的。

存在作为帧同步视听格式(或格式族)的一部分、适合分发目的的替代性音频格式以及适合与其一起使用的编码和解码设备的需要。

附图说明

以下，将参照附图更详细地描述示例实施例，其中，

图1示出根据示例实施例的音频处理系统的结构以及系统中的组件的内部工作；

图2示出媒体分发系统；

图3示出根据现有技术的具有独立的帧长度的两个多媒体流，每个多媒体流包括音频比特流和相关联的视频帧的流；

图4示出根据示例实施例的具有协同(coordinate)的帧长度的两个多媒体流，每个多媒体流包括音频比特流和相关联的视频帧的流；

图5示出根据示例实施例的编码器系统的结构。

所有的附图是示意性的，并且为了阐明本发明，一般仅示出必要的部分，而其它的部分可被省略或者仅仅被建议。除非另外指示，否则，相似的附图标记在不同的附图中指的是相似的部分。

具体实施方式

I.概要

音频处理系统接受被分割成携载音频数据的帧的音频比特流。该音频数据可通过采样声波并将由此获得的电子时间采样变换成谱系数来准备，该谱系数然后以适合传输或存储的格式被量化和编码。该音频处理系统适于以单声道、立体声或多声道格式重构采样的声波。在作为用于重构音频数据表示的声波的附加时间间隔的基础是充分的意义上，帧中的音频数据可以是自含(self-contained)的；由于重叠变换等，重构可以需要或者可以不需要前面的音频数据的知识。

该音频处理系统至少包括前端组件、处理级和用于提供期望的目标采样频率下的处理的音频信号的时域表示的采样率转换器。强调的是，目标采样频率是预定义的量，其可由用户或系统设计者配置，而与传入的音频比特流的属性(例如，音频帧率)无关。作为一种选择，目标采样频率可以是音频帧率的函数。作为另一种选择，目标采样频率可以是相对于音频帧率非适应性的和/或恒定的。

在前端组件中，去量化级从音频比特流接收若干个量化谱系数(其中，数量与一个音频帧对应)、联合处理该系数以产生用于控制帧中的音频数据的逆量化的信息并执行逆量化。在前端组件中的去量化级的下游，逆变换级取得输出－构成中间信号的第一频域表示的谱系数－并且合成中间信号的时域表示。该前端组件然后从音频比特流接收并处理相等数量的随后的量化谱系数(但是，可在数个变换上分布)并且继续处理这些系数。该去量化级被配置为通过将音频数据解码成预定的量化水平(或重构水平、或重构点)来产生谱系数。量化水平由编码器基于心理声学考虑(例如，以对于给定频率(或频带)的量化噪声不超过掩蔽阈值(masking threshold)的方式)来选择。由于掩蔽阈值是频率相关的，因此，从经济的观点看，优选使编码器选择相对于频率非均匀的量化水平。作为结果，量化和去量化一般以心中特定的物理采样频率发生，在该特定的物理采样频率下，最佳输出被产生。

该音频处理系统中的处理级可适于执行频域中的处理。出于这种目的，处理级包括用于提供中间信号的频域表示的初始分析滤波器组和后跟(followed by)用于将处理的音频信号变换回时域的合成滤波器组的一个或多个处理组件。

在示例实施例中，该音频处理系统被配置为接受具有至少两个不同的预定义音频帧率中的任一个的音频比特流。这允许音频处理系统在音频比特流(该音频比特流在每个视频帧与持续时间与一个或多个视频帧、优选一个或多个全视频帧的持续时间相等的、携载音频数据的音频帧时间相关的意义上与视频帧的流相关联)上操作，使得两个或更多个不同的视频帧率可以在音频处理系统中匹配，而不牺牲音频对视频同步性。如本文中所使用的，视频帧的“持续时间”(以秒计算)可被理解为视频帧率的倒数。类似地，音频帧的持续时间(以秒计算)可被定义为音频帧率的倒数。帧中的视频数据可源自在相关的音频数据被采样的间隔的初始、中间或最终时刻处的采样；可替代地，视频数据在至少部分地与音频采样间隔重叠的扩展间隔(例如，通过滚动帘(rolling-shutter)处理)上被采样。前端组件具有可变的最大帧长度(其被测量为采样的数量)，并且可在与所述预定义的音频帧率对应的至少两个模式中操作。

该音频处理系统实现了期望的帧率适应性，原因是它能够对于相对较低的音频帧率选择相对较大的帧长度(或者，考虑可能的再分(subdivide)，为最大帧长度，参见以下)，反之亦然。在临界采样系统中，物理采样频率对应于音频帧的物理持续时间与其中包含的谱系数的数量的比。去量化级和逆变换级不需要知晓帧中的系数的物理持续时间，只要该系数属于相同的帧。由于得到的内部采样频率(以物理单位)的变化可保持在边界内－或者甚至近似恒定－通过改变前端组件中的帧长度，在最终的采样率转换中使用的再采样因子将接近1，并且内部采样频率的非恒定性一般将不导致音频的任何可感知的劣化。换句话说，产生为在与目标采样频率轻微不同的采样频率下最佳的前端级的输出的轻微上采样或下采样将在心理声学上不显著。并且，处理级中的分析和合成滤波器组不需要是可适应的(例如，以响应音频处理系统所接收的音频比特流中的音频帧率的变化)，但可具有固定数量的频带。

具有以上概述的特性的音频处理系统适于响应于前面提到的对于帧同步音频分发格式的需要而处理音频格式。举例来说，传输立体声信号或其它双声道音频信号所需要的比特率可小于200kpbs，诸如小于100kpbs。

在示例实施例中，对于预定义的音频帧率中的两个或更多个使用其中前端组件可操作的模式中的一个。例如，彼此相差最多5％的音频帧率(或者换句话说，与设计帧率相差最多2.5％的音频帧率)将不与物理采样频率的非常大的变化对应。因此，针对有效地使所有的频带偏移多达例如5％的采样率转换，由前端组件产生的输出，可能源自编码器的策略比特分配以适宜于特定的采样频率的谱系数将是鲁棒的。

描述这一点的另一种方式是，前端组件、特别是去量化级在它应用比特流中的从编码器侧接收的指令时，将适于产生对于特定的物理采样频率的最佳音频输出。发明人已意识到，只要偏差有限，前端组件的预期物理采样频率与其下游的任何组件所调谐到的物理采样频率之间的某些量的不匹配就是能容忍的。

适应性地改变帧长度(或者变换窗长度、或者块大小)在音频编码中是常用做法，其中，一般相对较大的帧长度被用于具有平稳特性的音频信号，对于这些音频信号，喜欢高频率分辨率胜于时间分辨率，并且对于瞬态使用相对较小的帧长度。在示例实施例中，除了预定义的最大帧长度以外，前端组件还在作为最大帧长度的一小部分的替代性帧长度下可操作。例如，替代性帧长度可包括最大长度的帧中的采样的数量的1/2、1/3、1/4、1/6、1/8、1/16。

在示例实施例中，以上描述的音频处理系统与视频处理系统组合成接受帧同步多媒体比特流并输出处理的视频帧的多媒体处理系统。该多媒体比特流可包括音频比特流和视频帧的流，该视频帧的流在每个视频帧与音频比特流中的帧时间相关的意义上与音频比特流时间相关联。音频和视频帧之间的时间关系可以是一对一、一对多或多对一。这允许多媒体处理系统以帧同步的方式(即不干扰多媒体流中的音频对视频同步性)执行音频和视频帧的同时复制或删除。如已经提到的，这有利于诸如两个多媒体流的拼接的操作。如果帧同步格式的两个多媒体流要被拼接，那么使用帧边界作为拼接点总是安全的。多媒体处理系统可从例如实时记录点、无线电或网络接收器或存储介质的不同源接受两个或更多个多媒体流，这仍然在本发明的范围内。

在示例实施例中，音频处理方法输入与视频帧的流相关联的音频比特流(其中音频比特流被分割成帧，并且每个视频帧与与一个或多个视频帧相等的持续时间的、携载相关联的音频数据的音频比特流中的帧时间相关)，并且输出重构的音频信号。该方法包括：

●确立音频比特流的当前帧率；

●重复接收与音频比特流中的一个音频帧对应的量化谱系数并且执行后跟频率到时间变换的逆量化，由此获得中间音频信号的表示；

●对中间音频信号在频域中执行至少一个处理步骤；以及

●将处理的音频信号的采样率变为目标采样频率，由此获得重构的音频信号的时域表示。

在本示例实施例中，在在至少两种模式(每个模式具有不同的最大帧长度)中可操作的诸如软件模块的功能组件或者去量化和合成电路中的组件中执行第二步骤(逆量化和频率到时间变换)。操作功能组件的模式响应于音频比特流的当前帧率而被选择，其中，两个不同的帧率值引发功能组件的不同操作模式。

具有以上特性的音频处理方法可适应各种音频帧率。不必在前面提到的相同的功能组件中、也不必响应于音频帧率变化而在功能组件中执行逆量化；实际上，逆量化可在功能组件中执行，该功能组件在它不特别适应音频帧率变化的意义上为静态(或单个模式)类型。

在示例实施例中，提供包括具有用于执行以上的音频处理方法的指令的计算机可读暂时性或非暂时性介质的计算机程序产品。

在第二方面中，本发明提供处理具有数个容许帧率中的一个的音频比特流的问题的替代性解决方案。在示例实施例中，音频处理系统被配置为接受与视频帧的流相关联的音频比特流，该音频比特流被分割成帧，其中，每个视频帧与与一个或多个视频帧相等的持续时间的、携载相关联的音频数据的音频比特流中的帧时间相关。该音频处理系统包括：

●前端组件，该前端组件包括：

○适于重复接收与音频比特流中的一个音频帧对应的量化谱系数并且输出中间信号的第一频域表示的去量化级；和

○用于接收中间信号的第一频域表示并且基于此合成中间信号的时域表示的逆变换级；

●处理级，该处理级包括：

○用于接收中间信号的时域表示并且输出中间信号的第二频域表示的分析滤波器组；

○用于接收所述中间信号的频域表示并且输出处理的音频信号的频域表示的至少一个处理组件；和

○用于接收处理的音频信号的频域表示并且输出处理的音频信号的时域表示的合成滤波器组；以及

●用于接收所述处理的音频信号的时域表示并且输出在目标采样频率下采样的重构音频信号的采样率转换器。

根据本示例实施例，前端组件可具有固定的帧长度。当该前端组件处理与不同的帧持续时间(或者等效地，不同的帧率)、但相等的帧长度对应的量化谱系数时，采样率转换器可将音频处理系统的输出的物理采样频率恢复到期望的目标物理采样频率。像前面的示例实施例一样，对于不同帧率的适应性通过接受前端组件所预先假定(或者更准确地说，准备其接收的控制数据的实体所预先假定)的物理采样频率与重构音频信号的物理采样频率之间的有限不匹配来实现。

本发明的进一步方面提供适合准备要通过以上概述的音频处理系统中的任一个解码的音频比特流的编码器系统和编码方法。

注意，除非另外指示，否则，本发明涉及特征的所有组合，即使它们记载在相互不同的权利要求中。

II.示例实施例

图1是音频处理系统100的一般化框图，该音频处理系统100接收编码的音频比特流P并且以在图1中示为一对立体声基带信号L、R的重构音频信号作为其最终输出。在本示例中，将假设比特流P包括量化的、变换编码的双声道音频数据。该音频处理系统100可从通信网络、无线接收器或者存储器(未示出)接收音频比特流P。系统100的输出可被供给到扬声器以用于回放，或者可以相同或不同的格式被再编码以用于在通信网络或无线链路上进一步传输，或者用于存储在存储器中。

音频处理系统100包括用于将比特流P解码成量化的谱系数和控制数据的解码器108。其结构将在以下被更详细地讨论的前端组件110将这些谱系数去量化并且供给要由处理级120处理的中间音频信号的时域表示。中间音频信号通过分析滤波器组122_L、122_R变换成第二频域，该第二频域与前面提到的编码变换相关联的频域不同；第二频域表示可以是正交镜像滤波器(QMF)表示，在该情况下，分析滤波器组122_L、122_R可作为QMF滤波器组被提供。在分析滤波器组122_L、122_R的下游，负责高频重构的谱带复制(SBR)模块124和动态范围控制(DRC)模块126处理中间音频信号的第二频域表示。在它们的下游，合成滤波器组128_L、128_R产生由此处理的音频信号的时域表示。在研究本公开之后，作为本领域技术人员将意识到，谱带复制模块124和动态范围控制模块126均不是本发明的必要要素；相反，根据不同的示例实施例的音频处理系统可在处理级120内包括附加的或替代的模块。在处理级120的下游，采样率转换器130可操作为将处理的音频信号的采样率调整到期望的音频采样率，诸如44.1kHz或48kHz，针对该音频采样率，设计预期的回放设备(未示出)。如何设计在输出中具有少量的伪像(artefact)的采样率转换器130在本领域中本身是已知的。该采样率转换器130可以在不被需要时－即，在处理级120供给已经具有目标采样频率的处理的音频信号时停用。布置在采样率转换器130的下游的可选信号限制模块140被配置为根据无削波(no-clip)条件(其可以考虑特定的预期回放设备而被重新选择)视需要限制基带信号值。

如图1的下部所示，前端组件110包括可在具有不同的块大小的数个模式中的一个中操作的去量化级114和也可在不同的块大小上操作的逆变换级118_L、118_R。优选地，去量化级114和逆变换级118_L、118_R的模式改变是同步的，使得块大小在所有的时间点处匹配。在这些组件的上游，前端组件110包括用于使量化的谱系数与控制数据分离的解复用器112；一般地，它将控制数据转发到逆变换级118_L、118_R，并且将量化的谱系数(并且可选地，控制数据)转发到去量化级114。该去量化级114执行从量化索引(一般表示为整数)的一个帧到谱系数(一般表示为浮点数)的一个帧的映射。每个量化索引与量化水平(或重构点)相关联。假设如以上讨论的那样已通过使用非均匀量化准备音频比特流，则关联不是唯一的，除非规定量化索引指的是什么频带。换句话说，去量化处理可针对每个频带遵循不同的码本，并且码本集可根据帧长度或/和比特率变化。在图1中，这被示意性地示出，其中，垂直轴表示频率，水平轴表示每单位频率的编码比特的分配量。注意，频带一般对于较高的频率较宽，并且在内部采样频率f_i的一半处结束。作为在采样率转换器130中再采样的结果，内部采样频率可被映射到在数值上不同的物理采样频率；例如，4.3％的上采样将f_i＝46.034kHz映射到近似物理频率48kHz，并且使下频带边界增加相同的因子。如图1进一步表明的那样，根据编码信号的复杂性和人听觉的预期敏感性变化，准备音频比特流的编码器一般向不同的频带分配不同量的编码比特。

在表1中给出表征音频处理系统100、特别是前端组件110的操作模式的定量数据。

表1中强调的列包含可控制量的值，而剩余的量可视为取决于这些。还注意，再采样(SRC)因子的理想值为(24/25)×(1000/1001)≈0.9560、24/25＝0.96和1000/1001≈0.9990。表1中列出的SRC因子值如帧率值那样被四舍五入(round)。再采样因子1.000是精确的，并且与SRC 130被停用或者完全不存在对应。在示例实施例中，音频处理系统100可在具有不同的帧长度的至少两个模式中操作，这些模式中的一个或更多个可与表1中的条目一致。

前端组件的帧长度被设定为1920个采样的模式a-d被用于处理(音频)帧率23.976、24.000、24.975和25.000Hz，这些帧率被选择以精确地匹配广泛的编码格式的视频帧率。由于不同的帧长度，内部采样频率(帧率×帧长度)将在模式a-d中从约46.034kHz变为48.000kHz；假设临界采样和均匀分开的频率仓，这将与从11.988Hz到12.500Hz(半内部采样频率/帧长度)的范围中的仓宽度值对应。由于内部采样频率的变化是有限的(作为约5％的帧率变化范围的结果，它为约5％)，所以判断音频处理系统100将在所有的四个模式a-d中递交合理的输出质量，尽管针对其准备传入的音频比特流的物理采样频率非精确匹配。

继续前端组件110的下游，在所有的模式a-d中，分析(QMF)滤波器组122每QMF帧具有30个采样或者64个带。在物理说法上，这将与每个分析频带的轻微变化宽度对应，但是该变化再次是如此有限的，以至于它可被忽略；特别地，SBR和DRC处理模块124、126可以不知道当前的模式，而不损害输出质量。然而，SRC 130是模式相关的，并且将使用特定的再采样因子－该采样因子被选择为匹配目标外部采样频率和内部采样频率的商－以确保处理的音频信号的每个帧将包含在物理单位上与48kHz的目标外部采样频率对应的大量采样。

在模式a-d中的每一个中，音频处理系统100将精确地匹配视频帧率和外部采样频率两者。该音频处理系统100然后可处理图4中的多媒体比特流T1和T2的音频部分，其中，音频帧A11、A12、A13、…；A22、A23、A24、…和视频帧V11、V12、V13、…；V22、V23、V24在每个流内在时间上一致。如图4所表明的那样，然后能够通过删除前导流(leading stream)中的音频帧和相关联的视频帧来改善流T1、T2的同步性。可替代地，滞后流(lagging stream)中的音频帧和相关联的视频帧被复制并且可能与插值措施相结合而靠近原始位置被插入，以减少可感知的伪像。

旨在处理帧率29.97Hz和30.00Hz的模式e和f可被识别为第二子组。如已经解释的那样，音频数据的量化适于(或优化用于)约48kHz的内部采样频率。因此，由于每个帧较短，所以前端组件110的帧长度被设定为较小值1536个采样，使得得到约46.034和46.080kHz的内部采样频率。如果分析滤波器组122是与64个频带的模式无关的，那么每个QMF帧将包含24个采样。

类似地，在50Hz和60Hz(与标准化电视格式中的刷新率的两倍对应)以及120Hz下或其附近的帧率分别被模式g-i(帧长度960个采样)、模式j-k(帧长度768个采样)和模式l(帧长度384个采样)覆盖。注意，内部采样频率在每个情况下保持接近48kHz，使得通过其产生音频比特流的量化处理的任何心理声学调谐将保持至少近似有效。64-带滤波器组中的各QMF帧长度将为15、12和6个采样。

如所提到的，音频处理系统100可操作为将音频帧再分成更短的子帧；这样做的原因可能是更有效地捕获音频瞬态。对于在表1中给出的48kHz采样频率和设定，下表2-4示出源自再分为2、4、8(参见图4中的音频帧A29)和16个子帧的仓宽度和帧长度。可以认为，根据表1的设定实现了时间和频率分辨率的有利平衡。

与帧的再分相关的决策可被当作诸如音频编码系统(未示出)中准备音频比特流的处理的一部分。

如表1中的模式m所示，可进一步使得音频处理系统100能够以96kHz的增加的外部采样频率以及通过128个QMF带(与每QMF帧30个采样对应)操作。由于外部采样频率偶然地与内部采样频率一致，所以SRC因子为1，这对应于不需要再采样。

图2示出包括接收点210的媒体分发系统，该接收点210可包括卫星接收器211和/或射频接收器212，其可作为集成接收器和解码器(IRD)中的组件被提供。携载音频和视频数据的多媒体比特流在接收点210处被接收。该多媒体比特流包括定义比特流内容的本地时间219的时间戳，该本地时间219例如为采样设备处的本地时间。接收并且可能解码的多媒体比特流然后被传输到可发生内容路由和管理的周转(turnaround)点220。一些周转点220不执行任何解码。多媒体比特流的音频部分可例如根据由电影电视工程师协会(Society of Motion Picture and Television Engineers)定义的工业标准SMPTE 337的版本格式化。该格式对于使用是有利的，因为它包括允许数据与在其它接口上递交的信息内容同步的时间对准信息；在该使用中，具有这样的属性的其它格式可代替SMPTE 337。

周转点220处的本地时间229可由本地基准时钟或者周转点220和下游实体共用的网络基准时间定义。理想地，内容的本地时间219和周转点220处的本地时间229相等，但在实际中作为时钟漂移的结果可能不同，在这点上，产生了使接收的多媒体比特流同步的需要。更准确地说，在周转处理在HD-SDI(高清串行数字接口)水平上完成的实现中，解压缩视频被携载在仍包括传统上未使用的HANC和VANC(水平和垂直辅助数据)空间的帧中。该HANC和VANC空间被用于传送编码的音频数据。在该实现中，通过HD-SDI信号的特定帧中的音频数据的布置隐含地给出音频和视频数据之间的仅有的相对定时信息。假设音频没有以同步的方式成帧，HD-SDI帧的重复或丢掉将不会返回关于与该视频帧一起重复/丢掉的音频数据的持续时间(或时间的局部性(localization))的任何信息；相邻的HD-SDI帧也可能被破坏，如果重复/丢掉导致它们包含不能通过依赖于下一或前一HD-SDI帧恢复成完整的音频帧的音频帧的片段的话。帧同步音频编码避免了该失败，原因是它不通过重复/丢掉相等的物理持续时间的音频和视频数据来考虑事情，并且为其真正完整的帧。

例如在不同的内容对象之间或者在内容和广告材料之间拼接多个多媒体比特流是帧同步性非常有用的另一示例情况。事实上，这将确保每个帧编码音频和视频数据的相应的时间同步部分，使得中断或者开始两个连续帧之间的比特流总是安全的；因此，帧边界可被用作拼接点。

在周转点220的下游，可布置串行数字接口(SDI)路由器230，并然后布置通过音频通过组件而并行的视频编码器，其统一由附图标记240指示。SDI路由器230可例如根据分别被标准化为SMPTE 259M和SMPTE 292M的标准清晰或高清晰格式。从视频编码器和音频通过组件240供给的转码视听数据然后在有线或无线通信网络290上被传输到消费者291、292、293。

图3和图4已经被讨论。

参照本发明的第二方面，设想提供具有图1所示的音频处理系统100的相同的一般特性的替代性音频处理系统，但是不必具有前端组件的任何多模能力。这样，根据其前端组件的(永久)设定，替代性音频处理系统可在模式a-d中或者在模式e-f中或者在模式g-i中或者在模式j-k中操作。该替代性音频处理系统的适应性主要是由于SRC。前端组件处理每个帧中的采样，而不必知道(或者至少不适应)其可变化的物理持续时间。因此，物理采样频率可变化，但是，只要限制该变化，就没有显著不利的心理声学副效应。

在图5中，示意性地描绘根据示例实施例的编码器系统501。输入信号5011具有可以为48kHz的Fs的采样率。另外对于编码器的输入是视频帧率5010，音频帧率应与该视频帧率5010对准。“适应”模块502使系统适应基变换大小(或最大帧长度)以处理所需的帧率，并且还根据输入信号特性(根据表2-4)将该基变换大小再分成更小的变换。为了提供使得系统能够利用单个基变换大小处理多个不同的帧率的内部采样率(内部Fs)，期望的帧率被另外供给到采样率转换器(SRC)模块508。基变换大小被选择为最佳或者从音频编码的角度看至少是有利的，即，对于诸如用于48kHz采样率的2048、1920、1536MDCT线(line)的平稳信号，它应当尽可能地长(在合理的限制内)，并且优选可再分成用于瞬态通道(passage)的更小的变换，例如，8个或16个变换。根据本示例实施例，SRC模块508被设计为限于提供与外部采样率具有有限的偏差的内部采样率，使得它不显著改变所选择的MDCT基变换大小的物理时间/频率属性。

MDCT模块504将采样率“内部Fs”的输入时域信号变换成频域。“量化和编码”模块503考虑人听觉系统的灵敏度变化和作为实际(物理)频率的函数的频率分辨率根据心理声学模型来量化MDCT线。该“量化和编码”模块503可适于通过使用内部采样频率或外部采样频率完成量化和心理声学。如果后者被选择，那么由于没有考虑采样率转换器，所以将存在与实际物理频率的偏差。然而，鉴于系统的设计，该偏差充分小以使得被忽略。或者换句话说，鉴于MDCT的特定大小，心理声学易于适应采样率的不同范围，但是由于采样率转换器而导致的内部采样率与信号的外部采样率的偏差充分小，以不落在外部采样率的调谐参数的范围外面。

依赖于在解码器侧启用的高频重构的“HFR编码器”506在例如64个子带的固定QMF变换507的子带上操作。由于用于HFR编码和解码的QMF滤波器组总是固定的变换大小(通常用于HFR处理的伪QMF不能像MDCT一样具有变化的窗序列和变换大小)，所以能够对于相关的视频/音频帧率的大多数保持固定在64子带的QMF变换大小是本示例实施例的益处。

HFR编码器506在QMF采样(例如，48kHz下的2048采样帧的32个采样(64个子带乘以32个QMF采样等于2048个时域采样))的多个组上操作。鉴于表1中所概述的提出的变换大小和SRC因子，HFR编码器506仅需要根据视频帧率适应帧大小，这通过在与以上概述的32个采样的示例轻微不同的时间上将QMF子带采样分组在一起来完成，并且SRC因子的选择确保与帧对应的QMF采样的数量是整数(再次在表1中概述)。

并且，HFR编码器506一般根据与Bark尺度(scale)相关的近似将谱分组为较宽的带。从该角度看，使QMF子带的数量保持恒定是本示例实施例的优点，原因是子带的分组将不根据视频帧率而变化。

来自MDCT的量化谱连同控制数据一起通过复用器505复用在一起，以形成输出的音频比特流。

总之，图5所示的示例实施例提供了一种编码器系统501(实际上也提供了用作解码器的对应的音频处理系统100)，该编码器系统501：

－使SRC因子接近1，以使内部和外部采样率之间的差异最小化；

－使用已知对于音频编码而工作并且可细分成子变换以处理瞬态的MDCT基变换大小；

－使用不同MDCT基变换大小的最小值，以简化实现、调谐并且使从编码器到解码器的信令开销最小化；以及

－包括已知对于高频重构和类似的算法很好地工作、并且允许将整数个QMF采样分组为帧的具有大量(64个)子带的单个固定大小QMF滤波器组。

在编码器系统501的进一步发展中，系统可包括带宽限制组件(未示出)。实际上，对于48kHz的输入采样率的信号，这样的带宽限制组件可将音频带宽限制到例如20kHz，即，低于奈奎斯特(Nyquist)频率4kHz。这减轻了解码器侧的SRC 130的设计，原因是可在采样率转换处理中使用不那么陡峭的低通滤波器。

III.等效、扩展、替代和杂项

在研究以上的描述之后，本发明的进一步实施例对于本领域技术人员将变得清楚。尽管本说明书和附图公开了实施例和示例，但本发明不限于这些特定的示例。在不背离由所附的权利要求限定的本发明的范围的情况下，可以进行大量的修改和变化。在权利要求中出现的任何附图标记不应被理解为限制它们的范围。

上文中公开的系统和方法可实现为软件、固件、硬件或它们的组合。在硬件实现中，在以上的描述中提到的功能单元之间的任务的划分未必与分成物理单元对应；相反，一个物理组件可具有多个功能，并且可通过协作的数个物理组件执行一个任务。某些组件或所有组件可实现为由数字信号处理器或微处理器执行的软件，或者实现为硬件或应用特定集成电路。这种软件可分布于可包含计算机存储介质(或非暂时性介质)或通信介质(或暂时性介质)的计算机可读介质上。本领域技术人员很容易理解，术语计算机存储介质包括在任何方法或技术中实现的易失性和非易失性、可去除和不可去除介质，这些介质用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、快擦写存储器或其它存储器技术、CD-ROM、数字万用盘(DVD)或其它光盘存储器、磁盒、磁带、磁盘存储器或其它磁存储装置或可用于存储期望的信息并且可通过计算机访问的任何其它介质。并且，本领域技术人员公知，通信介质一般在诸如载波或其它传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其它数据，并且包含任何信息传输介质。

Claims

1.一种音频处理系统(100)，该音频处理系统(100)被配置为接受与视频帧(V11，V12，…)的流相关联的音频比特流，该音频比特流被分割成帧(A11，A12，…)，其中，每个视频帧与携载与一个或多个视频帧相等的持续时间的相关联的音频数据的音频比特流中的帧时间相关，所述音频处理系统包括：

前端组件(110)，该前端组件(110)包括：

去量化级(114)，该去量化级(114)适于重复接收与所述音频比特流中的一个音频帧对应的量化谱系数，并且输出中间信号的第一频域表示；和

逆变换级(118)，该逆变换级(118)用于接收所述中间信号的第一频域表示并且基于此合成所述中间信号的时域表示；

处理级(120)，该处理级(120)包括：

分析滤波器组(122)，该分析滤波器组(122)用于接收所述中间信号的时域表示并且输出所述中间信号的第二频域表示；

至少一个处理组件(124、126)，该至少一个处理组件(124，126)用于接收所述的中间信号的第二频域表示并且输出经处理的音频信号的频域表示；和

合成滤波器组(128)，该合成滤波器组(128)用于接收所述经处理的音频信号的频域表示并且输出所述经处理的音频信号的时域表示；以及

采样率转换器(130)，该采样率转换器(130)用于接收所述的经处理的音频信号的时域表示并且输出在目标采样频率下采样的重构的音频信号，

其特征在于，所述音频处理系统被配置为接受具有至少两个不同的预定义音频帧率中的任一个的音频比特流，以及所述前端组件具有可变的最大帧长度并且在与所述不同的预定义音频帧率对应的至少两个模式中可操作。