CN203415228U

CN203415228U - 使用节目信息元数据的音频解码器

Info

Publication number: CN203415228U
Application number: CN201320464270.9U
Authority: CN
Inventors: 杰弗里·里德米勒; 迈克尔·沃德
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-06-19
Filing date: 2013-07-31
Publication date: 2014-01-29
Anticipated expiration: 2023-07-31
Also published as: CN110459228B; HK1217377A1; KR20210111332A; US20180012610A1; JP6561031B2; JP7427715B2; AU2014281794A1; BR122016001090A2; CN110491395A; KR102297597B1; MX2019009765A; TWI756033B; RU2019120840A; MX2022015201A; MX2015010477A; CL2015002234A1; AU2014281794B9; TW201506911A; JP2024028580A; RU2589370C1

Abstract

公开了一种电气装置，其包括用于接收编码音频的帧的接口，该帧包括位于该帧的跳过字段中的节目信息元数据以及位于跳过字段之外的编码音频数据。缓冲器耦接至接口以用于临时存储帧，并且分析器耦接至缓冲器以用于从帧中提取编码音频数据。AC-3音频解码器耦接至分析器或与分析器集成以用于根据编码音频数据生成解码音频。

Description

使用节目信息元数据的音频解码器

相关申请的交叉引用

本申请要求2013年6月19日提交的题为“使用节目信息或子流结构元数据的音频编码器和解码器”并且发明人为Jeffrey Riedmiller和Michael Ward的第61/836,865号美国临时专利申请的优先权。

技术领域

本申请涉及音频信号处理单元，以及更具体地，涉及具有指示与由比特流所指示的音频内容有关的节目信息的元数据的音频数据比特流的解码器。本申请的一些实施方式以被称为杜比数字（AC-3）、杜比数字+（增强的AC-3或E-AC-3）或杜比E的格式中的一种格式生成或解码音频数据。

背景技术

杜比、杜比数字、杜比数字+、和杜比E是杜比实验室特许公司的商标。杜比实验室提供分别被称为杜比数字和杜比数字+的AC-3和E-AC-3的专有实现。

音频数据处理单元通常以盲方式（blind fashion）操作并且不关注在数据被接收之前发生的音频数据的处理历史。这可以在这样的处理框架中工作：其中单个实体进行各种目标媒体渲染装置的所有的音频数据处理和编码而目标媒体渲染装置进行编码音频数据的所有的解码和渲染。然而，该盲处理在多个音频处理单元跨多样化的网络被散布（scatter）或串联（即，链）放置并且期望它们最佳地执行其相应类型的音频处理的情形下不能很好地（或完全不）工作。例如，一些音频数据可能针对高性能媒体系统被编码，并且可能需要被转换成适合于沿着媒体处理链的移动设备的简化形式。因此，音频处理单元可能不必要地对音频数据执行已经被执行过的类型的处理。例如，音量校平（leveling）单元可能对输入音频片断执行处理，不管以前是否已经对输入音频片断执行了相同的或相似的音量校平。因此，即使当不必要时，音量校平单元也可能执行校平。该不必要的处理还可能导致当渲染音频数据的内容时具体特征的退化和/或消除。

使用新型内容

公开了一种电气装置，其包括用于接收编码音频的帧的接口，该帧包括位于帧的跳过字段中的节目信息元数据以及位于跳过字段之外的编码音频数据。缓冲器耦接至接口以用于临时存储帧，并且分析器耦接至缓冲器以用于从帧中提取编码音频数据。AC-3音频解码器耦接至分析器或与分析器集成以用于根据编码音频数据生成解码音频。

附图说明

图1是可以被配置成执行本申请的方法的实施方式的系统的实施方式的框图。

图2是作为本申请的音频处理单元的实施方式的编码器的框图。

图3是作为本申请的音频处理单元的实施方式的解码器以及作为本申请的音频处理单元的另一实施方式的耦接至解码器的后处理器的框图。

图4是包括被划分成的段的AC-3帧的图。

图5是包括被划分成的段的AC-3帧的同步信息（SI）段的图。

图6是包括被划分成的段的AC-3帧的比特流信息（BSI）段的图。

图7是包括被划分成的段的E-AC-3帧的图。

图8是根据本申请的实施方式生成的包括元数据段报头的编码比特流的元数据段的图，元数据段报头包括容器同步字（在图8中标识为“容器同步”）以及版本和键ID值，之后是多个元数据有效载荷以及保护位。

符号和术语

贯穿包括权利要求在内的本公开内容，（编码音频比特流的）“元数据”的表达指代与比特流的相应的音频数据分离的且不同的数据。

贯穿包括权利要求在内的本公开内容，“节目信息元数据”（或“PIM”）的表达表示编码音频比特流的元数据，该编码音频比特流指示至少一个音频节目，其中所述元数据指示至少一个所述节目的音频内容的至少一个属性或特性（例如，指示对节目的音频数据执行的处理的类型或参数的元数据、或表示节目的哪些通道是活动通道的元数据）。

贯穿包括权利要求在内的本公开内容，“音频节目”的表达表示一个或更多个音频通道的集合以及可选地还表示相关联的元数据（例如，描述期望的空间音频表示的元数据和/或PIM）。

贯穿包括权利要求在内的本公开内容，术语“耦接”或“被耦接”用于表示直接或间接连接。从而，如果第一设备耦接至第二设备，该连接可以是通过直接连接，或经由其他设备和连接的通过间接连接。

具体实施方式

典型的音频数据流包括音频内容（例如，音频内容的一个或更多个通道）和指示音频内容的至少一个特性的元数据两者。例如，在AC-3比特流中，存在具体意在用于改变被传送至收听环境的节目的声音的若干音频元数据参数。元数据参数中的一个为DIALNORM参数，其意在指示音频节目中的对白的平均电平，并且用于确定音频回放信号电平。

尽管本实用新型不限于使用AC-3比特流、E-AC-3比特流或杜比E比特流，为了方便，将在生成、解码或以其他方式处理这样的比特流的实施方式中对其进行描述。

AC-3编码比特流包括元数据和音频内容的1至6个通道。音频内容是已经使用感知音频编码压缩的音频数据。元数据包括意在用于改变被传送至收听环境的节目的声音的若干音频元数据参数。

AC-3编码音频比特流的每帧包含关于数字音频的1536个样本的音频内容和元数据。对于48kHz的采样率，这表示32毫秒的数字音频或音频的每秒31.25帧的速率。

取决于帧是否分别包含1块、2块、3块或6块音频数据，E-AC-3编码音频比特流的每帧包含关于数字音频的256、512、768或1536个样本的音频数据和元数据。对于48kHz的采样率，这分别表示5.333、10.667、16或32毫秒的数字音频或分别表示音频的每秒189.9、93.75、62.5或31.25帧的速率。

如图4所示，每个AC-3帧被划分成部分（段），包括：包含（如图5所示）同步字（SW）和两个误差校正字中的第一个误差校正字（CRC1）的同步信息（SI）部分；包含大部分元数据的比特流信息（BSI）部分；包含数据压缩音频内容（以及还可以包括元数据）的6个音频块（AB0至AB5）；包含在压缩音频内容之后剩余的任意未使用的位的无用位段（W）（也称为“跳过字段”）；可以包含更多元数据的辅助（AUX）信息部分；以及两个误差校正字中的第二个误差校正字（CRC2）。

如图7所示，每个E-AC-3帧被划分成部分（段），包括：包含（如图5所示）同步字（SW）的同步信息（SI）部分；包含大部分元数据的比特流信息（BSI）部分；包含数据压缩音频内容（以及还可以包括元数据）的6个音频块（AB0至AB5）；包含在压缩音频内容之后剩余的任意未使用的位的无用位段（W）（也称为“跳过字段”）（尽管仅示出了一个无用位段，不同的无用位段或跳过字段段通常可以在每个音频块之后）；可以包含更多元数据的辅助（AUX）信息部分；以及误差校正字（CRC）。

在AC-3（或E-AC-3）比特流中，存在具体意在用于改变被传送至收听环境的节目的声音的若干音频元数据参数。元数据参数中的一个为DIALNORM参数，该DIALNORM参数被包括在BSI段中。

如图6所示，AC-3帧的BSI段包括指示节目的DIALNORM值的5位参数（“DIALNORM”）。如果AC-3帧的音频编码模式（“acmod”）为0，则包括指示在同一AC-3帧中携带的第二音频节目的5位参数DIALNORM值的5位参数（“DIALNORM2”），指示使用双单通道或“1+1”通道配置。

BSI段还包括指示在“addbsie”位之后额外的比特流信息的存在（或不存在）的标志（“addbsie”）、指示在“addbsil”值之后任何额外的比特流信息的长度的参数（“addbsil”）、以及在“addbsil”值之后高达64位的额外的比特流信息（“addbsi”）。

BSI段包括在图6中没有具体示出的其他元数据值。

根据本申请的典型的实施方式，PIM（以及可选地还有其他元数据）被嵌入在音频比特流的元数据段的一个或更多个保留字段（例如跳过字段）（或槽（slot））中，该音频比特流还包括其他段（音频数据段）中的音频数据。通常，比特流的每个帧的至少一个段（例如跳过字段）包括PIM，并且帧的至少一个其他段包括相应的音频数据（即，其至少一个特性或属性由PIM指示的音频数据）。

在一类实施方式中，每个元数据段为可以包含一个或更多个元数据有效载荷的数据结构（在本文中有时称为容器）。每个有效载荷包括报头以提供存在于有效载荷中的元数据的类型的明确的指示，其中报头包括具体的有效载荷标识符（或有效载荷配置数据）。有效载荷在容器内的顺序未被定义，使得有效载荷可以以任何顺序存储并且分析器必须能够对整个容器进行分析以提取相关的有效载荷而忽略不相关的或不支持的有效载荷。图8（下面将要描述的）说明这样的容器和容器内的有效载荷的结构。

当两个或更多个音频处理单元需要贯穿该处理链（或内容生命周期）彼此合作工作时，音频数据处理链中的通信元数据（例如，PIM）尤其有用。在音频比特流中不包括元数据的情况下，例如，当在链中利用两个或更多个音频编解码器并且在媒体消耗装置的比特流路径（或比特流的音频内容的渲染点）期间多于一次地应用单端音量时，可以出现若干媒体处理问题，例如质量、电平和空间退化。

图1为示例性音频处理链（音频数据处理系统）的框图，在音频处理链中，系统的元件中的一个或更多个可以根据本申请的实施方式被配置。系统包括如所示耦接在一起的以下元件：预处理单元、编码器、信号分析和元数据校正单元、代码转换器、解码器和后处理单元。在所示的系统的变型中，省略元件中的一个或更多个，或包括额外的音频数据处理单元。

在一些实现中，图1的预处理单元被配置成接收包括音频内容的PCM（时域）样本作为输入，并且输出经处理PCM样本。编码器可以被配置成接收PCM样本作为输入，并且输出指示音频内容的编码的（例如，压缩的）音频比特流。指示音频内容的比特流的数据在本文中有时被称为“音频数据”。如果编码器根据本申请的典型实施方式被配置，那么从编码器输出的音频比特流包括PIM以及音频数据。

图1的信号分析和元数据校正单元可以接收一个或更多个编码音频比特流作为输入，并且通过执行信号分析来确定（例如，验证）每个编码音频比特流中的元数据是否正确。如果信号分析和元数据校正单元发现所包括的元数据是无效的，那么通常使用从信号分析中获得的正确值替代错误值。从而，从信号分析和元数据校正单元输出的每个编码音频比特流可以包括校正的（或未校正的）处理状态元数据以及编码音频数据。

图1的解码器可以接收编码的（例如，压缩的）音频比特流作为输入，并且输出（作为响应）解码PCM音频样本流。如果解码器根据本申请的典型的实施方式被配置，那么在典型的操作中，解码器的输出是或包括下列中的任一个：

音频样本流，以及从输入的编码比特流中提取的PIM（通常还有其他元数据）的至少一个相应的流；或

音频样本流，以及根据从输入编码比特流中提取的PIM（通常还有其他元数据）所确定的控制位的相应的流；或

音频样本流，但没有元数据或根据元数据确定的控制位的相应的流。在最后一种情下，解码器可以从输入编码比特流中提取元数据，并且对所提取的元数据执行至少一种操作（例如，验证），即使没有输出所提取的元数据或根据元数据确定的控制位。

通过根据本申请的典型的实施方式配置图1的后处理单元，后处理单元被配置成接收解码的PCM音频样本流，并且使用与样本一起接收的PIM（通常还有其他元数据），或根据与样本一起接收的元数据确定的控制位对其执行后处理（例如，音频内容的音量校平）。后处理单元还通常被配置成对经后处理音频内容进行渲染用于由一个或更多个扬声器回放。

本申请的典型的实施方式提供增强的音频处理链，其中音频处理单元（例如，编码器、解码器、代码转换器以及预处理单元和后处理单元）根据由通过音频处理单元分别接收的元数据所指示的媒体数据的同时期的状态来修改待应用于音频数据的其相应的处理。

输入到图1系统的任何音频处理单元（例如，图1的编码器或代码转换器）的音频数据可以包括PIM（可选地还包括其他元数据）以及音频数据（例如，编码音频数据）。该元数据可以根据本申请的实施方式已经通过图1系统的另一元件（或另一源，在图1中未示出）而被包括在输入音频中。接收输入音频（具有元数据）的处理单元可以被配置成对元数据执行至少一种操作（例如，验证），或响应于元数据（例如，输入音频的自适应处理），并且还通常将元数据、元数据的经处理的版本、或根据元数据确定的控制位包括在其输出音频中。

图2是作为本申请的音频处理单元的实施方式的编码器（100）的框图。编码器100的任何部件或元件可以以硬件或软件或硬件与软件的组合被实现为一个或更多个处理和/或一个或更多个电路（例如，ASIC、FPGA或其他集成电路）。编码器100包括如所示地连接的帧缓冲器110、分析器111、解码器101、音频状态验证器102、响度处理级103、音频流选择级104、编码器105、填充器/格式器级107、元数据生成级106、对白响度测量子系统108以及帧缓冲器109。编码器100通常还包括其他处理元件（未示出）。

编码器100（为代码转换器）被配置成包括通过使用包括在输入比特流中的响度处理状态元数据执行自适应和自动的响度处理来将输入音频比特流（例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一个）转换成编码输出音频比特流（例如，可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的另一个）。例如，编码器100可以被配置成将（通常用在生产和广播设备中，但不用在接收已经被广播的音频节目的消费者设备中的格式的）输入杜比E比特流转换成AC-3或E-AC-3格式的（适合于广播至消费者设备的）编码输出音频比特流。

图2的系统还包括编码音频传送子系统150（其存储和/或传送从编码器100输出的编码比特流）和解码器152。从编码器100输出的编码音频比特流可以由子系统150（例如，以DVD或蓝光光盘格式）存储，或由子系统150（可以实现传输线路或网络）传输，或可以由子系统150存储和传输。解码器152被配置成包括通过从比特流的每个帧中提取元数据（PIM、以及可选地还有响度处理状态元数据和/或其他元数据）以及生成解码音频数据，对经由子系统150接收的（由编码器100生成的）编码音频比特流进行解码。通常，解码器152被配置成使用PIM对解码音频数据执行自适应处理，和/或将解码音频数据和元数据转发至被配置成使用元数据对解码音频数据执行自适应处理的后处理器。通常，解码器152包括存储（例如，以非暂态方式）从子系统150中接收的编码音频比特流的缓冲器。

编码器100和解码器152的各种实现被配置成执行本申请的方法的不同的实施方式。

帧缓冲器110是耦接以接收编码输入音频比特流的缓冲存储器。在操作中，缓冲器110存储（例如，以非暂态方式）编码音频比特流的至少一个帧，并且编码音频比特流的帧的序列被从缓冲器110设定到分析器111。

将分析器111耦接并配置成从包括这样的元数据的编码输入音频的每个帧中提取PIM，，以从编码输入音频中提取音频数据并且将音频数据设定到解码器101。编码器100的解码器101被配置成对音频数据进行解码以生成解码音频数据，并且将解码音频数据设定到响度处理级103、音频流选择级104、子系统108以及通常还设定到状态验证器102。

状态验证器102被配置成对设定到其的元数据进行认证和验证。在一些实施方式中，该元数据是（或包括在）数据块（中），数据块已经包括在输入比特流中（例如，根据本申请的实施方式）。块可以包括加密散列（基于散列的消息认证代码或“HMAC”）用于对元数据和/或（从解码器101提供至验证器102的）基本的音频数据进行处理。在这些实施方式中，数据块可以被数字地标记，使得下游的音频处理单元可以相对容易地认证和验证处理状态元数据。

状态验证器102将控制数据设定到音频流选择级104、元数据生成器106以及对白响度测量子系统108，以表示验证操作的结果。响应于控制数据，级104可以选择（以及传递至编码器105）响度处理级103的经自适应处理的输出或从解码器101输出的音频数据。

编码器100的级103被配置成基于由通过解码器101所提取的元数据指示的一个或更多个音频数据特性，对从解码器101输出的解码音频数据执行自适应响度处理。级103可以是自适应变换域实时响度和动态范围控制处理器。级103可以接收用户输入（例如，用户目标响度/动态范围值或对白归一化值）、或其他元数据输入（例如，一种或更多种类型的第三方数据、跟踪信息、标识符、所有权或标准信息、用户注释数据、用户偏好数据等）和/或其他输入（例如，来自指纹识别处理），并且使用这样的输入以对从解码器101输出的解码音频数据进行处理。级103可以对指示单个音频节目的（从解码器101输出的）解码音频数据执行自适应响度处理，并且可以响应于接收到指示不同的音频节目的（从解码器101输出的）解码音频数据将响度处理复位。

当来自验证器102的控制位指示元数据无效时，对白响度测量子系统108可以操作以使用由解码器101提取的元数据来确定表示对白（或其他语音）的（来自解码器101的）解码音频的段的响度。当来自验证器102的控制位指示该元数据有效时，当该元数据指示（来自解码器101的）解码音频的对白（或其他语音）段的先前确定的响度时，可以禁止对白响度测量子系统108的操作。子系统108可以对表示单个音频节目的解码音频数据执行响度测量，并且可以响应于接收到表示不同的音频节目的解码音频数据将响度处理复位。

存在有用的工具（例如，杜比LM100响度计）用于方便地和容易地对音频内容中的对白的电平进行测量。本实用新型的APU（例如，编码器100的级108）的一些实施方式被实现以包括这样的工具（或执行这样的工具的功能）来对音频比特流（例如，从编码器100的解码器101设定到级108的解码AC-3比特流）的音频内容的平均对白响度进行测量。

如果级108被实现成对音频数据的真实平均对白响度进行测量，那么测量可以包括将主要包含语音的音频内容的段分离的步骤。然后，根据响度测量算法来处理主要为语音的音频段。对于根据AC-3比特流解码的音频数据，该算法可以是标准的K加权响度测量（根据国际标准ITU-R BS1770）。可替代地，可以使用其他响度测量（例如，基于响度的心理声学模型的那些测量）。

元数据生成器106生成（和/或传递至级107）要由级107包括在待从编码器100输出的编码比特流中。元数据生成器106可以将由编码器101和/或分析器111提取的元数据（可选地还有PIM）传递至级107（例如，当来自验证器102的控制位指示元数据有效时），或生成新的PIM和/或其他元数据并且将新的元数据设定到级107（例如，当来自验证器102的控制位指示由解码器101提取的元数据无效时），或可以将由解码器101和/或分析器111提取的元数据与新生成的元数据的组合设定到级107。元数据生成器106可以包括由子系统108生成的响度数据以及指示由子系统108执行的响度处理的类型的至少一个值。

元数据生成器106可以生成用于待被包括在编码比特流和/或待被包括在编码比特流中的基本音频数据中的元数据的解密、认证或验证中的至少一个的控制位（可以由基于散列的消息认证代码或“HMAC”组成或包括基于散列的消息认证代码或“HMAC”）。元数据生成器106可以向级107提供这样的保护位以用于包括在编码比特流中。

在典型的操作中，对白响度测量子系统108对从解码器101输出的音频数据进行处理以响应于音频数据生成响度值（例如，选通的和未选通的对白响度值）和动态范围值。响应于这些值，元数据生成器106可以生成响度处理状态元数据以用于（由填充器/格式器107）包括在待从编码器100输出的编码比特流中。

编码器105对从选择级104输出的音频数据进行编码（例如，通过对其执行压缩），并且将编码的音频设定到级107以用于包括在待从级107输出的编码比特流中。

级107将来自编码器105的编码音频和来自生成器106的元数据（包括PIM）进行复用以生成待从级107中输出的编码比特流，优选地使得编码比特流具有由本申请的优选实施方式指定的格式。

帧缓冲器109为存储（例如，以非暂态方式）从级107输出的编码音频比特流的至少一个帧的缓冲存储器，然后编码音频比特流的一系列帧被从缓冲器109作为来自编码器100的输出设定至传送系统150。

在编码器100的一些实现中，缓存在存储器109（以及输出至传送系统150）的编码比特流为AC-3比特流或E-AC-3比特流，并且包括音频数据段（例如，图4中所示的帧的AB0至AB5段）和元数据段，其中音频数据段指示音频数据，并且元数据段中的至少一些中的每个包括PIM（以及可选地其他元数据）。级107将元数据段（包括元数据）插入到下面的格式的比特流中。包括PIM的元数据段中的每个元数据段被包括在比特流的无用位段（也称为“跳过字段”）（例如，图4或图7中所示的无用位段“W”）中，或比特流的帧的比特流信息（“BSI”）段的“addbsi”字段中，或比特流的帧的结束处的辅助数据字段（例如，图4或图7中所示的AUX段）。比特流的帧可以包括一个或两个元数据段，每个元数据段包括元数据，并且如果帧包括两个元数据段，一个可以存在于帧的addbsi字段中而另一个存在于帧的AUX字段中。

在一些实施方式中，由级107插入的每个元数据段（在本文中有时称为“容器”）具有包括元数据段报头（可选地还包括其他强制的或“核心”元素）以及在元数据段报头之后的一个或更多个元数据有效载荷的格式。如果存在，PIM被包括在元数据有效载荷中的第一个有效载荷（由有效载荷报头标识，并且通常具有第一类型的格式）中。类似地，元数据的每个其他类型（如果存在）被包括在元数据有效载荷中的另一有效载荷（由有效载荷报头标识，并且通常具有针对元数据的类型的格式）中。示例性格式使得能够在除了解码期间之外的时间便于访问（例如，由解码之后的后处理器、或由被配置成在没有对编码比特流执行完全解码的情况下识别元数据的处理器）PIM和其他元数据，并且允许在比特流的解码期间（例如，子流识别的）方便和高效的误差检测和校正。元数据段中的一个元数据有效载荷可以包括PIM，元数据段中的另一个元数据有效载荷可以包括第二类型的元数据，以及可选地，元数据段中的至少一个其他元数据有效载荷可以包括其他元数据（例如，响度处理状态元数据或“LPSM”）。

在一些实施方式中，（由级107）包括在编码比特流（例如，指示至少一个音频节目的AC-3比特流）的帧中的节目信息元数据（PIM）有效载荷具有下面的格式：

有效载荷报头，通常包括至少一个标识值（例如，指示PIM格式版本的值，以及可选地长度、周期、计数和子流相关联值）；以及在报头之后的下面格式的PIM：

指示音频节目的每个静音通道和每个非静音通道（即，节目的哪些通道包含音频信息，而哪些通道（如果有）仅包含静音（通常关于帧的持续时间））的活动通道元数据。在编码比特流是AC-3或E-AC-3比特流的实施方式中，比特流的帧中的活动通道元数据可以结合比特流的额外的元数据（例如，帧的音频编码模式（“acmod”）字段，以及，如果存在，帧或相关联的从属子流帧中的chanmap字段）以确定节目的哪些通道包含音频信息而哪些通道包含静音。AC-3或E-AC-3帧的“acmod”字段指示由帧的音频内容指示的音频节目的全音域通道的数量（例如，节目是1.0通道单通道节目、2.0通道立体声节目、还是包括L、R、C、Ls、Rs全音域通道的节目），或者帧指示两个独立的1.0通道单通道节目。E-AC-3比特流的“chanmap”字段指示由比特流指示的从属子流的通道映射。活动通道元数据可以有助于实现解码器的上混合（在后处理器中）下游，例如以在解码器的输出处将音频添加至包含静音的通道；

指示节目是否被下混合（在编码之前或在编码期间）以及如果节目被下混合则被应用的下混合的类型的下混合处理状态元数据。下混合处理状态元数据可以有助于实现解码器的上混合（在后处理器中）下游，例如以使用最匹配被应用的下混合的类型的参数对节目的音频内容进行上混合。在编码比特流是AC-3或E-AC-3比特流的实施方式中，下混合处理状态元数据可以结合帧的音频编码模型（“acmod”）字段以确定应用于节目的通道的下混合（如果有）的类型；

指示在编码之前或在编码期间节目是否被上混合（例如，从较小数量的通道）以及如果节目被上混合则所应用的上混合的类型的上混合处理状态元数据。上混合处理状态元数据可以有助于实现解码器的下混合（在后处理器中）下游，例如以与应用于节目的上混合（例如，杜比定向逻辑、或杜比定向逻辑Ⅱ电影模式、或杜比定向逻辑Ⅱ音乐模式、或杜比专业上混合器）的类型一致的方式对节目的音频内容进行下混合。在编码比特流是E-AC-3比特流的实施方式中，上混合处理状态元数据可以结合其他元数据（例如，帧的“strmtyp”字段的值）以确定应用于节目的通道的上混合（如果有）的类型。（E-AC-3比特流的帧的BSI字段中的）“strmtyp”字段的值指示帧的音频内容是否属于独立流（其确定节目）或（包括多个子流或与多个子流相关联的节目的）独立子流，从而可以独立于由E-AC-3比特流指示的任何其他子流被编码，或帧的音频内容是否属于（包括多个子流或与多个子流相关联的节目的）从属子流，从而必须结合与其相关联的独立子流被解码；以及

预处理状态元数据，其指示：是否对帧的音频内容执行了预处理（在生成编码比特流的音频内容的编码之前），以及如果对帧音频内容执行了预处理则被执行的预处理的类型。

在一些实现中，预处理状态元数据指示：

是否应用环绕衰减（例如，在编码之前，音频节目的环绕通道是否被衰减3dB），

是否（例如，在编码之前，对音频节目的环绕通道Ls和Rs通道）应用90°相移，

在编码之前，是否对音频节目的LFE通道应用低通滤波器，

在生成期间，是否监视节目的LFE通道的电平以及如果监视了节目的LFE通道的电平则LFE通道的监视的电平相对于节目的全音域音频通道的电平，

是否应当对节目的解码音频内容的每个块执行（例如，在解码器中）动态范围压缩以及如果应当对节目的解码音频内容的每个块执行动态范围压缩则待被执行的动态范围压缩的类型（和/或参数）（例如，该类型的预处理状态元数据可以指示以下压缩配置文件类型中的哪个由编码器假定以生成被包括在编码比特流中的动态范围压缩控制值：电影标准、电影光线、音乐标准、音乐光线或语音。或者，该类型的预处理状态元数据可以指示应当以由被包括在编码比特流中的动态范围压缩控制值确定的方式对节目的解码音频内容的每个帧执行重动态范围压缩（“compr”压缩）），

是否使用谱扩展和/或通道耦合编码以对特定频率范围的节目内容进行编码，以及如果使用谱扩展和/或通道耦合编码以对特定频率范围的节目内容进行编码则对其执行谱扩展编码的内容的频率分量的最小频率和最大频率，以及对其执行通道耦合编码的内容的频率分量的最小频率和最大频率。该类型的预处理状态元数据信息可以有助于执行解码器的均衡（在后处理器中）下游。通道耦合信息和谱扩展信息两者都有助于在代码转换操作和应用期间优化质量。例如，编码器可以基于参数例如谱扩展和通道耦合信息的状态优化其行为（包括预处理步骤例如头戴式耳机虚拟、上混合等的自适应）。而且，编码器可以基于进入的（并且认证的）元数据的状态来动态地修改其耦合参数和谱扩展参数以匹配最佳值和/或将其耦合和谱扩展参数修改成最佳值，以及

对白增强调整范围数据是否包括在编码比特流中，以及如果对白增强调整范围数据包括在编码比特流中，则在相对于音频节目中的非对白内容的电平调整对白内容的电平的对白增强处理（例如，在解码器的后处理器下游）的执行期间可得到的调整的范围。

在一些实现中，额外的预处理状态元数据（例如，指示头戴式耳机相关的参数的元数据）被包括在（由级107）待从编码器100输出的编码比特流的PIM有效载荷中。

每个元数据有效载荷在相应有效载荷ID值和有效载荷配置值之后。

在一些实施方式中，在帧的无用位段/跳过字段（或辅助数据字段或“addbsi”字段）中的元数据段中的每个具有三种等级的结构：

高等级结构（例如，元数据段报头），包括指示无用位（或辅助数据或addbsi）字段是否包括元数据的标志、指示存在什么类型的元数据的至少一个ID值、以及通常还有指示（例如，每个类型的）元数据的多少位存在（如果元数据存在的话）的值。可以存在的元数据的一种类型为PIM，可以存在的元数据的另一类型为LSPM；

中间等级结构，包括与每个所标识的类型的元数据相关联的数据（例如，元数据有效载荷报头、保护值、以及关于每个所标识的类型的元数据的有效载荷ID值和有效载荷配置值）；以及

低等级结构，包括关于每个所标识的类型的元数据的元数据有效载荷（例如，如果PIM被识别为正存在，一系列PIM值，和/或如果该其他类型的元数据被识别为正存在，另一类型（例如，LSPM）的元数据值）。

这样三个等级结构中的数据值可以被嵌套。例如，由高等级结构和中间等级结构标识的每个有效载荷（例如，每个PIM或其他数据有效载荷）的保护值可以被包括在有效载荷之后（从而在有效载荷的元数据有效载荷报头之后），或由高等级结构和中间等级结构标识的所有元数据有效载荷的保护值可以被包括在元数据段中的最终元数据有效载荷之后（从而在元数据段的所有有效载荷的元数据有效载荷报头之后）。

在（参照图8的元数据段或“容器”将要描述的）一个示例中，元数据段报头标识4个元数据有效载荷。如图8所示，元数据段报头包括容器同步字（被标识为“容器同步”）以及版本和键ID值。元数据段报头之后是4个元数据有效载荷和保护位。第一有效载荷（例如，PIM有效载荷）的有效载荷ID值和有效载荷配置（例如，有效载荷尺寸）值在元数据段报头之后，第一有效载荷本身在ID和配置值之后，第二有效载荷（例如，PIM有效载荷）的有效载荷ID值和有效载荷配置（例如，有效载荷尺寸）值在第一有效载荷之后，第二有效载荷本身在这些ID和配置值之后，第三有效载荷（例如，响度处理状态元数据有效载荷）的有效载荷ID值和有效载荷配置（例如，有效载荷尺寸）值在第二有效载荷之后，第三有效载荷本身在这些ID和配置值之后，第四有效载荷的有效载荷ID值和有效载荷配置（例如，有效载荷尺寸）值在第三有效载荷之后，第四有效载荷本身在这些ID和配置值之后，而关于有效载荷中的全部或一些有效载荷（或关于高等级结构和中间等级结构以及有效载荷中的全部或一些有效载荷）的保护值（在图8中被标识为“保护数据”）在最后一个有效载荷之后。

图3是为本申请的音频处理单元的实施方式的解码器（200）以及耦接至解码器（200）的后处理器（300）的框图。后处理器（300）也是本申请的音频处理单元的实施方式。编码器200和后处理器300的部件或元件中的任何一个可以以硬件、软件或硬件和软件的组合被实现为一个或更多个处理和/或一个或更多个电路（例如，ASIC、FPGA或其他集成电路）。解码器200包括如所示地连接的帧缓冲器201、分析器205、音频解码器202、音频状态验证级（验证器）203以及控制位生成级204。通常，解码器200还包括其他处理元件（未示出）。

帧缓冲器201（缓冲存储器）存储（例如，以非暂态方式）由解码器200接收的编码音频比特流的至少一个帧。编码音频比特流的帧序列被从缓冲器201设定到分析器205。

耦接分析器205并且将其配置成从编码输入音频的每个帧中提取PIM（可选地还提取其他元数据），将元数据中的至少一些（例如，PIM）设定到音频状态验证器203和级204，将所提取的元数据设定为（例如对后处理器300的）输出，从编码输入音频中提取音频数据，以及将所提取的音频数据设定到解码器202。

输入至解码器200的编码音频比特流可以是AC-3比特流、E-AC-3比特流或杜比E比特流中的一个。

图3的系统还包括后处理器300。后处理器300包括帧缓冲器301和包括耦接至缓冲器301的至少一个处理元件的其他处理元件（未示出）。帧缓冲器301存储（例如，以非暂态方式）由后处理器300从解码器200接收的解码音频比特流的至少一个帧。耦接后处理器300的处理元件并且将其配置成接收从缓冲器301输出的解码音频比特流的一系列帧并且使用从解码器200输出的元数据和/或从解码器200的级204输出的控制位对其进行自适应处理。通常，后处理器300被配置成使用来自解码器200的元数据对解码音频数据执行自适应处理（例如，使用元数据值对解码音频数据执行自适应响度处理，其中自适应处理可以基于响度处理状态、和/或由指示单个音频节目的音频数据的元数据所指示的一个或更多个音频数据特性）。

解码器200和后处理器300的各种实现被配置成执行本申请的方法的不同的实施方式。

在解码器200的一些实现中，所接收（以及缓存在存储器201中）的编码比特流为AC-3比特流或E-AC-3比特流，并且包括音频数据段（例如，图4所示的帧的AB0至AB5段）和元数据段，其中音频数据段指示音频数据，而元数据段中的至少一些中的每个包括PIM（或其他元数据）。解码器级202（和/或分析器205）被配置成从比特流中提取元数据。元数据段中的包括PIM（可选地还包括其他元数据）的每个元数据段被包括在比特流的帧的无用位段中，或比特流的帧的比特流信息（“BSI”）段的“addbsi”字段中，或比特流的帧的结束处的辅助数据字段（例如，图4所示的AUX段）中。比特流的帧可以包括一个或两个元数据段，其中每个元数据段包括元数据，并且如果帧包括两个元数据段，一个可以存在于帧的addbsi字段中而另一个存在于帧的AUX字段中。

本实用新型的实施方式可以以硬件、固件、或软件、或硬件和软件的组合（例如，作为可编程逻辑阵列）被实现。另外，在本文中所描述的音频处理单元可以是各种通信装置的一部分或与各种通信装置集成，通信装置例如电视机、移动电话、个人计算机、平板电脑，笔记本电脑、机顶盒以及音频/视频接收器。除非另外指明，作为本申请的部分而被包括在内的算法或处理不内在涉及任何特定的计算机或其他设备。具体地，各种通用机器可以利用根据本文中的教示而编写的程序而被使用，或可以更加便于构造更具体的装置（例如，集成电路）以执行所需要的方法步骤。从而，本申请可以以在一个或更多个可编程计算机系统（例如，图1的元件、或图2的编码器100（或编码器的元件）、或图3的解码器（或解码器的元件）、或图3的后处理器（或后处理器的元件）中任意一种的实施）上执行的一个或更多个计算机程序而被实现，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统（包括易失性和非易失性存储器和/或存储元件）、至少一个输入装置或端口以及至少一个输出装置或端口。程序代码被应用于输入数据以执行本文中所描述的功能并生成输出信息。输出信息以已知的方式应用于一个或更多个输出装置。

每个这样的程序可以以任何期望的计算机语言（包括机器、汇编或高级过程的、逻辑的或面向对象的编程语言）实现以与计算机系统通信。在任何情况下，语言可以是编译语言或解释语言。

例如，当由计算机软件指令序列实现时，本申请的实施方式的各种功能和步骤可以由在适当的数字信号处理硬件中运行的多线程软件指令序列实现，在这种情况下，实施方式的各种装置、步骤和功能可以对应于软件指令的部分。

每个这样的计算机程序优选地存储在或下载至由通用或专用可编程计算机可读的存储介质或装置（例如，固态存储器或介质、磁介质或光介质），当存储介质或装置由计算机系统读取以执行本文所描述的过程时，用于配置和操作计算机。本申请的系统还可以被实现为配置有（例如，存储）计算机程序的计算机可读存储介质，其中，这样配置的存储介质使得计算机系统以特定和预先定义的方式操作以执行本文中所描述的功能。

已经描述了本实用新型的大量的实施方式。然而，应当理解的是，在不偏离本实用新型的精神和范围的情况下可以作出各种修改。鉴于上面的教示，本实用新型的大量的修改和变型是可能的。应当理解的是，在所附权利要求的范围内，可以与本文中具体描述的方式不同地实践本实用新型。

Claims

1.一种电气装置，其特征在于，包括：

接口，用于接收编码音频的帧，其中所述帧包括位于所述帧的跳过字段中的节目信息元数据以及位于所述跳过字段之外的编码音频数据；

缓冲器，其耦接至所述接口以用于临时存储所述帧；

分析器，其耦接至所述缓冲器以用于从所述帧中提取所述编码音频数据；以及

AC-3音频解码器，其耦接至所述分析器或与所述分析器集成以用于根据所述编码音频数据生成解码音频。

2.根据权利要求1所述的电气装置，其特征在于，还包括耦接至所述AC-3解码器的后处理器，其中所述后处理器被配置成对所述解码音频执行自适应处理。

3.一种音频处理设备，其特征在于，包括：

输入缓冲存储器，用于存储编码音频比特流的至少一个帧，所述编码音频比特流包括节目信息元数据和音频数据；

分析器，其耦接至所述输入缓冲存储器以用于提取所述音频数据和/或所述节目信息元数据；

AC-3或E-AC-3解码器，其耦接至所述分析器或与所述分析器集成以用于生成解码音频数据；以及

输出缓冲存储器，其耦接至所述解码器以用于存储所述解码音频数据。

4.根据权利要求3所述的音频处理设备，其特征在于，所述音频处理设备为选自以下组的通信装置：电视机、移动电话、个人计算机、平板电脑、笔记本电脑、机顶盒以及音频/视频接收器。