BR122020017896B1

BR122020017896B1 - Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream

Info

Publication number: BR122020017896B1
Application number: BR122020017896-5A
Authority: BR
Inventors: Jeffrey Riedmiller; Michael Ward
Original assignee: Dolby Laboratories Licensing Corporation
Priority date: 2013-06-19
Filing date: 2014-06-12
Publication date: 2022-05-24
Also published as: BR122020017897B1; TWI553632B; US20160322060A1; JP6046275B2; CN106297811A; JP3186472U; KR200478147Y1; TW201506911A; US10037763B2; AU2014281794B9; TW201735012A; EP2954515A1; CN110473559A; SG10201604617VA; JP2016507088A; TWI588817B; CN104240709A; FR3007564A3; MY171737A; US10147436B2

Abstract

CODIFICADOR E DECODIFICADOR DE ÁUDIO COM INFORMAÇÕES DE PROGRAMA OU METADADOS DE ESTRUTURA DE SUBSTREAM. Aparatos e métodos para gerar um fluxo de bits de áudio codificados, inclusive pela inclusão de metadados de estrutura de substream (SSM) e/ou metadados de informações do programa (PIM) e dados de áudio no fluxo de bits. Outros aspectos são aparatos e métodos para decodificação desse fluxo de bits e uma unidade de processamento de áudio (por exemplo, um codificador, um decodificador ou pós-processador) configurada (por exemplo, programada) para realizar qualquer modalidade do método ou que inclui uma memória de buffer que armazena pelo menos um quadro de um fluxo de bits de áudio gerado de acordo com qualquer modalidade do método.

Description

REFERÊNCIA CRUZADA PARA APLICAÇÕES RELACIONADAS

[001] Este pedido reivindica prioridade ao Pedido de Patente dos Estados Unidos Provisória N ° 61/836.865, depositado em 19 de junho de 2013, que é aqui incorporada por referência na sua totalidade.

CAMPO TÉCNICO

[002] A invenção refere-se ao processamento de sinais de áudio e, mais particularmente, à codificação e descodificação de fluxos de bits de dados de áudio com metadados indicativo da estrutura substream e/ou informações do programa de áudio indicado pelos fluxos de bits. Algumas modalidades da invenção geram ou descodificam dados de áudio em um dos formatos conhecidos como Dolby Digital (AC-3), Dolby Digital Plus (Enhanced AC-3 ou E-AC-3) ou Dolby E.

ANTECEDENTE DA INVENÇÃO

[003] Dolby, Dolby Digital, Dolby Digital Plus e Dolby E são mar cas registradas da Dolby Laboratories Licensing Corporation. Dolby Laboratories fornece implementações proprietárias de AC-3 e E-AC-3 conhecidos como Dolby Digital e Dolby Digital Plus, respectivamente.

[004] Unidades de processamento de dados de áudio normal mente operam de forma cega e não atentam ao histórico de processamento de dados de áudio que ocorre antes do recebimento dos dados. Isso pode funcionar em uma estrutura de processamento em que uma única entidade faz todo o processamento de dados de áudio e codificação de diversos dispositivos de renderização da mídia alvo enquanto um dispositivo de renderização da mídia alvo faz toda a decodi- ficação e a renderização dos dados de áudio codificados. No entanto, esse processamento cego não funciona bem (ou simplesmente não funciona) em situações em que uma pluralidade de unidades de pro-cessamento de áudio está espalhada ao longo de uma rede diversa ou encontra-se posicionada em tandem (isto é, em cadeia) e espera-se que execute de maneira ideal seus respectivos tipos de processamento de áudio. Por exemplo, alguns dados de áudio podem ser codificados para sistemas de mídia de alta performance e talvez precisem ser convertidos para um formato reduzido adequado para um dispositivo móvel ao longo de uma cadeia de processamento de meios de comunicação. Com efeito, uma unidade de processamento de áudio pode executar desnecessariamente um tipo de processamento nos dados de áudio que já tenha sido executado. Por exemplo, uma unidade de nivelamento de volume pode executar o processamento em um clipe de áudio de entrada, independentemente de terem ou não de o mes-mo nivelamento de volume ou semelhante ter sido previamente executada no clipe de áudio de entrada. Como resultado, a unidade de nivelamento de volume pode realizar o nivelamento, mesmo quando não for necessário. Esse processamento desnecessário também pode causar a degradação e/ou a remoção de características específicas durante o processamento do conteúdo dos dados de áudio.

Breve Descrição da Invenção

[005] Numa classe de modalidade, a invenção é uma unidade de processamento de áudio capaz de descodificar um fluxo de bits codificado que inclui a estrutura de metadados de substream e/ou metadados de informações do programa (e, opcionalmente, também outros metadados, por exemplo, estado de processamento dos metadados de volume) em pelo menos um segmento de pelo menos um quadro do fluxo de bits e dos dados de áudio em pelo menos um outro segmento do quadro. Neste documento, a estrutura de metadados de substream (ou "SSM") indica os metadados de um fluxo de bits codificados (ou um conjunto de fluxos de bits codificados) indicativo da estrutura de substream de conteúdo do áudio do(s) fluxo(s) de bits codificados, e "metadados de informações do programa" (ou "PIM" ) indica metadados de um fluxo de bits de áudio codificado indicativo de pelo menos um programa de áudio (por exemplo, dois ou mais programas de áudio), em que os metadados de informações do programa é indicativo de pelo menos uma propriedade ou característica do conteúdo de áudio de pelo menos um programa referido (por exemplo, metadados indicando um tipo ou parâmetro de processamento executado em dados de áudio do programa ou metadados que indicam quais os canais do programa são canais ativos).

[006] Em casos típicos (por exemplo, em que o fluxo de bits codi ficados é um fluxo de bits AC-3 ou E-AC-3), os metadados de informações do programa (PIM) são indicativos das informações do programa que não podem praticamente ser transportadas em outras porções do fluxo de bits. Por exemplo, o PIM pode ser indicativo do processamento aplicado ao áudio de PCM antes da codificação (por exemplo, codificação AC-3 ou E-AC-3), em que as bandas de frequência de áudio do programa foram codificadas utilizando técnicas específicas de codificação de áudio e o perfil de compressão usado para criar dados de compressão da gama dinâmica (DRC) no fluxo de bits.

[007] Numa outra classe de modalidades, um método inclui um passo de multiplexação de dados de áudio codificados com SSM e/ou PIM em cada quadro (ou pelo menos alguns quadros) do fluxo de bits. Na descodificação típica, um descodificador extrai o SSM e/ou PIM do fluxo de bits (incluindo por análise e desmultiplexação do SSM e/ou do PIM e dos dados de áudio) e processa os dados de áudio para gerar um fluxo de dados de áudio descodificados (e, em alguns casos, também realiza o processamento adaptativo dos dados de áudio). Em algumas modalidades, os dados de áudio descodificados e o SSM e/ou o PIM são transmitidos a partir do descodificador para um pós- processador configurado para executar o processamento adaptativo com os dados de áudio decodificados utilizando o SSM e/ou PIM.

[008] Em uma classe de modalidades, o método de codificação inventivo gera um fluxo de bits de áudio (por exemplo, um fluxo de bits AC-3 ou E-AC-3), incluindo segmentos de dados de áudio (por exemplo, segmentos AB0-AB5 do quadro mostrado na Fig. 4 ou todos ou alguns dos segmentos AB0- AB 5 do quadro mostrado na Fig. 7), que inclui dados de áudio codificados e divisão do tempo dos segmentos de metadados (incluindo SSM e/ou PIM e, opcionalmente, também outros metadados) mutiplexados com os segmentos de dados de áudio. Em algumas modalidades, cada segmento de metadado (por vezes referidos aqui como "recipiente") tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou "de núcleo") e uma ou mais cargas de me-tadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e outros metadados em períodos que não durante a de- codificação (por exemplo, por um pós-processador após a decodifica- ção ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codifica-dos), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplar, um decodificador pode identificar equivocadamente o número correto de substreams associado a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou "LPSM").

Breve descrição das figuras

[009] FIG. 1 é um diagrama de bloco de uma modalidade de um sistema que pode ser configurado para executar uma modalidade do método da invenção.

[0010] FIG. 2 é um diagrama de bloco de um codificador que é uma modalidade da unidade de processamento de áudio inventivo.

[0011] FIG. 3 é um diagrama de bloco de um decodificador que é uma modalidade da unidade de processamento de áudio inventivo, e um pós-processador acoplado ao mesmo, que é uma outra modalidade da unidade de processamento de áudio inventivo.

[0012] FIG. 4 é um diagrama de um quadro AC-3, incluindo os segmentos em que encontra-se dividido.

[0013] FIG. 5 é um diagrama do segmento de informação de sin cronização (SI) de um quadro AC-3, incluindo os segmentos em que se divide.

[0014] FIG. 6 é um diagrama do segmento de informações de fluxo de bits (BSI) de um quadro AC-3, incluindo os segmentos em que se divide.

[0015] FIG. 7 é um diagrama de um quadro E-AC-3, incluindo os segmentos em que encontra-se dividido.

[0016] FIG. 8 é um diagrama de um segmento de metadados de um fluxo de bits codificado gerado de acordo com uma forma de reali- zação da invenção, incluindo um segmento de cabeçalho de metadados que compreende uma palavra de sincronização recipiente (identificado como "recipiente de sincronização" na Fig. 8) e uma versão e valores da chave de identificação, seguido por várias cargas úteis de metadados e bits de proteção.

Notação e nomenclatura

[0017] Ao longo da presente divulgação, incluindo as reivindica ções, a expressão que executa uma operação "sobre" um sinal ou dados (por exemplo, filtragem, dimensionamento, transformação ou aplicação de ganho ao sinal ou aos dados) é utilizada em um sentido lato para designar a realização da operação diretamente no sinal ou nos dados, ou em uma versão processada do sinal ou dos dados (por exemplo, em uma versão do sinal que foi submetido à filtração preliminar ou de pré-processamento antes da realização da operação no mesmo).

[0018] Ao longo da presente divulgação, incluindo as reivindica ções, a expressão "sistema" é usada em um sentido lato para designar um dispositivo, sistema ou subsistema. Por exemplo, um subsistema que implementa um decodificador pode ser referido como um sistema de decodificador, e um sistema que inclui um tal subsistema (por exemplo, um sistema que gera sinais de saída X, em resposta a entradas múltiplas, no qual o subsistema gera M das entradas e as outras entradas X - M são recebidas a partir de uma fonte externa) também pode ser referido como um sistema decodificador.

[0019] Ao longo da presente divulgação, incluindo as reivindica ções, o termo "processador" é usado em um sentido lato para designar um sistema ou dispositivo programável ou configurável de outra maneira (por exemplo, com um software ou firmware) para executar operações sobre os dados (por exemplo, áudio, vídeo ou ou outros dados de imagem). Exemplos de processadores incluem uma matriz de porta de campo programável (ou outro conjunto de chip ou circuito integrado configurável), um processador de sinal digital programado e/ou configurado de outra maneira para realizar processamento de linha em áudio ou outros dados de som, um computador ou processador programável de finalidade geral e um conjunto de chip ou chip microprocessador programável.

[0020] Ao longo da presente memória descritiva, incluindo nas rei vindicações, as expressões "processador de áudio" e "áudio unidade de processamento" são utilizadas de maneira intercambiável, e num sentido lato, para designar um sistema configurado para processar dados de áudio. Exemplos de unidades de processamento de áudio incluem, mas não estão limitados a codificadores (por exemplo, transco- dificadores), decodificadores, codecs, sistemas de pré-tratamento, sistemas de pós-processamento e sistemas de processamento de fluxo de bits (por vezes referido como ferramentas de processamento de fluxo de bits).

[0021] Ao longo da presente memória descritiva, incluindo nas rei vindicações, a expressão "metadados" (de um fluxo contínuo de dados de áudio codificados) refere-se a dados separados e diferentes a partir dos dados de áudio correspondentes do fluxo de bits.

[0022] Ao longo da presente modalidade, incluindo nas reivindica ções, a expressão "metadados da estrutura do substream" (ou "SSM") refere-se a metadados de um fluxo de bits de áudio codificados (ou um conjunto de fluxos de bits de áudio codificados) indicativo da estrutura de substream do conteúdo de áudio do(s) fluxo(s) de bits codificado(s).

[0023] Ao longo da presente divulgação, incluindo as reivindica ções, a expressão "metadados informações do programa" (ou "PIM") indica a metadados de um fluxo de bits áudio codificado indicativo de pelo menos um programa áudio (por exemplo, dois ou mais programas de áudio), em que os referidos metadados são indicativos de pelo me- nos uma propriedade ou característica do conteúdo de áudio de pelo menos um programa referido (por exemplo, que indica um tipo de metadado ou parâmetro de processamento executado em dados de áudio do programa ou metadados que indicam que canais do programa são canais ativos).

[0024] Ao longo da presente divulgação, incluindo as reivindica ções, a expressão "metadados de estado de processamento" (por exemplo, como na expressão "metadados do estado de processamento do volume") refere-se a metadados (de um fluxo de bits de áudio codificados) associados a dados de áudio do fluxo de bits, indica o estado de processamento dos dados de áudio correspondentes (associados) (por exemplo, que tipo(s) de processamento já foram realizados nos dados de áudio) e, tipicamente, indica também ao menos uma característica dos dados de áudio. A associação dos metadados de estado de processamento com os dados de áudio é sincronizada com o tempo. Assim, os presentes (os recebidos ou atualizados mais recentemente) metadados de estado de processamento indicam que os dados de áudio correspondente compreendem, ao mesmo tempo, os re-sultados do(s) tipo(s) indicado(s) de processamento de dados de áudio. Em alguns casos, os metadados de estado de processamento podem incluir o histórico de processamento e/ou alguns dos ou todos os parâmetros que são usados dentro e/ou derivados dos tipos indicados de processamento. Ademais, os metadados de estado de processamento podem incluir pelo menos uma característica dos dados de áudio correspondentes, que tenha sido computada ou extraída dos dados de áudio. Metadados do estado de processamento também pode incluir outros metadados que não sejam relacionados com ou derivados de qualquer processamento dos dados de áudio correspondentes. Por exemplo, dados de terceiros, informações de rastreamento, identificadores, informações proprietárias ou padrão, dados de anotação do usuário, dados de preferência do usuário, etc. podem ser adicionados por uma unidade de processamento de áudio especial para passar para outras unidades de processamento de áudio.

[0025] Ao longo da presente modalidade, incluindo nas reivindica ções, a expressão "metadados de estado de processamento de volume" (ou "LPSM") refere-se aos metadados de estado de processamento do estado de processamento de volume dos dados de áudio correspondentes (por exemplo, qual(is) o(s) tipo(s) de processamento de volume foi/foram realizado(s) nos dados de áudio) e tipicamente, ademais, pelo menos uma característica (por exemplo, o volume) dos dados de áudio correspondentes. Metadados do estado de processamento de volume podem incluir dados (por exemplo, outros metadados) que não sejam (isto é, quando considerados isoladamente) meta-dados do estado de processamento de volume.

[0026] Ao longo da presente modalidade, incluindo as reivindica ções, a expressão "canal" (ou "canal de áudio") indica um sinal de áudio monofônico.

[0027] Ao longo da presente memória descritiva, incluindo as rei vindicações, a expressão "programa de áudio" indica um conjunto de um ou mais canais de áudio e metadados opcionalmente também associados (por exemplo, os metadados que descrevem uma apresentação de áudio espacial desejada e/ou PIM, e/ou o SSM, e/ou LPSM e/ou um programa de metadados de limite).

[0028] Ao longo da presente memória descritiva, incluindo as rei vindicações, a expressão "limite de metadados de programa" indica metadados de um fluxo de bits de áudio codificados, onde o fluxo de bits de áudio codificados são indicativos de pelo menos um programa de áudio (por exemplo, dois ou mais programas de áudio) e os metadados de limite do programa são indicativos quanto à localização no fluxo de bits de pelo menos um limite (início e/ou final) de pelo menos um programa de áudio mencionado. Por exemplo, os metadados de limite de programa (de um fluxo de bits de áudio codificados de um programa de áudio) podem incluir metadados indicativos do local (por exemplo, o início do quadro "N"° do fluxo de bits ou o local de amostra "H"° do quadro"N"° do fluxo de bits) do início do programa e metadados adicionais indicativos do local (por exemplo, o início do quadro "J"° do fluxo de bits ou o local de amostra "K"° do quadro "J"° do fluxo de bits) do final do programa.

[0029] Ao longo da presente divulgação, incluindo as reivindica ções, o termo "pares" ou "acoplado" é usado para significar tanto uma ligação direta quanto indireta. Assim, se um primeiro dispositivo se acopla a um segundo dispositivo, essa conexão pode ser por meio de uma conexão direta ou por meio de uma conexão indireta por meio de outros dispositivos e conexões.

Descrição Detalhada das Modalidades da Invenção

[0030] Um típico fluxo de dados de áudio inclui tanto o conteúdo de áudio (por exemplo, um ou mais canais de conteúdo de áudio) quanto os metadados indicativos de pelo menos uma característica do conteúdo de áudio. Por exemplo, em um de fluxo de bits AC-3, existem vários parâmetros de metadados de áudio que são especificamente destinados à utilização na alteração do som do programa distribuído a um ambiente de escuta. Um dos parâmetros de metadados é o parâmetro DIALNORM, que se destina a indicar o nível médio de diálogo em um programa de áudio, e é usado para determinar o nível de sinal da reprodução de áudio.

[0031] Durante a reprodução de um fluxo contínuo de bits que compreende uma sequência de diferentes segmentos de programa áudio (cada um tendo um parâmetro DIALNORM diferente), um deco- dificador AC-3 usa o parâmetro DIALNORM de cada segmento para realizar um tipo de processamento de volume no qual ele modifica o nível de reprodução ou de volume de modo que a percepção do volume do diálogo da sequência de segmentos está em um nível consistente. Cada segmento de áudio codificado (item) em uma sequência de itens de áudio codificados (em geral) tem um parâmetro DIALNORM diferente, e o descodificador reduziria o nível de cada um dos elementos de modo que o nível de reprodução ou do volume da caixa de diálogo para cada item é o mesmo ou muito semelhante, embora isso possa exigir a aplicação de diferentes valores de ganho para diferentes quantidades de ganho para diferentes items durante a reprodução.

[0032] DIALNORM é tipicamente definido por um usuário, e não é gerado automaticamente, embora haja um valor DIALNORM padrão se nenhum valor for definido pelo usuário. Por exemplo, um criador de conteúdo pode fazer medições de volume com um dispositivo externo para um codificador AC-3 e, em seguida, transferir o resultado (indicativo da intensidade do diálogo falado de um programa de áudio) para o codificador para definir o valor DIALNORM. Assim, não há dependência do criador de conteúdo para definir o parâmetro DIALNORM corretamente.

[0033] Existem várias razões pelas quais o parâmetro DIALNORM em um fluxo de bits AC-3 pode estar incorreto. Em primeiro lugar, cada codificador AC -3 tem um valor DIALNORM padrão que é usado durante a geração do fluxo de dados se um valor DIALNORM não for definido pelo criador de conteúdo. Esse valor padrão pode ser substancialmente diferente do nível real de volume de diálogo do áudio. Em segundo lugar, mesmo se um criador de conteúdo mede o volume e define o valor DIALNORM de maneira apropriada, pode ter sido usado um algoritmo de medida de volume ou medição que não se conforma com o método recomendado de medição de volume AC-3, resultando em um valor DIALNORM incorreto. Em terceiro lugar, mesmo se um fluxo de bits AC-3 foi criado com o valor DIALNORM medido e definido cor-retamente pelo criador de conteúdo, ele pode ter sido alterado para um valor incorreto durante a transmissão e/ou armazenamento de um fluxo de bits. Por exemplo, não é incomum em aplicações de transmissão de televisão para fluxos de bits AC-3 a serem decodificados, modificados e então recodificados utilizando informações de metadados DIALNORM incorretas. Assim, um valor DIALNORM incluído em um fluxo de bits AC-3 pode estar incorreto ou impreciso e, portanto, pode ter um impacto negativo sobre a qualidade da experiência de audição.

[0034] Além disso, o parâmetro DIALNORM não indica o estado de processamento de volume dos dados de áudio correspondentes (por exemplo, que tipo(s) de processamento de volume foi(ram) reali- zado(s) sobre os dados de áudio). Os metadados do estado de processamento de volume (no formato em que é fornecido em algumas modalidades da presente invenção) é útil para facilitar o processamento adaptativo de intensidade de um fluxo contínuo de dados de áudio e/ou para a verificação da validade do estado do processamento de volume e do volume do conteúdo de áudio, de uma maneira particularmente eficiente.

[0035] Embora a presente invenção não esteja limitada à utilização com um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E, por conveniência, ela será descrita em modalidades em que gera, decodifica ou processa esse fluxo de bits.

[0036] Um fluxo de bits AC-3 codificados compreende metadados e de um a seis canais de conteúdo de áudio. O conteúdo de áudio são dados de áudio que foram comprimidos usando codificação de áudio perceptual. Os metadados incluem vários parâmetros de metadados de áudio que são destinadas à utilização na alteração do som de um programa de entrega para um ambiente de escuta.

[0037] Cada quadro de um fluxo de dados AC-3 codificados con- tém conteúdos de áudio e metadados para amostras 1536 de áudio digital. Para uma taxa de amostra de 48 kHz, isso representa 32 milis- segundos de áudio ou uma taxa de 31,25 quadros por segundo de áudio.

[0038] Cada quadro de um fluxo de bits de áudio E-AC-3 codifica dos contém conteúdos de áudio e metadados para 256, 512, 768 ou 1536 amostras de áudio digital, dependendo se o quadro contém um, dois, três ou seis blocos de dados de áudio, respectivamente. Para uma taxa de amostra de 48 kHz, isso representa 5,333, 10,667, 16 ou 32 milissegundos de áudio digital, respectivamente, ou uma taxa de 189,9, 93,75, 62,5 ou 31,25 quadros por segundo de áudio, respectivamente.

[0039] Tal como indicado na Fig. 4, cada quadro AC-3 é dividido em seções (segmentos), incluindo: uma seção de sincronização de informação (SI) que contém (conforme mostrado na Fig. 5) uma palavra de sincronização (SW) e a primeira de duas palavras de correção de erro (CRC1 ); uma seção de informações de fluxo de bits (BSI) que contém a maior parte dos metadados; seis blocos de áudio (de AB0 a BA5) que contêm conteúdos de áudio comprimido em dados (e também podem incluir metadados); segmentos de bits residuais (W) (também conhecidos como "campos de salto") que contêm todos os bits não-utilizados restantes após a compressão do conteúdo de áudio; uma seção de informação auxiliar (AUX) que pode conter mais metadados; e a segunda de duas palavras de correção de erro (CRC2).

[0040] Conforme indicado na Fig. 7, cada quadro E-AC-3 é dividi do em seções (segmentos), incluindo: uma secção de informação de sincronização (SI) que contém uma palavra de sincronização (SW), (como mostrado na Fig. 5) uma secção de fluxo de bits de Informação (BSI) que contém a maior parte dos metadados; entre um e seis blocos de áudio (de AB0 a BA5) que contêm conteúdos de áudio comprimido em dados (e também podem incluir metadados); segmentos de bits residuais (W) (também conhecidos como "campos de salto") que contêm todos os bits não-utilizados restantes após a compressão do conteúdo de áudio (embora apenas um segmento de bit residual seja mostrado, um segmento de bit residual ou campo de salto diferente se seguiria, tipicamente, a cada bloco áudio); uma seção de informações auxiliares (AUX) que pode conter mais metadados; e uma palavra de correção de erro (CRC).

[0041] Por exemplo, em um de fluxo de bits AC-3 (ou E-AC-3), existem vários parâmetros de metadados de áudio que são especificamente destinados à utilização na alteração do som do programa distribuído a um ambiente de escuta. Um dos parâmetros de metadados é o parâmetro DIALNORM, que está incluído no segmento BSI.

[0042] Como mostrado na Fig. 6, o segmento de um quadro BSI AC-3 inclui um parâmetro de cinco bits ("DIALNORM") que indica o valor DIALNORM para o programa. Um parâmetro de cinco bits ("DIALNORM2") que indica o valor DIALNORM para um segundo programa de áudio transportado no mesmo quadro AC-3 está incluído, se o modo de codificação de áudio ("acmod") do quadro AC-3 for "0", indicando que uma dupla-mono ou configuração de canal "1+1" estiver em uso.

[0043] O segmento BSI também inclui um sinal ("addbsie") indi cando a presença (ou ausência) de informações adicionais do fluxo de bits após o bit "addbsie" bits, um parâmetro ("addbsil") que indica o comprimento de qualquer informação adicional do fluxo de bits após o valor "addbsil" e até 64 bits de informações de fluxo de bits adicionais ("addbsi") após o valor "addbsil".

[0044] O segmento BSI inclui outros valores de metadados não especificamente mostrados na FIG. 6.

[0045] De acordo com uma classe de modalidade, um fluxo de bits de áudio codificados é indicativo de vários substreams de conteúdos de áudio. Em alguns casos, os substreams são indicativos dos conteúdos de áudio de um programa de canais múltiplos, e cada um dos substreams é indicativo de um ou mais dos canais do programa. Em outros casos, vários substreams de um fluxo de bits codificados são indicativos de conteúdos de áudio de vários programas de áudio, tipicamente um programa de áudio "principal" (que pode ser um programa de canais múltiplos) e pelo menos um outro programa de áudio (por exemplo, um programa que seja um comentário sobre o principal programa de áudio).

[0046] Um fluxo de bits de áudio codificados que é indicativa de pelo menos um programa de áudio inclui, necessariamente, pelo menos um substream "independente" do conteúdo de áudio. O substream independente é indicativo de pelo menos um canal de um programa de áudio (por exemplo, o substream independente pode ser indicativo dos cinco canais de faixa total de um programa de áudio de canal 5.1 convencional). Aqui, este programa de áudio é referido como um programa "principal".

[0047] Em algumas classes de modalidade, um fluxo de bits codifi cados é indicativo de dois ou mais programas de áudio (um programa "principal" e pelo menos um outro programa de áudio). Em tais casos, o fluxo de bits inclui dois ou mais substreams independentes: um primeiro substream independente indicativo de pelo menos um canal do programa principal; e pelo menos um outro substream independente indicativo de pelo menos um canal de outro programa de áudio (um programa diferente do programa principal). Cada fluxo de bits independente pode ser decodificado independentemente, e um decodifica- dor pode operar para decodificar apenas um subconjunto (não todos) dos substreams independentes de um fluxo de bits codificados.

[0048] Em um exemplo típico de um fluxo de bits de áudio codifi- cados que é indicativo de dois substreams independentes, um dos substreams independentes é indicativo de canais de alto-falante de formato padrão de um programa principal de canais múltiplos (por exemplo, esquerda, direita, centro, esquerda Surround, canais de alto- falante de faixa total de direita Surround de um programa principal de canal 5.1) e o outro substream independente é indicativo de um comentário de áudo monofônico sobre o programa principal (por exemplo, o comentário de um diretor em um filme, onde o programa principal é a trilha sonora do filme). Em outro exemplo de um fluxo de bits de áudio codificados indicativo de substreams múltiplos independentes, um dos substreams independentes é indicativo de canais padrão de alto-falantes de formato padrão de um programa principal de canais múltiplos (por exemplo, um programa principal de canal 5.1) que inclui um primeiro diálogo em uma primeira língua (por exemplo, um dos canais do alto-falante do programa principal pode ser um indicativo da janela) e cada outro substream independente é indicativo de uma tradução monofônica (em um idioma diferente) do diálogo.

[0049] Opcionalmente, um fluxo de bits áudio codificados é indica tivo de um programa principal (e, opcionalmente, também pelo menos um outro programa de áudio) inclui pelo menos um substream "dependente" dos conteúdos de áudio. Cada substream dependente está associado a um substream independente do fluxo de bits e é indicativo de pelo menos um canal suplementar do programa (por exemplo, o programa principal) cujo conteúdo é indicado pela substream independente associado (isto é, o substream dependente é indicativo de pelo menos um canal de um programa que não é indicado pelo substream independente associado, e o substream independente associado é indicativo de pelo menos um canal do programa).

[0050] Em um exemplo de um fluxo de bits codificados que inclui um substream independente (indicativo de pelo menos um canal de um programa principal), o fluxo de bits inclui também um substream dependente (associado ao fluxo de bits independente) que é indicativo de um ou mais canais de alto-falante do programa principal. Esses canais de alto-falante adicionais são suplementares ao(s) canal(is) do programa principal indicado pelo substream independente. Por exemplo, se o substream independente for indicativo do formato padrão esquerda, direita, centro, esquerda Surround, canais de alto-falante de faixa total de direita Surround de um programa principal de canal 7.1, o substream dependente pode ser um indicativo dos dois outros canais de alto-falante de faixa total do programa principal.

[0051] Em conformidade com o padrão E-AC-3, um fluxo de bits E- AC-3 deve ser indicativo de pelo menos um substream independente (por exemplo, um fluxo de bits AC-3 único), e pode ser indicativo de até oito substreams independentes. Cada substream independente de um fluxo de bits E-AC-3 pode ser associado com até oito substreams dependentes.

[0052] O fluxo de bits E-AC-3 inclui metadados indicativos da es trutura de substream do fluxo de bits. Por exemplo, um campo "chanmap" na seção de informações do fluxo de bits (BSI) de um fluxo de bits E-AC-3 determina um mapa de canal para os canais do programa indicados por um substream dependente do fluxo de bits. No entanto, os metadados indicativos da estrutura de substream são convencionalmente incluídos em um fluxo de bits E-AC-3 em um formato tal que seja conveniente para acesso e uso (durante a decodificação do fluxo de bits E-AC-3 CODIFICADO) apenas por um decodificador E-AC-3; não para o acesso e uso após a decodificação (por exemplo, por um pós-processador) ou antes da decodificação (por exemplo, por um processador configurado para reconhecer os metadados). Além disso, existe um risco de que um decodificador pode identificar incorretamente os substreams de um fluxo de bits convencional E-AC-3 codificado utilizando os metadados convencionalmente incluídos e que não era conhecido até a presente invenção de como incluir metadados de estrutura de substream em um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 codificado) de um formato tal que permita uma detecção e uma correção eficientes e convenientes de erros na identificação do substream durante a decodificação do fluxo de bits.

[0053] O fluxo de bits E-AC-3 pode incluir ainda metadados acerca dos conteúdos de áudio de um programa de áudio. Por exemplo, um fluxo de bits E-AC-3 indicativo de um programa de áudio inclui metadados indicativos de frequências mínima e máxima para a qual o processamento de extensão espectral (e codificação de canal de acoplamento) foi utilizado para codificar o conteúdo do programa. No entanto, tais metadados indicativos da estrutura de substream são convencionalmente incluídos em um fluxo de bits E-AC-3 em um formato tal que seja conveniente para acesso e uso (durante a decodificação do fluxo de bits E-AC-3 CODIFICADO) apenas por um decodificador E-AC-3; não para o acesso e uso após a decodificação (por exemplo, por um pós-processador) ou antes da decodificação (por exemplo, por um processador configurado para reconhecer os metadados). Além disso, tais metadados não estão incluídos em um fluxo de bits E-AC-3 em um formato que permita, de forma conveniente e eficiente, a detecção e a correção de erro da identificação desses metadados durante a decodi- ficação do fluxo de bits.

[0054] De acordo com modalidades típicas da invenção, PIM e/ou SSM (e, opcionalmente, também outros metadados, por exemplo, metadados do estado de processamento de volume ou "LPSM") são incorporados em um ou mais campos reservados (ou ranhuras) de segmentos de metadados de um fluxo de bits de áudio que inclui também dados de áudio em outros segmentos (segmentos de dados de áudio). Tipicamente, pelo menos um segmento de cada quadro do fluxo de dados inclui PIM ou SSM, e pelo menos um outro segmento do quadro inclui dados de áudio correspondentes (isto é, dados de áudio cuja estrutura de substream é indicada pelo SSM e/ou possuindo pelo menos uma característica ou propriedade indicada pelo PIM).

[0055] Em uma classe de modalidade, cada segmento de metada dos é uma estrutura de dados (por vezes referida neste documento como um recipiente) que pode conter uma ou mais cargas de metadados. Cada carga inclui um cabeçalho que inclui um identificador de carga específico (e dados de configuração de carga útil) para proporcionar uma indicação inequívoca do tipo de metadado presente na carga útil. A fim de cargas úteis no interior do recipiente é indefinida, de modo que cargas pode ser armazenado em qualquer ordem e um analisador tem de ser capaz de analisar todo o recipiente para extrair cargas úteis e relevantes ignorar cargas úteis que são ou não são relevantes, ou sem suporte. A Figura 8 (a ser descrito abaixo) ilustra a estrutura de um tal recipiente e cargas úteis no interior do recipiente.

[0056] A comunicação dos metadados (por exemplo, SSM e/ou PIM e/ou LPSM) em uma cadeia de processamento de dados de áudio é particularmente útil quando duas ou mais unidades de processamento de áudio precisam trabalhar em conjunto um com o outro ao longo da cadeia de processamento (ou ciclo vital dos conteúdos). Sem a inclusão de metadados em um fluxo de bits de áudio, sérios problemas de processamento de mídia, como de qualidade, nível ou degradações espaciais podem acontecer, por exemplo, quando dois ou mais codecs de áudio são usados na cadeia e um nivelamento de volume de extremidade única é aplicado mais de uma vez durante uma passagem de fluxo de bits para um dispositivo de consumo de mídia (ou um ponto de renderização dos conteúdos de áudio do fluxo de bits).

[0057] Os metadados do estado de processamento de volume (LPSM) incorporado em um fluxo de bits de áudio de acordo com al- gumas modalidades da invenção podem ser autenticados e validados, por exemplo, para permitir que as entidades reguladoras de velocidade verifiquem se o volume de um programa específico já está dentro da faixa especificada e se os dados de áudio correspondentes não foram alterados (garantindo, assim, a conformidade com as regulações aplicáveis). Um valor de volume incluído em um bloco de dados que compreende os metadados do estado de processamento de volume pode ser lido para verificar isso em vez de calcular o volume novamente. Em resposta aos LPSM, uma agência reguladora pode determinar que o conteúdo de áudio correspondente está em conformidade (conforme indicado pelos LPSM) com estatutário de volume e/ou requisitos regu- latórios (por exemplo, os regulamentos promulgados sob o Commercial Advertisement Loudness Mitigation Act, também conhecido como "CALM" Act) sem a necessidade de calcular o volume dos conteúdos de áudio.

[0058] FIG. 1 é um diagrama de bloco exemplificativo de uma ca deia de processamento de áudio (um sistema de processamento de dados de áudio), em que um ou mais dos elementos do sistema pode ser configurado de acordo com uma modalidade da presente invenção. O sistema inclui os seguintes elementos, acoplados conforme se mostra: uma unidade de pré-processamento, um codificador, uma análise de sinale e unidade de correção de metadados, um decodificador e uma unidade de pré-processamento. Em variações do sistema mostrado, um ou mais dos elementos encontram-se omitidos, ou unidades adicionais de processamento de dados de áudio, estão incluídos.

[0059] Em algumas implementações, a unidade de pré- processamento da FIG. 1 está configurado para aceitar PCM (domínio de tempo) de amostras que compreendem o conteúdo de áudio como entrada, e para as amostras de PCM processadas na saída. O codificador pode ser configurado para aceitar as amostras de PCM como entrada e para a saída de um fluxo de áudio de bits codificado (por exemplo, comprimido) indicativo dos conteúdos de áudio. Os dados do fluxo de bits que são indicativos dos conteúdos de áudio são por vezes aqui referidos como "dados de áudio." Se o codificador é configurado de acordo com uma forma de realização típica da presente invenção, a saída de fluxo de bits de áudio do codificador inclui PIM e/ou SSM (e, opcionalmente, também dos metadados de estado de processamento de volume e/ou outros metadados), bem como dados de áudio.

[0060] A análise de sinal e a unidade de correção de metadados da Fig. 1 pode aceitar um ou mais fluxos de bits de áudio codificados e determinar (por exemplo, validar) se os metadados (por exemplo, metadados do estado de processamento) em cada fluxo de bits de áudio codificados estão corretos realizando análise de sinal (por exemplo, usando metadados de fronteira de programa em um fluxo de bits de áudio codificados). Se a análise de sina e a unidade de correção de metadados descobrir que os metadados incluídos são inválidos, ele normalmente substitui o(s) valor(es) incorreto(s) pelo(s) valor(es) cor- reto(s) da análise de sinal. Assim, cada saída de fluxo de bits de áudio codificados da análise de sinal e da unidade de correção dos metadados pode incluir metadados do estado de processamento corrigido (ou não-corrigido), assim como dados de áudio codificados.

[0061] O decodificador da Fig. 1 pode aceitar fluxos de bits codifi cados de áudio como entrada e fluxos de bits de áudio modificados (por exemplo, codificados de maneira diferente) na saída como resposta (por exemplo, através da decodificação de um fluxo de entrada e recodificação do fluxo decodificado em um formato de codificação diferente). Se o transcodificador é configurado de acordo com uma modalidade típica da presente invenção, a saída do fluxo de bits do transco- dificador inclui SSM e/ou PIM (e, tipicamente, também outros metadados), assim como dados de áudio codificados. Os metadados podem ter sido incluídos no fluxo de bits de entrada.

[0062] O decodificador da Fig. 1 pode aceitar fluxos de dados de áudio codificados (por exemplo, comprimidos) como entrada, e fluxos de saída (como resposta) das amostras de áudio de PCM decodificadas. Se o decodificador estiver configurado de acordo com uma modalidade típica da presente invenção, a saída do decodificador em uma operação típica é ou inclui qualquer um dos seguintes elementos:

[0063] um fluxo de amostras de áudio e pelo menos um fluxo cor respondente de SSM e/ou PIM (e tipicamente também outros metadados) extraído de um fluxo de bits codificado na entrada; ou

[0064] um fluxo de amostras de áudio, e um fluxo de bits de con trole do fluxo correspondente determinado a partir de SSM e/ou PIM (e tipicamente também outros metadados, por exemplo, LPSM) extraído de um fluxo de bits codificados na saída; ou

[0065] um fluxo de amostras de áudio, sem um fluxo correspon dente de metadados ou bits de controle determinados a partir de metadados. Neste último caso, o decodificador pode extrair metadados a partir do fluxo de bits codificados na entrada e executar pelo menos uma operação nos metadados extraídos (por exemplo, validação), mesmo que não envie os metadados extraídos ou os bits de controle determinados a partir dos mesmos.

[0066] Ao configurar-se a unidade de pós-processamento da Fig. 1 em conformidade com uma modalidade típica da presente invenção, a unidade de pós-processamento é configurado para aceitar um fluxo de amostras de áudio de PCM decodificadas e para realizar o pós- processamento das mesmas (por exemplo, nivelamento de volume do conteúdo áudio) usando SSM e/ou PIM (e tipicamente também outros metadados, por exemplo, LPSM) recebido com as amostras, ou bits de controle determinados pelo decodificador dos metadados recebidos com as amostras. A unidade de pós-processamento é tipicamente con- figurada também para processar o conteúdo pós-processado de áudio para reprodução por um ou mais alto-falantes.

[0067] Modalidades típicas da presente invenção fornecem uma cadeia de processamento de áudio melhorado em que unidades de processamento de áudio (por exemplo, codificadores, decodificadores, transcodificadores e unidades de pré e pós-processamento) adaptam seu respectivo processamento para ser aplicado aos dados de áudio de acordo com um estado contemporâneo dos dados de mídia conforme indicados pelos metadados recebidos respectivamente pelas unidades de processamento de áudio.

[0068] A entrada de dados de áudio para qualquer unidade de processamento de áudio do sistema da Fig. 1 (por exemplo, o codificador ou transcodificador da Fig. 1) pode incluir SSM e/ou PIM (e, opcionalmente, também outros metadados), bem como dados de áudio (por exemplo, dados de áudio codificados). Estes metadados podem ter sido incluídos no áudio de entrada por outro elemento do sistema da Fig. 1 (ou outra fonte, não mostrada na Fig. 1), de acordo com uma modalidade da presente invenção. A unidade de processamento que recebe a entrada de áudio (com metadados) pode ser configurada para executar pelo menos uma operação nos metadados (por exemplo, validação) ou em resposta aos metadados (por exemplo, processa-mento adaptativo da entrada de áudio), e tipicamente também para incluir em seu áudio de saída os metadados, uma versão processada dos metadados ou bits de controle determinados a partir dos metadados.

[0069] Uma modalidade típica da unidade de processamento do áudio da invenção (ou processador de áudio) está configurado para executar o processamento adaptativo de dados de áudio com base no estado dos dados de áudio como indicado por metadados que correspondem aos dados de áudio. Em algumas modalidades, o processa- mento adaptativo é (ou inclui) o processamento de volume (se os metadados indicam que o processamento de volume, ou processamento semelhante ao mesmo, ainda não foi executado nos dados de áudio, mas não é (e não inclui) um processamento de volume (se os metadados indicam que esse processamento de volume, ou processamento semelhante ao mesmo, já foi executado nos dados de áudio). Em algumas modalidades, o processamento adaptativo é ou inclui a validação de metadados (por exemplo, realizado em uma subunidade de validação de metadados) para assegurar que a unidade de processamento de áudio execute outro processamento adaptativo dos dados de áudio no estado dos dados de áudio, conforme indicado pelos metadados. Em algumas modalidades, a validação determina a confiabilidade dos metadados associados aos (por exemplo, incluídos em um fluxo de bits com) os dados de áudio. Por exemplo, se os metadados forem validados como sendo confiáveis, então os resultados de um tipo de processamento de áudio executado anteriormente podem ser reutilizados e uma nova execução do mesmo tipo de processamento de áudio pode ser evitada. Por outro lado, se descobre-se que os metadados foram adulterados com (ou se não são confiáveis por algum outro motivo), então o tipo de processamento de mídia supostamente executado anteriormente (como indicado pelos metadados não- confiáveis) pode ser repetido pela unidade de processamento de áudio e/ou outro processamento pode ser realizado pela unidade de processamento de áudio nos metadados e/ou nos dados de áudio. A unidade de processamento de áudio poderá também ser configurada para sinalizar a outras unidades de processamento de áudio a jusante em uma cadeia de processamento de mídia melhorada que os metadados (por exemplo, presentes em um fluxo de bits de mídia) são válidos, se a unidade determinar que os metadados são válidos (por exemplo, com base na correspondência entre um valor criptográfico extraído e um valor criptográfico de referência).

[0070] FIG. 2 é um diagrama de bloco de um codificador (100) que é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 100 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASIC, FPGA ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. O codificador 100 compreende um buffer de quadro 110, um analisador 111, um decodificador 101, um validador de estado de áudio 102, uma etapa de processamento de volume 103, uma etapa de seleção de fluxo de áudio 104, um codificador 105, uma etapa do enche- dor/formatador 107, uma etapa de geração de metadados 106, um subsistema de medição de volume do diálogo 108 e um buffer de quadro 109, conectados conforme mostrado. Tipicamente, ademais, o codificador 100 inclui outros elementos de processamento (não mostrado).

[0071] O codificador 100 (que é um transcodificador) é configurado para converter uma corrente de bits de áudio de entrada (que, por exemplo, pode ser um de um fluxo de bits AC-3, um fluxo de bits E- AC-3 bitstream ou um fluxo de bits Dolby E) para um fluxo de bits de áudio de saída (que pode, por exemplo, ser outro dentre um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E) incluindo através da realização do processamento de volume adaptativo e automatizado utilizando os metadados do estado de processamento de volume incluído no fluxo de bits de entrada. Por exemplo, o codificador 100 pode ser configurado para converter um fluxo de dados Dolby E de entrada (um formato tipicamente usado em instalações de produção e de transmissão, mas não em dispositivos de consumo que recebem programas de áudio que tenham sido transmitidos ao mesmo) a um fluxo de bits de áudio de saída codificados (adequado para a radiodifusão para dispositivos de consumo) em formato AC-3 ou E-AC- 3.

[0072] O sistema da FIG. 2 também inclui subsistema de entrega de áudio codificado 150 (que armazena e/ou entrega a saída fluxos de bits codificado do codificador 100) e decodificador 152. Um fluxo de bits de áudio codificados do codificador 100 pode ser armazenado pelo subsistema 150 (por exemplo, no formato de um DVD ou de um disco Blu ray) ou transmitido pelo subsistema 150 (o qual pode implementar uma rede ou um link de transmissão), ou pode ser ambos armazenados e transmitidos pelo subsistema 150. O decodificador 152 está configurado para decodificar um fluxo de bits áudio codificados (gerado pelo codificador 100) que recebe através do subsistema de 150, incluindo a extração dos metadados (PIM e/ou SSM, e, opcionalmente, também os metadados do estado de processamento de volume e/ou outros metadados) de cada quadro do fluxo de bits (e opcionalmente também a extração de metadados do limite do programa de extração do fluxo de bits) e a geração de dados de áudio codificados. Tipica-mente, o decodificador 152 está configurado para executar o processamento adaptativo nos dados de áudio decodificados usando PIM e/ou SSM e/ou LPSM (e, opcionalmente, também metadados de limite do programa) e/ou para transmitir os dados e metadados de áudio decodificados a um pós-processador configurado para executar o processamento adaptativo nos dados de áudio decodificados usando os metadados. Normalmente, o decodificador 152 inclui um buffer que armazena (por exemplo, de forma não-transitória) o fluxo de bits de áudio codificadosrecebido a partir do subsistema 150.

[0073] Várias implementações do codificador 100 e do decodifica- dor 152 são configuradas para realizar diferentes modalidades do método da invenção.

[0074] O buffer do quadro 110 é uma memória de buffer acoplada para receber um fluxo de bits de áudio de entrada codificados. Em fun-cionamento, o buffer 110 armazena (por exemplo, de maneira não- transitória) pelo menos um quadro do fluxo de bits de áudio codificados, e uma sequência dos quadros do fluxo de bits de áudio codificados é imposta a partir do buffer 110 até o analisador 111.

[0075] O analisador 111 é acoplado e configurado para extrair PIM e/ou SSM, e os metadados do estado de processamento de volume (LPSM), e opcionalmente também os metadados de limite do programa (e/ou outros metadados) de cada quadro de áudio de entrada codificado em que metadado desses é incluído para atribuir no mínimo os LPSM (e opcionalmente também programar metadados de limite e/ou outros metadados) ao validador do estado de áudio 102, a estapa de processamento de volume 103, a etapa 106 e o subsistema 108, para extrair os dados de áudio do áudio de entrada codificado e para atribuir os dados de áudio ao decodificador 101. O decodificador 101 do codificador 100 é configurado para decodificar os dados de áudio para gerar dados de áudio decodificados e atribuir os dados de áudio decodificados à etapa de processamento de volume 103, à etapa de seleção do fluxo de áudio 104, ao subsistema 108 e, tipicamente, também ao validador de estado 102.

[0076] O validador de estado 102 é configurado para autenticar e validar os LPSM (e opcionalmente outros metadados) impostos ao mesmo. Em algumas modalidades, os LPSM são (ou estão incluídos em) um bloco de dados que foram incluídos no fluxo de bits de entrada (por exemplo, de acordo com uma modalidade da presente invenção). O bloco pode compreender um hash criptográfico (um código de autenticação de mensagem baseado em hash ou "HMAC") para processar os LPSM (e, opcionalmente, também outros metadados) e/ou os dados de áudio subjacentes (fornecidos a partir do decodificador 101 ao validador 102). O bloco de dados pode ser assinado digitalmente nessas modalidades, de modo que uma unidade de processamento de áudio a jusante possa, de maneira relativamente fácil, autenticar e validar os metadados do estado de processamento.

[0077] Por exemplo, o HMAC é usado para gerar uma assimilação, e o(s) valor(es) de proteção incluídos no fluxo de bits da invenção podem incluir o produto da assimilação. A assimilação pode ser gerada conforme segue, para um quadro AC- 3: 1. Depois que os dados AC-3 e LPSM estiverem codificados, os bytes dos dados do quadro (data_frame #1 e data_frame #2 concatenados) e os bytes de dados dos LPSM são usados como entrada para o HMAC da função de hash. Outros dados, que podem estar presentes dentro de um campo de dados auxiliar, não são levados em consideração para o cálculo da assimulação. Estes outros dados podem ser bytes não-pertencentes aos dados AC-3 nem aos dados LSPSM. Os bits de proteção incluídos nos LPSM não podem ser considerados para o cálculo da assimilação de HMAC. 2. Após a assimilação ser calculada, ela é escrita no fluxo de bits em um campo reservado aos bits de proteção. 3. A última etapa da geração do quadro AC-3 completo é o cálculo da verificação de CRC. Ele é escrito no fim do quadro e todos os dados pertencentes a esse quadro são levados em consideração, incluindo os bits de LPSM.

[0078] Outros métodos de criptografia, incluindo, mas não limitado a, qualquer um ou mais de um dos métodos criptográficos não-HMAC, podem ser utilizados para validar os LPSM e/ou outros metadados (por exemplo, no validador 102) para garantir uma transmissão e um recebimento seguros dos metadados e/ou dos dados de áudio subjacentes. Por exemplo, a validação (usando esse método criptográfico) pode ser realizada em cada unidade de processamento de áudio que recebe uma modalidade do fluxo de dados de áudio da invenção para deter- minar se os metadados correspondentes e dados de áudio incluídos no fluxo de bits foram submetidos (e/ou que foram o resultado de) processamento específico (conforme indicado pelos metadados) e não foram modificados após a realização de tal processamento específico.

[0079] O validador de estado 102 impõe dados de controle à etapa de seleção do fluxo de áudio 104, ao gerador de metadados 106 e ao subsistema de medição de volume do diálogo 108 para indicar os resultados da operação de validação. Em resposta aos dados de controle, a etapa 104 pode selecionar (e atravessar até o codificador 105) ou: a saída adaptativamente processada da etapa de processamento de volume 103 (por exemplo, quando os LPSM indicarem que a saída de dados áudio do decodificador 101 não foi submetida a um tipo específico de processamento de volume e os bits de controle do validador 102 indicarem que os LPSM são válidos); ou a saída de dados de áudio do decodificador 101 (por exemplo, quando os LPSM indicarem que a saída de dados áudio do deco- dificador 101 já foi submetida ao tipo específico de processamento de volume que seria executado pela etapa 103 e os bits de controle do validador 102 indicarem que os LPSM são válidos).

[0080] A etapa 103 de codificador 100 está configurado para exe cutar o processamento adaptativo de volume na saída de dados de áudio decodificados do decodificador 101, com base em uma ou mais características de dados de áudio indicados pelos LPSM extraídos pelo decodificador 101. A etapa 103 pode ser um volume em tempo real de domínio de transformação adaptativo e um processador de controle de faixa dinâmica. A etapa 103 pode receber uma entrada do usuário (por exemplo, o volume alvo do usuário/os valores de faixa dinâmica ou valores dialnorm) ou outra entrada de metadados (por exemplo, um ou mais tipos de dados de um terceiro, informações de rastreamento, dados de preferência do usuário, etc.) e/ou outra entrada (por exemplo, a partir de um processo de impressão digital), e utilizar essa entrada para processar a saída de dados de áudio decodificados do de- codificador 101. A etapa 103 pode executar o processamento adapta- tivo de volume em dados de áudio decodificados (saída do decodifica- dor 101) indicativos de um único programa de áudio (como indicado por metadados de limite do programa extraídos pelo analisador 111), e podem redefinir o processamento de volume em resposta ao recebimento de dados de áudio decodificados (saída do decodificador 101) indicativos de um programa de áudio diferente, como indicado pelos metadados de limite do programa extraídos pelo analisador 111.

[0081] O subsistema de medição de volume do diálogo 108 pode operar para determinar o volume de segmentos do áudio descodificado (a partir do decodificador 101) que são indicativos do diálogo (ou outra fala), por exemplo, utilizando os LPSM (e/ou outros metadados) extraído pelo decodificador 101, quando os bits de controle do validador 102 indicarem que os LPSM são inválidos. A operação do subsistema de medição de volume do diálogo 108 pode ser desabilitada quando os LPSM indicarem um volume previamente determinado dos segmentos do diálogo (ou de outra fala) do áudio decodificado (do decodificador 101) quando os bits de controle do validador 102 indicarem que os LPSM são válidos. O subsistema 108 pode realizar uma medição de volumes em dados de áudio decodificados indicativos de um único programa de áudio (como indicado pelos metadados de limite do programa extraídos pelo analisador 111) e pode redefinir a medição em resposta ao recebimento de dados de áudio decodificados indicativos de um programa de áudio diferente, como indicado por tais metadados de limite do programa.

[0082] Ferramentas úteis (por exemplo, o medidor de volume Dol by LM100) existem para medir o nível de diálogo nos conteúdos de áudio de forma fácil e conveniente. Algumas modalidades da APU inventiva (por exemplo, etapa 108 do codificador 100) são implementadas para incluir (ou para desempenhar as funções de) uma ferramenta para medir o volume médio de diálogo de um fluxo de bits de áudio (por exemplo, um fluxo de bits AC-3 decodificado imposto à etapa 108 do decodificador 101 do codificador 100).

[0083] Se a etapa 108 for implementada para medir o verdadeiro volume médio de diálogo dos dados de áudio, a medição pode incluir uma etapa de isolamento dos segmentos do conteúdo de áudio que contêm predominantemente falas. Os segmentos de áudio que são predominantemente de fala são então processados de acordo com um algoritmo de medida de volume. Para dados de áudio decodificados a partir de um fluxo de bits AC-3, esse algoritmo pode ser uma medida de volume mensurada pelo padrão K (em conformidade com o padrão internacional ITU-R BS.1770). Alternativamente, podem ser utilizadas outras medidas de intensidade (por exemplo, aquelas com base em modelos físico-acústicos de volume).

[0084] O isolamento de segmentos de fala não é essencial para medir o volume médio de diálogo dos dados de áudio. Todavia, ele melhora a precisão da medida e normalmente fornece resultados mais satisfatórios da perspectiva de um ouvinte. Visto que nem todo conteúdo de áudio contém diálogo (fala), a medida do volume de todo o conteúdo de áudio pode fornecer uma aproximação suficiente do nível do diálogo do áudio, se a fala estivesse presente.

[0085] O gerador de metadados 106 gera (e/ou passa até a etapa 107) metadados a serem incluídos pela etapa 107 no fluxo de bits codificados para a saída a partir do codificador 100. O gerador de metadados 106 pode passar até a etapa 107 os LPSM (e opcionalmente também LIM e/ou PIM e/ou metadados de limite do programa e/ou outros metadados) extraídos pelo codificador 101 e/ou pelo analisador 111 (por exemplo, quando os bits de controle do validador 102 indicarem que o LPSM e/ou outros metadados são válidos), ou gerar novos LIM e/ou PIM e/ou LPSM e/ou metadados de limite do programa e /ou outros metadados de impuser os novos metadados à etapa 107 (por exemplo, quando os bits de controle do validador 102 indicarem que os metadados extraídos do decodificador 101 são inválidos), ou ele pode atribuir à etapa 107 uma combinação de metadados extraídos pelo decodificador 101 e/ou pelo analisador 111 e de metadados gerados recentemente. O gerador de metadados 106 pode incluir dados de volume gerados pelo subsistema 108 e pelo menos um valor indicativo do tipo de processamento de volume executado pelo subsistema 108, nos LPSM que ele atribui à etapa 107 para a inclusão no fluxo de bits codificados para ser a saída do codificador 100.

[0086] O gerador de metadados 106 pode gerar bits de proteção (que podem consistir em ou incluir um código de autenticação de mensagem baseado em hash ou "HMAC") útil para que pelo menos um dentre os seguintes fatores: desencriptação, autenticação ou validação do LPSM (e, opcionalmente, também outros metadados) sejam incluídos no fluxo de bits codificados e/ou para que os dados de áudio subjacentes sejam incluídos no fluxo de bits codificados. O gerador de metadados 106 pode fornecer esses bits de proteção à etapa 107 para inclusão no fluxo de bits codificados.

[0087] Em uma operação típica, o subsistema de medição de vo lume do diálogo 108 processa a saída de dados de áudio do decodifi- cador 101 para gerar, em resposta ao mesmo, valores de volume (por exemplo, valores de volume de diálogo fechados e não-fechados) e valores de faixa dinâmica. Em resposta a esses valores, o gerador de metadados 106 pode gerar metadados de estado de processamento de volume (LPSM) para inclusão (pelo preenchedor/formatador 107) no fluxo de bits codificados para serem uma saída do codificador 100.

[0088] Além disso, opcionalmente, ou alternativamente, os subsis temas de 106 e/ou 108 do codificador 100 podem executar uma análise adicional dos dados de áudio para gerar metadados indicativos de pelo menos uma característica dos dados de áudio para inclusão no fluxo de bits codificados para serem uma saída a partir da etapa 107.

[0089] O codificador 105 codifica (por exemplo, através da realiza ção da compressão no mesmo) a saída de dados de áudio da etapa de seleção 104 e atribui o áudio codificado à etapa 107 para inclusão no fluxo de bits codificados para serem uma saída a partir da etapa 107.

[0090] A etapa 107 multiplexa o áudio codificado do codificador 105 e os metadados (incluindo PIM e/ou SSM) do gerador 106 para gerar o fluxo de bits codificados para serem uma saída a partir da etapa 107, preferencialmente de modo que o fluxo de bits codificado tenha um formato conforme especificado por uma modalidade preferível da presente invenção.

[0091] O buffer do quadro 109 é uma memória de buffer que ar mazena por exemplo, de uma maneira não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados da etapa 107 e uma sequência dos quadros do fluxo de bits de áudio codificados é então atribuído a partir do buffer 109 como uma saída do codificador 100 ao sistema de distribuição 150.

[0092] Os LPSM gerados pelo gerador de metadados 106 e incluí dos no fluxo de bits codificados pela etapa 107 são tipicamente indicativos do estado de processamento de volume dos dados de áudio correspondentes (por exemplo, que tipo(s) de processamento de volume foi(ram) realizado(s) nos dados de áudio) e do volume (por exemplo, volume de diálogo medido, volume fechado e/ou não-fechado e/ou faixa dinâmica dos dados de áudio correspondentes.

[0093] Neste documento, "fechamento" de volume e/ou medições de nível executadas em dados de áudio referem-se a níveis específicos ou limites de volume em que o(s) valor(es) computado(s) que ex- cede(m) o limite é/são incluído(s) na medição final (por exemplo, ignorando os valores de volume de curto prazo abaixo de -60 dBFS nos valores finais medidos). O fechamento em um valor absoluto refere-se a um volume ou nível fixado, em que o fechamento em um valor relativo refere-se a um valor que depende de um valor atual de medição "não-fechado".

[0094] Em algumas implementações do codificador 100, o fluxo de bits codificados armazenados na memória 109 (e de saída para o sistema de distribuição 150) é um fluxo de bits AC -3 ou um fluxo de bits E-AC-3 e compreende segmentos de dados de áudio (por exemplo, os segmentos AB0-AB5 do quadro mostrado na Fig. 4) e segmentos de metadados, onde os segmentos de dados de áudio são indicativos de dados de áudio e cada um de pelo menos alguns dos segmentos de metadados incluem PIM e/ou SSM (e, opcionalmente, também outros metadados). A etapa 107 insere os segmentos de metadados (incluindo metadados) no fluxo de bits no formato a seguir. Cada um dos segmentos de metadados que inclui PIM e/ou SSM está incluído em um segmento de bit residual do fluxo de bits (por exemplo, um segmento de bit residual "W", como mostrado na Fig. 4 ou na Fig. 7) ou um campo "addbsi" do segmento de Informações de Fluxo de bits ("BSI") de um quadro do fluxo de bits ou em um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4 ou na Fig. 7) ao final de um quadro do fluxo de bits. Um quadro do fluxo de bits pode incluir um ou dois segmentos de metadados, com cada um deles incluindo metadados, e se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro.

[0095] Em algumas modalidades, cada segmento de metadados (por vezes referidos aqui como um "recipiente") inserido pela etapa 107 tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou "de núcleo") e uma ou mais cargas úteis de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e outros metadados em períodos que não durante a decodificação (por exemplo, por um pós-processador após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a de- codificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplar, um decodificador pode iden-tificar equivocadamente o número correto de substreams associados a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou "LPSM").

[0096] Em algumas modalidades, uma carga útil de metadados de estrutura de substream (SSM) incluídos (pela etapa 107) em um qua dro de um fluxo de bits codificados (por exemplo, um fluxo de bits E- AC-3 indicativo de pelo menos um programa de áudio) inclui SSM no seguinte formato:

[0097] um cabeçalho da carga útil, tipicamente incluindo pelo me nos um valor de identificação (por exemplo, um valor de 2 bits indicativo da versão do formato de SSM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e

[0098] após o cabeçalho:

[0099] metadados de substream independentes indicativos do nú mero de substreams independentes do programa indicado pelo fluxo de bits; e

[00100] metadados de substream dependentes indicativos do fato de cada substream independente do programa ter pelo menos um substream dependente associado (isto é, se pelo menos um substream dependente está associada com cada substream independente referido) e, se for o caso, do número de substreams dependentes associados com cada substream independente do programa.

[00101] É contemplado que um substream independente de um fluxo de bits codificado pode ser indicativo de uma série de canais de alto-falante de um programa de áudio (por exemplo, os canais de alto- falante de um programa de áudio de canal de alto-falante 5.1) e de que cada um ou mais dos substreams dependentes (associados com o substream independente, como indicado pelos metadados de substream dependente) pode ser indicativo de um canal de objeto do programa. Tipicamente, no entanto, um substream independente de um fluxo de bits codificados é indicativo de uma série de canais de alto-falante de um programa, e cada substream dependente associado com o substream independente (como indicado pelos metadados de substream dependente) é indicativo de pelo menos um canal de alto-falante adicional do programa.

[00102] Em algumas modalidades, uma carga útil de metadados de informações de programa (PIM) incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) possui o seguinte formato:

[00103] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor indicativo da versão do formato de PIM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e

[00104] após o cabeçalho, PIM no seguinte formato:

[00105] metadados do canal ativo indicativos de cada canal silencioso e de cada canal não-silencioso de um programa de áudio (isto é, que canal(is) do programa contém informações de áudio e qual(is), se houver, contém apenas silêncio (tipicamente durante o período de duração do quadro)). Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do canal ativo em um quadro do fluxo de bits pode ser usado em conjunto com metadados adicionais do fluxo de bits (por exemplo, o campo de modo de codificação de áudio ("acmod") do quadro e, se presente, o campochan- mapno quadro ou no(s) quadro(s) de substream dependente(s) asso- ciado(s) para determinar que canal(is) do programa contém informações de áudio e qual(is) contém silêncio. O campo "acmod" de um quadro AC-3 ou E-AC-3 indica o número de canais de faixa total de um programa de áudio indicado pelo conteúdo de áudio do quadro (por exemplo, se o programa é um programa monofônico de canal 1.0, um programa de canal estéreo 2.0 ou um programa que compreende canais de faixa total L, R, C, Ls, Rs), ou que o quadro é indicativo de dois programas monofônicos de canal independente 1.0. Um campo "chanmap" de um fluxo de bits E-AC-3 indica um mapa de canal para um substream dependente indicado por um fluxo de bits. Os metada dos de canal ativo podem ser úteis para a implementação de mistura (em um pós-processador) a jusante de um decodificador, por exemplo, para adicionar áudio a canais que contêm silêncio na saída do decodi- ficador;

[00106] processamento de submistura de metadados de estado indicativos de se o programa foi submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura que foi aplicada. Os metadados do estado de processamento da submistura pode ser útil para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para submisturar os conteúdos de áudio do programa utilizando os parâmetros que chegam mais próximo a um tipo da submistura que foi aplicada. Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do estado de processamento da submistura podem ser usados em conjunto com o campo de modo de codificação de áudio ("acmod") do quadro para determinar o tipo de submistura (se houver) aplicado ao(s) canal(is) do programa;

[00107] metadados do estado de processamento da mistura indica tivo de se o programa foi misturado (por exemplo, a partir de um número menos de canais) antes ou durante a codificação e, se for o caso, do tipo de mistura que foi aplicado. Os metadados do estado de processamento da mistura podem ser úteis para implementar a submistu- ra (em um pós-processador) a jusante de um decodificador, por exemplo, para subsmiturar os conteúdos de áudio do programa de uma maneira que seja compatível com um tipo da mistura (por exemplo, Dolby Pro Logic, or Dolby Pro Logic II Movie Mode, or Dolby Pro Logic II Music Mode ou Dolby Professional Upmixer) que foi aplicada ao programa. Nas modalidades em que o fluxo de bits codificados é um fluxo de bits E-AC-3, os metadados do estado de processamento da mistura podem ser usados em conjunto com outros metadados (por exemplo, o valor de um campo "strmtyp" do quadro) para determinar o tipo de mistura (se houver) aplicado ao(s) canal(is) do programa. O valor do campo "strmtyp" (no segmento BSI de um quadro de fluxo de bits E-AC-3) indica se o conteúdo áudio do quadro pertence a um fluxo independente (que determina um programa) ou um substream independente (de um programa que inclui ou está associado a vários substreams) e, portanto, pode ser decodificado independentemente de qualquer outro substream indicado pelo fluxo de bits 3-E-AC, ou se o conteúdo de áudio do quadro pertence a um substream dependente (de um programa que inclui ou está associado com vários substreams) e, portanto, deve ser decodificado em conjunto com um substream independente com o qual está associado; e

[00108] metadados do estado de processamento indicativos do fato de o pré-

[00109] processamento ter sido realizado em conteúdos de áudio do quadro (antes da codificação dos conteúdos de áudio para gerar o fluxo de bits codificados) e, se for o caso, o tipo de pré-processamento que foi realizado.

[00110] Em algumas implementações, os metadados do estado de pré-processamento é indicativo de:

[00111] se a atenuação surround foi aplicada (por exemplo, se os canais surround do programa de áudio foram atenuados por 3 dB antes da codificação),

[00112] se 90 graus de mudança de fase foram aplicados (por exemplo, para os canais surround Ls e Rs do programa de áudio antes da codificação),

[00113] se um filtro de passagem baixa foi aplicado a um canal LFE do programa de áudio antes da codificação,

[00114] se o nível de um canal LFE do programa foi monitorado durante a produção e, se for o caso, do nível monitorado do canal LFE relativo ao nível dos canais de áudio de faixa completa do programa,

[00115] se a compressão de faixa dinâmica deve ser executada (por exemplo, no decodificador) em cada bloco dos conteúdos de áudio decodificado do programa e, se for o caso, o tipo (e/ou parâmetros) de compressão de faixa dinâmica a ser executado (por exemplo, esse tipo de metadado de estado de pré-processamento podem ser indicativos de qual dentre os tipos de perfil de compressão foi adotado pelo codificador para gerar os valores de controle de compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados: Padrão de filme, luz de filme, padrão de música, luz da música ou fala. Alternativamente, esse tipo de metadado do estado de pré-processamento pode indicar que a compressão de faixa dinâmica pesada (compressão "compr") deve ser executada em cada quadro dos conteúdos de áudio decodificados do programa de uma forma determinada por valores de controle da compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados),

[00116] se o processamento de extensão espectral e/ou a codificação de ligação de canal foram utilizados para codificar faixas de frequência específicas do conteúdo do programa e, se for o caso, as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de extensão espectral foi executada e as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de ligação de canal foi executada. Esse tipo de informação de metadados do estado de processamento pode ser útil para realizar a equalização (em um pós-processador) a jusante de um decodificador. As informações de extensão espectral e de ligação de canal também são úteis para otimizar a qualidade durante as operações e aplicações de transcodificação. Por exemplo, um codificador pode otimizar o seu comportamento (incluindo a adaptação das etapas de pré-processamento, como a virtualização dos headpho nes, misturas, etc.) com base no estado dos parâmetros, como informações de ligação de canal e de extensão espectral. Além disso, o codificador pode se adaptar aos seus parâmetros de extensão espectral e de ligação de maneira dinâmica para corresponder a e/ou para valores ideais com base no estado dos metadados acoplamento e espectrais de forma dinâmica para coincidir com e/ou para os valores ideais com base no estado dos metadados de entrada (e autenticados) e

[00117] se os dados da faixa de ajuste da potencialização do diálogo foram incluídos no fluxo de bits codificados e, se for o caso, a faixa de ajuste disponível durante a execução do processamento de poten- cialização do diálogo (por exemplo, em um pós-processador a jusante de um decodificador) para ajustar o nível dos conteúdos de diálogo em relação ao nível dos conteúdos que não forem do diálogo no programa de áudio.

[00118] Em algumas implementações, os metadados do estado de pré-processamento adicional (por exemplo, metadados indicativos de parâmetros relacionados ao headphone) estão incluídos (pela etapa 107) em uma carga útil de PIM de um fluxo de bits codificados para serem uma saída do codificador 100.

[00119] Em algumas modalidades, uma carga útil de metadados de estrutura de substream LPSM incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E- AC-3 indicativo de pelo menos um programa de áudio) inclui LPSM no seguinte formato:

[00120] um cabeçalho (incluindo normalmente uma palavra de sincronização que identifica o início da carga útil dos LPSM, seguida por pelo menos um valor de identificação, por exemplo, a versão do formato dos LPSM, comprimento, período, contagem e valores de associação de substream indicados na Tabela 2 abaixo); e

[00121] após o cabeçalho,

[00122] pelo menos um valor de indicação do diálogo (por exemplo, parâmetro "Canal(is) do diálogo" da Tabela 2) que indica se os dados de áudio correspondentes indicam ou não diálogo (por exemplo, que canais dos dados de áudio correspondentes indicam diálogo);

[00123] pelo menos um valor de cumprimento da regulação do volume (por exemplo, parâmetro "Tipo de Regulação do Volume" da Tabela 2) que indica se os dados de áudio correspondentes cumpre com uma série indicada de regulações de volume;

[00124] pelo menos um valor de processamento de volume (por exemplo, um ou mais dos parâmetros "Sinal de Correção do Volume fechado do Diálogo", "Tipo de Correção de Volume" da Tabela 2) que indica pelo menos um tipo de processamento de volume que foi executado sobre os dados de áudio correspondentes; e

[00125] pelo menos um valor de volume (por exemplo, um ou mais dos parâmetros "Volume Fechado Relativo a ITU", "Volume Fechado de Fala Relativo a ITU", "Volume de 3s de curto prazo de ITU (EBU 3341)" E "Pico Real" da Tabela 2) que indica pelo menos uma característica de volume (por exemplo, volume médio ou de pico) dos dados de áudio correspondentes.

[00126] Em algumas modalidades, cada segmento de metadados contendo PIM e/ou SSM (e, opcionalmente, também outros metadados) contém um cabeçalho do segmento dos metadados (e, opcionalmente, também elementos de núcleo adicionais) e, após o cabeçalho do segmento de metadados (ou o cabeçalho de segmento de metadados e outros elementos de núcleo), pelo menos um segmento de carga útil de metadados apresentando o seguinte formato:

[00127] um cabeçalho de carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, versão do formato de SSM ou PIM, comprimento, período, contagem e valores de associação de substream) e

[00128] após o cabeçalho da carga útil, o SSM ou PIM (ou metadados de outro tipo).

[00129] Em algumas implementações, cada um dos segmentos de metadados (por vezes aqui referidos como "recipientes de metadados" ou "recipientes") inseridos pela fase 107 em um bit residual/segmento de campo de salto (ou um campo "addbsi" ou um campo de dados auxiliares) de um quadro do fluxo de bits apresenta o seguinte formato:

[00130] um cabeçalho de segmento de metadados (incluindo, tipicamente, uma palavra de sincronização identificando o início do segmento de metadados, seguido por valores de identificação, por exemplo, versão, comprimento, período, contagem de elemento expandido e valores de associação de substream, como indicado na Tabela 1 abaixo); e

[00131] após o cabeçalho de segmento de metadados pelo menos um valor de proteção (por exemplo, a assimilação de HMAC e valores de impressão digital da Tabela 1) útil para pelo menos um dentre os seguitnes elementos: desencriptação, autenticação ou validação de pelo menos um dos segmentos de metadados ou dados de áudio correspondentes); e

[00132] também após o cabeçalho do segmento de metadados, a identificação da carga útil dos metadados ("ID") e valores de configuração de carga útil que identificam o tipo de metadado em cada carga útil de metadados seguinte e indicam pelo menos um aspecto da configuração (por exemplo, tamanho) de cada uma dessas cargas úteis.

[00133] Cada carga útil de metadados segue a ID de carga útil e os valores de configuração de carga útil correspondentes.

[00134] Em algumas modalidades, cada um dos segmentos de metadados no segmento de bit residual (ou campo de dados auxiliares ou campo "addbsi") de um quadro tem três níveis de estrutura:

[00135] uma estrutura de alto nível (por exemplo, um cabeçalho de segmento de metadados), incluindo um sinal que indica se o campo de bit residual (ou dados auxiliares ou addbsi) inclui metadados, pelo menos um valor de ID que indica que tipo(s) de metadados está(ão) pre- sente(s) e tipicamente também um valor indicando quantos bits de metadados (por exemplo, de cada tipo) estão presentes (se os metadados estiverem presentes). Um tipo de metadado que pode estar presente é PIM, um outro tipo de metadado que pode estar presente é SSM, e outros tipos de metadados que poderiam estar presentes são LPSM e/ou metadados de limite de programa e/ou metadados de pesquisa de mídia;

[00136] uma estrutura de nível intermediário, compreendendo dados associados com cada tipo identificado de metadado (por exemplo, cabeçalho de metadados de carga útil, valores de proteção e valores de configuração de carga útil e ID de carga útil para cada tipo identificado de metadado); e

[00137] uma estrutura de nível baixo, compreendendo uma carga útil de metadados para cada tipo de metadado identificado (por exemplo, uma sequência de valores de PIM, se PIM for identificado como estando presente, e/ou valores de metadados de outro tipo (por exemplo, SSM ou LPSM), se esse outro tipo de metadado for identificado como estando presente).

[00138] Os valores de dados em tal estrutura de três níveis podem estar aninhados. Por exemplo, o(s) valor(es) de proteção para cada carga útil (por exemplo, cada PIM ou SSM ou outra carga útil de metadados) identificado(s) pelas estruturas de nível alto e intermediário po- de(m) ser incluído(s) após a carga útil (e, consequentemente, após o cabeçalho de carga útil da carga útil dos metadados) ou o(s) valor(es) de proteção para todas as cargas úteis dos metadados identificado(s) pelas estruturas de nível alto e intermediário pode(m) ser incluído(s) após a carga útil dos metadados finais no segmento de metadados (e, consequentemente, após os cabeçalhos de carga útil dos metadados de todas as cargas úteis do segmento de metadados).

[00139] Em um exemplo (a descrito com referência ao segmento de metadados ou "recipiente" da Fig. 8), um cabeçalho de segmento de metadados identifica quadro cargas úteis de metadados. Como mostrado na Fig. 8, o cabeçalho do segmento de metadados compreende uma palavra de sincronização de recipiente (identificado como "sincronização de recipiente") e uma versão e valores da chave de identificação. O cabeçalho de segmento de metadados é seguido pelas quatro cargas úteis de metadados e pelos bits de proteção. A ID de carga útil e valores de configuração de carga útil (por exemplo, tamanho da carga útil) para a primeira carga útil (por exemplo, uma carga útil de PIM) segue o cabeçalho de segmento de metadados, a primeira carga útil segue a ID e os valores de configuração, os valores de configuração de carga útil (por exemplo, tamanho da carga útil) e ID da carga útil para a segunda parga útil (por exemplo, uma carga útil de SSM) seguem a primeira carga útil, a segunda carga útil segue esses valores de configuração e ID, os valores de ID de carga útil e configuração de carga útil (por exemplo, tamanho de carga útil) para a terceira carga útil (por exemplo, uma carga útil de LPSM) seguem a segunda carga útil, a terceira carga útil segue esses valores de configuração e ID, os valores de configuração de carga útil (por exemplo, tamanho de carga útil) e ID de carga útil para a quarta carga útil seguem a terceira carga útil, a quarta carga útil segue esses valores de configuração e ID e o(s) valor(es) (identificado(s) como "Dados de Proteção" na Fig. 8) para todas ou algumas das cargas úteis (ou para a estrutura de nível alto e intermediário ou algumas das carga úteis) segue(m) a última carga útil.

[00140] Em algumas modalidades, se o decodificador 101 recebe um fluxo de bits de áudio gerado de acordo com uma modalidade da invenção com um hash criptográfico, o decodificador é configurado para interpretar e recuperar o hash criptográfico de um bloco de dados determinado a partir do fluxo de bits, em que o referido bloco inclui metadados. O validador 102 pode usar o hash criptográfica para validar o fluxo de bits recebido e/ou os metadados associados. Por exemplo, se o validador 102 descobre que os metadados são válidos com base em uma correspondência entre um hash criptográfico de referência e o hash criptográfico recuperado a partir do bloco de dados, então ele pode desativar o funcionamento do processador 103 nos dados de áudio correspondentes e fazer com que a etapa de seleção 104 passe (inalterada) pelos dados de áudio. Além disso, opcionalmente, ou, como alternativa, outros tipos de técnicas criptográficas podem ser utilizadas no lugar de um método baseado em um hash criptográfico.

[00141] Codificador 100 da FIG. 2 pode determinar (em resposta aos LPSM e, opcionalmente, também programar metadados de limite, extraídos pelo decodificador 101) que uma unidade de pós/pré- processamento executou um tipo de processamento de volume nos dados de áudio a serem codificados (nos elementos 105, 106 e 107) e, assim, pôde criar (no gerador 106) metadados do estado de processamento de volume que incluem os parâmetros específicos usados em e/ou derivados do processamento de volume executado anteriormente. Em algumas implementações, o codificador 100 pode criar (e incluir na saída de fluxo de bits codificados do mesmo) metadados indicativos do histórico de processamento dos conteúdos de áudio, contanto que o codificador seja instruído quanto aos tipos de processamento que foram executados nos conteúdos de áudio.

[00142] FIG. 3 é um diagrama de bloco de um decodificador (200), que é uma modalidade da unidade de processamento de áudio inventiva e de um pós-processador (300) acoplado ao mesmo. O pós- processador (300) também é uma modalidade da unidade de proces- samento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 200 e do pós-processador 300 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASIC, FPGA ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. O decodificador 200 compreende um buffer do quadro 201, um analisador 205, um de- codificador de áudio 202, uma etapa de validação do estado do áudio (validador) 203 e uma etapa de geração do bit de controle 204, conectados conforme mostrado. Normalmente, ademais, o decodificador 200 inclui outros elementos de processamento (não mostrados).

[00143] O buffer do quadro 201 (uma memória de buffer) armazena (por exemplo, de uma forma não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados recebido pelo decodificador 200. Uma sequência de quadros do fluxo de bits áudio codificados é atribuída a partir do buffer 201 aos analisadores 205.

[00144] O analisador 205 é acoplado e configurado para extrair PIM e/ou SSM (e, opcionalmente, também outros metadados, por exemplo, LPSM) de cada quadro do áudio de entrada codificadopara atribuir pelo menos alguns dos metadados (por exemplo, LPSM e metadados de limite do programa, se algum for extraído, e/ou PIM e/ou SSM) parao validador do estado de áudio 203 e para a etapa 204, para atribuir os metadados extraídos como uma saída(por exemplo, para o pós- processador 300), para extrair dados de áudio do áudio de entrada codificado e para atribuir os dados de áudio extraídos ao decodificador 202.

[00145] A entrada do fluxo de bits de áudio codificado para o deco- dificador 200 pode ser de um fluxo de bits AC-3, um fluxo de bits E- AC-3 ou um fluxo de bits Dolby E.

[00146] O sistema da FIG. 3 também inclui pós-processador 300. O pós-processador 300 compreende um buffer do quadro 301 e outros elementos de processamento (não mostrados) que inclui pelo menos um elemento de processamento acoplado ao buffer 301. O buffer do quadro 301 armazena (por exemplo, de uma maneira não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados recebido pelo pós-processador 300 do decodificador 200. Os elementos de processamento do pós-processador 300 são acoplados e configurados para receber e processar de forma adaptativa uma sequência dos quadros de saída de fluxo de bits de áudio decodificados do buffer 301, utilizando a saída de metadados do decodificador 200 e/ou a saída de bits de controle da etapa 204 do decodificador 200. Normalmente, o pós-processador 300 está configurado para executar o processamento adaptativo sobre os dados de áudio decodificados utilizando metadados do decodificador 200 (por exemplo, processamento do volume adaptativo sobre os dados de áudio decodificados usando valores de LPSM e, opcionalmente, também metadados de limite do programa onde o processamento adaptativo pode ser baseado no estado de processamento de volume e/ou uma ou mais características dos dados de áudio, indicadas pelos LPSM para os dados de áudio indicativos de um único programa de áudio).

[00147] Várias implementações do decodificador 200 e do pós- processador 300 são configuradas para realizar diferentes modalidades do método da invenção.

[00148] O decodificador de áudio 202 do descodificador 200 é configurado para decodificar os dados de áudio extraídos pelo analisador 205 para gerar dados de áudio decodificados e atribuir os dados de áudio decodificados como uma saída (por exemplo, para o pós- processador 300).

[00149] O validador de estado 203 é configurado para autenticar e validar os metadados atribuídos ao mesmo. Em algumas modalidades, os LPSM são (ou estão incluídos em) um bloco de dados que foram incluídos no fluxo de bits de entrada (por exemplo, de acordo com uma modalidade da presente invenção). O bloco pode compreender um hash criptográfico (um código de autenticação de mensagem baseado em hash ou "HMAC") para processar os LPSM (e, opcionalmente, também outros metadados) e/ou os dados de áudio subjacentes (fornecidos a partir do analisador 205 e/ou do decodificador 202 ao vali- dador 203). O bloco de dados pode ser assinado digitalmente nessas modalidades, de modo que uma unidade de processamento de áudio a jusante possa, de maneira relativamente fácil, autenticar e validar os metadados do estado de processamento.

[00150] Outros métodos de criptografia, incluindo, mas não limitado a, qualquer um ou mais de um dos métodos criptográficos não-HMAC, podem ser utilizados para validar os metadados (por exemplo, no vali- dador203) para garantir uma transmissão e um recebimento seguros dos metadados e/ou dos dados de áudio subjacentes. Por exemplo, a validação (usando esse método criptográfico) pode ser realizada em cada unidade de processamento de áudio que recebe uma modalidade do fluxo de dados de áudio da invenção para determinar se os metadados do estado de processamento e os dados de áudio correspondentes incluídos no fluxo de bits foram submetidos (e/ou que foram o resultado de) a um processamento de volume específico (conforme indicado pelos metadados) e não foram modificados após a realização de tal processamento de volume específico.

[00151] O validador de estado 203 atribui dados de controle ao gerador de bit de controle 204 e/ou atribui os dados de controle como uma saída (por exemplo, ao pós-processador 300) para indicar os resultados da operação de validação. Em resposta aos dados de controle (e opcionalmente também outros metadados extraídos do fluxo de bits de entrada), a etapa 204 pode gerar (e atribuir ao pós-processador 300):

[00152] bits de controle indicando que a saída de dados de áudio decodificados do decodificador 202 foram submetidos a um tipo específico de processamento de volume (quando os LPSM indicarem que a saída de dados áudio do decodificador 202 foi submetida ao tipo específico de processamento de volume e os bits de controle do validador 203 indicarem que os LPSM são válidos); ou

[00153] bits de controle indicando que a saída de dados de áudio do decodificados 202 deve ser submetida a um tipo específico de processamento de volume (por exemplo, quando os LPSM indicarem que a saída dos dados de áudio do decodificador 202 não foi submetida ao tipo específico de processamento de volume ou quando os LPSM indicarem que a saída dos dados de áudio do decodificador 202 foi submetida ao tipo específico de processamento de volume, mas os bits de controle do validador 203 indicam que os LPSM não são válidos).

[00154] Alternativamente, o decodificador 200 atribui os metadados extraídos pelo decodificador 202 do fluxo de bits de entrada e os metadados extraídos pelo analisador 205 do fluxo de bits de entrada ao pós-processador 300 e o pós-processador 300 executa um processamento adaptativo sobre os dados de áudio decodificados utilizando os metadados ou realiza a validação dos metadados e então realiza o processamento adaptativo sobre os dados de áudio decodificados utilizando os metadados se a validação indicar que os metadados são válidos.

[00155] Em algumas modalidades, se o decodificador 200 receber um fluxo de bits de áudio gerado de acordo com uma modalidade da invenção com o hash criptográfico, o decodificador está configurado para analisar e recuperar o hash criptográfico de um bloco de dados determinado a partir do fluxo de bits, o dito bloco compreendendo os metadados do estado de processamento de volume (LPSM). O valida- dor 203 pode usar o hash criptográfica para validar o fluxo de bits re- cebido e/ou os metadados associados. Por exemplo, se o validador 203 descobrir que os LPSM são válidos com base em uma correspondência entre um hash criptográfico de referência e o hash criptográfico recuperado a partir do bloco de dados, então ele pode ser um sinal para uma unidade de processamento de áudio a jusante (por exemplo, o pós-processador 300, que pode ser ou incluir uma unidade de nivelamento de volume), para passar (inalterado) através dos dados de áudio do fluxo de bits. Além disso, opcionalmente, ou, como alternativa, outros tipos de técnicas criptográficas podem ser utilizados no lugar de um método baseado em um hash criptográfico.

[00156] Em algumas implementações do decodificador 200, o fluxo de bits codificados recebido (e armazenado na memória 201) é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3 e compreende segmentos de dados de áudio (por exemplo, os segmentos AB0-AB5 do quadro mostrado na Fig. 4) e segmentos de metadados, onde os segmentos de dados de áudio são indicativos de dados de áudio e cada um dentre pelo menos alguns dos segmentos de metadados incluem PIM ou SSM (ou outros metadados). A etapa do decodificador 202 (e/ou analisador 205) é configurada para extrair os metadados do fluxo de bits. Cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também outros metadados) está incluído em um segmento de bit residual do fluxo de bits ou um campo "addbsi" do seg-mento de Informações de Fluxo de Bits ("BSI") de um quadro do fluxo de bits ou em um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4) ao final de um quadro do fluxo de bits. Um quadro do fluxo de bits pode incluir um ou dois segmentos de metadados, com cada um deles incluindo metadados, e se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro.

[00157] Em algumas modalidades, cada segmento de metadados (por vezes referidos aqui como um "recipiente") do fluxo de bits armazenados no buffer 201 tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou "de núcleo") e uma ou mais cargas úteis de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e a outros metadados em períodos que não durante a decodificação (por exemplo, por um pós-processador 300 após a de- codificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exempli- ficativo, um decodificador 200 pode identificar equivocadamente o número correto de substreams associados a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou "LPSM").

[00158] Em algumas modalidades, uma carga útil dos metadados de estrutura de substream (SSM) incluídos em um quadro de um fluxo de bits (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) armazenado no buffer 201 inclui SSM no seguinte formato:

[00159] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor de 2 bits indicativo da versão do formato de SSM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e

[00160] após o cabeçalho:

[00161] os metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e

[00162] metadados de substream dependentes indicativos do fato de cada substream independente do programa ter pelo menos um substream dependente associado a ele e, se for o caso, o número de substreams dependentes associados a cada substream independente do programa.

[00163] Em algumas modalidades, uma carga útil de metadados de informações de programa (PIM) incluídos em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) armazenados no buffer 201 possui o seguinte formato:

[00164] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor indicativo da versão do formato de PIM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e

[00165] após o cabeçalho, PIM no seguinte formato:

[00166] metadados do canal ativo indicativos de cada canal silencioso e de cada canal não-silencioso de um programa de áudio (isto é, que canal(is) do programa contém informações de áudio e qual(is), se houver, contém apenas silêncio (tipicamente durante o período de du- ração do quadro)). Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do canal ativo em um quadro do fluxo de bits pode ser usado em conjunto com metadados adicionais do fluxo de bits (por exemplo, o campo de modo de codificação de áudio ("acmod") do quadro e, se presente, o campochan- mapno quadro ou no(s) quadro(s) de substream dependente(s) asso- ciado(s) para determinar que canal(is) do programa contém informações de áudio e qual(is) contém silêncio;

[00167] processamento de submistura de metadados de estado indicativos de se o programa foi submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura que foi aplicada. Os metadados do estado de processamento da submistura pode ser útil para implementar a submistura (por exemplo, em um pós-processador 300) a jusante de um decodificador, por exemplo, para submisturar os conteúdos de áudio do programa utilizando os parâmetros que chegam mais próximo a um tipo da submistura que foi aplicada. Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC- 3, os metadados do estado de processamento da submistura podem ser usados em conjunto com o campo de modo de codificação de áudio ("acmod") do quadro para determinar o tipo de submistura (se houver) aplicado ao(s) canal(is) do programa;

[00168] metadados do estado de processamento da mistura indica tivo de se o programa foi misturado (por exemplo, a partir de um número menos de canais) antes ou durante a codificação e, se for o caso, do tipo de mistura que foi aplicado. Os metadados do estado de processamento da mistura podem ser úteis para implementar a submistu- ra (em um pós-processador) a jusante de um decodificador, por exemplo, para subsmiturar os conteúdos de áudio do programa de uma maneira que seja compatível com um tipo da mistura (por exemplo, Dolby Pro Logic, or Dolby Pro Logic II Movie Mode, or Dolby Pro Logic II Mu sic Mode ou Dolby Professional Upmixer) que foi aplicada ao programa. Nas modalidades em que o fluxo de bits codificados é um fluxo de bits E-AC-3, os metadados do estado de processamento da mistura podem ser usados em conjunto com outros metadados (por exemplo, o valor de um campo "strmtyp" do quadro) para determinar o tipo de mistura (se houver) aplicado ao(s) canal(is) do programa. O valor do campo "strmtyp" (no segmento BSI de uma armação de um E-AC-3 bitstream) indica se o conteúdo áudio do quadro pertence a um fluxo independente (que determina um programa) ou um substream independente (de um programa que inclui ou está associado a vários substreams) e, portanto, pode ser descodificada, independentemente de qualquer outro substream indicado pela E-AC-3 fluxo de bits, ou se o conteúdo áudio do quadro pertence a um substream dependente (de um programa, que inclui ou está associada com vários substreams) e, portanto, deve ser descodificado em conjunto com um substream independente, com o qual está associado; e pré-processamento metadados estado indica se o pré-processamento foi realizado sobre o conteúdo áudio do quadro (antes da codificação do conteúdo áudio gerado para o fluxo de bits codificado), e se assim for o tipo de pré-processamento que foi realizada.

[00169] Em algumas implementações, os metadados do estado de pré-processamento é indicativo de:

[00170] se a atenuação surround foi aplicada (por exemplo, se os canais surround do programa de áudio foram atenuados por 3 dB antes da codificação),

[00171] se 90 graus de mudança de fase foram aplicados (por exemplo, para os canais surround Ls e Rs do programa de áudio antes da codificação),

[00172] se um filtro de passagem baixa foi aplicado a um canal LFE do programa de áudio antes da codificação,

[00173] se o nível de um canal LFE do programa foi monitorado durante a produção e, se for o caso, do nível monitorado do canal LFE relativo ao nível dos canais de áudio de faixa completa do programa,

[00174] se a compressão de faixa dinâmica deve ser executada (por exemplo, no decodificador) em cada bloco dos conteúdos de áudio decodificado do programa e, se for o caso, o tipo (e/ou parâmetros) de compressão de faixa dinâmica a ser executado (por exemplo, esse tipo de metadados de estado de pré-processamento podem ser indicativos de qual dentre os tipos de perfil de compressão foi adotado pelo codificador para gerar os valores de controle de compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados: Padrão de filme, luz de filme, padrão de música, luz da música ou fala. Alternativamente, esse tipo de metadado do estado de pré-processamento pode indicar que a compressão de faixa dinâmica pesada (compressão "compr") deve ser executada em cada quadro dos conteúdos de áudio decodificados do programa de uma forma determinada por valores de controle da compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados),

[00175] se o processamento de extensão espectral e/ou codificação de ligação de canal foram utilizados para codificar faixas de frequência específicas do conteúdo do programa e, se for o caso, as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de extensão espectral foi executada e as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de ligação de canal foi executada. Esse tipo de informação de metadados do estado de processamento pode ser útil para realizar a equalização (em um pós-processador) a jusante de um decodificador. As informações de extensão espectral e de ligação de canal também são úteis para otimizar a qualidade durante as operações e aplicações de transcodificação. Por exemplo, um codificador pode otimizar o seu comportamento (incluindo a adaptação das etapas de pré-processamento, como a virtualização dos headphones, misturas, etc.) com base no estado dos parâmetros, como informações de ligação de canal e de extensão espectral. Além disso, o codificador pode se adaptar aos seus parâmetros de extensão espectral e de ligação de maneira dinâmica para corresponder a e/ou para valores ideais com base no estado dos metadados acoplamento e espectrais de forma dinâmica para coincidir com e/ou para os valores ideais com base no estado dos metadados de entrada (e autenticados) e

[00176] se os dados da faixa de ajuste da potencialização do diálogo foram incluídos no fluxo de bits codificados e, se for o caso, a faixa de ajuste disponível durante a execução do processamento de poten- cialização do diálogo (por exemplo, em um pós-processador a jusante de um decodificador) para ajustar o nível dos conteúdos de diálogo em relação ao nível dos conteúdos que não forem do diálogo no programa de áudio.

[00177] Em algumas formas de realização, uma carga LPSM incluído em um frame de uma corrente de bits codificada (por exemplo, um E-AC-3 bitstream indicativos de pelo menos um programa de áudio) tamponada em tampão 201 inclui LPSM no seguinte formato:

[00178] um cabeçalho (incluindo normalmente uma palavra de sincronização que identifica o início da carga útil dos LPSM, seguida por pelo menos um valor de identificação, por exemplo, a versão do formato dos LPSM, comprimento, período, contagem e valores de associação de substream indicados na Tabela 2 abaixo); e

[00179] após o cabeçalho,

[00180] pelo menos um valor de indicação do diálogo (por exemplo, parâmetro "Canal(is) do diálogo" da Tabela 2) que indica se os dados de áudio correspondentes indicam ou não diálogo (por exemplo, que canais dos dados de áudio correspondentes indicam diálogo);

[00181] pelo menos um valor de cumprimento da regulação do volume (por exemplo, parâmetro "Tipo de Regulação do Volume" da Tabela 2) que indica se os dados de áudio correspondentes cumpre com uma série indicada de regulações de volume;

[00182] pelo menos um valor de processamento de volume (por exemplo, um ou mais dos parâmetros "Sinal de Correção do Volume fechado do Diálogo", "Tipo de Correção de Volume" da Tabela 2) que indica pelo menos um tipo de processamento de volume que foi executado sobre os dados de áudio correspondentes; e

[00183] pelo menos um valor de volume (por exemplo, um ou mais dos parâmetros "Volume Fechado Relativo a ITU", "Volume Fechado de Fala Relativo a ITU", "Volume de 3s de curto prazo de ITU (EBU 3341)" E "Pico Real" da Tabela 2) que indica pelo menos uma característica de volume (por exemplo, volume médio ou de pico) dos dados de áudio correspondentes.

[00184] Em algumas implementações, o analisador 205 (e/ou a etapa do decodificador 202) é configurado para extrair, a partir de um segmento de resíduos de bits, ou um campo "addbsi", ou um campo de dados auxiliares, de um quadro de fluxo de bits, cada segmento de metadados tendo a seguinte formato:

[00185] um segmento de cabeçalho de metadados (incluindo nor malmente uma palavra de sincronização que identifica o início do segmento de metadados, seguido de pelo menos um valor de identificação, por exemplo, valores de associação de substream, versão, comprimento, período e contagem de elemento expandido); e

[00186] após o cabeçalho de segmento de metadados, pelo menos um valor de proteção (por exemplo, valores da assimilação de HMAC e da Impressão Digital de Áudio da Tabela 1) útil para ao menos um dentre os seguintes elementos: desencriptação, autenticação ou validação de pelo menos um dos segmentos de metadados ou dados de áudio correspondentes); e

[00187] também após o cabeçalho do segmento de metadados, a identificação da carga útil dos metadados ("ID") e os valores que identificam o tipo e ao menos um aspecto da configuração (por exemplo, o tamanho) de cada carga útil seguinte dos metadados.

[00188] Cada segmento de carga útil dos metadados (preferivelmente tendo o formato especificado acima) segue a ID de carga útil dos metadados e os valores de configuração de carga útil correspondentes.

[00189] De maneira mais geral, ofluxo de bits de áudio codificados gerado pelas modalidades preferidas da invenção tem uma estrutura que fornece um mecanismo para etiquetas os elementos e os subele- mentos dos metadados como elementos ou subelementos de núcleo (obrigatórios) ou expandidos (opcionais). Isso permite que a taxa de dados do fluxo de bits (incluindo seus metadados) percorra inúmeras aplicações. Os elementos de núcleo (obrigatório) da sintaxe de fluxo de bits preferidos devem ser capazes de sinalizar que os elementos expandidos (opcionais) associados com os conteúdos de áudio estão presentes (dentro da banda) e/ou em um local remoto (fora da banda).

[00190] É necessário que o(s) elemento(s) de núcleo esteja(m) pre- sente(s) em cada quadro do fluxo de bits. Alguns subelementos de elementos de núcleo são opcionais e podem estar presentes em qualquer combinação. Não é necessário que elementos expandidos estejam presentes em cada quadro (para limitar a sobrecarga da taxa de bits). Desse modo, os elementos expandidos podem estar presentes em alguns quadros e em outros não. Alguns subelementos de um elemento expandido são opcionais e podem estar presentes em qualquer combinação, ao passo que alguns subelementos de um elemento expandido podem ser obrigatórios (isto é, se o elemento expandido estiver presente em um quadro do fluxo de dados).

[00191] Em uma classe de modalidades, um fluxo de bits de áudio codificados que compreende uma sequência de segmentos de dados de áudio é gerado (por exemplo, por uma unidade de processamento de áudio que incorpora a invenção). Os segmentos de dados de áudio são indicativos de dados de áudio, cada um dentre ao menos alguns dos segmentos de metadados inclui PIM e/ou SSM (e, opcionalmente, também metadados de ao menos um outro tipo) e os segmentos de dados de áudio são multiplexados por divisão de tempo com os segmentos de metadados. Em modalidades preferíveis desta classe, cada um dos segmentos de metadados tem um formato preferível a ser descrito neste documento.

[00192] Em um formato preferível, o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, e cada um dos segmentos de metadados que inclui SSM e/ou PIM está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) como informações adicionais do fluxo de bits no campo "addbsi" (mostrado na Fig. 6) do segmento de Informações de Fluxo de bits ("BSI") de um quadro do fluxo de bits ou em um campo de dados auxiliares de um quadro do fluxo de bits ou em um bit residual de um quadro do fluxo de bits.

[00193] No formato preferido, cada um dos quadros inclui um segmento de metadados (por vezes referido aqui como um recipiente de metadados, ou recipiente) em um segmento de bit residual (ou campo addbsi) do quadro. O segmento de metadados possui os elementos obrigatórios (coletivamente referidos como "elemento do núcleo") mostrados na Tabela 1 abaixo (e pode incluir os elementos opcionais mostradas na Tabela 1). Pelo menos alguns dos elementos necessários mostrados na Tabela 1 estão incluídos no cabeçalho do segmento de metadados, mas alguns podem ser incluídos em alguma outra parte do segmento de metadados: Tabela 1

[00194] No formato preferido, cada segmento de metadados (em um segmento de bit residual ou campo addbsi ou de dados auxiliares de um quadro de um fluxo de bits codificado) contendo SSM, PIM ou LPSM contém um cabeçalho de segmentos de metadados (e opcionalmente também elementos adicionais de núcleo) e, após o cabeçalho de segmento de metadados (ou o cabeçalho de segmento de metadados e outros elementos de núcleo), uma ou mais cargas úteis de metadados. Cada carga útil de metadados inclui um cabeçalho de car-ga útil de metadados (indicando um tipo específico de metadados (por exemplo, SSM, PIM ou LPSM) incluído na carga útil, seguido de metadados do tipo específico. Tipicamente, o cabeçalho de carga útil de metadados inclui os seguintes valores (parâmetros):

[00195] uma ID de carga útil (identificação do tipo de metadados, por exemplo, SSM, PIM ou LPSM) após o cabeçalho do segmento de metadados (que pode incluir valores especificados na Tabela 1);

[00196] um valor de configuração de carga útil (normalmente indicando o tamanho da carga útil) após a ID de carga útil;

[00197] e, opcionalmente, também valores de configuração de carga útil adicional (por exemplo, um valor de deslocamento que indica o número de amostras de áudio a partir do início do quadro para a pri- meira amostra de áudio a que a carga pertence e valor de prioridade da carga útil, por exemplo, indicando uma condição em que a carga útil pode ser descartada).

[00198] Tipicamente, os metadados da carga útil têm um dos seguintes formatos:

[00199] os metadados de carga útil são SSM, incluindo metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e os metadados de substream dependentes indicativos do fato de se cada substream independente do programa tem ao menos um substream dependente associado a ele e, se for o caso, o número de substreams dependentes associados com cada substream independente do programa;

[00200] os metadados de carga útil são PIM, incluindo metadados de canal activo indicativos de que canal(us) de um programa de áudio contém informações de áudio e qual(is) (se houver) contém apenas silêncio (tipicamente ao longo da duração do quadro); metadados do estado de processamento de submistura indicativo do fato de o programa ter sido submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura aplicado, metadados do estado de processamento de mistura indicativos do fato de o programa ter sido misturado (por exemplo, a partir de uma quantidade menor de canais) antes ou durante a codificação e metadados do estado de pré- processamento indicatidos do fato de o pré-processamento ter sido realizado sobre os conteúdos de áudio do quadro (antes da codifica-ção dos conteúdos de áudio para gerar o fluxo de bits codificados) e, se for o caso, o tipo de pré-processamento realizado; ou

[00201] os metadados da carga útil são LPSM, tendo o formato conforme indicado na tabela a seguir (Tabela 2): Tabela 2

[00202] Em outro formato preferido de um fluxo de bits codificado gerado de acordo com a invenção, o fluxo de bits é um fluxo de bits AC-3 ou fluxo de bits E-AC-3, e em cada um dos segmentos dos metadados que inclui PIM e/ou SSM (e, opcionalmente, também metadados de pelo menos um outro tipo) está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) em qualquer um dentre: um segmento de bit residual de um quadro do fluxo de bits; ou um campo "addbsi" (mostrado na Fig. 6) do segmento de Informações de fluxo de Bit ("BSI") de um quadro do fluxo de bits; ou um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4) ao final de um quadro do fluxo de bits. Um quadro pode incluir um ou dois segmentos de metadados, cada um dos quais inclui PIM e/ou MES e (em algumas modalidades), se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro. Cada segmento de metadados tem, de preferência, o formato especificado acima com refe- rência à Tabela 1 acima (isto é, inclui os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando o tipo de metadado em cada carga útil do segmento de metadados) e os valores de configuração da carga útil, e cada carga útil dos metadados). Cada segmento de metadados incluindo LPSM tem, de preferência, o formato especificado acima com referência às Tabelas 1 e 2 acima (isto é, inclui os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando os metadados como LPSM) e valores de configuração de carga útil, seguido pela carga útil (dados de LPSM que têm um formato conforme indicado na Tabela 2)).

[00203] Em um outro formato preferido, o fluxo de bits codificado é um fluxo de bits Dolby E, e cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também outros metadados) representa as localizações da primeira amostra N do intervalo de banda de guarda Dolby E. O fluxo de bits Dolby E que inclui esse segmento de metadados que inclui LPSM inclui, preferencialmente, um valor indicativo do comprimento da carga útil de LPSM sinalizada na palavra Pd do preâmbulo SMPTE 337M (a taxa de repetição de palavra Pa SMPTE 337M preferencialmente mantém-se idêntica à taxa de quadro de vídeo associada).

[00204] Em um formato preferido, em que o fluxo de bits codificados é um fluxo de bits E-AC-3, cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também LPSM e/ou outros metadados) é incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) como uma informação de fluxo de bits adicional em um segmento de bit residual, ou no campo "addb- si" do segmento de Informações de Fluxo de bits ("BSI") de um quadro do fluxo de bits. Nós descrevemos a seguir os aspectos adicionais da codificação de um fluxo de bits E-AC-3 com LPSM neste formato preferido:

[00205] 1. Durante a geração de um fluxo de bits E-AC-3, enquanto o codificador E-AC-3 (que insere os valores de LPSM no fluxo de bits) estiver "ativo", para cada quadro gerado (quadro de sincronização), o fluxo de bits deve incluir um bloco de metadados (incluindo LPSM) transportado no campo addbsi (ou segmento de bit residual) do quadro. Os bits necessários para transportar o bloco de metadados não deve aumentar a taxa de bits do codificador (comprimento de quadro);

[00206] 2. Cada bloco de metadados (contendo LPSM) deve conter as seguintes informações:

[00207] sinal_do_tipo_de_correção_de_volume: onde '1' indica o volume dos dados de áudio correspondentes que foi corrigido à jusante do codificador e '0' indica o volume que foi corrigido pelo corretor de volume incorporado ao codificador (por exemplo, processador de volume 103 do codificador 100 da Fig. 2);

[00208] canal_de_fala: indica qual(is) canal(is) de fonte contém fala (ao longo do 0,5 seg anterior). Se nenhuma fala for detectada, isso deve ser devidamente indicado;

[00209] volume_da_fala: indica o volume de fala integrado de cada canal de áudio correspondente que contém fala (ao longo do 0,5 seg anterior);

[00210] volume_de_ITU: indica o volume de ITU BS.1770-3 integrado de cada canal de áudio correspondente; e

[00211] ganho: ganho(s) composto(s) de volume para reversão em um decodificador (para demonstrar a reversibilidade);

[00212] 3. Enquanto o codificador E-AC-3 (que insere os valores LPSM fluxo de bits) estiver "ativo" e estiver recebendo um quadro AC- 3 com um sinal de 'confiar', o controle de volume no codificador (por exemplo, o processador de volume 103 do codificador 100 da Fig. 2) deve ser ignorado. O dialnorm de fonte e os valores DRC devem ser passados (por exemplo, pelo gerador 106 do codificador 100) para o componente do codificador E-AC-3 (por exemplo, a etapa 107 do codificador 100). A geração do bloco LPSM continua e o si- nal_do_tipo_de_correção_de_volume é definido como '1'. A sequência ignorada do controlador de volume deve ser sincronizada com o início do quadro AC-3 decodificado onde o sinal "confiar" aparece. A sequência ignorada do controlador de volume deve ser implementada da seguinte forma: o controle de quantidade_do_nivelador é diminuído de um valor de 9 para um valor de 0 até 10 períodos de bloco de áudio (isto é, 53,3 mseg) e o controle de medi- ção_subsequente_de_nivelamento é colocado em modo de desvio (essa operação deve resultar em uma transição ininterrupta). O termo de desvio "confiar" do nivelador implica que o valor dialnorm do fluxo de bits da fonte também é reutilizado na saída do codificador (por exemplo, se o fluxo de bits da fonte "de confiança" tiver um valor dialnorm de -30, então a saída do codificador deve utilizar -30 para o valor dialnorm de saída);

[00213] 4. Enquanto o codificador E-AC-3 (que insere os valores LPSM fluxo de bits) estiver "ativo" e estiver recebendo um quadro AC- 3 com um sinal de 'confiar', o controle de volume no codificador (por exemplo, o processador de volume 103 do codificador 100 da Fig. 2) deve ser ignorado. A geração do bloco do LPSM continua e o si- nal_do_tipo_de_correção_de_volume é definido como '0'. A sequência de ativação controlador de volume deve ser sincronizado com o início do quadro AC-3 decodificado onde o sinal "confiar" desaparece. A sequência de ativação do controlador de volume deve ser implementada da seguinte forma: o controle da quantidade_do_nivelador é incrementada a partir de um valor de 0 a um valor de 9 sobre o período de bloco de áudio 1. (isto é, 5,3msec) e o controle da medi- ção_subsequente_do_nivelador é colocada em modo "ativo" (tal operação deve resultar em uma transição controle leve ler_back_end_meter é colocado no modo "ativo" (esta operação deve resultar em uma transição ininterrupta e inclui uma redifinição de integração de medição_subsequente); e

[00214] 5. Durante a codificação, uma interface gráfica de usuário (GUI) deve indicar a um usuário os seguintes parâmetros: "Programa de entrada de áudio: [Confiável/não confiável] "-o estado deste parâmetro é baseado na presença do sinal de "confiar" no sinal de entrada; e a "Correção de volume em tempo real: [Ativado/desativado]" -o estado deste parâmetro é baseado no fato de o controlador de volume incorporado ao codificador estar ativo.

[00215] Quando a decodificação de um fluxo de bits AC-3 ou E-AC- 3 que tenha LPSM (no formato preferido) incluído em um bit residual ou um segmento de campo de salto, ou o campo "addbsi" do segmento de Informações de Fluxo de bits ("BSI"), de cada quadro do fluxo de bits, o decodificador deve analisar os dados de bloco do LPSM (no segmento de bit residual ou no campo addbsi) e passar todos os valores de LPSM extraídos para a interface gráfica de usuário (GUI). A série de valores de LPSM extraídos em cada quadro atualizado.

[00216] Em um outro formato preferido de um fluxo de bits codificado gerado de acordo com a invenção, o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, e cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também o LPSM e/ou outros metadados) está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) em um segmento de bit residual, ou em um segmento auxiliar, ou como informações adicionais de fluxo de bit no campo "addbsi" (mostradas na Fig. 6) do segmento de Informações do Fluxo de bits ("BSI") de um quadro do fluxo de bits. Nesse formato (que é uma variação do formato descrito acima com referências às Tabelas 1e 2), cada um dos campos addbsi (ou auxiliares ou de bit residual) que contém LPSM contém os seguintes valores de LPSM:

[00217] os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando os metadados como LPSM) e os valores de configuração de carga útil, seguido pela carga útil (dados de LPSM) que possui o seguinte formato (semelhante aos elementos obrigatórios indicados na Tabela 2 acima):

[00218] versão da carga útil de LPSM: um campo de 2 bits que indica a versão da carga útil de LPSM;

[00219] dialchan: um campo de 3 bits que indica se os canais da esquerda, direita e/ou central dos dados de áudio correspondentes contêm diálogo falado. A atribuição do bit do campo dialchan pode ser como segue: o bit 0, que indica a presença de diálogo no canal esquerdo, é armazenado no bit mais significativo do campo dialchan; e o bit 2, que indica a presença de diálogo no canal central, é armazenado no bit menos significativo do campo dialchan.

[00220] Cada bit do campo dialchan está definido como '1' se o canal correspondente contiver diálogo falando durante o último 0,5 segundo precedente do programa;

[00221] loudregtyp: um campo de 4 bits que indica qual padrão de regulação de volume o volume do programa cumpre. Definição do campo "loudregtyp" para "000' indica que o LPSM não indica cumprimento da regulação de volume. Por exemplo, um valor desse campo (por exemplo, 0000), pode indicar que o cumprimento com um padrão de regulação de volume não é indicado, outro valor desse campo (por exemplo, 0001) pode indicar que os dados de áudio do programa cumpre com o padrão ATSC A/85 e outro valor desse campo (por exemplo, 0010) pode indicar que os dados de áudio do programa estão cumpre com o padrão EBU R128. No exemplo, se o campo está definido para qualquer valor diferente de '0000', os campos loudcorrdi- algat e loudcorrtyp devem seguir na carga útil;

[00222] loudcorrdialgat: um campo de um bit que indica se a correção do volume fechado do diálogo foi aplicada. Se o volume do programa foi corrigido usando fechamento de diálogo, o valor do campo loudcorrdialgat é definido como '1'. Caso contrário, ele é definido como '0';

[00223] loudcorrtyp: um campo de um bit que indica o tipo de correção de volume aplicada ao programa. Se o volume do programa foi corrigido com um processo de correção do volume (baseado em arquivo) de prognóstico infinito, o valor do campo loudcorrtyp é definido como '0'. Se o volume do programa foi corrigido usando uma combinação de medição de volume em tempo real e controle de faixa dinâmica, o valor desse campo é definido como '1';

[00224] loudrelgate: um campo de um bit que indica se os dados de volume fechado relativo (ITU) existe. Se o campo loudrelgate estiver definido como '1', um campo ituloudrelgat de 7 bits deve seguir na carga útil;

[00225] loudrelgat: um campo de 7 bits que indica volume de programa fechado relativo (ITU). Esse campo indica o volume integrado do programa de áudio, medido de acordo com ITU-R BS.1770-3 sem quaisquer ajustes de ganho devido a dialnorm e compressão de faixa dinâmica (DRC) sendo aplicada. Os valores de 0 a 127 são interpretados como -58 LKFS a +5,5 LKFS, em etapas de 0,5 LKFS;

[00226] loudspchgate: um campo de um bit que indica se os dados de volume fechados para diálogo (ITU) existem. Se o campo loudspchgate está definido como '1', um campo loudspchgat de 7 bits deve seguir na carga útil.

[00227] loudspchgat: um campo de 7 bits que indica o volume do programa fechado para diálogo. Esse campo indica o volume integrado do programa de áudio, medido de acordo com a fórmula (2) de ITU-R BS.1770-3 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica (DRC) sendo aplicada. Os valores de 0 a 127 são interpretados como -58 LKFS a +5,5 LKFS, em etapas de 0,5 LKFS;

[00228] loudstrm3se: um campo de um bit que indica se existem dados de volume de curto prazo (3 segundos). Se o campo estiver definido como '1', um campo loudstrm3s de 7 bits deve seguir na carga útil;

[00229] loudstrm3s: um campo de 7 bits que indica o volume não- fechado dos 3 segundos precedentes do programa de áudio correspondente, medido conforme ITU-R BS.1771-1 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica que está sendo aplicada. Os valores de 0 a 256 são interpretados como - 116 LKFS a +11,5 LKFS em etapas de 0,5 LKFS;

[00230] truepke: um campo de um bit que indica se os dados de volume de pico real existem. Se o campo truepke é definido como '1', um campo truepk de 8 bits deve seguir na carga útil; e

[00231] truepk: um campo de 8 bits que indica o valor de pico real da amostra do programa, medido de acordo com o Anexo 2 de ITU-R BS.1770-3 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica que está sendo aplicada. Os valores de 0 a 256 são interpretados como -116 LKFS a +11,5 LKFS em etapas de 0,5 LKFS;

[00232] Em algumas modalidades, o elemento de núcleo de um segmento de metadados em um segmento de bit residual ou em um campo de dados auxiliares (ou "addbsi") de um quadro de um fluxo de bits AC-3 ou um fluxo de bits E-AC-3 compreende um cabeçalho de segmento de metadados (tipicamente incluindo valores de identificação, por exemplo, a versão) e após o cabeçalho do segmento de metadados: valores indicativos do fato de os dados da impressão digital serem (ou de outros valores de proteção serem) incluídos para os me tadados do segmento de metadados, valores indicativos do fato de os dados externos (relacionados aos dados de áudio correspondentes aos metadados do segmento de metadados) existir, ID da carga útil e valores de configuração de carga útil para cada tipo de metadados (por exemplo, PIM e/ou SSM e/ou LPSM e/ou metadados de um tipo) identificado pelo elemento de núcleo e valores de proteção para pelo menos um tipo de metadado identificado pelo cabeçalho de segmento de metadados (ou outros elementos de núcleo do segmento de meta-dados). A(s) carga(s) útil(eis) de metadados seguem-se ao cabeçalho de segmento de metadados e são (em alguns casos) aninhados dentro dos elementos de núcleo do segmento de metadados.

[00233] Modalidades da presente invenção podem ser implementadas em hardware, firmware ou software, ou uma combinação de ambos (por exemplo, como um arranjo de lógica programável). Salvo indicação contrária, os algoritmos ou processos incluídos como parte da invenção não são inerentemente relacionados a nenhum computador específico ou outros aparatos. Em particular, várias máquinas de finalidade geral podem ser usadas com programas escritos conforme os ensinamentos deste documento, ou pode ser mais conveniente construir aparados mais especializados (por exemplo, circuitos integrados) para executar as etapas necessárias do processo. Assim, a invenção pode ser implementada em um ou mais programas de computador sendo executados em um ou mais sistemas de computador programáveis (por exemplo, uma implementação de quaisquer dos elementos da Fig. 1 ou do codificador 100 da Fig. 2 (ou um elemento do mesmo), ou do decodificador 200 da Fig. 3 (ou um elemento do mesmo) ou pós- processador 300 da Fig. 3 (ou um elemento do mesmo) cada um compreendendo ao menos um processador, ao menos um sistema de armazenamento de dados (incluindo memória volátil e não-volátil e/ou elementos de armazenamento), ao menos um dispositivo ou porta de entrada e ao menos um dispositivo ou porta de saída. O código do programa é aplicado para introduzir dados para executar as funções aqui descritas e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos, de uma maneira conhecida.

[00234] Cada um desses programas pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, de conjunto ou processual de alto nível, de lógica ou de programação orientada por objeto) para se comunicar com um sistema de computador. Em qualquer dos casos, a linguagem pode ser uma linguagem compilada ou interpretada.

[00235] Por exemplo, quando implementadas pelas sequências de instruções de software de computador, várias funções e etapas das modalidades da invenção podem ser implementadas por sequências de instrução de software de multitratamento sendo executadas em um hardware de processamento de sinal digital, em cujo caso os vários dispositivos, etapas e funções das modalidades podem corresponder a porções das instruções de software.

[00236] Cada programa de computador desses é armazenado ou baixado, de preferência, em um meio ou dispositivo de armazenamento (por exemplo, meio ou memória de estado sólido, ou meio ótico ou magnético) legível por um computador programável de finalidade especial ou geral para configurar e operar o computador quando o dispositivo ou meio de armazenamento for lido pelo sistema de computador para realizar os procedimentos descritos aqui. O sistema inventivo também pode ser implementado com um meio de armazenamento legível por computador, configurado com (isto é, para armazenamento) um programa de computador, onde o meio de armazenamento configurado dessa maneira faz com que um sistema de computador opere de uma maneira específica e pré-definida para executar as funções descritas aqui.

[00237] Um número de modalidades da invenção foi descrito. No entanto, será entendido que várias modificações podem ser feitas sem se afastar do espírito e escopo da invenção. Muitas modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Portanto, deve-se entender que, no âmbito das reivindicações acrescentadas, a invenção pode ser praticada de outra forma que não como aqui especificamente descrito.

Claims

1. Unidade de processamento de áudio caracterizada pelo fato de que inclui: uma memória de buffer que é um meio não transitório con-figurada para armazenar pelo menos um quadro de um fluxo de bits de áudio codificado, em que o fluxo de bits de áudio codificado inclui dados de áudio e um recipiente de metadados, em que o recipiente de metadados inclui um cabeçalho e uma ou mais cargas úteis de meta-dados após o cabeçalho, as uma ou mais cargas úteis de metadados incluem metadados de compressão de intervalo dinâmico (DRC) e os metadados de DRC são ou incluem metadados de perfil indicativos se os metadados de DRC incluem valores de controle de compressão de intervalo dinâmico (DRC) para utilização na realização de compressão de intervalo dinâmico de acordo com pelo menos um perfil de compressão no conteúdo de áudio indicado por pelo menos um bloco dos dados de áudio, e em que se os metadados de perfil indicarem que os metadados de DRC incluem valores de controle de DRC para utilização na realização de compressão de intervalo dinâmico de acordo com um do perfil de compressão, os metadados de DRC também incluem um conjunto de valores de controle de DRC gerados de acordo com o perfil de com-pressão; um analisador acoplado à memória de buffer e configurado para analisar o fluxo de bits de áudio codificado; e um subsistema acoplado ao analisador e configurado para executar compressão de intervalo dinâmico em pelo menos alguns dos dados de áudio ou em dados de áudio descodificados gerados por de- codificação dos pelo menos alguns dos dados de áudio utilizando pelo menos alguns dos metadados de DRC.

2. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que um dos perfis de compressão é um perfil para compressão de intervalo dinâmico dos dados áudio indicativos de fala.

3. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que o perfil de compressão é um perfil de compressão padrão de película, um perfil de compressão leve de película, um perfil de compressão padrão de música ou um perfil de compressão leve de música.

4. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que ainda inclui: um descodificador de áudio acoplado à memória de buffer e configurado para decodificar os dados de áudio gerando assim dados de áudio decodificados.

5. Unidade de processamento de áudio, de acordo com a reivindicação 4, caracterizada pelo fato de que o subsistema acoplado ao analisador é também acoplado ao decodificador de áudio, e é configurado para executar compressão de intervalo dinâmico em pelo menos alguns dos dados de áudio decodificados utilizando pelo menos alguns dos metadados de DRC.

6. Método de decodificação de áudio caracterizado pelo fato de que compreende as etapas de: receber um fluxo de bits de áudio codificado, em que o fluxo de bits de áudio codificado é segmentado em um ou mais quadros; extrair dados de áudio e um recipiente de metadados a partir do fluxo de bits de áudio codificado, em que o recipiente de metadados inclui um cabeçalho e uma ou mais cargas úteis de metadados após o cabeçalho, e em que as uma ou mais cargas úteis de metadados incluem metadados de compressão de intervalo dinâmico (DRC) e os metadados de DRC são ou incluem metadados de perfil indicativos se os metadados de DRC incluem valores de controle de compressão de intervalo dinâmico (DRC) para utilização na realização de compressão de intervalo dinâmica de acordo com pelo menos um perfil de compressão no conteúdo de áudio indicado por pelo menos um bloco dos dados de áudio, e em que se os metadados de perfil indicarem que os metadados de DRC incluem valores de controle de DRC para utilização na realização de compressão de intervalo dinâmico de acordo com um do perfil de compressão, os metadados de DRC também incluem um conjunto de valores de controle de DRC gerados de acordo com o perfil de com-pressão; e executar compressão de intervalo dinâmico em pelo menos alguns dos dados de áudio ou em dados de áudio decodificados gerados pela decodificação de pelo menos alguns dos dados de áudio utilizando pelo menos alguns dos metadados de DRC.

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que um dos perfis de compressão é um perfil para a compressão da intervalo dinâmico de dados áudio indicativos da fala.

8. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que um dos perfis de compressão é um perfil de com-pressão padrão de película, um perfil de compressão leve de película, um perfil de compressão padrão de música ou um perfil de compressão leve de música.

9. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que os dados de áudio são dados de áudio codificados e compreendem também uma etapa de: decodificar os dados de áudio codificados para gerar dados de áudio decodificados.

10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que ainda compreende: executar a compressão de intervalo dinâmico em pelo me- nos alguns dos dados de áudio decodificados utilizando pelo menos alguns dos metadados de DRC.

11. Meio de armazenamento, que é um meio não transitório, e no qual é armazenado pelo menos um segmento de um fluxo de bits de áudio incluindo dados de áudio e um recipiente de metadados, caracterizado pelo fato de que o recipiente de metadados inclui um cabeçalho e uma ou mais cargas úteis de metadados depois do cabe-çalho, as uma ou mais cargas úteis de metadados incluem metadados de compressão de intervalo dinâmico (DRC), e os metadados de DRC são ou incluem metadados de perfil indicando se os metadados de DRC incluem valores de controle de compressão de intervalo dinâmico (DRC) para uso na execução de compressão de intervalo dinâmico de acordo com pelo menos um perfil de compressão no conteúdo de áudio indicado por pelo menos um bloco dos dados de áudio, e em que se os metadados de perfil indicarem que os metadados de DRC incluem valores de controle de DRC para utilização na realização de compressão de intervalo dinâmico de acordo com um perfil de compressão, os metadados de DRC também incluem um conjunto de valores de controle de DRC gerados de acordo com o perfil de com-pressão.

12. Meio de armazenamento, de acordo com a reivindicação 11, caracterizado pelo fato de que um dos perfis de compressão é um perfil para compressão de intervalo dinâmico de dados de áudio indicativos de fala.

13. Meio de armazenamento, de acordo com a reivindicação 11, caracterizado pelo fato de que um dos perfis de compressão é um perfil de compressão padrão de película, um perfil de compressão leve de película, um perfil de compressão padrão de música ou um perfil de compressão leve de música.

14. Meio de armazenamento, de acordo com a reivindica- ção 11, caracterizado pelo fato de que é um meio de armazenamento legível por computador.