BR122016001090A2 - codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream - Google Patents

codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream Download PDF

Info

Publication number
BR122016001090A2
BR122016001090A2 BR122016001090A BR122016001090A BR122016001090A2 BR 122016001090 A2 BR122016001090 A2 BR 122016001090A2 BR 122016001090 A BR122016001090 A BR 122016001090A BR 122016001090 A BR122016001090 A BR 122016001090A BR 122016001090 A2 BR122016001090 A2 BR 122016001090A2
Authority
BR
Brazil
Prior art keywords
metadata
audio
program
bit stream
substream
Prior art date
Application number
BR122016001090A
Other languages
English (en)
Other versions
BR122016001090B1 (pt
Inventor
Riedmiller Jeffrey
Ward Michael
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of BR122016001090A2 publication Critical patent/BR122016001090A2/pt
Publication of BR122016001090B1 publication Critical patent/BR122016001090B1/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Information Transfer Systems (AREA)
  • Application Of Or Painting With Fluid Materials (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

aparatos e métodos para gerar um fluxo de bits de áudio codificados, inclusive pela inclusão de metadados de estrutura de substream (ssm) e/ou metadados de informações do programa (pim) e dados de áudio no fluxo de bits. outros aspectos são aparatos e métodos para decodificação desse fluxo de bits e uma unidade de processamento de áudio (por exemplo, um codificador, um decodificador ou pós-processador) configurada (por exemplo, programada) para realizar qualquer modalidade do método ou que inclui uma memória de buffer que armazena pelo menos um quadro de um fluxo de bits de áudio gerado de acordo com qualquer modalidade do método.

Description

Relatório Descritivo da Patente de Invenção para CODIFICADOR E DECODIFICADOR DE ÁUDIO COM INFORMAÇÕES DE PROGRAMA OU METADADOS DE ESTRUTURA DE SUBSTREAM.
[001] Dividido do BR112015019435-4 depositado em 12 de junho de 2014.
REFERÊNCIA CRUZADA PARA APLICAÇÕES RELACIONADAS [002] Este pedido reivindica prioridade ao Pedido de Patente dos Estados Unidos Provisória N °61/836.865, depositado em 19 de junho de 2013, que é aqui incorporada por referência na sua totalidade. CAMPO TÉCNICO [003] A invenção refere-se ao processamento de sinais de áudio e, mais particularmente, à codificação e descodificação de fluxos de bits de dados de áudio com metadados indicativo da estrutura substream e/ou informações do programa de áudio indicado pelos fluxos de bits. Algumas modalidades da invenção geram ou descodificam dados de áudio em um dos formatos conhecidos como Dolby Digital (AC-3), Dolby Digital Plus (Enhanced AC-3 ou E-AC-3) ou Dolby E. ANTECEDENTE DA INVENÇÃO [004] Dolby, Dolby Digital, Dolby Digital Plus e Dolby E são marcas registradas da Dolby Laboratories Licensing Corporation. Dolby Laboratories fornece implementações proprietárias de AC-3 e E-AC-3 conhecidos como Dolby Digital e Dolby Digital Plus, respectivamente.
[005] Unidades de processamento de dados de áudio normalmente operam de forma cega e não atentam ao histórico de processamento de dados de áudio que ocorre antes do recebimento dos dados. Isso pode funcionar em uma estrutura de processamento em que uma única entidade faz todo o processamento de dados de áudio e codificação de diversos dispositivos de renderização da mídia alvo enquanto um dispositivo de renderização da mídia alvo faz toda a decodiPetição 870160000947, de 18/01/2016, pág. 6/101
2/77 ficação e a renderização dos dados de áudio codificados. No entanto, esse processamento cego não funciona bem (ou simplesmente não funciona) em situações em que uma pluralidade de unidades de processamento de áudio está espalhada ao longo de uma rede diversa ou encontra-se posicionada em tandem (isto é, em cadeia) e espera-se que execute de maneira ideal seus respectivos tipos de processamento de áudio. Por exemplo, alguns dados de áudio podem ser codificados para sistemas de mídia de alta performance e talvez precisem ser convertidos para um formato reduzido adequado para um dispositivo móvel ao longo de uma cadeia de processamento de meios de comunicação. Com efeito, uma unidade de processamento de áudio pode executar desnecessariamente um tipo de processamento nos dados de áudio que já tenha sido executado. Por exemplo, uma unidade de nivelamento de volume pode executar o processamento em um clipe de áudio de entrada, independentemente de terem ou não de o mesmo nivelamento de volume ou semelhante ter sido previamente executada no clipe de áudio de entrada. Como resultado, a unidade de nivelamento de volume pode realizar o nivelamento, mesmo quando não for necessário. Esse processamento desnecessário também pode causar a degradação e/ou a remoção de características específicas durante o processamento do conteúdo dos dados de áudio.
Breve Descrição da Invenção [006] Numa classe de modalidade, a invenção é uma unidade de processamento de áudio capaz de descodificar um fluxo de bits codificado que inclui a estrutura de metadados de substream e/ou metadados de informações do programa (e, opcionalmente, também outros metadados, por exemplo, estado de processamento dos metadados de volume) em pelo menos um segmento de pelo menos um quadro do fluxo de bits e dos dados de áudio em pelo menos um outro segmento do quadro. Neste documento, a estrutura de metadados de substream
Petição 870160000947, de 18/01/2016, pág. 7/101
3/77 (ou SSM) indica os metadados de um fluxo de bits codificados (ou um conjunto de fluxos de bits codificados) indicativo da estrutura de substream de conteúdo do áudio do(s) fluxo(s) de bits codificados, e metadados de informações do programa (ou PIM ) indica metadados de um fluxo de bits de áudio codificado indicativo de pelo menos um programa de áudio (por exemplo, dois ou mais programas de áudio), em que os metadados de informações do programa é indicativo de pelo menos uma propriedade ou característica do conteúdo de áudio de pelo menos um programa referido (por exemplo, metadados indicando um tipo ou parâmetro de processamento executado em dados de áudio do programa ou metadados que indicam quais os canais do programa são canais ativos).
[007] Em casos típicos (por exemplo, em que o fluxo de bits codificados é um fluxo de bits AC-3 ou E-AC-3), os metadados de informações do programa (PIM) são indicativos das informações do programa que não podem praticamente ser transportadas em outras porções do fluxo de bits. Por exemplo, o PIM pode ser indicativo do processamento aplicado ao áudio de PCM antes da codificação (por exemplo, codificação AC-3 ou E-AC-3), em que as bandas de frequência de áudio do programa foram codificadas utilizando técnicas específicas de codificação de áudio e o perfil de compressão usado para criar dados de compressão da gama dinâmica (DRC) no fluxo de bits.
[008] Numa outra classe de modalidades, um método inclui um passo de multiplexação de dados de áudio codificados com SSM e/ou PIM em cada quadro (ou pelo menos alguns quadros) do fluxo de bits. Na descodificação típica, um descodificador extrai o SSM e/ou PIM do fluxo de bits (incluindo por análise e desmultiplexação do SSM e/ou do PIM e dos dados de áudio) e processa os dados de áudio para gerar um fluxo de dados de áudio descodificados (e, em alguns casos, também realiza o processamento adaptativo dos dados de áudio). Em al
Petição 870160000947, de 18/01/2016, pág. 8/101
4/77 gumas modalidades, os dados de áudio descodificados e o SSM e/ou o PIM são transmitidos a partir do descodificador para um pósprocessador configurado para executar o processamento adaptativo com os dados de áudio decodificados utilizando o SSM e/ou PIM.
[009] Em uma classe de modalidades, o método de codificação inventivo gera um fluxo de bits de áudio (por exemplo, um fluxo de bits AC-3 ou E-AC-3), incluindo segmentos de dados de áudio (por exemplo, segmentos AB0-AB5 do quadro mostrado na Fig. 4 ou todos ou alguns dos segmentos AB0- AB 5 do quadro mostrado na Fig. 7), que inclui dados de áudio codificados e divisão do tempo dos segmentos de metadados (incluindo SSM e/ou PIM e, opcionalmente, também outros metadados) mutiplexados com os segmentos de dados de áudio. Em algumas modalidades, cada segmento de metadado (por vezes referidos aqui como recipiente) tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou de núcleo) e uma ou mais cargas de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e outros metadados em períodos que não durante a decodificação (por exemplo, por um pós-processador após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codifica
Petição 870160000947, de 18/01/2016, pág. 9/101
5/77 dos), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplar, um decodificador pode identificar equivocadamente o número correto de substreams associado a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou LPSM).
Breve descrição das figuras [0010] FIG. 1 é um diagrama de bloco de uma modalidade de um sistema que pode ser configurado para executar uma modalidade do método da invenção.
[0011] FIG. 2 é um diagrama de bloco de um codificador que é uma modalidade da unidade de processamento de áudio inventivo.
[0012] FIG. 3 é um diagrama de bloco de um decodificador que é uma modalidade da unidade de processamento de áudio inventivo, e um pós-processador acoplado ao mesmo, que é uma outra modalidade da unidade de processamento de áudio inventivo.
[0013] FIG. 4 é um diagrama de um quadro AC-3, incluindo os segmentos em que encontra-se dividido.
[0014] FIG. 5 é um diagrama do segmento de informação de sincronização (SI) de um quadro AC-3, incluindo os segmentos em que se divide.
[0015] FIG. 6 é um diagrama do segmento de informações de fluxo de bits (BSI) de um quadro AC-3, incluindo os segmentos em que se divide.
[0016] FIG. 7 é um diagrama de um quadro E-AC-3, incluindo os segmentos em que encontra-se dividido.
Petição 870160000947, de 18/01/2016, pág. 10/101
6/77 [0017] FIG. 8 é um diagrama de um segmento de metadados de um fluxo de bits codificado gerado de acordo com uma forma de realização da invenção, incluindo um segmento de cabeçalho de metadados que compreende uma palavra de sincronização recipiente (identificado como recipiente de sincronização na Fig. 8) e uma versão e valores da chave de identificação, seguido por várias cargas úteis de metadados e bits de proteção.
Notação e nomenclatura [0018] Ao longo da presente divulgação, incluindo as reivindicações, a expressão que executa uma operação sobre um sinal ou dados (por exemplo, filtragem, dimensionamento, transformação ou aplicação de ganho ao sinal ou aos dados) é utilizada em um sentido lato para designar a realização da operação diretamente no sinal ou nos dados, ou em uma versão processada do sinal ou dos dados (por exemplo, em uma versão do sinal que foi submetido à filtração preliminar ou de pré-processamento antes da realização da operação no mesmo).
[0019] Ao longo da presente divulgação, incluindo as reivindicações, a expressão sistema é usada em um sentido lato para designar um dispositivo, sistema ou subsistema. Por exemplo, um subsistema que implementa um decodificador pode ser referido como um sistema de decodificador, e um sistema que inclui um tal subsistema (por exemplo, um sistema que gera sinais de saída X, em resposta a entradas múltiplas, no qual o subsistema gera M das entradas e as outras entradas X - M são recebidas a partir de uma fonte externa) também pode ser referido como um sistema decodificador.
[0020] Ao longo da presente divulgação, incluindo as reivindicações, o termo processador é usado em um sentido lato para designar um sistema ou dispositivo programável ou configurável de outra maneira (por exemplo, com um software ou firmware) para executar opera
Petição 870160000947, de 18/01/2016, pág. 11/101
7/77 ções sobre os dados (por exemplo, áudio, vídeo ou ou outros dados de imagem). Exemplos de processadores incluem uma matriz de porta de campo programável (ou outro conjunto de chip ou circuito integrado configurável), um processador de sinal digital programado e/ou configurado de outra maneira para realizar processamento de linha em áudio ou outros dados de som, um computador ou processador programável de finalidade geral e um conjunto de chip ou chip microprocessador programável.
[0021] Ao longo da presente memória descritiva, incluindo nas reivindicações, as expressões processador de áudio e áudio unidade de processamento são utilizadas de maneira intercambiável, e num sentido lato, para designar um sistema configurado para processar dados de áudio. Exemplos de unidades de processamento de áudio incluem, mas não estão limitados a codificadores (por exemplo, transcodificadores), decodificadores, codecs, sistemas de pré-tratamento, sistemas de pós-processamento e sistemas de processamento de fluxo de bits (por vezes referido como ferramentas de processamento de fluxo de bits).
[0022] Ao longo da presente memória descritiva, incluindo nas reivindicações, a expressão metadados (de um fluxo contínuo de dados de áudio codificados) refere-se a dados separados e diferentes a partir dos dados de áudio correspondentes do fluxo de bits.
[0023] Ao longo da presente modalidade, incluindo nas reivindicações, a expressão metadados da estrutura do substream (ou SSM) refere-se a metadados de um fluxo de bits de áudio codificados (ou um conjunto de fluxos de bits de áudio codificados) indicativo da estrutura de substream do conteúdo de áudio do(s) fluxo(s) de bits codificado(s). [0024] Ao longo da presente divulgação, incluindo as reivindicações, a expressão metadados informações do programa (ou PIM) indica a metadados de um fluxo de bits áudio codificado indicativo de
Petição 870160000947, de 18/01/2016, pág. 12/101
8/77 pelo menos um programa áudio (por exemplo, dois ou mais programas de áudio), em que os referidos metadados são indicativos de pelo menos uma propriedade ou característica do conteúdo de áudio de pelo menos um programa referido (por exemplo, que indica um tipo de metadado ou parâmetro de processamento executado em dados de áudio do programa ou metadados que indicam que canais do programa são canais ativos).
[0025] Ao longo da presente divulgação, incluindo as reivindicações, a expressão metadados de estado de processamento (por exemplo, como na expressão metadados do estado de processamento do volume) refere-se a metadados (de um fluxo de bits de áudio codificados) associados a dados de áudio do fluxo de bits, indica o estado de processamento dos dados de áudio correspondentes (associados) (por exemplo, que tipo(s) de processamento já foram realizados nos dados de áudio) e, tipicamente, indica também ao menos uma característica dos dados de áudio. A associação dos metadados de estado de processamento com os dados de áudio é sincronizada com o tempo. Assim, os presentes (os recebidos ou atualizados mais recentemente) metadados de estado de processamento indicam que os dados de áudio correspondente compreendem, ao mesmo tempo, os resultados do(s) tipo(s) indicado(s) de processamento de dados de áudio. Em alguns casos, os metadados de estado de processamento podem incluir o histórico de processamento e/ou alguns dos ou todos os parâmetros que são usados dentro e/ou derivados dos tipos indicados de processamento. Ademais, os metadados de estado de processamento podem incluir pelo menos uma característica dos dados de áudio correspondentes, que tenha sido computada ou extraída dos dados de áudio. Metadados do estado de processamento também pode incluir outros metadados que não sejam relacionados com ou derivados de qualquer processamento dos dados de áudio correspondentes. Por
Petição 870160000947, de 18/01/2016, pág. 13/101
9/77 exemplo, dados de terceiros, informações de rastreamento, identificadores, informações proprietárias ou padrão, dados de anotação do usuário, dados de preferência do usuário, etc. podem ser adicionados por uma unidade de processamento de áudio especial para passar para outras unidades de processamento de áudio.
[0026] Ao longo da presente modalidade, incluindo nas reivindicações, a expressão metadados de estado de processamento de volume (ou LPSM) refere-se aos metadados de estado de processamento do estado de processamento de volume dos dados de áudio correspondentes (por exemplo, qual(is) o(s) tipo(s) de processamento de volume foi/foram realizado(s) nos dados de áudio) e tipicamente, ademais, pelo menos uma característica (por exemplo, o volume) dos dados de áudio correspondentes. Metadados do estado de processamento de volume podem incluir dados (por exemplo, outros metadados) que não sejam (isto é, quando considerados isoladamente) metadados do estado de processamento de volume.
[0027] Ao longo da presente modalidade, incluindo as reivindicações, a expressão canal (ou canal de áudio) indica um sinal de áudio monofônico.
[0028] Ao longo da presente memória descritiva, incluindo as reivindicações, a expressão programa de áudio indica um conjunto de um ou mais canais de áudio e metadados opcionalmente também associados (por exemplo, os metadados que descrevem uma apresentação de áudio espacial desejada e/ou PIM, e/ou o SSM, e/ou LPSM e/ou um programa de metadados de limite).
[0029] Ao longo da presente memória descritiva, incluindo as reivindicações, a expressão limite de metadados de programa indica metadados de um fluxo de bits de áudio codificados, onde o fluxo de bits de áudio codificados são indicativos de pelo menos um programa de áudio (por exemplo, dois ou mais programas de áudio) e os meta
Petição 870160000947, de 18/01/2016, pág. 14/101
10/77 dados de limite do programa são indicativos quanto à localização no fluxo de bits de pelo menos um limite (início e/ou final) de pelo menos um programa de áudio mencionado. Por exemplo, os metadados de limite de programa (de um fluxo de bits de áudio codificados de um programa de áudio) podem incluir metadados indicativos do local (por exemplo, o início do quadro N° do fluxo de bits ou o local de amostra H° do quadroN° do fluxo de bits) do início do programa e metadados adicionais indicativos do local (por exemplo, o início do quadro J° do fluxo de bits ou o local de amostra K° do quadro J° do fluxo de bits) do final do programa.
[0030] Ao longo da presente divulgação, incluindo as reivindicações, o termo pares ou acoplado é usado para significar tanto uma ligação direta quanto indireta. Assim, se um primeiro dispositivo se acopla a um segundo dispositivo, essa conexão pode ser por meio de uma conexão direta ou por meio de uma conexão indireta por meio de outros dispositivos e conexões.
Descrição Detalhada das Modalidades da Invenção [0031] Um típico fluxo de dados de áudio inclui tanto o conteúdo de áudio (por exemplo, um ou mais canais de conteúdo de áudio) quanto os metadados indicativos de pelo menos uma característica do conteúdo de áudio. Por exemplo, em um de fluxo de bits AC-3, existem vários parâmetros de metadados de áudio que são especificamente destinados à utilização na alteração do som do programa distribuído a um ambiente de escuta. Um dos parâmetros de metadados é o parâmetro DIALNORM, que se destina a indicar o nível médio de diálogo em um programa de áudio, e é usado para determinar o nível de sinal da reprodução de áudio.
[0032] Durante a reprodução de um fluxo contínuo de bits que compreende uma sequência de diferentes segmentos de programa áudio (cada um tendo um parâmetro DIALNORM diferente), um deco
Petição 870160000947, de 18/01/2016, pág. 15/101
11/77 dificador AC-3 usa o parâmetro DIALNORM de cada segmento para realizar um tipo de processamento de volume no qual ele modifica o nível de reprodução ou de volume de modo que a percepção do volume do diálogo da sequência de segmentos está em um nível consistente. Cada segmento de áudio codificado (item) em uma sequência de itens de áudio codificados (em geral) tem um parâmetro DIALNORM diferente, e o descodificador reduziria o nível de cada um dos elementos de modo que o nível de reprodução ou do volume da caixa de diálogo para cada item é o mesmo ou muito semelhante, embora isso possa exigir a aplicação de diferentes valores de ganho para diferentes quantidades de ganho para diferentes items durante a reprodução.
[0033] DIALNORM é tipicamente definido por um usuário, e não é gerado automaticamente, embora haja um valor DIALNORM padrão se nenhum valor for definido pelo usuário. Por exemplo, um criador de conteúdo pode fazer medições de volume com um dispositivo externo para um codificador AC-3 e, em seguida, transferir o resultado (indicativo da intensidade do diálogo falado de um programa de áudio) para o codificador para definir o valor DIALNORM. Assim, não há dependência do criador de conteúdo para definir o parâmetro DIALNORM corretamente.
[0034] Existem várias razões pelas quais o parâmetro DIALNORM em um fluxo de bits AC-3 pode estar incorreto. Em primeiro lugar, cada codificador AC -3 tem um valor DIALNORM padrão que é usado durante a geração do fluxo de dados se um valor DIALNORM não for definido pelo criador de conteúdo. Esse valor padrão pode ser substancialmente diferente do nível real de volume de diálogo do áudio. Em segundo lugar, mesmo se um criador de conteúdo mede o volume e define o valor DIALNORM de maneira apropriada, pode ter sido usado um algoritmo de medida de volume ou medição que não se conforma com
Petição 870160000947, de 18/01/2016, pág. 16/101
12/77 o método recomendado de medição de volume AC-3, resultando em um valor DIALNORM incorreto. Em terceiro lugar, mesmo se um fluxo de bits AC-3 foi criado com o valor DIALNORM medido e definido corretamente pelo criador de conteúdo, ele pode ter sido alterado para um valor incorreto durante a transmissão e/ou armazenamento de um fluxo de bits. Por exemplo, não é incomum em aplicações de transmissão de televisão para fluxos de bits AC-3 a serem decodificados, modificados e então recodificados utilizando informações de metadados DIALNORM incorretas. Assim, um valor DIALNORM incluído em um fluxo de bits AC-3 pode estar incorreto ou impreciso e, portanto, pode ter um impacto negativo sobre a qualidade da experiência de audição.
[0035] Além disso, o parâmetro DIALNORM não indica o estado de processamento de volume dos dados de áudio correspondentes (por exemplo, que tipo(s) de processamento de volume foi(ram) realizado(s) sobre os dados de áudio). Os metadados do estado de processamento de volume (no formato em que é fornecido em algumas modalidades da presente invenção) é útil para facilitar o processamento adaptativo de intensidade de um fluxo contínuo de dados de áudio e/ou para a verificação da validade do estado do processamento de volume e do volume do conteúdo de áudio, de uma maneira particularmente eficiente.
[0036] Embora a presente invenção não esteja limitada à utilização com um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E, por conveniência, ela será descrita em modalidades em que gera, decodifica ou processa esse fluxo de bits.
[0037] Um fluxo de bits AC-3 codificados compreende metadados e de um a seis canais de conteúdo de áudio. O conteúdo de áudio são dados de áudio que foram comprimidos usando codificação de áudio perceptual. Os metadados incluem vários parâmetros de metadados de áudio que são destinadas à utilização na alteração do som de um
Petição 870160000947, de 18/01/2016, pág. 17/101
13/77 programa de entrega para um ambiente de escuta.
[0038] Cada quadro de um fluxo de dados AC-3 codificados contém conteúdos de áudio e metadados para amostras 1536 de áudio digital. Para uma taxa de amostra de 48 kHz, isso representa 32 milissegundos de áudio ou uma taxa de 31,25 quadros por segundo de áudio.
[0039] Cada quadro de um fluxo de bits de áudio E-AC-3 codificados contém conteúdos de áudio e metadados para 256, 512, 768 ou 1536 amostras de áudio digital, dependendo se o quadro contém um, dois, três ou seis blocos de dados de áudio, respectivamente. Para uma taxa de amostra de 48 kHz, isso representa 5,333, 10,667, 16 ou 32 milissegundos de áudio digital, respectivamente, ou uma taxa de 189,9, 93,75, 62,5 ou 31,25 quadros por segundo de áudio, respectivamente.
[0040] Tal como indicado na Fig. 4, cada quadro AC-3 é dividido em seções (segmentos), incluindo: uma seção de sincronização de informação (SI) que contém (conforme mostrado na Fig. 5) uma palavra de sincronização (SW) e a primeira de duas palavras de correção de erro (CRC1 ); uma seção de informações de fluxo de bits (BSI) que contém a maior parte dos metadados; seis blocos de áudio (de AB0 a BA5) que contêm conteúdos de áudio comprimido em dados (e também podem incluir metadados); segmentos de bits residuais (W) (também conhecidos como campos de salto) que contêm todos os bits não-utilizados restantes após a compressão do conteúdo de áudio; uma seção de informação auxiliar (AUX) que pode conter mais metadados; e a segunda de duas palavras de correção de erro (CRC2).
[0041] Conforme indicado na Fig. 7, cada quadro E-AC-3 é dividido em seções (segmentos), incluindo: uma secção de informação de sincronização (SI) que contém uma palavra de sincronização (SW), (como mostrado na Fig. 5) uma secção de fluxo de bits de Informação
Petição 870160000947, de 18/01/2016, pág. 18/101
14/77 (BSI) que contém a maior parte dos metadados; entre um e seis blocos de áudio (de AB0 a BA5) que contêm conteúdos de áudio comprimido em dados (e também podem incluir metadados); segmentos de bits residuais (W) (também conhecidos como campos de salto) que contêm todos os bits não-utilizados restantes após a compressão do conteúdo de áudio (embora apenas um segmento de bit residual seja mostrado, um segmento de bit residual ou campo de salto diferente se seguiria, tipicamente, a cada bloco áudio); uma seção de informações auxiliares (AUX) que pode conter mais metadados; e uma palavra de correção de erro (CRC).
[0042] Por exemplo, em um de fluxo de bits AC-3 (ou E-AC-3), existem vários parâmetros de metadados de áudio que são especificamente destinados à utilização na alteração do som do programa distribuído a um ambiente de escuta. Um dos parâmetros de metadados é o parâmetro DIALNORM, que está incluído no segmento BSI.
[0043] Como mostrado na Fig. 6, o segmento de um quadro BSI AC-3 inclui um parâmetro de cinco bits (DIALNORM) que indica o valor DIALNORM para o programa. Um parâmetro de cinco bits (DIALNORM2) que indica o valor DIALNORM para um segundo programa de áudio transportado no mesmo quadro AC-3 está incluído, se o modo de codificação de áudio (acmod) do quadro AC-3 for 0, indicando que uma dupla-mono ou configuração de canal 1+1 estiver em uso.
[0044] O segmento BSI também inclui um sinal (addbsie) indicando a presença (ou ausência) de informações adicionais do fluxo de bits após o bit addbsie bits, um parâmetro (addbsil) que indica o comprimento de qualquer informação adicional do fluxo de bits após o valor addbsil e até 64 bits de informações de fluxo de bits adicionais (addbsi) após o valor addbsil.
[0045] O segmento BSI inclui outros valores de metadados não
Petição 870160000947, de 18/01/2016, pág. 19/101
15/77 especificamente mostrados na FIG. 6.
[0046] De acordo com uma classe de modalidade, um fluxo de bits de áudio codificados é indicativo de vários substreams de conteúdos de áudio. Em alguns casos, os substreams são indicativos dos conteúdos de áudio de um programa de canais múltiplos, e cada um dos substreams é indicativo de um ou mais dos canais do programa. Em outros casos, vários substreams de um fluxo de bits codificados são indicativos de conteúdos de áudio de vários programas de áudio, tipicamente um programa de áudio principal (que pode ser um programa de canais múltiplos) e pelo menos um outro programa de áudio (por exemplo, um programa que seja um comentário sobre o principal programa de áudio).
[0047] Um fluxo de bits de áudio codificados que é indicativa de pelo menos um programa de áudio inclui, necessariamente, pelo menos um substream independente do conteúdo de áudio. O substream independente é indicativo de pelo menos um canal de um programa de áudio (por exemplo, o substream independente pode ser indicativo dos cinco canais de faixa total de um programa de áudio de canal 5.1 convencional). Aqui, este programa de áudio é referido como um programa principal.
[0048] Em algumas classes de modalidade, um fluxo de bits codificados é indicativo de dois ou mais programas de áudio (um programa principal e pelo menos um outro programa de áudio). Em tais casos, o fluxo de bits inclui dois ou mais substreams independentes: um primeiro substream independente indicativo de pelo menos um canal do programa principal; e pelo menos um outro substream independente indicativo de pelo menos um canal de outro programa de áudio (um programa diferente do programa principal). Cada fluxo de bits independente pode ser decodificado independentemente, e um decodificador pode operar para decodificar apenas um subconjunto (não todos)
Petição 870160000947, de 18/01/2016, pág. 20/101
16/77 dos substreams independentes de um fluxo de bits codificados.
[0049] Em um exemplo típico de um fluxo de bits de áudio codificados que é indicativo de dois substreams independentes, um dos substreams independentes é indicativo de canais de alto-falante de formato padrão de um programa principal de canais múltiplos (por exemplo, esquerda, direita, centro, esquerda Surround, canais de altofalante de faixa total de direita Surround de um programa principal de canal 5.1) e o outro substream independente é indicativo de um comentário de áudo monofônico sobre o programa principal (por exemplo, o comentário de um diretor em um filme, onde o programa principal é a trilha sonora do filme). Em outro exemplo de um fluxo de bits de áudio codificados indicativo de substreams múltiplos independentes, um dos substreams independentes é indicativo de canais padrão de alto-falantes de formato padrão de um programa principal de canais múltiplos (por exemplo, um programa principal de canal 5.1) que inclui um primeiro diálogo em uma primeira língua (por exemplo, um dos canais do alto-falante do programa principal pode ser um indicativo da janela) e cada outro substream independente é indicativo de uma tradução monofônica (em um idioma diferente) do diálogo.
[0050] Opcionalmente, um fluxo de bits áudio codificados é indicativo de um programa principal (e, opcionalmente, também pelo menos um outro programa de áudio) inclui pelo menos um substream dependente dos conteúdos de áudio. Cada substream dependente está associado a um substream independente do fluxo de bits e é indicativo de pelo menos um canal suplementar do programa (por exemplo, o programa principal) cujo conteúdo é indicado pela substream independente associado (isto é, o substream dependente é indicativo de pelo menos um canal de um programa que não é indicado pelo substream independente associado, e o substream independente associado é indicativo de pelo menos um canal do programa).
Petição 870160000947, de 18/01/2016, pág. 21/101
17/77 [0051] Em um exemplo de um fluxo de bits codificados que inclui um substream independente (indicativo de pelo menos um canal de um programa principal), o fluxo de bits inclui também um substream dependente (associado ao fluxo de bits independente) que é indicativo de um ou mais canais de alto-falante do programa principal. Esses canais de alto-falante adicionais são suplementares ao(s) canal(is) do programa principal indicado pelo substream independente. Por exemplo, se o substream independente for indicativo do formato padrão esquerda, direita, centro, esquerda Surround, canais de alto-falante de faixa total de direita Surround de um programa principal de canal 7.1, o substream dependente pode ser um indicativo dos dois outros canais de alto-falante de faixa total do programa principal.
[0052] Em conformidade com o padrão E-AC-3, um fluxo de bits EAC-3 deve ser indicativo de pelo menos um substream independente (por exemplo, um fluxo de bits AC-3 único), e pode ser indicativo de até oito substreams independentes. Cada substream independente de um fluxo de bits E-AC-3 pode ser associado com até oito substreams dependentes.
[0053] O fluxo de bits E-AC-3 inclui metadados indicativos da estrutura de substream do fluxo de bits. Por exemplo, um campo chanmap na seção de informações do fluxo de bits (BSI) de um fluxo de bits E-AC-3 determina um mapa de canal para os canais do programa indicados por um substream dependente do fluxo de bits. No entanto, os metadados indicativos da estrutura de substream são convencionalmente incluídos em um fluxo de bits E-AC-3 em um formato tal que seja conveniente para acesso e uso (durante a decodificação do fluxo de bits E-AC-3 CODIFICADO) apenas por um decodificador E-AC-3; não para o acesso e uso após a decodificação (por exemplo, por um pós-processador) ou antes da decodificação (por exemplo, por um processador configurado para reconhecer os metadados). Além disso,
Petição 870160000947, de 18/01/2016, pág. 22/101
18/77 existe um risco de que um decodificador pode identificar incorretamente os substreams de um fluxo de bits convencional E-AC-3 codificado utilizando os metadados convencionalmente incluídos e que não era conhecido até a presente invenção de como incluir metadados de estrutura de substream em um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 codificado) de um formato tal que permita uma detecção e uma correção eficientes e convenientes de erros na identificação do substream durante a decodificação do fluxo de bits.
[0054] O fluxo de bits E-AC-3 pode incluir ainda metadados acerca dos conteúdos de áudio de um programa de áudio. Por exemplo, um fluxo de bits E-AC-3 indicativo de um programa de áudio inclui metadados indicativos de frequências mínima e máxima para a qual o processamento de extensão espectral (e codificação de canal de acoplamento) foi utilizado para codificar o conteúdo do programa. No entanto, tais metadados indicativos da estrutura de substream são convencionalmente incluídos em um fluxo de bits E-AC-3 em um formato tal que seja conveniente para acesso e uso (durante a decodificação do fluxo de bits E-AC-3 CODIFICADO) apenas por um decodificador E-AC-3; não para o acesso e uso após a decodificação (por exemplo, por um pós-processador) ou antes da decodificação (por exemplo, por um processador configurado para reconhecer os metadados). Além disso, tais metadados não estão incluídos em um fluxo de bits E-AC-3 em um formato que permita, de forma conveniente e eficiente, a detecção e a correção de erro da identificação desses metadados durante a decodificação do fluxo de bits.
[0055] De acordo com modalidades típicas da invenção, PIM e/ou SSM (e, opcionalmente, também outros metadados, por exemplo, metadados do estado de processamento de volume ou LPSM) são incorporados em um ou mais campos reservados (ou ranhuras) de segmentos de metadados de um fluxo de bits de áudio que inclui também
Petição 870160000947, de 18/01/2016, pág. 23/101
19/77 dados de áudio em outros segmentos (segmentos de dados de áudio). Tipicamente, pelo menos um segmento de cada quadro do fluxo de dados inclui PIM ou SSM, e pelo menos um outro segmento do quadro inclui dados de áudio correspondentes (isto é, dados de áudio cuja estrutura de substream é indicada pelo SSM e/ou possuindo pelo menos uma característica ou propriedade indicada pelo PIM).
[0056] Em uma classe de modalidade, cada segmento de metadados é uma estrutura de dados (por vezes referida neste documento como um recipiente) que pode conter uma ou mais cargas de metadados. Cada carga inclui um cabeçalho que inclui um identificador de carga específico (e dados de configuração de carga útil) para proporcionar uma indicação inequívoca do tipo de metadado presente na carga útil. A fim de cargas úteis no interior do recipiente é indefinida, de modo que cargas pode ser armazenado em qualquer ordem e um analisador tem de ser capaz de analisar todo o recipiente para extrair cargas úteis e relevantes ignorar cargas úteis que são ou não são relevantes, ou sem suporte. A Figura 8 (a ser descrito abaixo) ilustra a estrutura de um tal recipiente e cargas úteis no interior do recipiente.
[0057] A comunicação dos metadados (por exemplo, SSM e/ou PIM e/ou LPSM) em uma cadeia de processamento de dados de áudio é particularmente útil quando duas ou mais unidades de processamento de áudio precisam trabalhar em conjunto um com o outro ao longo da cadeia de processamento (ou ciclo vital dos conteúdos). Sem a inclusão de metadados em um fluxo de bits de áudio, sérios problemas de processamento de mídia, como de qualidade, nível ou degradações espaciais podem acontecer, por exemplo, quando dois ou mais codecs de áudio são usados na cadeia e um nivelamento de volume de extremidade única é aplicado mais de uma vez durante uma passagem de fluxo de bits para um dispositivo de consumo de mídia (ou um ponto de renderização dos conteúdos de áudio do fluxo de bits).
Petição 870160000947, de 18/01/2016, pág. 24/101
20/77 [0058] Os metadados do estado de processamento de volume (LPSM) incorporado em um fluxo de bits de áudio de acordo com algumas modalidades da invenção podem ser autenticados e validados, por exemplo, para permitir que as entidades reguladoras de velocidade verifiquem se o volume de um programa específico já está dentro da faixa especificada e se os dados de áudio correspondentes não foram alterados (garantindo, assim, a conformidade com as regulações aplicáveis). Um valor de volume incluído em um bloco de dados que compreende os metadados do estado de processamento de volume pode ser lido para verificar isso em vez de calcular o volume novamente. Em resposta aos LPSM, uma agência reguladora pode determinar que o conteúdo de áudio correspondente está em conformidade (conforme indicado pelos LPSM) com estatutário de volume e/ou requisitos regulatórios (por exemplo, os regulamentos promulgados sob o Commercial Advertisement Loudness Mitigation Act, também conhecido como CALM Act) sem a necessidade de calcular o volume dos conteúdos de áudio.
[0059] FIG. 1 é um diagrama de bloco exemplificativo de uma cadeia de processamento de áudio (um sistema de processamento de dados de áudio), em que um ou mais dos elementos do sistema pode ser configurado de acordo com uma modalidade da presente invenção. O sistema inclui os seguintes elementos, acoplados conforme se mostra: uma unidade de pré-processamento, um codificador, uma análise de sinale e unidade de correção de metadados, um decodificador e uma unidade de pré-processamento. Em variações do sistema mostrado, um ou mais dos elementos encontram-se omitidos, ou unidades adicionais de processamento de dados de áudio, estão incluídos.
[0060] Em algumas implementações, a unidade de préprocessamento da FIG. 1 está configurado para aceitar PCM (domínio de tempo) de amostras que compreendem o conteúdo de áudio como
Petição 870160000947, de 18/01/2016, pág. 25/101
21/77 entrada, e para as amostras de PCM processadas na saída. O codificador pode ser configurado para aceitar as amostras de PCM como entrada e para a saída de um fluxo de áudio de bits codificado (por exemplo, comprimido) indicativo dos conteúdos de áudio. Os dados do fluxo de bits que são indicativos dos conteúdos de áudio são por vezes aqui referidos como dados de áudio. Se o codificador é configurado de acordo com uma forma de realização típica da presente invenção, a saída de fluxo de bits de áudio do codificador inclui PIM e/ou SSM (e, opcionalmente, também dos metadados de estado de processamento de volume e/ou outros metadados), bem como dados de áudio.
[0061] A análise de sinal e a unidade de correção de metadados da Fig. 1 pode aceitar um ou mais fluxos de bits de áudio codificados e determinar (por exemplo, validar) se os metadados (por exemplo, metadados do estado de processamento) em cada fluxo de bits de áudio codificados estão corretos realizando análise de sinal (por exemplo, usando metadados de fronteira de programa em um fluxo de bits de áudio codificados). Se a análise de sina e a unidade de correção de metadados descobrir que os metadados incluídos são inválidos, ele normalmente substitui o(s) valor(es) incorreto(s) pelo(s) valor(es) correto(s) da análise de sinal. Assim, cada saída de fluxo de bits de áudio codificados da análise de sinal e da unidade de correção dos metadados pode incluir metadados do estado de processamento corrigido (ou não-corrigido), assim como dados de áudio codificados.
[0062] O decodificador da Fig. 1 pode aceitar fluxos de bits codificados de áudio como entrada e fluxos de bits de áudio modificados (por exemplo, codificados de maneira diferente) na saída como resposta (por exemplo, através da decodificação de um fluxo de entrada e recodificação do fluxo decodificado em um formato de codificação diferente). Se o transcodificador é configurado de acordo com uma modalidade típica da presente invenção, a saída do fluxo de bits do transco
Petição 870160000947, de 18/01/2016, pág. 26/101
22/77 dificador inclui SSM e/ou PIM (e, tipicamente, também outros metadados), assim como dados de áudio codificados. Os metadados podem ter sido incluídos no fluxo de bits de entrada.
[0063] O decodificador da Fig. 1 pode aceitar fluxos de dados de áudio codificados (por exemplo, comprimidos) como entrada, e fluxos de saída (como resposta) das amostras de áudio de PCM decodificadas. Se o decodificador estiver configurado de acordo com uma modalidade típica da presente invenção, a saída do decodificador em uma operação típica é ou inclui qualquer um dos seguintes elementos: [0064] um fluxo de amostras de áudio e pelo menos um fluxo correspondente de SSM e/ou PIM (e tipicamente também outros metadados) extraído de um fluxo de bits codificado na entrada; ou [0065] um fluxo de amostras de áudio, e um fluxo de bits de controle do fluxo correspondente determinado a partir de SSM e/ou PIM (e tipicamente também outros metadados, por exemplo, LPSM) extraído de um fluxo de bits codificados na saída; ou [0066] um fluxo de amostras de áudio, sem um fluxo correspondente de metadados ou bits de controle determinados a partir de metadados. Neste último caso, o decodificador pode extrair metadados a partir do fluxo de bits codificados na entrada e executar pelo menos uma operação nos metadados extraídos (por exemplo, validação), mesmo que não envie os metadados extraídos ou os bits de controle determinados a partir dos mesmos.
[0067] Ao configurar-se a unidade de pós-processamento da Fig. 1 em conformidade com uma modalidade típica da presente invenção, a unidade de pós-processamento é configurado para aceitar um fluxo de amostras de áudio de PCM decodificadas e para realizar o pósprocessamento das mesmas (por exemplo, nivelamento de volume do conteúdo áudio) usando SSM e/ou PIM (e tipicamente também outros metadados, por exemplo, LPSM) recebido com as amostras, ou bits de
Petição 870160000947, de 18/01/2016, pág. 27/101
23/77 controle determinados pelo decodificador dos metadados recebidos com as amostras. A unidade de pós-processamento é tipicamente configurada também para processar o conteúdo pós-processado de áudio para reprodução por um ou mais alto-falantes.
[0068] Modalidades típicas da presente invenção fornecem uma cadeia de processamento de áudio melhorado em que unidades de processamento de áudio (por exemplo, codificadores, decodificadores, transcodificadores e unidades de pré e pós-processamento) adaptam seu respectivo processamento para ser aplicado aos dados de áudio de acordo com um estado contemporâneo dos dados de mídia conforme indicados pelos metadados recebidos respectivamente pelas unidades de processamento de áudio.
[0069] A entrada de dados de áudio para qualquer unidade de processamento de áudio do sistema da Fig. 1 (por exemplo, o codificador ou transcodificador da Fig. 1) pode incluir SSM e/ou PIM (e, opcionalmente, também outros metadados), bem como dados de áudio (por exemplo, dados de áudio codificados). Estes metadados podem ter sido incluídos no áudio de entrada por outro elemento do sistema da Fig. 1 (ou outra fonte, não mostrada na Fig. 1), de acordo com uma modalidade da presente invenção. A unidade de processamento que recebe a entrada de áudio (com metadados) pode ser configurada para executar pelo menos uma operação nos metadados (por exemplo, validação) ou em resposta aos metadados (por exemplo, processamento adaptativo da entrada de áudio), e tipicamente também para incluir em seu áudio de saída os metadados, uma versão processada dos metadados ou bits de controle determinados a partir dos metadados.
[0070] Uma modalidade típica da unidade de processamento do áudio da invenção (ou processador de áudio) está configurado para executar o processamento adaptativo de dados de áudio com base no
Petição 870160000947, de 18/01/2016, pág. 28/101
24/77 estado dos dados de áudio como indicado por metadados que correspondem aos dados de áudio. Em algumas modalidades, o processamento adaptativo é (ou inclui) o processamento de volume (se os metadados indicam que o processamento de volume, ou processamento semelhante ao mesmo, ainda não foi executado nos dados de áudio, mas não é (e não inclui) um processamento de volume (se os metadados indicam que esse processamento de volume, ou processamento semelhante ao mesmo, já foi executado nos dados de áudio). Em algumas modalidades, o processamento adaptativo é ou inclui a validação de metadados (por exemplo, realizado em uma subunidade de validação de metadados) para assegurar que a unidade de processamento de áudio execute outro processamento adaptativo dos dados de áudio no estado dos dados de áudio, conforme indicado pelos metadados. Em algumas modalidades, a validação determina a confiabilidade dos metadados associados aos (por exemplo, incluídos em um fluxo de bits com) os dados de áudio. Por exemplo, se os metadados forem validados como sendo confiáveis, então os resultados de um tipo de processamento de áudio executado anteriormente podem ser reutilizados e uma nova execução do mesmo tipo de processamento de áudio pode ser evitada. Por outro lado, se descobre-se que os metadados foram adulterados com (ou se não são confiáveis por algum outro motivo), então o tipo de processamento de mídia supostamente executado anteriormente (como indicado pelos metadados nãoconfiáveis) pode ser repetido pela unidade de processamento de áudio e/ou outro processamento pode ser realizado pela unidade de processamento de áudio nos metadados e/ou nos dados de áudio. A unidade de processamento de áudio poderá também ser configurada para sinalizar a outras unidades de processamento de áudio a jusante em uma cadeia de processamento de mídia melhorada que os metadados (por exemplo, presentes em um fluxo de bits de mídia) são válidos, se a
Petição 870160000947, de 18/01/2016, pág. 29/101
25/77 unidade determinar que os metadados são válidos (por exemplo, com base na correspondência entre um valor criptográfico extraído e um valor criptográfico de referência).
[0071] FIG. 2 é um diagrama de bloco de um codificador (100) que é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 100 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASIC, FPGA ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. O codificador 100 compreende um buffer de quadro 110, um analisador 111, um decodificador 101, um validador de estado de áudio 102, uma etapa de processamento de volume 103, uma etapa de seleção de fluxo de áudio 104, um codificador 105, uma etapa do enchedor/formatador 107, uma etapa de geração de metadados 106, um subsistema de medição de volume do diálogo 108 e um buffer de quadro 109, conectados conforme mostrado. Tipicamente, ademais, o codificador 100 inclui outros elementos de processamento (não mostrado).
[0072] O codificador 100 (que é um transcodificador) é configurado para converter uma corrente de bits de áudio de entrada (que, por exemplo, pode ser um de um fluxo de bits AC-3, um fluxo de bits EAC-3 bitstream ou um fluxo de bits Dolby E) para um fluxo de bits de áudio de saída (que pode, por exemplo, ser outro dentre um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E) incluindo através da realização do processamento de volume adaptativo e automatizado utilizando os metadados do estado de processamento de volume incluído no fluxo de bits de entrada. Por exemplo, o codificador 100 pode ser configurado para converter um fluxo de dados Dolby E de entrada (um formato tipicamente usado em instalações de produção e de transmissão, mas não em dispositivos de consumo que
Petição 870160000947, de 18/01/2016, pág. 30/101
26/77 recebem programas de áudio que tenham sido transmitidos ao mesmo) a um fluxo de bits de áudio de saída codificados (adequado para a radiodifusão para dispositivos de consumo) em formato AC-3 ou E-AC-
3.
[0073] O sistema da FIG. 2 também inclui subsistema de entrega de áudio codificado 150 (que armazena e/ou entrega a saída fluxos de bits codificado do codificador 100) e decodificador 152. Um fluxo de bits de áudio codificados do codificador 100 pode ser armazenado pelo subsistema 150 (por exemplo, no formato de um DVD ou de um disco Blu ray) ou transmitido pelo subsistema 150 (o qual pode implementar uma rede ou um link de transmissão), ou pode ser ambos armazenados e transmitidos pelo subsistema 150. O decodificador 152 está configurado para decodificar um fluxo de bits áudio codificados (gerado pelo codificador 100) que recebe através do subsistema de 150, incluindo a extração dos metadados (PIM e/ou SSM, e, opcionalmente, também os metadados do estado de processamento de volume e/ou outros metadados) de cada quadro do fluxo de bits (e opcionalmente também a extração de metadados do limite do programa de extração do fluxo de bits) e a geração de dados de áudio codificados. Tipicamente, o decodificador 152 está configurado para executar o processamento adaptativo nos dados de áudio decodificados usando PIM e/ou SSM e/ou LPSM (e, opcionalmente, também metadados de limite do programa) e/ou para transmitir os dados e metadados de áudio decodificados a um pós-processador configurado para executar o processamento adaptativo nos dados de áudio decodificados usando os metadados. Normalmente, o decodificador 152 inclui um buffer que armazena (por exemplo, de forma não-transitória) o fluxo de bits de áudio codificadosrecebido a partir do subsistema 150.
[0074] Várias implementações do codificador 100 e do decodificador 152 são configuradas para realizar diferentes modalidades do méPetição 870160000947, de 18/01/2016, pág. 31/101
27/77 todo da invenção.
[0075] O buffer do quadro 110 é uma memória de buffer acoplada para receber um fluxo de bits de áudio de entrada codificados. Em funcionamento, o buffer 110 armazena (por exemplo, de maneira nãotransitória) pelo menos um quadro do fluxo de bits de áudio codificados, e uma sequência dos quadros do fluxo de bits de áudio codificados é imposta a partir do buffer 110 até o analisador 111.
[0076] O analisador 111 é acoplado e configurado para extrair PIM e/ou SSM, e os metadados do estado de processamento de volume (LPSM), e opcionalmente também os metadados de limite do programa (e/ou outros metadados) de cada quadro de áudio de entrada codificado em que metadado desses é incluído para atribuir no mínimo os LPSM (e opcionalmente também programar metadados de limite e/ou outros metadados) ao validador do estado de áudio 102, a estapa de processamento de volume 103, a etapa 106 e o subsistema 108, para extrair os dados de áudio do áudio de entrada codificado e para atribuir os dados de áudio ao decodificador 101. O decodificador 101 do codificador 100 é configurado para decodificar os dados de áudio para gerar dados de áudio decodificados e atribuir os dados de áudio decodificados à etapa de processamento de volume 103, à etapa de seleção do fluxo de áudio 104, ao subsistema 108 e, tipicamente, também ao validador de estado 102.
[0077] O validador de estado 102 é configurado para autenticar e validar os LPSM (e opcionalmente outros metadados) impostos ao mesmo. Em algumas modalidades, os LPSM são (ou estão incluídos em) um bloco de dados que foram incluídos no fluxo de bits de entrada (por exemplo, de acordo com uma modalidade da presente invenção). O bloco pode compreender um hash criptográfico (um código de autenticação de mensagem baseado em hash ou HMAC) para processar os LPSM (e, opcionalmente, também outros metadados) e/ou os
Petição 870160000947, de 18/01/2016, pág. 32/101
28/77 dados de áudio subjacentes (fornecidos a partir do decodificador 101 ao validador 102). O bloco de dados pode ser assinado digitalmente nessas modalidades, de modo que uma unidade de processamento de áudio a jusante possa, de maneira relativamente fácil, autenticar e validar os metadados do estado de processamento.
[0078] Por exemplo, o HMAC é usado para gerar uma assimilação, e o(s) valor(es) de proteção incluídos no fluxo de bits da invenção podem incluir o produto da assimilação. A assimilação pode ser gerada conforme segue, para um quadro AC- 3:
1. Depois que os dados AC-3 e LPSM estiverem codificados, os bytes dos dados do quadro (data_frame #1 e data_frame #2 concatenados) e os bytes de dados dos LPSM são usados como entrada para o HMAC da função de hash. Outros dados, que podem estar presentes dentro de um campo de dados auxiliar, não são levados em consideração para o cálculo da assimulação. Estes outros dados podem ser bytes não-pertencentes aos dados AC-3 nem aos dados LSPSM. Os bits de proteção incluídos nos LPSM não podem ser considerados para o cálculo da assimilação de HMAC.
2. Após a assimilação ser calculada, ela é escrita no fluxo de bits em um campo reservado aos bits de proteção.
3. A última etapa da geração do quadro AC-3 completo é o cálculo da verificação de CRC. Ele é escrito no fim do quadro e todos os dados pertencentes a esse quadro são levados em consideração, incluindo os bits de LPSM.
[0079] Outros métodos de criptografia, incluindo, mas não limitado a, qualquer um ou mais de um dos métodos criptográficos não-HMAC, podem ser utilizados para validar os LPSM e/ou outros metadados (por exemplo, no validador 102) para garantir uma transmissão e um recebimento seguros dos metadados e/ou dos dados de áudio subjacentes. Por exemplo, a validação (usando esse método criptográfico) pode
Petição 870160000947, de 18/01/2016, pág. 33/101
29/77 ser realizada em cada unidade de processamento de áudio que recebe uma modalidade do fluxo de dados de áudio da invenção para determinar se os metadados correspondentes e dados de áudio incluídos no fluxo de bits foram submetidos (e/ou que foram o resultado de) processamento específico (conforme indicado pelos metadados) e não foram modificados após a realização de tal processamento específico. [0080] O validador de estado 102 impõe dados de controle à etapa de seleção do fluxo de áudio 104, ao gerador de metadados 106 e ao subsistema de medição de volume do diálogo 108 para indicar os resultados da operação de validação. Em resposta aos dados de controle, a etapa 104 pode selecionar (e atravessar até o codificador 105) ou:
a saída adaptativamente processada da etapa de processamento de volume 103 (por exemplo, quando os LPSM indicarem que a saída de dados áudio do decodificador 101 não foi submetida a um tipo específico de processamento de volume e os bits de controle do validador 102 indicarem que os LPSM são válidos); ou a saída de dados de áudio do decodificador 101 (por exemplo, quando os LPSM indicarem que a saída de dados áudio do decodificador 101 já foi submetida ao tipo específico de processamento de volume que seria executado pela etapa 103 e os bits de controle do validador 102 indicarem que os LPSM são válidos).
[0081] A etapa 103 de codificador 100 está configurado para executar o processamento adaptativo de volume na saída de dados de áudio decodificados do decodificador 101, com base em uma ou mais características de dados de áudio indicados pelos LPSM extraídos pelo decodificador 101. A etapa 103 pode ser um volume em tempo real de domínio de transformação adaptativo e um processador de controle de faixa dinâmica. A etapa 103 pode receber uma entrada do usuário (por exemplo, o volume alvo do usuário/os valores de faixa dinâmica
Petição 870160000947, de 18/01/2016, pág. 34/101
30/77 ou valores dialnorm) ou outra entrada de metadados (por exemplo, um ou mais tipos de dados de um terceiro, informações de rastreamento, dados de preferência do usuário, etc.) e/ou outra entrada (por exemplo, a partir de um processo de impressão digital), e utilizar essa entrada para processar a saída de dados de áudio decodificados do decodificador 101. A etapa 103 pode executar o processamento adaptativo de volume em dados de áudio decodificados (saída do decodificador 101) indicativos de um único programa de áudio (como indicado por metadados de limite do programa extraídos pelo analisador 111), e podem redefinir o processamento de volume em resposta ao recebimento de dados de áudio decodificados (saída do decodificador 101) indicativos de um programa de áudio diferente, como indicado pelos metadados de limite do programa extraídos pelo analisador 111.
[0082] O subsistema de medição de volume do diálogo 108 pode operar para determinar o volume de segmentos do áudio descodificado (a partir do decodificador 101) que são indicativos do diálogo (ou outra fala), por exemplo, utilizando os LPSM (e/ou outros metadados) extraído pelo decodificador 101, quando os bits de controle do validador 102 indicarem que os LPSM são inválidos. A operação do subsistema de medição de volume do diálogo 108 pode ser desabilitada quando os LPSM indicarem um volume previamente determinado dos segmentos do diálogo (ou de outra fala) do áudio decodificado (do decodificador 101) quando os bits de controle do validador 102 indicarem que os LPSM são válidos. O subsistema 108 pode realizar uma medição de volumes em dados de áudio decodificados indicativos de um único programa de áudio (como indicado pelos metadados de limite do programa extraídos pelo analisador 111) e pode redefinir a medição em resposta ao recebimento de dados de áudio decodificados indicativos de um programa de áudio diferente, como indicado por tais metadados de limite do programa.
Petição 870160000947, de 18/01/2016, pág. 35/101
31/77 [0083] Ferramentas úteis (por exemplo, o medidor de volume Dolby LM100) existem para medir o nível de diálogo nos conteúdos de áudio de forma fácil e conveniente. Algumas modalidades da APU inventiva (por exemplo, etapa 108 do codificador 100) são implementadas para incluir (ou para desempenhar as funções de) uma ferramenta para medir o volume médio de diálogo de um fluxo de bits de áudio (por exemplo, um fluxo de bits AC-3 decodificado imposto à etapa 108 do decodificador 101 do codificador 100).
[0084] Se a etapa 108 for implementada para medir o verdadeiro volume médio de diálogo dos dados de áudio, a medição pode incluir uma etapa de isolamento dos segmentos do conteúdo de áudio que contêm predominantemente falas. Os segmentos de áudio que são predominantemente de fala são então processados de acordo com um algoritmo de medida de volume. Para dados de áudio decodificados a partir de um fluxo de bits AC-3, esse algoritmo pode ser uma medida de volume mensurada pelo padrão K (em conformidade com o padrão internacional ITU-R BS.1770). Alternativamente, podem ser utilizadas outras medidas de intensidade (por exemplo, aquelas com base em modelos físico-acústicos de volume).
[0085] O isolamento de segmentos de fala não é essencial para medir o volume médio de diálogo dos dados de áudio. Todavia, ele melhora a precisão da medida e normalmente fornece resultados mais satisfatórios da perspectiva de um ouvinte. Visto que nem todo conteúdo de áudio contém diálogo (fala), a medida do volume de todo o conteúdo de áudio pode fornecer uma aproximação suficiente do nível do diálogo do áudio, se a fala estivesse presente.
[0086] O gerador de metadados 106 gera (e/ou passa até a etapa 107) metadados a serem incluídos pela etapa 107 no fluxo de bits codificados para a saída a partir do codificador 100. O gerador de metadados 106 pode passar até a etapa 107 os LPSM (e opcionalmente
Petição 870160000947, de 18/01/2016, pág. 36/101
32/77 também LIM e/ou PIM e/ou metadados de limite do programa e/ou outros metadados) extraídos pelo codificador 101 e/ou pelo analisador 111 (por exemplo, quando os bits de controle do validador 102 indicarem que o LPSM e/ou outros metadados são válidos), ou gerar novos LIM e/ou PIM e/ou LPSM e/ou metadados de limite do programa e /ou outros metadados de impuser os novos metadados à etapa 107 (por exemplo, quando os bits de controle do validador 102 indicarem que os metadados extraídos do decodificador 101 são inválidos), ou ele pode atribuir à etapa 107 uma combinação de metadados extraídos pelo decodificador 101 e/ou pelo analisador 111 e de metadados gerados recentemente. O gerador de metadados 106 pode incluir dados de volume gerados pelo subsistema 108 e pelo menos um valor indicativo do tipo de processamento de volume executado pelo subsistema 108, nos LPSM que ele atribui à etapa 107 para a inclusão no fluxo de bits codificados para ser a saída do codificador 100.
[0087] O gerador de metadados 106 pode gerar bits de proteção (que podem consistir em ou incluir um código de autenticação de mensagem baseado em hash ou HMAC) útil para que pelo menos um dentre os seguintes fatores: desencriptação, autenticação ou validação do LPSM (e, opcionalmente, também outros metadados) sejam incluídos no fluxo de bits codificados e/ou para que os dados de áudio subjacentes sejam incluídos no fluxo de bits codificados. O gerador de metadados 106 pode fornecer esses bits de proteção à etapa 107 para inclusão no fluxo de bits codificados.
[0088] Em uma operação típica, o subsistema de medição de volume do diálogo 108 processa a saída de dados de áudio do decodificador 101 para gerar, em resposta ao mesmo, valores de volume (por exemplo, valores de volume de diálogo fechados e não-fechados) e valores de faixa dinâmica. Em resposta a esses valores, o gerador de metadados 106 pode gerar metadados de estado de processamento
Petição 870160000947, de 18/01/2016, pág. 37/101
33/77 de volume (LPSM) para inclusão (pelo preenchedor/formatador 107) no fluxo de bits codificados para serem uma saída do codificador 100. [0089] Além disso, opcionalmente, ou alternativamente, os subsistemas de 106 e/ou 108 do codificador 100 podem executar uma análise adicional dos dados de áudio para gerar metadados indicativos de pelo menos uma característica dos dados de áudio para inclusão no fluxo de bits codificados para serem uma saída a partir da etapa 107. [0090] O codificador 105 codifica (por exemplo, através da realização da compressão no mesmo) a saída de dados de áudio da etapa de seleção 104 e atribui o áudio codificado à etapa 107 para inclusão no fluxo de bits codificados para serem uma saída a partir da etapa 107.
[0091] A etapa 107 multiplexa o áudio codificado do codificador 105 e os metadados (incluindo PIM e/ou SSM) do gerador 106 para gerar o fluxo de bits codificados para serem uma saída a partir da etapa 107, preferencialmente de modo que o fluxo de bits codificado tenha um formato conforme especificado por uma modalidade preferível da presente invenção.
[0092] O buffer do quadro 109 é uma memória de buffer que armazena por exemplo, de uma maneira não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados da etapa 107 e uma sequência dos quadros do fluxo de bits de áudio codificados é então atribuído a partir do buffer 109 como uma saída do codificador 100 ao sistema de distribuição 150.
[0093] Os LPSM gerados pelo gerador de metadados 106 e incluídos no fluxo de bits codificados pela etapa 107 são tipicamente indicativos do estado de processamento de volume dos dados de áudio correspondentes (por exemplo, que tipo(s) de processamento de volume foi(ram) realizado(s) nos dados de áudio) e do volume (por exemplo, volume de diálogo medido, volume fechado e/ou não-fechado e/ou faiPetição 870160000947, de 18/01/2016, pág. 38/101
34/77 xa dinâmica dos dados de áudio correspondentes.
[0094] Neste documento, fechamento de volume e/ou medições de nível executadas em dados de áudio referem-se a níveis específicos ou limites de volume em que o(s) valor(es) computado(s) que excede(m) o limite é/são incluído(s) na medição final (por exemplo, ignorando os valores de volume de curto prazo abaixo de -60 dBFS nos valores finais medidos). O fechamento em um valor absoluto refere-se a um volume ou nível fixado, em que o fechamento em um valor relativo refere-se a um valor que depende de um valor atual de medição não-fechado.
[0095] Em algumas implementações do codificador 100, o fluxo de bits codificados armazenados na memória 109 (e de saída para o sistema de distribuição 150) é um fluxo de bits AC -3 ou um fluxo de bits E-AC-3 e compreende segmentos de dados de áudio (por exemplo, os segmentos AB0-AB5 do quadro mostrado na Fig. 4) e segmentos de metadados, onde os segmentos de dados de áudio são indicativos de dados de áudio e cada um de pelo menos alguns dos segmentos de metadados incluem PIM e/ou SSM (e, opcionalmente, também outros metadados). A etapa 107 insere os segmentos de metadados (incluindo metadados) no fluxo de bits no formato a seguir. Cada um dos segmentos de metadados que inclui PIM e/ou SSM está incluído em um segmento de bit residual do fluxo de bits (por exemplo, um segmento de bit residual W, como mostrado na Fig. 4 ou na Fig. 7) ou um campo addbsi do segmento de Informações de Fluxo de bits (BSI) de um quadro do fluxo de bits ou em um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4 ou na Fig. 7) ao final de um quadro do fluxo de bits. Um quadro do fluxo de bits pode incluir um ou dois segmentos de metadados, com cada um deles incluindo metadados, e se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no
Petição 870160000947, de 18/01/2016, pág. 39/101
35/77 campo AUX do quadro.
[0096] Em algumas modalidades, cada segmento de metadados (por vezes referidos aqui como um recipiente) inserido pela etapa 107 tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou de núcleo) e uma ou mais cargas úteis de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e outros metadados em períodos que não durante a decodificação (por exemplo, por um pós-processador após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplar, um decodificador pode identificar equivocadamente o número correto de substreams associados a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou LPSM).
Petição 870160000947, de 18/01/2016, pág. 40/101
36/77 [0097] Em algumas modalidades, uma carga útil de metadados de estrutura de substream (SSM) incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits EAC-3 indicativo de pelo menos um programa de áudio) inclui SSM no seguinte formato:
[0098] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor de 2 bits indicativo da versão do formato de SSM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e [0099] após o cabeçalho:
[00100] metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e [00101] metadados de substream dependentes indicativos do fato de cada substream independente do programa ter pelo menos um substream dependente associado (isto é, se pelo menos um substream dependente está associada com cada substream independente referido) e, se for o caso, do número de substreams dependentes associados com cada substream independente do programa.
[00102] É contemplado que um substream independente de um fluxo de bits codificado pode ser indicativo de uma série de canais de alto-falante de um programa de áudio (por exemplo, os canais de altofalante de um programa de áudio de canal de alto-falante 5.1) e de que cada um ou mais dos substreams dependentes (associados com o substream independente, como indicado pelos metadados de substream dependente) pode ser indicativo de um canal de objeto do programa. Tipicamente, no entanto, um substream independente de um fluxo de bits codificados é indicativo de uma série de canais de alto-falante de um programa, e cada substream dependente associado com o substream independente (como indicado pelos metadados de substre
Petição 870160000947, de 18/01/2016, pág. 41/101
37/77 am dependente) é indicativo de pelo menos um canal de alto-falante adicional do programa.
[00103] Em algumas modalidades, uma carga útil de metadados de informações de programa (PIM) incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) possui o seguinte formato:
[00104] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor indicativo da versão do formato de PIM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e [00105] após o cabeçalho, PIM no seguinte formato:
[00106] metadados do canal ativo indicativos de cada canal silencioso e de cada canal não-silencioso de um programa de áudio (isto é, que canal(is) do programa contém informações de áudio e qual(is), se houver, contém apenas silêncio (tipicamente durante o período de duração do quadro)). Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do canal ativo em um quadro do fluxo de bits pode ser usado em conjunto com metadados adicionais do fluxo de bits (por exemplo, o campo de modo de codificação de áudio (acmod) do quadro e, se presente, o campochanmapno quadro ou no(s) quadro(s) de substream dependente(s) associado(s) para determinar que canal(is) do programa contém informações de áudio e qual(is) contém silêncio. O campo acmod de um quadro AC-3 ou E-AC-3 indica o número de canais de faixa total de um programa de áudio indicado pelo conteúdo de áudio do quadro (por exemplo, se o programa é um programa monofônico de canal 1.0, um programa de canal estéreo 2.0 ou um programa que compreende canais de faixa total L, R, C, Ls, Rs), ou que o quadro é indicativo de dois programas monofônicos de canal independente 1.0. Um campo
Petição 870160000947, de 18/01/2016, pág. 42/101
38/77 chanmap de um fluxo de bits E-AC-3 indica um mapa de canal para um substream dependente indicado por um fluxo de bits. Os metadados de canal ativo podem ser úteis para a implementação de mistura (em um pós-processador) a jusante de um decodificador, por exemplo, para adicionar áudio a canais que contêm silêncio na saída do decodificador;
[00107] processamento de submistura de metadados de estado indicativos de se o programa foi submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura que foi aplicada. Os metadados do estado de processamento da submistura pode ser útil para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para submisturar os conteúdos de áudio do programa utilizando os parâmetros que chegam mais próximo a um tipo da submistura que foi aplicada. Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do estado de processamento da submistura podem ser usados em conjunto com o campo de modo de codificação de áudio (acmod) do quadro para determinar o tipo de submistura (se houver) aplicado ao(s) canal(is) do programa;
[00108] metadados do estado de processamento da mistura indica tivo de se o programa foi misturado (por exemplo, a partir de um número menos de canais) antes ou durante a codificação e, se for o caso, do tipo de mistura que foi aplicado. Os metadados do estado de processamento da mistura podem ser úteis para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para subsmiturar os conteúdos de áudio do programa de uma maneira que seja compatível com um tipo da mistura (por exemplo, Dolby Pro Logic, or Dolby Pro Logic II Movie Mode, or Dolby Pro Logic II Music Mode ou Dolby Professional Upmixer) que foi aplicada ao programa. Nas modalidades em que o fluxo de bits codificados é um fluxo de
Petição 870160000947, de 18/01/2016, pág. 43/101
39/77 bits E-AC-3, os metadados do estado de processamento da mistura podem ser usados em conjunto com outros metadados (por exemplo, o valor de um campo strmtyp do quadro) para determinar o tipo de mistura (se houver) aplicado ao(s) canal(is) do programa. O valor do campo strmtyp (no segmento BSI de um quadro de fluxo de bits E-AC-3) indica se o conteúdo áudio do quadro pertence a um fluxo independente (que determina um programa) ou um substream independente (de um programa que inclui ou está associado a vários substreams) e, portanto, pode ser decodificado independentemente de qualquer outro substream indicado pelo fluxo de bits 3-E-AC, ou se o conteúdo de áudio do quadro pertence a um substream dependente (de um programa que inclui ou está associado com vários substreams) e, portanto, deve ser decodificado em conjunto com um substream independente com o qual está associado; e [00109] metadados do estado de processamento indicativos do fato de o pré[00110] processamento ter sido realizado em conteúdos de áudio do quadro (antes da codificação dos conteúdos de áudio para gerar o fluxo de bits codificados) e, se for o caso, o tipo de pré-processamento que foi realizado.
[00111] Em algumas implementações, os metadados do estado de pré-processamento é indicativo de:
[00112] se a atenuação surround foi aplicada (por exemplo, se os canais surround do programa de áudio foram atenuados por 3 dB antes da codificação), [00113] se 90 graus de mudança de fase foram aplicados (por exemplo, para os canais surround Ls e Rs do programa de áudio antes da codificação), [00114] se um filtro de passagem baixa foi aplicado a um canal LFE do programa de áudio antes da codificação,
Petição 870160000947, de 18/01/2016, pág. 44/101
40/77 [00115] se o nível de um canal LFE do programa foi monitorado durante a produção e, se for o caso, do nível monitorado do canal LFE relativo ao nível dos canais de áudio de faixa completa do programa, [00116] se a compressão de faixa dinâmica deve ser executada (por exemplo, no decodificador) em cada bloco dos conteúdos de áudio decodificado do programa e, se for o caso, o tipo (e/ou parâmetros) de compressão de faixa dinâmica a ser executado (por exemplo, esse tipo de metadado de estado de pré-processamento podem ser indicativos de qual dentre os tipos de perfil de compressão foi adotado pelo codificador para gerar os valores de controle de compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados: Padrão de filme, luz de filme, padrão de música, luz da música ou fala. Alternativamente, esse tipo de metadado do estado de pré-processamento pode indicar que a compressão de faixa dinâmica pesada (compressão compr) deve ser executada em cada quadro dos conteúdos de áudio decodificados do programa de uma forma determinada por valores de controle da compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados), [00117] se o processamento de extensão espectral e/ou a codificação de ligação de canal foram utilizados para codificar faixas de frequência específicas do conteúdo do programa e, se for o caso, as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de extensão espectral foi executada e as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de ligação de canal foi executada. Esse tipo de informação de metadados do estado de processamento pode ser útil para realizar a equalização (em um pós-processador) a jusante de um decodificador. As informações de extensão espectral e de ligação de canal também são úteis para otimizar a qualidade durante as operações e aplicações de transcodificação. Por exemplo, um
Petição 870160000947, de 18/01/2016, pág. 45/101
41/77 codificador pode otimizar o seu comportamento (incluindo a adaptação das etapas de pré-processamento, como a virtualização dos headphones, misturas, etc.) com base no estado dos parâmetros, como informações de ligação de canal e de extensão espectral. Além disso, o codificador pode se adaptar aos seus parâmetros de extensão espectral e de ligação de maneira dinâmica para corresponder a e/ou para valores ideais com base no estado dos metadados acoplamento e espectrais de forma dinâmica para coincidir com e/ou para os valores ideais com base no estado dos metadados de entrada (e autenticados) e [00118] se os dados da faixa de ajuste da potencialização do diálogo foram incluídos no fluxo de bits codificados e, se for o caso, a faixa de ajuste disponível durante a execução do processamento de potencialização do diálogo (por exemplo, em um pós-processador a jusante de um decodificador) para ajustar o nível dos conteúdos de diálogo em relação ao nível dos conteúdos que não forem do diálogo no programa de áudio.
[00119] Em algumas implementações, os metadados do estado de pré-processamento adicional (por exemplo, metadados indicativos de parâmetros relacionados ao headphone) estão incluídos (pela etapa 107) em uma carga útil de PIM de um fluxo de bits codificados para serem uma saída do codificador 100.
[00120] Em algumas modalidades, uma carga útil de metadados de estrutura de substream LPSM incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits EAC-3 indicativo de pelo menos um programa de áudio) inclui LPSM no seguinte formato:
[00121] um cabeçalho (incluindo normalmente uma palavra de sincronização que identifica o início da carga útil dos LPSM, seguida por pelo menos um valor de identificação, por exemplo, a versão do forma
Petição 870160000947, de 18/01/2016, pág. 46/101
42/77 to dos LPSM, comprimento, período, contagem e valores de associação de substream indicados na Tabela 2 abaixo); e [00122] após o cabeçalho, [00123] pelo menos um valor de indicação do diálogo (por exemplo, parâmetro Canal(is) do diálogo da Tabela 2) que indica se os dados de áudio correspondentes indicam ou não diálogo (por exemplo, que canais dos dados de áudio correspondentes indicam diálogo);
[00124] pelo menos um valor de cumprimento da regulação do volume (por exemplo, parâmetro Tipo de Regulação do Volume da Tabela 2) que indica se os dados de áudio correspondentes cumpre com uma série indicada de regulações de volume;
[00125] pelo menos um valor de processamento de volume (por exemplo, um ou mais dos parâmetros Sinal de Correção do Volume fechado do Diálogo, Tipo de Correção de Volume da Tabela 2) que indica pelo menos um tipo de processamento de volume que foi executado sobre os dados de áudio correspondentes; e [00126] pelo menos um valor de volume (por exemplo, um ou mais dos parâmetros Volume Fechado Relativo a ITU, Volume Fechado de Fala Relativo a ITU, Volume de 3s de curto prazo de ITU (EBU 3341) E Pico Real da Tabela 2) que indica pelo menos uma característica de volume (por exemplo, volume médio ou de pico) dos dados de áudio correspondentes.
[00127] Em algumas modalidades, cada segmento de metadados contendo PIM e/ou SSM (e, opcionalmente, também outros metadados) contém um cabeçalho do segmento dos metadados (e, opcionalmente, também elementos de núcleo adicionais) e, após o cabeçalho do segmento de metadados (ou o cabeçalho de segmento de metadados e outros elementos de núcleo), pelo menos um segmento de carga útil de metadados apresentando o seguinte formato:
[00128] um cabeçalho de carga útil, tipicamente incluindo pelo me
Petição 870160000947, de 18/01/2016, pág. 47/101
43/77 nos um valor de identificação (por exemplo, versão do formato de SSM ou PIM, comprimento, período, contagem e valores de associação de substream) e [00129] após o cabeçalho da carga útil, o SSM ou PIM (ou metadados de outro tipo).
[00130] Em algumas implementações, cada um dos segmentos de metadados (por vezes aqui referidos como recipientes de metadados ou recipientes) inseridos pela fase 107 em um bit residual/segmento de campo de salto (ou um campo addbsi ou um campo de dados auxiliares) de um quadro do fluxo de bits apresenta o seguinte formato: [00131] um cabeçalho de segmento de metadados (incluindo, tipicamente, uma palavra de sincronização identificando o início do segmento de metadados, seguido por valores de identificação, por exemplo, versão, comprimento, período, contagem de elemento expandido e valores de associação de substream, como indicado na Tabela 1 abaixo); e [00132] após o cabeçalho de segmento de metadados pelo menos um valor de proteção (por exemplo, a assimilação de HMAC e valores de impressão digital da Tabela 1) útil para pelo menos um dentre os seguitnes elementos: desencriptação, autenticação ou validação de pelo menos um dos segmentos de metadados ou dados de áudio correspondentes); e [00133] também após o cabeçalho do segmento de metadados, a identificação da carga útil dos metadados (ID) e valores de configuração de carga útil que identificam o tipo de metadado em cada carga útil de metadados seguinte e indicam pelo menos um aspecto da configuração (por exemplo, tamanho) de cada uma dessas cargas úteis.
[00134] Cada carga útil de metadados segue a ID de carga útil e os valores de configuração de carga útil correspondentes.
[00135] Em algumas modalidades, cada um dos segmentos de me
Petição 870160000947, de 18/01/2016, pág. 48/101
44/77 tadados no segmento de bit residual (ou campo de dados auxiliares ou campo addbsi) de um quadro tem três níveis de estrutura:
[00136] uma estrutura de alto nível (por exemplo, um cabeçalho de segmento de metadados), incluindo um sinal que indica se o campo de bit residual (ou dados auxiliares ou addbsi) inclui metadados, pelo menos um valor de ID que indica que tipo(s) de metadados está(ão) presente^) e tipicamente também um valor indicando quantos bits de metadados (por exemplo, de cada tipo) estão presentes (se os metadados estiverem presentes). Um tipo de metadado que pode estar presente é PIM, um outro tipo de metadado que pode estar presente é SSM, e outros tipos de metadados que poderiam estar presentes são LPSM e/ou metadados de limite de programa e/ou metadados de pesquisa de mídia;
[00137] uma estrutura de nível intermediário, compreendendo dados associados com cada tipo identificado de metadado (por exemplo, cabeçalho de metadados de carga útil, valores de proteção e valores de configuração de carga útil e ID de carga útil para cada tipo identificado de metadado); e [00138] uma estrutura de nível baixo, compreendendo uma carga útil de metadados para cada tipo de metadado identificado (por exemplo, uma sequência de valores de PIM, se PIM for identificado como estando presente, e/ou valores de metadados de outro tipo (por exemplo, SSM ou LPSM), se esse outro tipo de metadado for identificado como estando presente).
[00139] Os valores de dados em tal estrutura de três níveis podem estar aninhados. Por exemplo, o(s) valor(es) de proteção para cada carga útil (por exemplo, cada PIM ou SSM ou outra carga útil de metadados) identificado(s) pelas estruturas de nível alto e intermediário pode(m) ser incluído(s) após a carga útil (e, consequentemente, após o cabeçalho de carga útil da carga útil dos metadados) ou o(s) valor(es)
Petição 870160000947, de 18/01/2016, pág. 49/101
45/77 de proteção para todas as cargas úteis dos metadados identificado(s) pelas estruturas de nível alto e intermediário pode(m) ser incluído(s) após a carga útil dos metadados finais no segmento de metadados (e, consequentemente, após os cabeçalhos de carga útil dos metadados de todas as cargas úteis do segmento de metadados).
[00140] Em um exemplo (a descrito com referência ao segmento de metadados ou recipiente da Fig. 8), um cabeçalho de segmento de metadados identifica quadro cargas úteis de metadados. Como mostrado na Fig. 8, o cabeçalho do segmento de metadados compreende uma palavra de sincronização de recipiente (identificado como sincronização de recipiente) e uma versão e valores da chave de identificação. O cabeçalho de segmento de metadados é seguido pelas quatro cargas úteis de metadados e pelos bits de proteção. A ID de carga útil e valores de configuração de carga útil (por exemplo, tamanho da carga útil) para a primeira carga útil (por exemplo, uma carga útil de PIM) segue o cabeçalho de segmento de metadados, a primeira carga útil segue a ID e os valores de configuração, os valores de configuração de carga útil (por exemplo, tamanho da carga útil) e ID da carga útil para a segunda parga útil (por exemplo, uma carga útil de SSM) seguem a primeira carga útil, a segunda carga útil segue esses valores de configuração e ID, os valores de ID de carga útil e configuração de carga útil (por exemplo, tamanho de carga útil) para a terceira carga útil (por exemplo, uma carga útil de LPSM) seguem a segunda carga útil, a terceira carga útil segue esses valores de configuração e ID, os valores de configuração de carga útil (por exemplo, tamanho de carga útil) e ID de carga útil para a quarta carga útil seguem a terceira carga útil, a quarta carga útil segue esses valores de configuração e ID e o(s) valor(es) (identificado(s) como Dados de Proteção na Fig. 8) para todas ou algumas das cargas úteis (ou para a estrutura de nível alto e intermediário ou algumas das carga úteis) segue(m) a última carga útil.
Petição 870160000947, de 18/01/2016, pág. 50/101
46/77 [00141] Em algumas modalidades, se o decodificador 101 recebe um fluxo de bits de áudio gerado de acordo com uma modalidade da invenção com um hash criptográfico, o decodificador é configurado para interpretar e recuperar o hash criptográfico de um bloco de dados determinado a partir do fluxo de bits, em que o referido bloco inclui metadados. O validador 102 pode usar o hash criptográfica para validar o fluxo de bits recebido e/ou os metadados associados. Por exemplo, se o validador 102 descobre que os metadados são válidos com base em uma correspondência entre um hash criptográfico de referência e o hash criptográfico recuperado a partir do bloco de dados, então ele pode desativar o funcionamento do processador 103 nos dados de áudio correspondentes e fazer com que a etapa de seleção 104 passe (inalterada) pelos dados de áudio. Além disso, opcionalmente, ou, como alternativa, outros tipos de técnicas criptográficas podem ser utilizadas no lugar de um método baseado em um hash criptográfico.
[00142] Codificador 100 da FIG. 2 pode determinar (em resposta aos LPSM e, opcionalmente, também programar metadados de limite, extraídos pelo decodificador 101) que uma unidade de pós/préprocessamento executou um tipo de processamento de volume nos dados de áudio a serem codificados (nos elementos 105, 106 e 107) e, assim, pôde criar (no gerador 106) metadados do estado de processamento de volume que incluem os parâmetros específicos usados em e/ou derivados do processamento de volume executado anteriormente. Em algumas implementações, o codificador 100 pode criar (e incluir na saída de fluxo de bits codificados do mesmo) metadados indicativos do histórico de processamento dos conteúdos de áudio, contanto que o codificador seja instruído quanto aos tipos de processamento que foram executados nos conteúdos de áudio.
[00143] FIG. 3 é um diagrama de bloco de um decodificador (200), que é uma modalidade da unidade de processamento de áudio inven
Petição 870160000947, de 18/01/2016, pág. 51/101
47/77 tiva e de um pós-processador (300) acoplado ao mesmo. O pósprocessador (300) também é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 200 e do pós-processador 300 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASIC, FPGA ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. O decodificador 200 compreende um buffer do quadro 201, um analisador 205, um decodificador de áudio 202, uma etapa de validação do estado do áudio (validador) 203 e uma etapa de geração do bit de controle 204, conectados conforme mostrado. Normalmente, ademais, o decodificador 200 inclui outros elementos de processamento (não mostrados).
[00144] O buffer do quadro 201 (uma memória de buffer) armazena (por exemplo, de uma forma não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados recebido pelo decodificador 200. Uma sequência de quadros do fluxo de bits áudio codificados é atribuída a partir do buffer 201 aos analisadores 205.
[00145] O analisador 205 é acoplado e configurado para extrair PIM e/ou SSM (e, opcionalmente, também outros metadados, por exemplo, LPSM) de cada quadro do áudio de entrada codificadopara atribuir pelo menos alguns dos metadados (por exemplo, LPSM e metadados de limite do programa, se algum for extraído, e/ou PIM e/ou SSM) parao validador do estado de áudio 203 e para a etapa 204, para atribuir os metadados extraídos como uma saída(por exemplo, para o pósprocessador 300), para extrair dados de áudio do áudio de entrada codificado e para atribuir os dados de áudio extraídos ao decodificador 202.
[00146] A entrada do fluxo de bits de áudio codificado para o decodificador 200 pode ser de um fluxo de bits AC-3, um fluxo de bits EAC-3 ou um fluxo de bits Dolby E.
Petição 870160000947, de 18/01/2016, pág. 52/101
48/77 [00147] O sistema da FIG. 3 também inclui pós-processador 300. O pós-processador 300 compreende um buffer do quadro 301 e outros elementos de processamento (não mostrados) que inclui pelo menos um elemento de processamento acoplado ao buffer 301. O buffer do quadro 301 armazena (por exemplo, de uma maneira não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados recebido pelo pós-processador 300 do decodificador 200. Os elementos de processamento do pós-processador 300 são acoplados e configurados para receber e processar de forma adaptativa uma sequência dos quadros de saída de fluxo de bits de áudio decodificados do buffer 301, utilizando a saída de metadados do decodificador 200 e/ou a saída de bits de controle da etapa 204 do decodificador 200. Normalmente, o pós-processador 300 está configurado para executar o processamento adaptativo sobre os dados de áudio decodificados utilizando metadados do decodificador 200 (por exemplo, processamento do volume adaptativo sobre os dados de áudio decodificados usando valores de LPSM e, opcionalmente, também metadados de limite do programa onde o processamento adaptativo pode ser baseado no estado de processamento de volume e/ou uma ou mais características dos dados de áudio, indicadas pelos LPSM para os dados de áudio indicativos de um único programa de áudio).
[00148] Várias implementações do decodificador 200 e do pósprocessador 300 são configuradas para realizar diferentes modalidades do método da invenção.
[00149] O decodificador de áudio 202 do descodificador 200 é configurado para decodificar os dados de áudio extraídos pelo analisador 205 para gerar dados de áudio decodificados e atribuir os dados de áudio decodificados como uma saída (por exemplo, para o pósprocessador 300).
[00150] O validador de estado 203 é configurado para autenticar e
Petição 870160000947, de 18/01/2016, pág. 53/101
49/77 validar os metadados atribuídos ao mesmo. Em algumas modalidades, os LPSM são (ou estão incluídos em) um bloco de dados que foram incluídos no fluxo de bits de entrada (por exemplo, de acordo com uma modalidade da presente invenção). O bloco pode compreender um hash criptográfico (um código de autenticação de mensagem baseado em hash ou HMAC) para processar os LPSM (e, opcionalmente, também outros metadados) e/ou os dados de áudio subjacentes (fornecidos a partir do analisador 205 e/ou do decodificador 202 ao validador 203). O bloco de dados pode ser assinado digitalmente nessas modalidades, de modo que uma unidade de processamento de áudio a jusante possa, de maneira relativamente fácil, autenticar e validar os metadados do estado de processamento.
[00151] Outros métodos de criptografia, incluindo, mas não limitado a, qualquer um ou mais de um dos métodos criptográficos não-HMAC, podem ser utilizados para validar os metadados (por exemplo, no validador203) para garantir uma transmissão e um recebimento seguros dos metadados e/ou dos dados de áudio subjacentes. Por exemplo, a validação (usando esse método criptográfico) pode ser realizada em cada unidade de processamento de áudio que recebe uma modalidade do fluxo de dados de áudio da invenção para determinar se os metadados do estado de processamento e os dados de áudio correspondentes incluídos no fluxo de bits foram submetidos (e/ou que foram o resultado de) a um processamento de volume específico (conforme indicado pelos metadados) e não foram modificados após a realização de tal processamento de volume específico.
[00152] O validador de estado 203 atribui dados de controle ao gerador de bit de controle 204 e/ou atribui os dados de controle como uma saída (por exemplo, ao pós-processador 300) para indicar os resultados da operação de validação. Em resposta aos dados de controle (e opcionalmente também outros metadados extraídos do fluxo de
Petição 870160000947, de 18/01/2016, pág. 54/101
50/77 bits de entrada), a etapa 204 pode gerar (e atribuir ao pós-processador 300):
[00153] bits de controle indicando que a saída de dados de áudio decodificados do decodificador 202 foram submetidos a um tipo específico de processamento de volume (quando os LPSM indicarem que a saída de dados áudio do decodificador 202 foi submetida ao tipo específico de processamento de volume e os bits de controle do validador 203 indicarem que os LPSM são válidos); ou [00154] bits de controle indicando que a saída de dados de áudio do decodificados 202 deve ser submetida a um tipo específico de processamento de volume (por exemplo, quando os LPSM indicarem que a saída dos dados de áudio do decodificador 202 não foi submetida ao tipo específico de processamento de volume ou quando os LPSM indicarem que a saída dos dados de áudio do decodificador 202 foi submetida ao tipo específico de processamento de volume, mas os bits de controle do validador 203 indicam que os LPSM não são válidos).
[00155] Alternativamente, o decodificador 200 atribui os metadados extraídos pelo decodificador 202 do fluxo de bits de entrada e os metadados extraídos pelo analisador 205 do fluxo de bits de entrada ao pós-processador 300 e o pós-processador 300 executa um processamento adaptativo sobre os dados de áudio decodificados utilizando os metadados ou realiza a validação dos metadados e então realiza o processamento adaptativo sobre os dados de áudio decodificados utilizando os metadados se a validação indicar que os metadados são válidos.
[00156] Em algumas modalidades, se o decodificador 200 receber um fluxo de bits de áudio gerado de acordo com uma modalidade da invenção com o hash criptográfico, o decodificador está configurado para analisar e recuperar o hash criptográfico de um bloco de dados determinado a partir do fluxo de bits, o dito bloco compreendendo os
Petição 870160000947, de 18/01/2016, pág. 55/101
51/77 metadados do estado de processamento de volume (LPSM). O validador 203 pode usar o hash criptográfica para validar o fluxo de bits recebido e/ou os metadados associados. Por exemplo, se o validador 203 descobrir que os LPSM são válidos com base em uma correspondência entre um hash criptográfico de referência e o hash criptográfico recuperado a partir do bloco de dados, então ele pode ser um sinal para uma unidade de processamento de áudio a jusante (por exemplo, o pós-processador 300, que pode ser ou incluir uma unidade de nivelamento de volume), para passar (inalterado) através dos dados de áudio do fluxo de bits. Além disso, opcionalmente, ou, como alternativa, outros tipos de técnicas criptográficas podem ser utilizados no lugar de um método baseado em um hash criptográfico.
[00157] Em algumas implementações do decodificador 200, o fluxo de bits codificados recebido (e armazenado na memória 201) é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3 e compreende segmentos de dados de áudio (por exemplo, os segmentos AB0-AB5 do quadro mostrado na Fig. 4) e segmentos de metadados, onde os segmentos de dados de áudio são indicativos de dados de áudio e cada um dentre pelo menos alguns dos segmentos de metadados incluem PIM ou SSM (ou outros metadados). A etapa do decodificador 202 (e/ou analisador 205) é configurada para extrair os metadados do fluxo de bits. Cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também outros metadados) está incluído em um segmento de bit residual do fluxo de bits ou um campo addbsi do segmento de Informações de Fluxo de Bits (BSI) de um quadro do fluxo de bits ou em um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4) ao final de um quadro do fluxo de bits. Um quadro do fluxo de bits pode incluir um ou dois segmentos de metadados, com cada um deles incluindo metadados, e se o quadro incluir dois segmentos de metadados, um pode estar presente no campo
Petição 870160000947, de 18/01/2016, pág. 56/101
52/77 addbsi do quadro e o outro no campo AUX do quadro.
[00158] Em algumas modalidades, cada segmento de metadados (por vezes referidos aqui como um recipiente) do fluxo de bits armazenados no buffer 201 tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou de núcleo) e uma ou mais cargas úteis de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e a outros metadados em períodos que não durante a decodificação (por exemplo, por um pós-processador 300 após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplificativo, um decodificador 200 pode identificar equivocadamente o número correto de substreams associados a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou LPSM).
Petição 870160000947, de 18/01/2016, pág. 57/101
53/77 [00159] Em algumas modalidades, uma carga útil dos metadados de estrutura de substream (SSM) incluídos em um quadro de um fluxo de bits (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) armazenado no buffer 201 inclui SSM no seguinte formato:
[00160] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor de 2 bits indicativo da versão do formato de SSM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e [00161] após o cabeçalho:
[00162] os metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e [00163] metadados de substream dependentes indicativos do fato de cada substream independente do programa ter pelo menos um substream dependente associado a ele e, se for o caso, o número de substreams dependentes associados a cada substream independente do programa.
[00164] Em algumas modalidades, uma carga útil de metadados de informações de programa (PIM) incluídos em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) armazenados no buffer 201 possui o seguinte formato:
[00165] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor indicativo da versão do formato de PIM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e [00166] após o cabeçalho, PIM no seguinte formato:
[00167] metadados do canal ativo indicativos de cada canal silencioso e de cada canal não-silencioso de um programa de áudio (isto é,
Petição 870160000947, de 18/01/2016, pág. 58/101
54/77 que canal(is) do programa contém informações de áudio e qual(is), se houver, contém apenas silêncio (tipicamente durante o período de duração do quadro)). Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do canal ativo em um quadro do fluxo de bits pode ser usado em conjunto com metadados adicionais do fluxo de bits (por exemplo, o campo de modo de codificação de áudio (acmod) do quadro e, se presente, o campochanmapno quadro ou no(s) quadro(s) de substream dependente(s) associado(s) para determinar que canal(is) do programa contém informações de áudio e qual(is) contém silêncio;
[00168] processamento de submistura de metadados de estado indicativos de se o programa foi submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura que foi aplicada. Os metadados do estado de processamento da submistura pode ser útil para implementar a submistura (por exemplo, em um pós-processador 300) a jusante de um decodificador, por exemplo, para submisturar os conteúdos de áudio do programa utilizando os parâmetros que chegam mais próximo a um tipo da submistura que foi aplicada. Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC3, os metadados do estado de processamento da submistura podem ser usados em conjunto com o campo de modo de codificação de áudio (acmod) do quadro para determinar o tipo de submistura (se houver) aplicado ao(s) canal(is) do programa;
[00169] metadados do estado de processamento da mistura indica tivo de se o programa foi misturado (por exemplo, a partir de um número menos de canais) antes ou durante a codificação e, se for o caso, do tipo de mistura que foi aplicado. Os metadados do estado de processamento da mistura podem ser úteis para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para subsmiturar os conteúdos de áudio do programa de uma ma
Petição 870160000947, de 18/01/2016, pág. 59/101
55/77 neira que seja compatível com um tipo da mistura (por exemplo, Dolby Pro Logic, or Dolby Pro Logic II Movie Mode, or Dolby Pro Logic II Music Mode ou Dolby Professional Upmixer) que foi aplicada ao programa. Nas modalidades em que o fluxo de bits codificados é um fluxo de bits E-AC-3, os metadados do estado de processamento da mistura podem ser usados em conjunto com outros metadados (por exemplo, o valor de um campo strmtyp do quadro) para determinar o tipo de mistura (se houver) aplicado ao(s) canal(is) do programa. O valor do campo strmtyp (no segmento BSI de uma armação de um E-AC-3 bitstream) indica se o conteúdo áudio do quadro pertence a um fluxo independente (que determina um programa) ou um substream independente (de um programa que inclui ou está associado a vários substreams) e, portanto, pode ser descodificada, independentemente de qualquer outro substream indicado pela E-AC-3 fluxo de bits, ou se o conteúdo áudio do quadro pertence a um substream dependente (de um programa, que inclui ou está associada com vários substreams) e, portanto, deve ser descodificado em conjunto com um substream independente, com o qual está associado; e pré-processamento metadados estado indica se o pré-processamento foi realizado sobre o conteúdo áudio do quadro (antes da codificação do conteúdo áudio gerado para o fluxo de bits codificado), e se assim for o tipo de pré-processamento que foi realizada.
[00170] Em algumas implementações, os metadados do estado de pré-processamento é indicativo de:
[00171] se a atenuação surround foi aplicada (por exemplo, se os canais surround do programa de áudio foram atenuados por 3 dB antes da codificação), [00172] se 90 graus de mudança de fase foram aplicados (por exemplo, para os canais surround Ls e Rs do programa de áudio antes da codificação),
Petição 870160000947, de 18/01/2016, pág. 60/101
56/77 [00173] se um filtro de passagem baixa foi aplicado a um canal LFE do programa de áudio antes da codificação, [00174] se o nível de um canal LFE do programa foi monitorado durante a produção e, se for o caso, do nível monitorado do canal LFE relativo ao nível dos canais de áudio de faixa completa do programa, [00175] se a compressão de faixa dinâmica deve ser executada (por exemplo, no decodificador) em cada bloco dos conteúdos de áudio decodificado do programa e, se for o caso, o tipo (e/ou parâmetros) de compressão de faixa dinâmica a ser executado (por exemplo, esse tipo de metadados de estado de pré-processamento podem ser indicativos de qual dentre os tipos de perfil de compressão foi adotado pelo codificador para gerar os valores de controle de compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados: Padrão de filme, luz de filme, padrão de música, luz da música ou fala. Alternativamente, esse tipo de metadado do estado de pré-processamento pode indicar que a compressão de faixa dinâmica pesada (compressão compr) deve ser executada em cada quadro dos conteúdos de áudio decodificados do programa de uma forma determinada por valores de controle da compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados), [00176] se o processamento de extensão espectral e/ou codificação de ligação de canal foram utilizados para codificar faixas de frequência específicas do conteúdo do programa e, se for o caso, as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de extensão espectral foi executada e as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de ligação de canal foi executada. Esse tipo de informação de metadados do estado de processamento pode ser útil para realizar a equalização (em um pós-processador) a jusante de um decodificador. As informações de extensão espectral e de ligação
Petição 870160000947, de 18/01/2016, pág. 61/101
57/77 de canal também são úteis para otimizar a qualidade durante as operações e aplicações de transcodificação. Por exemplo, um codificador pode otimizar o seu comportamento (incluindo a adaptação das etapas de pré-processamento, como a virtualização dos headphones, misturas, etc.) com base no estado dos parâmetros, como informações de ligação de canal e de extensão espectral. Além disso, o codificador pode se adaptar aos seus parâmetros de extensão espectral e de ligação de maneira dinâmica para corresponder a e/ou para valores ideais com base no estado dos metadados acoplamento e espectrais de forma dinâmica para coincidir com e/ou para os valores ideais com base no estado dos metadados de entrada (e autenticados) e [00177] se os dados da faixa de ajuste da potencialização do diálogo foram incluídos no fluxo de bits codificados e, se for o caso, a faixa de ajuste disponível durante a execução do processamento de potencialização do diálogo (por exemplo, em um pós-processador a jusante de um decodificador) para ajustar o nível dos conteúdos de diálogo em relação ao nível dos conteúdos que não forem do diálogo no programa de áudio.
[00178] Em algumas formas de realização, uma carga LPSM incluído em um frame de uma corrente de bits codificada (por exemplo, um E-AC-3 bitstream indicativos de pelo menos um programa de áudio) tamponada em tampão 201 inclui LPSM no seguinte formato:
[00179] um cabeçalho (incluindo normalmente uma palavra de sincronização que identifica o início da carga útil dos LPSM, seguida por pelo menos um valor de identificação, por exemplo, a versão do formato dos LPSM, comprimento, período, contagem e valores de associação de substream indicados na Tabela 2 abaixo); e [00180] após o cabeçalho, [00181] pelo menos um valor de indicação do diálogo (por exemplo, parâmetro Canal(is) do diálogo da Tabela 2) que indica se os dados
Petição 870160000947, de 18/01/2016, pág. 62/101
58/77 de áudio correspondentes indicam ou não diálogo (por exemplo, que canais dos dados de áudio correspondentes indicam diálogo);
[00182] pelo menos um valor de cumprimento da regulação do volume (por exemplo, parâmetro Tipo de Regulação do Volume da Tabela 2) que indica se os dados de áudio correspondentes cumpre com uma série indicada de regulações de volume;
[00183] pelo menos um valor de processamento de volume (por exemplo, um ou mais dos parâmetros Sinal de Correção do Volume fechado do Diálogo, Tipo de Correção de Volume da Tabela 2) que indica pelo menos um tipo de processamento de volume que foi executado sobre os dados de áudio correspondentes; e [00184] pelo menos um valor de volume (por exemplo, um ou mais dos parâmetros Volume Fechado Relativo a ITU, Volume Fechado de Fala Relativo a ITU, Volume de 3s de curto prazo de ITU (EBU 3341) E Pico Real da Tabela 2) que indica pelo menos uma característica de volume (por exemplo, volume médio ou de pico) dos dados de áudio correspondentes.
[00185] Em algumas implementações, o analisador 205 (e/ou a etapa do decodificador 202) é configurado para extrair, a partir de um segmento de resíduos de bits, ou um campo addbsi, ou um campo de dados auxiliares, de um quadro de fluxo de bits, cada segmento de metadados tendo a seguinte formato:
[00186] um segmento de cabeçalho de metadados (incluindo normalmente uma palavra de sincronização que identifica o início do segmento de metadados, seguido de pelo menos um valor de identificação, por exemplo, valores de associação de substream, versão, comprimento, período e contagem de elemento expandido); e [00187] após o cabeçalho de segmento de metadados, pelo menos um valor de proteção (por exemplo, valores da assimilação de HMAC e da Impressão Digital de Áudio da Tabela 1) útil para ao menos um
Petição 870160000947, de 18/01/2016, pág. 63/101
59/77 dentre os seguintes elementos: desencriptação, autenticação ou validação de pelo menos um dos segmentos de metadados ou dados de áudio correspondentes); e [00188] também após o cabeçalho do segmento de metadados, a identificação da carga útil dos metadados (ID) e os valores que identificam o tipo e ao menos um aspecto da configuração (por exemplo, o tamanho) de cada carga útil seguinte dos metadados.
[00189] Cada segmento de carga útil dos metadados (preferivelmente tendo o formato especificado acima) segue a ID de carga útil dos metadados e os valores de configuração de carga útil correspondentes.
[00190] De maneira mais geral, ofluxo de bits de áudio codificados gerado pelas modalidades preferidas da invenção tem uma estrutura que fornece um mecanismo para etiquetas os elementos e os subelementos dos metadados como elementos ou subelementos de núcleo (obrigatórios) ou expandidos (opcionais). Isso permite que a taxa de dados do fluxo de bits (incluindo seus metadados) percorra inúmeras aplicações. Os elementos de núcleo (obrigatório) da sintaxe de fluxo de bits preferidos devem ser capazes de sinalizar que os elementos expandidos (opcionais) associados com os conteúdos de áudio estão presentes (dentro da banda) e/ou em um local remoto (fora da banda).
[00191] É necessário que o(s) elemento(s) de núcleo esteja(m) presente(s) em cada quadro do fluxo de bits. Alguns subelementos de elementos de núcleo são opcionais e podem estar presentes em qualquer combinação. Não é necessário que elementos expandidos estejam presentes em cada quadro (para limitar a sobrecarga da taxa de bits). Desse modo, os elementos expandidos podem estar presentes em alguns quadros e em outros não. Alguns subelementos de um elemento expandido são opcionais e podem estar presentes em qualquer combinação, ao passo que alguns subelementos de um elemento ex
Petição 870160000947, de 18/01/2016, pág. 64/101
60/77 pandido podem ser obrigatórios (isto é, se o elemento expandido estiver presente em um quadro do fluxo de dados).
[00192] Em uma classe de modalidades, um fluxo de bits de áudio codificados que compreende uma sequência de segmentos de dados de áudio é gerado (por exemplo, por uma unidade de processamento de áudio que incorpora a invenção). Os segmentos de dados de áudio são indicativos de dados de áudio, cada um dentre ao menos alguns dos segmentos de metadados inclui PIM e/ou SSM (e, opcionalmente, também metadados de ao menos um outro tipo) e os segmentos de dados de áudio são multiplexados por divisão de tempo com os segmentos de metadados. Em modalidades preferíveis desta classe, cada um dos segmentos de metadados tem um formato preferível a ser descrito neste documento.
[00193] Em um formato preferível, o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, e cada um dos segmentos de metadados que inclui SSM e/ou PIM está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) como informações adicionais do fluxo de bits no campo addbsi (mostrado na Fig. 6) do segmento de Informações de Fluxo de bits (BSI) de um quadro do fluxo de bits ou em um campo de dados auxiliares de um quadro do fluxo de bits ou em um bit residual de um quadro do fluxo de bits.
[00194] No formato preferido, cada um dos quadros inclui um segmento de metadados (por vezes referido aqui como um recipiente de metadados, ou recipiente) em um segmento de bit residual (ou campo addbsi) do quadro. O segmento de metadados possui os elementos obrigatórios (coletivamente referidos como elemento do núcleo) mostrados na Tabela 1 abaixo (e pode incluir os elementos opcionais mostradas na Tabela 1). Pelo menos alguns dos elementos necessários mostrados na Tabela 1 estão incluídos no cabeçalho do segmento de
Petição 870160000947, de 18/01/2016, pág. 65/101
61/77 metadados, mas alguns podem ser incluídos em alguma outra parte do segmento de metadados:
Tabela 1
Parâmetro Descrição Obrigatório/Opcional
SINCRONIZAÇÃO [ID] M
Versão do elemento de núcleo M
Comprimento do elemento de núcleo M
Período do elemento de núcleo (xxx) M
Contagem de elemento expandido Indica o número de elementos de metadados expandidos associados com o elemento de núcleo. Esse valor pode aumentar/diminuir conforme o fluxo de bits passa ao da produção através da distribuição e da emissão final. M
Associação de substream Descreve a qual(is) substream(s) o elemento de núcleo está associado. M
Assinatura (assimilação de HMAC) Assimilação de HMAC de 256 bits (usando o algoritmo SHA-2) calculado sobre os dados de áudio, e todos os elementos expandidos, de todo o quadro. M
Contagem do limite de PGM O campo só aparece durante certa quantidade de quadros no cabeçalho ou na parte inferior de um arquivo/stream de programa de áudio. Assim, uma mudança na versão do elemento de núcleo poderia ser usada para sinalizar a inclusão desse parâmetro. O
Impressão digital do áudio Impressão digital do áudio tirada durante uma série de amostras de áudio de PCM representadas pelo O
Petição 870160000947, de 18/01/2016, pág. 66/101
62/77
Parâmetro Descrição Obrigatório/Opcional
campo do período do elemento de núcleo.
Impressão digital do vídeo Impressão digital do vídeo tirada ao longo de uma série de amostras de vídeos comprimidos (se houver) representados pelo campo do período do elemento de núcleo. O
URL/UUID Esse campo é definido de modo a transportar um URL e/ou um UUID (pode ser redundante para a impressão digital) que faz referência a uma localização externa dos conteúdos adicionais do programa (essência) e/ou aos metadados associados ao fluxo de bits. O
[00195] No formato preferido, cada segmento de metadados (em um segmento de bit residual ou campo addbsi ou de dados auxiliares de um quadro de um fluxo de bits codificado) contendo SSM, PIM ou LPSM contém um cabeçalho de segmentos de metadados (e opcionalmente também elementos adicionais de núcleo) e, após o cabeçalho de segmento de metadados (ou o cabeçalho de segmento de metadados e outros elementos de núcleo), uma ou mais cargas úteis de metadados. Cada carga útil de metadados inclui um cabeçalho de carga útil de metadados (indicando um tipo específico de metadados (por exemplo, SSM, PIM ou LPSM) incluído na carga útil, seguido de metadados do tipo específico. Tipicamente, o cabeçalho de carga útil de metadados inclui os seguintes valores (parâmetros):
[00196] uma ID de carga útil (identificação do tipo de metadados, por exemplo, SSM, PIM ou LPSM) após o cabeçalho do segmento de metadados (que pode incluir valores especificados na Tabela 1);
[00197] um valor de configuração de carga útil (normalmente indicando o tamanho da carga útil) após a ID de carga útil;
[00198] e, opcionalmente, também valores de configuração de car
Petição 870160000947, de 18/01/2016, pág. 67/101
63/77 ga útil adicional (por exemplo, um valor de deslocamento que indica o número de amostras de áudio a partir do início do quadro para a primeira amostra de áudio a que a carga pertence e valor de prioridade da carga útil, por exemplo, indicando uma condição em que a carga útil pode ser descartada).
[00199] Tipicamente, os metadados da carga útil têm um dos seguintes formatos:
[00200] os metadados de carga útil são SSM, incluindo metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e os metadados de substream dependentes indicativos do fato de se cada substream independente do programa tem ao menos um substream dependente associado a ele e, se for o caso, o número de substreams dependentes associados com cada substream independente do programa;
[00201] os metadados de carga útil são PIM, incluindo metadados de canal activo indicativos de que canal(us) de um programa de áudio contém informações de áudio e qual(is) (se houver) contém apenas silêncio (tipicamente ao longo da duração do quadro); metadados do estado de processamento de submistura indicativo do fato de o programa ter sido submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura aplicado, metadados do estado de processamento de mistura indicativos do fato de o programa ter sido misturado (por exemplo, a partir de uma quantidade menor de canais) antes ou durante a codificação e metadados do estado de préprocessamento indicatidos do fato de o pré-processamento ter sido realizado sobre os conteúdos de áudio do quadro (antes da codificação dos conteúdos de áudio para gerar o fluxo de bits codificados) e, se for o caso, o tipo de pré-processamento realizado; ou [00202] os metadados da carga útil são LPSM, tendo o formato conPetição 870160000947, de 18/01/2016, pág. 68/101
64/77 forme indicado na tabela a seguir (Tabela 2):
Tabela 2
Parâmetro de LPSM [Volume Inteligente] Descrição número de estados exclusivos Obrigatório /Opcional T axa de inserção (Período de atualização do parâmetro)
Versão do LPSM M
Período do LPSM (xxx) Aplicável somente aos campos xxx M
Contagem do LPSM M
Associação de substream do LPSM M
Canal(is) de diálogo Indica qual combinação de canais de áudio L, C e R contém uma fala ao longo do 0,5 segundo anterior. Quando não houver fala em nenhuma combinação L, C ou R, então esse parâmetro deve indicar sem diálogo. 8 M ~0,5 se- gundo (típico)
Tipo de Regulação de Volume Indica que o fluxo de dados de áudio associado está em conformidade com uma série específica de regulações (por exemplo, ATSC A/85 ou EBU R128) 8 M Quadro
Sinal de corre- Indica se o fluxo de áudio 2 O (presen- Quadro
Petição 870160000947, de 18/01/2016, pág. 69/101
65/77
Parâmetro de LPSM [Volume Inteligente] Descrição número de estados exclusivos Obrigatório /Opcional T axa de inserção (Período de atualização do parâmetro)
ção do volume fechado do diálogo associado foi corrigido com base no fechamento do diálogo te apenas se o Tipo_de_reg ulação_de_v olume indica que o áudio correspondente não é corrigido)
Tipo de correção do volume Indica se o fluxo de áudio associado foi corrigido com um prognóstico infinito (com base no arquivo) ou um volume em tempo real (RT) e um controlador de faixa dinâmica. 2 O (presente apenas se o Tipo_de_reg ulação_de_v olume indica que o áudio correspondente não é corrigido) Quadro
Volume fechado relativo de ITU (INF) Indica o volume integrado de ITU-R BS.1770-3 do fluxo de áudio associado aos metadados w/o do 128 O 1 segundo
Petição 870160000947, de 18/01/2016, pág. 70/101
66/77
Parâmetro de LPSM [Volume Inteligente] Descrição número de estados exclusivos Obrigatório /Opcional T axa de inserção (Período de atualização do parâmetro)
fluxo de áudio aplicados (por exemplo, 7 bits: -58 -> +5,5 LKFS 0,5 LKFS etapas)
Volume fechado de fala de ITU (INF) Indica o volume integrado de ITU-R BS.1770-3 da fala/do diálogo dos metadados de fluxo de áudio associados aplicados (por exemplo, 7 bits: -58 -> +5,5 LKFS 0,5 LKFS etapas) 128 O 1 segundo
Volume de 3s de curto prazo de ITU (EBU 3341) Indica o volume de ITU (ITU-BS.1771-1) fechado de 3 segundos dos metadados de w/o de fluxo de áudio associados aplicados (janela deslizante) @ ~ 10Hz de taxa de inserção (por exemplo, 8bits: 116 -> +11,5 LKFS 0,5 LKFS etapas) 256 O 0,1 seg
Valor de pico real Indica o valor de PicoReal do Anexo 2 de ITU-R BS.1770-3 (dB TP) dos metadados de w/o de fluxo de áudio associados aplicados. (isto é, o período de quadro sobre o 256 O 0,5 seg
Petição 870160000947, de 18/01/2016, pág. 71/101
67/77
Parâmetro de LPSM [Volume Inteligente] Descrição número de estados exclusivos Obrigatório /Opcional T axa de inserção (Período de atualização do parâmetro)
maior valor sinalizado no campo do período do elemento) 116 -> +11,5 LKFS 0,5 LKFS etapas
Deslocamento da submistura Indica o deslocamento de volume da submistura
Limite do programa Indica, em quadros, quando um limite do programa ocorreu ou vai ocorrer. Quando o limite do programa não estiver no limite do quadro, o deslocamento opcional da amostra indicará em até que parte do quadro o limite real do programa ocorre
[00203] Em outro formato preferido de um fluxo de bits codificado gerado de acordo com a invenção, o fluxo de bits é um fluxo de bits AC-3 ou fluxo de bits E-AC-3, e em cada um dos segmentos dos metadados que inclui PIM e/ou SSM (e, opcionalmente, também metadados de pelo menos um outro tipo) está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) em qualquer um dentre: um segmento de bit residual de um quadro do fluxo de bits; ou um campo addbsi (mostrado na Fig. 6) do segmento de Informações de fluxo de Bit (BSI) de um quadro do fluxo de bits; ou um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4) ao final de um quadro do fluxo de bits. Um quadro pode in
Petição 870160000947, de 18/01/2016, pág. 72/101
68/77 cluir um ou dois segmentos de metadados, cada um dos quais inclui PIM e/ou MES e (em algumas modalidades), se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro. Cada segmento de metadados tem, de preferência, o formato especificado acima com referência à Tabela 1 acima (isto é, inclui os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando o tipo de metadado em cada carga útil do segmento de metadados) e os valores de configuração da carga útil, e cada carga útil dos metadados). Cada segmento de metadados incluindo LPSM tem, de preferência, o formato especificado acima com referência às Tabelas 1 e 2 acima (isto é, inclui os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando os metadados como LPSM) e valores de configuração de carga útil, seguido pela carga útil (dados de LPSM que têm um formato conforme indicado na Tabela 2)).
[00204] Em um outro formato preferido, o fluxo de bits codificado é um fluxo de bits Dolby E, e cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também outros metadados) representa as localizações da primeira amostra N do intervalo de banda de guarda Dolby E. O fluxo de bits Dolby E que inclui esse segmento de metadados que inclui LPSM inclui, preferencialmente, um valor indicativo do comprimento da carga útil de LPSM sinalizada na palavra Pd do preâmbulo SMPTE 337M (a taxa de repetição de palavra Pa SMPTE 337M preferencialmente mantém-se idêntica à taxa de quadro de vídeo associada).
[00205] Em um formato preferido, em que o fluxo de bits codificados é um fluxo de bits E-AC-3, cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também LPSM e/ou outros metadados) é incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) como uma informação de fluxo
Petição 870160000947, de 18/01/2016, pág. 73/101
69/77 de bits adicional em um segmento de bit residual, ou no campo addbsi do segmento de Informações de Fluxo de bits (BSI) de um quadro do fluxo de bits. Nós descrevemos a seguir os aspectos adicionais da codificação de um fluxo de bits E-AC-3 com LPSM neste formato preferido:
[00206] 1. Durante a geração de um fluxo de bits E-AC-3, enquanto o codificador E-AC-3 (que insere os valores de LPSM no fluxo de bits) estiver ativo, para cada quadro gerado (quadro de sincronização), o fluxo de bits deve incluir um bloco de metadados (incluindo LPSM) transportado no campo addbsi (ou segmento de bit residual) do quadro. Os bits necessários para transportar o bloco de metadados não deve aumentar a taxa de bits do codificador (comprimento de quadro);
[00207] 2. Cada bloco de metadados (contendo LPSM) deve conter as seguintes informações:
[00208] sinal_do_tipo_de_correção_de_volume: onde '1' indica o volume dos dados de áudio correspondentes que foi corrigido à jusante do codificador e '0' indica o volume que foi corrigido pelo corretor de volume incorporado ao codificador (por exemplo, processador de volume 103 do codificador 100 da Fig. 2);
[00209] canal_de_fala: indica qual(is) canal(is) de fonte contém fala (ao longo do 0,5 seg anterior). Se nenhuma fala for detectada, isso deve ser devidamente indicado;
[00210] volume_da_fala: indica o volume de fala integrado de cada canal de áudio correspondente que contém fala (ao longo do 0,5 seg anterior);
[00211] volume_de_ITU: indica o volume de ITU BS.1770-3 integrado de cada canal de áudio correspondente; e [00212] ganho: ganho(s) composto(s) de volume para reversão em um decodificador (para demonstrar a reversibilidade);
[00213] 3. Enquanto o codificador E-AC-3 (que insere os valores
Petição 870160000947, de 18/01/2016, pág. 74/101
70/77
LPSM fluxo de bits) estiver ativo e estiver recebendo um quadro AC3 com um sinal de 'confiar', o controle de volume no codificador (por exemplo, o processador de volume 103 do codificador 100 da Fig. 2) deve ser ignorado. O dialnorm de fonte e os valores DRC devem ser passados (por exemplo, pelo gerador 106 do codificador 100) para o componente do codificador E-AC-3 (por exemplo, a etapa 107 do codificador 100). A geração do bloco LPSM continua e o sinal_do_tipo_de_correção_de_volume é definido como '1'. A sequência ignorada do controlador de volume deve ser sincronizada com o início do quadro AC-3 decodificado onde o sinal confiar aparece. A sequência ignorada do controlador de volume deve ser implementada da seguinte forma: o controle de quantidade_do_nivelador é diminuído de um valor de 9 para um valor de 0 até 10 períodos de bloco de áudio (isto é, 53,3 mseg) e o controle de medição_subsequente_de_nivelamento é colocado em modo de desvio (essa operação deve resultar em uma transição ininterrupta). O termo de desvio confiar do nivelador implica que o valor dialnorm do fluxo de bits da fonte também é reutilizado na saída do codificador (por exemplo, se o fluxo de bits da fonte de confiança tiver um valor dialnorm de -30, então a saída do codificador deve utilizar -30 para o valor dialnorm de saída);
[00214] 4. Enquanto o codificador E-AC-3 (que insere os valores
LPSM fluxo de bits) estiver ativo e estiver recebendo um quadro AC3 com um sinal de 'confiar', o controle de volume no codificador (por exemplo, o processador de volume 103 do codificador 100 da Fig. 2) deve ser ignorado. A geração do bloco do LPSM continua e o sinal_do_tipo_de_correção_de_volume é definido como '0'. A sequência de ativação controlador de volume deve ser sincronizado com o início do quadro AC-3 decodificado onde o sinal confiar desaparece. A sequência de ativação do controlador de volume deve ser implementada
Petição 870160000947, de 18/01/2016, pág. 75/101
71/77 da seguinte forma: o controle da quantidade_do_nivelador é incrementada a partir de um valor de 0 a um valor de 9 sobre o período de bloco de áudio 1. (isto é, 5,3msec) e o controle da medição_subsequente_do_nivelador é colocada em modo ativo (tal operação deve resultar em uma transição controle leveler_back_end_meter é colocado no modo ativo (esta operação deve resultar em uma transição ininterrupta e inclui uma redifinição de integração de medição_subsequente); e [00215] 5. Durante a codificação, uma interface gráfica de usuário (GUI) deve indicar a um usuário os seguintes parâmetros: Programa de entrada de áudio: [Confiável/não confiável] -o estado deste parâmetro é baseado na presença do sinal de confiar no sinal de entrada; e a Correção de volume em tempo real: [Ativado/desativado] -o estado deste parâmetro é baseado no fato de o controlador de volume incorporado ao codificador estar ativo.
[00216] Quando a decodificação de um fluxo de bits AC-3 ou E-AC3 que tenha LPSM (no formato preferido) incluído em um bit residual ou um segmento de campo de salto, ou o campo addbsi do segmento de Informações de Fluxo de bits (BSI), de cada quadro do fluxo de bits, o decodificador deve analisar os dados de bloco do LPSM (no segmento de bit residual ou no campo addbsi) e passar todos os valores de LPSM extraídos para a interface gráfica de usuário (GUI). A série de valores de LPSM extraídos em cada quadro atualizado.
[00217] Em um outro formato preferido de um fluxo de bits codificado gerado de acordo com a invenção, o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, e cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também o LPSM e/ou outros metadados) está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) em um segmento de bit residual, ou em um segmento auxiliar, ou como informa
Petição 870160000947, de 18/01/2016, pág. 76/101
72/77 ções adicionais de fluxo de bit no campo addbsi (mostradas na Fig. 6) do segmento de Informações do Fluxo de bits (BSI) de um quadro do fluxo de bits. Nesse formato (que é uma variação do formato descrito acima com referências às Tabelas 1e 2), cada um dos campos addbsi (ou auxiliares ou de bit residual) que contém LPSM contém os seguintes valores de LPSM:
[00218] os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando os metadados como LPSM) e os valores de configuração de carga útil, seguido pela carga útil (dados de LPSM) que possui o seguinte formato (semelhante aos elementos obrigatórios indicados na Tabela 2 acima):
[00219] versão da carga útil de LPSM: um campo de 2 bits que indica a versão da carga útil de LPSM;
[00220] dialchan: um campo de 3 bits que indica se os canais da esquerda, direita e/ou central dos dados de áudio correspondentes contêm diálogo falado. A atribuição do bit do campo dialchan pode ser como segue: o bit 0, que indica a presença de diálogo no canal esquerdo, é armazenado no bit mais significativo do campo dialchan; e o bit 2, que indica a presença de diálogo no canal central, é armazenado no bit menos significativo do campo dialchan.
[00221] Cada bit do campo dialchan está definido como '1' se o canal correspondente contiver diálogo falando durante o último 0,5 segundo precedente do programa;
[00222] loudregtyp: um campo de 4 bits que indica qual padrão de regulação de volume o volume do programa cumpre. Definição do campo loudregtyp para 000' indica que o LPSM não indica cumprimento da regulação de volume. Por exemplo, um valor desse campo (por exemplo, 0000), pode indicar que o cumprimento com um padrão de regulação de volume não é indicado, outro valor desse campo (por exemplo, 0001) pode indicar que os dados de áudio do programa
Petição 870160000947, de 18/01/2016, pág. 77/101
73/77 cumpre com o padrão ATSC A/85 e outro valor desse campo (por exemplo, 0010) pode indicar que os dados de áudio do programa estão cumpre com o padrão EBU R128. No exemplo, se o campo está definido para qualquer valor diferente de '0000', os campos loudcorrdialgat e loudcorrtyp devem seguir na carga útil;
[00223] loudcorrdialgat: um campo de um bit que indica se a correção do volume fechado do diálogo foi aplicada. Se o volume do programa foi corrigido usando fechamento de diálogo, o valor do campo loudcorrdialgat é definido como '1'. Caso contrário, ele é definido como '0';
[00224] loudcorrtyp: um campo de um bit que indica o tipo de correção de volume aplicada ao programa. Se o volume do programa foi corrigido com um processo de correção do volume (baseado em arquivo) de prognóstico infinito, o valor do campo loudcorrtyp é definido como '0'. Se o volume do programa foi corrigido usando uma combinação de medição de volume em tempo real e controle de faixa dinâmica, o valor desse campo é definido como '1';
[00225] loudrelgate: um campo de um bit que indica se os dados de volume fechado relativo (ITU) existe. Se o campo loudrelgate estiver definido como '1', um campo ituloudrelgat de 7 bits deve seguir na carga útil;
[00226] loudrelgat: um campo de 7 bits que indica volume de programa fechado relativo (ITU). Esse campo indica o volume integrado do programa de áudio, medido de acordo com ITU-R BS.1770-3 sem quaisquer ajustes de ganho devido a dialnorm e compressão de faixa dinâmica (DRC) sendo aplicada. Os valores de 0 a 127 são interpretados como -58 LKFS a +5,5 LKFS, em etapas de 0,5 LKFS;
[00227] loudspchgate: um campo de um bit que indica se os dados de volume fechados para diálogo (ITU) existem. Se o campo loudspchgate está definido como '1', um campo loudspchgat de 7 bits
Petição 870160000947, de 18/01/2016, pág. 78/101
74/77 deve seguir na carga útil.
[00228] loudspchgat: um campo de 7 bits que indica o volume do programa fechado para diálogo. Esse campo indica o volume integrado do programa de áudio, medido de acordo com a fórmula (2) de ITU-R BS.1770-3 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica (DRC) sendo aplicada. Os valores de 0 a 127 são interpretados como -58 LKFS a +5,5 LKFS, em etapas de 0,5 LKFS;
[00229] loudstrm3se: um campo de um bit que indica se existem dados de volume de curto prazo (3 segundos). Se o campo estiver definido como '1', um campo loudstrm3s de 7 bits deve seguir na carga útil;
[00230] loudstrm3s: um campo de 7 bits que indica o volume nãofechado dos 3 segundos precedentes do programa de áudio correspondente, medido conforme ITU-R BS.1771-1 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica que está sendo aplicada. Os valores de 0 a 256 são interpretados como 116 LKFS a +11,5 LKFS em etapas de 0,5 LKFS;
[00231] truepke: um campo de um bit que indica se os dados de volume de pico real existem. Se o campo truepke é definido como '1', um campo truepk de 8 bits deve seguir na carga útil; e [00232] truepk: um campo de 8 bits que indica o valor de pico real da amostra do programa, medido de acordo com o Anexo 2 de ITU-R BS.1770-3 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica que está sendo aplicada. Os valores de 0 a 256 são interpretados como -116 LKFS a +11,5 LKFS em etapas de 0,5 LKFS;
[00233] Em algumas modalidades, o elemento de núcleo de um segmento de metadados em um segmento de bit residual ou em um campo de dados auxiliares (ou addbsi) de um quadro de um fluxo de
Petição 870160000947, de 18/01/2016, pág. 79/101
75/77 bits AC-3 ou um fluxo de bits E-AC-3 compreende um cabeçalho de segmento de metadados (tipicamente incluindo valores de identificação, por exemplo, a versão) e após o cabeçalho do segmento de metadados: valores indicativos do fato de os dados da impressão digital serem (ou de outros valores de proteção serem) incluídos para os metadados do segmento de metadados, valores indicativos do fato de os dados externos (relacionados aos dados de áudio correspondentes aos metadados do segmento de metadados) existir, ID da carga útil e valores de configuração de carga útil para cada tipo de metadados (por exemplo, PIM e/ou SSM e/ou LPSM e/ou metadados de um tipo) identificado pelo elemento de núcleo e valores de proteção para pelo menos um tipo de metadado identificado pelo cabeçalho de segmento de metadados (ou outros elementos de núcleo do segmento de metadados). A(s) carga(s) útil(eis) de metadados seguem-se ao cabeçalho de segmento de metadados e são (em alguns casos) aninhados dentro dos elementos de núcleo do segmento de metadados.
[00234] Modalidades da presente invenção podem ser implementadas em hardware, firmware ou software, ou uma combinação de ambos (por exemplo, como um arranjo de lógica programável). Salvo indicação contrária, os algoritmos ou processos incluídos como parte da invenção não são inerentemente relacionados a nenhum computador específico ou outros aparatos. Em particular, várias máquinas de finalidade geral podem ser usadas com programas escritos conforme os ensinamentos deste documento, ou pode ser mais conveniente construir aparados mais especializados (por exemplo, circuitos integrados) para executar as etapas necessárias do processo. Assim, a invenção pode ser implementada em um ou mais programas de computador sendo executados em um ou mais sistemas de computador programáveis (por exemplo, uma implementação de quaisquer dos elementos da Fig. 1 ou do codificador 100 da Fig. 2 (ou um elemento do mesmo),
Petição 870160000947, de 18/01/2016, pág. 80/101
76/77 ou do decodificador 200 da Fig. 3 (ou um elemento do mesmo) ou pósprocessador 300 da Fig. 3 (ou um elemento do mesmo) cada um compreendendo ao menos um processador, ao menos um sistema de armazenamento de dados (incluindo memória volátil e não-volátil e/ou elementos de armazenamento), ao menos um dispositivo ou porta de entrada e ao menos um dispositivo ou porta de saída. O código do programa é aplicado para introduzir dados para executar as funções aqui descritas e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos, de uma maneira conhecida.
[00235] Cada um desses programas pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, de conjunto ou processual de alto nível, de lógica ou de programação orientada por objeto) para se comunicar com um sistema de computador. Em qualquer dos casos, a linguagem pode ser uma linguagem compilada ou interpretada.
[00236] Por exemplo, quando implementadas pelas sequências de instruções de software de computador, várias funções e etapas das modalidades da invenção podem ser implementadas por sequências de instrução de software de multitratamento sendo executadas em um hardware de processamento de sinal digital, em cujo caso os vários dispositivos, etapas e funções das modalidades podem corresponder a porções das instruções de software.
[00237] Cada programa de computador desses é armazenado ou baixado, de preferência, em um meio ou dispositivo de armazenamento (por exemplo, meio ou memória de estado sólido, ou meio ótico ou magnético) legível por um computador programável de finalidade especial ou geral para configurar e operar o computador quando o dispositivo ou meio de armazenamento for lido pelo sistema de computador para realizar os procedimentos descritos aqui. O sistema inventivo também pode ser implementado com um meio de armazenamento le
Petição 870160000947, de 18/01/2016, pág. 81/101
77/77 gível por computador, configurado com (isto é, para armazenamento) um programa de computador, onde o meio de armazenamento configurado dessa maneira faz com que um sistema de computador opere de uma maneira específica e pré-definida para executar as funções descritas aqui.
[00238] Um número de modalidades da invenção foi descrito. No entanto, será entendido que várias modificações podem ser feitas sem se afastar do espírito e escopo da invenção. Muitas modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Portanto, deve-se entender que, no âmbito das reivindicações acrescentadas, a invenção pode ser praticada de outra forma que não como aqui especificamente descrito.

Claims (20)

1. Unidade de processamento de áudio caracterizada pelo fato de que inclui:
um buffer de memória; e pelo menos um subsistema de processamento acoplado ao memória de buffer, em que o buffer de memória armazena pelo menos um quadro de um fluxo de bits de áudio codificado, o quadro incluindo metadados de informações do programa ou metadados da estrutura de substream em pelo menos um segmento de metadados de pelo menos um campo reservado do quadro e dos dados de áudio em pelo menos um outro segmento do quadro, em que o subsistema de processamento é acoplado e configurado para realizar pelo menos um dentre as seguintes ações: geração do fluxo de bits, decodificação dos dados de áudio ou processamento adaptativo dos dados de áudio usando metadados do fluxo de bits, ou pelo menos uma autenticação ou validação de pelo menos um dado de áudio ou metadado do fluxo de bits utilizando metadados do fluxo de bits, em que o segmento de metadados inclui pelo menos uma carga útil de metadados, a carga de metadados compreendendo:
um cabeçalho; e após o cabeçalho, pelo menos alguns metadados de informações do programa ou pelo menos alguns dos metadados de estrutura do substream; e em que o campo reservado é selecionado a partir do grupo que consiste em: um campo de salto, um campo de addbsi, um campo auxdata ou uma combinação destes.
2. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que o fluxo de bits de áudo codificado é indicativo de pelo menos um programa de áudio e o segmento de metadados inclui uma carga útil de metadados de informa
Petição 870160000947, de 18/01/2016, pág. 83/101
2/8 ções do programa, a carga útil de metadados de informações do programa compreendendo:
um cabeçalho de metadados de informações do programa; e após o cabeçalho de metadados de informações do programa, metadados de informações do programa indicativos de pelo menos uma propriedade ou característica dos conteúdos de áudio do programa, os metadados de informações do programa incluindo metadados de canal ativo indicativos de cada canal não-silencioso e de cada canal silencioso do programa.
3. Unidade de processamento de áudio, de acordo com a reivindicação 2, caracterizada pelo fato de que os metadados de informações do programa também incluem pelo menos um dentre:
metadados do estado de processamento de submistura indicativos do fato de o programa ter sido submisturado e, se for o caso, um tipo de submistura que foi aplicado ao programa;
metadados do estado de processamento de mistura indicativos do fato de o programa ter sido misturado e, se for o caso, um tipo de mistura que foi aplicado ao programa;
metadados do estado de pré-processamento indicativos do fato de o pré-processamento ter sido realizado sobre os conteúdos de áudio do quadro e, se for o caso, um tipo de pré-processamento que foi executado sobre os conteúdos de áudio; ou extensão espectral de processamento ou canal de acoplamento de metadados indicativo de se o processamento de extensão espectral ou o acoplamento de canal foi aplicado ao programa e, se for o caso, uma faixa de frequência a que a extensão espectral ou o acoplamento de canal foi aplicado.
4. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que o fluxo de bits de áudio
Petição 870160000947, de 18/01/2016, pág. 84/101
3/8 codificados é indicativo de que pelo menos um programa de áudio tem pelo menos um substream independente dos conteúdos de áudio, e o segmento de metadados inclui uma carga útil de metadados da estrutura de substream, tal carga útil de metadados da estrutura de substream compreendendo:
um cabeçalho de carga útil de metadados da escrutura de substream; e depois do cabeçalho de carga útil de metadados da estrutura de substream, metadados de substream independentes indicativos do número de substreams independentes do programa e metadados de substream dependentes indicativos do fato de o substream independente do programa ter pelo menos um substream dependente associado.
5. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que o segmento de metadados inclui:
um cabeçalho de segmento de metadados;
após o cabeçalho do segmento de metadados, pelo menos um valor de proteção útil para pelo menos um dentre: desencriptação, autenticação ou validação de pelo menos um dentre: metadados de informações do programa, ou metadados da estrutura de substream, ou os dados de áudio correspondentes aos metadados de informações do programa ou os metadados da estrutura de substream; e após o cabeçalho do segmento de metadados, a identificação de carga útil dos metadados e os valores de configuração de carga útil, em que a carga útil de metadados segue a identificação de carga útil de metadados e os valores de configuração de carga útil.
6. Unidade de processamento de áudio, de acordo com a reivindicação 5, caracterizada pelo fato de que o cabeçalho de segmento de metadados inclui uma palavra de sincronização que identifi
Petição 870160000947, de 18/01/2016, pág. 85/101
4/8 ca o início do segmento de metadados e pelo menos um valor de identificação seguindo a palavra de sincronização, e o cabeçalho da carga útil de metadados inclui pelo menos um valor de identificação.
7. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que o fluxo de bits de áudio codificados é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3.
8. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que o buffer de memória armazena o quadro de uma maneira não-transitória.
9. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizado pelo fato de que a unidade de processamento de áudio é um codificador.
10. Unidade de processamento de áudio, de acordo com a reivindicação 9, caracterizada pelo fato de que o subsistema de processamento inclui:
um subsistema de decodificação configurado para receber um fluxo de bits de áudio de entrada e para extrair metadados de entrada e dados de áudio de entrada a partir do fluxo de bits de áudio de entrada;
um subsistema de processamento adaptativo acoplado e configurado para executar o processamento adaptativo sobre os dados de áudio de entrada usando os metadados de entrada, gerando, assim, dados de áudio processado; e um subsistema de codificação acoplado e configurado para gerar o fluxo de bits de áudio codificado em resposta aos dados de áudio processados, inclusive pela inclusão dos metadados de informações do programa ou os metadados de estrutura de substream no fluxo de bits do áudio codificado e para atribuir o fluxo de bits de áudio codificado ao buffer de memória.
11. Unidade de processamento de áudio, de acordo com a
Petição 870160000947, de 18/01/2016, pág. 86/101
5/8 reivindicação 1, caracterizada pelo fato de que a unidade de processamento de áudio é um decodificador.
12. Unidade de processamento de áudio, de acordo com a reivindicação 11, caracterizada pelo fato de que o subsistema de processamento é um subsistema de decodificação acoplado ao buffer de memória e configurado para extrair os metadados de informações do programa ou os metadados de estrutura de substream a partir do fluxo de bits de áudio codificados.
13. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que inclui:
um subsistema acoplado ao buffer de memória e configurado para extrair os metadados de informações do programa ou os metadados de estrutura do substream a partir do fluxo de bits de áudio codificados e para extrair os dados de áudio a partir do fluxo de bits de áudio codificados; e um pós-processador, acoplado ao subsistema e configurado para executar processamento adaptativo nos dados de áudio utilizando pelo menos um dentre os metadados de informações do programa ou os metadados de estrutura de substream extraídos a partir do fluxo de bits de áudio codificados.
14. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que a unidade de processamento de áudio é um processador de sinal digital.
15. Unidade de processamento de áudio, de acordo com a reivindicação 1, caracterizada pelo fato de que a unidade de processamento de áudio é um pré-processador configurado para extrair os metadados de informações do programa ou os metadados de estrutura de substream e os dados de áudio a partir do fluxo de bits de áudio codificados e para realizar o processamento adaptativo nos dados de áudio utilizando pelo menos um dentre os metadados de informações
Petição 870160000947, de 18/01/2016, pág. 87/101
6/8 do programa ou os metadados de estrutura de substream extraídos a partir do fluxo de bits de áudio codificados.
16. Método para decodificar um fluxo de bits de áudio codificados caracterizado pelo fato de que inclui as etapas de:
receber um fluxo de bits de áudio codificados que inclui dados de áudio de metadados; e extrair os metadados ou dos dados de áudio a partir do fluxo de bits de áudio codificados, em que os metadados são ou incluem metadados de informações do programa ou metadados de estrutura de substream, em que o fluxo de bits de áudio codificados compreende uma sequência de quadros e é indicativo de pelo menos um programa de áudio, os metadados de informações do programa e os metadados de estrutura de substream são indicativos do programa, cada um dos quadros inclui pelo menos um segmento de dados de áudio, cada um dos segmentos de dados de áudio inclui pelo menos alguns dos dados de áudio, cada quadro de pelo menos um subconjunto dos quadros inclui um segmento de metadados, e cada segmento de metadados inclui pelo menos alguns dos metadados de informações do programa e pelo menos alguns dos metadados de estrutura de substream, em que o segmento de metadados está localizado em um campo reservado selecionado a partir do grupo que consiste em: um campo de salto, um campo de addbsi, um campo auxdata ou uma combinação destes.
17. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o segmento de metadados inclui uma carga útil de metadados de informações do programa, a carga útil de metadados de informações do programa compreendendo:
um cabeçalho de metadados de informações do programa; e após o cabeçalho de metadados de informações do pro
Petição 870160000947, de 18/01/2016, pág. 88/101
7/8 grama, metadados de informações do programa indicativos de pelo menos uma propriedade ou característica dos conteúdos de áudio do programa, os metadados de informações do programa incluindo metadados de canal ativo indicativos de cada canal não-silencioso e de cada canal silencioso do programa.
18. Método, de acordo com a reivindicação 17, caracterizado pelo fato de que os metadados de informações do programa também incluem pelo menos um dentre:
metadados do estado de processamento de submistura indicativos do fato de o programa ter sido submisturado e, se for o caso, um tipo de submistura que foi aplicado ao programa;
metadados do estado de processamento de mistura indicativos do fato de o programa ter sido misturado e, se for o caso, de um tipo de mistura que foi aplicado ao programa; ou metadados do estado de pré-processamento indicativos do fato de o pré-processamento ter sido realizado sobre os conteúdos de áudio do quadro e, se for o caso, de um tipo de pré-processamento que foi executado sobre os conteúdos de áudio.
19. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o fluxo de bits de áudio codificados é indicativo de que pelo menos um programa de áudio tem pelo menos um substream independente dos conteúdos de áudio, e o segmento de metadados inclui uma carga útil de metadados da estrutura de substream, a carga útil de metadados da estrutura de substream compreendendo:
um cabeçalho de carga útil de metadados da estrutura de substream; e depois do cabeçalho de carga útil de metadados da estrutura de substream, metadados de substream independentes indicativos do número de substreams independentes do programa e metadados de substream dependentes indicativos do fato de o substream inde
Petição 870160000947, de 18/01/2016, pág. 89/101
8/8 pendente do programa ter pelo menos um substream dependente associado.
20. Método, de acordo com a reivindicação 16, caracterizado pelo fato de que o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3.
BR122016001090-2A 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream BR122016001090B1 (pt)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361836865P 2013-06-19 2013-06-19
US61/836,865 2013-06-19
BR112015019435-4A BR112015019435B1 (pt) 2013-06-19 2014-06-12 Método para gerar um fluxo de bits de áudio codificado, método para decodificar um fluxo de bits de áudio codificado, meio de armazenamento e unidade de processamento de áudio
PCT/US2014/042168 WO2014204783A1 (en) 2013-06-19 2014-06-12 Audio encoder and decoder with program information or substream structure metadata

Publications (2)

Publication Number Publication Date
BR122016001090A2 true BR122016001090A2 (pt) 2019-08-27
BR122016001090B1 BR122016001090B1 (pt) 2022-05-24

Family

ID=49112574

Family Applications (6)

Application Number Title Priority Date Filing Date
BR112015019435-4A BR112015019435B1 (pt) 2013-06-19 2014-06-12 Método para gerar um fluxo de bits de áudio codificado, método para decodificar um fluxo de bits de áudio codificado, meio de armazenamento e unidade de processamento de áudio
BR122020017897-3A BR122020017897B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream
BR122016001090-2A BR122016001090B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream
BR122017012321-1A BR122017012321B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream
BR122017011368-2A BR122017011368B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream
BR122020017896-5A BR122020017896B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream

Family Applications Before (2)

Application Number Title Priority Date Filing Date
BR112015019435-4A BR112015019435B1 (pt) 2013-06-19 2014-06-12 Método para gerar um fluxo de bits de áudio codificado, método para decodificar um fluxo de bits de áudio codificado, meio de armazenamento e unidade de processamento de áudio
BR122020017897-3A BR122020017897B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream

Family Applications After (3)

Application Number Title Priority Date Filing Date
BR122017012321-1A BR122017012321B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream
BR122017011368-2A BR122017011368B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream
BR122020017896-5A BR122020017896B1 (pt) 2013-06-19 2014-06-12 Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream

Country Status (24)

Country Link
US (7) US10037763B2 (pt)
EP (3) EP2954515B1 (pt)
JP (8) JP3186472U (pt)
KR (7) KR200478147Y1 (pt)
CN (10) CN110491396A (pt)
AU (1) AU2014281794B9 (pt)
BR (6) BR112015019435B1 (pt)
CA (1) CA2898891C (pt)
CL (1) CL2015002234A1 (pt)
DE (1) DE202013006242U1 (pt)
ES (2) ES2674924T3 (pt)
FR (1) FR3007564B3 (pt)
HK (3) HK1204135A1 (pt)
IL (1) IL239687A (pt)
IN (1) IN2015MN01765A (pt)
MX (5) MX2021012890A (pt)
MY (2) MY192322A (pt)
PL (1) PL2954515T3 (pt)
RU (4) RU2624099C1 (pt)
SG (3) SG10201604617VA (pt)
TR (1) TR201808580T4 (pt)
TW (11) TWM487509U (pt)
UA (1) UA111927C2 (pt)
WO (1) WO2014204783A1 (pt)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP3044876B1 (en) 2013-09-12 2019-04-10 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
US9621963B2 (en) 2014-01-28 2017-04-11 Dolby Laboratories Licensing Corporation Enabling delivery and synchronization of auxiliary content associated with multimedia data using essence-and-version identifier
CN111326165B (zh) * 2014-03-25 2023-12-12 弗朗霍夫应用科学研究促进协会 音频编码器装置、音频解码器装置、及其操作方法
US10313720B2 (en) * 2014-07-18 2019-06-04 Sony Corporation Insertion of metadata in an audio stream
US10878828B2 (en) * 2014-09-12 2020-12-29 Sony Corporation Transmission device, transmission method, reception device, and reception method
KR102498740B1 (ko) * 2014-09-12 2023-02-13 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
CN113257275A (zh) 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
JP6812517B2 (ja) * 2014-10-03 2021-01-13 ドルビー・インターナショナル・アーベー パーソナル化されたオーディオへのスマート・アクセス
EP3786955B1 (en) 2014-10-03 2023-04-12 Dolby International AB Smart access to personalized audio
EP4060661B1 (en) * 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
JP6359680B2 (ja) 2014-10-20 2018-07-18 エルジー エレクトロニクス インコーポレイティド 放送信号送信装置、放送信号受信装置、放送信号送信方法、及び放送信号受信方法
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
CN107211200B (zh) * 2015-02-13 2020-04-17 三星电子株式会社 用于发送/接收媒体数据的方法和设备
US10217471B2 (en) * 2015-02-14 2019-02-26 Samsung Electronics Co., Ltd. Method and apparatus for decoding audio bitstream including system data
TWI693594B (zh) 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
JPWO2016171002A1 (ja) 2015-04-24 2018-02-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
KR102122004B1 (ko) 2015-06-17 2020-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
WO2017024001A1 (en) 2015-08-05 2017-02-09 Dolby Laboratories Licensing Corporation Low bit rate parametric encoding and transport of haptic-tactile signals
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CN105468711A (zh) * 2015-11-19 2016-04-06 中央电视台 一种音频处理方法及装置
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
CN105828272A (zh) * 2016-04-28 2016-08-03 乐视控股(北京)有限公司 音频信号处理方法和装置
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
CN110476207B (zh) 2017-01-10 2023-09-01 弗劳恩霍夫应用研究促进协会 音频解码器、音频编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、音频流提供器和计算机介质
US10878879B2 (en) * 2017-06-21 2020-12-29 Mediatek Inc. Refresh control method for memory system to perform refresh action on all memory banks of the memory system within refresh window
WO2019162434A1 (en) 2018-02-22 2019-08-29 Dolby International Ab Method and apparatus for processing of auxiliary media streams embedded in a mpeg-h 3d audio stream
CN108616313A (zh) * 2018-04-09 2018-10-02 电子科技大学 一种基于超声波的旁路信息安全隐蔽传送方法
US10937434B2 (en) * 2018-05-17 2021-03-02 Mediatek Inc. Audio output monitoring for failure detection of warning sound playback
KR20230031992A (ko) * 2018-06-26 2023-03-07 후아웨이 테크놀러지 컴퍼니 리미티드 포인트 클라우드 코딩을 위한 고급 신택스 설계
US11430463B2 (en) * 2018-07-12 2022-08-30 Dolby Laboratories Licensing Corporation Dynamic EQ
CN109284080B (zh) * 2018-09-04 2021-01-05 Oppo广东移动通信有限公司 音效调整方法、装置、电子设备以及存储介质
RU2768224C1 (ru) * 2018-12-13 2022-03-23 Долби Лабораторис Лайсэнзин Корпорейшн Двусторонняя медийная аналитика
WO2020164753A1 (en) 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
GB2582910A (en) * 2019-04-02 2020-10-14 Nokia Technologies Oy Audio codec extension
US11967330B2 (en) 2019-08-15 2024-04-23 Dolby International Ab Methods and devices for generation and processing of modified audio bitstreams
US20220319526A1 (en) * 2019-08-30 2022-10-06 Dolby Laboratories Licensing Corporation Channel identification of multi-channel audio signals
US11533560B2 (en) * 2019-11-15 2022-12-20 Boomcloud 360 Inc. Dynamic rendering device metadata-informed audio enhancement system
US11380344B2 (en) 2019-12-23 2022-07-05 Motorola Solutions, Inc. Device and method for controlling a speaker according to priority data
CN112634907B (zh) * 2020-12-24 2024-05-17 百果园技术(新加坡)有限公司 用于语音识别的音频数据处理方法及装置
CN113990355A (zh) * 2021-09-18 2022-01-28 赛因芯微(北京)电子科技有限公司 音频节目元数据和产生方法、电子设备及存储介质
CN114051194A (zh) * 2021-10-15 2022-02-15 赛因芯微(北京)电子科技有限公司 一种音频轨道元数据和生成方法、电子设备及存储介质
US20230117444A1 (en) * 2021-10-19 2023-04-20 Microsoft Technology Licensing, Llc Ultra-low latency streaming of real-time media
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质
WO2023205025A2 (en) * 2022-04-18 2023-10-26 Dolby Laboratories Licensing Corporation Multisource methods and systems for coded media

Family Cites Families (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
JPH0746140Y2 (ja) 1991-05-15 1995-10-25 岐阜プラスチック工業株式会社 かん水栽培方法において使用する水位調整タンク
JPH0746140A (ja) * 1993-07-30 1995-02-14 Toshiba Corp 符号化装置及び復号化装置
US6611607B1 (en) * 1993-11-18 2003-08-26 Digimarc Corporation Integrating digital watermarks in multimedia content
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
JP3186472B2 (ja) 1994-10-04 2001-07-11 キヤノン株式会社 ファクシミリ装置およびその記録紙選択方法
US7224819B2 (en) * 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
JPH11234068A (ja) 1998-02-16 1999-08-27 Mitsubishi Electric Corp ディジタル音声放送受信機
JPH11330980A (ja) * 1998-05-13 1999-11-30 Matsushita Electric Ind Co Ltd 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体
US6530021B1 (en) * 1998-07-20 2003-03-04 Koninklijke Philips Electronics N.V. Method and system for preventing unauthorized playback of broadcasted digital data streams
US6975254B1 (en) * 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
US6909743B1 (en) 1999-04-14 2005-06-21 Sarnoff Corporation Method for generating and processing transition streams
US8341662B1 (en) * 1999-09-30 2012-12-25 International Business Machine Corporation User-controlled selective overlay in a streaming media
DE60144222D1 (de) * 2000-01-13 2011-04-28 Digimarc Corp Authentifizierende metadaten und einbettung von metadaten in wasserzeichen von mediensignalen
US7450734B2 (en) * 2000-01-13 2008-11-11 Digimarc Corporation Digital asset management, targeted searching and desktop searching using digital watermarks
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US8091025B2 (en) * 2000-03-24 2012-01-03 Digimarc Corporation Systems and methods for processing content objects
US7392287B2 (en) * 2001-03-27 2008-06-24 Hemisphere Ii Investment Lp Method and apparatus for sharing information using a handheld device
GB2373975B (en) 2001-03-30 2005-04-13 Sony Uk Ltd Digital audio signal processing
US6807528B1 (en) * 2001-05-08 2004-10-19 Dolby Laboratories Licensing Corporation Adding data to a compressed data frame
AUPR960601A0 (en) * 2001-12-18 2002-01-24 Canon Kabushiki Kaisha Image protection
US7535913B2 (en) * 2002-03-06 2009-05-19 Nvidia Corporation Gigabit ethernet adapter supporting the iSCSI and IPSEC protocols
JP3666463B2 (ja) * 2002-03-13 2005-06-29 日本電気株式会社 光導波路デバイスおよび光導波路デバイスの製造方法
JP2005521173A (ja) * 2002-03-27 2005-07-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ディジタル・オブジェクトにディジタル署名によって透かしを入れる方法及び装置
JP4355156B2 (ja) 2002-04-16 2009-10-28 パナソニック株式会社 画像復号化方法及び画像復号化装置
US7072477B1 (en) 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
CA2562137C (en) 2004-04-07 2012-11-27 Nielsen Media Research, Inc. Data insertion apparatus and methods for use with compressed audio/video data
GB0407978D0 (en) * 2004-04-08 2004-05-12 Holset Engineering Co Variable geometry turbine
US8131134B2 (en) 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7624021B2 (en) 2004-07-02 2009-11-24 Apple Inc. Universal container for audio data
WO2006047600A1 (en) * 2004-10-26 2006-05-04 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) * 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US9639554B2 (en) 2004-12-17 2017-05-02 Microsoft Technology Licensing, Llc Extensible file system
US7729673B2 (en) 2004-12-30 2010-06-01 Sony Ericsson Mobile Communications Ab Method and apparatus for multichannel signal limiting
US8059942B2 (en) * 2005-04-07 2011-11-15 Panasonic Corporation Recording medium, reproducing device, recording method, and reproducing method
CN101156209B (zh) * 2005-04-07 2012-11-14 松下电器产业株式会社 记录媒体、再现装置、记录方法、再现方法
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
JP2009516402A (ja) * 2005-09-14 2009-04-16 エルジー エレクトロニクス インコーポレイティド 符号化/復号化方法及び装置
EP1958430A1 (en) 2005-12-05 2008-08-20 Thomson Licensing Watermarking encoded content
US8929870B2 (en) * 2006-02-27 2015-01-06 Qualcomm Incorporated Methods, apparatus, and system for venue-cast
US8244051B2 (en) * 2006-03-15 2012-08-14 Microsoft Corporation Efficient encoding of alternative graphic sets
US20080025530A1 (en) 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
US8948206B2 (en) * 2006-08-31 2015-02-03 Telefonaktiebolaget Lm Ericsson (Publ) Inclusion of quality of service indication in header compression channel
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
WO2008100100A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101647059B (zh) * 2007-02-26 2012-09-05 杜比实验室特许公司 增强娱乐音频中的语音的方法和设备
WO2008120933A1 (en) * 2007-03-30 2008-10-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
WO2008123709A1 (en) * 2007-04-04 2008-10-16 Humax Co., Ltd. Bitstream decoding device and method having decoding solution
JP4750759B2 (ja) * 2007-06-25 2011-08-17 パナソニック株式会社 映像音声再生装置
US7961878B2 (en) * 2007-10-15 2011-06-14 Adobe Systems Incorporated Imparting cryptographic information in network communications
WO2009093867A2 (en) * 2008-01-23 2009-07-30 Lg Electronics Inc. A method and an apparatus for processing audio signal
US9143329B2 (en) * 2008-01-30 2015-09-22 Adobe Systems Incorporated Content integrity and incremental security
CN101960865A (zh) * 2008-03-03 2011-01-26 诺基亚公司 用于捕获和呈现多个音频声道的装置
US20090253457A1 (en) * 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
KR100933003B1 (ko) * 2008-06-20 2009-12-21 드리머 Bd-j 기반 채널 서비스 제공 방법 및 이를 실현시키기위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
EP2151920B1 (en) * 2008-07-29 2012-11-28 LG Electronics Inc. A method and an apparatus for processing an audio signal
JP2010081397A (ja) * 2008-09-26 2010-04-08 Ntt Docomo Inc データ受信端末、データ配信サーバ、データ配信システム、およびデータ配信方法
JP2010082508A (ja) 2008-09-29 2010-04-15 Sanyo Electric Co Ltd 振動モータおよびそれを用いた携帯端末装置
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP4293665A3 (en) * 2008-10-29 2024-01-10 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
JP2010135906A (ja) 2008-12-02 2010-06-17 Sony Corp クリップ防止装置及びクリップ防止方法
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
KR20100089772A (ko) * 2009-02-03 2010-08-12 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US20120110335A1 (en) * 2009-06-08 2012-05-03 Nds Limited Secure Association of Metadata with Content
EP2309497A3 (en) * 2009-07-07 2011-04-20 Telefonaktiebolaget LM Ericsson (publ) Digital audio signal processing system
WO2011041943A1 (zh) 2009-10-09 2011-04-14 禾瑞亚科技股份有限公司 分析位置的方法与装置
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CA2779453C (en) 2009-12-07 2015-12-22 Dolby Laboratories Licensing Corporation Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
TWI447709B (zh) * 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
PL2381574T3 (pl) 2010-04-22 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób do modyfikacji wejściowego sygnału audio
WO2011141772A1 (en) * 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US8948406B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
WO2012026092A1 (ja) * 2010-08-23 2012-03-01 パナソニック株式会社 音声信号処理装置及び音声信号処理方法
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
AU2011311543B2 (en) * 2010-10-07 2015-05-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Apparatus and method for level estimation of coded audio frames in a bit stream domain
TWI800092B (zh) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US8989884B2 (en) 2011-01-11 2015-03-24 Apple Inc. Automatic audio configuration based on an audio output device
CN102610229B (zh) * 2011-01-21 2013-11-13 安凯(广州)微电子技术有限公司 一种音频动态范围压缩方法、装置及设备
JP2012235310A (ja) 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
KR101547809B1 (ko) * 2011-07-01 2015-08-27 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 시스템을 위한 동기화 및 전환 방법과 시스템
TW202339510A (zh) 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2013102411A (ja) 2011-10-14 2013-05-23 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
KR102172279B1 (ko) * 2011-11-14 2020-10-30 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
WO2013078056A1 (en) 2011-11-22 2013-05-30 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
RU2586874C1 (ru) 2011-12-15 2016-06-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ и компьютерная программа для устранения артефактов амплитудного ограничения
WO2013118476A1 (ja) * 2012-02-10 2013-08-15 パナソニック株式会社 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
US9633667B2 (en) * 2012-04-05 2017-04-25 Nokia Technologies Oy Adaptive audio signal filtering
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US8793506B2 (en) * 2012-08-31 2014-07-29 Intel Corporation Mechanism for facilitating encryption-free integrity protection of storage data at computing systems
US20140074783A1 (en) * 2012-09-09 2014-03-13 Apple Inc. Synchronizing metadata across devices
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
EP2901449B1 (en) * 2013-01-21 2018-01-03 Dolby Laboratories Licensing Corporation Audio encoder and decoder with program loudness and boundary metadata
BR122022020319B1 (pt) 2013-01-28 2023-02-28 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia
US9372531B2 (en) * 2013-03-12 2016-06-21 Gracenote, Inc. Detecting an event within interactive media including spatialized multi-channel audio content
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
JP2015050685A (ja) 2013-09-03 2015-03-16 ソニー株式会社 オーディオ信号処理装置および方法、並びにプログラム
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
US9300268B2 (en) 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
PL3522157T3 (pl) 2013-10-22 2022-02-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja połączonej kompresji zakresu dynamiki i sterowanego zapobiegania obcinaniu dla urządzeń audio
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
CA2934602C (en) 2013-12-27 2022-08-30 Sony Corporation Decoding apparatus and method, and program
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
CN111326165B (zh) 2014-03-25 2023-12-12 弗朗霍夫应用科学研究促进协会 音频编码器装置、音频解码器装置、及其操作方法
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
ES2739886T3 (es) 2014-05-28 2020-02-04 Fraunhofer Ges Forschung Procesador de datos y transporte de datos de control del usuario a decodificadores de audio y renderizadores
CN106415711A (zh) 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法
KR20240065194A (ko) 2014-06-30 2024-05-14 소니그룹주식회사 정보 처리 장치 및 정보 처리 방법
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US20160315722A1 (en) 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
KR102066422B1 (ko) 2015-05-29 2020-02-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 볼륨 제어를 위한 장치 및 방법
KR102122004B1 (ko) 2015-06-17 2020-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Also Published As

Publication number Publication date
US20240153515A1 (en) 2024-05-09
KR200478147Y1 (ko) 2015-09-02
WO2014204783A1 (en) 2014-12-24
BR112015019435A2 (pt) 2017-07-18
TWI588817B (zh) 2017-06-21
CN110459228A (zh) 2019-11-15
BR122020017896B1 (pt) 2022-05-24
US20200219523A1 (en) 2020-07-09
US10147436B2 (en) 2018-12-04
AU2014281794B2 (en) 2015-08-20
US20160322060A1 (en) 2016-11-03
TW201735012A (zh) 2017-10-01
TWM487509U (zh) 2014-10-01
RU2017122050A (ru) 2018-12-24
CL2015002234A1 (es) 2016-07-29
JP2017004022A (ja) 2017-01-05
UA111927C2 (uk) 2016-06-24
JP3186472U (ja) 2013-10-10
MX2015010477A (es) 2015-10-30
CN110491395B (zh) 2024-05-10
KR102297597B1 (ko) 2021-09-06
BR112015019435B1 (pt) 2022-05-17
MY171737A (en) 2019-10-25
BR122017012321A2 (pt) 2019-09-03
JP2017040943A (ja) 2017-02-23
CN104240709B (zh) 2019-10-01
EP2954515A1 (en) 2015-12-16
JP6571062B2 (ja) 2019-09-04
TWI790902B (zh) 2023-01-21
EP3373295A1 (en) 2018-09-12
US20180012610A1 (en) 2018-01-11
HK1204135A1 (en) 2015-11-06
TW202143217A (zh) 2021-11-16
CN110473559A (zh) 2019-11-19
JP2021101259A (ja) 2021-07-08
RU2624099C1 (ru) 2017-06-30
TW201804461A (zh) 2018-02-01
BR122017011368B1 (pt) 2022-05-24
JP2019174852A (ja) 2019-10-10
MX2021012890A (es) 2022-12-02
RU2619536C1 (ru) 2017-05-16
IN2015MN01765A (pt) 2015-08-28
TWI756033B (zh) 2022-02-21
KR20220021001A (ko) 2022-02-21
JP7427715B2 (ja) 2024-02-05
US20160307580A1 (en) 2016-10-20
BR122017012321B1 (pt) 2022-05-24
FR3007564A3 (fr) 2014-12-26
MY192322A (en) 2022-08-17
EP3680900A1 (en) 2020-07-15
MX2019009765A (es) 2019-10-14
AU2014281794A1 (en) 2015-07-23
MX342981B (es) 2016-10-20
TW202244900A (zh) 2022-11-16
JP2024028580A (ja) 2024-03-04
RU2696465C2 (ru) 2019-08-01
KR20240055880A (ko) 2024-04-29
KR20150099615A (ko) 2015-08-31
CN104995677A (zh) 2015-10-21
JP6866427B2 (ja) 2021-04-28
TWI647695B (zh) 2019-01-11
US20160196830A1 (en) 2016-07-07
IL239687A0 (en) 2015-08-31
KR102358742B1 (ko) 2022-02-08
PL2954515T3 (pl) 2018-09-28
JP6046275B2 (ja) 2016-12-14
KR101673131B1 (ko) 2016-11-07
AU2014281794B9 (en) 2015-09-10
CN110491396A (zh) 2019-11-22
ES2674924T3 (es) 2018-07-05
TWI719915B (zh) 2021-02-21
TWI613645B (zh) 2018-02-01
US10037763B2 (en) 2018-07-31
DE202013006242U1 (de) 2013-08-01
BR122020017897B1 (pt) 2022-05-24
KR20140006469U (ko) 2014-12-30
EP3373295B1 (en) 2020-02-12
TW201635276A (zh) 2016-10-01
FR3007564B3 (fr) 2015-11-13
ES2777474T3 (es) 2020-08-05
CN104995677B (zh) 2016-10-26
HK1214883A1 (zh) 2016-08-05
KR20160088449A (ko) 2016-07-25
CN106297810B (zh) 2019-07-16
RU2589370C1 (ru) 2016-07-10
EP2954515A4 (en) 2016-10-05
HK1217377A1 (zh) 2017-01-06
KR102041098B1 (ko) 2019-11-06
TW201921340A (zh) 2019-06-01
US20230023024A1 (en) 2023-01-26
KR20190125536A (ko) 2019-11-06
CN203415228U (zh) 2014-01-29
JP6561031B2 (ja) 2019-08-14
SG11201505426XA (en) 2015-08-28
TW202343437A (zh) 2023-11-01
BR122017011368A2 (pt) 2019-09-03
IL239687A (en) 2016-02-29
CN104240709A (zh) 2014-12-24
TW201506911A (zh) 2015-02-16
SG10201604619RA (en) 2016-07-28
CA2898891C (en) 2016-04-19
JP2022116360A (ja) 2022-08-09
TW202042216A (zh) 2020-11-16
TR201808580T4 (tr) 2018-07-23
US11404071B2 (en) 2022-08-02
US9959878B2 (en) 2018-05-01
JP2016507088A (ja) 2016-03-07
BR122016001090B1 (pt) 2022-05-24
CN106297810A (zh) 2017-01-04
CN106297811B (zh) 2019-11-05
TWI708242B (zh) 2020-10-21
KR20210111332A (ko) 2021-09-10
RU2019120840A (ru) 2021-01-11
CN106297811A (zh) 2017-01-04
US11823693B2 (en) 2023-11-21
KR102659763B1 (ko) 2024-04-24
TW201635277A (zh) 2016-10-01
CN110491395A (zh) 2019-11-22
EP2954515B1 (en) 2018-05-09
TWI605449B (zh) 2017-11-11
MX2022015201A (es) 2023-01-11
CA2898891A1 (en) 2014-12-24
MX367355B (es) 2019-08-16
CN110600043A (zh) 2019-12-20
CN110459228B (zh) 2024-02-06
TWI553632B (zh) 2016-10-11
JP7090196B2 (ja) 2022-06-23
SG10201604617VA (en) 2016-07-28
RU2017122050A3 (pt) 2019-05-22
TWI831573B (zh) 2024-02-01

Similar Documents

Publication Publication Date Title
JP6866427B2 (ja) プログラム情報またはサブストリーム構造メタデータをもつオーディオ・エンコーダおよびデコーダ
MX2015004468A (es) Codificador y decodificador de audio con metadatos de limite y sonoridad de programa.
RU2790571C2 (ru) Аудиокодер и аудиодекодер с метаданными сведений о программе или структуры вложенных потоков

Legal Events

Date Code Title Description
B03A Publication of a patent application or of a certificate of addition of invention [chapter 3.1 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B15K Others concerning applications: alteration of classification

Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/00

Ipc: G10L 19/16 (2006.01)

B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 12/06/2014, OBSERVADAS AS CONDICOES LEGAIS