BR112015019435B1 - Método para gerar um fluxo de bits de áudio codificado, método para decodificar um fluxo de bits de áudio codificado, meio de armazenamento e unidade de processamento de áudio - Google Patents
Método para gerar um fluxo de bits de áudio codificado, método para decodificar um fluxo de bits de áudio codificado, meio de armazenamento e unidade de processamento de áudio Download PDFInfo
- Publication number
- BR112015019435B1 BR112015019435B1 BR112015019435-4A BR112015019435A BR112015019435B1 BR 112015019435 B1 BR112015019435 B1 BR 112015019435B1 BR 112015019435 A BR112015019435 A BR 112015019435A BR 112015019435 B1 BR112015019435 B1 BR 112015019435B1
- Authority
- BR
- Brazil
- Prior art keywords
- metadata
- audio
- program
- bitstream
- volume
- Prior art date
Links
- 238000012545 processing Methods 0.000 title claims abstract description 202
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003860 storage Methods 0.000 title claims description 9
- 230000001419 dependent effect Effects 0.000 claims description 28
- 238000007781 pre-processing Methods 0.000 claims description 26
- 230000003595 spectral effect Effects 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 11
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 abstract 1
- 230000006835 compression Effects 0.000 description 23
- 238000007906 compression Methods 0.000 description 23
- 230000003044 adaptive effect Effects 0.000 description 19
- 238000005259 measurement Methods 0.000 description 19
- 238000012937 correction Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 238000010200 validation analysis Methods 0.000 description 15
- 230000004044 response Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 7
- 101100508818 Mus musculus Inpp5k gene Proteins 0.000 description 6
- 101100366438 Rattus norvegicus Sphkap gene Proteins 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000010363 phase shift Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 101000651958 Crotalus durissus terrificus Snaclec crotocetin-1 Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Information Transfer Systems (AREA)
- Time-Division Multiplex Systems (AREA)
- Application Of Or Painting With Fluid Materials (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Stereo-Broadcasting Methods (AREA)
Abstract
CODIFICADOR E DECODIFICADOR DE ÁUDIO COM INFORMAÇÕES DE PROGRAMA OU METADADOS DE ESTRUTURA DE SUBSTREAM. Aparatos e métodos para gerar um fluxo de bits de áudio codificados, inclusive pela inclusão de metadados de estrutura de substream (SSM) e/ou metadados de informações do programa (PIM) e dados de áudio no fluxo de bits. Outros aspectos são aparatos e métodos para decodificação desse fluxo de bits e uma unidade de processamento de áudio (por exemplo, um codificador, um decodificador ou pós-processador) configurada (por exemplo, programada) para realizar qualquer modalidade do método ou que inclui uma memória de buffer que armazena pelo menos um quadro de um fluxo de bits de áudio gerado de acordo com qualquer modalidade do método.
Description
[001] Este pedido reivindica prioridade ao Pedido de Patente dos Estados Unidos Provisória N ° 61/836.865, depositado em 19 de junho de 2013, que é aqui incorporada por referência na sua totalidade.
[002] A invenção refere-se ao processamento de sinais de áudio e, mais particularmente, à codificação e descodificação de fluxos de bits de dados de áudio com metadados indicativo da estrutura substream e/ou informações do programa de áudio indicado pelos fluxos de bits. Algumas modalidades da invenção geram ou descodificam dados de áudio em um dos formatos conhecidos como Dolby Digital (AC-3), Dolby Digital Plus (Enhanced AC-3 ou E-AC-3) ou Dolby E.
[003] Dolby, Dolby Digital, Dolby Digital Plus e Dolby E são marcas registradas da Dolby Laboratories Licensing Corporation. Dolby Laboratories fornece implementações proprietárias de AC-3 e E- AC-3 conhecidos como Dolby Digital e Dolby Digital Plus, respectivamente.
[004] Unidades de processamento de dados de áudio normalmente operam de forma cega e não atentam ao histórico de processamento de dados de áudio que ocorre antes do recebimento dos dados. Isso pode funcionar em uma estrutura de processamento em que uma única entidade faz todo o processamento de dados de áudio e codificação de diversos dispositivos de renderização da mídia alvo enquanto um dispositivo de renderização da mídia alvo faz toda a decodificação e a renderização dos dados de áudio codificados. No entanto, esse processamento cego não funciona bem (ou simplesmente não funciona) em situações em que uma pluralidade de unidades de processamento de áudio está espalhada ao longo de uma rede diversa ou encontra-se posicionada em tandem (isto é, em cadeia) e espera-se que execute de maneira ideal seus respectivos tipos de processamento de áudio. Por exemplo, alguns dados de áudio podem ser codificados para sistemas de mídia de alta performance e talvez precisem ser convertidos para um formato reduzido adequado para um dispositivo móvel ao longo de uma cadeia de processamento de meios de comunicação. Com efeito, uma unidade de processamento de áudio pode executar desnecessariamente um tipo de processamento nos dados de áudio que já tenha sido executado. Por exemplo, uma unidade de nivelamento de volume pode executar o processamento em um clipe de áudio de entrada, independentemente de terem ou não de o mesmo nivelamento de volume ou semelhante ter sido previamente executada no clipe de áudio de entrada. Como resultado, a unidade de nivelamento de volume pode realizar o nivelamento, mesmo quando não for necessário. Esse processamento desnecessário também pode causar a degradação e/ou a remoção de características específicas durante o processamento do conteúdo dos dados de áudio.
[005] Numa classe de modalidade, a invenção é uma unidade de processamento de áudio capaz de descodificar um fluxo de bits codificado que inclui a estrutura de metadados de substream e/ou metadados de informações do programa (e, opcionalmente, também outros metadados, por exemplo, estado de processamento dos metadados de volume) em pelo menos um segmento de pelo menos um quadro do fluxo de bits e dos dados de áudio em pelo menos um outro segmento do quadro. Neste documento, a estrutura de metadados de substream (ou "SSM") indica os metadados de um fluxo de bits codificados (ou um conjunto de fluxos de bits codificados) indicativo da estrutura de substream de conteúdo do áudio do(s) fluxo(s) de bits codificados, e "metadados de informações do programa" (ou "PIM" ) indica metadados de um fluxo de bits de áudio codificado indicativo de pelo menos um programa de áudio (por exemplo, dois ou mais programas de áudio), em que os metadados de informações do programa é indicativo de pelo menos uma propriedade ou característica do conteúdo de áudio de pelo menos um programa referido (por exemplo, metadados indicando um tipo ou parâmetro de processamento executado em dados de áudio do programa ou metadados que indicam quais os canais do programa são canais ativos).
[006] Em casos típicos (por exemplo, em que o fluxo de bits codificados é um fluxo de bits AC-3 ou E-AC-3), os metadados de informações do programa (PIM) são indicativos das informações do programa que não podem praticamente ser transportadas em outras porções do fluxo de bits. Por exemplo, o PIM pode ser indicativo do processamento aplicado ao áudio de PCM antes da codificação (por exemplo, codificação AC-3 ou E-AC-3), em que as bandas de frequência de áudio do programa foram codificadas utilizando técnicas específicas de codificação de áudio e o perfil de compressão usado para criar dados de compressão da gama dinâmica (DRC) no fluxo de bits.
[007] Numa outra classe de modalidades, um método inclui um passo de multiplexação de dados de áudio codificados com SSM e/ou PIM em cada quadro (ou pelo menos alguns quadros) do fluxo de bits. Na descodificação típica, um descodificador extrai o SSM e/ou PIM do fluxo de bits (incluindo por análise e desmultiplexação do SSM e/ou do PIM e dos dados de áudio) e processa os dados de áudio para gerar um fluxo de dados de áudio descodificados (e, em alguns casos, também realiza o processamento adaptativo dos dados de áudio). Em algumas modalidades, os dados de áudio descodificados e o SSM e/ou o PIM são transmitidos a partir do descodificador para um pós- processador configurado para executar o processamento adaptativo com os dados de áudio decodificados utilizando o SSM e/ou PIM.
[008] Em uma classe de modalidades, o método de codificação inventivo gera um fluxo de bits de áudio (por exemplo, um fluxo de bits AC-3 ou E-AC-3), incluindo segmentos de dados de áudio (por exemplo, segmentos AB0-AB5 do quadro mostrado na Fig. 4 ou todos ou alguns dos segmentos AB0- AB 5 do quadro mostrado na Fig. 7), que inclui dados de áudio codificados e divisão do tempo dos segmentos de metadados (incluindo SSM e/ou PIM e, opcionalmente, também outros metadados) mutiplexados com os segmentos de dados de áudio. Em algumas modalidades, cada segmento de metadado (por vezes referidos aqui como "recipiente") tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou "de núcleo") e uma ou mais cargas de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e outros metadados em períodos que não durante a decodificação (por exemplo, por um pós- processador após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplar, um decodificador pode identificar equivocadamente o número correto de substreams associado a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou "LPSM").
[009] FIG. 1 é um diagrama de bloco de uma modalidade de um sistema que pode ser configurado para executar uma modalidade do método da invenção.
[0010] FIG. 2 é um diagrama de bloco de um codificador que é uma modalidade da unidade de processamento de áudio inventivo.
[0011] FIG. 3 é um diagrama de bloco de um decodificador que é uma modalidade da unidade de processamento de áudio inventivo, e um pós-processador acoplado ao mesmo, que é uma outra modalidade da unidade de processamento de áudio inventivo.
[0012] FIG. 4 é um diagrama de um quadro AC-3, incluindo os segmentos em que encontra-se dividido.
[0013] FIG. 5 é um diagrama do segmento de informação de sincronização (SI) de um quadro AC-3, incluindo os segmentos em que se divide.
[0014] FIG. 6 é um diagrama do segmento de informações de fluxo de bits (BSI) de um quadro AC-3, incluindo os segmentos em que se divide.
[0015] FIG. 7 é um diagrama de um quadro E-AC-3, incluindo os segmentos em que encontra-se dividido.
[0016] FIG. 8 é um diagrama de um segmento de metadados de um fluxo de bits codificado gerado de acordo com uma forma de realização da invenção, incluindo um segmento de cabeçalho de metadados que compreende uma palavra de sincronização recipiente (identificado como "recipiente de sincronização" na Fig. 8) e uma versão e valores da chave de identificação, seguido por várias cargas úteis de metadados e bits de proteção.
[0017] Ao longo da presente divulgação, incluindo as reivindicações, a expressão que executa uma operação "sobre" um sinal ou dados (por exemplo, filtragem, dimensionamento, transformação ou aplicação de ganho ao sinal ou aos dados) é utilizada em um sentido lato para designar a realização da operação diretamente no sinal ou nos dados, ou em uma versão processada do sinal ou dos dados (por exemplo, em uma versão do sinal que foi submetido à filtração preliminar ou de pré-processamento antes da realização da operação no mesmo).
[0018] Ao longo da presente divulgação, incluindo as reivindicações, a expressão "sistema" é usada em um sentido lato para designar um dispositivo, sistema ou subsistema. Por exemplo, um subsistema que implementa um decodificador pode ser referido como um sistema de decodificador, e um sistema que inclui um tal subsistema (por exemplo, um sistema que gera sinais de saída X, em resposta a entradas múltiplas, no qual o subsistema gera M das entradas e as outras entradas X - M são recebidas a partir de uma fonte externa) também pode ser referido como um sistema decodificador.
[0019] Ao longo da presente divulgação, incluindo as reivindicações, o termo "processador" é usado em um sentido lato para designar um sistema ou dispositivo programável ou configurável de outra maneira (por exemplo, com um software ou firmware) para executar operações sobre os dados (por exemplo, áudio, vídeo ou ou outros dados de imagem). Exemplos de processadores incluem uma matriz de porta de campo programável (ou outro conjunto de chip ou circuito integrado configurável), um processador de sinal digital programado e/ou configurado de outra maneira para realizar processamento de linha em áudio ou outros dados de som, um computador ou processador programável de finalidade geral e um conjunto de chip ou chip microprocessador programável.
[0020] Ao longo da presente memória descritiva, incluindo nas reivindicações, as expressões "processador de áudio" e "áudio unidade de processamento" são utilizadas de maneira intercambiável, e num sentido lato, para designar um sistema configurado para processar dados de áudio. Exemplos de unidades de processamento de áudio incluem, mas não estão limitados a codificadores (por exemplo, transcodificadores), decodificadores, codecs, sistemas de pré-tratamento, sistemas de pós-processamento e sistemas de processamento de fluxo de bits (por vezes referido como ferramentas de processamento de fluxo de bits).
[0021] Ao longo da presente memória descritiva, incluindo nas reivindicações, a expressão "metadados" (de um fluxo contínuo de dados de áudio codificados) refere-se a dados separados e diferentes a partir dos dados de áudio correspondentes do fluxo de bits.
[0022] Ao longo da presente modalidade, incluindo nas reivindicações, a expressão "metadados da estrutura do substream" (ou "SSM") refere-se a metadados de um fluxo de bits de áudio codificados (ou um conjunto de fluxos de bits de áudio codificados) indicativo da estrutura de substream do conteúdo de áudio do(s) fluxo(s) de bits codificado(s).
[0023] Ao longo da presente divulgação, incluindo as reivindicações, a expressão "metadados informações do programa" (ou "PIM") indica a metadados de um fluxo de bits áudio codificado indicativo de pelo menos um programa áudio (por exemplo, dois ou mais programas de áudio), em que os referidos metadados são indicativos de pelo menos uma propriedade ou característica do conteúdo de áudio de pelo menos um programa referido (por exemplo, que indica um tipo de metadado ou parâmetro de processamento executado em dados de áudio do programa ou metadados que indicam que canais do programa são canais ativos).
[0024] Ao longo da presente divulgação, incluindo as reivindicações, a expressão "metadados de estado de processamento" (por exemplo, como na expressão "metadados do estado de processamento do volume") refere-se a metadados (de um fluxo de bits de áudio codificados) associados a dados de áudio do fluxo de bits, indica o estado de processamento dos dados de áudio correspondentes (associados) (por exemplo, que tipo(s) de processamento já foram realizados nos dados de áudio) e, tipicamente, indica também ao menos uma característica dos dados de áudio. A associação dos metadados de estado de processamento com os dados de áudio é sincronizada com o tempo. Assim, os presentes (os recebidos ou atualizados mais recentemente) metadados de estado de processamento indicam que os dados de áudio correspondente compreendem, ao mesmo tempo, os resultados do(s) tipo(s) indicado(s) de processamento de dados de áudio. Em alguns casos, os metadados de estado de processamento podem incluir o histórico de processamento e/ou alguns dos ou todos os parâmetros que são usados dentro e/ou derivados dos tipos indicados de processamento. Ademais, os metadados de estado de processamento podem incluir pelo menos uma característica dos dados de áudio correspondentes, que tenha sido computada ou extraída dos dados de áudio. Metadados do estado de processamento também pode incluir outros metadados que não sejam relacionados com ou derivados de qualquer processamento dos dados de áudio correspondentes. Por exemplo, dados de terceiros, informações de rastreamento, identificadores, informações proprietárias ou padrão, dados de anotação do usuário, dados de preferência do usuário, etc. podem ser adicionados por uma unidade de processamento de áudio especial para passar para outras unidades de processamento de áudio.
[0025] Ao longo da presente modalidade, incluindo nas reivindicações, a expressão "metadados de estado de processamento de volume" (ou "LPSM") refere-se aos metadados de estado de processamento do estado de processamento de volume dos dados de áudio correspondentes (por exemplo, qual(is) o(s) tipo(s) de processamento de volume foi/foram realizado(s) nos dados de áudio) e tipicamente, ademais, pelo menos uma característica (por exemplo, o volume) dos dados de áudio correspondentes. Metadados do estado de processamento de volume podem incluir dados (por exemplo, outros metadados) que não sejam (isto é, quando considerados isoladamente) metadados do estado de processamento de volume.
[0026] Ao longo da presente modalidade, incluindo as reivindicações, a expressão "canal" (ou "canal de áudio") indica um sinal de áudio monofônico.
[0027] Ao longo da presente memória descritiva, incluindo as reivindicações, a expressão "programa de áudio" indica um conjunto de um ou mais canais de áudio e metadados opcionalmente também associados (por exemplo, os metadados que descrevem uma apresentação de áudio espacial desejada e/ou PIM, e/ou o SSM, e/ou LPSM e/ou um programa de metadados de limite).
[0028] Ao longo da presente memória descritiva, incluindo as reivindicações, a expressão "limite de metadados de programa" indica metadados de um fluxo de bits de áudio codificados, onde o fluxo de bits de áudio codificados são indicativos de pelo menos um programa de áudio (por exemplo, dois ou mais programas de áudio) e os metadados de limite do programa são indicativos quanto à localização no fluxo de bits de pelo menos um limite (início e/ou final) de pelo menos um programa de áudio mencionado. Por exemplo, os metadados de limite de programa (de um fluxo de bits de áudio codificados de um programa de áudio) podem incluir metadados indicativos do local (por exemplo, o início do quadro "N"° do fluxo de bits ou o local de amostra "H"° do quadro"N"° do fluxo de bits) do início do programa e metadados adicionais indicativos do local (por exemplo, o início do quadro "J"° do fluxo de bits ou o local de amostra "K"° do quadro "J"° do fluxo de bits) do final do programa.
[0029] Ao longo da presente divulgação, incluindo as reivindicações, o termo "pares" ou "acoplado" é usado para significar tanto uma ligação direta quanto indireta. Assim, se um primeiro dispositivo se acopla a um segundo dispositivo, essa conexão pode ser por meio de uma conexão direta ou por meio de uma conexão indireta por meio de outros dispositivos e conexões.
[0030] Um típico fluxo de dados de áudio inclui tanto o conteúdo de áudio (por exemplo, um ou mais canais de conteúdo de áudio) quanto os metadados indicativos de pelo menos uma característica do conteúdo de áudio. Por exemplo, em um de fluxo de bits AC-3, existem vários parâmetros de metadados de áudio que são especificamente destinados à utilização na alteração do som do programa distribuído a um ambiente de escuta. Um dos parâmetros de metadados é o parâmetro DIALNORM, que se destina a indicar o nível médio de diálogo em um programa de áudio, e é usado para determinar o nível de sinal da reprodução de áudio.
[0031] Durante a reprodução de um fluxo contínuo de bits que compreende uma sequência de diferentes segmentos de programa áudio (cada um tendo um parâmetro DIALNORM diferente), um decodificador AC-3 usa o parâmetro DIALNORM de cada segmento para realizar um tipo de processamento de volume no qual ele modifica o nível de reprodução ou de volume de modo que a percepção do volume do diálogo da sequência de segmentos está em um nível consistente. Cada segmento de áudio codificado (item) em uma sequência de itens de áudio codificados (em geral) tem um parâmetro DIALNORM diferente, e o descodificador reduziria o nível de cada um dos elementos de modo que o nível de reprodução ou do volume da caixa de diálogo para cada item é o mesmo ou muito semelhante, embora isso possa exigir a aplicação de diferentes valores de ganho para diferentes quantidades de ganho para diferentes items durante a reprodução.
[0032] DIALNORM é tipicamente definido por um usuário, e não é gerado automaticamente, embora haja um valor DIALNORM padrão se nenhum valor for definido pelo usuário. Por exemplo, um criador de conteúdo pode fazer medições de volume com um dispositivo externo para um codificador AC-3 e, em seguida, transferir o resultado (indicativo da intensidade do diálogo falado de um programa de áudio) para o codificador para definir o valor DIALNORM. Assim, não há dependência do criador de conteúdo para definir o parâmetro DIALNORM corretamente.
[0033] Existem várias razões pelas quais o parâmetro DIALNORM em um fluxo de bits AC-3 pode estar incorreto. Em primeiro lugar, cada codificador AC -3 tem um valor DIALNORM padrão que é usado durante a geração do fluxo de dados se um valor DIALNORM não for definido pelo criador de conteúdo. Esse valor padrão pode ser substancialmente diferente do nível real de volume de diálogo do áudio. Em segundo lugar, mesmo se um criador de conteúdo mede o volume e define o valor DIALNORM de maneira apropriada, pode ter sido usado um algoritmo de medida de volume ou medição que não se conforma com o método recomendado de medição de volume AC-3, resultando em um valor DIALNORM incorreto. Em terceiro lugar, mesmo se um fluxo de bits AC-3 foi criado com o valor DIALNORM medido e definido corretamente pelo criador de conteúdo, ele pode ter sido alterado para um valor incorreto durante a transmissão e/ou armazenamento de um fluxo de bits. Por exemplo, não é incomum em aplicações de transmissão de televisão para fluxos de bits AC-3 a serem decodificados, modificados e então recodificados utilizando informações de metadados DIALNORM incorretas. Assim, um valor DIALNORM incluído em um fluxo de bits AC-3 pode estar incorreto ou impreciso e, portanto, pode ter um impacto negativo sobre a qualidade da experiência de audição.
[0034] Além disso, o parâmetro DIALNORM não indica o estado de processamento de volume dos dados de áudio correspondentes (por exemplo, que tipo(s) de processamento de volume foi(ram) realizado(s) sobre os dados de áudio). Os metadados do estado de processamento de volume (no formato em que é fornecido em algumas modalidades da presente invenção) é útil para facilitar o processamento adaptativo de intensidade de um fluxo contínuo de dados de áudio e/ou para a verificação da validade do estado do processamento de volume e do volume do conteúdo de áudio, de uma maneira particularmente eficiente.
[0035] Embora a presente invenção não esteja limitada à utilização com um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E, por conveniência, ela será descrita em modalidades em que gera, decodifica ou processa esse fluxo de bits.
[0036] Um fluxo de bits AC-3 codificados compreende metadados e de um a seis canais de conteúdo de áudio. O conteúdo de áudio são dados de áudio que foram comprimidos usando codificação de áudio perceptual. Os metadados incluem vários parâmetros de metadados de áudio que são destinadas à utilização na alteração do som de um programa de entrega para um ambiente de escuta.
[0037] Cada quadro de um fluxo de dados AC-3 codificados contém conteúdos de áudio e metadados para amostras 1536 de áudio digital. Para uma taxa de amostra de 48 kHz, isso representa 32 milissegundos de áudio ou uma taxa de 31,25 quadros por segundo de áudio.
[0038] Cada quadro de um fluxo de bits de áudio E-AC-3 codificados contém conteúdos de áudio e metadados para 256, 512, 768 ou 1536 amostras de áudio digital, dependendo se o quadro contém um, dois, três ou seis blocos de dados de áudio, respectivamente. Para uma taxa de amostra de 48 kHz, isso representa 5,333, 10,667, 16 ou 32 milissegundos de áudio digital, respectivamente, ou uma taxa de 189,9, 93,75, 62,5 ou 31,25 quadros por segundo de áudio, respectivamente.
[0039] Tal como indicado na Fig. 4, cada quadro AC-3 é dividido em seções (segmentos), incluindo: uma seção de sincronização de informação (SI) que contém (conforme mostrado na Fig. 5) uma palavra de sincronização (SW) e a primeira de duas palavras de correção de erro (CRC1 ); uma seção de informações de fluxo de bits (BSI) que contém a maior parte dos metadados; seis blocos de áudio (de AB0 a BA5) que contêm conteúdos de áudio comprimido em dados (e também podem incluir metadados); segmentos de bits residuais (W) (também conhecidos como "campos de salto") que contêm todos os bits não-utilizados restantes após a compressão do conteúdo de áudio; uma seção de informação auxiliar (AUX) que pode conter mais metadados; e a segunda de duas palavras de correção de erro (CRC2).
[0040] Conforme indicado na Fig. 7, cada quadro E-AC-3 é dividido em seções (segmentos), incluindo: uma secção de informação de sincronização (SI) que contém uma palavra de sincronização (SW), (como mostrado na Fig. 5) uma secção de fluxo de bits de Informação (BSI) que contém a maior parte dos metadados; entre um e seis blocos de áudio (de AB0 a BA5) que contêm conteúdos de áudio comprimido em dados (e também podem incluir metadados); segmentos de bits residuais (W) (também conhecidos como "campos de salto") que contêm todos os bits não-utilizados restantes após a compressão do conteúdo de áudio (embora apenas um segmento de bit residual seja mostrado, um segmento de bit residual ou campo de salto diferente se seguiria, tipicamente, a cada bloco áudio); uma seção de informações auxiliares (AUX) que pode conter mais metadados; e uma palavra de correção de erro (CRC).
[0041] Por exemplo, em um de fluxo de bits AC-3 (ou E-AC-3), existem vários parâmetros de metadados de áudio que são especificamente destinados à utilização na alteração do som do programa distribuído a um ambiente de escuta. Um dos parâmetros de metadados é o parâmetro DIALNORM, que está incluído no segmento BSI.
[0042] Como mostrado na Fig. 6, o segmento de um quadro BSI AC-3 inclui um parâmetro de cinco bits ("DIALNORM") que indica o valor DIALNORM para o programa. Um parâmetro de cinco bits ("DIALNORM2") que indica o valor DIALNORM para um segundo programa de áudio transportado no mesmo quadro AC-3 está incluído, se o modo de codificação de áudio ("acmod") do quadro AC-3 for "0", indicando que uma dupla-mono ou configuração de canal "1+1" estiver em uso.
[0043] O segmento BSI também inclui um sinal ("addbsie") indicando a presença (ou ausência) de informações adicionais do fluxo de bits após o bit "addbsie" bits, um parâmetro ("addbsil") que indica o comprimento de qualquer informação adicional do fluxo de bits após o valor "addbsil" e até 64 bits de informações de fluxo de bits adicionais ("addbsi") após o valor "addbsil".
[0044] O segmento BSI inclui outros valores de metadados não especificamente mostrados na FIG. 6.
[0045] De acordo com uma classe de modalidade, um fluxo de bits de áudio codificados é indicativo de vários substreams de conteúdos de áudio. Em alguns casos, os substreams são indicativos dos conteúdos de áudio de um programa de canais múltiplos, e cada um dos substreams é indicativo de um ou mais dos canais do programa. Em outros casos, vários substreams de um fluxo de bits codificados são indicativos de conteúdos de áudio de vários programas de áudio, tipicamente um programa de áudio "principal" (que pode ser um programa de canais múltiplos) e pelo menos um outro programa de áudio (por exemplo, um programa que seja um comentário sobre o principal programa de áudio).
[0046] Um fluxo de bits de áudio codificados que é indicativa de pelo menos um programa de áudio inclui, necessariamente, pelo menos um substream "independente" do conteúdo de áudio. O substream independente é indicativo de pelo menos um canal de um programa de áudio (por exemplo, o substream independente pode ser indicativo dos cinco canais de faixa total de um programa de áudio de canal 5.1 convencional). Aqui, este programa de áudio é referido como um programa "principal".
[0047] Em algumas classes de modalidade, um fluxo de bits codificados é indicativo de dois ou mais programas de áudio (um programa "principal" e pelo menos um outro programa de áudio). Em tais casos, o fluxo de bits inclui dois ou mais substreams independentes: um primeiro substream independente indicativo de pelo menos um canal do programa principal; e pelo menos um outro substream independente indicativo de pelo menos um canal de outro programa de áudio (um programa diferente do programa principal). Cada fluxo de bits independente pode ser decodificado independentemente, e um decodificador pode operar para decodificar apenas um subconjunto (não todos) dos substreams independentes de um fluxo de bits codificados.
[0048] Em um exemplo típico de um fluxo de bits de áudio codificados que é indicativo de dois substreams independentes, um dos substreams independentes é indicativo de canais de alto-falante de formato padrão de um programa principal de canais múltiplos (por exemplo, esquerda, direita, centro, esquerda Surround, canais de alto- falante de faixa total de direita Surround de um programa principal de canal 5.1) e o outro substream independente é indicativo de um comentário de áudo monofônico sobre o programa principal (por exemplo, o comentário de um diretor em um filme, onde o programa principal é a trilha sonora do filme). Em outro exemplo de um fluxo de bits de áudio codificados indicativo de substreams múltiplos independentes, um dos substreams independentes é indicativo de canais padrão de alto-falantes de formato padrão de um programa principal de canais múltiplos (por exemplo, um programa principal de canal 5.1) que inclui um primeiro diálogo em uma primeira língua (por exemplo, um dos canais do alto-falante do programa principal pode ser um indicativo da janela) e cada outro substream independente é indicativo de uma tradução monofônica (em um idioma diferente) do diálogo.
[0049] Opcionalmente, um fluxo de bits áudio codificados é indicativo de um programa principal (e, opcionalmente, também pelo menos um outro programa de áudio) inclui pelo menos um substream "dependente" dos conteúdos de áudio. Cada substream dependente está associado a um substream independente do fluxo de bits e é indicativo de pelo menos um canal suplementar do programa (por exemplo, o programa principal) cujo conteúdo é indicado pela substream independente associado (isto é, o substream dependente é indicativo de pelo menos um canal de um programa que não é indicado pelo substream independente associado, e o substream independente associado é indicativo de pelo menos um canal do programa).
[0050] Em um exemplo de um fluxo de bits codificados que inclui um substream independente (indicativo de pelo menos um canal de um programa principal), o fluxo de bits inclui também um substream dependente (associado ao fluxo de bits independente) que é indicativo de um ou mais canais de alto-falante do programa principal. Esses canais de alto-falante adicionais são suplementares ao(s) canal(is) do programa principal indicado pelo substream independente. Por exemplo, se o substream independente for indicativo do formato padrão esquerda, direita, centro, esquerda Surround, canais de alto- falante de faixa total de direita Surround de um programa principal de canal 7.1, o substream dependente pode ser um indicativo dos dois outros canais de alto-falante de faixa total do programa principal.
[0051] Em conformidade com o padrão E-AC-3, um fluxo de bits E- AC-3 deve ser indicativo de pelo menos um substream independente (por exemplo, um fluxo de bits AC-3 único), e pode ser indicativo de até oito substreams independentes. Cada substream independente de um fluxo de bits E-AC-3 pode ser associado com até oito substreams dependentes.
[0052] O fluxo de bits E-AC-3 inclui metadados indicativos da estrutura de substream do fluxo de bits. Por exemplo, um campo "chanmap" na seção de informações do fluxo de bits (BSI) de um fluxo de bits E-AC-3 determina um mapa de canal para os canais do programa indicados por um substream dependente do fluxo de bits. No entanto, os metadados indicativos da estrutura de substream são convencionalmente incluídos em um fluxo de bits E-AC-3 em um formato tal que seja conveniente para acesso e uso (durante a decodificação do fluxo de bits E-AC-3 CODIFICADO) apenas por um decodificador E-AC-3; não para o acesso e uso após a decodificação (por exemplo, por um pós-processador) ou antes da decodificação (por exemplo, por um processador configurado para reconhecer os metadados). Além disso, existe um risco de que um decodificador pode identificar incorretamente os substreams de um fluxo de bits convencional E-AC-3 codificado utilizando os metadados convencionalmente incluídos e que não era conhecido até a presente invenção de como incluir metadados de estrutura de substream em um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 codificado) de um formato tal que permita uma detecção e uma correção eficientes e convenientes de erros na identificação do substream durante a decodificação do fluxo de bits.
[0053] O fluxo de bits E-AC-3 pode incluir ainda metadados acerca dos conteúdos de áudio de um programa de áudio. Por exemplo, um fluxo de bits E-AC-3 indicativo de um programa de áudio inclui metadados indicativos de frequências mínima e máxima para a qual o processamento de extensão espectral (e codificação de canal de acoplamento) foi utilizado para codificar o conteúdo do programa. No entanto, tais metadados indicativos da estrutura de substream são convencionalmente incluídos em um fluxo de bits E-AC-3 em um formato tal que seja conveniente para acesso e uso (durante a decodificação do fluxo de bits E-AC-3 CODIFICADO) apenas por um decodificador E-AC-3; não para o acesso e uso após a decodificação (por exemplo, por um pós-processador) ou antes da decodificação (por exemplo, por um processador configurado para reconhecer os metadados). Além disso, tais metadados não estão incluídos em um fluxo de bits E-AC-3 em um formato que permita, de forma conveniente e eficiente, a detecção e a correção de erro da identificação desses metadados durante a decodificação do fluxo de bits.
[0054] De acordo com modalidades típicas da invenção, PIM e/ou SSM (e, opcionalmente, também outros metadados, por exemplo, metadados do estado de processamento de volume ou "LPSM") são incorporados em um ou mais campos reservados (ou ranhuras) de segmentos de metadados de um fluxo de bits de áudio que inclui também dados de áudio em outros segmentos (segmentos de dados de áudio). Tipicamente, pelo menos um segmento de cada quadro do fluxo de dados inclui PIM ou SSM, e pelo menos um outro segmento do quadro inclui dados de áudio correspondentes (isto é, dados de áudio cuja estrutura de substream é indicada pelo SSM e/ou possuindo pelo menos uma característica ou propriedade indicada pelo PIM).
[0055] Em uma classe de modalidade, cada segmento de metadados é uma estrutura de dados (por vezes referida neste documento como um recipiente) que pode conter uma ou mais cargas de metadados. Cada carga inclui um cabeçalho que inclui um identificador de carga específico (e dados de configuração de carga útil) para proporcionar uma indicação inequívoca do tipo de metadado presente na carga útil. A fim de cargas úteis no interior do recipiente é indefinida, de modo que cargas pode ser armazenado em qualquer ordem e um analisador tem de ser capaz de analisar todo o recipiente para extrair cargas úteis e relevantes ignorar cargas úteis que são ou não são relevantes, ou sem suporte. A Figura 8 (a ser descrito abaixo) ilustra a estrutura de um tal recipiente e cargas úteis no interior do recipiente.
[0056] A comunicação dos metadados (por exemplo, SSM e/ou PIM e/ou LPSM) em uma cadeia de processamento de dados de áudio é particularmente útil quando duas ou mais unidades de processamento de áudio precisam trabalhar em conjunto um com o outro ao longo da cadeia de processamento (ou ciclo vital dos conteúdos). Sem a inclusão de metadados em um fluxo de bits de áudio, sérios problemas de processamento de mídia, como de qualidade, nível ou degradações espaciais podem acontecer, por exemplo, quando dois ou mais codecs de áudio são usados na cadeia e um nivelamento de volume de extremidade única é aplicado mais de uma vez durante uma passagem de fluxo de bits para um dispositivo de consumo de mídia (ou um ponto de renderização dos conteúdos de áudio do fluxo de bits).
[0057] Os metadados do estado de processamento de volume (LPSM) incorporado em um fluxo de bits de áudio de acordo com algumas modalidades da invenção podem ser autenticados e validados, por exemplo, para permitir que as entidades reguladoras de velocidade verifiquem se o volume de um programa específico já está dentro da faixa especificada e se os dados de áudio correspondentes não foram alterados (garantindo, assim, a conformidade com as regulações aplicáveis). Um valor de volume incluído em um bloco de dados que compreende os metadados do estado de processamento de volume pode ser lido para verificar isso em vez de calcular o volume novamente. Em resposta aos LPSM, uma agência reguladora pode determinar que o conteúdo de áudio correspondente está em conformidade (conforme indicado pelos LPSM) com estatutário de volume e/ou requisitos regulatórios (por exemplo, os regulamentos promulgados sob o Commercial Advertisement Loudness Mitigation Act, também conhecido como "CALM" Act) sem a necessidade de calcular o volume dos conteúdos de áudio.
[0058] FIG. 1 é um diagrama de bloco exemplificativo de uma cadeia de processamento de áudio (um sistema de processamento de dados de áudio), em que um ou mais dos elementos do sistema pode ser configurado de acordo com uma modalidade da presente invenção. O sistema inclui os seguintes elementos, acoplados conforme se mostra: uma unidade de pré-processamento, um codificador, uma análise de sinale e unidade de correção de metadados, um decodificador e uma unidade de pré-processamento. Em variações do sistema mostrado, um ou mais dos elementos encontram-se omitidos, ou unidades adicionais de processamento de dados de áudio, estão incluídos.
[0059] Em algumas implementações, a unidade de pré- processamento da FIG. 1 está configurado para aceitar PCM (domínio de tempo) de amostras que compreendem o conteúdo de áudio como entrada, e para as amostras de PCM processadas na saída. O codificador pode ser configurado para aceitar as amostras de PCM como entrada e para a saída de um fluxo de áudio de bits codificado (por exemplo, comprimido) indicativo dos conteúdos de áudio. Os dados do fluxo de bits que são indicativos dos conteúdos de áudio são por vezes aqui referidos como "dados de áudio." Se o codificador é configurado de acordo com uma forma de realização típica da presente invenção, a saída de fluxo de bits de áudio do codificador inclui PIM e/ou SSM (e, opcionalmente, também dos metadados de estado de processamento de volume e/ou outros metadados), bem como dados de áudio.
[0060] A análise de sinal e a unidade de correção de metadados da Fig. 1 pode aceitar um ou mais fluxos de bits de áudio codificados e determinar (por exemplo, validar) se os metadados (por exemplo, metadados do estado de processamento) em cada fluxo de bits de áudio codificados estão corretos realizando análise de sinal (por exemplo, usando metadados de fronteira de programa em um fluxo de bits de áudio codificados). Se a análise de sina e a unidade de correção de metadados descobrir que os metadados incluídos são inválidos, ele normalmente substitui o(s) valor(es) incorreto(s) pelo(s) valor(es) correto(s) da análise de sinal. Assim, cada saída de fluxo de bits de áudio codificados da análise de sinal e da unidade de correção dos metadados pode incluir metadados do estado de processamento corrigido (ou não-corrigido), assim como dados de áudio codificados.
[0061] O decodificador da Fig. 1 pode aceitar fluxos de bits codificados de áudio como entrada e fluxos de bits de áudio modificados (por exemplo, codificados de maneira diferente) na saída como resposta (por exemplo, através da decodificação de um fluxo de entrada e recodificação do fluxo decodificado em um formato de codificação diferente). Se o transcodificador é configurado de acordo com uma modalidade típica da presente invenção, a saída do fluxo de bits do transcodificador inclui SSM e/ou PIM (e, tipicamente, também outros metadados), assim como dados de áudio codificados. Os metadados podem ter sido incluídos no fluxo de bits de entrada.
[0062] O decodificador da Fig. 1 pode aceitar fluxos de dados de áudio codificados (por exemplo, comprimidos) como entrada, e fluxos de saída (como resposta) das amostras de áudio de PCM decodificadas. Se o decodificador estiver configurado de acordo com uma modalidade típica da presente invenção, a saída do decodificador em uma operação típica é ou inclui qualquer um dos seguintes elementos:
[0063] um fluxo de amostras de áudio e pelo menos um fluxo correspondente de SSM e/ou PIM (e tipicamente também outros metadados) extraído de um fluxo de bits codificado na entrada; ou
[0064] um fluxo de amostras de áudio, e um fluxo de bits de controle do fluxo correspondente determinado a partir de SSM e/ou PIM (e tipicamente também outros metadados, por exemplo, LPSM) extraído de um fluxo de bits codificados na saída; ou
[0065] um fluxo de amostras de áudio, sem um fluxo correspondente de metadados ou bits de controle determinados a partir de metadados. Neste último caso, o decodificador pode extrair metadados a partir do fluxo de bits codificados na entrada e executar pelo menos uma operação nos metadados extraídos (por exemplo, validação), mesmo que não envie os metadados extraídos ou os bits de controle determinados a partir dos mesmos.
[0066] Ao configurar-se a unidade de pós-processamento da Fig. 1 em conformidade com uma modalidade típica da presente invenção, a unidade de pós-processamento é configurado para aceitar um fluxo de amostras de áudio de PCM decodificadas e para realizar o pós- processamento das mesmas (por exemplo, nivelamento de volume do conteúdo áudio) usando SSM e/ou PIM (e tipicamente também outros metadados, por exemplo, LPSM) recebido com as amostras, ou bits de controle determinados pelo decodificador dos metadados recebidos com as amostras. A unidade de pós-processamento é tipicamente configurada também para processar o conteúdo pós-processado de áudio para reprodução por um ou mais alto-falantes.
[0067] Modalidades típicas da presente invenção fornecem uma cadeia de processamento de áudio melhorado em que unidades de processamento de áudio (por exemplo, codificadores, decodificadores, transcodificadores e unidades de pré e pós-processamento) adaptam seu respectivo processamento para ser aplicado aos dados de áudio de acordo com um estado contemporâneo dos dados de mídia conforme indicados pelos metadados recebidos respectivamente pelas unidades de processamento de áudio.
[0068] A entrada de dados de áudio para qualquer unidade de processamento de áudio do sistema da Fig. 1 (por exemplo, o codificador ou transcodificador da Fig. 1) pode incluir SSM e/ou PIM (e, opcionalmente, também outros metadados), bem como dados de áudio (por exemplo, dados de áudio codificados). Estes metadados podem ter sido incluídos no áudio de entrada por outro elemento do sistema da Fig. 1 (ou outra fonte, não mostrada na Fig. 1), de acordo com uma modalidade da presente invenção. A unidade de processamento que recebe a entrada de áudio (com metadados) pode ser configurada para executar pelo menos uma operação nos metadados (por exemplo, validação) ou em resposta aos metadados (por exemplo, processamento adaptativo da entrada de áudio), e tipicamente também para incluir em seu áudio de saída os metadados, uma versão processada dos metadados ou bits de controle determinados a partir dos metadados.
[0069] Uma modalidade típica da unidade de processamento do áudio da invenção (ou processador de áudio) está configurado para executar o processamento adaptativo de dados de áudio com base no estado dos dados de áudio como indicado por metadados que correspondem aos dados de áudio. Em algumas modalidades, o processamento adaptativo é (ou inclui) o processamento de volume (se os metadados indicam que o processamento de volume, ou processamento semelhante ao mesmo, ainda não foi executado nos dados de áudio, mas não é (e não inclui) um processamento de volume (se os metadados indicam que esse processamento de volume, ou processamento semelhante ao mesmo, já foi executado nos dados de áudio). Em algumas modalidades, o processamento adaptativo é ou inclui a validação de metadados (por exemplo, realizado em uma subunidade de validação de metadados) para assegurar que a unidade de processamento de áudio execute outro processamento adaptativo dos dados de áudio no estado dos dados de áudio, conforme indicado pelos metadados. Em algumas modalidades, a validação determina a confiabilidade dos metadados associados aos (por exemplo, incluídos em um fluxo de bits com) os dados de áudio. Por exemplo, se os metadados forem validados como sendo confiáveis, então os resultados de um tipo de processamento de áudio executado anteriormente podem ser reutilizados e uma nova execução do mesmo tipo de processamento de áudio pode ser evitada. Por outro lado, se descobre-se que os metadados foram adulterados com (ou se não são confiáveis por algum outro motivo), então o tipo de processamento de mídia supostamente executado anteriormente (como indicado pelos metadados não-confiáveis) pode ser repetido pela unidade de processamento de áudio e/ou outro processamento pode ser realizado pela unidade de processamento de áudio nos metadados e/ou nos dados de áudio. A unidade de processamento de áudio poderá também ser configurada para sinalizar a outras unidades de processamento de áudio a jusante em uma cadeia de processamento de mídia melhorada que os metadados (por exemplo, presentes em um fluxo de bits de mídia) são válidos, se a unidade determinar que os metadados são válidos (por exemplo, com base na correspondência entre um valor criptográfico extraído e um valor criptográfico de referência).
[0070] FIG. 2 é um diagrama de bloco de um codificador (100) que é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 100 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASIC, FPGA ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. O codificador 100 compreende um buffer de quadro 110, um analisador 111, um decodificador 101, um validador de estado de áudio 102, uma etapa de processamento de volume 103, uma etapa de seleção de fluxo de áudio 104, um codificador 105, uma etapa do enchedor/formatador 107, uma etapa de geração de metadados 106, um subsistema de medição de volume do diálogo 108 e um buffer de quadro 109, conectados conforme mostrado. Tipicamente, ademais, o codificador 100 inclui outros elementos de processamento (não mostrado).
[0071] O codificador 100 (que é um transcodificador) é configurado para converter uma corrente de bits de áudio de entrada (que, por exemplo, pode ser um de um fluxo de bits AC-3, um fluxo de bits E- AC-3 bitstream ou um fluxo de bits Dolby E) para um fluxo de bits de áudio de saída (que pode, por exemplo, ser outro dentre um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E) incluindo através da realização do processamento de volume adaptativo e automatizado utilizando os metadados do estado de processamento de volume incluído no fluxo de bits de entrada. Por exemplo, o codificador 100 pode ser configurado para converter um fluxo de dados Dolby E de entrada (um formato tipicamente usado em instalações de produção e de transmissão, mas não em dispositivos de consumo que recebem programas de áudio que tenham sido transmitidos ao mesmo) a um fluxo de bits de áudio de saída codificados (adequado para a radiodifusão para dispositivos de consumo) em formato AC-3 ou E-AC-3.
[0072] O sistema da FIG. 2 também inclui subsistema de entrega de áudio codificado 150 (que armazena e/ou entrega a saída fluxos de bits codificado do codificador 100) e decodificador 152. Um fluxo de bits de áudio codificados do codificador 100 pode ser armazenado pelo subsistema 150 (por exemplo, no formato de um DVD ou de um disco Blu ray) ou transmitido pelo subsistema 150 (o qual pode implementar uma rede ou um link de transmissão), ou pode ser ambos armazenados e transmitidos pelo subsistema 150. O decodificador 152 está configurado para decodificar um fluxo de bits áudio codificados (gerado pelo codificador 100) que recebe através do subsistema de 150, incluindo a extração dos metadados (PIM e/ou SSM, e, opcionalmente, também os metadados do estado de processamento de volume e/ou outros metadados) de cada quadro do fluxo de bits (e opcionalmente também a extração de metadados do limite do programa de extração do fluxo de bits) e a geração de dados de áudio codificados. Tipicamente, o decodificador 152 está configurado para executar o processamento adaptativo nos dados de áudio decodificados usando PIM e/ou SSM e/ou LPSM (e, opcionalmente, também metadados de limite do programa) e/ou para transmitir os dados e metadados de áudio decodificados a um pós-processador configurado para executar o processamento adaptativo nos dados de áudio decodificados usando os metadados. Normalmente, o decodificador 152 inclui um buffer que armazena (por exemplo, de forma não-transitória) o fluxo de bits de áudio codificadosrecebido a partir do subsistema 150.
[0073] Várias implementações do codificador 100 e do decodificador 152 são configuradas para realizar diferentes modalidades do método da invenção.
[0074] O buffer do quadro 110 é uma memória de buffer acoplada para receber um fluxo de bits de áudio de entrada codificados. Em funcionamento, o buffer 110 armazena (por exemplo, de maneira não- transitória) pelo menos um quadro do fluxo de bits de áudio codificados, e uma sequência dos quadros do fluxo de bits de áudio codificados é imposta a partir do buffer 110 até o analisador 111.
[0075] O analisador 111 é acoplado e configurado para extrair PIM e/ou SSM, e os metadados do estado de processamento de volume (LPSM), e opcionalmente também os metadados de limite do programa (e/ou outros metadados) de cada quadro de áudio de entrada codificado em que metadado desses é incluído para atribuir no mínimo os LPSM (e opcionalmente também programar metadados de limite e/ou outros metadados) ao validador do estado de áudio 102, a estapa de processamento de volume 103, a etapa 106 e o subsistema 108, para extrair os dados de áudio do áudio de entrada codificado e para atribuir os dados de áudio ao decodificador 101. O decodificador 101 do codificador 100 é configurado para decodificar os dados de áudio para gerar dados de áudio decodificados e atribuir os dados de áudio decodificados à etapa de processamento de volume 103, à etapa de seleção do fluxo de áudio 104, ao subsistema 108 e, tipicamente, também ao validador de estado 102.
[0076] O validador de estado 102 é configurado para autenticar e validar os LPSM (e opcionalmente outros metadados) impostos ao mesmo. Em algumas modalidades, os LPSM são (ou estão incluídos em) um bloco de dados que foram incluídos no fluxo de bits de entrada (por exemplo, de acordo com uma modalidade da presente invenção). O bloco pode compreender um hash criptográfico (um código de autenticação de mensagem baseado em hash ou "HMAC") para processar os LPSM (e, opcionalmente, também outros metadados) e/ou os dados de áudio subjacentes (fornecidos a partir do decodificador 101 ao validador 102). O bloco de dados pode ser assinado digitalmente nessas modalidades, de modo que uma unidade de processamento de áudio a jusante possa, de maneira relativamente fácil, autenticar e validar os metadados do estado de processamento.
[0077] Por exemplo, o HMAC é usado para gerar uma assimilação, e o(s) valor(es) de proteção incluídos no fluxo de bits da invenção podem incluir o produto da assimilação. A assimilação pode ser gerada conforme segue, para um quadro AC- 3: 1. Depois que os dados AC-3 e LPSM estiverem codificados, os bytes dos dados do quadro (data_frame #1 e data_frame #2 concatenados) e os bytes de dados dos LPSM são usados como entrada para o HMAC da função de hash. Outros dados, que podem estar presentes dentro de um campo de dados auxiliar, não são levados em consideração para o cálculo da assimulação. Estes outros dados podem ser bytes não-pertencentes aos dados AC- 3 nem aos dados LSPSM. Os bits de proteção incluídos nos LPSM não podem ser considerados para o cálculo da assimilação de HMAC. 2. Após a assimilação ser calculada, ela é escrita no fluxo de bits em um campo reservado aos bits de proteção. 3. A última etapa da geração do quadro AC-3 completo é o cálculo da verificação de CRC. Ele é escrito no fim do quadro e todos os dados pertencentes a esse quadro são levados em consideração, incluindo os bits de LPSM.
[0078] Outros métodos de criptografia, incluindo, mas não limitado a, qualquer um ou mais de um dos métodos criptográficos não-HMAC, podem ser utilizados para validar os LPSM e/ou outros metadados (por exemplo, no validador 102) para garantir uma transmissão e um recebimento seguros dos metadados e/ou dos dados de áudio subjacentes. Por exemplo, a validação (usando esse método criptográfico) pode ser realizada em cada unidade de processamento de áudio que recebe uma modalidade do fluxo de dados de áudio da invenção para determinar se os metadados correspondentes e dados de áudio incluídos no fluxo de bits foram submetidos (e/ou que foram o resultado de) processamento específico (conforme indicado pelos metadados) e não foram modificados após a realização de tal processamento específico.
[0079] O validador de estado 102 impõe dados de controle à etapa de seleção do fluxo de áudio 104, ao gerador de metadados 106 e ao subsistema de medição de volume do diálogo 108 para indicar os resultados da operação de validação. Em resposta aos dados de controle, a etapa 104 pode selecionar (e atravessar até o codificador 105) ou:
[0080] a saída adaptativamente processada da etapa de processamento de volume 103 (por exemplo, quando os LPSM indicarem que a saída de dados áudio do decodificador 101 não foi submetida a um tipo específico de processamento de volume e os bits de controle do validador 102 indicarem que os LPSM são válidos); ou
[0081] a saída de dados de áudio do decodificador 101 (por exemplo, quando os LPSM indicarem que a saída de dados áudio do decodificador 101 já foi submetida ao tipo específico de processamento de volume que seria executado pela etapa 103 e os bits de controle do validador 102 indicarem que os LPSM são válidos).
[0082] A etapa 103 de codificador 100 está configurado para executar o processamento adaptativo de volume na saída de dados de áudio decodificados do decodificador 101, com base em uma ou mais características de dados de áudio indicados pelos LPSM extraídos pelo decodificador 101. A etapa 103 pode ser um volume em tempo real de domínio de transformação adaptativo e um processador de controle de faixa dinâmica. A etapa 103 pode receber uma entrada do usuário (por exemplo, o volume alvo do usuário/os valores de faixa dinâmica ou valores dialnorm) ou outra entrada de metadados (por exemplo, um ou mais tipos de dados de um terceiro, informações de rastreamento, dados de preferência do usuário, etc.) e/ou outra entrada (por exemplo, a partir de um processo de impressão digital), e utilizar essa entrada para processar a saída de dados de áudio decodificados do decodificador 101. A etapa 103 pode executar o processamento adaptativo de volume em dados de áudio decodificados (saída do decodificador 101) indicativos de um único programa de áudio (como indicado por metadados de limite do programa extraídos pelo analisador 111), e podem redefinir o processamento de volume em resposta ao recebimento de dados de áudio decodificados (saída do decodificador 101) indicativos de um programa de áudio diferente, como indicado pelos metadados de limite do programa extraídos pelo analisador 111.
[0083] O subsistema de medição de volume do diálogo 108 pode operar para determinar o volume de segmentos do áudio descodificado (a partir do decodificador 101) que são indicativos do diálogo (ou outra fala), por exemplo, utilizando os LPSM (e/ou outros metadados) extraído pelo decodificador 101, quando os bits de controle do validador 102 indicarem que os LPSM são inválidos. A operação do subsistema de medição de volume do diálogo 108 pode ser desabilitada quando os LPSM indicarem um volume previamente determinado dos segmentos do diálogo (ou de outra fala) do áudio decodificado (do decodificador 101) quando os bits de controle do validador 102 indicarem que os LPSM são válidos. O subsistema 108 pode realizar uma medição de volumes em dados de áudio decodificados indicativos de um único programa de áudio (como indicado pelos metadados de limite do programa extraídos pelo analisador 111) e pode redefinir a medição em resposta ao recebimento de dados de áudio decodificados indicativos de um programa de áudio diferente, como indicado por tais metadados de limite do programa.
[0084] Ferramentas úteis (por exemplo, o medidor de volume Dolby LM100) existem para medir o nível de diálogo nos conteúdos de áudio de forma fácil e conveniente. Algumas modalidades da APU inventiva (por exemplo, etapa 108 do codificador 100) são implementadas para incluir (ou para desempenhar as funções de) uma ferramenta para medir o volume médio de diálogo de um fluxo de bits de áudio (por exemplo, um fluxo de bits AC-3 decodificado imposto à etapa 108 do decodificador 101 do codificador 100).
[0085] Se a etapa 108 for implementada para medir o verdadeiro volume médio de diálogo dos dados de áudio, a medição pode incluir uma etapa de isolamento dos segmentos do conteúdo de áudio que contêm predominantemente falas. Os segmentos de áudio que são predominantemente de fala são então processados de acordo com um algoritmo de medida de volume. Para dados de áudio decodificados a partir de um fluxo de bits AC-3, esse algoritmo pode ser uma medida de volume mensurada pelo padrão K (em conformidade com o padrão internacional ITU-R BS.1770). Alternativamente, podem ser utilizadas outras medidas de intensidade (por exemplo, aquelas com base em modelos físico-acústicos de volume).
[0086] O isolamento de segmentos de fala não é essencial para medir o volume médio de diálogo dos dados de áudio. Todavia, ele melhora a precisão da medida e normalmente fornece resultados mais satisfatórios da perspectiva de um ouvinte. Visto que nem todo conteúdo de áudio contém diálogo (fala), a medida do volume de todo o conteúdo de áudio pode fornecer uma aproximação suficiente do nível do diálogo do áudio, se a fala estivesse presente.
[0087] O gerador de metadados 106 gera (e/ou passa até a etapa 107) metadados a serem incluídos pela etapa 107 no fluxo de bits codificados para a saída a partir do codificador 100. O gerador de metadados 106 pode passar até a etapa 107 os LPSM (e opcionalmente também LIM e/ou PIM e/ou metadados de limite do programa e/ou outros metadados) extraídos pelo codificador 101 e/ou pelo analisador 111 (por exemplo, quando os bits de controle do validador 102 indicarem que o LPSM e/ou outros metadados são válidos), ou gerar novos LIM e/ou PIM e/ou LPSM e/ou metadados de limite do programa e /ou outros metadados de impuser os novos metadados à etapa 107 (por exemplo, quando os bits de controle do validador 102 indicarem que os metadados extraídos do decodificador 101 são inválidos), ou ele pode atribuir à etapa 107 uma combinação de metadados extraídos pelo decodificador 101 e/ou pelo analisador 111 e de metadados gerados recentemente. O gerador de metadados 106 pode incluir dados de volume gerados pelo subsistema 108 e pelo menos um valor indicativo do tipo de processamento de volume executado pelo subsistema 108, nos LPSM que ele atribui à etapa 107 para a inclusão no fluxo de bits codificados para ser a saída do codificador 100.
[0088] O gerador de metadados 106 pode gerar bits de proteção (que podem consistir em ou incluir um código de autenticação de mensagem baseado em hash ou "HMAC") útil para que pelo menos um dentre os seguintes fatores: desencriptação, autenticação ou validação do LPSM (e, opcionalmente, também outros metadados) sejam incluídos no fluxo de bits codificados e/ou para que os dados de áudio subjacentes sejam incluídos no fluxo de bits codificados. O gerador de metadados 106 pode fornecer esses bits de proteção à etapa 107 para inclusão no fluxo de bits codificados.
[0089] Em uma operação típica, o subsistema de medição de volume do diálogo 108 processa a saída de dados de áudio do decodificador 101 para gerar, em resposta ao mesmo, valores de volume (por exemplo, valores de volume de diálogo fechados e não- fechados) e valores de faixa dinâmica. Em resposta a esses valores, o gerador de metadados 106 pode gerar metadados de estado de processamento de volume (LPSM) para inclusão (pelo preenchedor/formatador 107) no fluxo de bits codificados para serem uma saída do codificador 100.
[0090] Além disso, opcionalmente, ou alternativamente, os subsistemas de 106 e/ou 108 do codificador 100 podem executar uma análise adicional dos dados de áudio para gerar metadados indicativos de pelo menos uma característica dos dados de áudio para inclusão no fluxo de bits codificados para serem uma saída a partir da etapa 107.
[0091] O codificador 105 codifica (por exemplo, através da realização da compressão no mesmo) a saída de dados de áudio da etapa de seleção 104 e atribui o áudio codificado à etapa 107 para inclusão no fluxo de bits codificados para serem uma saída a partir da etapa 107.
[0092] A etapa 107 multiplexa o áudio codificado do codificador 105 e os metadados (incluindo PIM e/ou SSM) do gerador 106 para gerar o fluxo de bits codificados para serem uma saída a partir da etapa 107, preferencialmente de modo que o fluxo de bits codificado tenha um formato conforme especificado por uma modalidade preferível da presente invenção.
[0093] O buffer do quadro 109 é uma memória de buffer que armazena por exemplo, de uma maneira não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados da etapa 107 e uma sequência dos quadros do fluxo de bits de áudio codificados é então atribuído a partir do buffer 109 como uma saída do codificador 100 ao sistema de distribuição 150.
[0094] Os LPSM gerados pelo gerador de metadados 106 e incluídos no fluxo de bits codificados pela etapa 107 são tipicamente indicativos do estado de processamento de volume dos dados de áudio correspondentes (por exemplo, que tipo(s) de processamento de volume foi(ram) realizado(s) nos dados de áudio) e do volume (por exemplo, volume de diálogo medido, volume fechado e/ou não- fechado e/ou faixa dinâmica dos dados de áudio correspondentes.
[0095] Neste documento, "fechamento" de volume e/ou medições de nível executadas em dados de áudio referem-se a níveis específicos ou limites de volume em que o(s) valor(es) computado(s) que excede(m) o limite é/são incluído(s) na medição final (por exemplo, ignorando os valores de volume de curto prazo abaixo de -60 dBFS nos valores finais medidos). O fechamento em um valor absoluto refere-se a um volume ou nível fixado, em que o fechamento em um valor relativo refere-se a um valor que depende de um valor atual de medição "não-fechado".
[0096] Em algumas implementações do codificador 100, o fluxo de bits codificados armazenados na memória 109 (e de saída para o sistema de distribuição 150) é um fluxo de bits AC -3 ou um fluxo de bits E-AC-3 e compreende segmentos de dados de áudio (por exemplo, os segmentos AB0-AB5 do quadro mostrado na Fig. 4) e segmentos de metadados, onde os segmentos de dados de áudio são indicativos de dados de áudio e cada um de pelo menos alguns dos segmentos de metadados incluem PIM e/ou SSM (e, opcionalmente, também outros metadados). A etapa 107 insere os segmentos de metadados (incluindo metadados) no fluxo de bits no formato a seguir. Cada um dos segmentos de metadados que inclui PIM e/ou SSM está incluído em um segmento de bit residual do fluxo de bits (por exemplo, um segmento de bit residual "W", como mostrado na Fig. 4 ou na Fig. 7) ou um campo "addbsi" do segmento de Informações de Fluxo de bits ("BSI") de um quadro do fluxo de bits ou em um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4 ou na Fig. 7) ao final de um quadro do fluxo de bits. Um quadro do fluxo de bits pode incluir um ou dois segmentos de metadados, com cada um deles incluindo metadados, e se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro.
[0097] Em algumas modalidades, cada segmento de metadados (por vezes referidos aqui como um "recipiente") inserido pela etapa 107 tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou "de núcleo") e uma ou mais cargas úteis de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e outros metadados em períodos que não durante a decodificação (por exemplo, por um pós-processador após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplar, um decodificador pode identificar equivocadamente o número correto de substreams associados a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou "LPSM").
[0098] Em algumas modalidades, uma carga útil de metadados de estrutura de substream (SSM) incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) inclui SSM no seguinte formato:
[0099] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor de 2 bits indicativo da versão do formato de SSM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e
[00100] após o cabeçalho:
[00101] metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e
[00102] metadados de substream dependentes indicativos do fato de cada substream independente do programa ter pelo menos um substream dependente associado (isto é, se pelo menos um substream dependente está associada com cada substream independente referido) e, se for o caso, do número de substreams dependentes associados com cada substream independente do programa.
[00103] É contemplado que um substream independente de um fluxo de bits codificado pode ser indicativo de uma série de canais de alto-falante de um programa de áudio (por exemplo, os canais de alto- falante de um programa de áudio de canal de alto-falante 5.1) e de que cada um ou mais dos substreams dependentes (associados com o substream independente, como indicado pelos metadados de substream dependente) pode ser indicativo de um canal de objeto do programa. Tipicamente, no entanto, um substream independente de um fluxo de bits codificados é indicativo de uma série de canais de alto-falante de um programa, e cada substream dependente associado com o substream independente (como indicado pelos metadados de substream dependente) é indicativo de pelo menos um canal de alto- falante adicional do programa.
[00104] Em algumas modalidades, uma carga útil de metadados de informações de programa (PIM) incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) possui o seguinte formato:
[00105] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor indicativo da versão do formato de PIM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e
[00106] após o cabeçalho, PIM no seguinte formato:
[00107] metadados do canal ativo indicativos de cada canal silencioso e de cada canal não-silencioso de um programa de áudio (isto é, que canal(is) do programa contém informações de áudio e qual(is), se houver, contém apenas silêncio (tipicamente durante o período de duração do quadro)). Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do canal ativo em um quadro do fluxo de bits pode ser usado em conjunto com metadados adicionais do fluxo de bits (por exemplo, o campo de modo de codificação de áudio ("acmod") do quadro e, se presente, o campochanmapno quadro ou no(s) quadro(s) de substream dependente(s) associado(s) para determinar que canal(is) do programa contém informações de áudio e qual(is) contém silêncio. O campo "acmod" de um quadro AC-3 ou E-AC-3 indica o número de canais de faixa total de um programa de áudio indicado pelo conteúdo de áudio do quadro (por exemplo, se o programa é um programa monofônico de canal 1.0, um programa de canal estéreo 2.0 ou um programa que compreende canais de faixa total L, R, C, Ls, Rs), ou que o quadro é indicativo de dois programas monofônicos de canal independente 1.0. Um campo "chanmap" de um fluxo de bits E-AC-3 indica um mapa de canal para um substream dependente indicado por um fluxo de bits. Os metadados de canal ativo podem ser úteis para a implementação de mistura (em um pós-processador) a jusante de um decodificador, por exemplo, para adicionar áudio a canais que contêm silêncio na saída do decodificador;
[00108] processamento de submistura de metadados de estado indicativos de se o programa foi submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura que foi aplicada. Os metadados do estado de processamento da submistura pode ser útil para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para submisturar os conteúdos de áudio do programa utilizando os parâmetros que chegam mais próximo a um tipo da submistura que foi aplicada. Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do estado de processamento da submistura podem ser usados em conjunto com o campo de modo de codificação de áudio ("acmod") do quadro para determinar o tipo de submistura (se houver) aplicado ao(s) canal(is) do programa;
[00109] metadados do estado de processamento da mistura indica tivo de se o programa foi misturado (por exemplo, a partir de um número menos de canais) antes ou durante a codificação e, se for o caso, do tipo de mistura que foi aplicado. Os metadados do estado de processamento da mistura podem ser úteis para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para subsmiturar os conteúdos de áudio do programa de uma maneira que seja compatível com um tipo da mistura (por exemplo, Dolby Pro Logic, or Dolby Pro Logic II Movie Mode, or Dolby Pro Logic II Music Mode ou Dolby Professional Upmixer) que foi aplicada ao programa. Nas modalidades em que o fluxo de bits codificados é um fluxo de bits E-AC-3, os metadados do estado de processamento da mistura podem ser usados em conjunto com outros metadados (por exemplo, o valor de um campo "strmtyp" do quadro) para determinar o tipo de mistura (se houver) aplicado ao(s) canal(is) do programa. O valor do campo "strmtyp" (no segmento BSI de um quadro de fluxo de bits E-AC-3) indica se o conteúdo áudio do quadro pertence a um fluxo independente (que determina um programa) ou um substream independente (de um programa que inclui ou está associado a vários substreams) e, portanto, pode ser decodificado independentemente de qualquer outro substream indicado pelo fluxo de bits 3-E-AC, ou se o conteúdo de áudio do quadro pertence a um substream dependente (de um programa que inclui ou está associado com vários substreams) e, portanto, deve ser decodificado em conjunto com um substream independente com o qual está associado; e
[00110] metadados do estado de processamento indicativos do fato de o pré-
[00111] processamento ter sido realizado em conteúdos de áudio do quadro (antes da codificação dos conteúdos de áudio para gerar o fluxo de bits codificados) e, se for o caso, o tipo de pré-processamento que foi realizado.
[00112] Em algumas implementações, os metadados do estado de pré-processamento é indicativo de:
[00113] se a atenuação surround foi aplicada (por exemplo, se os canais surround do programa de áudio foram atenuados por 3 dB antes da codificação),
[00114] se 90 graus de mudança de fase foram aplicados (por exemplo, para os canais surround Ls e Rs do programa de áudio antes da codificação),
[00115] se um filtro de passagem baixa foi aplicado a um canal LFE do programa de áudio antes da codificação,
[00116] se o nível de um canal LFE do programa foi monitorado durante a produção e, se for o caso, do nível monitorado do canal LFE relativo ao nível dos canais de áudio de faixa completa do programa,
[00117] se a compressão de faixa dinâmica deve ser executada (por exemplo, no decodificador) em cada bloco dos conteúdos de áudio decodificado do programa e, se for o caso, o tipo (e/ou parâmetros) de compressão de faixa dinâmica a ser executado (por exemplo, esse tipo de metadado de estado de pré-processamento podem ser indicativos de qual dentre os tipos de perfil de compressão foi adotado pelo codificador para gerar os valores de controle de compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados: Padrão de filme, luz de filme, padrão de música, luz da música ou fala. Alternativamente, esse tipo de metadado do estado de pré-processamento pode indicar que a compressão de faixa dinâmica pesada (compressão "compr") deve ser executada em cada quadro dos conteúdos de áudio decodificados do programa de uma forma determinada por valores de controle da compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados),
[00118] se o processamento de extensão espectral e/ou a codificação de ligação de canal foram utilizados para codificar faixas de frequência específicas do conteúdo do programa e, se for o caso, as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de extensão espectral foi executada e as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de ligação de canal foi executada. Esse tipo de informação de metadados do estado de processamento pode ser útil para realizar a equalização (em um pós- processador) a jusante de um decodificador. As informações de extensão espectral e de ligação de canal também são úteis para otimizar a qualidade durante as operações e aplicações de transcodificação. Por exemplo, um codificador pode otimizar o seu comportamento (incluindo a adaptação das etapas de pré- processamento, como a virtualização dos headphones, misturas, etc.) com base no estado dos parâmetros, como informações de ligação de canal e de extensão espectral. Além disso, o codificador pode se adaptar aos seus parâmetros de extensão espectral e de ligação de maneira dinâmica para corresponder a e/ou para valores ideais com base no estado dos metadados acoplamento e espectrais de forma dinâmica para coincidir com e/ou para os valores ideais com base no estado dos metadados de entrada (e autenticados) e
[00119] se os dados da faixa de ajuste da potencialização do diálogo foram incluídos no fluxo de bits codificados e, se for o caso, a faixa de ajuste disponível durante a execução do processamento de potencialização do diálogo (por exemplo, em um pós-processador a jusante de um decodificador) para ajustar o nível dos conteúdos de diálogo em relação ao nível dos conteúdos que não forem do diálogo no programa de áudio.
[00120] Em algumas implementações, os metadados do estado de pré-processamento adicional (por exemplo, metadados indicativos de parâmetros relacionados ao headphone) estão incluídos (pela etapa 107) em uma carga útil de PIM de um fluxo de bits codificados para serem uma saída do codificador 100.
[00121] Em algumas modalidades, uma carga útil de metadados de estrutura de substream LPSM incluídos (pela etapa 107) em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) inclui LPSM no seguinte formato:
[00122] um cabeçalho (incluindo normalmente uma palavra de sincronização que identifica o início da carga útil dos LPSM, seguida por pelo menos um valor de identificação, por exemplo, a versão do formato dos LPSM, comprimento, período, contagem e valores de associação de substream indicados na Tabela 2 abaixo); e
[00123] após o cabeçalho,
[00124] pelo menos um valor de indicação do diálogo (por exemplo, parâmetro "Canal(is) do diálogo" da Tabela 2) que indica se os dados de áudio correspondentes indicam ou não diálogo (por exemplo, que canais dos dados de áudio correspondentes indicam diálogo);
[00125] pelo menos um valor de cumprimento da regulação do volume (por exemplo, parâmetro "Tipo de Regulação do Volume" da Tabela 2) que indica se os dados de áudio correspondentes cumpre com uma série indicada de regulações de volume;
[00126] pelo menos um valor de processamento de volume (por exemplo, um ou mais dos parâmetros "Sinal de Correção do Volume fechado do Diálogo", "Tipo de Correção de Volume" da Tabela 2) que indica pelo menos um tipo de processamento de volume que foi executado sobre os dados de áudio correspondentes; e
[00127] pelo menos um valor de volume (por exemplo, um ou mais dos parâmetros "Volume Fechado Relativo a ITU", "Volume Fechado de Fala Relativo a ITU", "Volume de 3s de curto prazo de ITU (EBU 3341)" E "Pico Real" da Tabela 2) que indica pelo menos uma característica de volume (por exemplo, volume médio ou de pico) dos dados de áudio correspondentes.
[00128] Em algumas modalidades, cada segmento de metadados contendo PIM e/ou SSM (e, opcionalmente, também outros metadados) contém um cabeçalho do segmento dos metadados (e, opcionalmente, também elementos de núcleo adicionais) e, após o cabeçalho do segmento de metadados (ou o cabeçalho de segmento de metadados e outros elementos de núcleo), pelo menos um segmento de carga útil de metadados apresentando o seguinte formato:
[00129] um cabeçalho de carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, versão do formato de SSM ou PIM, comprimento, período, contagem e valores de associação de substream) e
[00130] após o cabeçalho da carga útil, o SSM ou PIM (ou metadados de outro tipo).
[00131] Em algumas implementações, cada um dos segmentos de metadados (por vezes aqui referidos como "recipientes de metadados" ou "recipientes") inseridos pela fase 107 em um bit residual/segmento de campo de salto (ou um campo "addbsi" ou um campo de dados auxiliares) de um quadro do fluxo de bits apresenta o seguinte formato:
[00132] um cabeçalho de segmento de metadados (incluindo, tipicamente, uma palavra de sincronização identificando o início do segmento de metadados, seguido por valores de identificação, por exemplo, versão, comprimento, período, contagem de elemento expandido e valores de associação de substream, como indicado na Tabela 1 abaixo); e
[00133] após o cabeçalho de segmento de metadados pelo menos um valor de proteção (por exemplo, a assimilação de HMAC e valores de impressão digital da Tabela 1) útil para pelo menos um dentre os seguitnes elementos: desencriptação, autenticação ou validação de pelo menos um dos segmentos de metadados ou dados de áudio correspondentes); e
[00134] também após o cabeçalho do segmento de metadados, a identificação da carga útil dos metadados ("ID") e valores de configuração de carga útil que identificam o tipo de metadado em cada carga útil de metadados seguinte e indicam pelo menos um aspecto da configuração (por exemplo, tamanho) de cada uma dessas cargas úteis.
[00135] Cada carga útil de metadados segue a ID de carga útil e os valores de configuração de carga útil correspondentes.
[00136] Em algumas modalidades, cada um dos segmentos de metadados no segmento de bit residual (ou campo de dados auxiliares ou campo "addbsi") de um quadro tem três níveis de estrutura:
[00137] uma estrutura de alto nível (por exemplo, um cabeçalho de segmento de metadados), incluindo um sinal que indica se o campo de bit residual (ou dados auxiliares ou addbsi) inclui metadados, pelo menos um valor de ID que indica que tipo(s) de metadados está(ão) presente(s) e tipicamente também um valor indicando quantos bits de metadados (por exemplo, de cada tipo) estão presentes (se os metadados estiverem presentes). Um tipo de metadado que pode estar presente é PIM, um outro tipo de metadado que pode estar presente é SSM, e outros tipos de metadados que poderiam estar presentes são LPSM e/ou metadados de limite de programa e/ou metadados de pesquisa de mídia;
[00138] uma estrutura de nível intermediário, compreendendo dados associados com cada tipo identificado de metadado (por exemplo, cabeçalho de metadados de carga útil, valores de proteção e valores de configuração de carga útil e ID de carga útil para cada tipo identificado de metadado); e
[00139] uma estrutura de nível baixo, compreendendo uma carga útil de metadados para cada tipo de metadado identificado (por exemplo, uma sequência de valores de PIM, se PIM for identificado como estando presente, e/ou valores de metadados de outro tipo (por exemplo, SSM ou LPSM), se esse outro tipo de metadado for identificado como estando presente).
[00140] Os valores de dados em tal estrutura de três níveis podem estar aninhados. Por exemplo, o(s) valor(es) de proteção para cada carga útil (por exemplo, cada PIM ou SSM ou outra carga útil de metadados) identificado(s) pelas estruturas de nível alto e intermediário pode(m) ser incluído(s) após a carga útil (e, consequentemente, após o cabeçalho de carga útil da carga útil dos metadados) ou o(s) valor(es) de proteção para todas as cargas úteis dos metadados identificado(s) pelas estruturas de nível alto e intermediário pode(m) ser incluído(s) após a carga útil dos metadados finais no segmento de metadados (e, consequentemente, após os cabeçalhos de carga útil dos metadados de todas as cargas úteis do segmento de metadados).
[00141] Em um exemplo (a descrito com referência ao segmento de metadados ou "recipiente" da Fig. 8), um cabeçalho de segmento de metadados identifica quadro cargas úteis de metadados. Como mostrado na Fig. 8, o cabeçalho do segmento de metadados compreende uma palavra de sincronização de recipiente (identificado como "sincronização de recipiente") e uma versão e valores da chave de identificação. O cabeçalho de segmento de metadados é seguido pelas quatro cargas úteis de metadados e pelos bits de proteção. A ID de carga útil e valores de configuração de carga útil (por exemplo, tamanho da carga útil) para a primeira carga útil (por exemplo, uma carga útil de PIM) segue o cabeçalho de segmento de metadados, a primeira carga útil segue a ID e os valores de configuração, os valores de configuração de carga útil (por exemplo, tamanho da carga útil) e ID da carga útil para a segunda parga útil (por exemplo, uma carga útil de SSM) seguem a primeira carga útil, a segunda carga útil segue esses valores de configuração e ID, os valores de ID de carga útil e configuração de carga útil (por exemplo, tamanho de carga útil) para a terceira carga útil (por exemplo, uma carga útil de LPSM) seguem a segunda carga útil, a terceira carga útil segue esses valores de configuração e ID, os valores de configuração de carga útil (por exemplo, tamanho de carga útil) e ID de carga útil para a quarta carga útil seguem a terceira carga útil, a quarta carga útil segue esses valores de configuração e ID e o(s) valor(es) (identificado(s) como "Dados de Proteção" na Fig. 8) para todas ou algumas das cargas úteis (ou para a estrutura de nível alto e intermediário ou algumas das carga úteis) segue(m) a última carga útil.
[00142] Em algumas modalidades, se o decodificador 101 recebe um fluxo de bits de áudio gerado de acordo com uma modalidade da invenção com um hash criptográfico, o decodificador é configurado para interpretar e recuperar o hash criptográfico de um bloco de dados determinado a partir do fluxo de bits, em que o referido bloco inclui metadados. O validador 102 pode usar o hash criptográfica para validar o fluxo de bits recebido e/ou os metadados associados. Por exemplo, se o validador 102 descobre que os metadados são válidos com base em uma correspondência entre um hash criptográfico de referência e o hash criptográfico recuperado a partir do bloco de dados, então ele pode desativar o funcionamento do processador 103 nos dados de áudio correspondentes e fazer com que a etapa de seleção 104 passe (inalterada) pelos dados de áudio. Além disso, opcionalmente, ou, como alternativa, outros tipos de técnicas criptográficas podem ser utilizadas no lugar de um método baseado em um hash criptográfico.
[00143] Codificador 100 da FIG. 2 pode determinar (em resposta aos LPSM e, opcionalmente, também programar metadados de limite, extraídos pelo decodificador 101) que uma unidade de pós/pré- processamento executou um tipo de processamento de volume nos dados de áudio a serem codificados (nos elementos 105, 106 e 107) e, assim, pôde criar (no gerador 106) metadados do estado de processamento de volume que incluem os parâmetros específicos usados em e/ou derivados do processamento de volume executado anteriormente. Em algumas implementações, o codificador 100 pode criar (e incluir na saída de fluxo de bits codificados do mesmo) metadados indicativos do histórico de processamento dos conteúdos de áudio, contanto que o codificador seja instruído quanto aos tipos de processamento que foram executados nos conteúdos de áudio.
[00144] FIG. 3 é um diagrama de bloco de um decodificador (200), que é uma modalidade da unidade de processamento de áudio inventiva e de um pós-processador (300) acoplado ao mesmo. O pós- processador (300) também é uma modalidade da unidade de processamento de áudio inventiva. Qualquer um dos componentes ou elementos do codificador 200 e do pós-processador 300 pode ser implementado como um ou mais processos e/ou um ou mais circuitos (por exemplo, ASIC, FPGA ou outros circuitos integrados), em hardware, software ou uma combinação de hardware e software. O decodificador 200 compreende um buffer do quadro 201, um analisador 205, um decodificador de áudio 202, uma etapa de validação do estado do áudio (validador) 203 e uma etapa de geração do bit de controle 204, conectados conforme mostrado. Normalmente, ademais, o decodificador 200 inclui outros elementos de processamento (não mostrados).
[00145] O buffer do quadro 201 (uma memória de buffer) armazena (por exemplo, de uma forma não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados recebido pelo decodificador 200. Uma sequência de quadros do fluxo de bits áudio codificados é atribuída a partir do buffer 201 aos analisadores 205.
[00146] O analisador 205 é acoplado e configurado para extrair PIM e/ou SSM (e, opcionalmente, também outros metadados, por exemplo, LPSM) de cada quadro do áudio de entrada codificadopara atribuir pelo menos alguns dos metadados (por exemplo, LPSM e metadados de limite do programa, se algum for extraído, e/ou PIM e/ou SSM) parao validador do estado de áudio 203 e para a etapa 204, para atribuir os metadados extraídos como uma saída(por exemplo, para o pós-processador 300), para extrair dados de áudio do áudio de entrada codificado e para atribuir os dados de áudio extraídos ao decodificador 202.
[00147] A entrada do fluxo de bits de áudio codificado para o decodificador 200 pode ser de um fluxo de bits AC-3, um fluxo de bits E-AC-3 ou um fluxo de bits Dolby E.
[00148] O sistema da FIG. 3 também inclui pós-processador 300. O pós-processador 300 compreende um buffer do quadro 301 e outros elementos de processamento (não mostrados) que inclui pelo menos um elemento de processamento acoplado ao buffer 301. O buffer do quadro 301 armazena (por exemplo, de uma maneira não-transitória) pelo menos um quadro do fluxo de bits de áudio codificados recebido pelo pós-processador 300 do decodificador 200. Os elementos de processamento do pós-processador 300 são acoplados e configurados para receber e processar de forma adaptativa uma sequência dos quadros de saída de fluxo de bits de áudio decodificados do buffer 301, utilizando a saída de metadados do decodificador 200 e/ou a saída de bits de controle da etapa 204 do decodificador 200. Normalmente, o pós-processador 300 está configurado para executar o processamento adaptativo sobre os dados de áudio decodificados utilizando metadados do decodificador 200 (por exemplo, processamento do volume adaptativo sobre os dados de áudio decodificados usando valores de LPSM e, opcionalmente, também metadados de limite do programa onde o processamento adaptativo pode ser baseado no estado de processamento de volume e/ou uma ou mais características dos dados de áudio, indicadas pelos LPSM para os dados de áudio indicativos de um único programa de áudio).
[00149] Várias implementações do decodificador 200 e do pós- processador 300 são configuradas para realizar diferentes modalidades do método da invenção.
[00150] O decodificador de áudio 202 do descodificador 200 é configurado para decodificar os dados de áudio extraídos pelo analisador 205 para gerar dados de áudio decodificados e atribuir os dados de áudio decodificados como uma saída (por exemplo, para o pós-processador 300).
[00151] O validador de estado 203 é configurado para autenticar e validar os metadados atribuídos ao mesmo. Em algumas modalidades, os LPSM são (ou estão incluídos em) um bloco de dados que foram incluídos no fluxo de bits de entrada (por exemplo, de acordo com uma modalidade da presente invenção). O bloco pode compreender um hash criptográfico (um código de autenticação de mensagem baseado em hash ou "HMAC") para processar os LPSM (e, opcionalmente, também outros metadados) e/ou os dados de áudio subjacentes (fornecidos a partir do analisador 205 e/ou do decodificador 202 ao validador 203). O bloco de dados pode ser assinado digitalmente nessas modalidades, de modo que uma unidade de processamento de áudio a jusante possa, de maneira relativamente fácil, autenticar e validar os metadados do estado de processamento.
[00152] Outros métodos de criptografia, incluindo, mas não limitado a, qualquer um ou mais de um dos métodos criptográficos não-HMAC, podem ser utilizados para validar os metadados (por exemplo, no validador203) para garantir uma transmissão e um recebimento seguros dos metadados e/ou dos dados de áudio subjacentes. Por exemplo, a validação (usando esse método criptográfico) pode ser realizada em cada unidade de processamento de áudio que recebe uma modalidade do fluxo de dados de áudio da invenção para determinar se os metadados do estado de processamento e os dados de áudio correspondentes incluídos no fluxo de bits foram submetidos (e/ou que foram o resultado de) a um processamento de volume específico (conforme indicado pelos metadados) e não foram modificados após a realização de tal processamento de volume específico.
[00153] O validador de estado 203 atribui dados de controle ao gerador de bit de controle 204 e/ou atribui os dados de controle como uma saída (por exemplo, ao pós-processador 300) para indicar os resultados da operação de validação. Em resposta aos dados de controle (e opcionalmente também outros metadados extraídos do fluxo de bits de entrada), a etapa 204 pode gerar (e atribuir ao pós- processador 300):
[00154] bits de controle indicando que a saída de dados de áudio decodificados do decodificador 202 foram submetidos a um tipo específico de processamento de volume (quando os LPSM indicarem que a saída de dados áudio do decodificador 202 foi submetida ao tipo específico de processamento de volume e os bits de controle do validador 203 indicarem que os LPSM são válidos); ou
[00155] bits de controle indicando que a saída de dados de áudio do decodificados 202 deve ser submetida a um tipo específico de processamento de volume (por exemplo, quando os LPSM indicarem que a saída dos dados de áudio do decodificador 202 não foi submetida ao tipo específico de processamento de volume ou quando os LPSM indicarem que a saída dos dados de áudio do decodificador 202 foi submetida ao tipo específico de processamento de volume, mas os bits de controle do validador 203 indicam que os LPSM não são válidos).
[00156] Alternativamente, o decodificador 200 atribui os metadados extraídos pelo decodificador 202 do fluxo de bits de entrada e os metadados extraídos pelo analisador 205 do fluxo de bits de entrada ao pós-processador 300 e o pós-processador 300 executa um processamento adaptativo sobre os dados de áudio decodificados utilizando os metadados ou realiza a validação dos metadados e então realiza o processamento adaptativo sobre os dados de áudio decodificados utilizando os metadados se a validação indicar que os metadados são válidos.
[00157] Em algumas modalidades, se o decodificador 200 receber um fluxo de bits de áudio gerado de acordo com uma modalidade da invenção com o hash criptográfico, o decodificador está configurado para analisar e recuperar o hash criptográfico de um bloco de dados determinado a partir do fluxo de bits, o dito bloco compreendendo os metadados do estado de processamento de volume (LPSM). O validador 203 pode usar o hash criptográfica para validar o fluxo de bits recebido e/ou os metadados associados. Por exemplo, se o validador 203 descobrir que os LPSM são válidos com base em uma correspondência entre um hash criptográfico de referência e o hash criptográfico recuperado a partir do bloco de dados, então ele pode ser um sinal para uma unidade de processamento de áudio a jusante (por exemplo, o pós-processador 300, que pode ser ou incluir uma unidade de nivelamento de volume), para passar (inalterado) através dos dados de áudio do fluxo de bits. Além disso, opcionalmente, ou, como alternativa, outros tipos de técnicas criptográficas podem ser utilizados no lugar de um método baseado em um hash criptográfico.
[00158] Em algumas implementações do decodificador 200, o fluxo de bits codificados recebido (e armazenado na memória 201) é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3 e compreende segmentos de dados de áudio (por exemplo, os segmentos AB0-AB5 do quadro mostrado na Fig. 4) e segmentos de metadados, onde os segmentos de dados de áudio são indicativos de dados de áudio e cada um dentre pelo menos alguns dos segmentos de metadados incluem PIM ou SSM (ou outros metadados). A etapa do decodificador 202 (e/ou analisador 205) é configurada para extrair os metadados do fluxo de bits. Cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também outros metadados) está incluído em um segmento de bit residual do fluxo de bits ou um campo "addbsi" do segmento de Informações de Fluxo de Bits ("BSI") de um quadro do fluxo de bits ou em um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4) ao final de um quadro do fluxo de bits. Um quadro do fluxo de bits pode incluir um ou dois segmentos de metadados, com cada um deles incluindo metadados, e se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro.
[00159] Em algumas modalidades, cada segmento de metadados (por vezes referidos aqui como um "recipiente") do fluxo de bits armazenados no buffer 201 tem um formato que inclui um cabeçalho de segmento de metadados (e, opcionalmente, também outros elementos obrigatórios ou "de núcleo") e uma ou mais cargas úteis de metadados após o cabeçalho do segmento de metadados. SIM, se presente, é incluído em uma das cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato de um primeiro tipo). PIM, se presente, está incluído em outra das cargas de metadados (identificadas por um cabeçalho de carga e tendo, tipicamente, formato de um segundo tipo). Do mesmo modo, cada um dos outros tipos de metadados (se presentes) está incluído em uma outra dentre as cargas úteis de metadados (identificadas por um cabeçalho de carga útil e tendo, tipicamente, um formato específico para o tipo de metadado). O formato exemplificativo permite o acesso conveniente ao SSM, ao PIM e a outros metadados em períodos que não durante a decodificação (por exemplo, por um pós- processador 300 após a decodificação ou por um processador configurado para reconhecer os metadados sem realizar a decodificação completa no fluxo de bits codificados), e permite uma detecção conveniente e eficiente de erros (por exemplo, da identificação de substream) durante a decodificação do fluxo de bits. Por exemplo, sem acesso a SSM no formato exemplificativo, um decodificador 200 pode identificar equivocadamente o número correto de substreams associados a um programa. Uma carga útil de metadados em um segmento de metadados pode incluir SSM, outra carga útil de metadados no segmento de metadados pode incluir PIM e, opcionalmente, também ao menos outra carga de metadados no segmento de metadados pode incluir outros metadados (por exemplo, metadados de estado de processamento de volume, ou "LPSM").
[00160] Em algumas modalidades, uma carga útil dos metadados de estrutura de substream (SSM) incluídos em um quadro de um fluxo de bits (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) armazenado no buffer 201 inclui SSM no seguinte formato:
[00161] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor de 2 bits indicativo da versão do formato de SSM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e
[00162] após o cabeçalho:
[00163] os metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e
[00164] metadados de substream dependentes indicativos do fato de cada substream independente do programa ter pelo menos um substream dependente associado a ele e, se for o caso, o número de substreams dependentes associados a cada substream independente do programa.
[00165] Em algumas modalidades, uma carga útil de metadados de informações de programa (PIM) incluídos em um quadro de um fluxo de bits codificados (por exemplo, um fluxo de bits E-AC-3 indicativo de pelo menos um programa de áudio) armazenados no buffer 201 possui o seguinte formato:
[00166] um cabeçalho da carga útil, tipicamente incluindo pelo menos um valor de identificação (por exemplo, um valor indicativo da versão do formato de PIM e, opcionalmente, também os valores de associação de substream, contagem, período e comprimento); e
[00167] após o cabeçalho, PIM no seguinte formato:
[00168] metadados do canal ativo indicativos de cada canal silencioso e de cada canal não-silencioso de um programa de áudio (isto é, que canal(is) do programa contém informações de áudio e qual(is), se houver, contém apenas silêncio (tipicamente durante o período de duração do quadro)). Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do canal ativo em um quadro do fluxo de bits pode ser usado em conjunto com metadados adicionais do fluxo de bits (por exemplo, o campo de modo de codificação de áudio ("acmod") do quadro e, se presente, o campochanmapno quadro ou no(s) quadro(s) de substream dependente(s) associado(s) para determinar que canal(is) do programa contém informações de áudio e qual(is) contém silêncio;
[00169] processamento de submistura de metadados de estado indicativos de se o programa foi submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura que foi aplicada. Os metadados do estado de processamento da submistura pode ser útil para implementar a submistura (por exemplo, em um pós-processador 300) a jusante de um decodificador, por exemplo, para submisturar os conteúdos de áudio do programa utilizando os parâmetros que chegam mais próximo a um tipo da submistura que foi aplicada. Nas modalidades em que o fluxo de bits codificado é um fluxo de bits AC-3 ou E-AC-3, os metadados do estado de processamento da submistura podem ser usados em conjunto com o campo de modo de codificação de áudio ("acmod") do quadro para determinar o tipo de submistura (se houver) aplicado ao(s) canal(is) do programa;
[00170] metadados do estado de processamento da mistura indica tivo de se o programa foi misturado (por exemplo, a partir de um número menos de canais) antes ou durante a codificação e, se for o caso, do tipo de mistura que foi aplicado. Os metadados do estado de processamento da mistura podem ser úteis para implementar a submistura (em um pós-processador) a jusante de um decodificador, por exemplo, para subsmiturar os conteúdos de áudio do programa de uma maneira que seja compatível com um tipo da mistura (por exemplo, Dolby Pro Logic, or Dolby Pro Logic II Movie Mode, or Dolby Pro Logic II Music Mode ou Dolby Professional Upmixer) que foi aplicada ao programa. Nas modalidades em que o fluxo de bits codificados é um fluxo de bits E-AC-3, os metadados do estado de processamento da mistura podem ser usados em conjunto com outros metadados (por exemplo, o valor de um campo "strmtyp" do quadro) para determinar o tipo de mistura (se houver) aplicado ao(s) canal(is) do programa. O valor do campo "strmtyp" (no segmento BSI de uma armação de um E-AC-3 bitstream) indica se o conteúdo áudio do quadro pertence a um fluxo independente (que determina um programa) ou um substream independente (de um programa que inclui ou está associado a vários substreams) e, portanto, pode ser descodificada, independentemente de qualquer outro substream indicado pela E-AC-3 fluxo de bits, ou se o conteúdo áudio do quadro pertence a um substream dependente (de um programa, que inclui ou está associada com vários substreams) e, portanto, deve ser descodificado em conjunto com um substream independente, com o qual está associado; e pré-processamento metadados estado indica se o pré-processamento foi realizado sobre o conteúdo áudio do quadro (antes da codificação do conteúdo áudio gerado para o fluxo de bits codificado), e se assim for o tipo de pré-processamento que foi realizada.
[00171] Em algumas implementações, os metadados do estado de pré-processamento é indicativo de:
[00172] se a atenuação surround foi aplicada (por exemplo, se os canais surround do programa de áudio foram atenuados por 3 dB antes da codificação),
[00173] se 90 graus de mudança de fase foram aplicados (por exemplo, para os canais surround Ls e Rs do programa de áudio antes da codificação),
[00174] se um filtro de passagem baixa foi aplicado a um canal LFE do programa de áudio antes da codificação,
[00175] se o nível de um canal LFE do programa foi monitorado durante a produção e, se for o caso, do nível monitorado do canal LFE relativo ao nível dos canais de áudio de faixa completa do programa,
[00176] se a compressão de faixa dinâmica deve ser executada (por exemplo, no decodificador) em cada bloco dos conteúdos de áudio decodificado do programa e, se for o caso, o tipo (e/ou parâmetros) de compressão de faixa dinâmica a ser executado (por exemplo, esse tipo de metadados de estado de pré-processamento podem ser indicativos de qual dentre os tipos de perfil de compressão foi adotado pelo codificador para gerar os valores de controle de compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados: Padrão de filme, luz de filme, padrão de música, luz da música ou fala. Alternativamente, esse tipo de metadado do estado de pré-processamento pode indicar que a compressão de faixa dinâmica pesada (compressão "compr") deve ser executada em cada quadro dos conteúdos de áudio decodificados do programa de uma forma determinada por valores de controle da compressão de faixa dinâmica que estão incluídos no fluxo de bits codificados),
[00177] se o processamento de extensão espectral e/ou codificação de ligação de canal foram utilizados para codificar faixas de frequência específicas do conteúdo do programa e, se for o caso, as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de extensão espectral foi executada e as frequências mínima e máxima dos componentes de frequência do conteúdo sobre o qual a codificação de ligação de canal foi executada. Esse tipo de informação de metadados do estado de processamento pode ser útil para realizar a equalização (em um pós-processador) a jusante de um decodificador. As informações de extensão espectral e de ligação de canal também são úteis para otimizar a qualidade durante as operações e aplicações de transcodificação. Por exemplo, um codificador pode otimizar o seu comportamento (incluindo a adaptação das etapas de pré-processamento, como a virtualização dos headphones, misturas, etc.) com base no estado dos parâmetros, como informações de ligação de canal e de extensão espectral. Além disso, o codificador pode se adaptar aos seus parâmetros de extensão espectral e de ligação de maneira dinâmica para corresponder a e/ou para valores ideais com base no estado dos metadados acoplamento e espectrais de forma dinâmica para coincidir com e/ou para os valores ideais com base no estado dos metadados de entrada (e autenticados) e
[00178] se os dados da faixa de ajuste da potencialização do diálogo foram incluídos no fluxo de bits codificados e, se for o caso, a faixa de ajuste disponível durante a execução do processamento de potencialização do diálogo (por exemplo, em um pós-processador a jusante de um decodificador) para ajustar o nível dos conteúdos de diálogo em relação ao nível dos conteúdos que não forem do diálogo no programa de áudio.
[00179] Em algumas formas de realização, uma carga LPSM incluído em um frame de uma corrente de bits codificada (por exemplo, um E-AC-3 bitstream indicativos de pelo menos um programa de áudio) tamponada em tampão 201 inclui LPSM no seguinte formato:
[00180] um cabeçalho (incluindo normalmente uma palavra de sincronização que identifica o início da carga útil dos LPSM, seguida por pelo menos um valor de identificação, por exemplo, a versão do formato dos LPSM, comprimento, período, contagem e valores de associação de substream indicados na Tabela 2 abaixo); e
[00181] após o cabeçalho,
[00182] pelo menos um valor de indicação do diálogo (por exemplo, parâmetro "Canal(is) do diálogo" da Tabela 2) que indica se os dados de áudio correspondentes indicam ou não diálogo (por exemplo, que canais dos dados de áudio correspondentes indicam diálogo);
[00183] pelo menos um valor de cumprimento da regulação do volume (por exemplo, parâmetro "Tipo de Regulação do Volume" da Tabela 2) que indica se os dados de áudio correspondentes cumpre com uma série indicada de regulações de volume;
[00184] pelo menos um valor de processamento de volume (por exemplo, um ou mais dos parâmetros "Sinal de Correção do Volume fechado do Diálogo", "Tipo de Correção de Volume" da Tabela 2) que indica pelo menos um tipo de processamento de volume que foi executado sobre os dados de áudio correspondentes; e
[00185] pelo menos um valor de volume (por exemplo, um ou mais dos parâmetros "Volume Fechado Relativo a ITU", "Volume Fechado de Fala Relativo a ITU", "Volume de 3s de curto prazo de ITU (EBU 3341)" E "Pico Real" da Tabela 2) que indica pelo menos uma característica de volume (por exemplo, volume médio ou de pico) dos dados de áudio correspondentes.
[00186] Em algumas implementações, o analisador 205 (e/ou a etapa do decodificador 202) é configurado para extrair, a partir de um segmento de resíduos de bits, ou um campo "addbsi", ou um campo de dados auxiliares, de um quadro de fluxo de bits, cada segmento de metadados tendo a seguinte formato:
[00187] um segmento de cabeçalho de metadados (incluindo normalmente uma palavra de sincronização que identifica o início do segmento de metadados, seguido de pelo menos um valor de identificação, por exemplo, valores de associação de substream, versão, comprimento, período e contagem de elemento expandido); e
[00188] após o cabeçalho de segmento de metadados, pelo menos um valor de proteção (por exemplo, valores da assimilação de HMAC e da Impressão Digital de Áudio da Tabela 1) útil para ao menos um dentre os seguintes elementos: desencriptação, autenticação ou validação de pelo menos um dos segmentos de metadados ou dados de áudio correspondentes); e
[00189] também após o cabeçalho do segmento de metadados, a identificação da carga útil dos metadados ("ID") e os valores que identificam o tipo e ao menos um aspecto da configuração (por exemplo, o tamanho) de cada carga útil seguinte dos metadados.
[00190] Cada segmento de carga útil dos metadados (preferivelmente tendo o formato especificado acima) segue a ID de carga útil dos metadados e os valores de configuração de carga útil correspondentes.
[00191] De maneira mais geral, ofluxo de bits de áudio codificados gerado pelas modalidades preferidas da invenção tem uma estrutura que fornece um mecanismo para etiquetas os elementos e os subelementos dos metadados como elementos ou subelementos de núcleo (obrigatórios) ou expandidos (opcionais). Isso permite que a taxa de dados do fluxo de bits (incluindo seus metadados) percorra inúmeras aplicações. Os elementos de núcleo (obrigatório) da sintaxe de fluxo de bits preferidos devem ser capazes de sinalizar que os elementos expandidos (opcionais) associados com os conteúdos de áudio estão presentes (dentro da banda) e/ou em um local remoto (fora da banda).
[00192] É necessário que o(s) elemento(s) de núcleo esteja(m) presente(s) em cada quadro do fluxo de bits. Alguns subelementos de elementos de núcleo são opcionais e podem estar presentes em qualquer combinação. Não é necessário que elementos expandidos estejam presentes em cada quadro (para limitar a sobrecarga da taxa de bits). Desse modo, os elementos expandidos podem estar presentes em alguns quadros e em outros não. Alguns subelementos de um elemento expandido são opcionais e podem estar presentes em qualquer combinação, ao passo que alguns subelementos de um elemento expandido podem ser obrigatórios (isto é, se o elemento expandido estiver presente em um quadro do fluxo de dados).
[00193] Em uma classe de modalidades, um fluxo de bits de áudio codificados que compreende uma sequência de segmentos de dados de áudio é gerado (por exemplo, por uma unidade de processamento de áudio que incorpora a invenção). Os segmentos de dados de áudio são indicativos de dados de áudio, cada um dentre ao menos alguns dos segmentos de metadados inclui PIM e/ou SSM (e, opcionalmente, também metadados de ao menos um outro tipo) e os segmentos de dados de áudio são multiplexados por divisão de tempo com os segmentos de metadados. Em modalidades preferíveis desta classe, cada um dos segmentos de metadados tem um formato preferível a ser descrito neste documento.
[00194] Em um formato preferível, o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, e cada um dos segmentos de metadados que inclui SSM e/ou PIM está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) como informações adicionais do fluxo de bits no campo "addbsi" (mostrado na Fig. 6) do segmento de Informações de Fluxo de bits ("BSI") de um quadro do fluxo de bits ou em um campo de dados auxiliares de um quadro do fluxo de bits ou em um bit residual de um quadro do fluxo de bits.
[00195] No formato preferido, cada um dos quadros inclui um segmento de metadados (por vezes referido aqui como um recipiente de metadados, ou recipiente) em um segmento de bit residual (ou campo addbsi) do quadro. O segmento de metadados possui os elementos obrigatórios (coletivamente referidos como "elemento do núcleo") mostrados na Tabela 1 abaixo (e pode incluir os elementos opcionais mostradas na Tabela 1). Pelo menos alguns dos elementos necessários mostrados na Tabela 1 estão incluídos no cabeçalho do segmento de metadados, mas alguns podem ser incluídos em alguma outra parte do segmento de metadados: Tabela 1
[00196] No formato preferido, cada segmento de metadados (em um segmento de bit residual ou campo addbsi ou de dados auxiliares de um quadro de um fluxo de bits codificado) contendo SSM, PIM ou LPSM contém um cabeçalho de segmentos de metadados (e opcionalmente também elementos adicionais de núcleo) e, após o cabeçalho de segmento de metadados (ou o cabeçalho de segmento de metadados e outros elementos de núcleo), uma ou mais cargas úteis de metadados. Cada carga útil de metadados inclui um cabeçalho de carga útil de metadados (indicando um tipo específico de metadados (por exemplo, SSM, PIM ou LPSM) incluído na carga útil, seguido de metadados do tipo específico. Tipicamente, o cabeçalho de carga útil de metadados inclui os seguintes valores (parâmetros):
[00197] uma ID de carga útil (identificação do tipo de metadados, por exemplo, SSM, PIM ou LPSM) após o cabeçalho do segmento de metadados (que pode incluir valores especificados na Tabela 1);
[00198] um valor de configuração de carga útil (normalmente indicando o tamanho da carga útil) após a ID de carga útil;
[00199] e, opcionalmente, também valores de configuração de carga útil adicional (por exemplo, um valor de deslocamento que indica o número de amostras de áudio a partir do início do quadro para a primeira amostra de áudio a que a carga pertence e valor de prioridade da carga útil, por exemplo, indicando uma condição em que a carga útil pode ser descartada).
[00200] Tipicamente, os metadados da carga útil têm um dos seguintes formatos:
[00201] os metadados de carga útil são SSM, incluindo metadados de substream independentes indicativos do número de substreams independentes do programa indicado pelo fluxo de bits; e os metadados de substream dependentes indicativos do fato de se cada substream independente do programa tem ao menos um substream dependente associado a ele e, se for o caso, o número de substreams dependentes associados com cada substream independente do programa;
[00202] os metadados de carga útil são PIM, incluindo metadados de canal activo indicativos de que canal(us) de um programa de áudio contém informações de áudio e qual(is) (se houver) contém apenas silêncio (tipicamente ao longo da duração do quadro); metadados do estado de processamento de submistura indicativo do fato de o programa ter sido submisturado (antes ou durante a codificação) e, se for o caso, o tipo de submistura aplicado, metadados do estado de processamento de mistura indicativos do fato de o programa ter sido misturado (por exemplo, a partir de uma quantidade menor de canais) antes ou durante a codificação e metadados do estado de pré- processamento indicatidos do fato de o pré-processamento ter sido realizado sobre os conteúdos de áudio do quadro (antes da codificação dos conteúdos de áudio para gerar o fluxo de bits codificados) e, se for o caso, o tipo de pré-processamento realizado; ou
[00203] os metadados da carga útil são LPSM, tendo o formato conforme indicado na tabela a seguir (Tabela 2): Tabela 2
[00204] Em outro formato preferido de um fluxo de bits codificado gerado de acordo com a invenção, o fluxo de bits é um fluxo de bits AC-3 ou fluxo de bits E-AC-3, e em cada um dos segmentos dos metadados que inclui PIM e/ou SSM (e, opcionalmente, também metadados de pelo menos um outro tipo) está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) em qualquer um dentre: um segmento de bit residual de um quadro do fluxo de bits; ou um campo "addbsi" (mostrado na Fig. 6) do segmento de Informações de fluxo de Bit ("BSI") de um quadro do fluxo de bits; ou um campo de dados auxiliares (por exemplo, o segmento AUX mostrado na Fig. 4) ao final de um quadro do fluxo de bits. Um quadro pode incluir um ou dois segmentos de metadados, cada um dos quais inclui PIM e/ou MES e (em algumas modalidades), se o quadro incluir dois segmentos de metadados, um pode estar presente no campo addbsi do quadro e o outro no campo AUX do quadro. Cada segmento de metadados tem, de preferência, o formato especificado acima com referência à Tabela 1 acima (isto é, inclui os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando o tipo de metadado em cada carga útil do segmento de metadados) e os valores de configuração da carga útil, e cada carga útil dos metadados). Cada segmento de metadados incluindo LPSM tem, de preferência, o formato especificado acima com referência às Tabelas 1 e 2 acima (isto é, inclui os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando os metadados como LPSM) e valores de configuração de carga útil, seguido pela carga útil (dados de LPSM que têm um formato conforme indicado na Tabela 2)).
[00205] Em um outro formato preferido, o fluxo de bits codificado é um fluxo de bits Dolby E, e cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também outros metadados) representa as localizações da primeira amostra N do intervalo de banda de guarda Dolby E. O fluxo de bits Dolby E que inclui esse segmento de metadados que inclui LPSM inclui, preferencialmente, um valor indicativo do comprimento da carga útil de LPSM sinalizada na palavra Pd do preâmbulo SMPTE 337M (a taxa de repetição de palavra Pa SMPTE 337M preferencialmente mantém-se idêntica à taxa de quadro de vídeo associada).
[00206] Em um formato preferido, em que o fluxo de bits codificados é um fluxo de bits E-AC-3, cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também LPSM e/ou outros metadados) é incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) como uma informação de fluxo de bits adicional em um segmento de bit residual, ou no campo "addbsi" do segmento de Informações de Fluxo de bits ("BSI") de um quadro do fluxo de bits. Nós descrevemos a seguir os aspectos adicionais da codificação de um fluxo de bits E-AC-3 com LPSM neste formato preferido:
[00207] 1. Durante a geração de um fluxo de bits E-AC-3, enquanto o codificador E-AC-3 (que insere os valores de LPSM no fluxo de bits) estiver "ativo", para cada quadro gerado (quadro de sincronização), o fluxo de bits deve incluir um bloco de metadados (incluindo LPSM) transportado no campo addbsi (ou segmento de bit residual) do quadro. Os bits necessários para transportar o bloco de metadados não deve aumentar a taxa de bits do codificador (comprimento de quadro);
[00208] 2. Cada bloco de metadados (contendo LPSM) deve conter as seguintes informações:
[00209] sinal_do_tipo_de_correção_de_volume: onde '1' indica o volume dos dados de áudio correspondentes que foi corrigido à jusante do codificador e '0' indica o volume que foi corrigido pelo corretor de volume incorporado ao codificador (por exemplo, processador de volume 103 do codificador 100 da Fig. 2);
[00210] canal_de_fala: indica qual(is) canal(is) de fonte contém fala (ao longo do 0,5 seg anterior). Se nenhuma fala for detectada, isso deve ser devidamente indicado;
[00211] volume_da_fala: indica o volume de fala integrado de cada canal de áudio correspondente que contém fala (ao longo do 0,5 seg anterior);
[00212] volume_de_ITU: indica o volume de ITU BS.1770-3 integrado de cada canal de áudio correspondente; e
[00213] ganho: ganho(s) composto(s) de volume para reversão em um decodificador (para demonstrar a reversibilidade);
[00214] 3. Enquanto o codificador E-AC-3 (que insere os valores LPSM fluxo de bits) estiver "ativo" e estiver recebendo um quadro AC- 3 com um sinal de 'confiar', o controle de volume no codificador (por exemplo, o processador de volume 103 do codificador 100 da Fig. 2) deve ser ignorado. O dialnorm de fonte e os valores DRC devem ser passados (por exemplo, pelo gerador 106 do codificador 100) para o componente do codificador E-AC-3 (por exemplo, a etapa 107 do codificador 100). A geração do bloco LPSM continua e o sinal_do_tipo_de_correção_de_volume é definido como '1'. A sequência ignorada do controlador de volume deve ser sincronizada com o início do quadro AC-3 decodificado onde o sinal "confiar" aparece. A sequência ignorada do controlador de volume deve ser implementada da seguinte forma: o controle de quantidade_do_nivelador é diminuído de um valor de 9 para um valor de 0 até 10 períodos de bloco de áudio (isto é, 53,3 mseg) e o controle de medição_subsequente_de_nivelamento é colocado em modo de desvio (essa operação deve resultar em uma transição ininterrupta). O termo de desvio "confiar" do nivelador implica que o valor dialnorm do fluxo de bits da fonte também é reutilizado na saída do codificador (por exemplo, se o fluxo de bits da fonte "de confiança" tiver um valor dialnorm de -30, então a saída do codificador deve utilizar -30 para o valor dialnorm de saída);
[00215] 4. Enquanto o codificador E-AC-3 (que insere os valores LPSM fluxo de bits) estiver "ativo" e estiver recebendo um quadro AC- 3 com um sinal de 'confiar', o controle de volume no codificador (por exemplo, o processador de volume 103 do codificador 100 da Fig. 2) deve ser ignorado. A geração do bloco do LPSM continua e o sinal_do_tipo_de_correção_de_volume é definido como '0'. A sequência de ativação controlador de volume deve ser sincronizado com o início do quadro AC-3 decodificado onde o sinal "confiar" desaparece. A sequência de ativação do controlador de volume deve ser implementada da seguinte forma: o controle da quantidade_do_nivelador é incrementada a partir de um valor de 0 a um valor de 9 sobre o período de bloco de áudio 1. (isto é, 5,3msec) e o controle da medição_subsequente_do_nivelador é colocada em modo "ativo" (tal operação deve resultar em uma transição controle leveler_back_end_meter é colocado no modo "ativo" (esta operação deve resultar em uma transição ininterrupta e inclui uma redifinição de integração de medição_subsequente); e
[00216] 5. Durante a codificação, uma interface gráfica de usuário (GUI) deve indicar a um usuário os seguintes parâmetros: "Programa de entrada de áudio: [Confiável/não confiável] "-o estado deste parâmetro é baseado na presença do sinal de "confiar" no sinal de entrada; e a "Correção de volume em tempo real: [Ativado/desativado]" -o estado deste parâmetro é baseado no fato de o controlador de volume incorporado ao codificador estar ativo.
[00217] Quando a decodificação de um fluxo de bits AC-3 ou E-AC- 3 que tenha LPSM (no formato preferido) incluído em um bit residual ou um segmento de campo de salto, ou o campo "addbsi" do segmento de Informações de Fluxo de bits ("BSI"), de cada quadro do fluxo de bits, o decodificador deve analisar os dados de bloco do LPSM (no segmento de bit residual ou no campo addbsi) e passar todos os valores de LPSM extraídos para a interface gráfica de usuário (GUI). A série de valores de LPSM extraídos em cada quadro atualizado.
[00218] Em um outro formato preferido de um fluxo de bits codificado gerado de acordo com a invenção, o fluxo de bits codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, e cada um dos segmentos de metadados que inclui PIM e/ou SSM (e, opcionalmente, também o LPSM e/ou outros metadados) está incluído (por exemplo, pela etapa 107 de uma implementação preferida do codificador 100) em um segmento de bit residual, ou em um segmento auxiliar, ou como informações adicionais de fluxo de bit no campo "addbsi" (mostradas na Fig. 6) do segmento de Informações do Fluxo de bits ("BSI") de um quadro do fluxo de bits. Nesse formato (que é uma variação do formato descrito acima com referências às Tabelas 1e 2), cada um dos campos addbsi (ou auxiliares ou de bit residual) que contém LPSM contém os seguintes valores de LPSM:
[00219] os elementos de núcleo especificados na Tabela 1, seguido pela ID de carga útil (identificando os metadados como LPSM) e os valores de configuração de carga útil, seguido pela carga útil (dados de LPSM) que possui o seguinte formato (semelhante aos elementos obrigatórios indicados na Tabela 2 acima):
[00220] versão da carga útil de LPSM: um campo de 2 bits que indica a versão da carga útil de LPSM;
[00221] dialchan: um campo de 3 bits que indica se os canais da esquerda, direita e/ou central dos dados de áudio correspondentes contêm diálogo falado. A atribuição do bit do campo dialchan pode ser como segue: o bit 0, que indica a presença de diálogo no canal esquerdo, é armazenado no bit mais significativo do campo dialchan; e o bit 2, que indica a presença de diálogo no canal central, é armazenado no bit menos significativo do campo dialchan.
[00222] Cada bit do campo dialchan está definido como '1' se o canal correspondente contiver diálogo falando durante o último 0,5 segundo precedente do programa;
[00223] loudregtyp: um campo de 4 bits que indica qual padrão de regulação de volume o volume do programa cumpre. Definição do campo "loudregtyp" para "000' indica que o LPSM não indica cumprimento da regulação de volume. Por exemplo, um valor desse campo (por exemplo, 0000), pode indicar que o cumprimento com um padrão de regulação de volume não é indicado, outro valor desse campo (por exemplo, 0001) pode indicar que os dados de áudio do programa cumpre com o padrão ATSC A/85 e outro valor desse campo (por exemplo, 0010) pode indicar que os dados de áudio do programa estão cumpre com o padrão EBU R128. No exemplo, se o campo está definido para qualquer valor diferente de '0000', os campos loudcorrdialgat e loudcorrtyp devem seguir na carga útil;
[00224] loudcorrdialgat: um campo de um bit que indica se a correção do volume fechado do diálogo foi aplicada. Se o volume do programa foi corrigido usando fechamento de diálogo, o valor do campo loudcorrdialgat é definido como '1'. Caso contrário, ele é definido como '0';
[00225] loudcorrtyp: um campo de um bit que indica o tipo de correção de volume aplicada ao programa. Se o volume do programa foi corrigido com um processo de correção do volume (baseado em arquivo) de prognóstico infinito, o valor do campo loudcorrtyp é definido como '0'. Se o volume do programa foi corrigido usando uma combinação de medição de volume em tempo real e controle de faixa dinâmica, o valor desse campo é definido como '1';
[00226] loudrelgate: um campo de um bit que indica se os dados de volume fechado relativo (ITU) existe. Se o campo loudrelgate estiver definido como '1', um campo ituloudrelgat de 7 bits deve seguir na carga útil;
[00227] loudrelgat: um campo de 7 bits que indica volume de programa fechado relativo (ITU). Esse campo indica o volume integrado do programa de áudio, medido de acordo com ITU-R BS.1770-3 sem quaisquer ajustes de ganho devido a dialnorm e compressão de faixa dinâmica (DRC) sendo aplicada. Os valores de 0 a 127 são interpretados como -58 LKFS a +5,5 LKFS, em etapas de 0,5 LKFS;
[00228] loudspchgate: um campo de um bit que indica se os dados de volume fechados para diálogo (ITU) existem. Se o campo loudspchgate está definido como '1', um campo loudspchgat de 7 bits deve seguir na carga útil.
[00229] loudspchgat: um campo de 7 bits que indica o volume do programa fechado para diálogo. Esse campo indica o volume integrado do programa de áudio, medido de acordo com a fórmula (2) de ITU-R BS.1770-3 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica (DRC) sendo aplicada. Os valores de 0 a 127 são interpretados como -58 LKFS a +5,5 LKFS, em etapas de 0,5 LKFS;
[00230] loudstrm3se: um campo de um bit que indica se existem dados de volume de curto prazo (3 segundos). Se o campo estiver definido como '1', um campo loudstrm3s de 7 bits deve seguir na carga útil;
[00231] loudstrm3s: um campo de 7 bits que indica o volume não- fechado dos 3 segundos precedentes do programa de áudio correspondente, medido conforme ITU-R BS.1771-1 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica que está sendo aplicada. Os valores de 0 a 256 são interpretados como -116 LKFS a +11,5 LKFS em etapas de 0,5 LKFS;
[00232] truepke: um campo de um bit que indica se os dados de volume de pico real existem. Se o campo truepke é definido como '1', um campo truepk de 8 bits deve seguir na carga útil; e
[00233] truepk: um campo de 8 bits que indica o valor de pico real da amostra do programa, medido de acordo com o Anexo 2 de ITU-R BS.1770-3 e sem quaisquer ajustes de ganho devido a dialnorm e à compressão de faixa dinâmica que está sendo aplicada. Os valores de 0 a 256 são interpretados como -116 LKFS a +11,5 LKFS em etapas de 0,5 LKFS;
[00234] Em algumas modalidades, o elemento de núcleo de um segmento de metadados em um segmento de bit residual ou em um campo de dados auxiliares (ou "addbsi") de um quadro de um fluxo de bits AC-3 ou um fluxo de bits E-AC-3 compreende um cabeçalho de segmento de metadados (tipicamente incluindo valores de identificação, por exemplo, a versão) e após o cabeçalho do segmento de metadados: valores indicativos do fato de os dados da impressão digital serem (ou de outros valores de proteção serem) incluídos para os metadados do segmento de metadados, valores indicativos do fato de os dados externos (relacionados aos dados de áudio correspondentes aos metadados do segmento de metadados) existir, ID da carga útil e valores de configuração de carga útil para cada tipo de metadados (por exemplo, PIM e/ou SSM e/ou LPSM e/ou metadados de um tipo) identificado pelo elemento de núcleo e valores de proteção para pelo menos um tipo de metadado identificado pelo cabeçalho de segmento de metadados (ou outros elementos de núcleo do segmento de metadados). A(s) carga(s) útil(eis) de metadados seguem-se ao cabeçalho de segmento de metadados e são (em alguns casos) aninhados dentro dos elementos de núcleo do segmento de metadados.
[00235] Modalidades da presente invenção podem ser implementadas em hardware, firmware ou software, ou uma combinação de ambos (por exemplo, como um arranjo de lógica programável). Salvo indicação contrária, os algoritmos ou processos incluídos como parte da invenção não são inerentemente relacionados a nenhum computador específico ou outros aparatos. Em particular, várias máquinas de finalidade geral podem ser usadas com programas escritos conforme os ensinamentos deste documento, ou pode ser mais conveniente construir aparados mais especializados (por exemplo, circuitos integrados) para executar as etapas necessárias do processo. Assim, a invenção pode ser implementada em um ou mais programas de computador sendo executados em um ou mais sistemas de computador programáveis (por exemplo, uma implementação de quaisquer dos elementos da Fig. 1 ou do codificador 100 da Fig. 2 (ou um elemento do mesmo), ou do decodificador 200 da Fig. 3 (ou um elemento do mesmo) ou pós-processador 300 da Fig. 3 (ou um elemento do mesmo) cada um compreendendo ao menos um processador, ao menos um sistema de armazenamento de dados (incluindo memória volátil e não-volátil e/ou elementos de armazenamento), ao menos um dispositivo ou porta de entrada e ao menos um dispositivo ou porta de saída. O código do programa é aplicado para introduzir dados para executar as funções aqui descritas e gerar informações de saída. As informações de saída são aplicadas a um ou mais dispositivos, de uma maneira conhecida.
[00236] Cada um desses programas pode ser implementado em qualquer linguagem de computador desejada (incluindo linguagens de máquina, de conjunto ou processual de alto nível, de lógica ou de programação orientada por objeto) para se comunicar com um sistema de computador. Em qualquer dos casos, a linguagem pode ser uma linguagem compilada ou interpretada.
[00237] Por exemplo, quando implementadas pelas sequências de instruções de software de computador, várias funções e etapas das modalidades da invenção podem ser implementadas por sequências de instrução de software de multitratamento sendo executadas em um hardware de processamento de sinal digital, em cujo caso os vários dispositivos, etapas e funções das modalidades podem corresponder a porções das instruções de software.
[00238] Cada programa de computador desses é armazenado ou baixado, de preferência, em um meio ou dispositivo de armazenamento (por exemplo, meio ou memória de estado sólido, ou meio ótico ou magnético) legível por um computador programável de finalidade especial ou geral para configurar e operar o computador quando o dispositivo ou meio de armazenamento for lido pelo sistema de computador para realizar os procedimentos descritos aqui. O sistema inventivo também pode ser implementado com um meio de armazenamento legível por computador, configurado com (isto é, para armazenamento) um programa de computador, onde o meio de armazenamento configurado dessa maneira faz com que um sistema de computador opere de uma maneira específica e pré-definida para executar as funções descritas aqui.
[00239] Um número de modalidades da invenção foi descrito. No entanto, será entendido que várias modificações podem ser feitas sem se afastar do espírito e escopo da invenção. Muitas modificações e variações da presente invenção são possíveis à luz dos ensinamentos acima. Portanto, deve-se entender que, no âmbito das reivindicações acrescentadas, a invenção pode ser praticada de outra forma que não como aqui especificamente descrito.
Claims (9)
1. Método para gerar um fluxo de bits de áudio codificado, o método caracterizado pelo fato de que compreende: gerar uma sequência de quadros de um fluxo de bits de áudio codificado, em que o fluxo de bits de áudio codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, o fluxo de bits de áudio codificado sendo indicativo de pelo menos um programa de áudio, cada quadro de pelo menos um subconjunto dos referidos quadros incluindo i) metadados de informação de programa em pelo menos um segmento de metadados de pelo menos um campo de salto do quadro e ii) dados de áudio em pelo menos um outro segmento do quadro, o método caracterizado pelo fato de que: o segmento de metadados inclui pelo menos uma carga útil de metadados, a referida carga útil de metadados compreendendo: um cabeçalho; e após o cabeçalho, pelo menos alguns dos metadados de informações do programa, em que os metadados de informações do programa são indicativos de pelo menos uma propriedade ou característica de conteúdo de áudio de pelo menos um programa de áudio, em que os metadados de informações do programa são indicativos de informações sobre o pelo menos um programa de áudio que não é transportado em outras partes do bitstream de áudio codificado, e os metadados de informações do programa não incluem metadados de estado de processamento de volume, em que metadados de estado de processamento de volume incluem pelo menos um de: um valor de indicação de diálogo indicando se o conteúdo de áudio correspondente indica diálogo, um valor de conformidade de regulação de volume indicando se os dados de áudio correspondentes estão em conformidade com um conjunto de regulação de volume, um valor de processamento de volume indicando pelo menos um tipo de processamento de volume que foi realizado nos dados de áudio correspondentes e um valor de volume indicando pelo menos uma característica de volume dos dados de áudio correspondentes.
2. Método para decodificar um fluxo de bits de áudio codificado, o método incluindo etapas de: receber um fluxo de bits de áudio codificado, em que o fluxo de bits de áudio codificado é um fluxo de bits AC-3 ou um fluxo de bits E-AC-3, em que o fluxo de bits de áudio codificado compreende uma sequência de quadros e é indicativo de pelo menos um programa de áudio, cada um dos quadros inclui pelo menos um segmento de dados de áudio e cada referido segmento de dados de áudio inclui dados de áudio, caracterizado pelo fato de que cada quadro de pelo menos um subconjunto dos quadros incluir pelo menos um campo de salto compreendendo pelo menos um segmento de metadados, o segmento de metadados incluir pelo menos uma carga útil de metadados e a referida carga útil de metadados compreender: um cabeçalho; e após o cabeçalho, metadados de informações do programa, em que os metadados de informações do programa são indicativos de pelo menos uma propriedade ou característica do conteúdo de áudio do programa de áudio; e extrair os dados de áudio e os metadados de informações do programa do fluxo de bits de áudio codificado, em que os metadados de informações do programa são indicativos de informações sobre o pelo menos um programa de áudio que não é transportado em outras partes do fluxo de bits de áudio codificado, e os metadados de informações do programa não incluem metadados de estado de processamento de volume, em que metadados de estado de processamento de volume incluem pelo menos um de: um valor de indicação de diálogo indicando se o conteúdo de áudio correspondente indica diálogo, um valor de conformidade de regulação de volume indicando se os dados de áudio correspondentes estão em conformidade com um conjunto de regulação de volume, um valor de processamento de volume indicando pelo menos um tipo de processamento de volume que foi realizado nos dados de áudio correspondentes e um valor de volume indicando pelo menos uma característica de volume dos dados de áudio correspondentes.
3. Método, de acordo com a reivindicação 1 ou método da reivindicação 2, caracterizado pelo fato de que o segmento de metadados inclui uma carga útil de metadados de informações de programa, a carga útil de metadados de informações de programa compreendendo: um cabeçalho de metadados de informações de programa; e após o cabeçalho de metadados de informação de programa, os referidos metadados de informação de programa, os referidos metadados de informação de programa incluindo metadados de canal ativo indicativos de cada canal não silencioso e cada canal silencioso do programa.
4. Método de acordo com a reivindicação 1 ou método de acordo com a reivindicação 2, caracterizado pelo fato de que os metadados de informações do programa também incluem pelo menos um dentre: metadados do estado de processamento de submistura indicativos do fato de o programa ter sido submisturado e, se for o caso, um tipo de submistura que foi aplicado ao programa; metadados do estado de processamento de mistura indicativos do fato de o programa ter sido misturado e, se for o caso, um tipo de mistura que foi aplicado ao programa; metadados do estado de pré-processamento indicativos do fato de o pré-processamento ter sido realizado sobre os conteúdos de áudio do quadro e, se for o caso, um tipo de pré-processamento que foi executado sobre os conteúdos de áudio referidos; ou extensão espectral de processamento ou canal de acoplamento de metadados indicativo de se o processamento de extensão espectral ou o acoplamento de canal foi aplicado ao programa e, se for o caso, uma faixa de frequência a que a extensão espectral ou o acoplamento de canal foi aplicado.
5. Método, de acordo com a reivindicação 1 ou método de acordo com a reivindicação 2, caracterizado pelo fato de que o pelo menos um programa de áudio tem pelo menos um subfluxo independente de conteúdo de áudio e o segmento de metadados inclui uma carga de metadados de estrutura de subfluxo, a referida carga de metadados de estrutura de subfluxo compreendendo: um cabeçalho de carga útil de metadados de estrutura substream; e após o cabeçalho de carga útil de metadados da estrutura de subfluxo, metadados de subfluxo independentes indicativos de número de subfluxos independentes do programa e metadados de subfluxo dependentes indicativos de se cada subfluxo independente do programa tem pelo menos um subfluxo dependente associado.
6. Método, de acordo com a reivindicação 1 ou método de acordo com a reivindicação 2, caracterizado pelo fato de que o segmento de metadados inclui: um cabeçalho de segmento de metadados; após o cabeçalho do segmento de metadados, pelo menos um valor de proteção útil para pelo menos um dentre descriptografia, autenticação ou validação dos metadados de informações do programa ou os dados de áudio correspondentes aos referidos metadados de informações do programa; e após o cabeçalho do segmento de metadados, a identificação de carga útil de metadados e os valores de configuração de carga útil, em que a carga útil de metadados segue os valores de identificação de carga útil de metadados e de configuração de carga útil.
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o cabeçalho do segmento de metadados inclui uma palavra de sincronização que identifica o início do segmento de metadados e pelo menos um valor de identificação após a palavra de sincronização e o cabeçalho da carga útil de metadados inclui pelo menos um valor de identificação.
8. Meio de armazenamento legível por computador, tendo armazenado nele um programa de computador configurado para fazer com que um sistema de computador execute o método de acordo com qualquer uma das reivindicações 1 a 7.
9. Unidade de processamento de áudio, caracterizada pelo fato de que compreende: uma memória buffer (109, 110, 201, 301); e pelo menos um subsistema de processamento acoplado à memória buffer e configurado para executar o método de acordo com qualquer uma das reivindicações 1 a 7.
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
BR122017011368-2A BR122017011368B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122016001090-2A BR122016001090B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122017012321-1A BR122017012321B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122020017897-3A BR122020017897B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122020017896-5A BR122020017896B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361836865P | 2013-06-19 | 2013-06-19 | |
US61/836,865 | 2013-06-19 | ||
PCT/US2014/042168 WO2014204783A1 (en) | 2013-06-19 | 2014-06-12 | Audio encoder and decoder with program information or substream structure metadata |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112015019435A2 BR112015019435A2 (pt) | 2017-07-18 |
BR112015019435B1 true BR112015019435B1 (pt) | 2022-05-17 |
Family
ID=49112574
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112015019435-4A BR112015019435B1 (pt) | 2013-06-19 | 2014-06-12 | Método para gerar um fluxo de bits de áudio codificado, método para decodificar um fluxo de bits de áudio codificado, meio de armazenamento e unidade de processamento de áudio |
BR122016001090-2A BR122016001090B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122020017896-5A BR122020017896B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122017011368-2A BR122017011368B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122020017897-3A BR122020017897B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122017012321-1A BR122017012321B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
Family Applications After (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR122016001090-2A BR122016001090B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122020017896-5A BR122020017896B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122017011368-2A BR122017011368B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122020017897-3A BR122020017897B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
BR122017012321-1A BR122017012321B1 (pt) | 2013-06-19 | 2014-06-12 | Codificador e decodificador de áudio com informações de programa ou metadados de estrutura de substream |
Country Status (24)
Country | Link |
---|---|
US (7) | US10037763B2 (pt) |
EP (3) | EP2954515B1 (pt) |
JP (8) | JP3186472U (pt) |
KR (7) | KR200478147Y1 (pt) |
CN (10) | CN110473559B (pt) |
AU (1) | AU2014281794B9 (pt) |
BR (6) | BR112015019435B1 (pt) |
CA (1) | CA2898891C (pt) |
CL (1) | CL2015002234A1 (pt) |
DE (1) | DE202013006242U1 (pt) |
ES (2) | ES2674924T3 (pt) |
FR (1) | FR3007564B3 (pt) |
HK (3) | HK1204135A1 (pt) |
IL (1) | IL239687A (pt) |
IN (1) | IN2015MN01765A (pt) |
MX (5) | MX342981B (pt) |
MY (2) | MY171737A (pt) |
PL (1) | PL2954515T3 (pt) |
RU (4) | RU2619536C1 (pt) |
SG (3) | SG10201604619RA (pt) |
TR (1) | TR201808580T4 (pt) |
TW (11) | TWM487509U (pt) |
UA (1) | UA111927C2 (pt) |
WO (1) | WO2014204783A1 (pt) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN109903776B (zh) | 2013-09-12 | 2024-03-01 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
US9621963B2 (en) | 2014-01-28 | 2017-04-11 | Dolby Laboratories Licensing Corporation | Enabling delivery and synchronization of auxiliary content associated with multimedia data using essence-and-version identifier |
SG11201607940WA (en) * | 2014-03-25 | 2016-10-28 | Fraunhofer Ges Forschung | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control |
JP6607183B2 (ja) | 2014-07-18 | 2019-11-20 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
PL3509064T3 (pl) * | 2014-09-12 | 2022-11-14 | Sony Group Corporation | Urządzenie odbiorcze strumieni audio i sposób |
CN113037767A (zh) * | 2014-09-12 | 2021-06-25 | 索尼公司 | 发送设备、发送方法、接收设备和接收方法 |
EP3467827B1 (en) | 2014-10-01 | 2020-07-29 | Dolby International AB | Decoding an encoded audio signal using drc profiles |
US10089991B2 (en) * | 2014-10-03 | 2018-10-02 | Dolby International Ab | Smart access to personalized audio |
JP6812517B2 (ja) * | 2014-10-03 | 2021-01-13 | ドルビー・インターナショナル・アーベー | パーソナル化されたオーディオへのスマート・アクセス |
EP3518236B8 (en) * | 2014-10-10 | 2022-05-25 | Dolby Laboratories Licensing Corporation | Transmission-agnostic presentation-based program loudness |
WO2016064150A1 (ko) | 2014-10-20 | 2016-04-28 | 엘지전자 주식회사 | 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법 |
TWI631835B (zh) | 2014-11-12 | 2018-08-01 | 弗勞恩霍夫爾協會 | 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器 |
CN107211200B (zh) | 2015-02-13 | 2020-04-17 | 三星电子株式会社 | 用于发送/接收媒体数据的方法和设备 |
EP3240195B1 (en) * | 2015-02-14 | 2020-04-01 | Samsung Electronics Co., Ltd. | Method and apparatus for decoding audio bitstream including system data |
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
EP3288025A4 (en) | 2015-04-24 | 2018-11-07 | Sony Corporation | Transmission device, transmission method, reception device, and reception method |
PT3311379T (pt) * | 2015-06-17 | 2023-01-06 | Fraunhofer Ges Forschung | Controlo de intensidade sonora para interatividade de utilizador em sistemas de codificação de áudio |
TWI607655B (zh) * | 2015-06-19 | 2017-12-01 | Sony Corp | Coding apparatus and method, decoding apparatus and method, and program |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
EP3332310B1 (en) | 2015-08-05 | 2019-05-29 | Dolby Laboratories Licensing Corporation | Low bit rate parametric encoding and transport of haptic-tactile signals |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
CN105468711A (zh) * | 2015-11-19 | 2016-04-06 | 中央电视台 | 一种音频处理方法及装置 |
US10573324B2 (en) | 2016-02-24 | 2020-02-25 | Dolby International Ab | Method and system for bit reservoir control in case of varying metadata |
CN105828272A (zh) * | 2016-04-28 | 2016-08-03 | 乐视控股(北京)有限公司 | 音频信号处理方法和装置 |
US10015612B2 (en) * | 2016-05-25 | 2018-07-03 | Dolby Laboratories Licensing Corporation | Measurement, verification and correction of time alignment of multiple audio channels and associated metadata |
AU2018208522B2 (en) | 2017-01-10 | 2020-07-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing a decoded audio signal, method for providing an encoded audio signal, audio stream, audio stream provider and computer program using a stream identifier |
US10878879B2 (en) * | 2017-06-21 | 2020-12-29 | Mediatek Inc. | Refresh control method for memory system to perform refresh action on all memory banks of the memory system within refresh window |
CN115691519A (zh) | 2018-02-22 | 2023-02-03 | 杜比国际公司 | 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备 |
CN108616313A (zh) * | 2018-04-09 | 2018-10-02 | 电子科技大学 | 一种基于超声波的旁路信息安全隐蔽传送方法 |
US10937434B2 (en) * | 2018-05-17 | 2021-03-02 | Mediatek Inc. | Audio output monitoring for failure detection of warning sound playback |
CN112438047B (zh) | 2018-06-26 | 2022-08-09 | 华为技术有限公司 | 用于点云译码的高级语法设计 |
CN112384976B (zh) * | 2018-07-12 | 2024-10-11 | 杜比国际公司 | 动态eq |
CN109284080B (zh) * | 2018-09-04 | 2021-01-05 | Oppo广东移动通信有限公司 | 音效调整方法、装置、电子设备以及存储介质 |
WO2020123424A1 (en) * | 2018-12-13 | 2020-06-18 | Dolby Laboratories Licensing Corporation | Dual-ended media intelligence |
WO2020164752A1 (en) * | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transmitter processor, audio receiver processor and related methods and computer programs |
GB2582910A (en) * | 2019-04-02 | 2020-10-14 | Nokia Technologies Oy | Audio codec extension |
JP7314398B2 (ja) | 2019-08-15 | 2023-07-25 | ドルビー・インターナショナル・アーベー | 変更オーディオビットストリームの生成及び処理のための方法及び装置 |
CN114303392A (zh) * | 2019-08-30 | 2022-04-08 | 杜比实验室特许公司 | 多声道音频信号的声道标识 |
US11533560B2 (en) | 2019-11-15 | 2022-12-20 | Boomcloud 360 Inc. | Dynamic rendering device metadata-informed audio enhancement system |
US11380344B2 (en) | 2019-12-23 | 2022-07-05 | Motorola Solutions, Inc. | Device and method for controlling a speaker according to priority data |
CN112634907B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 用于语音识别的音频数据处理方法及装置 |
CN113990355A (zh) * | 2021-09-18 | 2022-01-28 | 赛因芯微(北京)电子科技有限公司 | 音频节目元数据和产生方法、电子设备及存储介质 |
CN114051194A (zh) * | 2021-10-15 | 2022-02-15 | 赛因芯微(北京)电子科技有限公司 | 一种音频轨道元数据和生成方法、电子设备及存储介质 |
US20230117444A1 (en) * | 2021-10-19 | 2023-04-20 | Microsoft Technology Licensing, Llc | Ultra-low latency streaming of real-time media |
CN114363791A (zh) * | 2021-11-26 | 2022-04-15 | 赛因芯微(北京)电子科技有限公司 | 串行音频元数据生成方法、装置、设备及存储介质 |
WO2023205025A2 (en) * | 2022-04-18 | 2023-10-26 | Dolby Laboratories Licensing Corporation | Multisource methods and systems for coded media |
Family Cites Families (131)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5297236A (en) * | 1989-01-27 | 1994-03-22 | Dolby Laboratories Licensing Corporation | Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder |
JPH0746140Y2 (ja) | 1991-05-15 | 1995-10-25 | 岐阜プラスチック工業株式会社 | かん水栽培方法において使用する水位調整タンク |
JPH0746140A (ja) * | 1993-07-30 | 1995-02-14 | Toshiba Corp | 符号化装置及び復号化装置 |
US6611607B1 (en) * | 1993-11-18 | 2003-08-26 | Digimarc Corporation | Integrating digital watermarks in multimedia content |
US5784532A (en) * | 1994-02-16 | 1998-07-21 | Qualcomm Incorporated | Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system |
JP3186472B2 (ja) | 1994-10-04 | 2001-07-11 | キヤノン株式会社 | ファクシミリ装置およびその記録紙選択方法 |
US7224819B2 (en) * | 1995-05-08 | 2007-05-29 | Digimarc Corporation | Integrating digital watermarks in multimedia content |
JPH11234068A (ja) | 1998-02-16 | 1999-08-27 | Mitsubishi Electric Corp | ディジタル音声放送受信機 |
JPH11330980A (ja) * | 1998-05-13 | 1999-11-30 | Matsushita Electric Ind Co Ltd | 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体 |
US6530021B1 (en) * | 1998-07-20 | 2003-03-04 | Koninklijke Philips Electronics N.V. | Method and system for preventing unauthorized playback of broadcasted digital data streams |
JP3580777B2 (ja) * | 1998-12-28 | 2004-10-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置 |
US6909743B1 (en) | 1999-04-14 | 2005-06-21 | Sarnoff Corporation | Method for generating and processing transition streams |
US8341662B1 (en) * | 1999-09-30 | 2012-12-25 | International Business Machine Corporation | User-controlled selective overlay in a streaming media |
KR100865247B1 (ko) * | 2000-01-13 | 2008-10-27 | 디지맥 코포레이션 | 메타데이터를 인증하고 매체 신호들의 워터마크들 내에 메타데이터를 임베딩하는 방법 |
US7450734B2 (en) * | 2000-01-13 | 2008-11-11 | Digimarc Corporation | Digital asset management, targeted searching and desktop searching using digital watermarks |
US7266501B2 (en) * | 2000-03-02 | 2007-09-04 | Akiba Electronics Institute Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US8091025B2 (en) * | 2000-03-24 | 2012-01-03 | Digimarc Corporation | Systems and methods for processing content objects |
US7392287B2 (en) * | 2001-03-27 | 2008-06-24 | Hemisphere Ii Investment Lp | Method and apparatus for sharing information using a handheld device |
GB2373975B (en) | 2001-03-30 | 2005-04-13 | Sony Uk Ltd | Digital audio signal processing |
US6807528B1 (en) | 2001-05-08 | 2004-10-19 | Dolby Laboratories Licensing Corporation | Adding data to a compressed data frame |
AUPR960601A0 (en) * | 2001-12-18 | 2002-01-24 | Canon Kabushiki Kaisha | Image protection |
US7535913B2 (en) * | 2002-03-06 | 2009-05-19 | Nvidia Corporation | Gigabit ethernet adapter supporting the iSCSI and IPSEC protocols |
JP3666463B2 (ja) * | 2002-03-13 | 2005-06-29 | 日本電気株式会社 | 光導波路デバイスおよび光導波路デバイスの製造方法 |
AU2003207887A1 (en) * | 2002-03-27 | 2003-10-08 | Koninklijke Philips Electronics N.V. | Watermaking a digital object with a digital signature |
JP4355156B2 (ja) | 2002-04-16 | 2009-10-28 | パナソニック株式会社 | 画像復号化方法及び画像復号化装置 |
US7072477B1 (en) | 2002-07-09 | 2006-07-04 | Apple Computer, Inc. | Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US7398207B2 (en) * | 2003-08-25 | 2008-07-08 | Time Warner Interactive Video Group, Inc. | Methods and systems for determining audio loudness levels in programming |
CA2562137C (en) | 2004-04-07 | 2012-11-27 | Nielsen Media Research, Inc. | Data insertion apparatus and methods for use with compressed audio/video data |
GB0407978D0 (en) * | 2004-04-08 | 2004-05-12 | Holset Engineering Co | Variable geometry turbine |
US8131134B2 (en) | 2004-04-14 | 2012-03-06 | Microsoft Corporation | Digital media universal elementary stream |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7624021B2 (en) | 2004-07-02 | 2009-11-24 | Apple Inc. | Universal container for audio data |
US8199933B2 (en) * | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
AU2005299410B2 (en) * | 2004-10-26 | 2011-04-07 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US9639554B2 (en) * | 2004-12-17 | 2017-05-02 | Microsoft Technology Licensing, Llc | Extensible file system |
US7729673B2 (en) | 2004-12-30 | 2010-06-01 | Sony Ericsson Mobile Communications Ab | Method and apparatus for multichannel signal limiting |
CN101156209B (zh) * | 2005-04-07 | 2012-11-14 | 松下电器产业株式会社 | 记录媒体、再现装置、记录方法、再现方法 |
JP4676493B2 (ja) | 2005-04-07 | 2011-04-27 | パナソニック株式会社 | 記録媒体、再生装置、記録方法 |
TW200638335A (en) * | 2005-04-13 | 2006-11-01 | Dolby Lab Licensing Corp | Audio metadata verification |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
KR20070025905A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법 |
CN101292428B (zh) * | 2005-09-14 | 2013-02-06 | Lg电子株式会社 | 用于编码/解码的方法和装置 |
WO2007067168A1 (en) * | 2005-12-05 | 2007-06-14 | Thomson Licensing | Watermarking encoded content |
US8929870B2 (en) * | 2006-02-27 | 2015-01-06 | Qualcomm Incorporated | Methods, apparatus, and system for venue-cast |
US8244051B2 (en) * | 2006-03-15 | 2012-08-14 | Microsoft Corporation | Efficient encoding of alternative graphic sets |
US20080025530A1 (en) | 2006-07-26 | 2008-01-31 | Sony Ericsson Mobile Communications Ab | Method and apparatus for normalizing sound playback loudness |
US8948206B2 (en) * | 2006-08-31 | 2015-02-03 | Telefonaktiebolaget Lm Ericsson (Publ) | Inclusion of quality of service indication in header compression channel |
JP5337941B2 (ja) * | 2006-10-16 | 2013-11-06 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・パラメータ変換のための装置および方法 |
JP5254983B2 (ja) | 2007-02-14 | 2013-08-07 | エルジー エレクトロニクス インコーポレイティド | オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置 |
BRPI0807703B1 (pt) * | 2007-02-26 | 2020-09-24 | Dolby Laboratories Licensing Corporation | Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador |
JP5220840B2 (ja) * | 2007-03-30 | 2013-06-26 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート | マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法 |
CN101743748B (zh) * | 2007-04-04 | 2013-01-09 | 数码士有限公司 | 比特流解码设备以及具有解码解决方案的方法 |
JP4750759B2 (ja) * | 2007-06-25 | 2011-08-17 | パナソニック株式会社 | 映像音声再生装置 |
US7961878B2 (en) * | 2007-10-15 | 2011-06-14 | Adobe Systems Incorporated | Imparting cryptographic information in network communications |
US8615316B2 (en) * | 2008-01-23 | 2013-12-24 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
US9143329B2 (en) * | 2008-01-30 | 2015-09-22 | Adobe Systems Incorporated | Content integrity and incremental security |
CN101960865A (zh) * | 2008-03-03 | 2011-01-26 | 诺基亚公司 | 用于捕获和呈现多个音频声道的装置 |
US20090253457A1 (en) * | 2008-04-04 | 2009-10-08 | Apple Inc. | Audio signal processing for certification enhancement in a handheld wireless communications device |
KR100933003B1 (ko) * | 2008-06-20 | 2009-12-21 | 드리머 | Bd-j 기반 채널 서비스 제공 방법 및 이를 실현시키기위한 프로그램을 기록한 컴퓨터로 판독 가능한 기록 매체 |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
US8315396B2 (en) | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US8374361B2 (en) * | 2008-07-29 | 2013-02-12 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
JP2010081397A (ja) | 2008-09-26 | 2010-04-08 | Ntt Docomo Inc | データ受信端末、データ配信サーバ、データ配信システム、およびデータ配信方法 |
JP2010082508A (ja) | 2008-09-29 | 2010-04-15 | Sanyo Electric Co Ltd | 振動モータおよびそれを用いた携帯端末装置 |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
EP4293665A3 (en) * | 2008-10-29 | 2024-01-10 | Dolby International AB | Signal clipping protection using pre-existing audio gain metadata |
JP2010135906A (ja) | 2008-12-02 | 2010-06-17 | Sony Corp | クリップ防止装置及びクリップ防止方法 |
EP2205007B1 (en) * | 2008-12-30 | 2019-01-09 | Dolby International AB | Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction |
US20120065753A1 (en) * | 2009-02-03 | 2012-03-15 | Samsung Electronics Co., Ltd. | Audio signal encoding and decoding method, and apparatus for same |
US8302047B2 (en) * | 2009-05-06 | 2012-10-30 | Texas Instruments Incorporated | Statistical static timing analysis in non-linear regions |
WO2010143088A1 (en) * | 2009-06-08 | 2010-12-16 | Nds Limited | Secure association of metadata with content |
EP2273495A1 (en) * | 2009-07-07 | 2011-01-12 | TELEFONAKTIEBOLAGET LM ERICSSON (publ) | Digital audio signal processing system |
TWI405113B (zh) | 2009-10-09 | 2013-08-11 | Egalax Empia Technology Inc | 分析位置的方法與裝置 |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
UA100353C2 (uk) | 2009-12-07 | 2012-12-10 | Долбі Лабораторіс Лайсензін Корпорейшн | Декодування цифрових потоків кодованого багатоканального аудіосигналу з використанням адаптивного гібридного перетворення |
TWI447709B (zh) * | 2010-02-11 | 2014-08-01 | Dolby Lab Licensing Corp | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
TWI443646B (zh) * | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
TWI525987B (zh) * | 2010-03-10 | 2016-03-11 | 杜比實驗室特許公司 | 在單一播放模式中組合響度量測的系統 |
PL2381574T3 (pl) | 2010-04-22 | 2015-05-29 | Fraunhofer Ges Forschung | Urządzenie i sposób do modyfikacji wejściowego sygnału audio |
WO2011141772A1 (en) * | 2010-05-12 | 2011-11-17 | Nokia Corporation | Method and apparatus for processing an audio signal based on an estimated loudness |
US8948406B2 (en) * | 2010-08-06 | 2015-02-03 | Samsung Electronics Co., Ltd. | Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium |
JP5650227B2 (ja) * | 2010-08-23 | 2015-01-07 | パナソニック株式会社 | 音声信号処理装置及び音声信号処理方法 |
JP5903758B2 (ja) | 2010-09-08 | 2016-04-13 | ソニー株式会社 | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
CN103250206B (zh) | 2010-10-07 | 2015-07-15 | 弗朗霍夫应用科学研究促进协会 | 用于比特流域中的编码音频帧的强度估计的装置及方法 |
TWI733583B (zh) * | 2010-12-03 | 2021-07-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US8989884B2 (en) | 2011-01-11 | 2015-03-24 | Apple Inc. | Automatic audio configuration based on an audio output device |
CN102610229B (zh) * | 2011-01-21 | 2013-11-13 | 安凯(广州)微电子技术有限公司 | 一种音频动态范围压缩方法、装置及设备 |
JP2012235310A (ja) | 2011-04-28 | 2012-11-29 | Sony Corp | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
JP5856295B2 (ja) | 2011-07-01 | 2016-02-09 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 適応的オーディオシステムのための同期及びスイッチオーバ方法及びシステム |
KR102003191B1 (ko) | 2011-07-01 | 2019-07-24 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법 |
US8965774B2 (en) | 2011-08-23 | 2015-02-24 | Apple Inc. | Automatic detection of audio compression parameters |
JP5845760B2 (ja) | 2011-09-15 | 2016-01-20 | ソニー株式会社 | 音声処理装置および方法、並びにプログラム |
JP2013102411A (ja) | 2011-10-14 | 2013-05-23 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
KR102172279B1 (ko) * | 2011-11-14 | 2020-10-30 | 한국전자통신연구원 | 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법 |
US9373334B2 (en) | 2011-11-22 | 2016-06-21 | Dolby Laboratories Licensing Corporation | Method and system for generating an audio metadata quality score |
ES2565394T3 (es) | 2011-12-15 | 2016-04-04 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato, método y programa informático para evitar artefactos de recorte |
WO2013118476A1 (ja) * | 2012-02-10 | 2013-08-15 | パナソニック株式会社 | 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法 |
WO2013150340A1 (en) * | 2012-04-05 | 2013-10-10 | Nokia Corporation | Adaptive audio signal filtering |
TWI517142B (zh) | 2012-07-02 | 2016-01-11 | Sony Corp | Audio decoding apparatus and method, audio coding apparatus and method, and program |
US8793506B2 (en) * | 2012-08-31 | 2014-07-29 | Intel Corporation | Mechanism for facilitating encryption-free integrity protection of storage data at computing systems |
US20140074783A1 (en) * | 2012-09-09 | 2014-03-13 | Apple Inc. | Synchronizing metadata across devices |
EP2757558A1 (en) | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
IL287218B (en) * | 2013-01-21 | 2022-07-01 | Dolby Laboratories Licensing Corp | Audio encoder and decoder with program loudness and boundary metada |
RU2639663C2 (ru) | 2013-01-28 | 2017-12-21 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и устройство для нормализованного проигрывания аудио медиаданных с вложенными метаданными громкости и без них на новых медиаустройствах |
US9372531B2 (en) * | 2013-03-12 | 2016-06-21 | Gracenote, Inc. | Detecting an event within interactive media including spatialized multi-channel audio content |
US9559651B2 (en) | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
US9607624B2 (en) | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
JP2015050685A (ja) | 2013-09-03 | 2015-03-16 | ソニー株式会社 | オーディオ信号処理装置および方法、並びにプログラム |
US9875746B2 (en) | 2013-09-19 | 2018-01-23 | Sony Corporation | Encoding device and method, decoding device and method, and program |
US9300268B2 (en) | 2013-10-18 | 2016-03-29 | Apple Inc. | Content aware audio ducking |
AU2014339086B2 (en) | 2013-10-22 | 2017-12-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
US9240763B2 (en) | 2013-11-25 | 2016-01-19 | Apple Inc. | Loudness normalization based on user feedback |
US9276544B2 (en) | 2013-12-10 | 2016-03-01 | Apple Inc. | Dynamic range control gain encoding |
AU2014371411A1 (en) | 2013-12-27 | 2016-06-23 | Sony Corporation | Decoding device, method, and program |
US9608588B2 (en) | 2014-01-22 | 2017-03-28 | Apple Inc. | Dynamic range control with large look-ahead |
US9654076B2 (en) | 2014-03-25 | 2017-05-16 | Apple Inc. | Metadata for ducking control |
SG11201607940WA (en) | 2014-03-25 | 2016-10-28 | Fraunhofer Ges Forschung | Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control |
KR101967810B1 (ko) | 2014-05-28 | 2019-04-11 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 데이터 프로세서 및 사용자 제어 데이터의 오디오 디코더들과 렌더러들로의 전송 |
RU2019122989A (ru) | 2014-05-30 | 2019-09-16 | Сони Корпорейшн | Устройство обработки информации и способ обработки информации |
US20180165358A1 (en) | 2014-06-30 | 2018-06-14 | Sony Corporation | Information processing apparatus and information processing method |
TWI631835B (zh) | 2014-11-12 | 2018-08-01 | 弗勞恩霍夫爾協會 | 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器 |
US20160315722A1 (en) | 2015-04-22 | 2016-10-27 | Apple Inc. | Audio stem delivery and control |
US10109288B2 (en) | 2015-05-27 | 2018-10-23 | Apple Inc. | Dynamic range and peak control in audio using nonlinear filters |
ES2870749T3 (es) | 2015-05-29 | 2021-10-27 | Fraunhofer Ges Forschung | Dispositivo y procedimiento para el control de volumen |
PT3311379T (pt) | 2015-06-17 | 2023-01-06 | Fraunhofer Ges Forschung | Controlo de intensidade sonora para interatividade de utilizador em sistemas de codificação de áudio |
US9837086B2 (en) | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US9934790B2 (en) | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US10341770B2 (en) | 2015-09-30 | 2019-07-02 | Apple Inc. | Encoded audio metadata-based loudness equalization and dynamic equalization during DRC |
-
2013
- 2013-06-26 TW TW102211969U patent/TWM487509U/zh not_active IP Right Cessation
- 2013-07-10 DE DE202013006242U patent/DE202013006242U1/de not_active Expired - Lifetime
- 2013-07-10 FR FR1356768A patent/FR3007564B3/fr not_active Expired - Lifetime
- 2013-07-26 JP JP2013004320U patent/JP3186472U/ja not_active Expired - Lifetime
- 2013-07-31 CN CN201910832004.9A patent/CN110473559B/zh active Active
- 2013-07-31 CN CN201910832003.4A patent/CN110491396B/zh active Active
- 2013-07-31 CN CN201910831687.6A patent/CN110600043A/zh active Pending
- 2013-07-31 CN CN201320464270.9U patent/CN203415228U/zh not_active Expired - Lifetime
- 2013-07-31 CN CN201310329128.8A patent/CN104240709B/zh active Active
- 2013-07-31 CN CN201910831662.6A patent/CN110491395B/zh active Active
- 2013-07-31 CN CN201910831663.0A patent/CN110459228B/zh active Active
- 2013-08-19 KR KR2020130006888U patent/KR200478147Y1/ko active IP Right Grant
-
2014
- 2014-05-29 TW TW105119765A patent/TWI605449B/zh active
- 2014-05-29 TW TW112101558A patent/TWI831573B/zh active
- 2014-05-29 TW TW105119766A patent/TWI588817B/zh active
- 2014-05-29 TW TW109121184A patent/TWI719915B/zh active
- 2014-05-29 TW TW106135135A patent/TWI647695B/zh active
- 2014-05-29 TW TW110102543A patent/TWI756033B/zh active
- 2014-05-29 TW TW106111574A patent/TWI613645B/zh active
- 2014-05-29 TW TW111102327A patent/TWI790902B/zh active
- 2014-05-29 TW TW107136571A patent/TWI708242B/zh active
- 2014-05-29 TW TW103118801A patent/TWI553632B/zh active
- 2014-06-12 RU RU2016119396A patent/RU2619536C1/ru active
- 2014-06-12 CN CN201610652166.0A patent/CN106297811B/zh active Active
- 2014-06-12 RU RU2015133936/08A patent/RU2589370C1/ru active
- 2014-06-12 BR BR112015019435-4A patent/BR112015019435B1/pt active IP Right Grant
- 2014-06-12 MX MX2015010477A patent/MX342981B/es active IP Right Grant
- 2014-06-12 KR KR1020227003239A patent/KR102659763B1/ko active IP Right Grant
- 2014-06-12 EP EP14813862.1A patent/EP2954515B1/en active Active
- 2014-06-12 MX MX2021012890A patent/MX2021012890A/es unknown
- 2014-06-12 KR KR1020157021887A patent/KR101673131B1/ko active IP Right Grant
- 2014-06-12 EP EP20156303.8A patent/EP3680900A1/en active Pending
- 2014-06-12 CA CA2898891A patent/CA2898891C/en active Active
- 2014-06-12 MY MYPI2015702460A patent/MY171737A/en unknown
- 2014-06-12 RU RU2016119397A patent/RU2624099C1/ru active
- 2014-06-12 KR KR1020247012621A patent/KR20240055880A/ko active Application Filing
- 2014-06-12 JP JP2015557247A patent/JP6046275B2/ja active Active
- 2014-06-12 BR BR122016001090-2A patent/BR122016001090B1/pt active IP Right Grant
- 2014-06-12 KR KR1020197032122A patent/KR102297597B1/ko active IP Right Grant
- 2014-06-12 BR BR122020017896-5A patent/BR122020017896B1/pt active IP Right Grant
- 2014-06-12 KR KR1020217027339A patent/KR102358742B1/ko active IP Right Grant
- 2014-06-12 CN CN201480008799.7A patent/CN104995677B/zh active Active
- 2014-06-12 KR KR1020167019530A patent/KR102041098B1/ko active IP Right Grant
- 2014-06-12 PL PL14813862T patent/PL2954515T3/pl unknown
- 2014-06-12 ES ES14813862.1T patent/ES2674924T3/es active Active
- 2014-06-12 US US14/770,375 patent/US10037763B2/en active Active
- 2014-06-12 EP EP18156452.7A patent/EP3373295B1/en active Active
- 2014-06-12 ES ES18156452T patent/ES2777474T3/es active Active
- 2014-06-12 IN IN1765MUN2015 patent/IN2015MN01765A/en unknown
- 2014-06-12 CN CN201610645174.2A patent/CN106297810B/zh active Active
- 2014-06-12 TR TR2018/08580T patent/TR201808580T4/tr unknown
- 2014-06-12 AU AU2014281794A patent/AU2014281794B9/en active Active
- 2014-06-12 SG SG10201604619RA patent/SG10201604619RA/en unknown
- 2014-06-12 BR BR122017011368-2A patent/BR122017011368B1/pt active IP Right Grant
- 2014-06-12 BR BR122020017897-3A patent/BR122020017897B1/pt active IP Right Grant
- 2014-06-12 BR BR122017012321-1A patent/BR122017012321B1/pt active IP Right Grant
- 2014-06-12 SG SG10201604617VA patent/SG10201604617VA/en unknown
- 2014-06-12 WO PCT/US2014/042168 patent/WO2014204783A1/en active Application Filing
- 2014-06-12 SG SG11201505426XA patent/SG11201505426XA/en unknown
- 2014-06-12 MX MX2016013745A patent/MX367355B/es unknown
- 2014-06-12 MY MYPI2018002360A patent/MY192322A/en unknown
- 2014-12-06 UA UAA201508059A patent/UA111927C2/uk unknown
-
2015
- 2015-05-13 HK HK15104519.7A patent/HK1204135A1/xx unknown
- 2015-06-29 IL IL239687A patent/IL239687A/en active IP Right Grant
- 2015-08-11 CL CL2015002234A patent/CL2015002234A1/es unknown
-
2016
- 2016-03-11 HK HK16102827.7A patent/HK1214883A1/zh unknown
- 2016-05-11 HK HK16105352.3A patent/HK1217377A1/zh unknown
- 2016-06-20 US US15/187,310 patent/US10147436B2/en active Active
- 2016-06-22 US US15/189,710 patent/US9959878B2/en active Active
- 2016-09-27 JP JP2016188196A patent/JP6571062B2/ja active Active
- 2016-10-19 MX MX2019009765A patent/MX2019009765A/es unknown
- 2016-10-19 MX MX2022015201A patent/MX2022015201A/es unknown
- 2016-11-30 JP JP2016232450A patent/JP6561031B2/ja active Active
-
2017
- 2017-06-22 RU RU2017122050A patent/RU2696465C2/ru active
- 2017-09-01 US US15/694,568 patent/US20180012610A1/en not_active Abandoned
-
2019
- 2019-07-22 JP JP2019134478A patent/JP6866427B2/ja active Active
-
2020
- 2020-03-16 US US16/820,160 patent/US11404071B2/en active Active
-
2021
- 2021-04-07 JP JP2021065161A patent/JP7090196B2/ja active Active
-
2022
- 2022-06-13 JP JP2022095116A patent/JP7427715B2/ja active Active
- 2022-08-01 US US17/878,410 patent/US11823693B2/en active Active
-
2023
- 2023-11-16 US US18/511,495 patent/US20240153515A1/en active Pending
-
2024
- 2024-01-24 JP JP2024008433A patent/JP2024028580A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6866427B2 (ja) | プログラム情報またはサブストリーム構造メタデータをもつオーディオ・エンコーダおよびデコーダ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B15K | Others concerning applications: alteration of classification |
Free format text: A CLASSIFICACAO ANTERIOR ERA: G10L 19/00 Ipc: G10L 19/16 (2006.01) |
|
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 12/06/2014, OBSERVADAS AS CONDICOES LEGAIS |