BRPI0609300A2 - verificaÇço de metadados de Áudio - Google Patents

verificaÇço de metadados de Áudio Download PDF

Info

Publication number
BRPI0609300A2
BRPI0609300A2 BRPI0609300-0A BRPI0609300A BRPI0609300A2 BR PI0609300 A2 BRPI0609300 A2 BR PI0609300A2 BR PI0609300 A BRPI0609300 A BR PI0609300A BR PI0609300 A2 BRPI0609300 A2 BR PI0609300A2
Authority
BR
Brazil
Prior art keywords
metadata
audio
correct
dialnorm
verification information
Prior art date
Application number
BRPI0609300-0A
Other languages
English (en)
Inventor
Brett Graham Crockett
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36655019&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=BRPI0609300(A2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Publication of BRPI0609300A2 publication Critical patent/BRPI0609300A2/pt

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Abstract

VERIFICAÇçO DE METADADOS DE ÁUDIO. A presente invenção refere-se a fluxo de bits digital, compreendendo bits de dados representando áudio, metadados destinados a estarem corretos para o áudio e informação de verificação de metadados, em que todos ou parte dos metadados podem não estar corretos para o áudio. A informação de verificação de metadados é utilizavel para detectar se os metadados estão ou não corretos para o áudio e, se não corretos, mudá-los de modo que eles fiquem corretos. A informação de verificação de metadados utilizável para detectar e mudar metadados pode incluir uma cópia, ou uma cópia de dados comprimidos, de uma versão correta dos metadados.

Description

Relatório Descritivo da Patente de Invenção para "VERIFICAÇÃODE METADADOS DE ÁUDIO".
Campo Técnico
A presente invenção está relacionada com processamento desinais de áudio, particularmente à verificação e à correção de metadadosempregados nesses sistemas. A invenção é particularmente útil em sistemasde codificação de áudio conhecidos como Dolby Digital (AC-3), Dolby DigitalPlus e Dolby E. Dolby, Dolby Digital, Dolby Digital Plus e Dolby E são marcas de comércio e indústria de Dolby Laboratories Licensing Corporation.
Aspectos da invenção também podem ser utilizáveis com outros tipos decodificação de áudio, tal como MPEG-4 AAC.
Detalhes da codificação de Dolby Digital são apresentados nasreferências a seguir:
ATSC Standard A52/A: Digital Audio Compression Standard(AC-3). Revision A, Advanced Television Systems Committee, 20 de agostode 2001. O documento A/52A está disponível na World Wide Web emhttp://www.atsc.org/standards.html.
"Flexible Perceptual Coding for Audio Transmission and Storage," por Craig C. Todd, e colaboradores, 9&h Convention of the Audio Engineering Society, 26 de fevereiro de 1994, Preprint 3796;
"Design and Implementation of AC-3 Coders," por Steve Vernon,IEEE Trans. Consumer Electronics, Vol. 41, No. 3, agosto de 1995.
"The AC-3 Multichannel Coder" por Mark Davis, Audio Engineering Society, Preprint 3774, 95th AES Convention, outubro de 1993.
"High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications," por Bosi e colaboradores, Audio Engineering Society Preprint 3365, 93rd AES Convention, outubro de 1992.
Patentes dos Estados Unidos 5.583.962; 5.632.005; 5.633.981;5.727.119; e 6.021.386.
Detalhes da codificação Dolby Digital Plus são apresentados em"Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System," AES Convention Paper 6196, 117th AES Convention, 28 deoutubro de 2004.
Detalhes da codificação Dolby E são apresentados em "EfficientBit Allocation, Quantization, and Coding in an Audio Distribution System",AES Preprint 5068, 107th AES Conference, agosto de 1999 e "Professional Audio Coder Optimized for Use with Video", AES Preprint 5033, 107th AESConference agosto de 1999.
Detalhes da codificação MPEG-2 AAC são apresentados emISO/IEC 13818- 7: 1997(E) "Information technology - Generic coding of moving pictures and associated áudio information -, Part 7: Advanced Audio Coding (AAC)," International Standards Organization (abril de 1997); "MP3and AAC Explained" por Karlheinz Brandenburg, AES 17th International Conference on High Quality Audio Coding, agosto de 1999; e "ISO/IEC MPEG-2 Advanced Audio Coding" por Bosi, e colaboradores, AES preprint 4382,101 st AES Convention, outubro de 1996.
Uma visão geral de vários codificadores perceptuais, incluindocodificadores Dolby, codificadores MPEG e outros é apresentada em "Overview of MPEG Audio: Current and Future Standards for Low-Bit-Rate Audio Coding," por Karlheinz Brandenburg e Marina Bosi, J. Audio Eng. Soe, Vol.45, No. 1/2, janeiro/fevereiro de 1997.
Todas as referências citadas acima são aqui incorporadas através de referência, cada uma em sua totalidade.
Embora a invenção não esteja limitada ao uso em AC-3, porconveniência, será descrita no ambiente do sistema AC-3. AC-3 é um sistema de compressão de dados digitais de áudio usado para a distribuição de áudio em aplicações incluindo televisão digital, vídeo DVD e áudio DVD. Umfluxo de bits de AC-3 consiste de dois componentes chave: conteúdo de áudio e metadados. O conteúdo de áudio de um a seis canais consiste de dados comprimidos usando codificação de áudio perceptual. Entre os váriostipos de metadados em AC-3 são diversos parâmetros de metadados de áudio que são destinados, especificamente, a mudar o som do programa distribuído para um ambiente de audição. Esses são descritos abaixo.
O sistema AC-3 distribui fluxo de bits compreendido de áudio dedados comprimidos em quadros de informação binaria. Cada quadro contémconteúdo de áudio e metadados para 1536 amostras de áudio digital. Parauma taxa de amostragem de 48 kHz, isso representa 32 milissegundos deáudio digital ou uma taxa de 31,25 quadros por segundo de áudio. O númerode bits contidos em cada quadro depende do número de canais que estãosendo distribuídos e da quantidade de compressão de dados que é aplicadaaos canais. Por exemplo, videodiscos DVD, tipicamente, distribuem seis canais de áudio em uma taxa de dados de 448.000 bits por segundo ou umtamanho de quadro de 1792 bytes (um byte tendo 8 bits).
Cada quadro de AC-3 é dividido em seções. Essas incluem: (1)
Synchronization Information (SI - Informação de Sincronização), que contémuma synchronization word (SW - palavra de sincronização) e a primeira deduas palavras de correção de erro (CRCI); (2) Bitstream Information (BSI -Informação de Fluxo de Bits), que contém a maior parte dos metadados; (3)
seis Audio Blocks (Blocos de Áudio - ABO a AB5), que contém o conteúdode áudio de dados comprimidos; (4) bits residuais (W), que contêm quaisquer bits não utilizados deixados para considerações futuras, após o conteúdo de áudio ser comprimido;(5) informação auxiliar (AUX), que contém maismetadados; e (6) a segunda de duas palavras de correção de erros (CRC2).
Essas são mostradas na figura 9, que é descrita melhor abaixo. O quadroAC-3, incluindo a compressão de dados de áudio perceptuais e os metadados anexos são descritos em detalhes nas referências de AC-3 citadas acima e abaixo, na descrição da figura 9.
Conforme mencionado acima, em AC-3 há diversos parâmetros que são destinados, especificamente, a mudar o som do programa distribuído para um ambiente de audição. Três desses parâmetros de metadados sereferem ao nível de sinal de reprodução e faixa dinâmica:
DIALNORM COMPR e DYNRNG. O parâmetro DIALNORM afeta o nível de sinal de reprodução de áudio, enquanto os parâmetros COMPR e DYNRNG relacionados, algumas vezes referidos aqui depois como os parâmetros de "compressão de faixa dinâmica" - afetam a faixa dinâmica dosinal de reprodução de áudio. Um ou nenhum, mas não ambos, os parâme-tros de COMPR e DYNRNG é usado na decodificação, dependendo de ummodo de decodificação. DIALNORM, tipicamente, é ajustado por um usuário- - não é gerado automaticamente, embora haja um valor padrão de DIAL-NORM, se nenhum valor for estabelecido pelo usuário. Por exemplo, um usuário, ou "criador de conteúdo", pode fazer medições de audibilidade comum processo ou dispositivo externo ao codificador de AC-3 e, então, transferir o resultado para o codificador. Desse modo, há uma confiança do usuáriopara ajustar, corretamente, o valor de parâmetro DIALNORM. Os parâmetrosCOMPR e DYNRNG, embora relacionados com o parâmetro DIALNORM,tipicamente, são calculados automaticamente durante a codificação, em resposta ao valor de parâmetro DIALNORM ajustado pelo usuário e um de umnúmero de perfis de compressão de faixa dinâmica (ou nenhum perfil, o queresulta em aplicação de DIALNORM, mas permite a reprodução da faixa dinâmica completa). Cada um desses perfis contém informação padrão de parâmetro de compressão de faixa dinâmica de áudio, incluindo constantes detempo de liberação e ataque e relações de compressão. Outros parâmetrosde metadados que afetam o som em um ambiente de audição incluem osvários parâmetros de "downmixing": CLEV, CMIXLEV, SLEV, SURMIXLEV,MIXLEVEL e MIXLEVEL2. Esses metadados de downmixing proporcionaminstruções para um decodificar para downmixing um original de 5.1 canaisaté um número menor de canais de reprodução, um ou dois canais, por exemplo.
O parâmetro DIALNORM permite a reprodução uniforme de diálogo falado, quando da decodificação de qualquer fluxo de bits de AC-3. Onível subjetivo de diálogo falado normal é usado como uma referência. Assim, a reprodução de ganho do sistema se torna uma função de ambos, onível de pressão do sim de reprodução desejada de ouvinte para diálogo e ovalor de DIALNORM. Embora, em principio, o valor de DIALNORM possa seraplicado no domínio de tempo subseqüente à decodificação (no domínio digital ou no domínio analógico) para ajustar o ganho de playback, decodificadores AC-3, tipicamente, empregam o valor de DIALNORM no domínio digital dentro do decodificar para escalar ganho, o que resulta em ajuste do ga-nho de playback.
Embora haja ferramentas úteis para medir, conveniente e facilmente, o nível de diálogo em conteúdo de áudio (por exemplo, o medidor deaudibilidade Dolby LM100) e AC-3 proporciona metadados para transportar onível de diálogo (usando parâmetro DIALNORM), não há maneira de verificar se o valor DIALNORM em um fluxo de bits de AC-3 foi estabelecido corretamente e corresponde ao verdadeiro valor de audibilidade de diálogo doáudio, sem decodificar completamente o áudio comprimido para PCM e realizar uma medição de audibilidade com uma tecnologia de medição aprovada. Essa abordagem de decodificação completa é descrita no Pedido de Patente dos Estados Unidos N.S. 10/884.177, depositado em 1 de julho de2004, de Smithers e colaboradores, intitulado "Method for Correcting thePlayback Loudness and Dynamic Range of AC-3 (Dolby Digital) CompressedAudio Information." O referido pedido é aqui incorporado através de referência em sua totalidade.
Há diversas razões diferentes pelas quais o parâmetro DIALNORM em um fluxo de bits de AC-3 pode estar incorreto. Primeiro, como mencionado acima, cada codificador de AC-3 tem um valor padrão de DIALNORM que é usado durante a geração do fluxo de bits, se um valor de DlALNORM não for estabelecido pelo criador de conteúdo. Esse valor padrão,comumente escolhido como -27 dB, pode ser substancialmente diferente donível real de audibilidade de diálogo do áudio, Segundo, mesmo se um criador de conteúdo mede a audibilidade e estabelece o valor de DIALNORM,consequentemente, um algoritmo ou medidor de medição de audibilidadepode ter sido usado, o que não se conforma ao método de medição de audibilidade de AC-3 recomendado, resultando em um valor de DIALNORM incorreto. Terceiro, mesmo se um fluxo de bits de AC-3 tiver sido criado com ovalor de DIALNORM medido e estabelecido corretamente pelo criador deconteúdo, ele pode ter sido mudado para um valor incorreto, durante atransmissão e/ ou armazenamento do fluxo de bits. Por exemplo, não é incomum em aplicações de difusão pela televisão que os fluxos de bits de AC-3 sejam decodificados, modificados e, então, re-codificados, usando a infor-mação incorreta de metadados de DIALNORM. Portanto, embora um valorde DIALNORM esteja sempre contido em um fluxo de bits de AC-3, ele podeser incorreto ou impreciso e, portanto, pode ter um impacto negativo sobre aqualidade da experiência de audição.
Desse modo, há uma necessidade de uma maneira de verificarse o valor de DIALNORM em um fluxo de bits de AC-3 foi estabelecido corretamente por um criador de conteúdo e não foi mudado durante distribuição e transmissão. De preferência, essa verificação não alterará a sintaxe padrão do fluxo de bits de AC-3 , de modo que o fluxo de bits permanece compatível com os decodificadores de AC-3 (isto é, a compatibilidade com a versão anterior é preservada).
Descrição dos Desenhos
A figura 1 é um diagrama esquemático funcional em blocos deuma disposição para geração de um fluxo de bits de acordo com os aspectos da presente invenção.
A figura 2 é uma representação abstrata de um exemplo de umformato para dados de verificação de metadados em um fluxo de bits.
A figura 3 é da natureza de um fluxograma de decisão mostrando detalhes de uma etapa de decisão no fluxograma da figura 4.
A figura 4 é da natureza de um fluxograma de decisão útil nacompreensão de aspectos da invenção referentes à garantia de que um fluxo de bits tem metadados corretos e dados de verificação de metadados correspondentes.
A figura 5 é um diagrama esquemático funcional em blocos deuma disposição para a prática de vários subconjuntos de etapas 404 a 413da figura 4.
A figura 6a é um diagrama esquemático funcional em blocos,mostrando uma disposição para a prática do subconjunto de etapas 408 a 410 da figura 4.
A figura 6b é um diagrama esquemático funcional em blocos,mostrando uma disposição para a prática do subconjunto de etapas 408 e 411 a 413 da figura 4.A figura 7 é um diagrama esquemático funcional em blocos mostrando uma disposição para a prática da função ou dispositivo Re-compactar Fluxo de Bits da figura 6a.
A figura 8 é da natureza de um fluxograma de decisão útil nacompreensão de aspectos da invenção referentes à decodificação consciente-dados-verificação.
A figura 9a é um diagrama esquemático, ilustrando um quadrode um fluxo de bits codificado serial AC-3. Não está em escala.
A figura 9b é um diagrama esquemático ilustrando em maioresdetalhes a porção SI de um fluxo de bits codificado serial de AC-3. Não estáem escala.
A figura 9c é um diagrama esquemático ilustrando em maioresdetalhes a porção de informação de cabeçalho de fluxo de bits (BSI). Nãoestá em escala.
A figura 9d é um diagrama esquemático, ilustrando em maioresdetalhes uma porção de bloco de áudio de um fluxo de bits codificado serialde AC-3. Não está em escala.
A figura 9e é um diagrama esquemático funcional em blocos decodificador pu função de codificação de AC-3.
A figura 10a é um gráfico hipotético mostrando o nível de DIALNORM e a faixa dinâmica dos três itens de áudio exemplificativos.
A figura 10b é um gráfico hipotético mostrando o nível de DIALNORM e a faixa dinâmica de três itens de áudio exemplificativos durante a reprodução.
A figura 11a é um gráfico hipotético mostrando o efeito de parâmetros de controle de faixa dinâmica em três itens de áudio exemplificativos.
A figura 11b é um gráfico hipotético, mostrando o efeito de DlALNORM e dos parâmetros de controle de faixa dinâmica sobre os três itens de áudio exemplificativos, durante a reprodução.
Exposição da Invenção
A invenção pode ser vista como tendo um número de aspectos,todos os quais envolvem informação de verificação de metadados de áudio.Alguns daqueles aspectos incluem os seguintes:
(1) um fluxo de bits de áudio codificados tendo metadados corretos e informação que verifica a correção de pelo menos uma parte dos metadados;
(2) um processo ou dispositivo que.gera um fluxo de bits de áudio codificados, tendo metadados corretos e informação que verifica a correção de pelo menos uma parte dos metadados;
(3) um processo ou dispositivo que assegura que um fluxo debits de áudio codificados tem metadados corretos e também contém informação que verifica a correção de pelo menos parte dos metadados corretos; e
(4) um processo dispositivo que decodifica um fluxo de bits deáudio codificados quer ou não todos os seus metadados estejam corretos,gera e substitui metadados corretos e leva em conta, se presente, a informação que verifica a correção de pelo menos parte dos metadados.
Outros aspectos da invenção são apresentados nas reivindicações e na descrição escritas e nos desenhos.
Deve ser notado que a informação de verificação de metadadosde áudio não serve à função de proporcionar detecção e/ou correção de errode bits. Os fluxos de bits em que a informação de verificação é conduzida,tipicamente, têm alguma espécie de detecção e/ ou correção de erro bits,por exemplo, as palavras de código de CRC em um fluxo de bits de AC-3.Em aspectos da presente invenção, os metadados podem ser incorretosporque, por exemplo, inicialmente, não foram estabelecidos corretamente oumesmo se, inicialmente, determinados corretamente, eles mudaram durantea transmissão ou o armazenamento como resultado da intervenção humanaou de outro modo, não por causa de erros de bits na transmissão ou no armazenamento. Na verdade, a informação de verificação de metadados de áudio não servirá ao propósito de detecção ou correção de erros, porqueserve ao propósito de mudança de metadados, se eles não estiverem corretos, para um valor correto. A correção de erro de bits apenas corrigirá errosde bits nos metadados, deixando-os incorretos, embora sem erros de bits.Em outras palavras, a informação de verificação de metadados de áudio serefere à correção de bits de base de informação representando metadados,não à correção dos próprios bits.
Embora em exemplos de aspectos da invenção aqui descrita ofluxo de bits de áudio codificados seja um fluxo de bits codificados DolbyDigital (AC-3), os conjuntos de metadados são os metadados DIALNORM ede controle de faixa dinâmica relacionados, e a informação de verificaçãocorresponde aos metadados DIALNORM corretos, aspectos da invenção sãoaplicáveis aos outros sistemas de codificação de áudio e a outros metadados em fluxos de bits desses sistemas de codificação. Outros sistemas de codificação de áudio em que aspectos da invenção podem ser úteis incluem,por exemplo, o sistema Dolby E e o sistema de MPEG-4 AAC. Com relaçãoao Dolby Digital, os metadados podem ser os metadados de downmixing,além de ou em lugar dos metadados DIALNORM e de controle de faixa dinâmica relacionados (em cujo caso a informação de verificação também se refere, ou se refere em lugar de, aos metadados de downmixing).
A informação de verificação pode ser conduzida nesse fluxo debits de áudio codificados de tal maneira que o fluxo de bits é compatível comos processos e dispositivos existentes ou pré-existentes. Em exemplo deaspectos da invenção aqui descritos, a informação de verificação é conduzida em bits residuais, mencionados acima, que, de outro modo, podem nãoconduzir informação útil e, usualmente, são ignorados por decodificadorespadrão de AC-3. Outros sistemas de codificação de áudio podem ter bits"residuais" ou bits similares que podem estar disponíveis (algumas vezesreferidos como bits "nulos", bits "cheios" ou semelhantes) e que, usualmente, são ignorados por decodificadores padrão e - por exemplo, os campos dedados adicionais, tais como o Elemento de Fluxo de Dados, em MPEG-4AAC, uma seção de dados definida pelo usuário. Contudo, esses bits emalguns sistemas de codificação podem não ser destruídos por uma operaçãode codificação/ decodificação, que é uma característica útil de aspectos dapresente invenção, quando concretizada em um sistema de codificação deAC-3. Técnicas para conduzir dados em bits "residuais" ou similares em fluxos de bits codificados são divulgadas na patente norte-americana6.807.528 B1, "Adding Data to a Compressed Data Frame," de Truman, ecolaboradores, patente que é aqui incorporada através de referência, em suatotalidade.
A informação de verificação também pode ser conduzida numfluxo de bits de áudio codificados de tal maneira que ela fica "escondida".Por exemplo, a informação de verificação conduzida em bits residuais podeser criptografada. A ocultação dos dados de verificação tem a vantagem deque alguém que mude, propositalmente, um valor de DIALNORM em umfluxo de bits codificados terá dificuldades na mudança ou não será capaz demudar a informação de verificação.
Embora a cada quadro de AC-3 possa não ter bits de dados nãoutilizados suficientes para conduzir informação adicional, isso não é um problema quando o valor de DIALNORM é constante através de todo um programa - é suficiente que pelo menos alguns quadros de AC-3 tenham bits dedados não utilizados suficientes a fim de serem usados para os dados deverificação.
Alternativamente, em lugar de conduzir a informação de verificação em bits residuais que podem ser codificados, ela pode ser codificada esteganograficamente que nos fluxos de bits usando técnicas tais como aquelas descritas no pedido de patente norte-americano N.S. 10/344.388,depositado (PCT) 15 de agosto de 2001, intitulado "Modulating One or MoreParameters of an Audio or Video Perceptual Coding System in Response toSupplemental Information," de Watson e colaboradores, publicado, em 5 dêfevereiro de 2004, como US 2004/0024588 Al. O referido pedido é aqui incorporado através de referência em sua totalidade. A codificação esteganográfica tem a vantagem de que ela preserva a incompatibilidade com a versão anterior e também oculta os dados. Contudo, a decodificação e a recodificação do fluxo de bits pode não apagar ou "limpar" a informação de verificação (conforme discutido mais abaixo), o que é uma desvantagem.
Os dados de verificação, em sua forma mais simples, podem seruma cópia do valor de DIALNORM correto (junto com o enquadramento oudados de sincronização e identificação apropriados). Como os bits não utili-zados em um fluxo de bits de AC-3 são tipicamente ajustados para valoresnulos ou randômicos, a probabilidade de que os o bits de dados não utilizados em um fluxo de bits de AC-3 correspondente ao formato de dados deverificação de DIALNORM é altamente improvável. Também, quando apenas um valor constante de DIALNORM é usado por programa de AC-3 codificado, como é típico, a informação de verificação de DIALNORM contidanos bits de dados não utilizados também é um valor fixo, constante. Naquelecaso, a testagem para múltiplos casos de dados de verificação de DIALNORM em uma série de quadros de AC-3 diminui a probabilidade de que bits de dados não utilizados sejam confundidos com bits de dados de verificação.
Se a medição de DIALNORM, geração de metadados e inserçãode dados de verificação forem realizadas em tempo real, continuamente, emum fluxo de bits de AC-3, um valor constante de DIALNORM através de todoo programa pode não ocorrer. Naquele caso, a verificação pode ser realizada através da análise de uma série de quadros de AC-3 (que podem contervários valores de metadados de DIALNORM) e examinando que os camposde verificação de DIALNORM colocados nos bits de dados não utilizados e,quando estão disponíveis, correspondem aos valores de DIALNORM. Um número mínimo de campo de dados de verificação de DIALNORM e de DIALNORM correspondentes pode ser requerido a fim de reduzir a probabilidade de que os dados randômicos nos campos de dados não utilizados correspondam aos valores dos parâmetros de DIALNORM.
Um outro aspecto da presente invenção é, de preferência, permitir que apenas os processos ou dispositivos aprovados escrevam nos dadosde verificação de DIALNORM em um fluxo de bits de AC-3. Assim fazendo,assegura-se a validade dos dados de verificação. Desse modo, embora acorreção do valor de parâmetros de metadados de DIALNORM não seja garantida por razões tais como aquelas mencionadas acima, os dados de verificação de DIALNORM podem ser usados com confiança em sua precisão.Além disso, o problema de um parâmetro correto de DIALNORM se tornarcorrompido é vencido porque os dados de verificação de DIALNORM sãocolocados, de outra maneira, em um fluxo de dados não utilizados de umfluxo de bits de AC-3. Se um fluxo de bits de AC-3 contendo dados de verificação válidos for decodificado e recodificado, então, é altamente improvávelque os bits de dados não utilizados resultantes, que substituem os dados deverificação de DIALNORM como um resultado da re-codificação permaneçam corretos, ainda que os mesmos valores de metadados sejam usados.Isso assegura que qualquer processamento adicional de um fluxo de bits deAC-3 verificados "limpa" os dados de verificação (a menos que um codificador de AC-3 aprovado com medição de audibilidade e capacidades de verificação seja usado para o reprocessamento, conforme explicado abaixo).
Esses e outros aspectos da invenção serão melhor compreendi-dos à medida que os modos a seguir para a realização da invenção sejamlidos e compreendidos.
Melhor Modo para a Realização da Invenção
Geração de um fluxo de bits de AC-3 que tem DIALNORM correto e dadosde verificação correspondentes
Esse aspecto da invenção se refere à criação de um fluxo de bitsde AC-3 que tem um valor de parâmetro de DIALNORM correto e que temdados de verificação de DIALNORM correspondentes.
A figura 1 mostra uma disposição 100 compreendendo dois elementos - uma função de codificação de AC-3 modificada ou um codificadorde AC-3 modificado ou um codificador de AC-3 modificado ("Codificador deAC-3 Modificado") 102 ou uma função de medição de nível de diálogo oumedidor de nível de diálogo ("Medir Nível de Diálogo") 104. O áudio de PCM101 é aplicado a ambos, ao Codificador de AC-3 Modificado 102 e a MedirNível de Diálogo") 104. O Codificador de AC-3 Modificado pode ser o mesmoque o codificador de AC-3 padrão ou a função de codificação, exceto que eletambém é capaz de aceitar dados de verificação de DIALNORM e inseri-losno fluxo de bits de AC-3 de alguma maneira adequada, conforme discutidoacima. O Código de AC-3 Modificado proporciona uma saída de fluxo de bitsde AC-3 compatível com a versão anterior que inclui dados de verificação deDIALNORM. Medir Nível de Diálogo 104 analisa PCM, computa o valor cor-reto de DIALNORM e envia o mesmo (via 103) para o Codificador de AC-3Modificado 102.
Na codificação de AC-3 normal, o número de bits não utilizadosdisponíveis está relacionado diretamente com a complexidade do áudio (isto é, quão difícil é codificar o áudio em uma taxa dé bits desejada). Como onúmero de bits disponíveis por um quadro de áudio de AC-3 é fixo, quantomais difícil for o áudio para codificar, mais bits são usados para se obter onível de qualidade e, portanto, menos bits estão não utilizados no processode codificação e disponíveis para conduzir os dados de verificação de DIALNORM. Sinais de áudio que são mais simples de codificar, portanto, terãomais bits de dados não utilizados disponíveis para armazenamento dos dados de verificação de DIALNORM. Portanto, uma modificação opcional, porém útil, no codificador de AC-3 Modificado é a capacidade de especificarum número mínimo de bits de dados que o processo de codificação não usará durante a codificação. Dado o número pequeno de bits requeridos paraconduzir os dados de verificação de DIALNORM (conforme descrito abaixo),manter, propositalmente, alguns bits de dados não utilizados, pode ter poucoou nenhum impacto sobre a qualidade do sinal de áudio codificado.Medir Nível de Diálogo 104
Uma medição do nível de audibilidade do diálogo pode ser realizada primeiro através do isolamento de segmentos do conteúdo de áudio que contêm, predominantemente, a fala. Esse método é descrito no Pedidode Patente dos Estados Unidos N.S. 10/233.073, de Vinton, e colaboradores, intitulado "Controlling Loudness of Speech in Signals That Contain Speech and Other Types of Audio Information," publicado em 4 de março, comoUS2004/0044525 Al, pedido que é aqui incorporado através de referênciaem sua totalidade. Contudo, outros métodos podem ser usados. Os segmentos de áudio que, predominantemente, são fala, então, são passados para um algoritmo de medição de audibilidade. Em AC-3, esse algoritmo é uma medição de potência A- ponderada padrão. Outras medições de audibilidadetambém podem ser usadas, incluindo medições de potência B- ou C- ponderada padrão ou aquelas baseadas em modelos psicoacústicos de audibilida-de. A medição de potência é calculada em relação a uma onda senoidal deescala completa digital de áudio (0 dB FS).
O isolamento desses segmentos de fala não é essencial; porém,ele aperfeiçoa a precisão da medição e proporciona resultados mais satisfatórios de uma perspectiva do ouvinte. Como nem todo conteúdo de áudiocontém fala, a medição de audibilidade de todo o conteúdo de áudio podeproporcionar uma aproximação suficiente do nível de diálogo do áudio, tives-se a fala estado presente.
Se um método estiver operando em um fluxo de bits contínuo,em lugar de em um fluxo de bits de comprimento finito, essa medição podeser continuamente atualizada e pode representar o nível do diálogo, por exemplo, apenas para os últimos poucos segundos. Se o método estiver operando em um fluxo de bits de comprimento finito, pré- armazenado (tal comoum arquivo de áudio armazenado em um disco rígido), então, todo o programa pode ser analisado e um único valor de DIALNORM computado.
Codificador de AC-3 Modificado 102
O PCM de áudio de entrada é codificado usando uma codificação de AC-3 modificada que usa o(s) valor(es) de DIALNORM computado(s)para estabelecer os parâmetros de DIALNORM de fluxo de bits e de metadados de compressão de faixa dinâmica relacionados. A codificação de AC-3 Modificado pode ser a mesma que a codificação de AC-3 normal, excetoque uma função ou dispositivo de medição de audibilidade adicional 104,conforme descrito acima, explicita e corretamente, mede o valor do parâmetro de DIALNORM e fornece o mesmo para o codificador para a inclusão nofluxo de bits. O codificador modificado também cria e insere dados de verificação de DIALNORM nos bits de dados de outro modo não utilizados do AC-3, porque, neste exemplo, um processo de medição de DIALNORM aprovado proporcionou uma medição objetiva. O fluxo de bits de AC-3 produzidopelo Codificador de AC-3 Modificado 102, de preferência, se conforma aospadrões de um fluxo de bits de AC-3 definido no documento A/52A citadoacima, tornando-o compatível com decodificadores de AC-3 existentes.
Se o Codificador de AC-3 Modificado também tiver a capacidadede especificar um número mínimo de bits de dados não utilizados, isso podeser implementado por meio da mudança do valor do número total de bits porquadro de AC-3 disponível para a codificação de áudio. Por exemplo, se onúmero de bits disponível para o processo de codificação de AC-3 for, normalmente, N_TOTAL_ENCODE_BITS e for desejado ter pelo menosN_TOTAL_VERIFICATION_BITS, então, o novo número total de bits de codificação disponíveis será (N_TOTAL_ENCODE_BITS - N-TOTAL VERIFICATION BITS) e o processo de codificação de áudio prossegue como usual.
Formato de dados de verificação de DIALNORM
A fim de que os dados de verificação de DIALNORM sejam identificados facilmente e lidos de um fluxo de bits de AC-3 sem decodificação, é útil que os dados tenham um formato pré-definido. A figura 2 esboça umformato adequado para armazenamento dos dados de verificação de DIALNORM em uma maneira de bytes-alinhados que simplifica a localização e a leitura dos dados de um fluxo de bits de AC-3 não decodificado (em um fluxode bits de AC-3 em tempo real ou um fluxo de bits de AC- que é armazenadocomo um arquivo digital). O formato não é crítico e outros formatos podemser utilizáveis. Conforme mostrado na figura 2, o formato de exemplo paradados de verificação de DIALNORM consiste de diversos bytes consecutivos. O primeiro byte é um byte de cabeçalho de verificação de DIALNORMpré-definido. Esse byte de cabeçalho pode assumir qualquer valor, porém,um valor não zero (similar, mas não o mesmo que AC-3 SYNCWORD) é preferido porque os bits de dados não utilizados podem ter sido inicializados para valores zero em outros fluxos de bits de AC-3. Em seguida ao cabeçalho de verificação de DIALNORM neste exemplo, bytes de dados são usadospara conduzir dados de verificação de DIALNORM e opcionais adicionais.Como o valor de DIALNORM de AC-3 padrão é compreendido de cinco bits,um byte de dados proporciona três bits de dados adicionais e dois bytes dedados proporcionam onze bits de dados adicionais. Uso de dois bytes dedados de verificação de DIALNORM é mostrado no exemplo da figura 2. Esses bytes podem ser usados para armazenar informação, tal como o tipo ouversão de algoritmo de audibilidade usado ou outra informação. O byte finalmostrado na figura 2 é um byte de dados de Verificação de Redundância deCiclo (CRC) que é computado usando o cabeçalho de verificação de DIALNORM e bytes de dados. Esse byte é útil pelo fato de que ele reduz grandemente a probabilidade de os bits de dados não utilizados em um fluxo debits de AC-3 (contendo uma seqüência de bytes que têm um byte de cabeçalho de verificação de DIALNORM válido dois bytes de dados intermediários e um byte de CRC) passarem por uma conferência de CRC para todosos quatro bytes.
Conforme discutido previamente, um codificador de AC-3 modificado reserva bits de dados não utilizados suficientes para conter os dadosde verificação de DIALNORM, dada a estrutura esboçada na figura 2, issorequer apenas quatro bytes ou 32 bits para cada quadro de dados de AC-3de 1792 bytes, o que corresponde a apenas 0,2% dos dados totais.Assegurando que um fluxo de bits de AC-3 tem DIALNORM correto e dadosde verificação correspondentes
Outro aspecto da invenção está assegurando que o valor de DIALNORM em um fluxo de bits de AC-3 está correto e que o fluxo de bits teminformação de verificação de DIALNORM correspondente. Esse aspecto dainvenção é apresentado no fluxograma exemplificativo da figura 4. Conformeexplicado abaixo, todo o processo da figura 4 ou subconjuntos do processoda figura 4 podem ser empregados. Esses processos ou dispositivos empregando etapas dos processos podem ser úteis, por exemplo, na transmissãoou no armazenamento de um fluxo de bits, subseqüente à criação de umfluxo de bits por um criador de conteúdo e antes de uma decodificaçáo finaldo fluxo de bits para um ouvinte. Será compreendido que as etapas da figura4 ou seus subconjuntos podem representar porções de um ou mais processos ou podem ser funções realizadas em um ou mais dispositivos.
As etapas da figura 4 podem ser realizadas em um fluxo de bitsque representa o áudio de um item de áudio de comprimento finito. Por exemplo, um item de áudio consistindo de um programa de televisão ou publicidades que é armazenado na forma digital em um servidor de arquivos oude outro modo. Conforme aqui usado, um "item de áudio" é um pedaço con-tínuo de informação de áudio; por exemplo, um anúncio de televisão de 30segundos ou um filme inteiro (filme de cinema). Contudo, as etapas da figura4 também podem ser usadas para medir e atualizar um fluxo de bits contínuo, em tempo real de quadros de AC-3, por exemplo, um fluxo de bits de AC-3 contínuo, representando o áudio de uma estação ou canal de televisão.
Teste para a Existência de Dados de Verificação de DIALNORM (Etapa 401 da figura 4eda Figura 3)
Conforme mostrado na figura 4, a primeira etapa realizada (etapa 401) é para determinar se os dados de verificação de DIALNORM de AC-3 existem em um fluxo de bits de AC-3 codificado. A figura 3 mostra um fluxograma exemplificativo para realizar essa conferência. Conforme mostradona figura 3, a entrada é um fluxo de bits de áudio de AC-3, que pode serprocessado em uma base de quadro a quadro. Como a localização de bits de dados não utilizados dentro de um quadro de AC-3 é conhecida, não énecessário realizar uma pesquisa exaustiva de um quadro total ou fluxo debits - a busca pode começar no início da seção ou seções de bits não utilizados. Embora os dados de verificação de DIALNORM consistam de bytes consecutivos de dados, esses dados podem ou não ser bytes alinhados com outros dados de quadro de AC-3. Portanto, a primeira etapa (etapa 301) noprocesso na figura 3, "READ DATA FROM BITSTREAM" , pode requerer aleitura dos dados bit a bit e construção de bytes de dados consecutivos decada leitura de bit.
Na etapa 303 do exemplo da figura 3, cada byte de dados lidodo quadro de AC-3 é comparado com o byte de cabeçalho de verificação deDIALNORM pré-definido. Se um byte não corresponde, mais dados são lidose outra comparação de bytes é realizada. Se o valor do byte corresponde aovalor do cabeçalho, então, os bytes de dados consecutivos que seguem obyte correspondente são lidos. Se o byte que corresponde ao byte do cabecalho de verificação está perto do final do quadro de AC-3, conforme determinado na etapa 302, e os três bytes de dados seguintes não estão disponíveis, a busca pelo dado é abortada. Os quatro bytes (incluindo o byte de ca-beçalho de verificação correspondente, conforme esboçado na figura 2) sãousados para computar uma verificação na etapa 304. Se a conferência deCRC passa (etapa 305), então, os dados de verificação de DIALNORM existem e a informação de verificação de DIALNORM pode ser recuperada dosbytes de dados, conforme descrito mais abaixo.
Testar se os Dados de Verificação de DIALNORM Correspondem aos Dadosde AC-3 de DIALNORM (402)
Conforme mostrado na etapa 401 da figura 4, quando os dadosde verificação de DIALNORM existem (saída YES - SIM - da etapa 401), aetapa seguinte, etapa 402, é determinar se os dados de verificação correspondem ao valor de DIALNORM de AC-3. Conforme mostrado na figura 9,como discutido mais abaixo, a localização e o formato dos dados normais deDIALNORM são conhecidos e podem ser lidos facilmente do fluxo de bits deAC-3. O teste para determinar se os valores de DIALNORM normal e DIALNORM de verificação correspondem é uma comparação numérica simples.Se os valores correspondem, então, o valor de DIALNORM normal está correto e nenhuma outra análise ou processamento é requerido. Os valores podem ser considerados "corresponder" se o valor absoluto de uma diferençaentre os dois valores for menor do que um limite. Se desejado, esse limitepode ser estabelecido igual a zero, mas, em implementações preferidas, umlimite escolhido para equilibrar a troca entre a precisão dos parâmetros demetadados, o custo dos recursos computacionais necessários para implementar a presente invenção e a possibilidade de que a diferença entre o valor de DIALNORM e o valor de verificação degradará a qualidade da informação de áudio durante a reprodução. Um valor limite de três a (3 dB) podeser adequado para muitas aplicações. A saída de fluxo de bits de AC-3 podeser armazenada, transmitida ou decodificada.
Corrigindo Dados de DIALNORM de AC-3 Normal com dados de Verificaçãode DIALNORM (Etapa 403)
Quando os dados de verificação de DIALNORM são extraídosdo fluxo de bits de AC-3 e não correspondem aos metadados de DIALNORMde AC-3 normal (saída NO - Não - da etapa 402), então, os metadados deDIALNORM são atualizados com (isto é, ajustados o tornado dos mesmosque) o valor de DIALNORM de verificação (403). Como o valor de DIALNORM normal foi determinado estar incorreto e deverá ser atualizado, épossível que os metadados de compressão de faixa dinâmica de AC-3 relacionados estejam também incorretos. Portanto, a informação de compressãode faixa dinâmica será analisada e se estiver correta, apenas um parâmetrode metadados de DIALNORM é atualizado. Se in a informação de compressão de faixa dinâmica estiver incorreta, então, ela também deverá ser atualizada. Os detalhes dessa análise e a atualização são explicados mais abaixoem conexão com as etapas 409 a 413 da figura 4, das figuras 6a, 6b e 9c.
Dados de Verificação Não no Fluxo de Bits de AC-3Metadados de DIALNORM Corretos (etapas 404 - 407)
Conforme mostrado no exemplo da figura 4, se os dados de verificação de DIALNORM não estiverem contidos dentro do fluxo de bits de AC-3 (etapa 401 - saída NO), então, o fluxo de bits de AC-3 é decodificado paraTCM, sem aplicação do parâmetro de DIALNORM e dos parâmetros de controle de faixa dinâmica relacionados (porque aqueles parâmetros de metadados podem estar incorretos), de modo que o conteúdo de áudio decodificado está no mesmo nível que a entrada para o codificador que foi usadaem para criar o fluxo de bits (etapa 404). A audibilidade do diálogo é, então,medida para determinar o nível correto de DIALNORM (etapa 405). Essamedição pode ser realizada que pelo dispositivo ou função Medir Nível deDiálogo 104 descrito acima. Em seguida à cor que medição do nível de diálogo na etapa 405, o valor medido é comparado com os metadados de DlALNORM de AC-3 na etapa 406 (detalhes dessa comparação são dadosabaixo). Conforme mostrado em seguida à saída YES (SIM) da etapa 406,se os metadados de DIALNORM normal estiverem corretos, então a únicaação requerida é formatar e armazenar os dados de verificação de DIALNORM no fluxo de bits (etapa 407).
Conforme discutido acima, o número de bits de dados não utilizados disponíveis é dependente da complexidade do áudio e alguns quadros de AC-3 podem não ter bits de dados não utilizados suficientes para arma-zenar os dados de verificação de DIALNORM em cada quadro. Duas opçõessão possíveis: armazenar os dados de verificação apenas nos quadros deAC-3 com bits de dados não utilizados suficientes (em cujo caso os dadosde verificação de DIALNORM podem ser inseridos no fluxo de bits de AC-3da entrada original, em lugar de em um dos fluxos de bits de AC-3 resultantes de uma re-codificação de fluxo de bits de AC-3 decodificados da etapa404) ou re-codificar o áudio resultante da decodificação de AC-3 da etapa404, reservando um número suficiente de bits de dados não utilizados paraassegurar que os dados de verificação se encaixam em cada quadro.
Uma alternativa à decodificação de AC-3 da etapa 404 e à medição de audibilidade da etapa 405 é obter uma aproximação da audibilidadeatravés de uma técnica que não requer uma decodificação completa do fluxode bits de AC-3. Essa técnica, que decodifica, parcialmente, um fluxo de bits,tal como um fluxo de bits de AC-3, a fim de obter uma estimativa aproximada do espectro de áudio codificado com base na magnitude de expoentes desub-bandas é divulgada em um Pedido de Patente Provisória dos EstadosUnidos de Brett Graham Crockett, Michael John Smithers, Alan Jeffrey Seefeldt, Protocolo do Advogado DOLI57, depositado no mesmo dia que o presente pedido. O referido pedido DOL157 de Crockett e colaboradores é aqui incorporado através de referência em sua totalidade.
A figura 5 mostra um exemplo de uma disposição 500 para pôrem prática vários subconjuntos de etapas 404 a 413 da figura 4. Conformemostrado na figura 5, os quadros de AC-3 501 são decodificados por umafunção de decodificação ou decodificador de AC-3 modificado ("Decodificador de AC-3") 502 em áudio digital 503. Durante a decodificação dos quadros de AC-3 por um decodificador de AC-3 502, o parâmetro de DIALNORM e a informação de compressão de faixa dinâmica, embora recuperados para outro uso potencial, conforme descrito abaixo, são ignorados paraos fins da decodificação de áudio, de modo que o áudio decodificado 503está no mesmo nível e tem a mesma faixa dinâmica que a entrada para ocodificador que foi usado para criar um fluxo de bits. Uma função de medição de nível de diálogo ou medidor de nível de diálogo ("Medir Nível de Diá-logo") 504 recebe o áudio decodificado 503 e calcula o nível do diálogo 505.A medição de Diálogo 504 pode ser a mesma função ou dispositivo que aMedição de Diálogo 104, descrita acima em conexão com a figura 1. O Decodificador de AC-3 pode realizar a etapa 404, conforme descrito acima, e a Medição de Nível de Diálogo 504 pode realizar a etapa 405, conforme descrito acima. Uma função de atualização ou atualizador de fluxo de bits ("Atualizar Fluxo de Bits") 506 compara o nível do diálogo com o parâmetro deDIALNORM presente em cada quadro. Outros detalhes da comparação sãodados abaixo. Além disso, dependendo das decisões das etapas 406 e 408,ela também realiza a etapa 407, as etapas 408 -410 (veja a figura 6a e suadescrição abaixo) ou as etapas 408 e 411 - 413 (veja a figura 6b e sua descrição abaixo). Quando da realização da etapa 407, ela insere informação deverificação de DIALNORM no fluxo de bits de AC-3 de entrada, DIALNORMoriginal e a informação de controle de faixa dinâmica relacionada. Na realização da etapa 407, Atualizar Fluxo de Bits 506 também busca os quadros de AC-3 para bits de dados não utilizados. Os quadros de AC-3 com umnúmero suficiente de bits de dados não utilizados são modificados de modoque os bits não utilizados são atualizados para conter os dados de verificação de DIALNORM. Alternativamente, o áudio decodificado produzido por
Decodificador de AC-3 502 pode ser re-codificado, reservando o númerosuficiente de bits de dados não utilizados para assegurar que os dados deverificação se encaixam em cada quadro (em cujo caso o Atualizar Fluxo deBits 506 inclui um codificador de AC-3 modificado, tal como um Codificadorde AC-3 Modificado 102 da figura 1).
Mais especificamente/na realização da etapa 406, o Fluxo de
Bits de Atualização 506 compara o nível medido do diálogo com o nível dodiálogo, conforme indicado pelo parâmetro DIALNORM. O parâmetro DIALNORM tem uma faixa de -31 dB a -1 dB inclusive, em incrementos de 1 dB.
Se o nível medido do diálogo está dentro daquela faixa e é diferente do valor de DIALNORM do fluxo de bits, o parâmetro DIALNORM é atualizado condicionalmente com (é "condicional" mediante determinação se bits não utilizados suficientes estão disponíveis para conduzir a informação de verificação)o nível medido, arredondado, por exemplo, o mais próximo de 1 dB. O nívelmedido do diálogo pode ser considerado diferente do valor de DIALNORMno fluxo de bits, se o valor absoluto de uma diferença entre os dois valores émenor do que um limite. Se desejado, esse limite pode ser igual a zero, mas,em implementações preferida, um limite é escolhido para equilibrar uma troca entre a precisão dos parâmetros de metadados, o custo dos recursoscomputacionais necessários para implementar a presente invenção e a possibilidade de que a diferença entre o valor de DIALNORM e o nível de diálogo medido degradará a qualidade da informação de áudio durante a reprodução. Um valor limite de três (3 dB)pode ser adequado para muitas aplicações. Além da atualização do fluxo de bits para conter o parâmetro DIALNORM correto, Atualizar Fluxo de Bits 506 também busca bits de dados nãoutilizados em cada quadro de AC-3. Se um quadro contém um número suficiente de bits de dados não utilizados, eles são substituídos por dados deverificação de DIALNORM, indicando que um processo de medição de audibilidade preciso e aprovado ocorreu e que o valor de DIALNORM embutidono fluxo de bits de AC-3 está correto.
Verificação de Dados Não no Fluxo de Bits de AC-3Metadados de DIALNORM Incorretos
Audibilidade dentro da Faixa de Parâmetro de DIALNORM (Etapas 408 - 410)
Conforme mostrado no exemplo da figura 4, se a informação deverificação não existe (saída NO da etapa 401) e o valor de DIALNORM deAC-3 está incorreto (saída NO da etapa 406), então, será determinado se onível de audibilidade medido está dentro da faixa válida do parâmetro DIALNORM (etapa 408). O parâmetro de DIALNORM não tem faixa suficientepara conduzir o nível quando o nível medido do diálogo 505 está fora da faixa válida do parâmetro de DIALNORM, conforme permitido no fluxo de bitsde AC-3. Isto é, o nível medido é menor do que -31 dB ou maior do que -1dB.
Se o parâmetro de DIALNORM tiver faixa suficiente para conduzir o nível(saída YES da etapa 408), então, as etapas 409 e 410 são realizadas comosegue, detalhes adicionais das quais são mostrados em conexão com asfiguras 6a e 7.
A figura 6a mostra como nova informação de compressão defaixa e como o fluxo de bits é atualizado e re-compactado (etapa 410),quando o valor de DIALNORM é mudado e os dados de verificação de DIALNORM inseridos. Conforme notado acima, o exemplo da figura 6a é umavariação de Atualizar Fluxo de Bits 507 da figura 5 que é útil para realizar asetapas 408 - 410. Os elementos da figura 6a podem ser descritos como segue.
Extrair DIALNORM 602
O valor do parâmetro DIALNORM é extraído do fluxo de bits deAC-3, conforme indicado pelas figuras 5 e 6a - o fluxo de bits não decodificado 501 é aplicado o dispositivo ou função de extração de DIALNORM 602("Extrair DIALNORM" 602).
Determinar Perfil de Compressão de Faixa Dinâmica 604
Conforme mostrado na figura 6a, um dispositivo ou função dedeterminação de perfil de compressão de faixa dinâmica ("Determinar Perfilde Compressão de Faixa Dinâmica" 604) recebe o valor de parâmetro DIALNORM extraído do fluxo de bits não decodificado e a saída do Decodificador de AC-3 (502 da figura 5) e determina um perfil de compressão defaixa dinâmica. Os metadados de compressão de faixa dinâmica em umquadro de AC-3 representam mudanças de ganho que podem ser aplicadasao conteúdo de áudio durante a decodificação. Aqueles metadados existemcomo dois parâmetros diferentes. O parâmetro COMPR na Informação deFluxo de Bits (BSI) tem uma faixa de -48,14 dB a 47,88 dB e é uma definiçãode escala que é aplicado a todo um quadro de áudio. O parâmetro DYNRNG, um em cada Audio Block (AB - Bloco de Áudio), tem uma faixa de -24,06 dB a +23,94 dB e proporciona um meio para, independentemente, definir a escala em cada bloco. Um ou nenhum, mas não ambos, desses parâmetros é usado no decodificar, dependendo do modo de decodificação.
Conforme mencionado acima, os parâmetros COMPR e DYNRNG são calculados durante codificação, usando o parâmetro DIALNORM enenhum ou um de um número de perfis de compressão de faixa dinâmica.Cada perfil contém informação de parâmetro de compressão de faixa dinâmica, incluindo constantes de tempo de ataque e de liberação e relações decompressão.
Como parâmetro de DIALNORM é mudado, os valores deCOMPR e DYNRNG no fluxo de bits podem não estar mais corretos. Os parâmetros COMPR e DYNRNG podem ser deixados inalterados no fluxo debits, mas o áudio na reprodução pode exibir flutuações de ganho severas edesagradáveis e/ ou levar à sobrecarga do decodificar (ou ceifamento digital). Uma aproximação melhor é atualizar os parâmetros COMPR e DYN-RNG. Isso é melhor realizado com conhecimento do perfil de compressão defaixa dinâmica usado para calcular seus valores originais. Como a informação sobre o perfil não está presente no fluxo de bits, um perfil arbitrário podeser escolhido (incluindo desativação de compressão de faixa dinâmica, tudojunto) ou o perfil pode ser inferido dos valores de COMPR e DYNRNG originais no fluxo de bits. Inferindo o perfil, pode-se corresponder mais intimamente a intenção original do criador de conteúdo com relação à compressãode faixa dinâmica.
Em Determinar Perfil de Compressão de Faixa Dinâmica 604, oáudio decodificado 503 e o valor DIALNORM original 603 são usados juntospara calcular múltiplos conjuntos de valores COMPR e DYNRNG - um conjunto para cada perfil que é sabido existir em codificadores de AC-3. O número índice do perfil cujo conjunto de valores de COMPR e DYNRNG corresponde mais intimamente aos valores de COMPR e DYNRNG no fluxo debits original sai como 606.
Se esse método estiver operando em um fluxo contínuo de quadros, o índice de perfil pode ser atualizado continuamente. Por exemplo, elepode representar o perfil mais provável por diversos segundos anteriores dequadros.
É possível que o perfil de compressão de faixa dinâmica estimado não seja o mesmo que o perfil usado originalmente. Portanto, pode serdesejável atualizar a informação de compressão de faixa dinâmica e DIALNORM apenas se a diferença absoluta entre o nível medido do diálogo e ovalor de DIALNORM for maior do que um limite, conforme mencionado acima.
Calcular Nova Informação de Faixa Dinâmica 607
Uma função ou dispositivo ("Calcular Nova Informação de FaixaDinâmica) 607 calcula nova informação de faixa dinâmica. A medida do verdadeiro nível do diálogo 505 (figura 5) é arredondada e se torna o novo valorde DIALNORM. Um arredondamento para o 1dB mais próximo foi verificadoser utilizável, embora isso não seja crítico. Usando o índice de perfil 606, oáudio decodificado 503 (sem a antiga compressão de faixa dinâmica e DlALNORM a ele aplicados) e o novo valor de DIALNORM (arredondado 505), um novo conjunto de valores de COMPR e DYNRNG 608 é calculado.
Re-compactar o Fluxo de Bits 609
Um re-compactador ou função de re-compactação de fluxo debits (Re-compactar Fluxo de Bits") 609
Conforme acima, a medição do verdadeiro nível do diálogo 505é arredondada, por exemplo, para o 1 dB mais próxima, embora isso nãoseja crítico, e se torne o novo valor de DIALNORM. O novo valor de DIAL-NORM e os novos valores de COMPR e DYNRNG são atualizados no fluxode bits de AC-3 não decodificados 501. Adicionalmente, se bits de dadosnão utilizados suficientes existirem, conforme determinado em Re-compactarFluxo de Bits 609, então, os dados de verificação DIALNORM são usadospara substituir alguns ou todos os bits de dados não utilizados. O novo fluxode bits de AC-3 atualizado sai como um novo fluxo de bits 610.
Detalhes de Re-compactar Fluxo de Bits 609 são apresentadosno exemplo da figura 7, que pode ser descrito como segue.
Determinar Espaço Disponível 701
Uma função ou dispositivo ("Determinar Espaço Disponível") 701identifica todos os bits de dados não utilizados que podem ser usados para aatualização dos valores de COMPR e DYNRNG e para a inclusão dos novosdados de verificação de DIALNORM. Ambos os parâmetros, COMPR eDYNRNG, requerem, cada um deles, 8 bits no fluxo de bits de C-3. Cadaocorrência desses parâmetros tem um flag condicional "existe" ("exists"). Oparâmetro COMPR tem um flag COMPRE que, se ajustado para 1, indicaque o parâmetro COMPR segue no fluxo de bits. Similarmente , cada parâmetro de DYNRNG tem um flag DYNRNGE que, se ajustado para 1, indicaque um parâmetro DYNRNGE segue no fluxo de bits. Se um flag de DYN-RNG no primeiro bloco de um quadro for ajustado para 0, então, o decodificador assume um valor inicial de DYNRNG de 0 dB. Se o flag de DYNRNGEem qualquer um dos blocos 1 a 5 em um quadro for estabelecido em 0, então o decodificador re-utiliza o valor de DYNRNG do bloco prévio. Essa presença condicional de parâmetros de COMPR e DYNRNG em cada quadrosignifica que o número total de bits usados por COMPR e DYNRNG podevariar.
Como o número total de bits requeridos para os novos valoresde COMPR e DYNRNG pode ser maior do eu o número total de bits usadospelos antigos valores de COMPR e DYNRNG (porque a existência e os valores de COMPR e DYNRNG são dependentes do valor de DIALNORM) é necessário determinar se há alguns bits não utilizados no quadro. Esses bitsnão utilizados podem ser usados para os novos dados de verificação de DIALNORM, bem como para mover informação dentro do quadro de AC-3, para criar espaço para os bits adicionais requeridos pelos novos valores deCOMPR e DYNRNG.
Reduzir Informação de Compressão de Faixa Dinâmica 703
Uma função ou dispositivo ("Reduzir Informação de D.R.C.") 703recebe a identificação de bits de dados não utilizados 702 e calcula novainformação de faixa dinâmica 608 a fim de reduzir o número de bits requeridos por novos valores de COMPR e DYNRNG, se o número total de bits para esses valores for mais do que a soma dos bits não utilizados mais o número total de bits suados pelo antigo valor de COMPR e DYNRNG. A saídada função ou dispositivo 703 são os novos valores de COMPR e DYNRNG,conforme possa ter sido ajustado em vista dessas exigências de bits.
Há uma restrição que existe para cada quadro de AC-3. A figura9a mostra dois limites de quadro, o limite de quadro de 5/8Q e o limite entre oBloco de Áudio 1 e o Bloco de Áudio 2 (AB1 - AB2). A restrição è que,quando um quadro é codificado, o limite de AB1 - AB2 não pode ser maiorno fluxo de bits do que o limite de quadro de 5/89. Se o número de bits requerido para os novos valores de DYNRNG em Blocos de Áudio 0 e 1 émaior do que a soma de bits de Dados de Salto não utilizados em Blocos de Áudio 0 e 1 mais o número de bits usados pelos antigos valores de DYNRNG nos Blocos de Áudio 0 e 1, então, segue-se que a criação de espaço para os bits adicionais pode empurrar o limite de AB1 - AB2 além do limitede quadro de 5/8° Se isso ocorrer, então o número de bits requerido pelosnovos valores de DYNRNG nos blocos 0 e 1 será reduzido. Isso pode ser1G realizado em uma variedade de maneiras.
Um método adequado é primeiro analisar os novos valores deDYNRNG e os flags de DYNRNGE para Blocos de Áudio 0 e 1. Se apenas onovo de DYNRNGE no bloco 0 for ajustado para 1, então, esse flag éajustado para 0 e o novo valor de DYNRNG do bloco 0 e do bloco 1 são ajustados iguais a zero. Se apenas o novo flag de DYNRNGE no bloco 1 forajustado para 1, então, o flag é ajustado para 0 e o novo valor de DYNRNGdo bloco 1 for ajustado igual àquele do bloco 0. Se os novos flags de DYNRNGE nos blocos 0 e 1 são justados para 1, então, duas comparações são realizadas. Se a diferença absoluta entre o novo valor de DYNRNG para obloco 0 e 0 dB for menor do que a diferença absoluta entre os novos valoresde DYNRNG para os blocos 0 e 1, então, o novo flag de DYNRNGE para obloco 0 é ajustado para 0 e o novo valor de DYNRNG para o bloco 90 é ajustado para 0. De outro modo, o novo flag de DYNRNGE para o bloco 1 é ajustado para 0 e os novos valores de DYNRNG para os blocos 0 e 1 são ajustados para o valor mínimo de DYNRNG do bloco 0 e 1. Isso reduz o númerode bits requeridos para as novas palavras de DYNRNG por 8 bits. Se umdos flags de DYNRNGE dos blocos 0 ou 1 for ajustado para 1 e mais redução de bits é requerida, então, o processo acima é repetido. Após uma redução de bits ser completada, o novo valor de DYNRNG para o bloco 1 é comparado com o novo valor de DYNRNG para o bloco 2. Se esses valores forem iguais, o novo flag de DYNRNGE para o bloco 2 é ajustado para 0. Seos novos valores de DYNRNG não forem iguais, o novo flag de DYNRNGpara o bloco 2 é ajustado para 1.
Olhando para todo o quadro de seis blocos, se o número total debits requeridos para os novos valores de COMPR e DYNRNG for maior doque a soma dos bits não utilizados mais o número total de bits usados pelosantigos valores de COMPR e DYNRNG, então, é necessário reduzir o número de bits requeridos pelos novos parâmetros. Isso pode ser realizado emuma variedade de maneiras.
Um método adequado é olhar para os novos valores de DYN-RNG e para os flags de DYNRNGE através dos seis Blocos de Áudio em umquadro e o grupo dos blocos em regiões onde cada região representa umbloco com um flag de DYNRNGE ajustado para 1 ou o primeiro bloco, se oflag de DYNRNGE do bloco 0 for ajustado para 0, mais quaisquer blocosseguintes com flags de DYNRNGE ajustados para 0. Segue-se que o número de regiões poderia ser tão baixo quanto 1, onde todos os blocos não têmum flag de DYNRNGE ajustado para 1 ou o primeiro bloco tem apenas umflag existente ajustado para 1, ou o número de regiões poderia ser tão altoquanto seis, onde cada bloco tem um flag de DYNRNGE ajustado para 1. Ovalor de DYNRNG para cada região é comparado com o valor de DYNRNGem cada região adjacente. O par adjacente de regiões com os valores maispróximos de DYNRNG é, então, combinado em uma região ajustando, primeiramente, os valores de DYNRNG em ambas as regiões para o valor mínimo de ambas as regiões e, em segundo lugar, ajustando o flag de DYN-RNGE da segunda região para 0. Isso reduz o número total de bits requeridos pela nova informação de COMPR e DYNRNG em 8 bits. Esse processoé repetido até que o número total de bits requeridos para os novos valoresde COMPR e DYNRNG seja menor do que ou igual à soma dos bits não utilizados mais o número total de bits requeridos pelos antigos valores deCOMPR e DYNRNG.
Conforme indicado acima, é possível que todos os bits de dadosnão utilizados em um quadro de AC-3 sejam usados para os parâmetros deCOMPR e DYNRNG atualizados, assim, não deixando bit algum não utilizado para os dados de verificação de DIALNORM. Conforme discutido previa-mente, isso é esperado e não reduz a utilidade de inserção dos dados deverificação de DIALNORM naqueles quadros onde existem bits de dadosnão utilizados suficientes.
Atualizar DIALNORM, Compressão de Faixa Dinâmica e Informação de Verificacão de DIALNORM 705
Um dispositivo ou função ("Atualizar DIALNORM, D.R.C. e Informação de Verificação de DIALNORM") recebe o fluxo de bits de AC-3 não decodificado 501, os novos valores de COMPR e DYNRNG 704, conformepossa ter sido ajustado em vista de exigências de bits e o nível de diálogo medido 505 e atualiza o parâmetro de DIALNORM do fluxo de bits, parâmetros de faixa dinâmica e inserções de informação de verificação de DIALNORM no fluxo de bits.
Como um quadro sempre tem um parâmetro de DIALNORM, onovo valor de DIALNORM pode ser estrito em sua localização pré-determinada na BSI. Contudo, a atualização de parâmetros de COMPR e DYNRNG envolve, possivelmente, partes móveis do quadro de AC-3 ao redor,para criar espaço para os novos valores. Se o número total de bits requeridos para os novos valores de COMPR e DYNRNG é maior do que o número total de bits usados pelos antigos valores, os comprimentos de alguns dos campos de SKIPD e, possivelmente, os bits residuais (W) precisam ser reduzidos. Contudo, se o número total de novos bits requeridos for menor, então, o comprimento dos bits residuais (W) é aumentado. Se um número suficiente de bits de dados não utilizados existe, em seguida a essas atualizações de parâmetros, então, os dados de verificação de DIALNORM são colocados nas localizações de bits de dados não utilizados.
Para atualizar o parâmetro de COMPR, se o antigo flag deCOMPRE for ajustado em 1, o antigo valor de COMPR pode ser sobrescritocom o novo valor de COMPR. Contudo, se o antigo flag COMPRE for ajustado para 0 e o valor de COMPRE recentemente computado for ajustado para 1, todos os dados binários seguindo o parâmetro de COMPRE serãodeslocados por 8 bits para criar espaço para o novo valor de COMPR. O flagde COMPRE no quadro é, então, ajustado para 1 e o novo valor de COMPRé escrito nos 8 bits de espaço criados recentemente. Se o antigo flag deCOMPRE for ajustado para 1 e o novo flag de COMPRE for ajustado para 0,então, o COMPRE no quadro é ajustado para 0 e todos os dados bináriosque seguem o parâmetro de COMPR será deslocado por 8 bits, porque oparâmetro de COMPR não mais existe no quadro.
Para atualizar os parâmetros de DYNRNG em cada Bloco deÁudio, se o antigo flag de DYNRNGE for ajustado para 1, o antigo valor deDYNRNG pode ser sobrescrito com o novo valor de DYNRNG. Contudo, seo antigo flag de DYNRNGE for ajustado para 0 e o novo flag de DYNRNGEfora ajustado para 1, todos os dados binários que seguem o parâmetro deDYNRNGE será deslocado para criar espaço para o novo valor de DYNRNG. O flag de DYNRNGE no quadro é, então, ajustado para 1 e o novo valor de DYNRNG pode ser escrito nos 8 bits de espaço recentemente criados. Se o antigo flag de DYNRNGE for ajustado para 1 e o novo flag de DYNRNGE for ajustado para 0, o flag no quadro é ajustado para 0 e todosos dados binários que seguem o parâmetro de DYNRNG serão deslocadospor 8 bits, porque o parâmetro de DYNRNG não mais existem no fluxo de bits.
O parâmetro de SKIPL indica o comprimento do campo de SKIPD, os dados binários à direita do campo de SKIPD serão deslocadospor um múltiplo de 8 bits. O parâmetro de SKIPL esse era então, atualizadopara refletir o novo comprimento do campo de SKIPD. Ocasionalmente, umcampo de SKIPD pode conter informação opcional que não é definida oficialmente no padrão de AC-3 (veja, por exemplo, o documento A52/A, citado acima). Se o primeiro bit no campo de SKIPD for igual a 1, então, os dadosportadores de informação se seguem no campo de SKIPD dB para casocontrário, os bits no campo de SKIPD são todos ajustados para zero. Se ainformação estiver presente e o campo de SKIPD precisar ser encurtado,então, ele só pode ser encurtado até essa informação. Isso permite que informação seja mantida no interior no quadro AC-3.
Em seguida à modificação e à atualização dos bits de dados nãoutilizados, os dados de verificação de DIALNORM podem ser inseridos nosbits não utilizados. Conforme discutido previamente, esses dados podemtomar diversas formas, incluindo uma duplicação do parâmetro de DIALNORM dos quadros, com informação suficiente de dados de sincronização eidentificação. Isso permite que um processo de decodificador de verificação de DIALNORM busque os bits de dados não utilizados, identifique se seusdados de verificação existem e compare os mesmos com o parâmetro padrão de DIALNOM embutido no fluxo de bits de AC-3 .
Atualizar CRCs 707
O fluxo de bits de AC-3 atualizado, que inclui a informação de verificação de DIALNORM, é aplicado a um dispositivo ou função de geraçãode palavra de correção de erros ("Atualizar CRCs") 707. Quando os dadosem um quadro de AC-3 mudaram, as duas palavras de detecção de errosCRC1 e CRC2 devem ser recalculadas. Se apenas os dados até o limite dequadro de 5/8e mudaram, então, apenas o CRC1 precisa ser recalculado.
Igualmente, se apenas os dados do limite de quadro até o final do quadromudaram, então, apenas o CRC1 e CRC2 precisam ser recalculados.
Verificação de Dados Não no Fluxo de Bits de AC-3
Metadados de DIALNORM Incorretos - Faixa de DIALNORM Insuficiente para Nível de Transporte
Conforme mostrado no exemplo da figura 4, se a informação deverificação não existe (saída NO da etapa 401) e o valor de DIALNORM deAC-3 existente está incorreto (saída NO da etapa 406), então, deve ser determinado se o nível de audibilidade medido está dentro da faixa válida de DIALNORM (etapa 408). Conforme mencionado acima, o parâmetro de DlALNORM não tem faixa suficiente para transportar o nível, quando o nívelmedido do diálogo 505 está fora da faixa de validade do parâmetro de DIALNORM, conforme permitido no fluxo de bits de AC-3. Isto é, o nível medido é menor do que -31 dB ou maior do que -1 dB. Nesse caso, a saída daetapa 408 é NO. Uma maneira de corrigir essa situação é atualizar o parâmetro de DIALNORM no quadro com o valor válido mais próximo, conforme descrito acima. Contudo, isso pode deixar algum erro entre o valor de DIALNORM e o nível medido do diálogo. Uma alternativa adequada que minimizaesse erro é realizar as etapas 411,412 e 413 da figura 4 conforme descritocomo segue com referência ao exemplo da figura 6b. Conforme observadoacima, a figura 6b é uma variação de Atualizar Fluxo de Bits 507 da figura 5bque é útil para a realização das etapas 411,412 e 413. Os elementos da figura 6b que diferem daqueles da figura 6a podem ser descritos como segue.
Os elementos comuns às figuras 6a e 6b mantêm o mesmo respectivo numerai de referência.
Ajustar Ganho 611
Áudio decodificado 503 é aplicado modificador de ganho ajustável ou função de modificação de ganho ("Ajustar Ganho") 611 .Uma mudança de ganho adequada pode ser aplicada ao áudio para reduzir o erro entreo nível de diálogo medido e o valor de DIALNORM (etapa 411). Por exemplo, se o nível de diálogo medido for -36 dB, o DIALNORM pode ser ajustado para o valor válido mais próximo, -31 dB, assim, regulando o áudio em 5 dB, de-36 dB para-31 dB.
Código de AC-3 Modificado 629
O áudio com ganho ajustado é, então, de re-codificado usandouma codificação de áudio de AC-3 modificado, aplicando-o, junto com a nova informação de compressão de faixa dinâmica e DIALNORM 608 (etapa 412), a um codificador de AC-3 modificado ou função de codificação ("Codificação de AC-3 Modificada") 629. A Codificação de AC-3 Modificada é caracterizada como "modificada" porque ela está ciente da aplicação das capacidades dos dados de verificação de DIALNORM e insere esses dadosnos bits de dados não utilizados em seguida ao processo de codificação eantes da compactação final do fluxo de bits. Essa recodificação mantém todaa BSI original (exceto para DIALNORM, informação de compressão de faixadinâmica e verificação de DIALNORM) e os metadados AUX do quadro defluxo de bits original 501 inclui o cálculo de novas palavras de detecção deerro.
Outras funções e dispositivos da figura 6b podem ser os mesmos que as funções e dispositivos correspondentes da figura 6a, conforme mencionado acima.A colocação em prática das etapas 411,412 e 413 pode levar aalguma perda de qualidade do som devido à decodificação e à recodificaçãodo conteúdo de áudio. Portanto, pode ser desejável recodificar apenas oconteúdo, se o erro absoluto entre o nível de diálogo medido e o valor deDIALNORM mais próximo for maior do que um limite. Um valor limite de três(3 dB) pode ser adequado para muitas aplicações.Subconjuntos da Figura 4
Conforme mencionado acima, todo o processo da figura 4 ousubconjuntos do processo ou dispositivos da figura 4, empregando etapasdos processos, podem ser empregados.
Um subconjunto útil e barato do processo da figura 4 é empregaras etapas de 401 a 403. Se a informação de verificação existe no fluxo debits (401 é YES (SIM)), as etapas 402 e 403 operam como descrito acimapara deixar o fluxo de bits de AC-3 inalterado ou para ajustar o valor de DlALNORM para o valor de verificação. Se nenhuma informação de verificaçãoexiste no fluxo de bits (a saída 401 é NO (NÃO), DIALNORM pode ser deixado inalterado ou ajustado para um valor padrão).
Outro subconjunto útil do processo da figura 4 é empregar asetapas 401 e 404 a 407. Isso é útil quando não há informação de verificação e é desejado adicionar informação de verificação quando o DIALNORM existente está correto. Se a informação de verificação existe no fluxo de bits (401é SIM), o fluxo de bits pode ser deixado inalterado. Se a informação de verificação não existe (a saída de 401 é NÃO), as etapas 404,405 e 406 determinam se o DIALNORM existente está correto (a saída de 406 é SIM) ounão (a saída de 406 é NÃO). Se o DIALNORM existente não está correto, oDIALNORM pode ser ajustado para um valor padrão.
Outro subconjunto útil, mas um pouco mais caro, do processo oudispositivos da figura 4 é empregar as etapas 401 a 406. A operação é exatamente como foi descrito quando a informação de verificação existe (a saída de 401 é NO), mas quando a informação de verificação não existe (a saída de 401 é NÃO), as etapas 404,405 e 406 determinam se o DIALNORMexistente está correto (a saída de 406 é SIM) ou não (a saída de 406 é NO).Se o DIALNORM existente estiver correto, o fluxo de bits pode ser deixadoinalterado. Se o DIALNORM existente não estiver correto, o DIALNORM pode ser ajustado para um valor padrão.
Outro subconjunto útil, porém um pouco mais caro, do processo 1 ou dispositivos da figura 4 é empregar as etapas 401 a 406. A operação éexatamente como descrita quando a informação de verificação existe (a saída de 401 é SIM), mas quando a informação de verificação não existe (a saída de 401 é NÃO), as etapas 404,405 e 406 determinam se o DIALNORMexistente está correto (a saída de 406 é SIM) ou não (a saída de 406 é NO).
Se o DIALNORM existente estiver correto, o fluxo de bits pode ser deixadoinalterado. Se o DIALNORM existente não estiver correto, o DIALNORM pode ser ajustado para um valor padrão.
Decodificação Consciente de Dados de Verificação
Outro aspecto da presente invenção é a decodificação, adequadamente, de um fluxo de bits de AC-3 quer ou não ele tenha DIALNORM correto e dados de verificação correspondentes, mas utilizando esses dadosde verificação quando eles estão presente. Isso pode ser referido como decodificação "consciente de dados de verificação". Esse aspecto da invençãoé apresentado no fluxograma exemplificativo da figura 8. Como explicado abaixo, todo o processo da figura 8 ou subconjuntos do processo da figura 8podem ser empregados. Esses processos ou dispositivos empregando etapas dos processos podem ser úteis, por exemplo, na decodificação de umfluxo de bits. As etapas na figura 8 que, em geral, correspondem às etapasna figura 4, empregam numerais de referência correspondentes (por exempio, "801" e "401"). Será compreendido que as etapas da figura 8 ou seussubconjuntos podem representar porções de um ou mais processos ou podem ser funções realizadas em um ou mais dispositivos.
Teste para Existência de Dados de Verificação de DIALNORM (Etapa 801)
Conforme mostrado na figura 8, a primeira etapa realizada (etapa 801) é para determinar se os dados de verificação de AC-3 de DIALNORM existem no fluxo de bits de AC-3. Essa etapa pode ser realizada damesma maneira que a etapa 401 da figura 4, descrita acima (incluindo osseus detalhes mostrados na figura 3).
Testar se os Dados de Verificação de DIALNORM Correspondem aos Dadosde DIALNORM de AC-3 (802)
Conforme mostrado na etapa 801 da figura 8, quando os dadosde verificação de DIALNORM existem (saída SIM da etapa 801), a etapaseguinte, etapa 802, é para determinar se os dados de verificação correspondem ao valor de AC-3 de DIALNORM. Essa etapa pode ser realizada damesma maneira que a etapa 402 da figura 4, descrita acima. Se os seus valores correspondem, então, o valor normal de DIALNORM está correto e ofluxo de bits de AC-3 aplicado ao processo (entrada da etapa 801) pode serdecodificado, usando seu DIALNORM existente e metadados de faixa dinâmica relacionados, conforme indicado na etapa 814, assim, proporcionandoum fluxo de bits de áudio de AC-3 decodificado. Se os valores "correspondem" ou não pode ser determinado verificando se eles estão dentro de umlimite, conforme explicado acima em conexão com a descrição da etapa 402.
Correção de Dados Normais de AC-3 de DIALNORM com Dados de Verificação de DIALNORM (803)
Quando os dados de verificação de DIALNORM são extraídosdo fluxo de bits de AC-3 e não correspondem aos metadados normais de AC-3 de DIALNORM (saída NÃO da etapa 802), então, os metadados deDIALNORM são atualizados com valor de DIALNORM de verificação (803).Como foi determinado que o valor de DIALNORM normal está incorreto edeverá ser atualizado, é possível que os metadados de compressão de faixadinâmica de AC-3 relacionados também estejam incorretos. Portanto, a informação de compressão de faixa dinâmica deverá ser analisada e, se estiver correta, apenas o parâmetro de metadados de DIALNORM é atualizado.Se a informação de compressão de faixa dinâmica estiver incorreta, então,também deverá ser atualizada. Os detalhes dessa análise e da atualização sãoaqui explicados em conexão com as etapas 409 a 413 das figuras 4 e 6b).
Dados de Verificação Não no Fluxo de Bits de AC-3Metadados de DIALNORM Corretos
Conforme mostrado no exemplo da figura 8, se os dados de veri-ficação de DIALNORM não estão contidos dentro do fluxo de bits de AC-3(saída NÃO da etapa 801), então, o fluxo de bits de AC-3 pode ser decodificado para áudio (por exemplo, áudio codificado de PCM) (etapa 804) semaplicação do parâmetro de DIALNORM e dos parâmetros de controle de faixa dinâmica relacionados ao áudio (porque aqueles parâmetros de metadados podem estar incorretos) de modo que o conteúdo de áudio decodificadoestá no mesmo nível que a entrada para o codificador que foi usada a fim decriar o fluxo de bits. A seguir, o nível de DIALNORM do áudio decodificado émedido (etapa 805). Essa medição de DIALNORM pode ser a mesma que a realizada por Medir Nível de Diálogo 104 descrito acima. Em seguida à medição do nível de diálogo na etapa 805, o valor medido é comparado, na etapa 806, ao valor de metadados de DIALNORM de AC-3 do fluxo de bits deAC-3 de entrada. Conforme mostrado em seguida à saída SIM da etapa 806,se aquele valor de DIALNORM estiver correto (saída SIM da etapa 806), o valor de DIALNORM original e a informação de compressão de faixa dinâmica original relacionados do fluxo de bits de AC-3 de entrada são aplicadosao áudio decodificado produzido pelo Decodificador de AC-3 da etapa 804para proporcionar um fluxo de bits de áudio de AC-3 ao qual os valores corretos de parâmetros de compressão de faixa dinâmica e DIALNORM foram aplicados.
Dados de Verificação Não No Fluxo de Bits de AC-3
Metadados de DIALNORM Incorretos
Quando os metadados de DIALNORM existentes estão incorretos (saída NÃO da etapa 806), é necessário ajustar o valor de DIALNORM ao valor de DIALNORM medido da etapa 805 e determinar nova informaçãode compressão de faixa dinâmica daquele valor de parâmetro de DIALNORM medido. Isso pode ser realizado na etapa 815, etapa que pode ser a mesma que a etapa 412. O valor de DIALNORM medido e a informação decompressão de faixa dinâmica determinada pela etapa 815 podem, então,ser aplicados, na etapa 816, ao áudio digital ou analógico decodificado proporcionado pela etapa 804.Subconjuntos da Figura 8
Conforme mencionado acima, todo o processo da figura 8 ousubconjuntos do processo ou dispositivos da figura 8 empregando etapasdos processos podem ser empregados.
Um subconjunto útil e barato do processo da figura 8 é empregaras etapas 801 a 803 e 814. Se existe informação de verificação no fluxo debits (801 é SIM), as etapas 802,803 e 814 operam conforme descrito acimapara decodificar o fluxo de bits de AC-3. Sé nenhuma informação de verificação existe no fluxo de bits (a saída 801 é NÃO), o fluxo de bits pode ser decodificado usando seu valor de DIALNORM existente e valores de parâmetros de compressão de faixa dinâmica relacionados ou pelo uso de umvalor de DIALNORM padrão e valores de parâmetros de compressão de faixa dinâmica relacionados.
Outro subconjunto útil, mas um pouco mais caro, do processo da figura 8 é empregar todas, exceto a etapa 815. Isso evita a computação requerida na determinação da informação de compressão de faixa dinâmicarelacionada com o DIALNORM medido. A operação é como já descrito emconexão com a figura 8, exceto que, quando a etapa 806 determina que oDIALNORM existente não está correto, o fluxo de bits de AC-3 da entrada pode ser decodificado pelo ajuste de DIALNORM e valores de parâmetrosde faixa dinâmica relacionados para um valor padrão.
Antecedentes Adicionais
Alocação de Bits e Bits de Dados Não Utilizados
Um diagrama em blocos de codificador de AC-3 simplificado émostrado na figura 9e. Amostras de áudio de PCM são introduzidas na função de transformação de domínio de freqüências 902. Uma transformaçãodiscreta de co-seno modificada (MDCT - modified discrete cosine transform)de 512 pontos com 50% de sobreposição é usada para colocar em janelasos dados de entrada a fim de evitar artefatos marginais, processamento em blocos. No caso de sinais transitórios, desempenho temporal aperfeiçoado(pré-ruído transitório reduzido) é obtido pelo uso de uma técnica de comutação em blocos em que duas transformações de 256 pontos são computadas,em lugar da transformação de 512 pontos. Os coeficientes de transformaçãoda função 902 são aplicados a um processo de ponto flutuante em blocos904, que segmenta cada coeficiente de transformação em pares de expoente e mantissa. As mantissas dos coeficientes de transformação são quantificadas na função de quantificação 906 com um número variável de bits atri-buídos pela função de alocação de bits 908 que operam em um modelo dealocação de bits paramétrico em resposta aos expoentes de ponto de flutuação em blocos.
O modelo de alocação de bits de AC-3 usa princípios de mascaramento de psicoacústica para selecionar o número de bits alocados paracada mantissas em uma dada banda de freqüências. Dependendo da extensão do mascaramento, algumas mantissas podem receber muito poucos bitsou mesmo nenhum bit. Isso reduz o número de bits requeridos para representar o áudio fonte, à custa de ruído adicionado (embora inaudível).
Ao contrário de alguns outros sistemas de codificação, AC-3 nãopassa os resultados de alocação de bits para o decodificador no fluxo de bitsde áudio comprimido. Na verdade, uma abordagem paramétrica é tomadaem que o codificador de áudio constrói seu modelo de mascaramento combase nos expoentes de coeficientes de transformação e uns poucos parâmetros dependentes de sinal chave. Esses parâmetros são passados da funçãode alocação de bits 908 para a função de compactação de fluxo de bits 910para a passagem para o decodificador através do fluxo de bits, requerendomenos bits do que seria necessário para transmitir os valores brutos de alocação de bits. A função de compactação de fluxo de bits 910, que gera ofluxo de bits de áudio codificado também recebe os expoentes e as mantissas quantificadas para a inclusão no fluxo de bits. No decodificador, a alocação de bits é reconstruída com base nos expoentes recebidos e nos parâmetros de alocação de bits. Essa disposição constitui uma alocação de bits adaptativa para retorno/ emissão.
A eficiência de codificação de AC-3 se aperfeiçoa à medida queo número de canais fonte aumenta devido a duas características principais:um grupo global de bits e acoplamento de alta freqüência. A técnica do gru-po global de bits permite que o alocador de bits distribua bits disponíveis en-tre os canais de áudio em uma base de conforme-necessário. Se um oumais canais estão inativos em um instante de tempo específico, os canaisrestantes recebem mais bits do que normalmente.
No sistema de compressão de áudio de AC-3, o processo dealocação de bits emprega uma busca finita. Em cada iteração da busca, oparâmetro de sinal para ruído (SNR) é variado para controlar a alocação debits. Isso também afeta os valores de outros parâmetros. No final da busca,se o número de bits usados excede o número de bits alocados, a última alo-cação legal é usada. Freqüentemente, essa alocação não é capaz de usartodos os bits disponíveis, assim deixando bits não utilizados ou residuais.
Conforme discutido previamente, o fluxo de bits de áudio codifi-cado serial de AC- para 3 é composto de uma seqüência de quadros cons-truídos conforme mostrado, de um modo geral, na figura 9a. Cada quadro deAC-3 representa um intervalo de tempo constante de 1536 amostras dePCM através de todos os canais codificados e contém seis blocos de áudiocodificado (ABO a AB5), cada um representando 256 novas amostras deáudio. Cada quadro de AC-3 tem um tamanho fixo (um de diversos tama-nhos em números de bits na faixa de 64 a 1920 bits) que depende da taxade amostra de PCM (32 kHz, 44,1 kHz ou 48 kHz) e a taxa de bits de áudiocodificado ( valores discretos na faixa de 32 kbps a 640 kbps). O cabeçalhode informação de sincronização (SI) no começo de cada quadro contém in-formação necessária para adquirir e manter a sincronização. O cabeçalho deinformação de fluxo de bits (BSI) segue o campo de SI e contém parâmetrosque descrevem o serviço de áudio codificado. Os campos de SI e BSI des-crevem a configuração de fluxo de bits, incluindo taxa de amostra, taxa dedados, número de canais de áudio codificado os e diversos outros elementosde sistemas - nível. Em seguida aos blocos de áudio codificado (ABO a AB5)está um campo de dados auxiliar (AUX). No final de cada quadro está umcampo de verificação de erros que inclui uma palavra de CRC (palavra decódigo de correção de redundância cíclica) para a detecção de erros. Adi-cionalmente, outra palavra de CRC está localizada no cabeçalho de SI.Embora a largura dos elementos do fluxo de bits na figura 9a,em geral, sugira com um número atípico de bits em cada elemento, a figuranão está em escala. O número de bits alocados e usados nos blocos de áudio e no campo AUX é variável. O bloco ABO é mostrado mais largo do queos outros blocos porque cada quadro é essencialmente independente deoutros quadros e os blocos AB1 a AB5 podem compartilhar informação conduzida pelo bloco ABO, sem repetir a informação, permitindo que os blocosAB1 a AB5 conduzam menos bits do que o bloco ABO. Além do possívelcompartilhamento, blocos de áudio também têm comprimento variável porcausa do número variável de bits que podem ser atribuídos aos dados demantissas quantificadas em cada bloco.
Conforme explicado na Patente norte-americana 6.807.528, citada acima, existem bits não utilizados em um quadro quando a função dealocação de bits no codificador não utiliza todos os bits disponíveis para codificar o sinal de áudio. Isso ocorre, se a alocação de bits final não chegar ãusar todos os bits disponíveis ou se o áudio de entrada não requer todos osbits disponíveis. Como esses bits não utilizados deverão ser colocados emalguma parte no quadro a fim de que o quadro tenha um tamanho fixo obrigatório, um codificador insere bits fictícios ou nulos no fluxo de bits a fim depreencher o comprimento do quadro. Esses bits nulos são inseridos em um"campo de salto" em um ou mais dos blocos de áudio (conforme mostradona figura 9d) bem como no campo AUX. Cada campo de salto aceita bitsnulos em bytes de 8 bits, enquanto campo aux aceita até 7 bits nulos paraproporcionar "sintonia fina" do comprimento do quadro e assegurar que a palavra de CRC final ocorra nos últimos 16 bits do quadro. Na prática, os bits nulossão bits randômicos. Esses bits nulos são bits residuais que não conduzem informação útil. É um aspecto da presente invenção usar os valores de alguns oude todos esses bits nulos para conduzir bits portadores de informação relacionados com alguns dos parâmetros de AC-3 contidos dentro do fluxo de bits(particularmente o parâmetro DIALNORM mostrado na figura 9c).
Os bytes nulos em campos de salto e no campo AUX são salta-dos ou ignorados pelo decodificador. Embora o decodificador de AC-3 sejacapaz de identificar bits nulos e ignorá-los, o número de bits nulos e sua localização no fluxo de bits não são conhecidos a priori (seu número e localização variam de quadro para quadro, isto é, os campos de salto são de tamanho variável e suas posições de partida nos blocos AB1 a AB5 variam e,similarmente, o campo AUX é de tamanho variável e sua posição de partidavaria) nem é possível discernir seu número e localização por mera inspeçãodo fluxo de bits de AC-3 (bits nulos são randômicos e são indistinguíveis dosoutros dados no fluxo de bits).
Cada bloco de áudio (ABO a AB5) começa com "dados fixos"compostos de elementos de fluxo de bits e cujos tamanhos de palavras e debits são conhecidos a priori (isto é, esses elementos de dados fixos têm umnúmero pré-atribuído de bits e não são atribuídos bytes por alocação debits). Os dados fixos são uma coleção de parâmetros e flags, incluindo flagsde comutação de bloco, acoplamento de parâmetros de informação, expoentes e alocação de bits. Em seguida, os dados fixos são dados de "campo desalto" tendo um tamanho mínimo de 1 bit, se o campo de salto não contémbits nulos e um tamanho máximo de 522 bits, se ele contém bits nulos. Umapalavra de um bit, o conteúdo mínimo de um campo de salto, indica se ocampo de salto inclui bits de nulos. Se inclui, a seguir, uma palavra de 9 bits indica o número de bytes de bits nulos. Isso é seguido pelos bytes nulos. Emseguida ao salto estão os dados de mantissas. O tamanho dos dados demantissas é variável e é determinado por alocação de bits.
Se um bloco de áudio particular contém um campo de salto tendo bits nulos é determinado pelas seguintes regras: 1) o tamanho combinado dos campos de SYNCINFO ( a saber, SYNCWORD, a primeira palavra deCRC, a palavra de código de freqüência de amostragem e a palavra de código de tamanho de quadros), os campos de BSI, o bloco de áudio 0 (ABO) e o bloco de áudio 1 (AB1) nunca excede 5/8 do quadro e 2) o tamanhocombinado dos dados de mantissas de bloco de áudio 5 (AB5), do campo de dados AUX e do campo de verificação de erros nunca excede os 3/8 finaisdo quadro. A configuração de 5/8 e 3/8 é usada para reduzir a latência (aprimeira palavra de CRC se aplica aos primeiros 5/8 do quadro, permitindodecodificação mais rápida). Em princípio, não era para a configuração de 5/8e 3/8, todos os bits nulos poderiam ser inseridos no campo AUX sem a necessidade de um ou mais campos de salto.
O campo de dados AUX tem duas funções. Uma função docampo de dados, mencionada acima, é proporcionar uma sintonia fina docomprimento de quadro e assegurar que os últimos 16 bits do quadro sãousados para a segunda palavra de CRC. Até sete bits nulos são inseridos nqcampo AUX. Uma segunda função do campo, que é opcional e é independente da primeira função, é conduzir informação adicional (à custa de uso de bits que de outro modo poderiam ser atribuídos às mantissas nos blocos deáudio. O último bit do campo de dados indica se existe algum dado auxiliaropcional. Se o bit indica que existe, a palavra de 14 bits precedente indica ocomprimento dos dados auxiliares e os bits precedentes seguintes sao osdados auxiliares. Bits nulos, se houver, por sua vez, precedem os dados auxiliares no campo. Se o campo auxiliar não tem dados auxiliares, os bits nulos, se houver, precedem o único bit no final do campo de dados AUX queindica se existem dados auxiliares. Desse modo, se há ou não dados auxiliares, podem ou não ser bits nulos no campo AUX.
Não há bits nulos no campo AUX, se não houver bits não utilizados (é possível que não exista qualquer bit não utilizado em um dado quadro, mas a probabilidade de que issoocorra em muitos quadros consecutivos é extremamente baixa) ou, se o número de bits nulos for divisível por oito e, desse modo, todos os bits nulos são conduzidos em um ou mais campos de salto.
Na disposição de codificação de AC-3 padrão, bits nulos no campo AUX e/ ou no campo de um ou mais campos de salto, são bits nãoutilizados ou residuais (isto é, eles não conduzem informação útil). De acordo com aspectos da presente invenção, conforme discutido acima, alguns ou todos esses bits não utilizados são substituídos por bits de verificação demetadados, condutores de informação, enquanto se preserva a compatibilidade total com codificadores e decodificadores de AC-3 existentes e evitando qualquer degradação dos sinais de áudio codificados.
Os novos bits condutores de informação, de preferência, se con-formam a um formato ou sintaxe conhecido ou pré-determinado de modoque eles podem ser recuperados por um processo de decodificador de verificação de um parâmetro de metadados (por exemplo, DIALNORM). A substituição de bits residuais por bits de verificação de metadados pode ser realizada após qualquer codificador de AC-3 válido criar um fluxo de bits de AC-3. Por exemplo, um codificador de AC-3 não modificado, convencional, pode ser empregado para gerar o fluxo de bits de AC-3 padrão. O fluxo de bitsresultante é analisado para identificar as localizações de alguns ou de todosos bits não utilizados em cada quadro. Alguns ou todos os bits não utilizadosidentificados são, então, substituídos por bits que conduzem informação (bitsde dados de verificação de DIALNORM) que são embutidos em localizaçõesanteriormente ocupadas por bits não utilizados. Como alguns dos dados sãomudados (alguns ou todos os bytes nulos são mudados), a soma de verificação para todo o quadro é recalculada e a segunda palavra de CRC, que se aplica ao quadro inteiro, é substituída por uma nova palavra de CRC e, se osdados nos primeiros 3/8 do quadro forem mudados, a soma de verificaçãopara aquela porção do quadro é recalculada e a primeira palavra de CRC,que se aplica aos primeiros 3/8 do quadro também é substituída por umanova palavra de CRC.
Alternativamente, em lugar de substituir alguns ou todos os bitsnão utilizados em um fluxo de bits de AC-3 com bits condutores de informação em seguida à codificação padrão, um codificador de AC-3 modificado que inclui análise adicional e capacidade de verificação de metadados podeinserir a condutores de informação em algumas ou em todas as posições de bits não utilizados de um quadro em lugar de bits nulos randômicos durante o processo de codificação.
Se o fluxo de bits de AC-3 é modificado antes ou depois do processo de codificação, o fluxo de bits modificado resultante parece o mesmo que para um decodificador de AC-3 convencional. Um decodificador de AC-3não modificado que recebe o fluxo de bits modificado ignora os bits condutores de informação da mesma maneira que ignora ou salta sobre bits nulos nas mesmas localizações de bits. Os bits condutores de informação quesubstituem bits não utilizados podem ser recuperados em um decodificadorde AC-3 modificado ou em um processo de análise de metadados de AC-3especial, que identifica as localizações dos bits não utilizados em um quadro, detecta os dados nas localizações de bits não utilizados e relata os resultados da análise de verificação de metadados realizada no fluxo de bitsde AC-3. Em ambos os casos, a recuperação e a análise dos dados de verificação que substituem os bits não utilizados no fluxo de bits de AC-3 nãoperturbam o restante do fluxo de bits. Desse modo, os aspectos da presenteinvenção podem preservar a qualidade de áudio de duas maneiras: não usabits que de outro modo seriam usados para áudio e pode evitar a necessidade de decodificar que as recodificar o fluxo de bits (embora isso possa sernecessário e útil, conforme descrito acima).
Nível de Diálogo de AC-3 e Parâmetros de Metadados de Compressão
Conforme mencionado acima, incluído nos metadados de quadros de AC-3 está um parâmetro que indica o nível de audibilidade da fala ou o diálogo contido no áudio comprimido. Esse parâmetro é chamado DlALNORM e a intenção desse parâmetro é que antes que um item de áudio seja codificado ou os dados sejam comprimidos, o nível predominante dodiálogo ou fala no item seja medido. Essa medição é, então, usada para ajustar o parâmetro de DIALNORM em cada quadro do fluxo de bits contendo o item de áudio comprimido. Durante a reprodução do fluxo de bits, o decodificador de AC-3 usa o parâmetro DIALNORM para modificar o nível de reprodução ou a audibilidade do item, de modo que a audibilidade percebida do diálogo esteja em um nível consistente.
A figura 10a mostra um exemplo contendo três itens de áudiodiferentes. O nível digital é o nível do conteúdo de áudio de dados comprimidos em relação a uma onda senoidal digital em escala completa (0 dB FS).O nível máximo e o mínimo para cada item são mostrados, junto com o nívelpredominante do diálogo. O parâmetro de DIALNORM para cada item é onível do diálogo, arredondado para unidades de 1 dB. A figura 10b mostracomo, durante a reprodução, o decodificador forma a escala do nível de cada item de modo que o nível ou a audibilidade do diálogo para cada itemseja o mesmo, ou muito similar. Para o sistema de AC-3, o nível de referência em relação ao qual o diálogo de cada item é escalonado é -31 dB FS.
Esse nível digital de referência pode, então, ser calibrado em um sistema dereprodução para um nível desejado de pressão do som.
O uso do parâmetro de DIALNORM ém AC-3 proporciona aosouvintes uma experiência de audição mais consistente e previsível, por meioda redução das diferenças dramáticas de audibilidade que existem entre osdiferentes itens de áudio que são criados por pessoas diferentes, em diferentes ambientes de audição e para fins diferentes. Contudo, o parâmetro de DIALNORM pode estar incorreto pelas razões discutidas acima.
Compressão de Faixa Dinâmica
Também incluídos nos metadados de quadros de AC-3 estãoparâmetros que, se aplicados ao áudio durante a reprodução, servem parareduzir a faixa dinâmica do conteúdo de áudio. Isto é, fazer as partes maisbarulhentas do áudio mais silenciosas e as partes silenciosas do áudio maisaltas. Esses parâmetros de compressão de dados de faixa dinâmica sãochamados COMPR e SYNRNG e são calculados, automaticamente, durantea codificação de um fluxo de bits de AC-3. Veja a figura 9.
A capacidade para reduzir a faixa dinâmica de áudio é útil emuma variedade de situações. Por exemplo, quando vendo um filme tarde danoite, freqüentemente, é necessário ouvir em um volume de reprodução reduzido, de modo a não perturbar o sono dos membros da família ou de ocupantes de moradias adjacentes. Como os filmes tendem a ter uma faixa dinâmica muito grande, o volume de reprodução reduzido resulta em muito de o filme ser silencioso demais para ser audível. O uso de compressão de faixa dinâmica ajuda a aumentar as porções silenciosas, tornando-as audíveise a reduzir as porções mais barulhentas, tornando-as menos irritante.
Os parâmetros de compressão de faixa dinâmica são calculadosem referência ao nível do diálogo, conforme indicado pelo parâmetro de DlALNORM. Isso assegura que o nível médio do diálogo fica inalterado e queapenas as porções mais barulhentas ou mais silenciosas do item de áudio são alteradas.A figura 12 mostra um exemplo contendo três itens de áudio diferentes. A figura 12a mostra o nível médio de diálogo e a faixa dinâmica dositens de áudio não processadas. A figura 12b mostra como, durante a reprodução, a aplicação da compressão de faixa dinâmica e do parâmetro de DlALNORM resulta um em um nível médio de diálogo consistente e de um sinal de saída de faixa dinâmica reduzido através de todos os três itens.
Como os parâmetros de compressão de faixa dinâmica são calculados em relação ao nível de diálogo, seu uso conta com criadores deconteúdo medindo e ajustando o parâmetro de DIALNORM corretamente. Sehouver um erro entre o nível do diálogo, conforme indicado pelo parâmetroDIALNORM e o nível verdadeiro do diálogo no conteúdo de áudio, então, éprovável que o diálogo mostre mudanças de ganho audíveis, dinâmicas eindesejadas, devido à compressão.
DIALNORM2. COMPR2 e DYNRNG2
Sob a maior parte das circunstâncias, o sistema de AC 3 usa onível único de diálogo e um ajuste único de parâmetros de informação defaixa dinâmica para todos os canais. Contudo, AC-3 inclui um modo de operação que permite aos dois canais operarem independentemente; isto é, cada canal tem nível de diálogo e informação de faixa dinâmica independentes.
Desse modo, o segundo dos dois canais usa os parâmetros DIALNORM2,COMPR2 e DYNRNG2.(Veja a figura 9). Como DIALNORM2, COMPR2 eDYNRNG2 são interpretados e usados exatamente da mesma maneira queDIALNORM, COMPR e DYNRNG, apenas a operação deste último é descrita neste documento.
Implementação
A invenção pode ser implementada em hardware e software ouuma combinação de ambos (por exemplo, arranjos lógicos programáveis). Amenos que de outro modo especificado, os algoritmos ou processos incluídos como parte da invenção não estão relacionados, inerentemente, comqualquer computador particular ou outro aparelho. Em particular, várias máquinas para fins gerais podem ser usadas com programas escritos de acordocom as técnicas aqui, ou pode ser mais conveniente construir aparelho maisespecializado (por exemplo, circuitos integrados) para realizar as etapas dométodo requeridas. Desse modo, a invenção pode ser implementada em umou mais programas de computador, executando em um ou mais sistemasprogramáveis de computador, cada um compreendendo pelo menos um processador, pelo menos um sistema de armazenamento de dados (incluindomemória volátil e não volátil e/ ou elementos de armazenamento), pelo menos um dispositivo ou porta de entrada e pelo menos um dispositivo ou portade saída. Código de programa é aplicado aos dados de entrada para desempenhar as funções aqui descritas e gerar informação de saída. A informação de saída é aplicada a um ou mais dispositivos de saída, de modoconhecido.
Cada um desses programas pode ser incrementado em qualquerlinguagem de computador desejada (incluindo linguagens de máquina, assembly ou procedural de alto nível, lógica ou de programação orientada emobjeto) para se comunicar com sistema de computador. Em qualquer caso, alinguagem pode ser uma linguagem compilada ou interpretada.
Será apreciado que algumas etapas ou funções mostradas nasfiguras exemplificativas realizam múltiplas sub-etapas e também podem sermostradas como etapas ou funções múltiplas em lugar de uma etapa ou função. Também será apreciado que vários dispositivos, funções, etapas e processos mostrados e descritos aqui em vários exemplos podem ser mostrados combinados ou separados de outras maneiras que não aquelas mostradas nas áreas seguras. Por exemplo, quando implementadas por seqüências de instrução de software de computador, várias funções e etapas dasfiguras exemplificativas podem ser implementadas através de seqüências deinstrução de software de multitarefas, executando em hardware de processamento de sinal digital adequado, em cujo caso os vários dispositivos efunções nos exemplos mostrados nas figuras podem corresponder às porções das instruções do software.
Cada um desses programas de computador, de preferência, éarmazenado ou baixado para um meio ou dispositivo de armazenamento(por exemplo, memória de estado sólido ou meio ou meio magnético ou óti-co) legível por um computador programável para fins gerais ou especiais,para a configuração e operação do computador, quando o meio ou dispositivo de armazenamento é lido pelo sistema de computador para realizar osprocedimentos aqui descritos. O sistema da invenção também pode ser considerado para ser implementado como um meio de armazenamento legívelem computador, configurado com um programa de computador, onde o meiode armazenamento assim configurado faz com que um sistema de computador opere de maneira específica e pré-definida para desempenhar as funções aqui descritas.
Um número de modalidades da invenção foi descrito. Não obstante, será compreendido que várias modificações podem ser feitas, semafastamento do espírito e do escopo da invenção. Por exemplo, algumas dasetapas aqui descritas podem ser independentes de ordem e, assim, podemser realizadas em uma ordem diferente daquela descrita.

Claims (28)

1. Fluxo de bits digital, compreendendo bits de dados representando áudio, metadados destinados à estarem corretos para o áudio e informação de verificação de metadados, em que todo ou parte dos metadadospodem não estar corretos para o áudio, a referida Informação de verificaçãode metadados sendo utilizada para detectar se os metadados estão ou nãocorretos para o áudio e, se não corretos, mudá-los de modo que fiquem corretos.
2. Fluxo de bits digital, de acordo com a reivindicação 1, em queinformação de verificação de metadados utilizáveis para detectar e mudarmetadados inclui uma cópia, ou uma cópia de dados comprimidos, de umaversão correta desses metadados.
3. Fluxo de bits digital, compreendendo bits de dados representando o áudio, metadados para o áudio e informação de verificação de metadados, a referida informação de verificação de metadados incluindo umacópia, ou cópia de dados comprimidos, dos referidos metadados, a referidainformação de verificação sendo utilizada para detectar se os metadados e asua cópia estão ou não dentro de uma diferença limite um do outro e, se nãoestiverem, substituir os metadados pela copa.
4. Fluxo de bits digital, de acordo com qualquer uma das reivindicações de 1 a 3, em que a informação de verificação de metadados estácriptografada.
5. Fluxo de bits digital, de acordo com qualquer uma das reivindicações de 1 a 4, em que os bits representando a informação de verificaçãode metadados substituem todos ou alguns de uma pluralidade de bits no fluxo de bits, que, comumente não conduzem informação.
6. Fluxo de bits digital, de acordo com qualquer uma das reivindicações de 1 a 4, em que a informação de verificação de metadados é esteganograficamente codificada no fluxo de bits.
7. Fluxo de bits digital, de acordo com qualquer uma das reivindicações de 1 a 6, em que o áudio é áudio de dados comprimidos.
8. Codificador que gera um fluxo de bits digital de acordo comqualquer uma das reivindicações de 1 a 7.
9. Decodificador, recebendo um fluxo de bits digital de acordocom qualquer uma das reivindicações de 1 a 7, em que o decodificador decodifica os bits de dados representando áudio, usando os referidos metadados e a referida informação de verificação de metadados.
10. Decodificador, de acordo com a reivindicador 9, em que odecodificador na decodificação de bits representando áudio muda os metadados usando a referida informação de verificação de metadados e usa esses metadados mudados na decodificação do áudio.
11. Processo para gerar um fluxo de bits digital em resposta aoáudio, o processo compreendendo:geração de metadados que está correta para o áudio;geração de informação de verificação de metadados, a informação de verificação de metadados sendo utilizada para detectar se os metadados estão ou não corretos para o áudio e, se não corretos, mudá-los demodo que eles fiquem corretos; emontagem de um fluxo de bits digital que inclui bits de dadosrepresentando o áudio, os metadados e a informação de verificação de metadados.
12. Processo para gerar um fluxo de bits digital em resposta aoáudio, o processo compreendendo:geração de metadados para o áudio;geração de informação de verificação de metadados, a referidainformação de verificação de metadados incluindo uma cópia, ou uma cópiade dados comprimidos, dos referidos metadados, a informação de verificação de metadados sendo utilizável para detectar se os metadados e suascópias estão ou não dentro de uma diferença limite um do outro e, se elesnão estão, substituir os metadados pela cópia; emontagem de um fluxo de bits digital que inclui bits de dadosrepresentando o áudio, os metadados e a informação de verificação de metadados.
13. Processo, de acordo com a reivindicação 11 ou 12, em que areferida geração de metadados gera metadados baseados em uma medidado áudio.
14. Processo, de acordo com a reivindicação 13, em que a referida medida do áudio é uma medida da audibilidade do áudio.
15. Processo, de acordo com qualquer uma das reivindicaçõesde 11 _ a 14, em que a informação de verificação de metadados utilizada paradetectar e mudar os metadados inclui uma cópia, ou uma cópia de dadoscomprimidos, de uma versão correta desses metadados.
16. Processo, de acordo com qualquer uma das reivindicaçõesde 11 a 15, em que a informação de verificação é criptografada.
17. Processo, de acordo com qualquer uma das reivindicaçõesde 11 a 16, em que bits representando a informação de verificação de metadados substituem todos ou alguns de uma pluralidade de bits no fluxo de bitsque, comumente, não conduzem informação.
18. Processo, de acordo com qualquer uma das reivindicaçõesde 11 a 16, em que a informação de verificação é esteganograficamente codificada no fluxo de bits.
19. Processo para tratar um fluxo de bits de áudio digital queinclui bits de dados representando o áudio, metadados destinados a estaremcorretos para o áudio, em que todos ou parte desses metadados podem nãoestar corretos para o áudio, e que podem incluir bits de dados representandoinformação de verificação de metadados que pode ser usada para detectarse os metadados estão ou não corretos para o áudio e, se não corretos, mudá-los de modo que fiquem corretos, compreendendo:determinação se a informação de verificação de metadados está presente no fluxo de bits; ese a informação de verificação de metadados está presente, determinação se ela verifica a correção de pelo menos parte dos metadados;se a informação de verificação de metadados verifica a correçãoda referida pelo menos parte dos metadados, deixando o fluxo de bits inalterado; se a informação de verificação de metadados não verifica a cor-reção da referida pelo menos parte dos metadados, uso da mesma para corrigir metadados.
20. Processo para tratar um fluxo de bits de áudio digital queinclui bits de dados representando o áudio, metadados destinados a estaremcorretos para o áudio, em que todos ou parte, dos metadados podem nãoestar corretos para o áudio e que podem incluir bits de dados representandoinformação de verificação de metadados que pode ser usada para detectarmetadados que não estão corretos para o áudio, compreendo:determinação se a informação de verificação de metadados estápresente no fluxo de bits;se a informação de verificação de metadados não estiver presente, determinação se pelo menos parte dos metadados estão corretos;se a referida pelo menos parte dos metadados está correta, inserção de informação de verificação de metadados para a referida pelo menos parte dos metadados no fluxo de bits; ese a referida pelo menos parte dos metadados não está correta,ajuste da referida pelo menos parte dos metadados para um valor padrão.
21. Processo para tratar um fluxo de bits de áudio digital queinclui bits de dados representando o áudio, metadados destinados a estaremcorretos para o áudio, em que todos ou parte dos metadados podem nãoestar corretos para o áudio e que podem incluir bits de dados representandoinformação de verificação de metadados que pode ser usada para detectarmetadados que não estão corretos para o áudio e, se não corretos, mudá-losde modo que fiquem corretos, compreendendo:determinação se a informação de verificação de metadados estápresente no fluxo de bits; ese a informação de verificação de metadados estiver presente,determinação se ela verifica a correção de pelo menos parte dos metadados;se a informação de verificação de metadados verifica a correção,deixar o fluxo de bits inalterado;se a informação de verificação de metadados não verifica a correção, corrigir a referida pelo menos parte dos metadados;se a informação de verificação de metadados não está presente,determinar se pelo menos parte dos metadados estão corretos;se a referida pelo menos parte dos metadados estiver correta,deixar o fluxo de bits inalterado; ese a referida pelo menos parte dos metadados não estiver correta, ajuste da referida pelo menos parte dos metadados para um valor padrão.
22. Processo para tratar um fluxo de bits de áudio digital queinclui bits de dados representando o áudio, metadados de DIALNORM e metadados de compressão de faixa dinâmica relacionados destinados a estarem corretos para o áudio, em que todos ou parte dos metadados podemnão estar corretos para o áudio e que podem incluir bits de dados representando informação de verificação de metadados que pode ser usada para detectar se o valor de metadados de DIALNORM está correto ou não para o áudio e, se não corretos, mudá-los de modo que fiquem corretos, compreendendo:determinação se a informação de verificação de metadados estápresente no fluxo de bits; ese a informação de verificação de metadados estiver presente,determinação se ela verifica a correção do valor de metadados de DIAL-NORM;se a informação de verificação de metadados verifica a correção,deixar o fluxo de bits inalterado;se a informação de verificação de metadados não verifica a correção, mudar o valor de metadados de DIALNORM de modo que esteja correto para o áudio;se a informação de verificação de metadados não estiver presente, determinar se o valor de metadados de DIALNORM está correto para o áudio através da decodificação do fluxo de bits, sem usar o valor de metadados de DIALNORM e metadados de compressão de faixa dinâmica relacionados, medição da audibilidade do áudio decodificado, para determinarum valor de DIALNORM medido e comparando o valor de metadados deDIALNORM do fluxo de bits com o valor de DIALNORM medido;se o referido valor de metadados de DIALNORM no fluxo de bitsestá dentro de uma diferença limite do valor de metadados de DIALNORMmedido, deixando o fluxo de bits inalterado;se os metadados de DIALNORM não estão dentro do limite, determinação se o valor de metadados de DIALNORM medido está dentro da faixa valores válidos de DIALNORM;se a audibilidade medida estiver dentro da faixa de valores demetadados de DIALNORM válidos, determinação de novos metadados decompressão de faixa dinâmica e re-compactação do fluxo de bits com o valorde metadados de DIALNORM medidos e os metadados de compressão defaixa dinâmica relacionados e com informação de verificação de metadadoscorreta para o valor de DIALNORM medido; ese a audibilidade medida não está dentro da faixa dos valores válidos de DIALNORM, mudar o ganho do áudio decodificado para trazer aaudibilidade para dentro da faixa de valores válidos de DIALNORM, determinando novos metadados de compressão de faixa dinâmica e re-codificandoo fluxo de bits usando o áudio com ganho ajustado, o valor de metadados deDIALNORM e os metadados de compressão de faixa dinâmica, recentemente determinados.
23. Processo para tratar um fluxo de bits de áudio digital queinclui bits de dados representando o áudio, metadados de áudio e informação de verificação de metadados de áudio, a referida informação de verificação de metadados incluindo uma cópia, ou uma cópia com dados comprimidos, dos referidos metadados de áudio, a referida informação de verificaçãosendo utilizável para detectar se os metadados e essa sua cópia estão ounão dentro de uma diferença limite uma da outra e, se eles não estão, substituir os metadados pela cópia, compreendendo:mudança dos metadados; e mudança da informação de verificação de modo que os metadados e a cópia, ou a cópia de dados comprimidos, dos metadados estejam dentro da referida diferença limite um do outro.
24. Processo para decodificar um fluxo de bits de áudio digitalque inclui bits de dados representando o áudio, metadados destinados a estarem corretos para o áudio, em que todos ou parte dos metadados podemnão estar corretos para o áudio e que podem incluir bits de dados representando informação de verificação de metadados utilizável para detectar se osmetadados estão ou não corretos para o áudio e, se não corretos, mudá-losde modo que fiquem corretos, compreendendo:determinação se a informação de verificação de metadados estápresente no fluxo de bits;se a informação de verificação de metadados estiver presente,determinação se ela verifica a correção de pelo menos parte dos metadados;se a informação verifica a correção, decodificar o fluxo de bitsusando os referidos metadados;se a informação de verificação de metadados não verifica a correção da referida pelo menos parte dos metadados, usá-la para corrigir osmetadados e decodificar o fluxo de bits usando os metadados corrigidos; ese a informação de verificação de metadados não estiver presente no fluxo de bits, decodificar o fluxo de bits usando os metadados nofluxo de bits ou decodificar o fluxo de bits usando metadados padrão.
25. Processo para decodificar um fluxo de bits de áudio digitalque inclui bits de dados representando o áudio, metadados destinados a estarem corretos para o áudio, em que todos ou parte dos metadados podemnão estar corretos para o áudio e que podem incluir bits de dados representando informação de verificação de metadados utilizável para detectar se osmetadados estão ou não corretos para o áudio e, se não corretos, mudá-losde modo que fiquem corretos, compreendendo:determinação se a informação de verificação de metadados estápresente no fluxo de bits;se a informação de verificação de metadados estiver presente,determinação se ela verifica a correção de pelo menos parte dos metadados;se a informação verifica a correção, decodificar o fluxo de bitsusando os referidos metadados;se a informação de verificação de metadados não verifica a correção da referida pelo menos parte dos metadados, usá-la para corrigir os metadados e decodificar o fluxo de bits usando os metadados corrigidos; ese a informação de verificação de metadados não estiver presente no fluxo de bits, determinar se a referida,pelo menos parte dos metadados está correta;se a referida pelo menos parte dos metadados estiver correta, decodificação do fluxo de bits usando os referidos metadados; ese a referida pela menos parte dos metadados não estiver correta, decodificação do fluxo de bits com a referida pelo menos parte dos metadados ajustada para um valor padrão.
26. Processo para decodificar um fluxo de bits de áudio digital que inclui bits de dados representando o áudio, metadados de DIALNORM e metadados de faixa dinâmica relacionados destinados a estarem corretos para o áudio, em que todos ou parte dos metadados podem não estar corretos para o áudio e que podem incluir bits de dados representando informação de verificação de metadados utilizável para detectar se os metadados de DIALNORM estão ou não corretos para o áudio e, se não corretos, mudá-los de modo que fiquem corretos, compreendendo: determinação se a informação de verificação de metadados está presente no fluxo de bits;se a informação de verificação de metadados estiver presente, determinação se ela verifica a correção dos metadados de DIALNORM;se a informação verifica a correção, decodificação do fluxo de bits usando os referidos metadados de DIALNORM;se a informação de verificação de metadados não verifica a correção dos referidos metadados de DIALNORM, uso da informação de verificação de metadados para corrigir os metadados de DIALNORM e decodificar o fluxo de bits usando os metadados de corrigidos; 30 se informação de verificação de metadados não estiver presente, determinação se o valor de metadados de DIALNORM está correto para o áudio através da decodificação do fluxo de bits, sem usar o valor de meta-dados de DIALNORM e metadados de compressão de faixa dinâmica relacionados, medindo a audibilidade do áudio decodificado para determinar o valor de DIALNORM medido e comparando o valor dos metadados de DIALNORM do fluxo de bits com o valor de DIALNORM medido; se o valor de DIALNORM no fluxo de bits está dentro de uma diferença limite do valor de DIALNORM medido, decodificação do fluxo de bits usando metadados de DIALNORM metadados de compressão de faixa dinâmica relacionados no fluxo de bits; ese o valor de DIALNORM no fluxo de bits não está dentro de uma diferença limite do valor de DIALNORM medido, correção do valor de metadados de DIALNORM com o valor de metadados de DIALNORM medido, determinando novos metadados de compressão de faixa dinâmica e decodificando o fluxo de bits usando os metadados de DIALNORM corretos e os novos metadados de compressão de faixa dinâmica.
27. Aparelho adaptado para realizar os métodos de qualquer uma das reivindicações de 12 a 26.
28. Programa de computador, armazenado em um meio legível em computador para fazer com que um computador realize os métodos de qualquer uma das reivindicações de 11 a 26.
BRPI0609300-0A 2005-04-13 2006-03-23 verificaÇço de metadados de Áudio BRPI0609300A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US67136105P 2005-04-13 2005-04-13
US60/671,361 2005-04-13
PCT/US2006/011202 WO2006113062A1 (en) 2005-04-13 2006-03-23 Audio metadata verification

Publications (1)

Publication Number Publication Date
BRPI0609300A2 true BRPI0609300A2 (pt) 2010-03-23

Family

ID=36655019

Family Applications (1)

Application Number Title Priority Date Filing Date
BRPI0609300-0A BRPI0609300A2 (pt) 2005-04-13 2006-03-23 verificaÇço de metadados de Áudio

Country Status (17)

Country Link
US (1) US20090063159A1 (pt)
EP (1) EP1878010B1 (pt)
JP (1) JP5166241B2 (pt)
KR (1) KR101253225B1 (pt)
CN (1) CN101160616B (pt)
AU (1) AU2006237491B2 (pt)
BR (1) BRPI0609300A2 (pt)
CA (1) CA2604817C (pt)
DK (1) DK1878010T3 (pt)
ES (1) ES2527552T3 (pt)
HK (1) HK1113429A1 (pt)
IL (1) IL186047A (pt)
MX (1) MX2007012734A (pt)
MY (1) MY147064A (pt)
PL (1) PL1878010T3 (pt)
TW (1) TW200638335A (pt)
WO (1) WO2006113062A1 (pt)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
EP2065885B1 (en) 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CN101228575B (zh) 2005-06-03 2012-09-26 杜比实验室特许公司 利用侧向信息的声道重新配置
RU2417514C2 (ru) 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Регулировка усиления звука с использованием основанного на конкретной громкости обнаружения акустических событий
JP4193865B2 (ja) * 2006-04-27 2008-12-10 ソニー株式会社 デジタル信号切換え装置及びその切換え方法
JP4175390B2 (ja) * 2006-06-09 2008-11-05 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US7934264B2 (en) * 2007-07-27 2011-04-26 International Business Machines Corporation Methods, systems, and computer program products for detecting alteration of audio or image data
WO2009086174A1 (en) 2007-12-21 2009-07-09 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
JP5603339B2 (ja) * 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
US9179235B2 (en) * 2008-11-07 2015-11-03 Adobe Systems Incorporated Meta-parameter control for digital audio data
US8527267B2 (en) * 2008-12-04 2013-09-03 Linear Accoustic, Inc. Adding additional data to encoded bit streams
TWI384459B (zh) * 2009-07-22 2013-02-01 Mstar Semiconductor Inc 音框檔頭之自動偵測方法
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US9037113B2 (en) 2010-06-29 2015-05-19 Georgia Tech Research Corporation Systems and methods for detecting call provenance from call audio
US8948406B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium
US20120033819A1 (en) * 2010-08-06 2012-02-09 Samsung Electronics Co., Ltd. Signal processing method, encoding apparatus therefor, decoding apparatus therefor, and information storage medium
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
TWI574565B (zh) * 2011-03-31 2017-03-11 Sony Corp A transmitting apparatus, a transmitting method, a receiving apparatus, a receiving method, a computer-readable medium, and a broadcasting system
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
EP2695161B1 (en) 2011-04-08 2014-12-17 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
US8965774B2 (en) * 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
EP2783366B1 (en) 2011-11-22 2015-09-16 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
JP5909100B2 (ja) * 2012-01-26 2016-04-26 日本放送協会 ラウドネスレンジ制御システム、伝送装置、受信装置、伝送用プログラム、および受信用プログラム
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
EP2680259A1 (en) * 2012-06-28 2014-01-01 Thomson Licensing Method and apparatus for watermarking an AC-3 encoded bit stream
FR2996388B1 (fr) * 2012-10-01 2015-10-30 Sigfox Procede de transmission d'une information utile entre deux terminaux et procede de generation d'une table d'association utilisee dans le cadre de la transmission
MX2018006149A (es) * 2013-01-21 2021-09-17 Dolby Laboratories Licensing Corp Codificador y decodificador de audio con metadatos de limite y sonoridad de programa.
KR102473260B1 (ko) 2013-01-21 2022-12-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
CA2898567C (en) 2013-01-28 2018-09-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US20150025894A1 (en) * 2013-07-16 2015-01-22 Electronics And Telecommunications Research Institute Method for encoding and decoding of multi channel audio signal, encoder and decoder
US10095468B2 (en) 2013-09-12 2018-10-09 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
PT3061090T (pt) * 2013-10-22 2019-07-11 Fraunhofer Ges Forschung Conceito combinado para a compressão de gama dinâmica e a prevenção de clipping guiada para dispositivos de áudio
MY174199A (en) * 2014-05-28 2020-03-13 Fraunhofer Ges Forschung Data processor and transport of user control data to audio decoders and renderers
US9286383B1 (en) 2014-08-28 2016-03-15 Sonic Bloom, LLC System and method for synchronization of data and audio
CN113257275A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
WO2016057530A1 (en) * 2014-10-10 2016-04-14 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
US10338794B2 (en) 2015-05-15 2019-07-02 Spotify Ab Playback of media streams in dependence of a time of a day
US20160337429A1 (en) * 2015-05-15 2016-11-17 Spotify Ab Method and device for resumed playback of streamed media
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US11130066B1 (en) 2015-08-28 2021-09-28 Sonic Bloom, LLC System and method for synchronization of messages and events with a variable rate timeline undergoing processing delay in environments with inconsistent framerates
FR3044814A1 (fr) * 2016-04-21 2017-06-09 Continental Automotive France Systeme et procede de controle du volume sonore dans un systeme multimedia
US20170311005A1 (en) * 2016-04-26 2017-10-26 Szu-Tung Lin Method of wireless audio transmission and playback
US10210881B2 (en) * 2016-09-16 2019-02-19 Nokia Technologies Oy Protected extended playback mode
US10091349B1 (en) 2017-07-11 2018-10-02 Vail Systems, Inc. Fraud detection system and method
US10623581B2 (en) 2017-07-25 2020-04-14 Vail Systems, Inc. Adaptive, multi-modal fraud detection system
TWI809289B (zh) 2018-01-26 2023-07-21 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
EP4030785B1 (en) 2018-04-09 2023-03-29 Dolby International AB Methods, apparatus and systems for three degrees of freedom (3dof+) extension of mpeg-h 3d audio
US11250867B1 (en) * 2019-10-08 2022-02-15 Rockwell Collins, Inc. Incorporating data into a voice signal with zero overhead
KR102453919B1 (ko) 2022-05-09 2022-10-12 (주)피플리 인공지능 기반 문화 콘텐츠 관련 가이드 음원의 검증 방법, 장치 및 시스템

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59221047A (ja) * 1983-05-30 1984-12-12 Victor Co Of Japan Ltd デイジタル信号伝送における同期信号検出回路
JPH0681058B2 (ja) * 1983-09-26 1994-10-12 パイオニア株式会社 デ−タ送受信方式
CA1235189A (en) * 1985-01-14 1988-04-12 Haruhiko Akiyama Error correction encoding system
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
MY110584A (en) * 1992-10-09 1998-08-29 Koninklijke Philips Electronics Nv Method of and device for correction errors and erasures in digital information
GB2272615A (en) * 1992-11-17 1994-05-18 Rudolf Bisping Controlling signal-to-noise ratio in noisy recordings
JP2611667B2 (ja) * 1994-07-27 1997-05-21 日本電気株式会社 異種フレーム形式混在通信システム
JP2671821B2 (ja) * 1994-09-28 1997-11-05 日本電気株式会社 データ伝送装置
US5646997A (en) * 1994-12-14 1997-07-08 Barton; James M. Method and apparatus for embedding authentication information within digital data
JP2768297B2 (ja) * 1995-03-23 1998-06-25 日本電気株式会社 データ転送方法とその装置
US5699369A (en) * 1995-03-29 1997-12-16 Network Systems Corporation Adaptive forward error correction system and method
CA2175394C (en) * 1995-05-19 2001-07-03 Ichiro Okajima Terminal, network, and communication system
US5828677A (en) * 1996-03-20 1998-10-27 Lucent Technologies Inc. Adaptive hybrid ARQ coding schemes for slow fading channels in mobile radio systems
US6427012B1 (en) * 1997-05-19 2002-07-30 Verance Corporation Apparatus and method for embedding and extracting information in analog signals using replica modulation
US6185309B1 (en) * 1997-07-11 2001-02-06 The Regents Of The University Of California Method and apparatus for blind separation of mixed and convolved sources
US6088826A (en) * 1997-08-21 2000-07-11 Advanced Micro Devices Inc. Method for checking data for errors in data communication systems
US6141788A (en) * 1998-03-13 2000-10-31 Lucent Technologies Inc. Method and apparatus for forward error correction in packet networks
GB2340351B (en) * 1998-07-29 2004-06-09 British Broadcasting Corp Data transmission
US6188987B1 (en) * 1998-11-17 2001-02-13 Dolby Laboratories Licensing Corporation Providing auxiliary information with frame-based encoded audio information
JP2000235458A (ja) * 1999-02-15 2000-08-29 Sharp Corp 補助記憶装置およびこの補助記憶装置を搭載した情報処理装置
AU3736800A (en) * 1999-03-10 2000-09-28 Acoustic Information Processing Lab, Llc. Signal processing methods, devices, and applications for digital rights management
JP3728578B2 (ja) * 1999-03-31 2005-12-21 富士通株式会社 マルチキャリア伝送における不均一誤り保護方法並びにその符号器及び復号器
JP3699863B2 (ja) * 1999-07-12 2005-09-28 株式会社日立コミュニケーションテクノロジー エラー訂正符号装置、エラー訂正符号復号装置および伝送装置
US6748362B1 (en) * 1999-09-03 2004-06-08 Thomas W. Meyer Process, system, and apparatus for embedding data in compressed audio, image video and other media files and the like
US7212640B2 (en) * 1999-11-29 2007-05-01 Bizjak Karl M Variable attack and release system and method
US6748441B1 (en) * 1999-12-02 2004-06-08 Microsoft Corporation Data carousel receiving and caching
US6678855B1 (en) * 1999-12-02 2004-01-13 Microsoft Corporation Selecting K in a data transmission carousel using (N,K) forward error correction
US6553511B1 (en) * 2000-05-17 2003-04-22 Lsi Logic Corporation Mass storage data integrity-assuring technique utilizing sequence and revision number metadata
JP2002006885A (ja) * 2000-06-19 2002-01-11 Sharp Corp 条件付きデジタル情報の記録再生装置と再生方法とそれに用いられる記録媒体
CN100431355C (zh) * 2000-08-16 2008-11-05 多尔拜实验特许公司 响应补充信息修改音频或视频感知编码系统的一个或多个参数
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
US6928433B2 (en) * 2001-01-05 2005-08-09 Creative Technology Ltd Automatic hierarchical categorization of music by metadata
US6807528B1 (en) * 2001-05-08 2004-10-19 Dolby Laboratories Licensing Corporation Adding data to a compressed data frame
US7295755B2 (en) * 2001-06-22 2007-11-13 Thomson Licensing Method and apparatus for simplifying the access of metadata
US20040037421A1 (en) * 2001-12-17 2004-02-26 Truman Michael Mead Parital encryption of assembled bitstreams
US7707221B1 (en) * 2002-04-03 2010-04-27 Yahoo! Inc. Associating and linking compact disc metadata
CN100419748C (zh) * 2002-04-29 2008-09-17 索尼电子有限公司 一种计算方法和采用该方法的装置和系统
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US7617438B2 (en) * 2004-04-15 2009-11-10 International Business Machines Corporation Method and apparatus for supporting checksum offload in partitioned data processing systems
DE602005019559D1 (de) * 2004-05-11 2010-04-08 Nippon Telegraph & Telephone Schallpaket-sendeverfahren, schallpaket-sendevorrichtung, schallpaket-sendeprogramm und aufzeichnungsmedium, in dem dieses programm aufgezeichnet wurde
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information

Also Published As

Publication number Publication date
TW200638335A (en) 2006-11-01
CN101160616B (zh) 2011-12-07
JP5166241B2 (ja) 2013-03-21
AU2006237491A1 (en) 2006-10-26
MY147064A (en) 2012-10-15
CN101160616A (zh) 2008-04-09
KR101253225B1 (ko) 2013-04-16
ES2527552T3 (es) 2015-01-26
DK1878010T3 (en) 2015-01-12
JP2008536193A (ja) 2008-09-04
US20090063159A1 (en) 2009-03-05
EP1878010B1 (en) 2014-11-05
IL186047A (en) 2013-11-28
IL186047A0 (en) 2008-02-09
WO2006113062A1 (en) 2006-10-26
KR20080009078A (ko) 2008-01-24
CA2604817A1 (en) 2006-10-26
CA2604817C (en) 2015-06-16
MX2007012734A (es) 2008-01-11
HK1113429A1 (en) 2008-10-03
EP1878010A1 (en) 2008-01-16
PL1878010T3 (pl) 2015-03-31
AU2006237491B2 (en) 2011-09-08

Similar Documents

Publication Publication Date Title
BRPI0609300A2 (pt) verificaÇço de metadados de Áudio
KR101112565B1 (ko) 오디오 정보의 재생 음량 및 동적 범위에 영향을 미치는메타데이터를 정정하는 방법
TWI588817B (zh) 音訊處理單元與解碼編碼音訊位元流的方法
CN107657959B (zh) 利用节目响度和边界元数据的音频编码器和解码器
TWI771266B (zh) 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US20110311063A1 (en) Embedding and extracting ancillary data
CN107276551B (zh) 解码具有保留数据空间中的元数据容器的编码音频比特流

Legal Events

Date Code Title Description
B15K Others concerning applications: alteration of classification

Ipc: G10L 19/16 (2013.01)

B07A Application suspended after technical examination (opinion) [chapter 7.1 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]
B09B Patent application refused [chapter 9.2 patent gazette]

Free format text: MANTIDO O INDEFERIMENTO UMA VEZ QUE NAO FOI APRESENTADO RECURSO DENTRO DO PRAZO LEGAL