BR112012019880B1

BR112012019880B1 - método para decodificar um sinal de entrada codificado para gerar um sinal de saída de áudio, método para codificar um sinal de entrada de áudio que representa estímulos auditivos, método para transcodificar um sinal de entrada codificado para gerar um sinal de saída codificado, aparelho e meio de armazenamento

Info

Publication number: BR112012019880B1
Application number: BR112012019880-7A
Authority: BR
Inventors: Jeffrey C. Riedmiller; Harald H. Mundt; Michael Schug; Martin Wolters
Original assignee: Dolby Laboratories Licensing Corporation; Dolby International Ab
Priority date: 2010-02-11
Filing date: 2011-02-03
Publication date: 2020-10-13
Also published as: AR080156A1; EP2534656B1; MY169981A; EA023730B1; JP5666625B2; CA2787466C; CA2787466A1; EP2534656A1; CL2012002213A1; EP3444816B1; TW201205559A; BR122019025627B1; CA3075793A1; WO2011100155A1; SG182632A1; US20190325886A1; EP4047602A1; US11670315B2; CA2995461C; US10566006B2

Abstract

SISTEMA E MÉTODO PARA NORMALIZAR DE MODO NÃO DESTRUTIVO RUÍDO DE SINAIS DE ÁUDIO EM DISPOSITIVOS PORTÁTEIS. A presente invenção refere-se a muitos dispositivos de reprodução portáteis que não podem decodificar e reproduzir o conteúdo de áudio encodificado que tem largura de banda ampla e extensão dinâmica ampla com inteligibilidade e intensidade consistentes, a menos que o conteúdo de áudio encodificado tenha sido preparado especificamente para esses dispositivos. Esse problema pode ser superado através da inclusão, no conteúdo encodificado, de alguns metadados que especificam um perfil de compressão de extensão dinâmica adequado através de valores absolutos ou valores diferenciais em relação a outro perfil de compressão. Um dispositivo de reprodução pode, ainda, aplicar ganho de modo adaptativo e limitar o áudio de reprodução. Implantações em encodificadores, em transcodificadores e em decodificadores são reveladas.

Description

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS

[0001] Este pedido reivindica prioridade do Pedido Provisório de Patente n- U.S. 61/303.643, depositado em 11 de fevereiro de 2010, incorporado em sua totalidade no presente documento a título de referência.

CAMPO DA TÉCNICA

[0002] A presente invenção refere-se, geralmente, à codificação e decodificação de sinais de áudio e pertence, mais especificamente, a técnicas que podem ser usadas para codificar e decodificar sinais de áudio para uma extensão mais ampla de dispositivos de reprodução e ambientes de escuta.

TÉCNICA ANTECEDENTE

[0003] A crescente popularidade de dispositivos móveis e outros tipos de dispositivos portáteis tem criado novas oportunidades e desafios para os criadores e distribuidores de conteúdo de mídia para reprodução em tais dispositivos, bem como para os projetadores e fabricantes dos dispositivos. Muitos dispositivos portáteis podem reproduzir uma vasta extensão de tipos e formatos de conteúdos de mídia, incluindo aqueles frequentemente associados a conteúdo de áudio de largura de banda ampla e extensão dinâmica ampla de alta qualidade para HDTV, Blu-ray ou DVD. Dispositivos portáteis podem ser usados para reproduzir esse tipo de conteúdo de áudio em seus próprios transdutores acústicos internos ou em transdutores externos, tais como fones de ouvido; contudo, os mesmos geralmente não podem reproduzir esse conteúdo com inteligibilidade e intensidade consistentes através de tipos de conteúdo e formato de mídia variados.

DESCRIÇÃO DA INVENÇÃO

[0004] A presente invenção é direcionada a fornecer métodos aperfeiçoados para codificação e decodificação de sinais de áudio para reprodução em uma variedade de dispositivos, incluindo dispositivos móveis e outros tipos de dispositivos portáteis.

[0005] Vários aspectos da presente invenção são apresentados nas concretizações.

[0006] Os vários recursos da presente invenção e suas modalidades preferidas podem ser melhor compreendidos em referência à seguinte discussão e aos desenhos anexos nos quais numerais de referência similares se referem a elementos similares nas várias figuras. Os conteúdos da seguinte discussão e dos desenhos são apresentados como exemplos apenas e não devem ser entendidos como representantes de limitações mediante o escopo da presente invenção.

BREVE DESCRIÇÃO DOS DESENHOS

[0007] A Figura 1 é um diagrama de bloco esquemático de um dispositivo de reprodução.

[0008] A Figura 2 é um diagrama de bloco esquemático de um dispositivo de codificação.

[0009] As Figuras de 3 a 5 são diagramas de bloco esquemáticos de dispositivos transcodificadores.

[00010] A Figura 6 é um diagrama de bloco esquemático de um dispositivo que pode ser usado para implantar vários aspectos da presente invenção.

MODOS DE REALIZAÇÃO DA INVENÇÃO A.Introdução

[00011] A presente invenção é direcionada à codificação e decodificação de informações de áudio para reprodução em ambientes de escuta desafiadores tais como aqueles encontrados por usuários de dispositivos móveis e de outros tipos de dispositivos portáteis. Alguns exemplos de codificação e decodificação de áudio são descritos por padrões publicados tais como aqueles descritos no "Padrão de Compressão de Áudio Digital (AC-3, E-AC-3)," Revisão B, Documento A/52B, 14 de junho de 2005 publicado pelo Comitê de Sistemas de Televisão Avançados, Inc. (referido no presente documento como o "Padrão ATSC”), e no ISO/IEC 13818-7, Codificação de Áudio Avançada (AAC) (referido no presente documento como o "Padrão MPEG-2 AAC") e ISO/IEC 14496-3, subparte 4 (referido no presente documento como "Padrão de Áudio MPEG-4") publicado pela Organização De Padrões Internacionais (ISO). Os processos de codificação e decodificação que se conformam a esses padrões são mencionados apenas como exemplos. Princípios da presente invenção podem ser usados com sistemas de codificação que também se conformam a outros padrões.

[00012] Os inventores descobriram que os recursos disponíveis de dispositivos que se conformam a alguns padrões de codificação são frequentemente insuficientes para aplicações e ambientes de escuta que são típicos de dispositivos móveis e outros tipos de dispositivos portáteis. Quando esses tipos de dispositivos são usados para decodificar o conteúdo de áudio de sinais de entrada codificados que se conformam a esses padrões, o conteúdo de áudio codificado é frequentemente reproduzido em níveis de intensidade que são significativamente mais baixos que os níveis de intensidade para conteúdo de áudio obtido pela decodificação de sinais de entrada codificados que foram especialmente preparados para reprodução nesses dispositivos.

[00013] Sinais de entrada codificados que se conformam ao Padrão ATSC (referidos no presente documento como "sinais codificados compatíveis com o ATSC”), por exemplo, contém informações de áudio codificadas e metadados que descrevem como essas informações podem ser decodificadas. Alguns dos parâmetros de metadados identificam um perfil de compressão de extensão dinâmica que especifica como a extensão dinâmica das informações de áudio pode ser comprimida quando as informações de áudio codificadas são decodificadas. A extensão dinâmica completa do sinal decodificado pode ser retida ou pode ser comprimida em vários graus no momento da decodificação para satisfazer as demandas de diferentes aplicações e ambientes de escuta. Outros metadados identificam uma medida de intensidade das informações de áudio codificadas tal como um nível de diálogo ou nível de programa médio no sinal codificado. Esses metadados podem ser usados por um decodificador para ajustar amplitudes do sinal decodificado para alcançar uma intensidade ou nível de reprodução de referência especificadas durante a reprodução. Em algumas aplicações, um ou mais níveis de reprodução de referência podem ser especificados ou supostos, enquanto em outras aplicações o usuário pode ser dado controle sobre o ajuste do nível de reprodução de referência. Por exemplo, os processos de codificação usados para codificar e decodificar sinais codificados compatíveis com o ATSC assumem que diálogo deve ser reproduzido em um de dois níveis de reprodução de referência. Um nível é 31 dB abaixo de um nível de recorte, o que é o valor digital maior possível ou valor de escala completa (FS), denotado no presente documento como -31 dBps. O modo de decodificação que usa esse nível é às vezes referido como "Modo de Linha" e é destinado a ser usado em aplicações e ambientes em que extensões dinâmicas mais amplas são adequadas. O outro nível é estabelecido a -20 dBps. O modo de decodificação que usa esse segundo nível é às vezes referido como "Modo de RF," que é destinado a ser usado em aplicações e ambientes como aqueles encontrados em difusão através de modulação de sinais de frequência de rádio (RF) em que extensões dinâmicas mais estreitas são necessárias para evitar modulação em excesso.

[00014] Para outro exemplo, sinais codificados que são compatíveis com os padrões de áudio MPEG-2 AAC e MPEG-4 incluem metadados que identificam um nível de intensidade médio para as informações de áudio codificadas. Os processos que decodificam sinais codificados compatíveis com áudio MPEG-2 AAC e MPEG-4 podem permitir que o ouvinte especifique um nível de reprodução desejado. O decodificador usa o nível de reprodução desejado e os metadados de intensidade média para ajustar amplitudes do sinal decodificado de modo que o nível de reprodução desejado seja alcançado.

[00015] Quando dispositivos móveis e outros tipos de dispositivos portáteis são usados para decodificar e reproduzir o conteúdo de áudio de sinais codificados compatíveis com o ATSC, com o MPEG-2 AAC, e com o áudio MPEG-4 de acordo com esses parâmetros de metadados, a extensão dinâmica e nível de intensidade são frequentemente não adequados por causa de ambientes de escuta adversos que são encontrados com esses tipos de dispositivos ou por causa de limitações elétricas devido a voltagens de operações mais baixas usadas nesses dispositivos.

[00016] Sinais codificados que se conformam a outros padrões usam tipos similares de metadados e podem incluir uma provisão para especificar o nível de reprodução de intensidade pretendido. Os mesmos problemas são frequentemente encontrados com dispositivos portáteis que decodificam esses sinais.

[00017] A presente invenção pode ser usada para aperfeiçoar a experiência de escuta para usuários de dispositivos móveis e portáteis sem requerer conteúdo que tenha sido preparado especificamente para esses dispositivos. B. Visão Geral do Dispositivo

[00018] A Figura 1 é um diagrama de bloco esquemático de um tipo de um dispositivo receptor/decodificador 10 que incorpora vários aspectos da presente invenção. O dispositivo 10 recebe um sinal de entrada codificado da trajetória de sinal 11, aplica processos adequados no deformatador 12 para extrair informações de áudio codificadas e metadados associados do sinal de entrada, passa as informações de áudio codificadas para o decodificador 14 e passa os metadados ao longo da trajetória de sinal 13. As informações de áudio codificadas incluem sinais de sub-banda codificados que representam conteúdo espectral de estímulos auditivos e os metadados especificam valores para uma variedade de parâmetros que incluem um ou mais parâmetros de controle de decodificação e um ou mais parâmetros que especificam a compressão de extensão dinâmica de acordo com um perfil de compressão de extensão dinâmica. O termo "perfil de compressão de extensão dinâmica"refere-se a recursos tais como fatores de ganho, tempos de ataque de compressão e tempos de liberação de compressão que definem as características operacionais de um compressor de extensão dinâmica.

[00019] O decodificador 14 aplica um processo de decodificação às informações de áudio codificadas para obter sinais de sub-banda decodificados, que são passados para o controle de extensão dinâmica 16. A operação e funções do processo de decodificação podem ser adaptados em resposta a parâmetros de controle de decodificação recebidos da trajetória de sinal 13. Exemplos de parâmetros de controle de decodificação que podem ser usados para adaptar a operação e funções do processo de decodificação são parâmetros que identificam o número e a configuração dos canais de áudio representados pelas informações de áudio codificadas.

[00020] O controle de extensão dinâmica 16 opcionalmente ajusta a extensão dinâmica das informações de áudio decodificadas. Esse ajuste pode ser ligado ou desligado e adaptado em resposta a metadados recebidos da trajetória de sinal 13 e/ou dos sinais de controle que podem ser fornecidos em resposta à entrada de um ouvinte. Por exemplo, um sinal de controle pode ser fornecido em resposta a um ouvinte operando um comutador ou selecionando uma opção de operação para o dispositivo 10.

[00021] Em implantações que se conformam ao Padrão ATSC, ao padrão MPEG-2 AAC ou ao padrão de áudio MPEG-4, por exemplo, o sinal de entrada codificado inclui informações de áudio codificadas dispostas em uma sequência de segmentos ou quadros. Cada quadro contém sinais de sub-banda codificados que representam componentes espectrais de um sinal de áudio com sua extensão dinâmica completa. O controle de extensão dinâmica 16 pode não tomar nenhuma medida, o que permite que o sinal de áudio seja reproduzido com uma quantidade máxima de extensão dinâmica, ou isso pode modificar os sinais de sub-banda decodificados para comprimir a extensão dinâmica em vários graus.

[00022] O banco de filtro de síntese 18 aplica um banco de filtros de síntese aos sinais de sub-banda decodificados, que podem ter sido ajustados pelo controle de extensão dinâmica 16, e fornece na sua saída um sinal de áudio de domínio de tempo que pode ser um sinal digital ou analógico.

[00023] O limitador de ganho 20 é usado em algumas implantações da presente invenção para ajustar a amplitude do sinal de áudio de domínio de tempo. A saída do limitador de ganho 20 é passada ao longa da trajetória 21 para apresentação subsequente por um transdutor acústico.

[00024] A Figura 2 é um diagrama de bloco esquemático de um dispositivo codificador/transmissor 30 que incorpora vários aspectos da presente invenção. O dispositivo 30 recebe um sinal de entrada de áudio da trajetória de sinal 31 que representa estímulos auditivos. O dispositivo 30 aplica um banco de filtros de análise ao sinal de áudio para obter sinais de sub-banda em uma representação de domínio de frequência do sinal de áudio de entrada ou um conjunto de sinais de largura de banda limitada que representam o sinal de áudio de entrada. O calculador de metadados 34 analisa o sinal de entrada de áudio e/ou um ou mais sinais derivados do sinal de entrada de áudio tais como uma versão modificada do sinal de entrada de áudio ou os sinais de sub-banda do banco de filtro de análise 32 para calcular metadados que especificam valores para uma variedade de parâmetros incluindo parâmetros de controle de codificação, um ou mais parâmetros de controle de decodificação e um ou mais parâmetros que especificam a compressão de extensão dinâmica de acordo com um perfil de compressão de extensão dinâmica. O calculador de metadados 34 pode analisar sinais de domínio de tempo, sinais de domínio de frequência, ou uma combinação de sinais domínio de tempo e de domínio de frequência. Os cálculos executados pelo calculador de metadados 34 podem ser adaptados, ainda, em resposta a um ou mais parâmetros de metadados recebidos da trajetória 33. O codificador 36 aplica um processo de codificação à saída do banco de filtro de análise 32 para obter informações de áudio codificadas que incluem sinais de sub-banda codificados, que são passadas para o formatador 38. O processo de codificação pode ser adaptado em resposta aos parâmetros de controle de codificação recebidos da trajetória 33. O processo de codificação pode gerar, ainda, outros parâmetros de controle de decodificação ao longo da trajetória 33 para uso pelos processos executados no dispositivo 10 para decodificar as informações de áudio codificadas. O formatador 38 une as informações de áudio codificadas e pelo menos alguns dos metadados incluindo os um ou mais parâmetros de controle de decodificação e os um ou mais parâmetros que especificam a compressão de extensão dinâmica em um sinal de saída codificado que tem um formato que é adequado para transmissão ou armazenamento.

[00025] Em implantações que se conformam ao Padrão ATSC, ao padrão MPEG-2 AAC ou ao padrão de áudio MPEG-4, por exemplo, o sinal de saída codificado inclui informações de áudio codificadas dispostas em uma sequência de segmentos ou quadros. Cada quadro contém sinais de sub-banda codificados que representam componentes espectrais de um sinal de áudio com sua extensão dinâmica completa e que têm amplitudes para reprodução em um nível de reprodução de referência.

[00026] O deformatador 12, o decodificador 14, o banco de filtro de síntese 18, o banco de filtro de análise 32, o codificador 36 e o formatador 38 podem ser convencionais em projeto e operação. Alguns exemplos incluem os componentes correspondentes que se conformam aos padrões publicados mencionados acima. As implantações dos componentes especificados ou sugeridos nesses padrões são adequadas para uso com a presente invenção, mas não são requeridas. Nenhuma implantação particular desses componentes é crítica.

[00027] As Figuras de 3 a 5 são diagramas de bloco esquemáticos de diferentes implantações de um dispositivo transcodificador 40 que compreende alguns dos componentes no dispositivo 10 e no dispositivo 30, descritos acima. Esses componentes operam substancialmente da mesma forma que seus correspondentes. O dispositivo 40 mostrado na Figura 3 é capaz de transcodificar o sinal de entrada codificado recebido da trajetória 11 em uma versão modificada que se conforma ao mesmo padrão de codificação. Nessa implantação, o dispositivo 40 recebe um sinal de entrada codificado da trajetória de sinal 11, aplica processos adequados no deformatador 12 para extrair as primeiras informações de áudio codificadas e metadados associados do sinal de entrada codificado, passa as primeiras informações de áudio codificadas para o decodificador 14 e para o formatador 38, e passa os metadados ao longo da trajetória de sinal 43. As primeiras informações de áudio codificadas incluem sinais de sub-banda codificados que representam o conteúdo espectral de estímulos auditivos e os metadados especificam valores para uma variedade de parâmetros incluindo um ou mais parâmetros de controle de decodificação e um ou mais parâmetros que especificam a compressão de extensão dinâmica de acordo com um primeiro perfil de compressão de extensão dinâmica. O decodificador 14 aplica um processo de decodificação às primeiras informações de áudio codificadas para obter sinais de sub-banda decodificados. A operação e as funções do processo de decodificação podem ser adaptadas em resposta aos um ou mais parâmetros de controle de decodificação recebidos da trajetória de sinal 43. Os sinais de sub-banda podem ser uma representação de domínio de frequência dos estímulos auditivos ou um conjunto de sinais de largura de banda limitada que representam os estímulos auditivos.

[00028] O calculador de metadados 44 analisa os sinais de sub- banda decodificados e/ou um ou mais sinais derivados dos sinais de sub-banda decodificados para calcular um ou mais valores de parâmetro que especificam a compressão de extensão dinâmica de acordo com um segundo perfil de compressão de extensão dinâmica. Por exemplo, os um ou mais sinais podem ser derivados através da aplicação do banco de filtro de síntese 18 aos sinais de sub-banda decodificados. Os cálculos executados pelo calculador de metadados 44 podem ser adaptados em resposta a metadados recebidos da trajetória 43. O banco de filtro de síntese 18 pode ser omitido dessa implantação se sua saída não é necessária para o cálculo de metadados.

[00029] Outra implantação do dispositivo 40 é mostrada na Figura 4. Essa implantação é semelhante àquela mostrada na Figura 3, mas inclui o codificador 36. A inclusão do codificador 36 permite que o dispositivo 40 transcodifique o sinal de entrada codificado recebido da trajetória 11, que se conforma a um primeiro padrão de codificação, em um sinal de saída codificado que se conforma a um segundo padrão de codificação que pode ser igual a ou diferente do primeiro padrão de codificação contanto que os sinais de sub-banda dos dois padrões de codificação sejam compatíveis. Isso pode ser feito nessa implantação fazendo com que o codificador 36 aplique um processo de codificação aos sinais de sub-banda para obter segundas informações de áudio codificadas que se conformam ao segundo padrão de codificação. As segundas informações de áudio codificadas são passadas ao formatador 38. O processo de codificação pode ser adaptado em resposta a metadados recebidos da trajetória 43. O processo de codificação pode gerar, ainda, outros metadados ao longo da trajetória 43 para uso pelos processos executados no dispositivo 10 para decodificar as informações de áudio codificadas. O formatador 38 une os metadados recebidos da trajetória 43 e as informações de áudio codificadas que a mesma recebe em um sinal de saída codificado que tem um formato que é adequado para transmissão ou armazenamento.

[00030] Ainda outra implantação do dispositivo 40 é mostrada na Figura 5. Essa implantação inclui o banco de filtro de síntese 18, que é aplicado aos sinais de sub-banda decodificados para obter uma representação de domínio de tempo ou de banda larga das informações de áudio codificadas. A inclusão do banco de filtro de síntese 18 e do banco de filtro de análise 32 permite que o dispositivo 40 transcodifique entre essencialmente qualquer escolha de padrões de codificação. A saída do banco de filtro de síntese 18 é passada para o banco de filtro de análise 32, que gera sinais de sub-banda para codificação pelo codificador 36. O codificador 36 aplica um processo de codificação à saída do banco de filtro de análise 32 para obter segundas informações de áudio codificadas, que são passadas para o formatador 38. O processo de codificação pode gerar, ainda, outros metadados ao longo da trajetória 43 para uso pelos processos executados no dispositivo 10 para decodificar as informações de áudio codificadas. O calculador de metadados 44 pode calcular valores de parâmetro de metadados a partir de sua análise de qualquer um ou todos os sinais de sub-banda recebidos do decodificador 14, da saída do banco de filtro de síntese 18, e da saída do banco de filtro de análise 32.

[00031] Alguns aspectos do dispositivo 10 e do dispositivo 30 são descritos abaixo em mais detalhes. Essas descrições se aplicam aos recursos correspondentes do dispositivo 40. Esses aspectos são descritos em termos de recursos e características de métodos e dispositivos que se conformam ao Padrão ATSC mencionado acima. Esses recursos e características específicos são discutidos a título de exemplo, apenas. Os princípios subjacentes a essas implantações são diretamente aplicáveis a métodos e dispositivos que se conformam a outros padrões. C. Receptor/Decodificador

[00032] Os problemas de reprodução descritos acima podem ser resolvidos por meio do uso de uma ou mais das três técnicas diferentes descritas abaixo. A primeira técnica usa limitação de ganho e pode ser implantada por recursos apenas no dispositivo 10. As segunda e terceira técnicas usam compressão de extensão dinâmica e suas implantações requerem recursos tanto no dispositivo 10 quanto no dispositivo 30. 1. Limitador de Ganho

[00033] A primeira técnica opera o dispositivo 10 em Modo de RF ao invés de em Modo de Linha, de modo que decodifique um sinal de entrada codificado compatível com o ATSC com o controle de extensão dinâmica 16 fornecendo níveis mais elevados de compressão de extensão dinâmica e um nível de reprodução de referência mais elevado. O limitador de ganho 20 fornece ganho adicional, aumentando o nível de reprodução de referência eficaz a um valor de -14 dBps a -8 dBps. Resultados empíricos indicam que um nível de referência igual a -11 dBps oferece bons resultados para muitas aplicações.

[00034] O limitador de ganho 20 aplica, ainda, uma operação limitadora para impedir que o sinal digital amplificado exceda 0 dBps. As características de operação do limitador podem afetar a qualidade percebida do áudio reproduzido, mas nenhum limitador particular é crítico para a presente invenção. O limitador pode ser implantado em essencialmente qualquer maneira que possa ser desejada. Preferivelmente, o limitador é projetado para fornecer uma função limitadora "leve" ao invés de uma função de recorte "severa". 2. Valores de Compressão Diferenciais

[00035] A segunda técnica permite que o dispositivo 10 aplique um ou mais parâmetros de compressão de extensão dinâmica modificados no controle de extensão dinâmica 16. O deformatador 12 obtém valores de parâmetro de compressão de extensão dinâmica diferenciais (DRC) do sinal de entrada codificado e passa os valores de parâmetro diferenciais juntamente com valores de parâmetro de DRC convencionais ao longo da trajetória 13 para o controle de extensão dinâmica 16. O controle de extensão dinâmica 16 calcula os um ou mais valores de parâmetro de DRC necessários através de combinação aritmética dos valores de parâmetro convencionais de DRC com valores de parâmetro de DRC diferenciais correspondentes. O limitador de ganho 20 não precisa ser usado nessa situação.

[00036] Os valores de parâmetro de DRC diferenciais são fornecidos no sinal de entrada codificado pelo dispositivo codificador/transmissor 30 que gerou o sinal de entrada codificado. Isso é descrito abaixo.

[00037] Se o sinal de entrada codificado não contém esses valores de DRC diferenciais, o dispositivo 10 pode usar o limitador de ganho 20 de acordo com a primeira técnica descrita acima. 3. Perfil de Compressão Distinto

[00038] A terceira técnica permite que o dispositivo 10 aplique a compressão de extensão dinâmica de acordo com um novo perfil de compressão de extensão dinâmica no controle de extensão dinâmica 16. O deformatador 12 obtém um ou mais valores de parâmetro de DRC para o novo perfil do sinal de entrada codificado e os passa ao longo da trajetória 13 para o controle de extensão dinâmica 16. O limitador de ganho 20 não precisa ser usado nessa situação.

[00039] Os valores de parâmetro de DRC para o novo perfil de compressão de extensão dinâmica são fornecidos no sinal de entrada codificado pelo dispositivo codificador/transmissor 30 que gerou o sinal de entrada codificado. Isso é descrito abaixo.

[00040] Se o sinal de entrada codificado não contém os um ou mais valores de parâmetro de DRC para o novo perfil de DRC, o dispositivo 10 pode usar o limitador de ganho 20 de acordo com a primeira técnica descrita acima. D. Codificador/Transmissor 1. Valores de Compressão Diferenciais

[00041] Os processos para a segunda técnica discutida acima são implantados no dispositivo 10 por meio do uso de valores de parâmetro de DRC diferenciais que são extraídos do sinal de entrada codificado. Esses valores de parâmetro diferenciais são fornecidos pelo dispositivo 30 que gerou o sinal codificado.

[00042] O dispositivo 30 fornece um conjunto de valores de parâmetro de DRC diferenciais que representam a diferença entre um conjunto de valores de parâmetro de DRC que estarão presentes no sinal codificado e um conjunto de valores de parâmetro de base correspondentes para um novo perfil de DRC que são requeridos para impedir que as amostras de sinal de áudio codificado excedam 0 dBps para um nível de reprodução de referência mais elevado. Nenhum método particular para calcular os valores de parâmetro de DRC é crítico para a presente invenção. Métodos conhecidos para cálculo dos valores de parâmetro que são compatíveis com o Padrão ATSC são revelados em "ATSC Recommended Practice: Techniques for Estalishing an Maintaining Audio Loudness for Digital Television,"Documento A/85, 4 de novembro de 2009 publicado pelo Comitê de Sistemas de Televisão Avançados, Inc., especialmente Seção 9 e Anexo F, e em Robinson etal.,"Dynamic Range Control via Metadata,"pré-impressão n- 5028, 107a Convenção AES, New York, setembro de 1999.

[00043] Se o sinal de saída codificado se conforma ao Padrão ATSC, ao Padrão MPEG-2 AAC ou ao Padrão de Áudio MPEG-4, o nível de reprodução de referência é aumentado para um valor de -14 dBps a -8 dBps. Resultados empíricos indicam que um nível de referência igual a -11 CIBFS oferece bons resultados para muitas aplicações.

[00044] Para sinais de saída codificados compatíveis com o ATSC, o calculador de metadados 34 calcula um valor de parâmetro diferencial para o parâmetro de base correspondente "compr" especificado no padrão. O formatador 38 pode unir o valor de parâmetro diferencial em porções de cada quadro de sinal codificado denotado como "addbsi" (informações de fluxo de bit adicionais) e/ou "auxdata" (dados auxiliares). Se os valores de parâmetro diferenciais são unidos nas porções de "addbsi" ou de "auxdata", o sinal codificado será compatível como todos os decodificadores compatíveis com o ATSC. Aqueles decodificadores que não reconhecem os valores de parâmetro diferenciais ainda podem processar e decodificar os quadros de sinal codificado corretamente ignorando as porções de "addbsi" e de "auxdata". Refira-se ao documento A/52b citado acima para mais detalhes.

[00045] Para sinais de saída codificados compatíveis com os padrões MPEG-2 AAC ou de áudio MPEG-4, o formatador 38 pode unir os valores de parâmetro diferenciais em porções de cada quadro de sinal codificado denotado como "Fill_Element" ou "Data_Stream_Element" nos dois padrões. Se os valores de parâmetro diferenciais são unidos em qualquer uma dessas porções, o sinal codificado será compatível com todos os decodificadores compatíveis com padrões MPEG-2 AAC e de áudio MPEG-4. Refira-se aos documentos ISO/IEC 13818-7 e ISO/IEC 14496-3 citados acima para mais detalhes.

[00046] Os valores de parâmetro diferenciais podem ser calculados e inseridos no sinal codificado a um índice que é maior que, igual a, ou menor que o índice no qual os valores de parâmetro de base correspondentes estão no sinal codificado. O índice para os valores diferenciais pode variar. Sinalizadores ou bits que indicam se um valor diferencial prévio deve ser reusado também podem ser incluídos no sinal codificado. 2. Perfil de Compressão Distinto

[00047] Os processos para a terceira técnica discutida acima são implantados no dispositivo 10 por meio do uso de valores de parâmetro de DRC para o novo perfil de compressão de extensão dinâmica que são extraídos do sinal de entrada codificado. Esses valores de parâmetro são fornecidos pelo dispositivo 30 que gerou o sinal codificado.

[00048] O dispositivo 30 deriva valores de parâmetro de DRC para um novo perfil de DRC através do cálculo de valores de parâmetro necessários para impedir que as amostras de sinal de áudio decodificado excedam 0 dBps para um nível de reprodução de referência mais elevado.

[00049] Se o sinal de saída codificado se conforma ao Padrão ATSC, ao Padrão MPEG-2 AAC ou ao Padrão de Áudio MPEG-4, o calculador de metadados 34 calcula um valor de compressão de DRC baseado em um pressuposto de que o nível de reprodução de referência é aumentado para um valor de -14 dBps a -8 dBps . Resultados empíricos indicam que um nível de referência igual a -11 dBps oferece bons resultados para muitas aplicações. O formatador 38 pode unir o valor de parâmetro para o perfil de DRC em porções de cada quadro de sinal codificado conforme descrito acima para os parâmetros diferenciais. O uso dessas porções dos quadros permite que o sinal codificado seja compatível com todos os decodificadores compatíveis com o padrão respectivo. E. Implantação

[00050] Dispositivos que incorporam vários aspectos da presente invenção podem ser implantados em uma variedade de maneiras incluindo software para execução por um computador ou algum outro dispositivo que inclui componentes mais especializados tais como conjunto de circuitos de processador de sinal digital (DSP) acoplados a componentes semelhantes àqueles encontrados em um computador de propósito geral. A Figura 6 é um diagrama de bloco esquemático de um dispositivo 70 que pode ser usado para implantar aspectos da presente invenção. O processador 72 fornece recursos de computação. RAM 73 é a memória de acesso aleatório de sistema (RAM) usada pelo processador 72 para processamento. ROM 74 representa alguma forma de armazenamento persistente tal como memória apenas leitura (ROM) para armazenar programas necessários para operar o dispositivo 70 e possivelmente para realizar vários aspectos da presente invenção. Controle de E/S 75 representa um conjunto de circuitos de interface para receber sinais de entrada e transmitir sinais de saída por meio dos canais de comunicação 76, 77. Na modalidade mostrada, todos os componentes de sistemas principais são conectados ao barramento 71, que pode representar mais que um barramento físico ou lógico; contudo, uma arquitetura de barramento não é requerida para implantar a presente invenção.

[00051] Em modalidades implantadas por um sistema de computador de propósito geral, componentes adicionais podem ser incluídos para se relacionar a dispositivos tais como um teclado ou mouse e um monitor, e para controlar um dispositivo de armazenamento 78 que tem um meio de armazenamento tal como um disco ou fita magnética, ou um meio óptico. O meio de armazenamento pode ser usado para gravar programas de instruções para aplicações, utilitários e sistemas de operação, e podem incluir programas que implantam vários aspectos da presente invenção.

[00052] As funções requeridas para praticar vários aspectos da presente invenção podem ser executadas por componentes que são implantados em uma ampla variedade de maneiras incluindo componentes lógicos discretos, circuitos integrados, um ou mais ASICs e/ou processadores controlados por programa. A maneira pela qual esses componentes são implantados não é importante para a presente invenção.

[00053] Implantações de software da presente invenção podem ser transmitidas por uma variedade de meios legíveis por máquina tal como trajetórias de comunicação moduladas ou de banda base ao longo de todo o espectro incluindo de frequências supersônicas a ultravioletas, ou meios de armazenamento que transmitem informações por meio do uso de essencialmente qualquer tecnologia de gravação incluindo fita, cartões ou disco magnéticos, disco ou cartões ópticos, e marcações detectáveis em meios incluindo papel.

Claims

1. Método para decodificar um sinal de entrada codificado para gerar um sinal de saída de áudio, compreendendo as etapas de: receber o sinal de entrada codificado que inclui informações de áudio codificadas e metadados associados que incluem um ou mais parâmetros de controle de decodificação e um ou mais primeiros parâmetros que especificam a compressão de extensão dinâmica de acordo com um primeiro perfil de compressão de extensão dinâmica e que incluem, opcionalmente, um ou mais segundos parâmetros que especificam a compressão de extensão dinâmica de acordo com um segundo perfil de compressão de extensão dinâmica, em que os um ou mais primeiros parâmetros têm valores que são estabelecidos de acordo com um processo de codificação que gerou as informações de áudio codificadas para representar os estímulos auditivos com amplitudes que não excedem um nível de recorte para reprodução em um primeiro nível de reprodução de referência, e em que os um ou mais segundos parâmetros têm valores que são ajustados de acordo com o processo de codificação que gerou as informações de áudio codificadas para representar os estímulos auditivos com amplitudes que não excedem o nível de recorte para reprodução em um segundo nível de reprodução de referência que é maior que o primeiro nível de reprodução de referência; aplicar um processo de decodificação às informações de áudio codificadas para obter sinais de sub-banda que representam conteúdo espectral dos estímulos auditivos, em que o processo de decodificação é adaptado em resposta aos um ou mais parâmetros de controle de decodificação; caracterizado pelo fato de que ainda compreende: modificar os sinais de sub-banda para obter sinais de sub- banda modificados com características de extensão dinâmica alteradas, em que a modificação é adaptada em resposta aos um ou mais segundos parâmetros se os metadados incluem os um ou mais segundos parâmetros ou é adaptada em resposta aos um ou mais primeiros parâmetros se os metadados não incluem os um ou mais segundos parâmetros; aplicar um banco de filtro de síntese aos sinais de sub- banda modificados para obter um sinal de áudio de domínio de tempo; e se os metadados não incluem os um ou mais segundos parâmetros, aplicar um ganho e um limitador ao sinal de áudio de domínio de tempo em resposta aos metadados, em que a aplicação do ganho modifica o sinal de áudio de domínio de tempo para obter o sinal de saída de áudio com amplitudes para reprodução no segundo nível de reprodução de referência, e em que a aplicação do limitador impede que as amplitudes do sinal de saída de áudio excedam o nível de recorte.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os um ou mais segundos parâmetros representam diferenças entre parâmetros correspondentes para o primeiro perfil de compressão de extensão dinâmica e o segundo perfil de compressão de extensão dinâmica.

3. Método, de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de que o sinal de entrada codificado se conforma ao Padrão ATSC, ao Padrão MPEG-2 AAC ou ao Padrão de Áudio MPEG-4, o primeiro nível de reprodução de referência corresponde a uma amplitude de 20 dB abaixo do nível de recorte, e o segundo nível de reprodução de referência corresponde a uma amplitude de 11 dB abaixo do nível de recorte.

4. Método para codificar um sinal de entrada de áudio que representa estímulos auditivos, compreendendo as etapas de: receber o sinal de entrada de áudio; aplicar um banco de filtro de análise ao sinal de entrada de áudio para gerar sinais de sub-banda que representam conteúdo espectral do sinal de entrada de áudio; analisar um ou mais sinais derivados do sinal de entrada de áudio para calcular metadados que incluem um ou mais primeiros parâmetros que especificam a compressão de extensão dinâmica de acordo com um primeiro perfil de compressão de extensão dinâmica e um ou mais segundos parâmetros que especificam a compressão de extensão dinâmica de acordo com um segundo perfil de compressão de extensão dinâmica, em que os um ou mais primeiros parâmetros têm valores que são ajustados para representar os estímulos auditivos com amplitudes que não excedem um nível de recorte para reprodução em um primeiro nível de reprodução de referência, e em que os um ou mais segundos parâmetros têm valores que são ajustados para representar os estímulos auditivos com amplitudes que não excedem o nível de recorte para reprodução em um segundo nível de reprodução de referência; aplicar um processo de codificação aos sinais de sub- banda para obter informações de áudio codificadas; caracterizado pelo fato de que ainda compreende: unir as informações de áudio codificadas e os metadados em um sinal de saída codificado que tem um formato adequado para transmissão ou armazenamento, em que os um ou mais segundos parâmetros representam diferenças entre parâmetros correspondentes para o primeiro perfil de compressão de extensão dinâmica e o segundo perfil de compressão de extensão dinâmica.

5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o sinal de saída codificado se conforma ao Padrão ATSC, ao Padrão MPEG-2 AAC ou ao Padrão de Áudio MPEG-4, o primeiro nível de reprodução de referência corresponde a uma amplitude de 20 dB abaixo do nível de recorte e o segundo nível de reprodução de referência corresponde a uma amplitude de 11 dB abaixo do nível de recorte.

6. Método para transcodificar um sinal de entrada codificado para gerar um sinal de saída codificado, caracterizado pelo fato de que compreende as etapas de: receber o sinal de entrada codificado que inclui as primeiras informações de áudio codificadas e metadados associados que incluem um ou mais parâmetros de controle de decodificação e um ou mais primeiros parâmetros que especificam a compressão de extensão dinâmica de acordo com um primeiro perfil de compressão de extensão dinâmica, em que os um ou mais primeiros parâmetros têm valores que são ajustados de acordo com um primeiro processo de codificação que gerou as primeiras informações de áudio codificadas para representar estímulos auditivos com amplitudes que não excedem um nível de recorte para reprodução em um primeiro nível de reprodução de referência; aplicar um processo de decodificação às primeiras informações de áudio codificadas para obter sinais de sub-banda que representam o conteúdo espectral dos estímulos auditivos, em que o processo de decodificação é adaptado em resposta aos um ou mais parâmetros de controle de decodificação; analisar um ou mais sinais obtidos dos sinais de sub-banda para calcular um ou mais segundos parâmetros que especificam a compressão de extensão dinâmica de acordo com um segundo perfil de compressão de extensão dinâmica, em que os um ou mais segundos parâmetros têm valores que são ajustados para representar os estímulos auditivos com amplitudes que não excedem o nível de recorte para reprodução em um segundo nível de reprodução de referência; e unir as segundas informações de áudio codificadas, os um ou mais primeiros parâmetros e os um ou mais segundos parâmetros em um sinal de saída codificado que tem um formato adequado para transmissão ou armazenamento, em que as segundas informações de áudio codificadas são uma representação codificada dos sinais de sub-banda.

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que os um ou mais segundos parâmetros representam diferenças entre parâmetros correspondentes para o primeiro perfil de compressão de extensão dinâmica e o segundo perfil de compressão de extensão dinâmica.

8. Método, de acordo com a reivindicação 6 ou 7, caracterizado pelo fato de que compreende aplicar um banco de filtro de síntese aos sinais de sub-banda para obter os um ou mais sinais que são analisados para calcular os um ou mais segundos parâmetros que especificam a compressão de extensão dinâmica.

9. Método, de acordo com qualquer uma das reivindicações 6 a 8, caracterizado pelo fato de que compreende aplicar um segundo processo de codificação aos sinais de sub-banda para gerar as segundas informações de áudio codificadas.

10. Método, de acordo com qualquer uma das reivindicações 6 a 8, caracterizado pelo fato de que as segundas informações de áudio codificadas são as primeiras informações de áudio codificadas.

11. Método, de acordo com qualquer uma das reivindicações 6 a 10, caracterizado pelo fato de que o sinal de entrada codificado se conforma ao Padrão ATSC, ao Padrão MPEG-2 AAC ou ao Padrão de Áudio MPEG-4, e o primeiro nível de reprodução de referência corresponde a uma amplitude de 20 dB abaixo do nível de recorte.

12. Método, de acordo com qualquer uma das reivindicações 6 a 10, caracterizado pelo fato de que o sinal de saída codificado se conforma ao Padrão ATSC, ao Padrão MPEG-2 AAC ou ao Padrão de Áudio MPEG-4, e o segundo nível de reprodução de referência corresponde a uma amplitude de 11 dB abaixo do nível de recorte.

13. Aparelho caracterizado pelo fato de que compreende meios para executar as etapas do método conforme definido em qualquer uma das reivindicações de 1 a 12.

14. Meio de armazenamento em um dispositivo caracterizado pelo fato de que é para executar as etapas do método conforme definido em qualquer uma das reivindicações de 1 a 12.