BR112015019176B1

BR112015019176B1 - método e aparelho de expansão de um sinal de áudio, método e aparelho de compressão de um sinal de áudio, e mídia legível por computador

Info

Publication number: BR112015019176B1
Application number: BR112015019176-2A
Authority: BR
Inventors: Michael Schug; Per Hedelin; Arijit Biswas; Vinay Melkote
Original assignee: Dolby Laboratories Licensing Corporation; Dolby International Ab
Priority date: 2013-04-05
Filing date: 2014-04-01
Publication date: 2021-02-09
Also published as: US11423923B2; EP2981963B1; IL261514B; CA2900724C; CN108269584B; MX342965B; IL240006A; KR20220140002A; IL243689A0; CN108269586A; SG11201506134XA; IL283098A; IL274358B; IL240006A0; JP2021076872A; JP6517723B2; EP3564953B1; CN108269585A; EP3564953A3; EA201591533A1

Abstract

SISTEMA E MÉTODO DE COMPANSÃO PARA REDUZIR O RUÍDO DE QUANTIZAÇÃO COM O USO DE EXTENSÃO DE ESPECTRO AVANÇADA. Modalidades referem-se a um método e sistema de compansão para reduzir o ruído de codificação em um codec de áudio. Um processo de compressão reduz uma faixa dinâmica original de um sinal de áudio inicial através de um processo de compressão que divide o sinal de áudio inicial em uma pluralidade de segmentos com o uso de um formato de janela definido, calcula um ganho de banda larga no domínio de frequência com o uso de uma média não baseada em energia de amostras do domínio de frequência do sinal de áudio inicial, e aplica valores de ganho individuais para amplificar os segmentos de intensidade relativamente baixa e atenuar os segmentos de intensidade relativamente alta. O sinal de audio comprimido é, então, expandido de volta para substancialmente a faixa dinâmica original que aplica valores de ganho inversos para amplificar os segmentos de intensidade relativamente alta e atenuar os segmentos de intensidade relativamente baixa. Um banco de filtros QMF é usado para analisar o sinal de áudio inicial para obter uma representação de domínio de frequência.

Description

REFERÊNCIAS CRUZADAS A PEDIDOS RELACIONADOS

[0001] Este pedido reivindica a prioridade sobre os Pedidos de Patente Provisórios n°. U.S. 61/809.028 depositado no dia 5 de abril de 2013 e n°. U.S. 61/877.167 depositado no dia 12 de setembro de 2013, os quais são incorporados a título de referência em sua totalidade.

CAMPO DA INVENÇÃO

[0002] Uma ou mais modalidades referem-se a, geralmente, a um processamento de sinal de áudio, e mais especificamente, para reduzir um ruído de codificação em codecs de áudio com o uso de procedimentos de compressão/expansão (compansão "companding").

ANTECEDENTES

[0003] Diversos formatos de sons digitais populares utilizam procedimentos de compressão de dados com perdas que descartam alguns dos dados para reduzir um armazenamento ou solicitações de taxa de dados. A aplicação de compressão de dados com perdas não reduz apenas a fidelidade de conteúdo de origem (por exemplo, conteúdo de áudio), mas, também pode introduzir uma distorção notável em formato de artefatos de compressão. No contexto de sistemas de codificação de áudio, esses artefatos de som são chamados de ruído de codificação ou de ruído de quantização.

[0004] Os sistemas de áudio digital empregam codecs (componentes de codificador/decodificador) para comprimir e descomprimir dados de áudio, de acordo com um formato de arquivo de áudio definido ou formato de áudio de meio de transmissão. Os algoritmos de implantação de codecs que tentam representar o sinal de áudio com um número mínimo de bits enquanto retém a mais alta fidelidade possível. Os procedimentos de compressão com perdas usados tipicamente em codecs de áudio trabalham com um modelo psicoacústico de percepção de audição humana. Os formatos de áudio envolvem, geralmente, o uso de uma transformada de domínio de tempo/frequência (por exemplo, uma transformada de cosseno discreta modificada - MDCT) e o uso de efeitos de mascaramento, tais como um mascaramento de frequência ou mascaramento temporal, de modo que determinados sons, incluindo qualquer ruído de quantização aparente, fique escondido ou mascarado pelo conteúdo atual.

[0005] A maioria dos sistemas de codificação de áudio é com base em um quadro. No interior de um quadro, os codecs de áudio normalmente formam o ruído de codificação no domínio de frequência, de modo que o mesmo se torne menos audível. Diversos formatos de áudio digital presentes utilizam quadros de tais longas durações que um quadro possa conter sons de diversos níveis ou intensidades diferentes. Visto que o ruído de codificação é geralmente estacionário em um nível acima da evolução de um quadro, o ruído de codificação pode ser mais audível durante partes de baixa intensidade do quadro. Tal efeito pode ser manifestado como uma distorção de pré-eco em que o silêncio (ou sinal de nível baixo) que precede um segmento de intensidade alta é abafado pelo ruído no sinal de áudio decodificado. Tal efeito pode ser mais notável em sons ou impulsos transitórios a partir de instrumentos de percussão, tal como castanholas ou outras fontes de sons de percussão nítidos. Tal distorção é causada tipicamente pelo ruído de quantização introduzido no domínio de frequência que é espalhado na janela inteira de transformada do codec no domínio de tempo.

[0006] As medidas presentes para evitar ou minimizar os artefatos de pré-eco incluem o uso de filtros. Tais filtros, no entanto, introduzem uma distorção de fase e mancha temporal. Outra solução possível in- clui o uso de janelas de transformada menores, no entanto, essa abordagem pode reduzir significativamente uma resolução de frequência.

[0007] Não se deve pressupor que a matéria discutida na seção anterior seja a técnica anterior apenas como um resultado da menção na seção anterior. Similarmente, não se deve pressupor que um problema mencionado na seção anterior ou associado à matéria da seção anterior tenha sido reconhecido previamente na técnica anterior. A matéria na seção anterior representa somente diferentes abordagens, as quais por si só também podem ser invenções.

BREVE SUMÁRIO DAS MODALIDADES

[0008] As modalidades são direcionadas a um método de processamento de um sinal de áudio recebido expandindo-se o sinal de áudio a uma faixa dinâmica expandida através de um processo que inclui dividir o sinal de áudio recebido em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, calcular um ganho de banda larga para cada segmento de tempo no domínio de frequência com o uso de uma média com base em não energia de uma representação de domínio de frequência do sinal de áudio, e aplicar um valor de ganho a cada segmento de tempo para obter o sinal de áudio expandido. Os valores de ganho do ganho de banda larga aplicados a cada segmento de tempo são selecionados para ter o efeito de amplificar os segmentos de uma intensidade relativamente alta e atenuar os segmentos de uma intensidade relativamente baixa. Para esse método, o sinal de áudio recebido compreende um sinal de áudio original que foi comprimido a partir de uma faixa dinâmica original através de um processo de compressão que inclui dividir o sinal de áudio original em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, calcular um ganho de banda larga no domínio de frequência com o uso de uma média com base em não energia de amostras de domínio de frequência do sinal de áudio inicial e aplicar o ganho de banda larga ao sinal de áudio original. No processo de compressão, os valores de ganho do ganho de banda larga aplicado a cada segmento de tempo são selecionados para ter o efeito de amplificar os segmentos de intensidade relativamente baixa e os segmentos atenuantes de intensidade relativamente alta. O processo de expansão é configurado para restaurar, substancialmente, a faixa dinâmica do sinal de áudio inicial, e o ganho de banda larga do processo de expansão pode ser substancialmente o inverso do ganho de banda larga do processo de compressão.

[0009] Em um sistema que implanta um método de processamento de um sinal de áudio recebido por um processo de expansão, um componente de banco de filtros pode ser usado para analisar o sinal de áudio para obter sua representação de domínio de frequência, e o formato de janela definido por segmentação na pluralidade de segmentos de tempo pode ser o mesmo que o filtro de protótipo para o banco de filtros. De modo semelhante, em um sistema que implanta um método de processamento de um sinal de áudio recebido por um processo de compressão, um componente de banco de filtros pode ser usado para analisar o sinal de áudio original para obter a representação de domínio de frequência, e o formato de janela definido para segmentação na pluralidade de segmentos de tempo pode ser o mesmo que o filtro de protótipo para o banco de filtros. O banco de filtros, em cada caso, pode ser um de um banco de QMF ou uma transformada de Fourier de tempo curto. Nesse sistema, um sinal recebido para o processo de expansão é obtido após a modificação do sinal comprimido por um codificador de áudio que gera um fluxo de bits, e um decodi- ficador que decodifica o fluxo de bits. O codificador e o decodificador podem compreender pelo menos uma parte de um codec de áudio com base em transformada. O sistema pode compreender, adicionalmente, os componentes que processam informações de controle que é recebido através do fluxo de bits e determina um estado de ativação do processo de expansão.

BREVE DESCRIÇÃO DOS DESENHOS

[0010] Nos números de referência similares aos seguintes desenhossão usados para se referirem aos elementos similares. Embora as seguintes Figuras mostrem diversos exemplos, uma ou mais implantações não se limitam aos exemplos mostrados nas Figuras.

[0011] A Figura 1 ilustra um sistema para comprimir e expandir um sinal de áudio em um codec de áudio com base em transformada, sob uma modalidade.

[0012] A Figura 2A ilustra um sinal de áudio dividido em uma pluralidade de segmentos de tempo curto, sob uma modalidade.

[0013] A Figura 2B ilustra o sinal de áudio da Figura 2A após a aplicação de ganho de banda larga sobre cada um dos segmentos de tempo curto, sob uma modalidade.

[0014] A Figura 3A é um fluxograma que ilustra um método para comprimir um sinal de áudio, sob uma modalidade.

[0015] A Figura 3B é um fluxograma que ilustra um método para expandir um sinal de áudio, sob uma modalidade.

[0016] A Figura 4 é um diagrama de blocos que ilustra um sistema para comprimir um sinal de áudio, sob uma modalidade.

[0017] A Figura 5 é um diagrama de blocos que ilustra um sistema para expandir um sinal de áudio, sob uma modalidade.

[0018] A Figura 6 ilustra a divisão de um sinal de áudio em uma pluralidade de segmentos de tempo curto, sob uma modalidade.

DESCRIÇÃO DETALHADA

[0019] Os sistemas e métodos são descritos para o uso de procedimentos de compansão para atingir um formato de ruído temporal de um ruído de quantização em um codec de áudio. Tais modalidades incluem o uso de um algoritmo de compansão implantado no domínio de QMF para alcançar formato temporal de um ruído de quantização. Os processos incluem um controle de codificador do nível de compa- são de decodificador desejado, e uma extensão além das aplicações monofônicas a uma compansão de multicanais e estéreo.

[0020] Os aspectos de uma ou mais modalidades descritos no presente documento podem ser implantados em um sistema de áudio que processa sinais de áudio para transmitir através de uma rede que inclui um ou mais computadores ou dispositivos de processamento que executam instruções de software. Qualquer modalidade descrita pode ser usada isoladamente ou em conjunto com as outras em qualquercombinação. Embora diversas modalidades tenham sido motivadas por diversas deficiências da técnica anterior, as quais podem ser discutidas ou mencionadas em um ou mais locais no relatório descritivo, as modalidades não abordam, necessariamente, qualquer uma dessas deficiências. Em outras palavras, as diferentes modalidades podem abordar diferentes deficiências que podem ser discutidas no relatório descritivo. Algumas modalidades podem apenas abordar par-cialmente algumas deficiências ou apenas uma deficiência que pode ser discutida no relatório descritivo, e algumas modalidades podem não abordar qualquer umas dessas deficiências.

[0021] A Figura 1 ilustra um sistema de compansão para reduzir um ruído de quantização em um sistema de processamento de áudio com base em codec, sob uma modalidade. A Figura 1 ilustra um sistema de processamento de áudio que é construído ao redor de um codec de áudio que compreende um codificador (ou "codificador de núcleo") 106 e um decodificador (ou "decodificador de núcleo") 112. O codificador 106 codifica um conteúdo de áudio em fluxos de dados ou um sinal para transmitir pela rede 110 em que é decodificada pelo de- codificador 112 para uma reprodução ou processamento adicional. Em uma modalidade, o codificador 106 e o decodificador 112 do codec implantam um método de compressão em perdas para reduzir o armazenamento e/ou as solicitações de taxa de dados dos dados de áudio digital, e tal codec pode ser implantado como um MP3, Vorbis, Dolby Digital (AC-3), AAC, ou codec similar. O método de compressão em perdas do codec cria um ruído de codificação que é geralmente estacionário em nível com a evolução de um quadro definido pelo codec. Tal ruído de codificação é, muitas vezes, mais audível durante partes de baixa intensidade de um quadro. O sistema 100 inclui componentes que reduzem o ruído de codificação percebido em sistemas de codificação existentes fornecendo um componente de pré-etapa de compressão 104 anterior ao codificador de núcleo 106 do codec e um componente de pré-etapa de expansão 114 que opera na saída de de- codificador de núcleo 112. O componente de compressão 104 é configurado para dividir o sinal de entrada de áudio original 102 em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, para calcular e aplicar um ganho de banda larga no domínio de frequência com o uso de uma média com base em não energia de amostras de domínio de frequência do sinal de áudio inicial, em que os valores de ganho aplicados a cada segmento de tempo amplificam os segmentos de intensidade relativamente baixa e atenuam os segmentos de intensidade relativamente alta. Essa modificação de ganho tem o efeito de comprimir ou reduzir, significativamente, a faixa dinâmica original do sinal de áudio de entrada 102. O sinal de áudio comprimidoé codificado, então, em um codificador 106, transmitido pela rede 110 e decodificado em um decodificador 112. O sinal comprimido decodificado é inserido em um componente de expansão 114, o qual é configurado para realizar a operação inversa da pré-etapa de compressão 104 aplicando-se os valores de ganho inversos a cada segmento de tempo para expandir a faixa dinâmica do sinal de áudio comprimido de volta à faixa dinâmica do sinal de áudio de entrada ori ginal 102. Dessa forma, o sinal de saída de áudio 116 compreende um sinal de áudio que tem a faixa dinâmica original, com o ruído de codificação removido através do processo de compansão de pré-etapa e de pós-etapa.

[0022] Conforme mostrado na Figura 1, um componente de compressão ou uma pré-etapa de compressão 104 é configurado para reduzir a entrada de faixa dinâmica do sinal de áudio 102 no codificador de núcleo 106. O sinal de áudio de entrada é dividido em um número de segmentos curtos. O tamanho ou o comprimento de cada segmento curto é uma fração do tamanho de quadro usada pelo codificador de núcleo 106. Por exemplo, um típico tamanho de quadro do codificador de núcleo pode estar na ordem de 40 a 80 milissegundos. Nesse caso, cada segmento curto pode estar na ordem de 1 a 3 milissegundos. O componente de compressão 104 calcula um valor de ganho de banda larga apropriado para comprimir o sinal de áudio de entrada em uma base por segmento. Isso é alcançado pela modificação de segmentos curtos do sinal por um valor de ganho apropriado para cada segmento. Os valores de ganho relativamente maiores são selecionados para amplificar os segmentos de intensidade relativamente baixa, e valores de ganho menores são selecionados para atenuar os segmentos de intensidade alta.

[0023] A Figura 2A ilustra um sinal de áudio dividido em uma pluralidade de segmentos de tempo curto, sob uma modalidade, e a Figura 2B ilustra o mesmo sinal de áudio após a aplicação de ganho de banda larga por um componente de compressão. Conforme mostrado na Figura 2A, o sinal de áudio 202 representa um impulso de som ou transitório, tal como pode ser produzido por um instrumento de percussão (por exemplo, castanholas). O sinal apresenta um pico em uma amplitude, conforme mostrado na plotagem de tensão, V, versus tempo, t. Em geral, a amplitude do sinal é relacionada à energia ou inten-sidade acústica do som e representa uma medida da potência de som em qualquer ponto de tempo. Quando o sinal de áudio 202 é processadoatravés de um codec de áudio com base em quadro, as porções do sinal são processadas no interior de quadros de transformadas (por exemplo, MDCT) 204. Os típicos sistemas de áudio digital presentes utilizam quadros de duração relativamente longa, de modo que para um som transitório nítido ou de impulso curtos, um único quadro pode incluir sons de intensidade baixa, assim como de intensidade alta. Dessa forma, conforme mostrado na Figura 1, o único quadro de MDCT 204 inclui a porção de impulso (pico) do sinal de áudio assim como uma quantidade relativamente grande de sinal de intensidade baixa antes e após o pico. Em uma modalidade, um componente de compressão 104 divide o sinal em diversos segmentos de tempo curtos 206 e aplica um ganho de banda larga a cada segmento a fim de comprimir a faixa dinâmica do sinal 202. O número e o tamanho de cada segmento curto podem ser selecionados com base em necessidades de aplicação e restrições de sistema. Em relação ao tamanho de um quadro de MDCT individual, o número de segmentos curtos pode estar na faixa de 12 a 64 segmentos e podem compreender tipicamente 32 segmentos, contudo, as modalidades não são tão limitadas.

[0024] A Figura 2B ilustra o sinal de áudio da Figura 2A após a aplicação de ganho de banda larga sobre cada um dos segmentos de tempo curto, sob uma modalidade. Conforme mostrado na Figura 2B, o sinal de áudio 212 tem o mesmo formato em relação ao sinal original 202, no entanto, a amplitude dos segmentos de intensidade baixa foi aumentada pela aplicação de valores de ganho amplificação, e a amplitude da intensidade alta segmentos foi diminuída pela aplicação de valores de ganho atenuantes.

[0025] A saída do decodificador de núcleo 112 é o sinal de audio de entrada com faixa dinâmica reduzida (por exemplo, sinal 212) mais o ruído de quantização introduzido pelo codificador de núcleo 106. Esse ruído de quantização apresenta um nível quase uniforme através do tempo no interior de cada quadro. O componente de expansão 114 atua no sinal decodificado para restaurar a faixa dinâmica do sinal original. O mesmo usa a mesma resolução de tempo curto com base no tamanho de segmento curto 206 e inverte os ganhos aplicados no componente de compressão 104. Dessa forma, o componente de expansão 114 aplica um pequeno ganho (atenuação) em segmentos que no sinal original tinham uma intensidade baixa e foi amplificada pelo compressor, e aplica um grande ganho (amplificação) em segmentos que no sinal original tinham uma intensidade alta e foi atenuada pelo compressor. O ruído de quantização adicionado pelo codificador de núcleo, o qual tinha um envelope de tempo uniforme, é, dessa forma, conformado simultaneamente pelo ganho de pós-processador para seguir aproximadamente o envelope temporal do sinal original. Esse processamento tornaria, de modo eficaz, o ruído de quantização menosaudível durante as passagens silenciosas. Embora o ruído possa ser amplificado durante as passagens de intensidade alta, o mesmo permanece menos audível devido ao efeito de mascaramento do sinal alto do conteúdo de áudio.

[0026] Conforme mostrado na Figura 2A, o processo de compan-são modifica segmentos distintos do sinal de áudio individualmente com respectivos valores de ganho. Em determinados casos, isso pode resultar em descontinuidades na saída do componente de compressão que pode causar problemas no codificador de núcleo 106. De modo semelhante, as descontinuidades em um ganho no componente de expansão 114 poderiam resultar em descontinuidades no envelope do ruído conformado, o que poderia resultar em cliques audíveis na saída de áudio 116. Outro problema referente à aplicação de valores de ganho individuais a segmentos curtos do sinal de áudio é com base no fato de que típicos sinais de áudio são uma mistura de diversas fontes individuais. Algumas dessas fontes podem ser estacionárias através do tempo, e algumas podem ser transitórias. Um sinal estacionário é geralmente constante nos parâmetros estatísticos através do tempo, enquanto os sinais transitórios não são geralmente constantes. Com a natureza de banda larga de transitórios, a impressão digital em tal misturaé geralmente mais visível em frequências mais altas. Um cálculo de ganho que tem como base uma energia de curto prazo (RMS) do sinal tende a ser polarizado em direção às frequências baixas mais fortes e, portanto, é dominado pelas fontes estacionárias e exibe uma pequena variação através do tempo. Dessa forma, essa abordagem com base em energia é geralmente ineficaz quando se forma o ruído introduzido pelo codificador de núcleo.

[0027] Em uma modalidade, o sistema 100 calcula e aplica o ganho na compressão e os componentes de expansão em um banco de filtros com um filtro de protótipo curto a fim de solucionar as questões potenciais associadas à aplicação de valores de ganho individuais. O sinal a ser modificado (o sinal original no componente de compressão 104, e a saída do decodificador de núcleo 112 no componente de expansão 114) é analisado, primeiramente, pelo banco de filtros e o ganho de banda larga é aplicado diretamente no domínio de frequência. O efeito correspondente no domínio de tempo é para suavizar naturalmente a aplicação de ganho, de acordo com o formato do filtro de protótipo. Isso soluciona as questões das descontinuidades descritas acima. O sinal de domínio de frequência modificado é convertido de volta, então, ao domínio de tempo através de um banco de filtros de síntese correspondente. Analisar o sinal com um banco de filtros fornece um acesso a esse conteúdo espectral, e permite o cálculo de um ganho que reforça preferencialmente a contribuição devido às altas frequências (ou reforçar a contribuição devido a qualquer conteúdo espectral que é fraco), fornecendo valores de ganho que não são dominados pelos componentes mais fortes no sinal. Isso soluciona o problema associado às fontes de áudio que compreendem uma mistura de diferentes fontes, conforme descrito acima. Em uma modalidade, o sistema calcula o ganho com o uso de uma norma p das magnitudes espectrais em que p é tipicamente menor do que 2 (p<2). Isso possibilita mais ênfase ao conteúdo espectral fraco, conforme comparado quando está com base em energia (p=2).

[0028] Conforme declarado acima, o sistema inclui um filtro de protótipo suaviza a aplicação de ganho. Em geral, um filtro de protótipo é o formato em janela básico em um banco de filtros, o qual é modulado por formas de ondas senoidais para obter as respostas ao impulso para os diferentes filtros de sub-banda nos bancos de filtros. Por exemplo, uma transformada de Fourier de tempo curto (STFT) é um banco de filtros, e cada linha de frequência dessa transformada é uma subbanda do banco de filtros. A transformada de Fourier de tempo curto é implantada multiplicando-se um sinal com um formato de janela (uma janela de amostra N), a qual poderia ser retangular, Hann, Kaiser- Bessel (KBD) derivado, ou algum outro tipo. O sinal em janela é submetido,então, a uma operação transformada de Fourier distinta (DFT) para obter a STFT. O formato de janela, nesse caso, é o filtro de protótipo. A DFT é composta de funções de base senoidal, cada uma com uma frequência diferente. O formato de janela multiplicado por uma função senoidal fornece, então, o filtro para a sub-banda que correspondeàquela frequência. Visto que o formato de janela é o mesmo em todas as frequências, isso se refere a um "protótipo".

[0029] Em uma modalidade, o sistema utiliza um banco de QMF (Filtro Modulado de Quadratura) para o banco de filtros. Em uma implantação particular, o banco de QMF pode ter uma janela pt 64, a qual forma o protótipo. Essa janela modulada pelas funções de cosse- no e seno (que correspondem a 64 frequências igualmente espaçadas) forma os filtros de sub-banda para o banco de QMF. Após cada aplicação da função de QMF, a janela é movida por todas as 64 amostras, isto é, a sobreposição entre os segmentos de tempo, nesse caso é de 640 - 64 = 576 amostras. No entanto, embora o formato de janela se estenda em dez segmentos de tempo, nesse caso (640 = 10*64), o lóbulo principal da janela (onde os valores de amostra são muito significativos) é cerca de 128 amostras ao longo. Dessa forma, o comprimento efetivo da janela ainda é relativamente curto.

[0030] Em uma modalidade, o componente de expansão 114 inverte idealmente os ganhos aplicados pelo componente de compressão 104. Embora seja possível transmitir os ganhos aplicados pelo componente de compressão através do fluxo de bits ao decodi- ficador, tal abordagem consumiria tipicamente uma taxa de bits significativa. Em uma modalidade, o sistema 100 estima, em vez disso, os ganhos solicitados pelo componente de expansão 114 diretamente a partir do sinal disponível ao mesmo, isto é, a saída do decodifi- cador 112, o qual não solicita de modo eficaz bits adicionais. O ban-co de filtros na compressão e os componentes de expansão são selecionados para serem idênticos a fim de calcular ganhos que são inversos um do outro. Além disso, esses bancos de filtros são sincronizados por tempo, de modo que quaisquer atrasos verdadeiros entre a saída do componente de compressão 104 e a entrada ao componente de expansão 114 são múltiplos do passo do banco de filtros. Se o codificado/decodificador de núcleo fosse sem perda e o banco de filtros fornecesse uma reconstrução perfeita, os ganhos na compressão e os componentes de expansão seriam inversos exatos um do outro, dessa forma, permitindo uma reconstrução exata do sinal original. Na prática, no entanto, o ganho aplicado pelo componente de expansão 114 é apenas bem próximo ao inverso do ganho aplicado pelo componente de compressão 104.

[0031] Em uma modalidade, o banco de filtros usado na compressão e os componentes de expansão é um banco de QMF. Em uma aplicação de uso típico, um quadro de áudio de núcleo poderia ser 4096 amostras ao longo de uma sobreposição de 2048 com o quadro vizinho. Em 48 kHz, tal como um quadro, poderiam ser 85,3 milisse- gundos ao longo. Em contraste, um banco de QMF que é usado pode ter um passo de 64 amostras (que é 1.3 ms ao longo), o qual fornece uma resolução temporal fina para os ganhos. Adicionalmente, o QMF tem um filtro de protótipo suave que tem 640 amostras ao longo que garante que a aplicação de ganho varie suavemente através do tempo. A análise com esse banco de filtros de QMF fornece uma representação lado a lado de tempo-frequência do sinal. Cada intervalo de tempo de QMF é igual a um passo e em cada intervalo de tempo de QMF, há 64 sub-bandas uniformemente espaçadas. Alternativamente, outros bancos de filtros poderiam ser empregados, tal como uma transformada de Fourier de tempo curto (STFT), e tal representação lado a lado de tempo-frequência ainda poderia ser obtida.

[0032] Em uma modalidade, o componente de compressão 104 realiza uma etapa de pré-processamento que representa em escala a entrada de codec. Para essa modalidade, St (k) é uma amostra de banco de filtro de valor complexo em um intervalo de tempo t e frequência bin k. A Figura 6 ilustra a divisão de um sinal de áudio em diversos intervalos de tempo por um alcance de frequências, sob uma modalidade. Para a modalidade do diagrama 600, há 64 frequências bins k, e 32 intervalos de tempo t que produzem uma pluralidade de tempo-frequência lado a lado, conforme mostrado (não necessaria-menteextraídos através em escala). As pré-etapas de compressão representam em escala a entrada codec a se tornarem S't(k) = St(k)/gt. Nessa equação, = 1 é um meio de espaço normalizado.

[0033] Na equação acima, a expressão,

é o nível absoluta médio/norma 1- e S0 é uma constante adequada. Uma norma p genérica é definida nesse contexto conforme a seguir:

[0034] Foi mostrado que a norma 1- pode dar resultados melhores do que com o uso da energia (rms/norma 2-). O valor do termo exponentey está tipicamente na faixa entre 0 e 1, e pode ser escolhido para ser 1/3. A constante S0 garante valores de ganho razoáveis independentemente da plataforma de implantação. Por exemplo, pode ser 1 quando implantado em uma plataforma onde os valores de St(k) podem ser limitados em valor absoluto a 1. Isso poderia ser potencialmente diferente em uma plataforma onde St(k) pode ter um valor absoluto máximo diferente. Isso também poderia ser usado para garantir que o valor de ganho médio através de um grande conjunto de sinais seja próximo de 1. Isto é, poderia ser um valor de sinal intermediário entre um valor de sinal máximo e um valor de sinal mínimo determinados a partir de grandes corpora de conteúdo.

[0035] No processo pós-etapa realizado pelo componente de expansão 114, a saída de codec é expandida por um ganho inverso aplicado pelo componente de compressão 104. Isso solicita uma réplica exata ou não exata do banco de filtro do componente de compressão. Nesse caso, ÍJ r: representa uma amostra de valor complexo desse segundo banco de filtro. O componente de expansão 114 representa em escala a saída de codec para se tornar

[0036] Na equação acima é um meio de espaço normalizado dado como:

e

[0037] Em geral, o componente de expansão 114 usará a mesma norma p conforme usada no componente de compressão 104. Dessa forma, se o nível absoluto médio é usado para definir _Ç no componente de compressão 104, í. também é definido o uso da norma 1- (p=1) na equação acima.

[0038] Quando um banco de filtros complexo (que compreende tanto uma base cosseno quanto uma base seno), tal como a STFT ou o QMF complexo é usado na compressão e nos componentes de expansão, em que o cálculo da magnitude, ou 5Jk: de uma amostra de sub-banda complexa solicita uma operação de raíz quadrada computacionalmente intensiva. Isso pode ser evitado aproximando a magnitude da amostra de sub-banda complexa em uma variedade de maneiras, por exemplo, resumindo a magnitude das partes real e imaginária.

[0039] Nas equações acima, o valor de K é igual ao número de sub-bandas no banco de filtros, ou inferior. Em geral, a norma p poderia ser calculada com o uso de qualquer subconjunto das sub-bandas no banco de filtros. No entanto, o mesmo subconjunto poderia ser empregado tanto no codificador 106 quanto no decodificador 112. Em uma modalidade, as porções de alta frequência (por exemplo, componentes de áudio acima de 6 kHz) do sinal de áudio podem ser codificadas com uma ferramenta de extensão espectral avançada (A-SPX). Adicionalmente, pode ser desejável usar apenas o sinal acima de 1 kHz (ou uma frequência similar) para guiar o formato de ruído. Em tal caso, apenas aquelas sub-bandas na faixa de 1 kHz a 6 kHz podem ser usadas para calcular a norma p, e, portanto, o valor de ganho. Adicionalmente,através de um ganho que é calculado de um subconjunto de sub-bandas, ainda poderia ser aplicado a um subconjunto de subbandas diferente e possivelmente maior.

[0040] Conforme mostrado na Figura 1, uma função de compan-são para formar um ruído de quantização introduzido pelo codificador de núcleo 106 de um codec de áudio é realizada por dois componentes separados 104 e 114 que realizam determinadas funções de compressão de pré-codificador e funções de expansão de pós-decodifi- cador. A Figura 3A é um fluxograma que ilustra um método de comprimir um sinal de áudio em uma componente de compressão de pré- codificador, sob uma modalidade, e a Figura 3B é um fluxograma que ilustra um método para expandir um sinal de áudio em um componente de expansão de pós-decodificador, sob uma modalidade.

[0041] Conforme mostrado na Figura 3A, o processo 300 começa com o componente de compressão que recebe o sinal de áudio de entrada (302). Esse componente divide, então, o sinal de áudio em segmentos de tempo curto (304) e comprime o sinal de áudio a uma faixa dinâmica reduzida aplicando valores de ganho de banda larga a cada um dos segmentos curtos (306). O componente de compressão também implanta uma determinada filtração de protótipo e componentes de banco de filtros de QMF para reduzir ou eliminar quaisquer descontinuidades causadas aplicando-se diferentes valores de ganho a segmentos contíguos, conforme descrito acima (308). Em determinados casos, tais como com base no tipo de conteúdo de áudio ou determinadas características do conteúdo de áudio, a compressão e a expansão do sinal de áudio antes e após os estágios de codificação/decodificação do codec de áudio pode degradar mais do que melhorar a qualidade de áudio de saída. Em tais exemplos, o processo de compansão pode ser desligado, ou modificado para retornar diferentes níveis de compansão (compres- são/expansão). Dessa forma, o componente de compressão determina a adequação da função de compansão e/ou o nível ideal de compansão solicitado para a entrada de sinal específica e o ambiente de reprodução de áudio, entre outras variáveis (310). Essa etapa de determinação 310 pode ocorrer em qualquer ponto prático de processo 300, tal como anterior à divisão do sinal de áudio 304 ou da compressão do sinal de áudio 306. Se a compansão é considerada apropriada, os ganhos são aplicados (306), e o codificador codifica, então, o sinal para uma transmissão ao decodificador, de acordo com o formato de dados do codec (312). Determinados dados de controle de compansão, tais como dados de ativação, dados de sincronização, dados de nível de compansão e outros dados de controle podem ser transmitidos como parte do fluxo de bits para um processamento pelo componente de expansão.

[0042] A Figura 3B é um fluxograma que ilustra um método para expandir um sinal de áudio em um componente de expansão de pós- decodificador, sob uma modalidade. Conforme mostrado no processo 350, o estágio de decodificador do codec recebe o fluxo de bits que codifica o sinal de áudio a partir do estágio de codificador (352). O de- codificador codifica, então, o sinal codificado, de acordo com o formato de dados de codec (353). O componente de expansão processa, então, o fluxo de bits e aplica quaisquer dados de controle codificado para desligar a expansão ou modificar os parâmetros de expansão com base nos dados de controle (354). O componente de expansão divide o sinal de áudio em segmentos de tempo com o uso de um formato de janela adequado (356). Em uma modalidade, os segmentos de tempo correspondem aos mesmos segmentos de tempo usados pelo componente de compressão. O componente de expansão calcula, então, os valores de ganho apropriados para cada segmento no domínio de fre-quência (358) e aplica os valores de ganho a cada segmento de tempo para expandir a faixa dinâmica do sinal de áudio de volta à faixa dinâmica original, ou qualquer outra faixa dinâmica apropriada (360).

CONTROLE DE COMPANSÃO

[0043] A compressão e os componentes de expansão que compreendem o compansor de sistema 100 podem ser configurados para aplicar as etapas de pré-processamento e pós-processamento apenas em determinado tempo durante um processamento de sinal de áudio, ou apenas para determinados tipos de conteúdo de áudio. Por exemplo, a compansão pode exibir benefícios para fala e sinais transitórios musicais. No entanto, para outros sinais, tais como compansão de sinaisestacionários podem degradar a qualidade de sinal. Dessa forma, conforme mostrado na Figura 3A, um mecanismo de controle de com- pansão é fornecido como um bloco 310, e os dados de controle são transmitidos a partir do componente de compressão 104 ao componente de expansão 114 para coordenar a operação de compansão. A forma mais simples de tal mecanismo de controle é desligar a função de compansão para os blocos de amostras de áudio onde a aplicação da compansão está degradando a qualidade de áudio. Em uma modalidade, a decisão de compansão ligada/desligada é detectada no codificador e transmitida como elemento de fluxo de bits ao decodificador, de modo que o compressor e o expansor tenham a capacidade de serem ligados/ desligados no mesmo intervalo de tempo de QMF.

[0044] A comutação entre os dois estados levará, geralmente, a uma descontinuidade no ganho aplicado, resultando em artefatos de comutação audíveis ou cliques. As modalidades incluem mecanismos para reduzir ou eliminar esses artefatos. Em uma primeira modalidade, o sistema permite uma comutação da função de compansão ligada e desligada apenas em quadros onde o ganho é próximo a 1. Nesse caso, há apenas uma pequena descontinuidade entre comutando a função de compansão em ligar/desligar. Em uma segunda modalidade, um terceiro modo de fraco, isto é, entre em um modo ligado e desligado é aplicado em um quadro de áudio entre quadros ligados e desligados, e é sinalizado no fluxo de bits. O modo de compansão fraco transita de modo devagar o termo exponente y do valor de padrão durante uma compansão a 0, a qual é equivalente sem compansão. Como uma alternativa ao modo de compansão fraco intermediário, o sistema pode implantar quadros de início e quadros de paragem que sobre um bloco de amostras de áudio aparecem suavemente um modo fora de compansão em vez de um desligamento abrupto da função de compansão. Em uma modalidade adicional, o sistema é configurado não para desligar somente a compansão, contudo, também, para aplicar um ganho médio. Em determinados casos, a qualidade de áudio dos sinais estacionários tonais pode ser aumentada se um fator de ganho constante é aplicado a um quadro de áudio que parece consideravelmente os fatores de ganho de quadros em compansão adjacente do que um fator de ganho constante de 1,0 em uma compansão fora de situação. Tal fator de ganho pode ser calculado pela média de todos os ganhos de compansão por todo quadro. Um quadro que contém um ganho de compansão médio constante é, dessa forma, sinalizado no fluxo de bits.

[0045] Embora as modalidades sejam descritas no contexto de um canal de áudio monofônico, deve-se notar que em canais de múltipla extensão simples pode ser manuseado pela repetição da abordagem individual em cada canal. No entanto, os sinais de áudio que compreendem dois ou mais canais presentes, determinadas complexidades adicionais são abordadas pelas modalidades do sistema de compan- são da Figura 1. A estratégia de compansão deveria depender da similaridade entre os canais.

[0046] Por exemplo, no caso de sinais transitórios produzidos em estéreo, foi observada que a compansão independente dos canais in-dividuais pode resultar em artefatos de imagem audíveis. Em uma modalidade, o sistema determina um valor de ganho único para cada tempo-segmento a partir das amostras de sub-banda de ambos os canais e usos do mesmo valor de ganho para comprimir/expandir os dois sinais. Essa abordagem é geralmente adequada sempre que os dois canais tiverem sinais muito similares, em que a similaridade é definida com o uso uma correlação cruzada, por exemplo. Um detector calcula a similaridade entre os canais e as comutações entre o uso de com- pansão individual dos canais ou com a compansão conjunta com os canais. As extensões para mais canais dividiriam os canais em grupos de canais com o uso de critérios de similaridade e aplicaria a compan- são de união nos grupos. Essas informações de grupo podem ser transmitidas, então, através do fluxo de bits.

IMPLANTAÇÃO DE SISTEMA

[0047] A Figura 4 é um diagrama de blocos que ilustra um sistema para comprimir um sinal de áudio em conjunto com um estágio de codificador de um codec, sob uma modalidade. A Figura 4 ilustra um circuito de hardware ou um sistema que implanta pelo menos uma porção do método de compressão método para usar em um sistema com base em codec, mostrado na Figura 3A. Conforme mostrado em um sistema 400, um sinal de áudio de entrada 401 no domínio de tempo é inserido a um banco de filtros de QMF 402. Esse banco de filtros executa uma operação de análise que separa o sinal de entrada em múltiplos componentes em que cada filtro passa-banda transporta uma sub-banda de frequência do sinal original. A reconstrução do sinal é realizada em uma operação de síntese realizada por um banco de filtros de QMF 410. Na modalidade exemplificativa da Figura 4, tanto a análise quanto a síntese do banco de filtros lidam com as bandas 64. O codificador de núcleo 412 recebe o sinal de áudio a partir do banco de filtros de síntese 410 e gera um fluxo de bits 414 codificando- se o sinal de áudio no formato digital apropriado (por exemplo, MP3, AAC, etc.).

[0048] O sistema 400 inclui um compressor 406 que aplica valores de ganho a cada um dos segmentos curtos que o sinal de áudio foi dividido. Isso produz um sinal de áudio de faixa dinâmica comprimido, tal como mostrado na Figura 2B. Uma unidade de controle de com- pansão 404 analisa o sinal de áudio para determinar se a compressão, ou a quantidade de compressão deveria ser aplicada com base no tipo de sinal (por exemplo, a fala), ou as características do sinal (por exemplo, estacionário versus transitório), ou outros parâmetros relevantes. A unidade de controle 404 pode incluir um mecanismo de detecção para detectar a característica de culminância temporal do sinal de áudio. Com base na característica detectada do sinal de áudio e de determinados critérios pré-definidos, a unidade de controle 404 envia sinais de controle apropriados ao compressor 406 tanto para desligar a função de compressão quanto para modificar os valores de ganho aplicados aos segmentos curtos.

[0049] Além da compansão, muitas outras ferramentas de codificação também poderiam operar no domínio de QMF. Tal ferramenta é A- SPX (extensão espectral avançada), a qual é mostrada no bloco 408 da Figura 4. A A-SPX é um procedimento que é usado para permitir frequências percentualmente menos importantes para serem codificadas com um esquema de codificação mais rústico do que frequências mais importantes. Por exemplo, uma A-SPX na extremidade de decodificador, as amostras de sub-banda de QMF a partir da frequência mais baixa podem ser reaplicadas em frequências mais altas, e o envelope espectral na banda de alta frequência é conformada, então, com o uso de informações laterais transmitidas a partir do codificador ao decodificador.

[0050] Em um sistema em que tanto a compansão quanto a A-SPX são realizadas no domínio de QMF, no codificador, os dados de envelope de A-SPX para as frequências mais altas podem ser extraí-dos a partir de amostras de sub-banda ainda não comprimidas, conforme mostrado na Figura 4, e a compressão pode ser aplicada apenas em amostras de QMF de frequência mais baixa que correspondem à faixa de frequência do sinal codificado pelo codificador de núcleo 412. No decodificador 502 da Figura 5, após a análise de QMF 504 do sinal decodificado, o processo de expansão 506 é aplicado, primeiramente, e a operação de A-SPX 508 reproduz subsequentemente as amostras de sub-banda mais altas a partir do sinal expandido nas frequências mais baixas.

[0051] Nessa implantação exemplificativa, o banco de filtros de síntese de QMF 410 no codificador e o banco de filtros de análise de QMF no decodificador 504 introduzem em conjunto 640 - 64 + 1 de atraso de amostra (~9 espaços de QMF). O atraso de codec de núcleo nesse exemplo é 3200 amostras (50 espaços de QMF), então, o atraso total é 59 espaços. Esse atraso é contado pelos dados de controle incorporados no fluxo de bits e com o uso do mesmo no decodificador, de modo que tanto o compressor de codificador quanto as operações de expansor de decodificador estão em sincronia.

[0052] De modo alternativo, no codificador, a compressão pode ser aplicada a toda a largura de banda do sinal original. Os dados de envelope A-SPX podem ser subsequentemente extraídos das amostras comprimidas de sub-banda. Em tal caso, o decodificador, após a análise de QMF, primeiro executa a ferramenta de A-SPX para primeiro reconstruir toda o sinal comprimido de largura de banda. A etapa de expansão é, então, aplicada para recuperar o sinal com sua faixa dinâmica original.

[0053] Ainda outra ferramenta que pode operar no domínio de QMF pode ser uma ferramenta de acoplamento avançado (AC) (não mostrada) na Figura 4. Em um sistema de acoplamento avançado, dois canais são codificados como um mono downmix com informações adicionais espaciais de parâmetro que podem ser aplicadas no domí-nio de QMF no decodificador para reconstruir uma saída de estéreo. Quando o AC e a compansão são usados em conjunto com um com o outro, a ferramenta de AC também pode ser colocada após a etapa de compressão 406 no codificador, em cujo caso seria aplicada antes da etapa de expansão 506 no decodificador. De modo alternativo, as informações paralelas de AC poderiam ser extraídas do sinal de estéreo não comprimido, em cujo caso a ferramenta de AC operaria após a etapa de expansão 506 no decodificador. Um modo híbrido de AC também pode ser suportado, no qual o AC é usado acima de uma cer-tafrequência e o estéreo discreto é usado abaixo dessa frequência; ou, de modo alternativo, o estéreo separado é usado acima da certa frequência e o AC é usado abaixo dessa frequência.

[0054] Conforme mostrado nas Figuras 3A e 3B, o fluxo de bits transmitido entre a etapa codificadora e a etapa decodificadora do codec inclui certos dados de controle. Tais dados de controle constituem informações paralelas que permitem que o sistema comute entre diferentes modos de compansão. Os dados de controle de comutação (para comutar a compansão ligada/desligada) mais, potencialmente, alguns estados intermediários podem adicionar na ordem de 1 ou 2 bits por canal. Outros dados de controle podem incluir um sinal para determinar se todos os canais de um estéreo separado ou uma configuração multicanal usarão fatores de ganho de compansão comuns ou se os mesmos devem ser calculados de modo independente para cada canal. Tais dados podem necessitar apenas de um único bit extrapor canal. Outros elementos similares de dados de controle e seus pesos em bit apropriados podem ser usados dependendo das necessidades e restrições do sistema.

MECANISMO DE DETECÇÃO

[0055] Em uma modalidade, um mecanismo de controle de com-pansão é incluído como parte do componente de compressão 104 para fornecer o controle da compansão no domínio de QMF. O controle de compansão pode ser configurado com base em um número de fatores, como o tipo de sinal de áudio. Por exemplo, na maior parte das aplicações, a compansão deve ser ligada para sinais de fala e sinais transitórios ou quaisquer outros sinais dentro da classe de sinais temporariamente de pico. O sistema inclui um mecanismo de detecção para detectar uma culminância de um sinal a fim de ajudar a gerar um sinal de controle apropriado para a função do compansor.

[0056] Em uma modalidade, uma medida para culminância temporária TP(k)frameé computada por um binário de frequência k para um codec de núcleo dado e é calculada com o uso da seguinte fórmula:

[0057] Na equação acima, St (k) é o sinal de sub-banda, e Té o número de encaixes de QMF correspondente a um quadro codificador de núcleo. Em uma implantação exemplificativa, o valor de T pode ser 32. A culminância temporária computada por banda pode ser usada para classificar o conteúdo do som em duas categorias gerais: sinais de música estacionária e sinais de música transitória ou sinais de fala. Se o valor de TP(k)frame for menor que um valor definido (por exemplo, 1,2), o sinal nessa sub-banda do quadro é provavelmente um sinal de música estacionário. Se o valor de TP (k) frame for maior que esse valor, então, o sinal é provavelmente sinais de música transitórios ou sinais de fala. Se o valor for maior que um valor limiar ainda maior (por exemplo, 1,6), o sinal é muito provavelmente um sinal transitório de música puro, por exemplo, castanholas. Além disso, foi observado que, para sinais que ocorrem naturalmente, os valores de culminância temporária obtidos em diferentes bandas foi mais ou menos similar, e essa característica poderia ser empregada para reduzir o número de sub-bandas para as quais o valor de culminância temporária deve ser calculado. Com base nessa observa-ção, o sistema pode implantar um dos dois a seguir.

[0058] Em uma primeira modalidade, o detector executa o processo a seguir. Como uma primeira etapa, o mesmo computa o número de bandas que têm uma culminância temporária maior que 1,6. Como uma segunda etapa, o mesmo, então, computa os principais valores de culminância temporária de bandas em que o mesmo é menor que 1,6. Se o número de bandas encontrado na primeira etapa for maior que 51, ou se o valor principal determinado na segunda etapa for maior que 1,45, o sinal é determinado como sendo um sinal transitório musical e, portanto, a compansão deve ser ligada. De outro modo, é determinado como sendo um sinal para o qual a compansão não deve ser ligada. Tal detector desligará, na maioria das vezes, para sinais de fala. Em algumas modalidades, os sinais de fala serão codificados normalmente por um codificador de fala separado e, então, isso geralmentenão é um problema. Entretanto, em certos casos, pode ser desejável ligar a função de compansão também para a fala. Nesse caso, um segundo tipo de detector pode ser preferível.

[0059] Em uma modalidade, esse segundo tipo de detector executa o processo a seguir. Como uma primeira etapa, o mesmo computa o número de bandas que têm uma culminância temporária maior que 1,2. Em uma segunda etapa, o mesmo, então, computa os principais valores de culminância temporária das bandas em que o mesmo é menor que 1,2. O mesmo, então, aplica, a seguinte regra: se o resultado da primeira etapa for maior que 55: ligar a compansão, se o resultado da primeira etapa for menor que 15: desligar a compansão; se o resultado da primeira etapa ficar entre 15 e 55 e o resultado da segunda etapa for maior que 1,16: ligar a compansão; e se o resultado da primeira etapa ficar entre 15 e 55 e o resultado da segunda etapa for menor que 1,16: desligar a compansão. Deve ser notado que os dois tipos de detectores descreveram apenas dois exemplos de muitas so- luções possíveis para um algoritmo detector e outros algoritmos similares podem também, ou de modo alternativo, ser usados.

[0060] A função de controle de compansão fornecida pelo elemento 404 da Figura 4 pode ser implantado de qualquer modo apropriado para permitir que a compansão seja usada ou não com base em certos modos operacionais. Por exemplo, a compansão geralmente não é usada no canal de LFE (efeitos de baixa frequência) de um sistema de som surround e também não é usado quando não existe funcionalidade A-SPX (isto é, nenhum QMF) implantada. Em uma modalidade, a função de controle de compansão pode ser fornecida por um programa executado por um circuito ou elementos com base em processador, como o elemento de controle de compansão 404. A seguir está uma sintaxe exemplificativa de um segmento de programa que pode implantar o controle de compansão, sob uma modalidade: Companding_control(nCh) { sync_flag=0; if (nCh>1){ sync_flag } b_needAvg=0 ch_count=sync_flag?1:nCh for (ch=0; ch<ch_count; ch++){ b_compand_on[ch] if (!b_compand_on[ch]){ b_needAvg=1; } } if (b_needAvg){ b_compand_avg; } }

[0061] Os sinalizadores sync_flag, b_compand_on[ch], e b_com-pand_avg ou elementos de programa podem estar na ordem de 1 bit de comprimento ou qualquer outro comprimento dependendo das restrições e necessidade do sistema. Deve ser notado que o código de programa ilustrado acima é um exemplo de um modo de implantar uma função de controle de compansão, e outros programas ou componentes de hardware podem ser usados para implantar o controle de compansão de acordo com algumas modalidades.

[0062] Embora as modalidades descritas até este ponto incluam o processo para reduzir ruído de quantização de compansão introduzido por um codificador em um codec, deve ser percebido que os aspectos de tal processo de compansão também pode ser aplicado em sistemas de processamento de sinal que não incluam etapas de codificador e decodificador (codec). Além disso, no caso do processo de compan- são ser usado em conjunto com um codec, o codec pode ser com base em transformada ou base não transformada.

[0063] Os aspectos de sistemas descritos no presente document podem ser implantados em um ambiente em rede apropriado de processamento de som com base em computador para processar arquivos de áudio digitais ou digitalizados. As porções do sistema de áudio adaptativo podem incluir uma ou mais redes que compreendam qualquernúmero desejado de máquinas individuais, incluindo um ou mais roteadores (não mostrados) que servem para armazenar temporariamente e direcionar os dados transmitidos entre os computadores. Tal rede pode ser montada em vários protocolos em rede diferentes e pode ser a Internet, uma Rede de Área Ampla (WAN), uma Rede de Área Local (LAN) ou qualquer combinação das mesmas.

[0064] Um ou mais dos componentes, blocos, processos ou outros componentes funcionais podem ser implantados através de um programa de computador que controla a execução de um dispositivo de computação com base em processador do sistema. Também deve ser notado que as várias funções reveladas no presente documento podem ser descritas com o uso de qualquer número de combinações de hardware, firmware e/ou como dados e/ou instruções incorporadas em várias mídias legíveis por máquina ou legíveis por computador, em termos de seu comportamento, transferência de registro, componente lógico e/ou outras características. As mídias legíveis por computador, nas quais tais dados formatados e/ou instruções podem ser incorporados incluem, mas sem caráter limitativo, mídias de armazenamento físicas (não transitórios), não voláteis em várias formas, como mídias de armazenamento óptico, magnético ou semicondutor.

[0065] A não ser que o contexto claramente necessite do contrário, ao longo de toda a descrição e das reivindicações, as palavras "com-preende","que compreende" e similares devem ser interpretadas em um sentido inclusivo, em oposição a um sentido exclusivo ou um sentido minucioso; isso é, a saber, em um sentido de "incluindo, mas não limitado a". As palavras com o uso do número singular ou plural também incluem o número plural ou singular respectivamente. Adicionalmente, as palavras "no presente documento", "abaixo no presente documento","acima", "abaixo" e palavras de importância similar se referem como um todo e não a quaisquer porções particulares dessa aplicação. Quando a palavra "ou" for usada em referência a uma lista de dois ou mais itens, essa palavra cobre todas as seguintes interpretações da palavra: qualquer um dos itens da lista, todos os itens da lista e qualquer combinação dos itens na lista.

[0066] Embora uma ou mais implantações tenham sido descritas a título de exemplo e em termos de modalidades específicas, deve ser entendido que uma ou mais implantações não estão limitadas às modalidades reveladas. Ao contrário, pretende-se cobrir várias modificações e disposições similares que seriam aparentes às pessoas versa-das na técnica. Portanto, o escopo das reivindicações anexas deve ser entendido em sua interpretação mais ampla para que englobe todas tais modificações e disposições similares.

Claims

1. Método de expansão de um sinal de áudio caracterizado pelo fato de que compreende: receber um sinal de áudio; e expandir o sinal de áudio a uma faixa dinâmica expandida através de um processo de expansão que compreende: dividir o sinal de áudio recebido em uma pluralidade de segmentos de tempo com o uso de um formato de janela definido, calcular um ganho de banda larga para cada segmento de tempo no domínio de frequência usando uma norma p de magnitudes espectrais de cada segmento de tempo de uma representação de domínio de frequência do sinal de áudio, em que o valor da norma p é selecionado para enfatizar o conteúdo espectral fraco do sinal de áudio versus conteúdo espectral forte do sinal de áudio, e aplicar valores de ganho individuais a cada segmento de tempo para obter o sinal de áudio de faixa dinâmica expandida, em que a aplicação dos valores de ganho individuais amplifica os segmentos de intensidade relativamente alta e atenua os segmentos de intensidade relativamente baixa.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que um valor de p na norma p é menor que 2.

3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que um primeiro banco de filtros é usado para analisar o sinal de áudio para obter uma representação de domínio de frequência, e o formato de janela definido corresponde a um filtro de protótipo para o primeiro banco de filtros, e em que o filtro de protótipo é conformado para suavizar os valores de ganho individuais para eliminar descontinuidades em um envelope do sinal de áudio.

4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto.

5. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o ganho de banda larga para cada segmento de tempo é calculado com o uso das amostras de sub-banda em um subconjunto de sub-bandas no respectivo segmento de tempo.

6. Método de compressão de um sinal de áudio, caracterizado pelo fato de que compreende: receber um sinal de áudio inicial; e comprimir o sinal de áudio inicial para reduzir uma faixa dinâmica original do sinal de áudio inicial através de um processo de compressão que compreende dividir o sinal de áudio inicial em uma pluralidade de segmentos com o uso do formato de janela definido, calcular um ganho de banda larga no domínio de frequência usando uma norma p de magnitudes espectrais de cada segmento da pluralidade de segmentos de amostras de domínio de frequência do sinal de áudio inicial, em que o valor da norma p é selecionado para enfatizar o conteúdo espectral fraco do áudio sinal versus o conteúdo espectral forte do sinal de áudio, e aplicar os valores de ganho calculados a partir do sinal de áudio inicial para cada segmento da pluralidade de segmentos para amplificar segmentos de intensidade relativamente baixa e atenuar segmentos de intensidade relativamente alta.

7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que os segmentos estão em sobreposição e em que um primeiro banco de filtros é usado para analisar o sinal de áudio para obter uma representação de domínio de frequência e o formato de janela definido corresponde a um filtro de protótipo para o primeiro banco de filtros, e em que o filtro de protótipo é conformado para suavizar os valores de ganho individuais para eliminar descontinuidades em um envelope do sinal de áudio.

8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto, e em que um valor de p na norma p é menor que 2.

9. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que cada valor de ganho individual é calculado com o uso das amostras de sub-banda em um subconjunto de sub-bandas em um segmento de tempo respectivo.

10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o subconjunto de sub-bandas corresponde a toda a faixa de frequência estendida pelo primeiro banco de filtros, e em que o ganho é aplicado no domínio do primeiro banco de filtros.

11. Aparelho de compressão de um sinal de áudio caracterizado pelo fato de que compreende: uma primeira interface que recebe um sinal de áudio inicial; e um compressor que comprime o sinal de áudio inicial para reduzir substancialmente uma faixa dinâmica original do sinal de áudio inicial dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos com o uso de um formato de janela definido, calcular um ganho de banda larga no domínio de frequência usando uma norma p de magnitudes espectrais de cada segmento da pluralidade de segmentos de amostras de domínio de frequência do sinal de áudio inicial, em que o valor da norma p é selecionado para enfatizar o conteúdo espectral fraco do áudio sinal versus o conteúdo espectral forte do sinal de áudio, e aplicar valores de ganho individuais a cada segmento da pluralidade de segmentos para amplificar segmentos de intensidade relativamente baixa e atenuar segmentos de intensidade relativamente alta.

12. Aparelho, de acordo com a reivindicação 11, caracterizado pelo fato de que ainda compreende um primeiro banco de filtros que analisa o sinal de áudio para obter uma representação de domínio de frequência e em que o formato de janela definido corresponde a um filtro de protótipo para o primeiro banco de filtros, e ainda em que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto, e em que o filtro de protótipo é conformado para suavizar os valores de ganho individuais para eliminar descontinuidades em um envelope do sinal de áudio.

13. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que os valores de ganho individuais são calculados com o uso das amostras de sub-banda em um subconjunto de subbandas em cada segmento de tempo respectivo, e em que o valor de p na norma p é menor que 2.

14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de que o subconjunto de sub-bandas corresponde a toda a faixa de frequência estendida pelo primeiro banco de filtros, e em que o ganho é aplicado no domínio do primeiro banco de filtros.

15. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de que ainda compreende uma segunda interface que transmite uma versão comprimida do sinal de áudio inicial para um ex- pansor que recebe a versão comprimida do sinal de áudio, e expande a versão comprimida do sinal de áudio para restaurar substancialmente a mesma para uma faixa dinâmica original do sinal de áudio inicial dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos com o uso do formato de janela definido, calcular um ganho de banda larga no domínio de frequência com o uso de uma média não baseada em energia de amostras do domínio de frequência do sinal de áudio inicial; e aplicar um valor de ganho respectivo a cada segmento da pluralidade de segmentos para amplificar os segmentos de intensidade relativamente alta e atenuar os segmentos de intensidade relativamente baixa.

16. Aparelho para expandir um sinal de áudio caracterizado pelo fato de que compreende: uma primeira interface que recebe um sinal de áudio comprimido; e um expansor que expande o de áudio comprimido para restaurar substancialmente sua faixa dinâmica não comprimida original dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos com o uso de um formato de janela definido, calcular um ganho de banda larga no domínio de frequência usando uma norma p de magnitudes espectrais de cada segmento da pluralidade de segmentos de amostras de domínio de frequência do sinal de áudio inicial, em que o valor da norma p é selecionado para enfatizar o conteúdo espectral fraco do áudio sinal versus o conteúdo espectral forte do sinal de áudio, e aplicar valores de ganho individuais para cada segmento da pluralidade de segmentos para amplificar segmentos de intensidade relativamente alta e atenuar segmentos de intensidade relativamente baixa.

17. Aparelho, de acordo com a reivindicação 16, caracterizado pelo fato de que ainda compreende um primeiro banco de filtros que analisa o sinal de áudio para obter uma representação de domínio de frequência e em que o formato de janela definido corresponde a um filtro de protótipo para o primeiro banco de filtros, e ainda em que o primeiro banco de filtros é um dentre um banco de filtro modulado de quadratura (QMF) ou uma transformada de Fourier de tempo curto, e em que o filtro de protótipo é conformado para suavizar os valores de ganho individuais para eliminar descontinuidades em um envelope do sinal de áudio.

18. Aparelho, de acordo com a reivindicação 17, caracterizado pelo fato de que o ganho de banda larga compreende um valor de ganho individual para cada segmento de tempo, e em que cada valor de ganho individual é calculado com o uso das amostras de subbanda em um subconjunto de sub-bandas em cada segmento de tempo respectivo, e em que o valor de p na norma p é menor que 2.

19. Aparelho, de acordo com a reivindicação 18, caracteri-zado pelo fato de que o subconjunto de sub-bandas corresponde a toda a faixa de frequência estendida pelo primeiro banco de filtros, e em que o ganho é aplicado no domínio do primeiro banco de filtros.

20. Aparelho, de acordo com a reivindicação 17, caracteri-zado pelo fato de que ainda compreende uma segunda interface que recebe o sinal de áudio comprimido a partir de um compressor que recebe um sinal de áudio inicial e comprime o sinal de áudio inicial para reduzir substancialmente a faixa dinâmica original do sinal de áudio inicial dividindo-se o sinal de áudio inicial em uma pluralidade de segmentos com o uso do formato de janela definido, calculando um ganho de banda larga no domínio de frequência com o uso de uma média não baseada em energia de amostras do domínio de frequência do sinal de áudio inicial; e aplicando um valor de ganho respectivo a cada segmento da pluralidade de segmentos para amplificar os segmentos de intensidade relativamente baixa e atenuar os segmentos de intensidade relativamente alta.

21. Mídia não transitória legível por computador caracteri-zada pelo fato de que contém instruções que, quando executadas por um ou mais processadores, realiza o método como definido na reivindicação 1.