BR112015017293B1 - Decodificador e codificador do sinal de áudio, método para decodificar uma representação do sinal de áudio codificado e para prover uma representação correspondente do sinal áudio decodificado e método de codificação de sinal de áudio para prover uma representação de sinal de áudio codificado com base na representação do domínio-tempo de um sinal de entrada de áudio - Google Patents
Decodificador e codificador do sinal de áudio, método para decodificar uma representação do sinal de áudio codificado e para prover uma representação correspondente do sinal áudio decodificado e método de codificação de sinal de áudio para prover uma representação de sinal de áudio codificado com base na representação do domínio-tempo de um sinal de entrada de áudio Download PDFInfo
- Publication number
- BR112015017293B1 BR112015017293B1 BR112015017293-8A BR112015017293A BR112015017293B1 BR 112015017293 B1 BR112015017293 B1 BR 112015017293B1 BR 112015017293 A BR112015017293 A BR 112015017293A BR 112015017293 B1 BR112015017293 B1 BR 112015017293B1
- Authority
- BR
- Brazil
- Prior art keywords
- audio signal
- level
- frequency band
- representation
- factor
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 247
- 238000000034 method Methods 0.000 title claims description 66
- 230000008859 change Effects 0.000 claims abstract description 75
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000013139 quantization Methods 0.000 claims description 39
- 230000007704 transition Effects 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 description 81
- 238000012545 processing Methods 0.000 description 20
- 238000004590 computer program Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011143 downstream manufacturing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
ajuste do nível do domínio de tempo para descodificação ou codificação do sinal de áudio. descodificador do sinal de áudio (100) para fornecer uma representação do sinal áudio descodificado com base em uma representação do sinal de áudio codificado que inclui uma fase de pré-processamento do descodificador (110) para obter uma pluralidade dos sinais da banda de frequência a partir da representação do sinal áudio codificado, um estimador de recorte (120), um dispositivo de mudança do nível (130), um conversor do domínio de frequência-para-tempo (140) e um compensador de mudança do nível (150). 0 estimador de recorte (120) analisa a representação do sinal de áudio codificado elou a informação lateral relativa a um ganho dos sinais da banda de frequência para determinar um fator atual de mudança do nível. o dispositivo de mudança do nível (130) muda os níveis dos sinais da banda de frequência de acordo com o fator de mudança do nível. o conversor do domínio de frequência-para-tempo (140) converte os sinais da banda de frequência de nível mudado para uma representação de domínio tempo. o compensador de mudança do nível (150) age na representação do domínio tempo compensando pelo menos parcialmente uma mudança do nível correspondente e obter uma representação do domínio tempo substancialmente compensada. figura 1
Description
[001] A presente invenção refere-se a uma codificação, decodificação e processamento do sinal de áudio, e em particular, ao ajuste de um nível de um sinal para ser convertido frequência-para-tempo (ou convertido tempo-para- frequência) para a faixa dinâmica de um correspondente conversor frequência- para- tempo (ou conversor tempo-para-frequência). Alguns modelos da presente invenção referem-se ao ajuste do nível do sinal a ser convertido frequência-para- tempo (ou convertido tempo-para-frequência) para a faixa dinâmica de um correspondente conversor implementado em um ponto fixo ou aritmética de número inteiro. Outros modelos da presente invenção referem-se à prevenção de recorte para sinais de áudio decodificados espectrais usando o ajuste do nível do domínio do tempo combinado com informação lateral.
[002] O processamento do sinal de áudio está cada vez mais importante. Os desafios são maiores quando são exigidos modernos codecs de áudio percetuais para fornecer uma qualidade de áudio satisfatória a taxas de bits cada vez mais baixas.
[003] Na atual produção do conteúdo de áudio e cadeias de entrega, o conteúdo principal digitalmente disponível (fluxo PCM (fluxo modulado do código de impulso)) é codificado por ex. por um codificador profissional AAC (Codificação de Áudio Avançada) no lado da criação do conteúdo. O resultante fluxo de bits AAC é depois disponibilizado para compra por ex. através de uma loja de meios digitais online. Em casos raros parece que algumas amostras de PCM decodificado são "recortadas", o que quer dizer que duas ou mais amostras consecutivas chegarem ao nível máximo que pode ser representado pela resolução de bit subjacente (por ex. 16 bit) de uma representação de ponto fixo uniformemente quantizado (por ex. modulado de acordo com PCM) para a forma de onda de saída. Isto pode levar a artefatos audíveis (cliques ou breve distorção). Apesar de ser normalmente feito um esforço no lado do codificador para prevenir a ocorrência de recorte no lado do decodificador, o recorte pode, porém, ocorrer no lado do decodificador por várias razões, tal como implementações diferentes decodificadores, erros de arredondamentos, erros de transmissão, etc. Presumindo que um sinal de áudio na entrada do codificador que fica abaixo do limite de recorte, são muitas as razões para cortar em um moderno codificador de áudio percetual. Em primeiro lugar, o codificador de áudio aplica a quantização do sinal transmitido que está disponível em uma decomposição de frequência da forma de onda de entrada para reduzir a taxa de dados de transmissão. Os erros de quantização no domínio de frequência resultem em pequenos desvios da amplitude e fase do sinal relativamente à forma de onda original. Se os erros de amplitude ou fase se somarem construtivamente, a atitude resultante no domínio do tempo podem temporariamente ser superiores à forma de onda original. Em segundo lugar, os métodos e codificação paramétricos (por ex.: replicação de banda espectral, SBR) parametrizam a potência do sinal de um modo mais em curso. A informação de fase é normalmente omitida. Consequentemente, o sinal no lado do recetor é apenas criado com a correta potência mas sem preservar a forma de onda. Os sinais com uma amplitude perto da escala total tendem a cortar.
[004] Os modernos sistemas de codificação de áudio oferecem a possibilidade de suportar um parâmetro do nível do volume sonoro (g1), dando aos decodificadores a possibilidade de ajustar o volume sonoro para reproduzir com níveis unificados. De um modo geral, isto pode levar ao recorte, se o sinal de áudio for codificado a níveis suficientemente altos e os ganhos da normalização transmitida sugerir maiores níveis do volume sonoro. Adicionalmente, a prática comum de dominar conteúdo de áudio (especialmente música) lança os sinais de áudio para valores máximos possíveis, produzindo o recorte do sinal de áudio quando grosseiramente quantizado por codecs de áudio.
[005] Para evitar o recorte de sinais de áudio, os chamados limitadores são conhecidos como uma ferramenta apropriada para restringir os níveis de áudio. Se um sinal de áudio a entrar exceder um certo limite, o limitador é ativado e atenua o sinal de áudio de um modo que o sinal de áudio não exceda um certo nível na saída. Infelizmente, antes do limitador é exigida uma suficiente altura livre (em termos de faixa dinâmica e/ou resolução de bit).
[006] Normalmente, qualquer normalização do volume sonoro é conseguida no domínio da frequência juntamente com um chamado "controlo dinâmico" (DRC). Isto permite uma suave harmonização da normalização do volume sonoro, mesmo que o ganho de normalização varie de frame para frame por causa a sobreposição filtro-banco.
[007] Além disso, devido à pobre quantização ou descrição paramétrica, qualquer sinal de áudio codificado pode ir para recorte se o áudio original foi dominado a níveis perto do limite de recorte.
[008] Normalmente deseja-se manter a complexidade computacional, utilização da memória e consumo de potência o mais baixo possível em dispositivos de processamento de sinal digital altamente eficientes com base em uma aritmética de ponto fixo. Por essa razão, é desejável para manter o comprimento da palavra de amostras de áudio o mais pequeno possível. Para considerar qualquer potencial altura livre para recorte devido à normalização do volume sonoro, teria de ser concebido um banco de filtro com um maior comprimento de palavra, que normalmente faz parte de um codificador ou decodificador de áudio.
[009] Seria desejável permitir a limitação do sinal sem perder a precisão de dados e/ou sem ter de usar um comprimento de palavra maior para um banco de filtro de decodificador ou um banco de filtro de codificador. Em alternativa ou adicionalmente seria desejável que uma faixa dinâmica relevante do sinal para ser convertido frequência-para-tempo ou vice-versa pudesse ser determinada continuamente em uma base frame-por-frame para seções de tempo consecutivas ou "frames" do sinal, de forma a que o nível do sinal possa ser ajustado para que a atual faixa dinâmica relevante se adapte à faixa dinâmica fornecida pelo conversor (conversor do domínio frequência-para- tempo ou conversor do domínio tempo-para-frequência). Seria também desejável tornar essa mudança de nível, com o objetivo da conversão frequência-para-tempo ou conversão tempo-para-frequência, substancialmente "transparente" a outros componentes do decodificador ou codificador. Pelo menos um destes desejos e/ou possíveis outros desejos é endereçado por um decodificador de sinal de áudio de acordo com a reivindicação 1, um codificador de sinal de áudio de acordo com a reivindicação 14 e um método para decodificar uma representação do sinal de áudio codificada de acordo com a reivindicação 15.
[010] É fornecido um decodificador de sinal de áudio para providenciar uma representação do sinal de áudio decodificado na base de uma representação do sinal codificado. O decodificador de sinal de áudio compreende um estágio de pré-processamento do decodificador configurado para obter uma pluralidade dos sinais de banda de frequência da apresentação do sinal de áudio codificado. O decodificador do sinal de áudio compreende ainda um estimador de recorte configurado para analisar pelo menos uma das representações do sinal de áudio codificado, a pluralidade de sinais de frequência e informação lateral relativamente a um ganho dos sinais de banda de frequência da representação do sinal de áudio codificado sobre se a informação do sinal de áudio codificado, a pluralidade de sinais de frequência e/ou a informação lateral sugere um recorte potencial para determinar um fator de mudança do nível atual para a representação de sinal de áudio codificado. Quando a informação lateral sugere o recorte potencial, o fator de mudança do nível atual faz com que a informação da pluralidade de sinais de banda de frequência mude para um bit menos significativo, de modo a ganhar altura livre em pelo menos um bit mais significativo. O decodificador do sinal de áudio também compreende um dispositivo de mudança de nível configurado para mudar níveis dos sinais de banda de frequência de acordo com o fator de mudança do nível para obter sinais de banda de frequência de nível mudado. Além disso, o decodificador do sinal de áudio compreende um conversor do domínio frequência-para-tempo configurado para converter os sinais de banda de frequência do dispositivo de mudança de nível em uma representação do domínio de tempo. O decodificador do sinal de áudio compreende ainda um compensador de mudança do nível configurado para atuar sobre a representação do domínio do tempo para pelo menos compensar parcialmente uma mudança de nível aplicada aos sinais de banda de frequência do dispositivo de mudança de nível pelo dispositivo de mudança de nível e para obter uma representação do domínio do tempo substancialmente compensado.
[011] Outros modelos da presente invenção fornece um codificador do sinal de áudio configurado para providenciar uma representação do sinal de áudio codificado na base de uma representação do domínio do tempo de um sinal de áudio de entrada. O codificador do sinal de áudio compreende um estimador de recorte configurado para analisar a representação do domínio do tempo do sinal de áudio de entrada sobre se é sugerido o potencial de recorte para determinar um fator de mudança do nível atual para a apresentação do sinal de entrada. Quando o potencial recorte é sugerido, o fator de mudança do nível atual faz com que a representação do domínio do tempo do sinal de áudio de entrada mude para um bit menos significativo, de modo a ganhar altura livre em pelo menos um bit mais significativo. O codificador do sinal de áudio também compreende um dispositivo de mudança de nível configurado para mudar um nível da representação do domínio tempo do sinais de áudio de entrada e acordo com o fator de mudança de nível para obter uma representação do domínio tempo de nível mudado. Além disso, o codificador do sinal de áudio compreende um conversor de domínio tempo-para-frequência configurado para converter a representação do domínio tempo de nível mudado em uma pluralidade de sinais da banda de frequência. O codificador de sinal de áudio também compreende um compensador de mudança do nível configurado para atuar sobre a pluralidade dos sinais da banda de frequência para compensar pelo menos parcialmente uma mudança do nível aplicada à representação do domínio tempo do dispositivo de mudança de nível através do dispositivo de mudança do nível e para obter uma pluralidade de sinais da banda de frequência substancialmente compensada.
[012] Outros modelos da presente invenção fornecem um método para decodificar a representação do sinal de áudio codificado para obter uma representação do sinal de áudio decodificado. O método compreende pré- processamento da representação do sinal de áudio codificado para obter uma pluralidade de sinais da banda de frequência. O método compreende ainda analisar pelo menos uma das representações do sinal de áudio codificado, os sinais da banda de frequência e a informação lateral relativa a um ganho dos sinais da banda de frequência sobre se o recorte potencial é sugerido para determinar um fator atual da mudança de nível para a apresentação do sinal de áudio codificado. Quando o potencial recorte é sugerido, o fator de mudança do nível atual faz com que a representação do domínio do tempo do sinal de áudio de entrada mude para um bit menos significativo, de modo a ganhar altura livre em pelo menos um bit mais significativo. Além disso, o método compreende níveis de mudança dos sinais da banda de frequência de acordo com o fator de mudança do nível para obter sinais da banda de frequência de nível mudado. O método também compreende efetuar uma conversão do domínio de frequência- para-tempo dos sinais da banda de frequência para uma representação de domínio tempo. O método compreende ainda atuar sobre a representação do domínio tempo para compensar pelo menos parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado e para obter uma representação do domínio tempo substancialmente compensada.
[013] Além disso, um programa de computador para implementar os métodos acima descritos quando é executado em um computador ou quando é fornecido um processador de sinal.
[014] Outros modelos fornecem um decodificador do sinal de áudio para providenciar uma representação do sinal de áudio decodificado na base de uma representação do sinal codificado. O decodificador de sinal de áudio compreende um estágio de pré-processamento do decodificador configurado para obter uma pluralidade dos sinais de banda de frequência da apresentação do sinal de áudio codificado. O decodificador do sinal de áudio compreende ainda um estimador de recorte configurado para analisar pelo menos uma das representações do sinal de áudio codificado, a pluralidade de sinais de frequência e informação lateral relativamente a um ganho dos sinais de banda de frequência da representação do sinal de áudio codificado para determinar um fator atual da mudança do nível para a representação do sinal de áudio codificado. O decodificador do sinal de áudio também compreende um dispositivo de mudança de nível configurado para mudar níveis dos sinais de banda de frequência de acordo com o fator de mudança do nível para obter sinais de banda de frequência de nível mudado. Além disso, o decodificador do sinal de áudio compreende um conversor do domínio frequência-para-tempo configurado para converter os sinais de banda de frequência do dispositivo de mudança de nível em uma representação do domínio de tempo. O decodificador do sinal de áudio compreende ainda um compensador de mudança do nível configurado para atuar sobre a representação do domínio do tempo para pelo menos compensar parcialmente uma mudança de nível aplicada aos sinais de banda de frequência do dispositivo de mudança de nível pelo dispositivo de mudança de nível e para obter uma representação do domínio do tempo substancialmente compensado.
[015] Outros modelos da presente invenção fornece um codificador do sinal de áudio configurado para providenciar uma representação do sinal de áudio codificado na base de uma representação do domínio do tempo de um sinal de áudio de entrada. O codificador do sinal de áudio compreende um estimador de recorte configurado para analisar a representação do domínio tempo do sinal de áudio de entrada para determinar um fator atual de mudança do nível para a apresentação do sinal de entrada. O codificador do sinal de áudio também compreende um dispositivo de mudança de nível configurado para mudar um nível da representação do domínio tempo do sinais de áudio de entrada e acordo com o fator de mudança de nível para obter uma representação do domínio tempo de nível mudado. Além disso, o codificador do sinal de áudio compreende um conversor de domínio tempo-para-frequência configurado para converter a representação do domínio tempo de nível mudado em uma pluralidade de sinais da banda de frequência. O codificador de sinal de áudio também compreende um compensador de mudança do nível configurado para atuar sobre a pluralidade dos sinais da banda de frequência para compensar pelo menos parcialmente uma mudança do nível aplicada à representação do domínio tempo do dispositivo de mudança de nível através do dispositivo de mudança do nível e para obter uma pluralidade de sinais da banda de frequência substancialmente compensada.
[016] Outros modelos da presente invenção fornecem um método para decodificar a representação do sinal de áudio codificado para obter uma representação do sinal de áudio decodificado. O método compreende pré- processamento da representação do sinal de áudio codificado para obter uma pluralidade de sinais da banda de frequência. O método compreende ainda analisar pelo menos uma das representações do sinal de áudio codificado, os sinais da banda de frequência, e a informação lateral relativa a um ganho dos sinais da banda de frequência é sugerida para determinar um fator atual da mudança de nível para a apresentação do sinal de áudio codificado. Além disso, o método compreende níveis de mudança dos sinais da banda de frequência de acordo com o fator de mudança do nível para obter sinais da banda de frequência de nível mudado. O método também compreende efetuar uma conversão do domínio de frequência-para-tempo dos sinais da banda de frequência para uma representação de domínio tempo. O método compreende ainda atuar sobre a representação do domínio tempo para compensar pelo menos parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado e para obter uma representação do domínio tempo substancialmente compensada.
[017] Pelo menos alguns dos modelos são baseados na percepção de ser possível, sem perder informação relevante, mudar a pluralidade dos sinais da banda de frequência de uma representação do domínio da frequência através de um certo fator de mudança de nível durante intervalos de tempo, nos quais um nível de volume sonoro geral do sinal de áudio é relativamente alto. Em vez disso, a informação relevante é mudada para bits que provavelmente contêm ruído, de qualquer maneira. Deste modo, pode ser usado um conversor do domínio frequência-para-tempo com um comprimento de palavra limitado apesar de a faixa dinâmica dos sinais da banda de frequência poder ser maior do que suportada pelo comprimento limitado de palavra do conversor do domínio frequência-para-tempo. Por outras palavras, pelo menos alguns modelos da presente invenção exploram o fato de que o(s) bit(s) menos significativo(s) normalmente não suporta(m) qualquer informação relevante enquanto o sinal de áudio está relativamente alto, isto é, enquanto a informação relevante provavelmente está contida no(s) bit(s) mais significativo(s). A mudança de nível aplicada aos sinais de banda de frequência de nível mudado também pode ter o benefício de reduzir uma probabilidade de ocorrer um recorte dentro da representação do domínio tempo, em que esse recorte pode resultar de uma sobreposição construtiva de um ou mais sinais da banda de frequência da pluralidade dos sinais da banda de frequência.
[018] Estas percepções e descobertas também se aplicam, de forma análoga, ao codificador do sinal de áudio e ao método para codificar um sinal de áudio original para obter uma apresentação do sinal de áudio codificado.
[019] Passamos a descrever modelos da presente invenção em pormenor, fazendo referência às figuras, nas quais:
[020] Fig. 1 ilustra um codificador de acordo com o estado tecnológico;
[021] Fig. 2 apresenta um decodificador de acordo com o estado tecnológico;
[022] Fig. 3 ilustra outro codificador de acordo com o estado tecnológico;
[023] Fig. 4 apresenta outro decodificador de acordo com o estado tecnológico;
[024] Fig. 5 mostra um diagrama de bloco esquemático de um decodificador do sinal de áudio de acordo com pelo menos um modelo;
[025] Fig. 6 mostra um diagrama de bloco esquemático de um decodificador do sinal de áudio de acordo com pelo menos um outro modelo;
[026] Fig. 7 mostra um diagrama de bloco esquemático que ilustra um conceito do decodificador do sinal e áudio proposto e do método proposto para decodificar uma representação do sinal de áudio codificado de acordo com modelos;
[027] Fig. 8 é uma visualização esquemática da mudança de nível para ganhar altura livre;
[028] Fig. 9 mostra um diagrama de bloco esquemático de um possível ajuste da forma de transição que pode ser um componente do decodificador ou codificador do sinal de áudio de acordo com pelo menos alguns modelos;
[029] Fig. 10 apresenta uma unidade de estimativa de acordo com outro modelo que compreende um ajustador do filtro de predição,
[030] Fig. 11 ilustra um aparelho para criar um refluxo de dados,
[031] Fig. 12 ilustra um codificador de acordo com o estado tecnológico,
[032] Fig. 13 apresenta um decodificador de acordo com o estado tecnológico,
[033] Fig. 14 ilustra outro codificador de acordo com o estado tecnológico, e
[034] Fig. 15 mostra um diagrama de bloco esquemático de um codificador do sinal de áudio de acordo com pelo menos um modelo; e
[035] Fig. 16 mostra um fluxograma esquemático de um método para decodificar a representação sinal de áudio codificado de acordo com pelo menos um modelo.
[036] O processamento de áudio tem avançado de muitas maneiras e tem sido sujeito a muitos estudos sobre como codificar e decodificar eficientemente um sinal de dados de áudio. A codificação eficiente é, por exemplo, providenciada por MPEG AAC (MPEG = Grupo de Peritos de Imagem em Movimento; AAC = Codificação de Áudio Avançada). Alguns aspectos de MPEG AAC são explicados em baixo em mais detalhe, como uma introdução à codificação e decodificação de áudio. A descrição de MPEG AAC deve ser entendida apenas como mero exemplo, uma vez que os conceitos descritos podem ser aplicados também a outros esquemas de codificação e decodificação de áudio.
[037] De acordo com MPEG AAC, os valores espectrais de um sinal de áudio são codificados empregando fatores de escala, quantização e livros de códigos, em particular os livros de código Huffman.
[038] Antes de conduzir a codificação Huffman, o codificador agrupa a pluralidade de coeficientes espectrais para serem codificados em diferentes seções (os coeficientes espectrais foram obtidos a partir de componentes a montante, tais como um banco de filtro, um modelo psico-acústico e um quantizador controlado pelo modelo psico-acústico relativamente aos limite e resoluções da quantização). Para cada seção de coeficientes espectrais, o codificador escolhe um livro de código Huffman para a codificação Huffman. MPEG AAC providencia onze diferentes Livros de Código Huffman Espectral para codificar dados espectrais, a partir dos quais o codificador seleciona o livro de código mais adequado para codificar os coeficientes espectrais da seção. O codificador providencia um identificador do livro de código que identifica o livro de código usado para a codificação Huffman dos coeficientes espectrais da seção para o decodificador como informação lateral.
[039] Em um lado de decodificador, o decodificador analisa a informação lateral recebida para determinar qual dos vários Livros de Código Huffmann Espectral foi usado para codificar os valores espectrais de uma seção. O decodificador conduz a Decodificação Huffman com base na informação lateral sobre o Livro de Código Huffman empregue para codificar os coeficientes espectrais da seção que deve ser decodificada pelo decodificador.
[040] Depois da Decodificação Huffman, é obtida uma pluralidade de valores espectrais quantizados no decodificador. O decodificador pode depois conduzir a quantização inversa para inverter uma quantização não-uniforme que pode ter sido conduzida pelo codificador. Com isto, os valores quantizados- inversos são obtidos no decodificador.
[041] No entanto, os valores espectrais quantizados-inversos podem ainda ser sem escala. Os valores espectrais sem escala derivados foram agrupados em bandas de fator de escala, possuindo cada banda de fator de escala um fator de escala em comum. O fator de escala para cada banda de fator de escala está disponível ao decodificador como informação lateral, que foi fornecida pelo codificador. Usando esta informação, o decodificador multiplica os valores espectrais sem escala de uma banda de fator de escala pelo seu fator de escala. Com isto, são obtidos os valores espectrais escalonados.
[042] A codificação e decodificação de valores espectrais de acordo com o estado tecnológico é agora explicada com referência às Figuras 1 - 4.
[043] A Fig. 1 ilustra um codificador de acordo com o estado tecnológico. O codificador compreende um filtro de banco T/F (tempo-para-frequência) 10 para transformar um sinal de áudio AS, que deve ser codificado, de um domínio de tempo para um domínio de frequência para obter um sinal de áudio do domínio da frequência. O sinal de áudio do domínio da frequência é alimentado para uma unidade de fator de escala 20 para fatores de escala de determinação. A unidade de fatores de escala 20 está adaptada para dividir os coeficientes espectrais do sinal de áudio do domínio da frequência em vários grupos de coeficientes espectrais chamados bandas do fator de escala, que partilham um fator de escala. Um fator de escala representa um alor de ganho usado para mudar a amplitude de todos os coeficientes espectrais na respetiva banda do fator de escala. A unidade de fatores de escala 20 está ainda adaptada para criar e produzir coeficientes espectrais sem escala do sinal de áudio do domínio da frequência.
[044] Além disso, o codificador na Fig. 1 compreende um quantizador para quantizar os coeficientes espectrais sem escala do sinal de áudio do domínio da frequência. O quantizador 30 pode ser um quantizador não uniforme.
[045] Após a quantização, os espectros sem escala quantizados do sinal de áudio são alimentados para um codificador Huffman 40 para serem codificados Huffman. A codificação Huffman é usada para a redundância reduzida do espectro quantizado do sinal de áudio. A pluralidade de coeficientes espectrais quantizados sem escala é agrupada em seções. Enquanto em MPEG-AAC são fornecidos onze possíveis livros de código, todos os coeficientes espectrais de uma seção são codificados pelo mesmo livro de código Huffman.
[046] O codificador escolhe um dos onze possíveis livros de código Huffman que é particularmente adequado para codificar os coeficientes espectrais da seção. Deste modo, a seleção do livro de código Huffman do codificador para uma seção particular depende dos valores espectrais da seção particular. Os coeficientes espectrais codificados Huffman podem ser depois transmitidos para o decodificador juntamente com a informação lateral, compreendendo por ex. a informação sobre o livro de código Huffman que foi usada para codificar uma seção de coeficientes espectrais, um fator de escala que foi usado para uma banda do fator de escala particular, etc.
[047] Dois ou quatro coeficientes espectrais são codificados por uma palavra de código do livro de código Huffman empregue para a codificação Huffman dos coeficientes espectrais da seção. O codificador transmite as palavras de código que representam os coeficientes espectrais codificados para o decodificador juntamente com a informação lateral que compreende o comprimento de uma seção, assim como, informação sobre o livro de código Huffman usado para codificar os coeficientes espectrais da seção.
[048] Em MPEG AAC são fornecidos onze livros de código Huffman espectrais para codificar dados espectrais do sinal de áudio. O livro de código Huffman espectral diferente pode ser identificado pelo seu índice do livro de código (um valor entre 1 e 11). A dimensão do livro de código Huffman indica como muitos coeficientes espectrais são codificados por uma palavra de código do livro de código Huffman considerado. Em MPEG AAC, a dimensão de um livro de código Huffman é 2 ou 4 indicando que uma palavra de código codifica dois ou quatro valores espectrais do sinal de áudio.
[049] No entanto, os livros de código Huffman diferentes também diferem relativamente a outras propriedades. Por exemplo, o valor absoluto máximo de um coeficiente espectral que pode ser codificado pelo livro de código Huffman varia de livro de código para livro de código e pode, por exemplo, ser 1, 2, 4, 7, 12 ou superior. Além disso, um livro de código Huffman considerado pode ser adaptado para codificar ou não valores sinalizados.
[050] Ao empregar a codificação Huffman, os coeficientes espectrais são codificados por palavras de código de comprimentos diferentes. MPEG AAC providencia dois livros de código Huffman diferentes que têm um valor absoluto máximo de 1, dois livros de código Huffman diferentes que têm um valor absoluto máximo de 2, dois livros de código Huffman diferentes que têm um valor absoluto máximo de 4, dois livros de código Huffman diferentes que têm um valor absoluto máximo de 7 e dois livros de código Huffman diferente que têm um valor absoluto máximo de 12, em que cada livro de código Huffman representa uma função distinta da distribuição da probabilidade. O codificador Huffman escolhe sempre o livro de código Huffman que se adapta melhor à codificação dos coeficientes espectrais.
[051] A Fig. 2 ilustra um decodificador de acordo com o estado tecnológico. Os valores espectrais codificados Huffman são recebidos por um decodificador Huffman 50. O decodificador Huffman 50 também recebe, como informação lateral, informação sobre o livro de código Huffman usada para codificar os valores espectrais para cada seção de valores espectrais. O decodificador Huffman 50 realiza depois a decodificação Huffman para obter valores espectrais quantizados sem escala. Os valores espectrais quantizados sem escala são alimentados para um quantizador inverso 60. O quantizador inverso realiza a quantização inversa para obter valores espectrais sem escala inversamente quantizados, que são alimentados para um escalonador 70. O escalonador 70 também recebe fatores de escala como informação lateral para cada banda do fator de escala. Com base nos fatores de escala recebidos, o escalonador 70 escalona os valores espectrais inversamente quantizados sem escala para obter valores espectrais inversamente quantizados escalonados. Um banco de filtro F/T 80 depois transforma os valores espectrais inversamente quantizados escalonados do sinal de áudio do domínio da frequência a partir do domínio da frequência para o domínio do tempo para obter valores de amostra de um sinal de áudio de domínio do tempo.
[052] A Fig. 3 ilustra um codificador de acordo com o estado tecnológico que difere do codificador da Fig. 1 pelo fato de o codificador da Fig. 3 compreender também uma unidade TNS do lado do codificador (TNS = Modulação do Ruído Temporal). A Modulação do Ruído Temporal pode ser empregue para controlar a forma temporal do ruído de quantização conduzindo um processo de filtração relativamente a porções dos dados espectrais do sinal de áudio. A unidade TNS do lado do codificador 15 conduz um cálculo de codificação preditiva linear (LPC) relativamente aos coeficientes espectrais do sinal de áudio do domínio da frequência por codificar. Inter alia resultante do cálculo LPC são coeficientes de reflexão, também designado por coeficientes PARCOR. A modulação do ruído temporal não é usada se o ganho de predição, que também é derivado pelo cálculo LPC, não exceder um certo valor limite. No entanto, se o ganho de predição for superior ao valor limite, é empregue a modulação do ruído temporal. A unidade TNS do lado do codificador remove todos os coeficientes de reflexão que são mais pequenos do que um certo valor limite. Os restantes coeficientes de reflexão são convertidos em coeficientes de predição linear e são usados como coeficientes do filtro de modulação do ruído no codificador. A unidade TNS do lado do codificador realiza depois uma operação de filtração nesses coeficientes espectrais, para o qual o TNS é empregue, para obter coeficientes espectrais processados do sinal de áudio. A informação lateral que indica a informação TNS, por ex. os coeficientes de reflexão (coeficientes PARCOR), é transmitida para o decodificador.
[053] A Fig. 4 ilustra um decodificador de acordo com o estado tecnológico que difere do decodificador ilustrado na Fig. 2 na medida em que o decodificador da Fig. 4 compreende ainda uma unidade TNS do lado do decodificador 75. A unidade TNS do lado do decodificador recebe espectros escalonados inversamente quantizados do sinal de áudio e também recebe TNS, por ex.: informação que indica os coeficientes de reflexão (coeficientes PARCOR). A unidade TNS do lado do decodificador 75 processa espectros inversamente quantizados do sinal de áudio para obter um espectro quantizado inversamente processado do sinal de áudio.
[054] A Fig. 5 mostra um diagrama de bloco esquemático de um decodificador do sinal de áudio 100 de acordo com pelo menos um modelo da presente invenção. O decodificador do sinal de áudio está configurado para receber uma representação do sinal de áudio codificado. Normalmente, a apresentação do sinal de áudio codificado é acompanhada por informação lateral. A representação do sinal de áudio codificado juntamente com a informação lateral podem ser providenciadas em forma de um fluxo de dados que foi produzido por, por exemplo, um codificador de áudio percetual. O decodificador do sinal de áudio 100 está ainda configurado para fornecer uma representação do sinal de áudio decodificado que pode ser idêntico ao sinal rotulado "representação do domínio do tempo substancialmente compensado" na Fig. 5 ou derivado daí usando o processamento subsequente.
[055] O decodificador de sinal de áudio 100 compreende um estágio de pré- processamento do decodificador 110 configurado para obter uma pluralidade dos sinais de banda de frequência da apresentação do sinal de áudio codificado. Por exemplo, o estágio de pré-processamento do decodificador 110 pode compreender um desempacotador de fluxo de bits no caso de a representação do sinal de áudio codificado e da informação lateral estarem contidas em um fluxo de bits. Alguns padrões de codificação de áudio podem usar resoluções de variação de tempo e também diferentes resoluções para a pluralidade dos sinais da banda de frequência, dependendo da faixa de frequência, na qual a apresentação do sinal de áudio codificado suporta atualmente informação relevante (alta resolução) ou informação irrelevante (baixa resolução ou nenhuns dados). Isto quer dizer que uma banda de frequência, na qual a representação do sinal de áudio codificado tem atualmente uma grande quantidade de informação relevante, está normalmente codificada usando uma resolução relativamente fina (isto é, usando um número de bits relativamente alto) durante esse intervalo de tempo, ao contrário de um sinal da banda de frequência que suporta temporariamente nenhuma ou apenas alguma pouca informação. Pode até acontecer que para alguns dos sinais da banda de frequência, o fluxo de bits temporariamente não contenha quaisquer dados ou bits, porque estes sinais da banda de frequência não contêm qualquer informação relevante durante o correspondente intervalo de tempo. O fluxo de bits fornecido à fase de pré- processamento do decodificador 110 normalmente contém informação (por ex. como parte da informação lateral) indicando quais são os sinais da banda de frequência da pluralidade dos sinais da banda de frequência que contêm dados para o intervalo de tempo atualmente considerado ou "frame, e a correspondente resolução de bits.
[056] O decodificador do sinal de áudio 100 compreende ainda um estimador de recorte 120 configurado para analisar informação lateral relativamente a um ganho dos sinais de banda de frequência da representação do sinal de áudio codificado para determinar um fator atual da mudança do nível para a representação do sinal de áudio codificado. Alguns padrões de codificação de áudio percetual usam fatores de escala individuais para os diferentes sinais da banda de frequência da pluralidade dos sinais da banda de frequência. Os fatores de escala individuais indicam para cada sinal da banda de frequência a faixa de amplitude atual, relativamente a outros sinais da banda de frequência. Para alguns modelos da presente invenção, uma análise destes fatores de escala permitem uma avaliação aproximada de uma amplitude máxima que pode ocorrer em uma correspondente representação do domínio do tempo depois de a pluralidade dos sinais da banda de frequência terem sido convertidos de um domínio de frequência para um domínio do tempo. Esta informação pode ser depois usada para determinar se, sem qualquer processamento apropriado conforme proposto pela presente invenção, poderia ocorrer um recorte dentro da representação do domínio do tempo para o intervalo de tempo considerado ou "frame". O estimador de recorte 120 está configurado para determinar um fator da mudança de nível que muda todos os sinais da banda de frequência da pluralidade dos sinais da banda de frequência por uma quantidade idêntica relativamente ao nível (relativamente a uma amplitude de sinal ou uma potência de sinal, por exemplo). O fator de mudança de nível pode ser determinado para cada intervalo de tempo (estrutura) de um modo individual, isto é, o fator de mudança de nível é variável no empo. Normalmente, o estimador de recorte 120 tenta ajustar os níveis da pluralidade dos sinais da banda de frequência pelo fator de mudança que é comum a todos os sinais da banda de frequência de modo a ser muito pouco provável ocorrer o recorte dentro da representação do domínio do tempo, ao mesmo tempo que mantém uma faixa dinâmica razoável para os sinais da banda de frequência. A titulo de exemplo, considere-se uma frame da representação do sinal de áudio codificado, na qual o número dos fatores de escala é relativamente alto. O estimador de recorte 120 pode agora considerar a pior das situações, ou seja, os possíveis picos do sinal dentro da pluralidade dos sinais da banda de frequência sobrepõem-se ou somam-se de um modo construtivo, resultando em uma grande amplitude dentro da representação do domínio do tempo. O fator de mudança de nível pode ser agora determinado como um número que causa este pico hipotético dentro da representação do domínio do tempo para ficar dentro de uma faixa dinâmica desejada, possivelmente com a adicional consideração de uma margem. Pelo menos de acordo com alguns modelos, o estimador de recorte 120 não precisa da própria representação do sinal de áudio codificado para avaliar uma probabilidade de recorte dentro da representação do domínio do tempo para o intervalo de tempo considerado ou frame. A razão é que pelo menos alguns padrões de codificação de áudio percetual escolhem os fatores de escala para os sinais da banda de frequência da pluralidade dos sinais da banda de frequência de acordo com a maior amplitude que tem de ser codificada dentro de um certo sinal da banda de frequência e o intervalo de tempo considerado. Por outras palavras, o maior valor pode ser representado pela resolução de bit escolhida, uma vez que o sinal da banda de frequência à mão é muito pouco provável que ocorra pelo menos uma vez durante o intervalo de tempo considerado ou frame, tendo em conta as propriedades do esquema de codificação. Usando esta assunção, o estimador de recorte 120 pode focar-se em avaliar a informação lateral relativamente ao(s) ganho(s) dos sinais da banda da frequência (por ex., esse fator de escala e possivelmente outros parâmetros) para determinar o fator atual da mudança de nível para a representação do sinal de áudio codificado e o intervalo de tempo considerado (frame).
[057] O decodificador do sinal de áudio 100 também compreende um dispositivo de mudança de nível 130 configurado para mudar níveis dos sinais de banda de frequência de acordo com o fator de mudança do nível para obter sinais de banda de frequência de nível mudado.
[058] O decodificador do sinal de áudio 100 compreende ainda um conversor do domínio frequência-para-tempo 140 configurado para converter os sinais de banda de frequência do nível mudado em uma representação do domínio de tempo. O conversor do domínio frequência-para-tempo 140 pode ser um banco de filtro inverso, uma transformação discreta de cosseno modificada inversa (MDCT inverso), um filtro de espelho de quadratura inversa (QMF inverso), só para mencionar alguns. Para alguns padrões de codificação de áudio, o conversor do domínio frequência-para-tempo 140 pode ser configurado para suportar janelas de frames consecutivas, em que duas frames se sobrepõem para, por ex.: 50% da sua duração.
[059] A representação do domínio do tempo fornecido pelo conversor do domínio de frequência-para-tempo 140 é providenciado por um compensador de mudança do nível 150 configurado para agir na representação do domínio do tempo para compensar pelo menos parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado pelo dispositivo de mudança do nível 130 e para obter uma representação de domínio do tempo substancialmente compensada. O compensador da mudança de nível 150 recebe ainda o fator de mudança do estimador de recorte 140 ou um sinal derivado do fator de mudança de nível. O dispositivo da mudança de nível 130 e o compensador da mudança de nível 150 providenciam um ajuste do ganho dos sinais da banda de frequência de nível mudado e um ajuste de ganho compensador da apresentação do domínio do tempo, respetivamente, em que esse ajuste de ganho deriva o conversor do domínio frequência-para-tempo 140. Deste modo, os sinais da banda de frequência de nível mudado e a representação do domínio do tempo podem ser ajustados a uma faixa dinâmica providenciada pelo conversor do domínio da frequência-para-tempo 140 que pode ser limitado devido a um comprimento de palavra fixa e/ou implementação aritmética de ponto fixo do conversor 140. Em particular, a relevante faixa dinâmica dos sinais da banda de frequência de nível mudado e a correspondente representação do domínio do tempo podem estar a valores de amplitude relativamente altos ou níveis de potência de sinal durante frames relativamente ruidosos. Ao contrário, a faixa dinâmica relevante do sinal de banda de frequência de nível mudado e consequentemente também da correspondente representação do domínio do tempo pode estar em valores de amplitude relativamente pequenos ou valores de potência do sinal durante frames relativamente suaves. No caso de frames ruidosas, a informação contida nos bits inferiores de uma apresentação binária dos sinais da banda de frequência de nível mudado pode ser considerada negligenciável comparativamente com a informação contida nos bits superiores. Normalmente, o fator de mudança de nível é comum a todos os sinais da banda da frequência, o que possibilita compensar a mudança de nível aplicada aos sinais da banda de frequência de nível mudado mesmo a jusante do conversor do domínio de frequência-para- tempo 140. Ao contrário do fator de mudança de nível proposto que é determinado pelo próprio decodificador do sinal de áudio 100, o chamado parâmetro de ganho global está contido dentro do fluxo de bits que foi produzido por um codificador de sinal de áudio remoto e fornecido ao decodificador do sinal de áudio 100 como uma entrada. Além disso, o ganho global é aplicado à pluralidade dos sinais da banda de frequência entre o estágio de pré- processamento do decodificador 110 e o conversor do domínio de frequência- para-tempo 140. Normalmente, o ganho global é aplicado à pluralidade dos sinais da banda de frequência substancialmente no mesmo local dentro da cadeia de processamento do sinal como os fatores de escala para os diferentes sinais da banda de frequência. Isto quer dizer que, para uma frame relativamente ruidosa, os sinais da banda de frequência providenciados para o conversor do domínio da frequência-para-tempo 140 já estão relativamente ruidosos, e podem, por isso, causar o recorte na correspondente representação do domínio do tempo, porque a pluralidade dos sinais da banda de frequência não providenciaram uma suficiente altura livre no caso de diferentes sinais da banda de frequência se somarem de modo construtivo, causando assim uma amplitude de sinal relativamente alta dentro da representação do domínio do tempo.
[060] A abordagem proposta que é por exemplo implementada pelo decodificador do sinal de áudio 100 esquematicamente ilustrado na Fig. 5 permite a limitação do sinal sem perder a precisão dos dados ou usando um comprimento de palavra maior para decodificar bancos de filtro (por ex. o conversor do domínio de frequência-para-tempo 140).
[061] Para superar o problema do comprimento restrito da palavra de bancos de filtro, a normalização do volume sonoro como fonte de potencial recorte pode ser movido para o processamento do domínio do tempo. Isto permite que o banco de filtro 140 seja implementado com o comprimento original da palavra ou o comprimento reduzido da palavra comparativamente com uma implementação em que a normalização do volume sonoro é realizada dentro do processamento do domínio da frequência. Para realizar uma suave harmonização dos valores ganhos, pode ser feito um ajuste da forma de transição, tal como será explicado em baixo no contexto da Fig. 9.
[062] Além disso, as amostras de áudio dentro do fluxo de bits são normalmente quantizadas com menos precisão do que o sinal de áudio reconstruído. Isto permite alguma altura livre no bando de filtro 140. O decodificador 100 deriva alguma estimativa de outro parâmetro de fluxo de bits p (tal como o fator de ganho global) e, para o caso de ser provável um recorte do sinal de saída, aplica uma mudança de nível (g2) para evitar o recorte no banco de filtro 140. Esta mudança de nível é sinalizada ao domínio do tempo para a adequada compensação através do compensador da mudança de nível 150. Se não for estimado nenhum recorte, o sinal de áudio permanece inalterado e, por isso, o método não perde precisão.
[063] O estimador de recorte pode estar ainda configurado para determinar uma probabilidade de recorte com base na informação lateral e/ou para determinar o fator atual da mudança de nível com base na probabilidade de recorte. Apesar de a probabilidade de recorte apenas indicar uma tendência, mais do que um fato real, pode fornecer informação útil relativamente ao fator da mudança de nível que pode ser razoavelmente aplicado à pluralidade de sinais da banda de frequência para uma certa frame da representação do sinal de áudio codificado. A determinação da probabilidade de recorte pode ser relativamente simples em termos de complexidade computacional ou esforço e comparativamente com a conversão do domínio de frequência-para-tempo realizada pelo conversor do domínio de frequência-para-tempo 140.
[064] A informação lateral pode compreender pelo menos um de um fator de ganho global para a pluralidade de sinais da banda de frequência e uma pluralidade de fatores de escala. Cada fator de escala pode corresponder a um ou mais sinais da banda de frequência da pluralidade dos sinais da banda de frequência. O fator de ganho global e/ou a pluralidade de fatores de escala já fornecem informação útil relativamente a um nível de volume sonoro da frame atual que deve ser convertida para o domínio do tempo pelo conversor 140.
[065] De acordo com pelo menos alguns modelos, o estágio de pré- processamento do decodificador 110 pode estar configurado para obter a pluralidade dos sinais da banda de frequência em forma de uma pluralidade das sucessivas frames. O estimador de recorte 120 pode estar configurado para determinar o fator atual da mudança de nível para uma frame atual. Por outras palavras, o decodificador do sinal de áudio 100 pode estar configurado para determinar dinamicamente fatores da mudança de nível variáveis para diferentes frames da representação do sinal de áudio codificado, por exemplo dependendo de um grau variável do volume sonoro dentro das sucessivas frames.
[066] A representação do sinal de áudio decodificado pode ser determinada com base na representação do domínio do tempo substancialmente compensada. Por exemplo, o decodificador do sinal de áudio 100 pode ainda compreender um limitador a jusante do domínio do tempo do compensador da mudança de nível 150. De acordo com alguns modelos, o compensador da mudança de nível 150 pode fazer parte de um desses limitadores do domínio do tempo.
[067] De acordo com mais modelos, a informação lateral relativa ao ganho dos sinais da banda de frequência pode compreender uma pluralidade de fatores de ganho relacionados com a banda de frequência.
[068] A fase de pré-processamento do decodificador 110 pode compreender um quantizador inverso configurado para requantizar cada sinal da banda de frequência utilizando um indicador de quantização específico da banda de frequência de uma pluralidade de indicadores de quantização específicos da banda de frequência. Em particular, os diferentes sinais da banda de frequência podem ter sido quantizadas usando diferentes resoluções de quantização (ou resoluções de bits) por um codificador do sinal de áudio que criou a apresentação do sinal de áudio codificado e a correspondente informação lateral. Os diferentes indicadores de quantização específica da banda de frequência podem, por isso, fornecer uma informação sobre uma resolução de amplitude para os vários sinais da banda de frequência, dependendo de uma resolução de amplitude exigida para esse particular sinal da banda de frequência determinado anteriormente pelo codificador do sinal de áudio. A pluralidade dos indicadores da quantização específica da banda de frequência pode fazer parte da informação lateral fornecida ao estágio de pré-processamento do decodificador 110 e pode providenciar mais informação para ser usada no estimador de recorte 120 para determinar o fator da mudança de nível.
[069] O estimador de recorte 120 pode ser ainda configurado para analisar a informação lateral sobre se a informação lateral sugere um potencial recorte dentro da representação do domínio do tempo. Essa descoberta seria depois interpretada como um bit menos significativo (LSB) que contém informação não relevante. Neste caso, a mudança de nível aplicada pelo dispositivo de mudança de nível 130 pode mudar informação para o bit menos significativo, de modo a que ao libertar um bit mais significativo (LSB) se ganhe alguma altura livre no bit mais significativo, que pode ser preciso para a resolução do domínio do tempo no caso de dois ou mais dos sinais da banda de frequência se somam de um modo construtivo. Este conceito pode ser também estendido aos bits menos significativos n e aos bits mais significativos n.
[070] O estimador de recorte 120 pode estar configurado para considerar um ruído de quantização. Por exemplo, na decodificação AAC, tanto o "ganho global" como as "bandas do fator de escala" são usados para normalizar o áudio/sub-banda. Como consequência, a informação relevante por cada valor (espectral) é mudada para MSB, enquanto LSB é negligenciado em quantização. Depois da requantização no decodificador, o LSB normalmente contém/continha ruído, apenas. Se os valores do "ganho global" e os valores da "banda do fator de escala" (p) sugerem um potencial recorte depois do banco de filtro de reconstrução 140, pode-se assumir razoavelmente que LSB não continha informação. Com o método proposto, o decodificador 100 muda a informação também para estes bits para ganhar alguma altura livre com o MSB. Isto não implica nenhuma substancial perda de informação.
[071] O aparelho proposto (decodificador ou codificador do sinal de áudio) e os métodos permitem a prevenção de recorte para decodificadores/codificadores de áudio sem gastar um banco de filtro de alta resolução para a altura livre exigida. Isto é normalmente muito menos dispendioso em termos de requisitos de memória e complexidade computacional do que a realização/implementação de um banco de filtro com resolução mais alta.
[072] A Fig. 6 mostra um diagrama de bloco esquemático de um decodificador do sinal de áudio 100 de acordo com outros modelos da presente invenção. O decodificador do sinal de áudio 100 compreende um quantizador inverso 210 (Q-1) que está configurado para receber a representação do sinal de áudio codificado e normalmente também a informação lateral ou uma parte da informação lateral. Em alguns modelos, o quantizador inverso 210 pode compreender um desempacotador do fluxo de bits configurado para desempacotar um fluxo de bits que contém a representação do sinal de áudio codificado e a informação lateral, por exemplo em forma de pacotes de dados, em que cada pacote de dados pode corresponder a um certo número de frames da representação do sinal de áudio codificado. Conforme explicado em cima, dentro da representação do sinal de áudio codificado e dentro de cada frame, cada banda de frequência pode ter a sua própria resolução individual de quantização. Deste modo, as bandas de frequência que temporariamente requerem uma quantização relativamente fina para representar corretamente as porções do sinal de áudio dentro dessas bandas de frequência podem ter essa resolução de quantização fina. Por outro lado, as bandas de frequência que contêm, durante uma certa frame, nenhuma ou apenas alguma quantidade de informação podem ser quantizadas usando um quantização mais grosseira, poupando assim bits de dados. O quantizador inverso 210 pode estar configurado para trazer as várias bandas de frequência, que foram quantizadas usando resoluções de quantização individual e variável em tempo, para uma resolução de quantização comum. A resolução a quantização comum pode ser, por exemplo, a resolução providenciada por uma representação aritmética de ponto fixo que é usada pelo decodificador do sinal de áudio 100 internamente para cálculos e processamento. Por exemplo, o decodificador do sinal de áudio 100 pode usar internamente uma representação de ponto fixo de 16 bits ou 24 bits. A informação lateral providenciada para o quantizador inverso 210 pode conter informação relativamente a diferentes resoluções de quantização para a pluralidade dos sinais da banda de frequência para cada nova frame. O quantizador inverso 210 pode ser visto como um caso especial do estágio de pré-processamento do decodificador 110 apresentado na Fig. 5.
[073] O estimador de recorte 120 apresentado na Fig. 6 é idêntico ao estimador de recorte 120 na Fig. 5.
[074] O decodificador do sinal de áudio 100 compreende ainda o dispositivo de mudança do nível 230 que está ligado a uma saída do quantizador inverso 210. O dispositivo da mudança de nível 230 recebe ainda a informação lateral ou uma parte da informação lateral, assim como, o fator da mudança de nível que é determinado pelo estimador de recorte 120 de um modo dinâmico, isto é, para cada intervalo de tempo ou frame, o fator da mudança do nível pode assumir um valor diferente. O fator da mudança de nível é consistentemente aplicado à pluralidade dos sinais da banda de frequência usando uma pluralidade de multiplicadores ou elementos de escalonamento 231, 232, e 233. Alguns dos sinais da banda de frequência são relativamente fortes quando deixam o quantizador inverso 210, possivelmente usando já os seus respetivos MSBs. Quando estes fortes sinais da banda de frequência se somam dentro do conversor do domínio da frequência-para-tempo 140, pode observar-se um sobrefluxo dentro da saída de representação do domínio do tempo pelo conversor do domínio de frequência-para-tempo 140. O fator da mudança de nível determinado pelo estimador de recorte 120 e aplicado pelos elementos de escalonamento 231, 232, 233 permite reduzir seletivamente (isto e, tendo em conta a informação lateral atual) os níveis dos sinais da banda de frequência, de modo a ser menos provável que ocorra um sobrefluxo da representação do domínio do tempo. O dispositivo de mudança de nível 230 compreende ainda uma segunda pluralidade de multiplicadores ou elementos de escalonamento 236, 237, 238 configurados para aplicar os fatores de escala específicos da banda de frequência às correspondentes bandas de frequência. A informação lateral pode compreender fatores de escala M. O dispositivo da mudança de nível 230 providencia uma pluralidade dos sinais da banda de frequência de nível mudado para o conversor do domínio da frequência-para-tempo 140 que está configurado para converter os sinais da banda de frequência de nível mudado para a representação do domínio do tempo.
[075] O decodificador do sinal de áudio 100 da Fig. 6 compreende ainda o compensador da mudança de nível 150 que inclui no modelo apresentado outro multiplicador ou elemento de escalonamento 250 e um calculador recíproco 252. O calcular recíproco 252 recebe o fator da mudança de nível e determina o recíproco (1/x) do fator da mudança de nível. O recíproco do fator de mudança de nível é encaminhado para outro elemento de escalonamento 250 onde é multiplicado pela representação do domínio do tempo para produzir a representação do domínio do tempo substancialmente compensada. Em alternativa aos multiplicadores ou elementos de escalonamento 231, 232, 233, e 252 também pode ser possível usar elementos aditivos/subtrativos para aplicar o fator de mudança de nível à pluralidade dos sinais da banda de frequência e à representação do domínio do tempo.
[076] Opcionalmente, o decodificador do sinal de áudio 100 na Fig. 6 compreende ainda um elemento de processamento subsequente 260 ligado a uma saída do compensador da mudança de nível 150. Por exemplo, o elemento de processamento subsequente 260 pode compreender um limitador do domínio do tempo com uma característica fixada para reduzir ou remover qualquer recorte que pode ainda estar presente dentro da representação do domínio do tempo substancialmente compensada, apesar da provisão do dispositivo da mudança de nível 230 e do compensador da mudança de nível 150. Uma saída do elemento de processamento subsequente opcional 260 providencia a representação do sinal de áudio decodificado. No caso do elemento de processamento subsequente opcional 260 não estar presente, a representação do sinal de áudio decodificado pode estar disponível na saída do compensador da mudança de nível 150.
[077] A Fig. 7 mostra um diagrama de bloco esquemático de um decodificador do sinal de áudio 100 de acordo com outros possíveis modelos da presente invenção. Um decodificador inverso de quantizador/fluxo de bits 310 está configurado para processar um fluxo de bits que entra e para derivar a seguinte informação daí: a pluralidade dos sinais da banda de frequência X1(f), os parâmetros do fluxo de bits p, e um ganho global g1. Os parâmetros do fluxo de bits p pode compreender os fatores de escala para as bandas de frequência e/ou o ganho global g1.
[078] Os parâmetros do fluxo de bits p são providenciados para o estimador de corte 320 que deriva o fator de escalonamento 1/g2 a partir dos parâmetros do fluxo de bits p. O fator de escalonamento 1/g2 é alimentado para o dispositivo de mudança de nível 330 que, no modelo apresentado, também implementa um controlo da faixa dinâmica (DRC). O dispositivo da mudança de nível 330 pode ainda receber os parâmetros do fluxo de bits p ou uma porção disso para aplicar os fatores de escala à pluralidade dos sinais da banda de frequência. O dispositivo da mudança de nível 330 produz a pluralidade dos sinais da banda de frequência de nível mudado X2(f) para o bando de filtro inverso 340 que providencia a conversão do domínio de frequência-para-tempo. Em uma saída do banco de filtro inverso 340, é fornecida a representação do domínio do tempo X3(t) para ser fornecida ao compensador da mudança de nível 350. O compensador da mudança de nível 350 é um multiplicador ou elemento de escalonamento, tal como apresentado no modelo na Fig. 6. O compensador da mudança de nível 350 faz parte de um processamento do domínio do tempo subsequente 360 para o processamento de alta precisão, por exemplo, suportando um comprimento de palavra maior do que o banco de filtro inverso 340. Por exemplo, o banco de filtro inverso pode ter um comprimento de palavra de 16 bits e o processamento de alta precisão realizado pelo processamento do domínio do tempo subsequente pode ser realizado usando 20 bits. Outro exemplo, o comprimento da palavra do banco de filtro inverso 340 pode ter 24 bits e o comprimento da palavra do processamento de alta precisão pode ter 30. Em qualquer circunstância, o número de bits não deve limitar o âmbito da presente patente/pedido de patente a não ser que seja explicitamente declarado. O processamento do domínio do tempo subsequente 360 produz a representação do sinal de áudio decodificado X4(t).
[079] A mudança de ganho aplicada g2 é avançada para a implementação do limitador 360 para compensação. O limitador 362 pode ser implementado a alta precisão.
[080] Se o estimador de recorte 320 não estimar qualquer recorte, as amostras de áudio permanecem substancialmente inalteradas, isto é, como se não tivesse sido feita nenhuma mudança de nível e compensação da mudança de nível.
[081] O estimador de recorte providencia o recíproco g2 do fator da mudança de nível 1/g2 para um combinador 328 onde é combinado com o ganho global g1 para produzir um ganho combinado g3.
[082] O decodificador do sinal de áudio 100 compreende ainda um ajuste da forma de transição 370 que está configurado para providenciar transições suaves quando o ganho combinado g3 muda abruptamente de uma frame anterior para uma frame atual (ou de uma frame atual para a frame subsequente). O ajustador da forma de transição 370 pode estar configurado para atenuar o atual fator da mudança de nível e um fator da mudança de nível subsequente para obter um fator da mudança de nível atenuado g4 para ser usado pelo compensador da mudança de nível 350. Para permitir uma transição suave da mudança de fatores de ganho, tem de ser realizado um ajuste da forma de transição. Esta ferramenta cria um vetor de fatores de ganho g4(t) (um fator para cada amostra do correspondente do sinal de áudio). Para imitar o mesmo comportamento do ajuste do ganho que o processamento do sinal do domínio da frequência iria produzir, tem de ser usada a mesma janela de transição W do banco de filtro 340. Uma frame cobre uma pluralidade de amostras. O fator de ganho combinado g3 é normalmente constante pela duração de uma frame. A janela de transição W é normalmente uma frame longa e providencia diferentes valores de janela para cada amostra dentro da frame (por ex., o primeiro meio período de um cosseno). Os detalhes relativamente a uma possível implementação do ajuste da forma de transição são providenciados na Fig. 9 e a correspondente descrição em baixo.
[083] A Fig. 8 ilustra esquematicamente o efeito de uma mudança de nível aplicada à pluralidade do sinal da banda de frequência. Um sinal de áudio (por ex., cada um dos vários sinais da banda de frequência) pode ser representado usando uma resolução de 16 bit, tal como simbolizado pelo retângulo 402. O retângulo 404 ilustra esquematicamente como os bits da resolução de 16 bit são empregues para representar a amostra quantizada dentro de um dos sinais da banda de frequência providenciados pelo estágio de pré-processamento do decodificador 110. Pode ver-se que a amostra quantizada pode usar um certo número de bits a começar pelo bit mais significativo (MSB) descendo para um último bit usado para a amostra quantizada. Os restantes bits para baixo para o bit menos significativo (LSB) contém ruído de quantização, apenas. Isto pode ser explicado pelo fato de que, para a frame atual, o correspondente sinal da banda de frequência foi representado dentro do fluxo de bits através de um número reduzido de bits (< 16 bits), apenas. Mesmo que a resolução total de 16 bits tenha sido usada dentro do fluxo de bits para a frame atual e para a correspondente banda de frequência, o bit menos significativo normalmente contém uma quantidade significativa de ruído da quantização.
[084] Um retângulo 406 na Fig. 8 ilustra esquematicamente o resultado da mudança de nível do sinal da banda de frequência. Como se espera que o conteúdo do(s) bit(s) menos significativo(s) contenha uma quantidade considerável do ruído de quantização, a amostra quantizada pode ser mudada para o bit menos significativo, substancialmente sem perder informação relevante. Isto pode ser conseguido mudando simplesmente os bits para baixo (“mudar para a direita”), ou recalculando mesmo a representação binária. Em ambos os casos, o fator da mudança de nível pode ser memorizado para uma compensação posterior da mudança de nível aplicada (por ex.: através do compensador da mudança de nível 150 ou 350). A mudança de nível resulta em mais altura livre no(s) bit(s) mais significativo(s).
[085] A Fig. 9 ilustra esquematicamente uma possível implementação do ajuste da forma de transição 370 apresentada na Fig. 7. O ajustador da forma de transição 370 pode compreender uma memória 371 para um fator anterior de mudança do nível, uma primeira janela 372 configurada para gerar uma primeira pluralidade de amostras de janela aplicando uma forma de janela ao fator atual de mudança do nível, uma segunda janela 376 configurada para gerar uma segunda pluralidade de amostras de janela aplicando uma forma de janela anterior ao fator anterior da mudança de nível fornecido pela memória 371 e um combinador de amostras 379 configurado para combinar amostras de janela mutuamente correspondentes da primeira pluralidade de amostras de janela e da segunda pluralidade de amostras de janela para obter uma pluralidade de amostras combinadas. A primeira janela 372 compreende um fornecedor da forma da janela 373 e um multiplicador 374. A segunda janela 376 compreende um fornecedor anterior da forma da janela 377 e outro multiplicador 378. O multiplicador 374 e o outro multiplicador 378 produzem vetores ao longo do tempo. No caso da primeira janela 372 cada elemento de vetor corresponde à multiplicação do atual fator de ganho combinado g3(t) (constante durante a atual frame) com a atual forma da janela providenciada pelo fornecedor da forma da janela 373. No caso da segunda janela 376 cada elemento de vetor corresponde à multiplicação do anterior fator de ganho combinado g3(t-T) (constante durante a frame anterior) com a anterior forma da janela providenciada pelo fornecedor anterior da forma da janela 377.
[086] De acordo com o modelo esquematicamente ilustrado n Fig. 9, o fator de ganho da frame anterior tem de ser multiplicado pela “segunda metade” da janela do banco de filtro 340, enquanto o atual fator de ganho é multiplicado pela “primeira metade” da sequência da janela. Estes dois vetores podem ser somados até formar um vetor de ganho g4(t) para serem multiplicados tipo elemento com o sinal de áudio X3(t) (ver Fig. 7).
[087] As formas da janela podem ser guiadas pela informação lateral w do banco de filtro 340, se quiser.
[088] A forma da janela e a forma anterior da janela também podem ser usadas pelo conversor do domínio de frequência-para-tempo 340, de modo a que a mesma forma de janela e forma anterior da janela sejam usadas para converter os sinais da banda da frequência de nível mudado para a representação do domínio do tempo e para visualizar o atual fator da mudança de nível e o fator anterior da mudança de nível.
[089] O atual fator da mudança de nível pode ser válido para uma frame atual da pluralidade dos sinais da banda de frequência. O anterior fator da mudança de nível pode ser válido para uma frame anterior da pluralidade dos sinais da banda de frequência. A frame atual e a frame anterior podem sobrepor- se, por exemplo por 50%.
[090] O ajuste da forma de transição 370 pode estar configurado para combinar o fator anterior de mudança do nível anterior com uma segunda porção da forma da janela anterior resultando em uma sequência do fator anterior da frame. O ajuste da forma de transição 370 pode estar ainda configurado para combinar o fator atual de mudança do nível com uma primeira porção da forma da janela atual resultando em uma sequência do fator atual da frame. Uma sequência do fator de mudança do nível atenuado pode ser determinada com base na sequência do fator anterior da frame e na sequência do fator atual da frame.
[091] A abordagem proposta não se restringe necessariamente aos decodificadores, pois também os codificadores podem ter um ajuste de ganho ou limitador combinado com um banco de filtro que pode beneficiar do método proposta.
[092] A Fig. 10 ilustra como o estágio de pré-processamento do decodificador 110 e o estimador de recorte 120 estão ligados. O estágio de pré- processamento do decodificador 110 corresponde a ou compreende o determinados do livro de código 1110. O estimador de recorte 120 compreende uma unidade de estimativa 1120. Um determinador do livro de código 1110 está adaptado para determinar um livro de código a partir de uma pluralidade de livros de código como um livro de código identificado, em que o sinal de áudio foi codificada utilizando o livro de código identificado. A unidade de estimativa 1120 está adaptada para derivar um valor do nível, por ex. um valor da energia, um valor da amplitude ou um valor do volume sonoro, associado ao livro de código identificado como um valor de nível derivado. Além disso, a unidade de estimativa 1120 está adaptada para estimar uma estimativa do nível, por ex. uma estimativa da energia, uma estimativa da amplitude ou uma estimativa do volume sonoro, do sinal de áudio usando o valor do nível derivado. Por exemplo, o determinador do livro de código 1110 pode determinar o livro de código que foi usado por um codificador para codificação do sinal de áudio, recebendo a informação lateral transmitida juntamente com o sinal de áudio codificado. Em particular, a informação lateral pode compreender informação que identifica o livro de código usado para codificar uma seção considerada do sinal de áudio. Essa informação pode, por exemplo, ser transmitida do codificador para o decodificador como um número, identificando um livro de código Huffman usado para codificar a seção considerada do sinal de áudio.
[093] A Fig. 11 ilustra uma unidade de estimativa de acordo com um modelo. A unidade de estimativa compreende um derivador do valor do nível 1210 e uma unidade de escalonamento 1220. O derivador do valor do nível está adaptado para derivar um valor do nível associado ao livro de código identificado, isto é, o livro de código que foi usado para codificar os dados espectrais pelo codificador, procurando o valor do nível em uma memória, pedindo o valor do nível a partir de uma base de dados local ou pedindo o valor do nível associado ao código de livro identificado a partir de um computador remoto. Em um modelo, o valor do nível, que foi procurado ou pedido pelo derivador do valor do nível, pode ser um valor de nível médio que indica um nível médio de um valor espectral sem escala codificado, usando o livro de código identificado.
[094] Deste modo, o valor do nível derivado não é calculado a partir dos valores espectrais atuais, mas em vez disso é usado um valor de nível médio que depende apenas do livro de código empregue. Tal como foi explicado antes, o codificador é geralmente adaptado para selecionar o livro de código a partir de uma pluralidade de livros de código que melhor se adequa para codificar os respetivos dados espectrais de uma seção do sinal de áudio. Como os livros de código diferem, por exemplo no que diz respeito ao seu valor absoluto máximo que pode ser codificado, o valor médio que é codificado por um livro de código Huffman difere de livro de código para livro de código e, por isso, também o valor do nível médio de um coeficiente espectral codificado por um livro de código em particular difere de livro de código para livro de código.
[095] Assim sendo, de acordo com um modelo, um valor do nível médio para codificar um coeficiente espectral de um sinal de áudio que emprega um livro de código particular Huffman pode ser determinado para cada livro de código Huffman e pode, por exemplo, ser guardado em uma memória, uma base de dados ou em um computador remoto. Depois, o derivador do valor do nível tem simplesmente de procurar ou pedir o valor do nível associado ao livro de código identificado que tem sido empregue para codificar os dados espectrais, para obter o valor do nível derivado associado ao livro de código identificado.
[096] No entanto, teve-se em consideração que os livros de código Huffman são frequentemente empregues para codificar valores espectrais sem escala, como é o caso para MPEG AAC. Porém, o escalonamento deve ser tido em conta quando é feita a estimativa do nível. Por isso, a unidade da estimativa da Fig. 11 também compreende uma unidade de escalonamento 1220. A unidade de escalonamento está adaptada para derivar um fator de escala relacionado com o sinal de áudio codificado ou uma porção do sinal de áudio codificado como um fator de escala derivado. Por exemplo, relativamente a um decodificador, a unidade de escalonamento 1220 determina um fator de escala para cada banda do fator de escala. Por exemplo, a unidade de escalonamento 1220 recebe informação sobre o fator de escala de uma banda do fator de escala recebendo informação lateral transmitida de um codificador para o decodificador. A unidade de escalonamento 1220 está ainda adaptada para determinar um valor do nível escalonado com base no fator de escala e valor de nível derivado.
[097] Em um modelo, onde o valor do nível derivado é um valor da energia derivado, a unidade de escalonamento está adaptada para aplicar o fator de escala derivado ao valor da energia derivado para obter um valor do nível escalonado multiplicando o valor da energia derivado pelo quadrado do fator de escada derivado.
[098] Em outro modelo, onde o valor do nível derivado é um valor da amplitude derivado, e a unidade de escalonamento está adaptada para aplicar o fator de escala derivado ao valor da amplitude derivado para obter um valor do nível escalonado multiplicando o valor da amplitude derivado pelo fator de escada derivado.
[099] E outro modelo ainda, onde o valor do nível derivado é um valor do volume sonoro derivado, e a unidade de escalonamento 1220 está adaptada para aplicar o fator de escala derivado ao valor do volume sonoro derivado para obter um valor do nível escalonado multiplicando o valor do volume sonoro derivado pelo cubo do fator de escada derivado. Existem modos alternativos para calcular o volume sonoro, tal como por um exponente 3/2. Geralmente, os fatores de escala têm de ser transformados para o domínio do volume sonoro, quando o valor do nível derivado é um valor de volume sonoro.
[100] Estes modelos têm em conta que um valor da energia é determinado com base no quadrado dos coeficientes espectrais de um sinal de áudio, que um valor da amplitude é determinado com base nos valores absolutos dos coeficientes espectrais de um sinal de áudio, e que um valor do volume sonoro é determinado com base nos coeficientes espectrais de um sinal de áudio que foi transformado para o domínio do volume sonoro.
[101] A unidade de estimativa está adaptada para estimar uma estimativa do nível do sinal de áudio usando o valor do nível escalonado. No modelo da Fig. 11, a unidade de estimativa está adaptada para produzir o valor do nível escalonado conforme a estimativa do nível. Neste caso, não é feito nenhum pós- processamento do valor do nível escalonado. No entanto, conforme ilustrado no modelo da Fig. 12, a unidade de estimativa pode também estar adaptada para guiar um pré-processamento. Por isso, a unidade de estimativa da Fig. 12 compreende um pós-processador 1230 para pós-processar um ou mais valores do nível escalonado para estimar uma estimativa do nível. Por exemplo, a estimativa do nível da unidade de estimativa pode ser determinada pelo pós- processador 1230 determinando um valor médio de uma pluralidade dos valores do nível escalonado. Este valor médio pode ser produzido pela unidade de estimativa como estimativa de nível.
[102] Ao contrário dos modelos presentes, uma abordagem da técnica atual para estimar por ex. a energia de uma banda do fator de escala seria efetuar a decodificação Huffman e a quantização inversa para todos os valores espectrais e computar a energia ao somar o quadrado de todos os valores espectrais inversamente quantizados.
[103] Nos modelos propostos, porém, este complexo processo computacional da tecnologia atual é substituído por uma estimativa do nível médio que apenas depende do fator de escala e da utilização do livro de código e não dos valores quantizados atuais.
[104] Os modelos da presente invenção usam o fato de o livro de código Huffman estar concebido para fornecer a codificação otimizada a seguir a uma estatística dedicada. Isto quer dizer que o livro de código foi concebido de acordo com a probabilidade dos dados, por ex., AAC-ELD (AAC-ELD = Codificação de Áudio Avançado – Baixo Atraso Melhorado): linhas espectrais. Este processo pode ser invertido para obter a probabilidade de dados e acordo com o livro de código. A probabilidade de cada entrada de dados dentro de um livro de código (índice) é fornecida pelo comprimento da palavra de código. Por exemplo,
[105] p (índice) = 2^-comprimento(palavra de código)
[106] isto é
[107] p (índice) = 2-comprimento(palavra de código)
[108] em que p(índice) é a probabilidade de uma entrada de dados (um índice) dentro de um livro de código.
[109] Com base nisto, o nível esperado pode ser pré-computorizado e guardado do seguinte modo: cada índice representa uma sequência de valores inteiros (x), por ex., linhas espectrais, em que o comprimento da sequência depende da dimensão do livro de código, por ex., 2 ou 4 para AAC-ELD.
[110] As Fig. 13a e 13b ilustram um método para criar um valor do nível, por ex. um valor da energia, um valor da amplitude ou um valor do volume sonoro, associado a um livro de código de acordo com um modelo. O método compreende:
[111] Determinar uma sequência de valores numéricos associados a uma palavra de código do livro de código para cada palavra de código do livro de código (passo 1310). Tal como foi explicado antes, um livro de código codifica uma sequência de valores numéricos, por exemplo, 2 ou 4 valores numéricos por uma palavra de código do livro de código. O livro de código compreende uma pluralidade os livros de código para codificar uma pluralidade de sequências dos valores numéricos. A sequência dos valores numéricos, que é determinada, é a sequência dos valores numéricos que é codificada pela palavra de código do livro de código considerado. O passo 1310 é conduzido por cada palavra de código do livro de código. Por exemplo, se o livro de código compreende 81 palavras de código, 81 sequências de valores numéricos são determinadas no passo 1310.
[112] No passo 1320, uma sequência inversamente quantizada de valores numéricos é determinada para cada palavra de código do livro de código aplicando um quantizador inverso dos valores numéricos da sequência dos valores numéricos de uma palavra de código para cada palavra de código do livro de código. Como já foi explicado antes, um codificador pode geralmente empregar a quantização quando codifica os valores espectrais do sinal de áudio, por exemplo uma quantização não-uniforme. Como uma consequência, esta quantização tem de ser invertida em um lado do decodificador.
[113] Depois, no passo 1330, é determinada uma sequência dos valores do nível para cada palavra de código do livro de código.
[114] Se deve ser criado um valor da energia como o valor do nível do livro de código, é determinada uma sequência dos valores de energia para cada palavra de código, e o quadrado de cada valor da sequência inversamente quantizada dos valores numéricos é calculado para cada palavra de código do livro de código.
[115] Se, porém, deve ser criado um valor da amplitude como o valor do nível do livro de código, é determinada uma sequência dos valores de amplitude para cada palavra de código, e o valor absoluto de cada valor da sequência inversamente quantizada dos valores numéricos é calculado para cada palavra de código do livro de código.
[116] Se, apesar disso, deve ser criado um valor do volume sonoro como o valor do nível do livro de código, é determinada uma sequência dos valores do volume sonoro para cada palavra de código, e o cubo de cada valor da sequência inversamente quantizada dos valores numéricos é calculado para cada palavra de código do livro de código. Existem modos alternativos para calcular o volume sonoro, tal como por um exponente 3/2. Geralmente, os valores da sequência inversamente quantizada dos valores numéricos têm de ser transformados no domínio do volume sonoro, quando um valor do volume sonoro deve ser criado como o valor do nível do livro de código.
[117] Subsequentemente, no passo 1340, é calculado um valor da soma do nível para cada palavra de código do livro de código através da soma de valores da sequência dos valores do nível para cada palavra de código do livro de código.
[118] Depois, no passo 1350, é determinado um valor da soma do nível do peso da probabilidade para cada palavra de código do livro de código através da multiplicação do valor da soma do nível de uma palavra de código por um valor de probabilidade associado à palavra de código para cada palavra de código do livro de código. Deste modo, tem-se em conta que a soma da sequência dos valores numéricos, por ex. sequências dos coeficientes espectrais, não aparece tão frequentemente como outras sequências de coeficientes espectrais. O valor da probabilidade associado à palavra de código tem isto em conta. Um valor de probabilidade destes pode ser derivado do comprimento da palavra de código, uma vez que as palavras de código que tendem mais a aparecer são codificadas pela utilização de palavras de código menos compridas, enquanto outras palavras de código menos prováveis de aparecer são codificadas pela utilização de palavras de código mais compridas, quando a codificação Huffman é empregue.
[119] No passo 1360, é determinado um valor da soma do nível do peso da probabilidade média para cada palavra de código do livro de código através da divisão do valor da soma do nível do peso da probabilidade de uma palavra de código por um valor da dimensão associado à palavra de código para cada palavra de código do livro de código. Um valor da dimensão indica o número de valores espectrais que são codificados por uma palavra de código do livro de código. Deste modo, é determinado um valor da soma do nível do peso da probabilidade médio que representa um valor de nível (peso da probabilidade) para um coeficiente espectral eu é codificado pela palavra de código.
[120] Depois, no passo 1370, o valor do nível do livro do código é calculado pela soma dos valores da soma do nível do peso da probabilidade média de todas as palavras de código.
[121] Note-se que uma criação destas de um valor de nível só tem de ser feito uma vez para um livro de código. Se for determinado o valor do nível de um livro de código, este valor pode ser simplesmente procurado e usado, por exemplo por uma aparelho para estimativa do nível de acordo com os modelos acima descritos.
[122] De seguida, é apresentado um método para criar um valor da energia associado a um livro de código de acordo com um modelo. Para estimar o valor esperado da energia dos dados codificados com um certo livro de código, têm de ser realizados os seguintes passos uma vez apenas para cada índice do livro de código: A) aplicar o quantizador inverso aos valores inteiros da sequência (por ex. AAC-ELD: xA(4/3)) B) calcular energia pela quadratura de cada valor da sequência de A) C) somar a sequência de B) D) multiplicar C) pela determinada probabilidade do índice E) dividir pela dimensão do livro de código para obter a energia esperada por linha espectral.
[123] Finalmente, todos os valores calculados por E) têm de ser somados para obter a energia esperada do livro de código completo.
[124] Depois de o resultado destes passos ser guardado em um quadro, os valores da energia estimada podem ser simplesmente procurados com base no índice do livro de código, isto é, dependendo do livro de código usado. Os valores espectrais atuais não têm de ser decodificados por Hoffman para esta estimativa.
[125] Para estimar a energia geral dos dados espectrais de uma frame de áudio completa, o fator de escala tem de ser tido em conta. O fator de escala pode ser extraído do fluxo de bits sem uma quantidade significativa de complexidade. O fator de escala pode ser modificado antes de ser aplicado na energia esperada, por ex. o quadrado do fator de escala usado pode ser calculado. A energia esperada é depois multiplicada pelo quadrado do fator de escala usado.
[126] De acordo com os modelos acima descritos, o nível espectral para cada banda de fator de escala pode ser estimado sem decodificar os valores espectrais codificados por Huffman. As estimativas do nível podem ser usadas para identificar fluxos com um baixo nível, por ex. com baixa potência, que normalmente não resultam em um recorte. Por isso, a decodificação total desses fluxos pode ser evitada.
[127] De acordo com outro modelo, um aparelho para a estimativa do nível compreende ainda uma memória ou uma base de dados que guarda uma pluralidade de valores de memória do nível do livro de códigos que indica um valor de nível associado a um livro de código, em que cada um dos vários livros de código tem um valor de memória do nível do livro de código associado e guardado na memória ou base de dados. Além disso, o derivador do valor do nível está configurado para derivar o valor do nível associado ao livro de código identificado, derivando um valor da memória do nível do livro de código associado ao livro de código identificado a partir da memória ou da base de dados.
[128] O nível estimado de acordo com os modelos acima descritos pode variar se for aplicado outro passo de processamento como predição, tal como a filtração de predição, no codec, por ex., para a filtração AAC-ELD TNS (Moldação de Ruído Temporal). Aqui, os coeficientes da predição são transmitidos dentro do fluxo de bits, por ex. para TNS como coeficientes PARCOR.
[129] A Fig. 14 ilustra um modelo em que a unidade de estimativa compreende ainda um ajustador do filtro de predição 1240. O ajustador do filtro de predição está adaptado para derivar um ou mais coeficientes do filtro de predição relativamente ao sinal de áudio codificado ou a uma porção do sinal de áudio codificado como coeficientes do filtro de predição derivados. Além disso, o ajustador do filtro de predição está adaptado para obter um valor de nível predição-filtro-ajustado com base nos coeficientes do filtro de predição e valor do nível derivado. Além disso, a unidade de estimativa está adaptada para estimar uma estimativa do nível do sinal de áudio usando o valor do nível de predição-filtro-ajustado.
[130] Em um modelo, os coeficientes PARCOR para TNS são usados como coeficientes do filtro de predição. O ganho de predição do processo de filtração pode ser determinado a partir dos coeficientes de um modo muito eficiente. Relativamente ao TNS, o ganho de predição pode ser calculado de acordo com a fórmula: ganho = 1 /prod(1-parcor.A2).
[131] Por exemplo, se 3 coeficientes PARCOR, por ex.., parcor1, parcor2 e parcor3 tiverem de ser tidos em conta, o ganho é calculado de acordo com a fórmula:
[133] Isto quer dizer que a amplificação do sinal de áudio através da filtração pode ser estimada sem aplicar a própria operação de filtração.
[134] A Fig. 15 mostra um diagrama de bloco esquemático de um codificador 1500 que implementa o ajuste do ganho proposto que “deriva” o banco do filtro. O codificador do sinal de áudio 1500 está configurado para fornecer uma representação do sinal de áudio codificado com base na representação do domínio tempo de um sinal áudio de entrada. A representação do domínio do tempo pode ser, por exemplo, um sinal de entrada de áudio modulado do código de impulsos.
[135] O codificador do sinal de áudio compreende um estimador de recorte 1520 configurado para analisar a representação do domínio tempo do sinal de áudio de entrada para determinar um fator atual de mudança do nível para a representação do sinal de entrada. O codificador do sinal de áudio também compreende um dispositivo de mudança de nível 1530 configurado para mudar um nível da representação do domínio tempo do sinais de áudio de entrada e acordo com o fator de mudança de nível para obter uma representação do domínio tempo de nível mudado. Um conversor do domínio de tempo-para- frequência 1540 (por ex., um banco de filtro, tal como um banco de filtros de espelho de quadratura, uma transformação de cosseno discreta modificada, etc.) está configurado para converter a representação do domínio do tempo da mudança de nível em uma pluralidade dos sinais da banda de frequência. O codificador de sinal de áudio 1500 também compreende um compensador de mudança do nível 1550 configurado para atuar sobre a pluralidade dos sinais da banda de frequência para compensar pelo menos parcialmente uma mudança do nível aplicada à representação do domínio tempo de nível mudado através do dispositivo de mudança do nível 1530 e para obter uma pluralidade de sinais da banda de frequência substancialmente compensada.
[136] O codificador do sinal de áudio 1500 pode ainda compreender uma atribuição de bit/ruído, quantizador e componente de codificação 1510 e um modelo psico-acústico 1508. O modelo psico-acústico 1508 determina limites de máscara de tempo-frequência-variável com base (e/ou resoluções de quantização de frequência-banda-individual e de frame-individual, e fatores de escala) no sinal de áudio de entrada PCM, para ser usado pela atribuição de bit/ruído, quantizador e codificação 1610. Podem ser encontrados detalhes relativamente a uma possível implementação do modelo psico-acústico e outros aspectos da codificação de áudio percetual, por exemplo, nos Padrões Internacionais ISO/IEC 11172-3 e ISO/IEC 13818-3. A atribuição de bit/ruído, quantizador e codificação 1510 está configurada para quantizar a pluralidade dos sinais da banda de frequência de acordo com as suas resoluções de quantização de frequência-banda-individual e frame-individual, e para fornecer estes dados a um formatador de fluxo de bits 1505 que produz um fluxo de bits codificado para ser providenciado a um ou mais decodificadores do sinal de áudio. A atribuição de bit/ruído, quantizador e codificação 1510 pode estar configurada para determinar a informação lateral adicionalmente à pluralidade de sinais de frequência quantizados. Esta informação lateral pode ser também fornecida ao formatador do fluxo de bits 1505 para inclusão no fluxo de bits.
[137] A Fig. 16 mostra um fluxograma esquemático de um método para decodificar uma representação sinal de áudio codificado para obter uma representação do sinal de áudio codificado. O método compreende um passo 1602 de pré-processamento da representação do sinal de áudio codificado para obter uma pluralidade de sinais da banda de frequência. Em particular, o pré- processamento pode compreender desempacotar um fluxo de bits em dados correspondentes a frames sucessivas, e requantizar (quantização inversa) dados relacionados com a banda de frequência de acordo com resoluções de quantização específico da banda de frequência para obter uma pluralidade dos sinais da banda de frequência.
[138] Em um passo 1604 do método para decodificar a informação lateral relativa a um ganho dos sinais da banda de frequência é analisada para determinar um fator atual da mudança de nível para a apresentação do sinal de áudio codificado. O ganho relativo aos sinais da banda de frequência pode ser individual para cada sinal da banda de frequência (por ex., os fatores de escala conhecidos em alguns esquemas de codificação de áudio percetuais ou parâmetros similares) ou comum a todos os sinais da banda de frequência (por ex., o ganho global conhecido em alguns esquemas de codificação de áudio percetuais). A análise da informação lateral permite reunir informação sobre o volume sonoro do sinal de áudio codificado durante a frame à mão. O volume sonoro, em contrapartida, pode indicar uma tendência da representação do sinal de áudio decodificado para ir para recorte. O fator da mudança de nível é normalmente determinado como um valor para evitar esse recorte enquanto preserva uma faixa dinâmica relevante e/ou conteúdo de informação relevante de (todos) os sinais da banda de frequência.
[139] O método para decodificar compreende ainda um passo 1606 de mudar níveis do sinal da banda de frequência de acordo com o fator de mudança do nível. No caso de os sinais da banda de frequência serem mudados para um nível inferior, a mudança de nível cria mais alguma altura livre no(s) bit(s) mais significativo de uma representação binária dos sinais da banda de frequência. Esta altura livre adicional pode ser necessária quando converter a pluralidade dos sinais da banda de frequência do domínio da frequência para o domínio do tempo para obter uma representação do domínio do tempo, que é feito em um passo subsequente 1608. Em particular, a altura livre adicional reduz o risco de a representação do domínio do tempo recortar se alguns dos sinais da banda de frequência estiverem perto de um limite superior relativamente à sua amplitude e/ou potência. Como consequência, a conversão do domínio de frequência-para- tempo pode ser realizada usando um comprimento de palavra relativamente pequeno.
[140] O método para decodificar também compreende um passo 1609 de atuar sobre a representação do domínio do tempo para compensar pelo menos parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado. Subsequentemente, é obtida uma representação de tempo substancialmente compensada.
[141] Correspondentemente, um método para decodificar uma representação do sinal de áudio codificado para uma representação do sinal de áudio decodificada compreende:
[142] - pré-processamento da representação do sinal de áudio codificado para obter uma pluralidade de sinais da banda de frequência;
[143] - analisar informação lateral relativa a um ganho dos sinais da banda de frequência para determinar um fator atual da mudança de nível para a apresentação do sinal de áudio codificado;
[144] - níveis de mudança dos sinais da banda de frequência de acordo com o fator de mudança do nível para obter sinais da banda de frequência de nível mudado;
[145] - efetuar uma conversão do domínio de frequência-para-tempo dos sinais da banda de frequência para uma representação de domínio tempo; e
[146] - agir sobre a representação do domínio tempo para compensar pelo menos parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado e para obter uma representação do domínio tempo substancialmente compensada.
[147] De acordo com outros aspectos, analisar a informação lateral pode compreender: determinar uma probabilidade de recorte com base na informação lateral e para determinar o fator atual da mudança de nível com base na probabilidade de recorte.
[148] De acordo com outros aspectos, a informação lateral pode compreender pelo menos um fator de ganho global para a pluralidade dos sinais da banda de frequência e uma pluralidade de fatores de escala, em que cada fator de escala corresponde a um sinal da banda de frequência da pluralidade dos sinais da banda de frequência.
[149] De acordo com outros aspectos, o pré-processamento da representação do sinal de áudio codificado pode compreender obter a pluralidade dos sinais da banda de frequência em forma de uma pluralidade de frames sucessivas, e analisar a informação lateral pode compreender determinar o fator atual da mudança de nível para uma frame atual.
[150] De acordo com outros aspectos, a representação do sinal de áudio decodificado pode ser determinada com base na representação do domínio do tempo substancialmente compensada.
[151] De acordo com outros aspectos, o método pode ainda compreender: aplicar uma característica de limitador do domínio do tempo subsequente à atuação sobre a representação do domínio do tempo para compensar pelo menos parcialmente a mudança de nível.
[152] De acordo com outros aspectos, a informação lateral relativa ao ganho dos sinais da banda de frequência pode compreender uma pluralidade de fatores de ganho relacionados com a banda de frequência.
[153] De acordo com outros aspectos, o pré-processamento do sinal de áudio codificado pode compreender a requantização de cada sinal da banda de frequência utilizando um indicador de quantização específico da banda de frequência de uma pluralidade de indicadores de quantização específicos da banda de frequência.
[154] De acordo com outros aspectos, o método pode compreender ainda realizar um ajuste da forma de transição, em que este compreende: atenuar o fator atual da mudança de nível e um subsequente fator da mudança de nível para obter um fator da mudança de nível atenuado para usar durante a ação de uma compensação pelo menos parcial da mudança de nível.
[155] De acordo com outros aspectos, o ajuste da forma de transição pode ainda compreender:
[156] - guardar temporariamente um fator anterior da mudança de nível,
[157] - criar uma primeira pluralidade de amostras de janela aplicando uma forma de janela ao fator atual da mudança de nível,
[158] - criar uma segunda pluralidade de amostras de janela aplicando uma forma de janela anterior ao fator anterior da mudança de nível providenciado pela ação do armazenamento temporário do fator anterior da mudança de nível, e
[159] - combinar amostras de janela mutuamente correspondentes da primeira pluralidade das amostras de janela e da segunda pluralidade de amostras de janela para obter uma pluralidade de amostras combinadas.
[160] De acordo com outros aspectos, a forma da janela e a forma anterior da janela também podem ser usadas pelo conversor do domínio de frequência- para-tempo, de modo a que a mesma forma de janela e forma anterior da janela sejam usadas para converter os sinais da banda da frequência de nível mudado para a representação do domínio do tempo e para visualizar o atual fator da mudança de nível e o fator anterior da mudança de nível.
[161] De acordo com outros aspectos, o fator atual de mudança do nível pode ser válido para uma frame atual da pluralidade dos sinais da banda de frequência, em que o fator anterior de mudança do nível pode ser válido para uma frame anterior da pluralidade dos sinais da banda de frequência e em que a frame atual e a frame anterior se sobrepõem. O ajuste da forma de transição pode ser configurado
[162] - para combinar o fator anterior de mudança do nível com uma segunda porção da forma da janela anterior resultando em uma sequência do fator anterior da frame,
[163] - para combinar o fator atual de mudança do nível com uma primeira porção da forma da janela atual resultando em uma sequência do fator atual da frame, e
[164] - para determinar uma sequência do fator de mudança do nível atenuado com base na sequência do fator anterior da frame e na sequência do fator atual da frame.
[165] De acordo com outros aspectos, pode-se analisar a informação lateral sobre se a mesma sugere um recorte potencial dentro da representação do domínio do tempo, o que quer dizer que o bit menos significativo contém informação não relevante, e em que, neste caso, a mudança de nível muda informação para o bit menos significativo, de modo a que ao libertar um bit mais significativo se ganha algum altura livre no bit mais significativo.
[166] De acordo com outros aspectos, pode ser providenciado um programa de computador para implementar o método para decodificar ou o método para codificar, quando o programa de computador está a ser executado em um computador ou processador de sinal.
[167] Apesar de alguns aspectos terem sido descritos no contexto de um aparelho, é claro que estes aspectos também representam uma descrição do correspondente método, em que um bloco ou dispositivo corresponde a um passo de método ou a uma característica de um passo de método. De modo análogo, os aspectos descritos no contexto de um passo de método também representam uma descrição de um correspondente bloco ou item ou característica de um correspondente aparelho.
[168] O sinal decomposto da invenção pode ser guardado em um meio de armazenamento digital ou pode ser transmitido em um meio de transmissão, tal como um meio de transmissão sem fios ou um meio de transmissão com fios, tal como a Internet.
[169] Dependendo de certos requisitos de implementação, os modelos da invenção podem ser implementados em hardware ou em software. A implementação pode ser realizada usando um meio de armazenamento digital, por exemplo uma disquete, um DVD, um CD, um ROM, um PROM, um EPROM, um EEPROM ou uma memória FLASH, com sinais de controlo de leitura eletrónica guardados lá, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo a que seja executado o respetivo método.
[170] Alguns modelos de acordo com a invenção compreendem um suporte de dados não transitório com sinais de controlo de leitura eletrónica, que são capazes de cooperar com um sistema de computador programável, de modo a que seja executado um dos métodos aqui descritos.
[171] De um modo geral, os modelos da presente invenção podem ser implementados como um produto de programa de computador com um código de programa, sendo o código de programa operativo para executar um dos métodos quando o produto do programa de computador corre em um computador. O código de programa pode, por exemplo, ser guardado em um suporte de leitura em máquina.
[172] Outros modelos compreendem o programa de computador para executar um dos métodos aqui descritos, guardados em um suporte de leitura em máquina.
[173] Por outras palavras, um modelo do método da invenção é, por isso, um programa de computador com um código de programa para executar um dos métodos aqui descritos, quando o programa de computador corre em um computador.
[174] Outro modelo dos métodos da invenção é, por isso, um suporte de dados (ou um suporte de armazenamento digital ou um suporte de leitura em computador) compreendendo, aí gravados, o programa de computador para executar um dos métodos aqui descritos.
[175] Outro modelo do método da invenção é, por isso, um fluxo de dados ou uma sequência de sinais que representam o programa de computador para executar um dos métodos aqui descritos. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma ligação de comunicação de dados, por exemplo via Internet.
[176] Outro modelo compreende um meio de processamento, por exemplo, um computador, ou um dispositivo lógico programável, configurado ou adaptado para executar um dos métodos aqui descritos.
[177] Outro modelo compreende um computador com o programa de computador instalado para executar um dos métodos aqui descritos.
[178] Em alguns modelos, pode ser utilizado um dispositivo programável lógico (por exemplo uma rede de portas lógicas programáveis) para executar algumas ou todas as funcionalidades dos métodos aqui descritos Em alguns modelos, uma rede de portas lógicas programáveis pode cooperar com um microprocessador para executar um dos métodos aqui descritos. De um modo geral, os métodos são preferencialmente executados por qualquer aparelho de hardware.
[179] Os modelos acima descritos são meramente ilustrativos para os princípios da presente invenção. Compreende-se que as modificações e variações das disposições e dos detalhes descritos serão evidentes aos profissionais da matéria. Pretende-se, por isso, que seja limitado apenas pelo âmbito das reivindicações impendentes da patente e não pelos detalhes específicos da descrição e explicação dos modelos aqui constantes.
Claims (16)
1. Decodificador do sinal de áudio (100) caracterizado por ser configurado para prover uma representação do sinal de áudio decodificado com base em uma representação do sinal de áudio codificado, em que o decodificador do sinal de áudio compreende: uma fase de pré-processamento do decodificador (110) configurada para obter uma pluralidade de sinais da banda de frequência a partir da representação do sinal de áudio codificado; um estimador de recorte (120) configurado para analisar a informação lateral relativa ao ganho dos sinais da banda de frequência da representação do sinal de áudio codificado quanto ao fato da informação lateral sugere um recorte potencial para determinar um fator atual de mudança do nível para a representação do sinal de áudio codificado, em que quando a informação lateral sugere o recorte potencial, o fator atual de mudança do nível faz com que a informação da pluralidade dos sinais da banda de frequência mude na direção de um bit menos significativo de modo que seja obtida uma altura livre em pelo menos um bit mais significativo; um dispositivo de mudança do nível (130) configurado para mudar os níveis dos sinais da banda de frequência de acordo com o fator atual de mudança do nível para obter sinais da banda de frequência de nível mudado; um conversor do domínio de frequência-para-tempo (140) configurado para converter os sinais da banda de frequência de nível mudado para uma representação de domínio-tempo; e um compensador de mudança do nível (150) configurado para atuar na representação do domínio-tempo para ao menos compensar parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado pelo dispositivo de mudança de nível (130) e para obter uma representação de domínio-tempo substancialmente compensada.
2. Decodificador do sinal áudio (100), de acordo com a reivindicação 1, caracterizado por o estimador de recorte (120) ser ainda configurado para determinar a probabilidade de recorte com base em pelo menos uma informação lateral e na representação do sinal de áudio codificado, e para determinar o fator atual de mudança do nível com base na probabilidade de recorte.
3. Decodificador do sinal de áudio (100), de acordo com a reivindicação 1 ou 2, caracterizado pelo fato de a informação lateral compreender ao menos um fator de ganho global para a pluralidade dos sinais da banda de frequência e uma pluralidade de fatores de escala, cada fator de escala correspondendo a um sinal da banda de frequência ou a um grupo de sinais da banda de frequência dentro da pluralidade dos sinais da banda de frequência.
4. Decodificador do sinal de áudio (100), de acordo com qualquer uma das reivindicações de 1 a 3, caracterizado por a fase de pré-processamento do decodificador (110) estar configurada para obter a pluralidade dos sinais da banda de frequência na forma de uma pluralidade de estruturas sucessivas e em que o estimador de recorte (120) está configurado para determinar o fator atual da mudança do nível para uma estrutura atual.
5. Decodificador do sinal de áudio (100), de acordo com qualquer uma das reivindicações de 1 a 4, caracterizado por a representação do sinal áudio decodificado ser determinada com base na representação do domínio-tempo substancialmente compensada.
6. Decodificador do sinal de áudio (100), de acordo com qualquer uma das reivindicações de 1 a 5, caracterizado por ainda compreender um limitador do domínio do tempo a jusante do compensador de mudança do nível (150).
7. Decodificador do sinal de áudio (100) de acordo com qualquer um das reivindicações de 1 a 6, caracterizado por a informação lateral relativa ao ganho dos sinais da banda de frequência compreender uma pluralidade de fatores de ganho relacionados com a banda de frequência.
8. Decodificador do sinal áudio (100), de acordo com qualquer uma das reivindicações de 1 a 7, caracterizado por a fase de pré-processamento do decodificador (110) compreender um quantizador inverso configurado para requantizar cada sinal da banda de frequência utilizando um indicador de quantização específico da banda de frequência de uma pluralidade de indicadores de quantização específicos da banda de frequência.
9. Decodificador do sinal de áudio (100), de acordo com qualquer uma das reivindicações de 1 a 8, caracterizado por compreender ainda um ajustador da forma de transição configurado para atenuar o fator atual da mudança do nível e um fator subsequente de mudança do nível para obter um fator atenuado de mudança do nível para uso pelo compensador de mudança do nível (150).
10. Decodificador do sinal de áudio (100), de acordo com a reivindicação 9, caracterizado por o ajustador da forma de transição compreender uma memória (371) para um fator anterior de mudança do nível, uma primeira janela (372) configurada para gerar uma primeira pluralidade de amostras de janela pela aplicação de uma forma de janela ao fator atual de mudança do nível, uma segunda janela (376) configurada para gerar uma segunda pluralidade de amostras de janela pela aplicação de uma forma de janela anterior ao fator anterior da mudança de nível provido pela memória (371) e um combinador de amostras (379) configurado para combinar mutuamente amostras de janela correspondentes da primeira pluralidade de amostras de janela e da segunda pluralidade de amostras de janela para obter uma pluralidade de amostras combinadas.
11. Decodificador do sinal de áudio (100), de acordo com a reivindicação 10, caracterizado por o fator atual de mudança do nível ser válido para uma estrutura atual da pluralidade de sinais da banda de frequência, em que o fator anterior de mudança do nível é válido para uma estrutura anterior da pluralidade dos sinais da banda de frequência e em que a estrutura atual e a estrutura anterior se sobrepõem; no qual o ajuste da forma de transição é configurado para combinar o fator anterior de mudança do nível com uma segunda porção da forma da janela anterior resultando em uma sequência do fator anterior da estrutura, para combinar o fator atual de mudança do nível com uma primeira porção da forma da janela atual resultando em uma sequência do fator atual da estrutura, e para determinar uma sequência do fator de mudança do nível atenuado com base na sequência do fator anterior da estrutura e na sequência do fator atual da estrutura.
12. Decodificador do sinal de áudio (100), de acordo com qualquer uma das reivindicações de 1 a 11, caracterizado por o estimador de recorte (120) estar configurado para analisar pelo menos uma das representações do sinal de áudio codificado e a informação lateral em relação a se pelo menos uma das representações do sinal de áudio codificado e da informação lateral sugere um recorte potencial dentro da representação do domínio-tempo, o que significa que o bit menos significativo não contém informação relevante e em que, neste caso, a mudança do nível aplicada pelo dispositivo de mudança do nível muda a informação na direção do bit menos significativo, pelo que ao libertar um bit mais significativo, se obtém alguma altura livre no bit mais significativo.
13. Decodificador do sinal de áudio (100) de acordo com qualquer uma das reivindicações de 1 a 12, caracterizado por o estimador de recorte (120) compreende: um determinador do livro de códigos (1110) para determinar um livro de códigos a partir de uma pluralidade de livros de códigos como um livro de códigos identificado, em que a representação do sinal de áudio codificado foi codificada pelo emprego do livro de códigos identificado, e uma unidade de estimativa (1120) configurada para derivar um valor do nível associado ao livro de códigos identificado como um valor de nível derivado e, para estimar uma estimativa de nível do sinal de áudio utilizando o valor do nível derivado
14. Codificador do sinal de áudio caracterizado por ser configurado para prover uma representação do sinal de áudio codificado com base na representação do domínio-tempo de um sinal áudio de entrada, em que o codificador do sinal áudio compreende: um estimador de recorte configurado para analisar a representação do domínio-tempo do sinal de áudio de entrada quanto ao fato de o recorte potencial ser sugerido para determinar um fator atual de mudança do nível para a representação do sinal de entrada, em que quando o recorte potencial é sugerido, o fator atual de mudança do nível faz com que a representação do domínio-tempo do sinal de áudio de entrada a ser mudado na direção de um bit menos significativo de modo a se obter altura livre em pelo menos um bit mais significativo; um dispositivo de mudança do nível configurado para mudar um nível da representação do domínio-tempo do sinal de áudio de entrada de acordo com o fator atual do mudança do nível para obter uma representação de domínio-tempo de nível mudado; um conversor do domínio tempo-para-frequência configurado para converter a representação do domínio-tempo de nível mudado em uma pluralidade de sinais da banda de frequência; e um compensador de mudança do nível configurado para atuar na pluralidade dos sinais da banda de frequência para compensar ao menos parcialmente uma mudança do nível aplicada à representação do domínio- tempo de nível mudado pelo dispositivo de mudança do nível e para obter uma pluralidade de sinais da banda de frequência substancialmente compensada.
15. Método para decodificar uma representação do sinal de áudio codificado e para prover uma representação correspondente do sinal áudio decodificado, caracterizado por o método compreender: pré-processamento da representação do sinal de áudio codificado para obter uma pluralidade de sinais da banda de frequência; análise da informação lateral relativa ao ganho dos sinais da banda de frequência quanto ao fato de a informação lateral sugerir um recorte potencial para determinar um fator atual de mudança do nível para a representação do sinal de áudio codificado, em que quando a informação lateral sugere o recorte potencial, o fator atual de mudança do nível faz com que a informação da pluralidade dos sinais da banda de frequência mude na direção de um bit menos significativo de modo a que seja obtida a altura superior em pelo menos um bit mais significativo; níveis de mudança dos sinais da banda de frequência de acordo com o fator de mudança do nível para obter sinais da banda de frequência de nível mudado; efetuar uma conversão do domínio de frequência-para-tempo dos sinais da banda de frequência para uma representação de domínio-tempo; e atuar sobre a representação do domínio-tempo para compensar ao menos parcialmente uma mudança de nível aplicada aos sinais da banda de frequência de nível mudado e para obter uma representação do domínio tempo substancialmente compensada.
16. Método de codificação de sinal de áudio para prover uma representação de sinal de áudio codificado com base na representação do domínio-tempo de um sinal de entrada de áudio, caracterizado por o método compreender: análisar da representação do domínio-tempo de um sinal de entrada áudio quanto ao fato do recorte potencial ser sugerido para determinar um fator atual de mudança do nível para uma representação de sinal de entrada, em que quando o recorte potencial é sugerido, o fator atual de mudança do nível faz com que a representação do domínio-tempo de um sinal de entrada de áudio seja mudado na direção de um bit menos significativo de modo a que seja obtida a altura superior em pelo menos um bit mais significativo; mudar um nível da representação de domínio-tempo de um sinal de entrada de áudio de acordo com o fator atual de mudança de nível para obter uma representação de domínio-tempo de mudança de nível; converter a representação de domínio-tempo de nível mudado em uma pluralidade de sinais de banda de frequência; e atuar na pluralidade de sinais de banda de frequência para ao menos compensar parcialmente uma mudança de nível aplicada à representação de domínio-tempo de nível mudado pela mudança e para obter uma pluralidade de sinais de banda de frequência substancialmente compensados.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13151910.0A EP2757558A1 (en) | 2013-01-18 | 2013-01-18 | Time domain level adjustment for audio signal decoding or encoding |
EP13151910.0 | 2013-01-18 | ||
PCT/EP2014/050171 WO2014111290A1 (en) | 2013-01-18 | 2014-01-07 | Time domain level adjustment for audio signal decoding or encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
BR112015017293A2 BR112015017293A2 (pt) | 2018-05-15 |
BR112015017293B1 true BR112015017293B1 (pt) | 2021-12-21 |
Family
ID=47603376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
BR112015017293-8A BR112015017293B1 (pt) | 2013-01-18 | 2014-01-07 | Decodificador e codificador do sinal de áudio, método para decodificar uma representação do sinal de áudio codificado e para prover uma representação correspondente do sinal áudio decodificado e método de codificação de sinal de áudio para prover uma representação de sinal de áudio codificado com base na representação do domínio-tempo de um sinal de entrada de áudio |
Country Status (11)
Country | Link |
---|---|
US (1) | US9830915B2 (pt) |
EP (2) | EP2757558A1 (pt) |
JP (1) | JP6184519B2 (pt) |
KR (2) | KR20150106929A (pt) |
CN (1) | CN105210149B (pt) |
BR (1) | BR112015017293B1 (pt) |
CA (1) | CA2898005C (pt) |
ES (1) | ES2604983T3 (pt) |
MX (1) | MX346358B (pt) |
RU (1) | RU2608878C1 (pt) |
WO (1) | WO2014111290A1 (pt) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN104303229B (zh) | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
EP2757558A1 (en) * | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
TR201802631T4 (tr) | 2013-01-21 | 2018-03-21 | Dolby Laboratories Licensing Corp | Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder |
KR102071860B1 (ko) | 2013-01-21 | 2020-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
CN110083714B (zh) | 2013-04-05 | 2024-02-13 | 杜比实验室特许公司 | 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
CN105580277B (zh) * | 2013-11-27 | 2019-08-09 | 密克罗奇普技术公司 | 主时钟高精度振荡器 |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
CN106683681B (zh) | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
CN112185401B (zh) | 2014-10-10 | 2024-07-02 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
EP3258467B1 (en) * | 2015-02-10 | 2019-09-18 | Sony Corporation | Transmission and reception of audio streams |
CN104795072A (zh) * | 2015-03-25 | 2015-07-22 | 无锡天脉聚源传媒科技有限公司 | 一种音频数据的编码方法及装置 |
CN105662706B (zh) * | 2016-01-07 | 2018-06-05 | 深圳大学 | 增强时域表达的人工耳蜗信号处理方法及系统 |
CN109328382B (zh) * | 2016-06-22 | 2023-06-16 | 杜比国际公司 | 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法 |
KR102709737B1 (ko) * | 2016-11-30 | 2024-09-26 | 삼성전자주식회사 | 오디오 신호를 전송하는 전자 장치 및 오디오 신호를 전송하는 전자 장치의 제어 방법 |
KR102565447B1 (ko) * | 2017-07-26 | 2023-08-08 | 삼성전자주식회사 | 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법 |
US11120363B2 (en) | 2017-10-19 | 2021-09-14 | Adobe Inc. | Latency mitigation for encoding data |
US11086843B2 (en) | 2017-10-19 | 2021-08-10 | Adobe Inc. | Embedding codebooks for resource optimization |
US10942914B2 (en) * | 2017-10-19 | 2021-03-09 | Adobe Inc. | Latency optimization for digital asset compression |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
WO2019091576A1 (en) * | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
US10331400B1 (en) * | 2018-02-22 | 2019-06-25 | Cirrus Logic, Inc. | Methods and apparatus for soft clipping |
CN109286922B (zh) * | 2018-09-27 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备 |
CN113366865B (zh) * | 2019-02-13 | 2023-03-21 | 杜比实验室特许公司 | 用于音频对象聚类的自适应响度规范化 |
US11322127B2 (en) * | 2019-07-17 | 2022-05-03 | Silencer Devices, LLC. | Noise cancellation with improved frequency resolution |
CN111342937B (zh) * | 2020-03-17 | 2022-05-06 | 北京百瑞互联技术有限公司 | 一种动态调整编解码处理器电压和/或频率的方法和装置 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2311919B (en) | 1994-12-15 | 1999-04-28 | British Telecomm | Speech processing |
US6280309B1 (en) | 1995-10-19 | 2001-08-28 | Norton Company | Accessories and attachments for angle grinder |
US5796842A (en) * | 1996-06-07 | 1998-08-18 | That Corporation | BTSC encoder |
US6289309B1 (en) * | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
JP3681105B2 (ja) * | 2000-02-24 | 2005-08-10 | アルパイン株式会社 | データ処理方式 |
ES2269112T3 (es) * | 2000-02-29 | 2007-04-01 | Qualcomm Incorporated | Codificador de voz multimodal en bucle cerrado de dominio mixto. |
US6651040B1 (en) * | 2000-05-31 | 2003-11-18 | International Business Machines Corporation | Method for dynamic adjustment of audio input gain in a speech system |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
JP2003280691A (ja) * | 2002-03-19 | 2003-10-02 | Sanyo Electric Co Ltd | 音声処理方法および音声処理装置 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
DE10345995B4 (de) | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
US7751572B2 (en) * | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
US8396717B2 (en) * | 2005-09-30 | 2013-03-12 | Panasonic Corporation | Speech encoding apparatus and speech encoding method |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US8126578B2 (en) * | 2007-09-26 | 2012-02-28 | University Of Washington | Clipped-waveform repair in acoustic signals using generalized linear prediction |
CN101897118A (zh) * | 2007-12-11 | 2010-11-24 | Nxp股份有限公司 | 防止音频信号限幅 |
CN101350199A (zh) * | 2008-07-29 | 2009-01-21 | 北京中星微电子有限公司 | 音频编码器及音频编码方法 |
ES2963744T3 (es) * | 2008-10-29 | 2024-04-01 | Dolby Int Ab | Protección de recorte de señal usando metadatos de ganancia de audio preexistentes |
US8346547B1 (en) * | 2009-05-18 | 2013-01-01 | Marvell International Ltd. | Encoder quantization architecture for advanced audio coding |
CN103250206B (zh) * | 2010-10-07 | 2015-07-15 | 弗朗霍夫应用科学研究促进协会 | 用于比特流域中的编码音频帧的强度估计的装置及方法 |
EP2727383B1 (en) * | 2011-07-01 | 2021-04-28 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
IN2014KN01222A (pt) * | 2011-12-15 | 2015-10-16 | Fraunhofer Ges Forschung | |
EP2757558A1 (en) * | 2013-01-18 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain level adjustment for audio signal decoding or encoding |
-
2013
- 2013-01-18 EP EP13151910.0A patent/EP2757558A1/en not_active Withdrawn
-
2014
- 2014-01-07 KR KR1020157021762A patent/KR20150106929A/ko active Application Filing
- 2014-01-07 WO PCT/EP2014/050171 patent/WO2014111290A1/en active Application Filing
- 2014-01-07 RU RU2015134587A patent/RU2608878C1/ru active
- 2014-01-07 EP EP14702195.0A patent/EP2946384B1/en active Active
- 2014-01-07 ES ES14702195.0T patent/ES2604983T3/es active Active
- 2014-01-07 JP JP2015553045A patent/JP6184519B2/ja active Active
- 2014-01-07 CN CN201480016606.2A patent/CN105210149B/zh active Active
- 2014-01-07 MX MX2015009171A patent/MX346358B/es active IP Right Grant
- 2014-01-07 CA CA2898005A patent/CA2898005C/en active Active
- 2014-01-07 KR KR1020177024874A patent/KR101953648B1/ko active IP Right Grant
- 2014-01-07 BR BR112015017293-8A patent/BR112015017293B1/pt active IP Right Grant
-
2015
- 2015-07-09 US US14/795,063 patent/US9830915B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
BR112015017293A2 (pt) | 2018-05-15 |
MX346358B (es) | 2017-03-15 |
KR20170104661A (ko) | 2017-09-15 |
EP2946384A1 (en) | 2015-11-25 |
WO2014111290A1 (en) | 2014-07-24 |
CA2898005C (en) | 2018-08-14 |
CN105210149B (zh) | 2019-08-30 |
JP2016505168A (ja) | 2016-02-18 |
US20160019898A1 (en) | 2016-01-21 |
EP2757558A1 (en) | 2014-07-23 |
MX2015009171A (es) | 2015-11-09 |
US9830915B2 (en) | 2017-11-28 |
EP2946384B1 (en) | 2016-11-02 |
JP6184519B2 (ja) | 2017-08-23 |
RU2608878C1 (ru) | 2017-01-25 |
KR20150106929A (ko) | 2015-09-22 |
CN105210149A (zh) | 2015-12-30 |
ES2604983T3 (es) | 2017-03-10 |
CA2898005A1 (en) | 2014-07-24 |
KR101953648B1 (ko) | 2019-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
BR112015017293B1 (pt) | Decodificador e codificador do sinal de áudio, método para decodificar uma representação do sinal de áudio codificado e para prover uma representação correspondente do sinal áudio decodificado e método de codificação de sinal de áudio para prover uma representação de sinal de áudio codificado com base na representação do domínio-tempo de um sinal de entrada de áudio | |
RU2696292C2 (ru) | Аудиокодер и декодер | |
AU2016231220B2 (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal | |
KR101792712B1 (ko) | 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 | |
CA2877161C (en) | Linear prediction based audio coding using improved probability distribution estimation | |
JP2017501430A (ja) | オーディオ信号の符号化用エンコーダ、オーディオ伝送システムおよび補正値の判定方法 | |
US20090180531A1 (en) | codec with plc capabilities | |
CN110827841B (zh) | 音频解码器 | |
AU2018363652A1 (en) | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters | |
AU2021331096B2 (en) | Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal | |
US20100250260A1 (en) | Encoder | |
JP2019164367A (ja) | 低複雑度の調性適応音声信号量子化 | |
CN109427338B (zh) | 立体声信号的编码方法和编码装置 | |
JP7003253B2 (ja) | エンコーダおよび/またはデコーダの帯域幅の制御 | |
JP2010175633A (ja) | 符号化装置及び方法、並びにプログラム | |
WO2014198726A1 (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
B06F | Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette] | ||
B06U | Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette] | ||
B09A | Decision: intention to grant [chapter 9.1 patent gazette] | ||
B16A | Patent or certificate of addition of invention granted [chapter 16.1 patent gazette] |
Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 07/01/2014, OBSERVADAS AS CONDICOES LEGAIS. |