BR112013021164B1 - método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede - Google Patents

método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede Download PDF

Info

Publication number
BR112013021164B1
BR112013021164B1 BR112013021164-4A BR112013021164A BR112013021164B1 BR 112013021164 B1 BR112013021164 B1 BR 112013021164B1 BR 112013021164 A BR112013021164 A BR 112013021164A BR 112013021164 B1 BR112013021164 B1 BR 112013021164B1
Authority
BR
Brazil
Prior art keywords
gain
format
fact
precision measurement
precision
Prior art date
Application number
BR112013021164-4A
Other languages
English (en)
Other versions
BR112013021164A2 (pt
Inventor
Erik Norvell
Volodya Grancharov
Original Assignee
Telefonaktiebolaget L M Ericsson (Publ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget L M Ericsson (Publ) filed Critical Telefonaktiebolaget L M Ericsson (Publ)
Publication of BR112013021164A2 publication Critical patent/BR112013021164A2/pt
Publication of BR112013021164B1 publication Critical patent/BR112013021164B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

CORREÇÃO DE GANHO APÓS QUANTIZAÇÃO EM CODIFICAÇÃO DE ÁUDIO. Trata-se de um aparelho de ajuste de ganho (60) para uso na decodificação de áudio que foi codificado com representações de formato e ganho separadas que inclui um medidor de precisão (62) configurado para estimar uma medição de precisão (A(b)) da representação de formato (N (b)) e para determinar uma correção de ganho (gc(b)) com base na medição de precisão estimada (A(b)). O mesmo inclui também um ajustador de envelope (64) configurado para ajustar a representação de ganho (Ê(b)) com base na correção de ganho determinada.

Description

MÉTODO E APARELHO DE AJUSTE DE GANHO NA DECODIFICAÇÃO DE ÁUDIO QUE FOI CODIFICADO COM REPRESENTAÇÕES DE FORMATO E GANHO SEPARADAS, DECODIFICADOR E NÓ DE REDE Campo da Técnica
[001] A presente tecnologia refere-se à correção de ganho em codificação de áudio com base em esquemas de quantização em que a quantização é dividida em uma representação de ganho e uma representação de formato, à chamada codificação de áudio ganho-formato, e especialmente à correção de ganho após quantização.
Antecedentes
[002] Espera-se que serviços de telecomunicação modernos lidem com diferentes tipos de sinais de áudio. Embora o conteúdo principal de áudio seja sinais de fala, há desejo de lidar com sinais mais gerais como música e misturas de música e fala. Apesar de a capacidade em redes de telecomunicação estar continuamente aumentando, ainda é de grande interesse limitar a largura de banda necessária por canal de comunicação. Em redes móveis, larguras de banda de transmissão menores para cada ligação rendem consumo de potência mais baixo tanto no dispositivo móvel quando na estação base. Isso quer dizer economia de custos e de energia para o operador móvel, enquanto o usuário final irá ter uma experiência de vida de bateria prolongada e tempo de conversa aumentado. Ainda, com menos largura de banda consumida por usuário, a rede móvel pode oferecer serviço a um número grande de usuários paralelamente.
[003] Hoje, a tecnologia de compressão dominante para serviços de voz móveis é CELP (Predição Linear com Excitação de Código), que alcança uma boa qualidade de áudio para fala em larguras de banda baixas. A mesma é utilizada de modo abrangente em codecs empregados tais como AMR (Multitaxas Adaptáveis), AMR-WB (Banda Larga Multitaxas Adaptáveis) e GSM- EFR (Sistema Global de Comunicações Móveis - Taxa Plena Melhorada). No entanto, para sinais de áudio gerais tais como música, a tecnologia CELP tem um desempenho fraco. Esses sinais podem ser frequentemente melhor representados com uso de codificação com base em transformada de frequência, por exemplo, os codecs do ITU-T G.722.1 [1] e G.719 [2]. No entanto, os codecs de transformada de domínio operam geralmente em uma taxa de bit mais alta que os codecs de fala. Há um intervalo entre os domínios de áudio geral e de fala em termos de codificação e é desejável aumentar o desempenho de codecs de transformada de domínio em taxas de bit mais baixas.
[004] Os codecs de transformada de domínio necessitam de uma representação compacta de dos coeficientes de transformada de domínio. Essas representações frequentemente contam com quantização vetorial (QV), em que os coeficientes são codificados em grupos. Dentre os vários métodos para quantização vetorial está o QV de ganho-formato. Essa abordagem aplica normalização nos vetores antes de codificar os coeficientes individuais. O fator de normalização e os coeficientes normalizados são referidos como o ganho e o formato do vetor, que pode ser codificado separadamente. A estrutura de ganho-formato tem muitos benefícios. Ao dividir o ganho e o formato, o codec pode facilmente ser adaptado a níveis de entrada de fonte variantes ao projetar o quantizador de ganho. Também é benéfico de uma perspectiva perceptivo em que o ganho e o formato podem carregar importância diferente em diferentes regiões de frequência. Finalmente, a divisão ganho formato simplifica o projeto do quantizador e faz com que o mesmo seja menos complexo em termos de memória e recursos computacionais em comparação com um quantizador vetorial sem limitações. Uma visão geral funcional de um quantizador de ganho-formato pode ser vista na Figura 1.
[005] Se aplicada a um espectro de domínio de frequência, a estrutura de ganho-formato pode ser utilizada para formar um envelope espectral e uma representação de estrutura fina. A sequência de valores de ganho forma o envelope do espectro enquanto os vetores de formato dão o detalhe espectral. De uma perspectiva, é benéfico particionar o espectro com uso de uma estrutura de banda não uniforme que permite a resolução de frequência do sistema auditivo humano. Isso significa geralmente que largas de banda estreitas são utilizadas para frequências baixas, enquanto larguras de bandas maiores são utilizadas para as frequências altas. A importância perceptiva da estrutura espectral fina varia com a frequência, mas também depende das características do próprio sinal. Os codificadores de transformada empregam com frequência um modelo auditivo para determinar as partes importantes da estrutura fina e atribuem os recursos disponíveis às partes mais importantes.
[006] O espectro quantiza os vetores de formato com uso dos bits atribuídos. Ver a Figura 2 para um exemplo de um sistema de codificação com base em transformada com um modelo auditivo.
[007] Dependendo da precisão do quantizador de formato, o valor de ganho utilizado para reconstruir o vetor pode ser mais ou menos apropriado. Especialmente quando os bits alocados são poucos, o valor de ganho se afasta do valor ideal. Uma maneira de resolver isso é codificar um fator de correção que se responsabiliza pela incompatibilidade de ganho após a quantização de formato. Outra solução é codificar primeiro o formato e depois computar o fator de ganho ideal dada ao formato quantizado.
[008] A solução para codificar um fator de correção de ganho após a quantização de formato pode consumir taxa de bits considerável. Se a taxa já é baixa, isso significa que mais bits terão que ser levados para outro lugar e talvez possa reduzir a taxa de bit disponível para a estrutura fina.
[009] Codificar o formato antes de codificar o ganho é uma solução melhor, mas se a taxa de bit para o quantizador de formato for decidida a partir do valor de ganho quantizado, então a quantização de ganho e formato dependeria uma da outra. Uma solução iterativa é capaz de, provavelmente, solucionar essa co-dependência, mas poderia facilmente se tornar complexa demais para ser executada em tempo real em um dispositivo móvel. Sumário
[0010] Um objetivo é obter um ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas.
[0011] Esse objetivo é alcançado de acordo com as reivindicações anexas.
[0012] Um primeiro aspecto envolve um método de ajuste de ganho que inclui as etapas seguintes:
Uma medição de precisão da representação de formato é estimada.
[0013] Uma correção de ganho é determinada com base na medição de precisão estimada. A representação de ganho é ajustada com base na correção de ganho determinada. Um segundo aspecto envolve um aparelho de ajuste de ganho que inclui:
[0014] Um medidor de precisão configurado para estimar uma medição de precisão da representação de formato e para determinar uma correção de ganho com base na medição de precisão estimada.
[0015] Um ajustador de envelope configurado para ajustar uma representação de ganho com base na correção de ganho determinada.
[0016] Um terceiro aspecto envolve um decodificador que inclui um aparelho de ajuste de ganho de acordo com o segundo aspecto.
[0017] Um quarto aspecto envolve um nó de que inclui um decodificador de acordo com o terceiro aspecto.
[0018] O esquema proposto para correção de ganho aprimora a qualidade percebida de um sistema de codificação de áudio de ganho-formato. O esquema tem complexidade computacional baixa e necessita de poucos bits adicionais, caso precise.
Breve Descrição dos Desenhos
[0019] A presente tecnologia, juntamente com objetivos e vantagens adicionais da mesma, pode ser mais bem compreendida ao fazer referência à descrição a seguir feita em conjunto com os desenhos em anexo, em que:
A Figura 1 ilustra um esquema de quantização vetorial de ganho-força exemplificativo;
A Figura 2 ilustra um esquema de codificação e decodificação de transformada de domínio exemplificativo;
As Figuras 3A a 3C ilustram uma quantização vetorial de ganho-força em um caso simplificado;
A Figura 4 ilustra um decodificador de transformada de domínio exemplificativo com uso de uma medição de precisão para determinar uma correção de envelope;
As Figuras 5A a B ilustram um resultado exemplificativo de dimensionar a síntese com fatores de ganho quando o vetor de formato é um vetor de pulso esparso;
As Figuras 6A a 6B ilustram como a altura de pulso mais alta pode indicar a precisão do vetor de formato;
A Figura 7 ilustra um exemplo de uma função de atenuação com base em taxa para a modalidade 1;
A Figura 8 ilustra um exemplo de uma função de ajusto de ganho que depende da taxa e altura de pulso para a modalidade 1;
A Figura 9 ilustra outro exemplo de uma função de ajuste de ganho que depende da taxa e altura de pulso modalidade 1;
A Figura 10 ilustra uma modalidade da presente tecnologia no contexto de um sistema decodificador e um codificador de áudio baseado em MDCT;
A Figura 11 exibe um exemplo de uma função de mapeamento a partir da medição de estabilidade ao fator de limitação de ajusto de ganho;
A Figura 12 ilustra um exemplo de um codificador AD PCM e um sistema decodificador com um tamanho do passo adaptável;
A Figura 13 ilustra um exemplo no contexto de um sistema decodificador e um codificador de áudio baseado em AD PCM de sub-banda;
A Figura 14 ilustra uma modalidade da presente tecnologia no contexto de um sistema decodificador e um codificador de áudio baseado em AD PCM de sub-banda;
A Figura 15 ilustra um codificador de transformada de domínio exemplificativo que inclui um classificador de sinal;
A Figura 16 ilustra outro decodificador de transformada de domínio exemplificativo que utiliza uma medição de precisão para determinar uma correção de envelope;
A Figura 17 ilustra uma modalidade de um aparelho de ajuste de ganho de acordo com a presente tecnologia;
A Figura 18 ilustra uma modalidade de ajuste de ganho de acordo com a presente tecnologia em mais detalhe;
A Figura 19 é um fluxograma que ilustra o método de acordo com a presente tecnologia;
A Figura 20 é um fluxograma que ilustra uma modalidade do método de acordo com a presente tecnologia; e
A Figura 21 ilustra uma modalidade de uma rede de acordo com a presente tecnologia.
Descrição Detalhada
[0020] Na descrição a seguir, as mesmas designações de referência serão utilizadas para elementos que desempenham a mesma função ou uma função similar.
[0021] Antes de a presente tecnologia ser descrita em detalhe, a codificação de ganho formato será ilustrada com referência às Figuras 1 a 3.
[0022] A Figura 1 ilustra um esquema de quantização vetorial de ganho-força exemplificativo. A parte superior da Figura ilustra o lado do codificador. Um vetor de entrada x é encaminhado para um calculador de norma 10, que determina a norma de vetor (ganho) g, tipicamente a norma Euclidiana. Essa norma exata é quantizada em um quantizador de norma 12, e o inverso 1/g da norma quantizada g é encaminhado para um multiplicador 14 para dimensionar o vetor de entrada x em um formato. O formato é quantizado em um Quantizador de formato 16. As representações do ganho e do formato quantizados são encaminhadas para um multiplexador de fluxo de bits (mux) 18. Essas representações são ilustradas por linhas pontilhadas para indicar que as mesmas podem, por exemplo, constituir índices em tabelas (livros de código) ao invés dos valores quantizados reais.
[0023] A parte inferior da Figura 1 ilustra o lado do decodificador. Um demultiplexador de fluxo de bits (demux) recebe as representações de ganho e de formato. A representação de formato é encaminhada para um desquantizador de formato 22 e a representação de ganho é encaminhada a um desquantizador de ganho 24. O ganho g obtido é encaminhado para um multiplicador 26, em que o mesmo dimensiona o formato obtido, que resulta no vetor x reconstruído.
[0024] A Figura 2 ilustra um esquema de codificação e decodificação de transformada de domínio exemplificativo. A parte superior da Figura ilustra o lado do codificador. Um sinal de entrada é encaminhado para um transformador de frequência 30, por exemplo, baseado na Transformada Discreta do Cosseno Modificada (MDCT), para produzir a transformada de frequência X. A transformada de frequência X é encaminhada para um calculador de envelope 32, que determina a energia Ê(b) de cada banda de frequência b. Essas energias são quantizadas em energias Ê(b) em um quantizador de envelope 34. As energias quantizadas E(b) são encaminhadas para um normalizador de envelope 36, que dimensiona os coeficientes de banda de frequência b da transformada X com o inverso da energia Ê(b) quantizada correspondente do envelope. Os formatos dimensionados resultados são encaminhados para um quantizador de estrutura fina 38. As energias quantizadas Ê(b) são encaminhadas também para um alocador de bit 40, que aloca bits para quantização de estrutura fina para cada banda de frequência b. Conforme observado acima, a alocação de alocação de bit R(b) pode ser baseada em um modelo do sistema auditivo humano. As representações dos ganhos quantizados Ê(b) e os formatos quantizados correspondentes são encaminhados para o multiplexador de fluxo de bits 18.
[0025] A parte inferior da Figura 2 ilustra o lado do decodificador. O demultiplexador de fluxo de bits recebe as representações de ganho e de formato. As representações de ganho são encaminhadas para um desquantizador de envelope 42. As energias de envelope Ê(b) geradas são encaminhadas para um alocador de bit 44, que determina a alocação de R(b) dos formatos recebidos. As representações de formatos são encaminhadas para uma desquantizador de estrutura fina 46, que é controlado pela alocação de bit R(b). Os formatos decodificados são encaminhados para um conformador de envelope 48, que dimensiona os mesmos com as energias de envelope Ê(b) correspondentes para formar uma transformada de frequência reconstruída. Essa transformada é encaminhada para um transformador de frequência inverso 50, por exemplo, baseado na Transformada Discreta do Cosseno Modificada Inversa (IMDCT), que produz um sinal de saída que representa o áudio sintetizado.
[0026] As Figuras 3A a 3C ilustram a quantização vetorial de ganho-força descrita acima em um caso simplificado em que a banda de frequência b é representada pelo vetor bidimensional X(b) na Figura 3A. Esse caso é simples o suficiente para ser ilustrado em um desenho, mas geral o suficiente também para ilustrar o problema com quantização de ganho-formato (na prática, os vetores têm tipicamente 8 ou mais dimensões). O lado direito da Figura 3A ilustra uma representação de ganho-formato exata do vetor X(b) com um ganho Ê(b) e um formato (vetor de comprimento unitário) N’(b).
[0027] No entanto, conforme ilustrado na Figura 3B, o ganho Ê(b) exato é codificado em um ganho quantizado Ê(b) no lado do codificador. Visto que o inverso do ganho quantizado Ê(b) é utilizado para dimensionar o vetor X(b), o vetor dimensionado resultante Ñ(b) irá apontar para a direção correta, mas não será necessariamente de comprimento unitário. Durante a quantização de formato, o vetor dimensionado Ñ(b) é quantizado na forma quantizada Ñ (b). Nesse caso, a quantização é baseada em um esquema de codificação de pulso [3], que constrói o formato (ou direção) a partir de uma soma de pulsos de número inteiro sinalizados. Os pulsos podem ser adicionados no topo um do outro para cada dimensão. Isso significa que as posições de quantização de formato permitidas são representadas pelos pontos grandes nas grades retangulares ilustradas nas Figuras 3B a 3C. O resultado é que ao formato quantizado Ñ (b) não irá, em geral, coincidir com o formato (direção) de N(b) (e N’(b)).
[0028] A Figura 3C ilustra que a precisão da quantização de formato depende dos bits alocados R(b) ou equivalentemente do número total de pulsos disponível para a quantização de formato. Na parte esquerda da Figura 3C, a quantização de formato é baseada em 8 pulsos, em quanto que a quantização de formato na parte direita utiliza somente 3 pulsos (o exemplo na Figura 3B utiliza 4 pulsos).
[0029] Assim, observa-se que dependendo da precisão do quantizador de formato, o valor de ganho Ê(b) utilizado para reconstruir o vetor X(b) no lado do decodificador pode ser mais ou menos apropriado. De acordo com a presente tecnologia uma correção de ganho pode ser baseada em uma medição de precisão do formato quantizado.
[0030] A medição de precisão utilizada para corrigir o ganho pode ser derivada a partir de parâmetros já disponíveis no decodificador, mas a mesma pode depender também de parâmetros adicionais designados para a medição de precisão. Tipicamente, os parâmetros incluiriam o número de bits alocados para o vetor de formato e o próprio vetor de formato, mas os mesmos podem incluir também o valor de ganho associado ao vetor de formato e estatísticas pré-armazenadas sobre os sinais que são típicos para o sistema de codificação e decodificação. Uma vista geral de um sistema que incorpora uma medição de precisão e correção de ganho ou ajuste é mostrada na Figura 4.
[0031] A Figura 4 ilustra um decodificador de transformada de domínio exemplificativo 300 que utiliza uma medição de precisão para determinar uma correção de envelope. Para evitar desordem no desenho, somente o lado do decodificador é ilustrado. O lado do codificador pode ser implantado como na Figura 2. O novo recurso é um aparelho de ajuste de ganho 60. O aparelho de ajuste de ganho 60 inclui um medidor de precisão 62 configurado para estimar uma medição de precisão A(b) da representação de formato Ñ (b) e para determinar uma correção de ganho gc(b) com base na medição de precisão estimada A(b). O mesmo inclui também um ajustador de envelope 64 configurado para ajustar a representação de ganho Ê(b) com base na correção de ganho determinada.
[0032] Conforme indicado acima, a correção de ganho pode, em algumas modalidades, ser realizada sem gasto de bits adicionais. Isso é feito ao estimar a correção de ganho a partir de parâmetros já disponíveis no decodificador. Esse processo pode ser descrito como uma estimação da precisão do formato codificado. Tipicamente, essa estimação inclui derivar a medição de precisão A(b) das características de quantização de formatos que indicam a resolução da quantização de formatos.
Modalidade 1
[0033] Em uma modalidade, a presente tecnologia é utilizada em um sistema codificador/decodificador de áudio. O sistema é baseado em transformada e a transformada utilizada é a Transformada Discreta do Cosseno Modificada (MDCT) com uso de janelas senoidais com 50% de sobreposição. No entanto, compreende-se que qualquer transformada adequada para codificação por transformada pode ser utilizada junto com gestão de janelas e segmentação apropriadas.
Codificador da modalidade 1
[0034] O áudio de entrada extraído em quadros com uso de 50% de sobreposição e 30 janelado com uma janela senoidal simétrica. Cada quadro janelado é transformado em um espectro X de MDCT. O espectro é particionado em sub-bandas para processamento, em que as larguras de sub-banda não são uniformes. Os coeficientes espectrais de quadro m que pertencem à banda b são denotados X(b,m) e têm a largura de banda BW(b). Visto que a maioria das etapas de codificador e decodificador podem ser descritas em um quando, nós omitimos o índice de quadro a apenas utilizamos a notação X(b). As larguras de banda devem, preferencialmente, aumentar com o aumento da frequência para cumprir com a resolução de frequência do sistema auditivo humano. O valor quadrático médio (RMS) de cada banda é utilizado como um fator de normalização e é denotado Ê(b):
Figure img0001
em que denota a transposição de X(b).
[0035] O valor RMS pode ser visto como o valor de energia por coeficiente. A sequência de fatores de normalização Ê(b) para b = 1, 2, ..., Nbandas forma o envelope do espectro de MDCT, em que Nbandas denota o número de bandas. Em seguida, a sequência é quantizada de modo a ser transmitida para o decodificador. Para garantir que a normalização possa ser revertida no decodificador, o envelope quantizado Ê(b) é obtido. Nessa modalidade exemplificativa, os coeficientes de envelope são quantizados de modo escalar no domínio de registros com uso de um tamanho do passo de 3 dB e os índices quantizadores são diferentemente codificados com uso de codificação de Huffman. O envelope quantizado é utilizado para normalização das bandas espectrais, isto é:
Figure img0002
[0036] Observe que se o envelope não quantizado E(b) for utilizado para normalização, o 15 formato teria RMS = 1, isto é :
Figure img0003
[0037] Ao utilizar o envelope quantizado Ê(b), o vetor de formato terá um valor RMS próximo a 1. Esse recurso será utilizado no decodificador para criar uma aproximação do valor de ganho.
[0038] A união dos vetores de formato N(b) normalizados forma a estrutura fina do espectro de MDCT. O envelope quantizado é utilizado para produzir uma alocação de bit R(b) para codificar os vetores de formato N(b) normalizados. O algoritmo de alocação de bit utiliza preferencialmente um modelo auditivo para distribuir os bits para as partes mais perceptivelmente relevantes. Qualquer esquema quantizador pode ser utilizado para codificar o vetor de formato. Comum em todos é que os mesmos podem ser projetados na suposição de que a entrada é normalizada, o que simplifica o projeto do quantizador. Nessa modalidade, a quantização de formato é feita com uso de um esquema de codificação de pulso que constrói a forma de síntese a partir de uma soma pulsos de número inteiro sinalizados [3]. Os pulsos podem ser adicionados no topo um do outro para formar pulsos de diferentes alturas. Nessa modalidade, a alocação de bit R(b) denota o número de pulsos atribuídos à banda b.
[0039] Os índices quantizadores da quantização de envelope e quantização de formato são multiplexados em um fluxo de bit para serem armazenados ou transmitidos para um decodificador.
Decodificador de modalidade 1
[0040] O decodificador demultiplexa os índices do fluxo de bit e encaminha os índices relevantes para cada módulo de decodificação. Primeiramente, o envelope quantizado Ê(b) é obtido. Em seguida, a alocação de bit da estrutura fina é derivada a partir do envelope quantizado com uso de uma alocação de bit idêntica àquela utilizada no codificador. Os vetores de formato N (b) da estrutura fina são decodificados com uso dos índices e da alocação de bit R(b) obtida.
[0041] Agora, antes de dimensionar a estrutura fina decodificada com o envelope, fatores de correção de ganho adicionais são determinados. Primeiramente, o ganho compatível com RMS é obtido como:
Figure img0004
[0042] O fator gRMS(b) é um fator dimensionamento que normaliza o valor RMS para 1, isto
Figure img0005
[0043] Nessa modalidade, nós procuramos minimizar o erro quadrático médio (MSE) da síntese:
Figure img0006
com a solução
Figure img0007
[0044] Visto que gMSE(b) depende do formato de entrada N(b), o mesmo não conhecido no decodificador. Nessa modalidade, o impacto é estimado com uso de uma medição de precisão. A proporção desses ganhos é por um fator de correção de ganho gc(b):
Figure img0008
[0045] Quando a precisão da quantização de formato é boa, o fator de correção é próximo a 1, isto é:
Ñ(b)→N(b) ⇒ gc(b)→1
[0046] No entanto, quando a precisão de N (b) é baixa, gMSE(b) e gms(b) irão divergir. Nessa modalidade, em que o formato é codificado com uso de um esquema de codificação de pulso, uma taxa baixa irá deixar o vetor de formato esparso e dará uma estimação do ganho apropriado em termos de MSE. Para esse caso, gc(b) deve ser mais baixo que 1 para compensar o excesso. Ver as Figuras 5A e B para uma ilustração exemplificativa do caso de formato de pulso de taxa baixa. As Figuras 5A a B ilustram um exemplo de dimensionamento da síntese com fatores de ganho gMSE (Figura 5B) e (Figura 5A) quando o vetor de formato for um vetor de pulso esparso. O dimensionamento de gRMS dá pulsos que são altos demais em um sentido MSE.
[0047] Por outro lado, um sinal alvo esparso ou em pico pode ser bem representado por um formato de pulso. Embora a escassez do sinal de entrada possa não ser conhecida no estágio de síntese, a escassez do formato de síntese pode servir como um indicador da precisão do vetor de formato sintetizado. Uma maneira de medir a escassez do formato de síntese é a altura do pico máximo no formato. O raciocínio por trás disso é que um sinal de entrada esparso tem mais probabilidade de gerar picos altos no formato de síntese. Ver as Figuras 7A a B para uma ilustração de como a altura do pico pode indicar a precisão de dois vetores de pulso de taxa idêntica. Na Figura 7A, há 5 pulsos disponíveis (R(b) = 5) para representar o formato em traços. Visto que o formato é um tanto constante, os 5 pulsos distribuídos gerados por codificação de altura idêntica 1, isto é, pmax = 1. Na Figura 7B, há também 5 pulsos disponíveis para representar o formato em traços. No entanto, nesse caso o formato é ou esparso ou em pico, e o maior pico é representado por 3 pulsos no topo um do outro, isto é, pmax = 3. Isso indica que a correção de ganho gc(b) depende de uma escassez estimada pmax do formato quantizado.
[0048] Conforme observado acima, o formato de entrada N(b) não é conhecido pelo decodificador. Visto que o gMSE(b) depende do formato de entrada N(b), isso significa que a correção de ganho ou a compensação gc(b) pode, na prática, não ser baseado na equação ideal (8). Nessa modalidade, a correção de ganho gc(b) é, ao invés disso, decidida com base na taxa de bits em termos do número de pulsos R(b), da altura do maior pulso no vetor de formato pmax(b) e da banda de frequência b, isto é:
gc(b) = f(R(b),p,max(b),b) (10)
[0049] Observou-se que as taxas mais baixas geralmente necessitam de uma atenuação no ganho para minimizar o MSE. A taxa de dependência pode ser implantada como uma tabela de pesquisa t(R(b)) que é treinada com dados de sinal de áudio relevantes. Uma tabela de pesquisa exemplificativa pode ser vista na Figura 7. Visto que os vetores de formato nessa modalidade têm larguras diferentes, a taxa pode ser preferencialmente expressa como um número de pulsos por amostra. Dessa maneira, a mesma taxa que depende da atenuação pode ser utilizada para todas as larguras de banda. Uma solução alternativa, que é utilizada nessa modalidade é utilizar um tamanho do passo T na tabela dependendo da largura da banda. Aqui, nós utilizamos 4 larguras de banda diferentes em 4 grupos diferentes e, portanto, necessitam de 4 tamanhos do passo. Um exemplo de tamanhos de passo é encontrado na Tabela 1. Utilizando o tamanho do passo, o valor de pesquisa é obtido com uso de uma operação de arredondamento t([R(b) 71), em que [ ] representa o arredondamento para o número inteiro mais próximo.
Figure img0009
[0050] Outra tabela de pesquisa exemplificativa é dada na Tabela 2.
Figure img0010
[0051] A escassez estimada pode ser implantada como outra tabela de pesquisa u(R(b), pmax (6)) baseada tanto no número de pulsos R(b) como na altura do pulso máximo pmax(b). Uma tabela de pesquisa exemplificativa é mostrada na Figura 8. A tabela de pesquisa u serve como uma medição de precisão A(b) para a banda b, isto é:
A(b)≅ u(R(b),pmax(b)) (11)
[0052] Observou-se que a aproximação de gMSE foi mais adequada para a faixa de frequência mais baixa de uma perspectiva perceptiva. Para as frequências mais altas, a estrutura fina se torna mesmo percentualmente importante e a compatibilidade da energia ou valor RMS se torna vital. Por essa razão, a atenuação de ganho pode ser aplicada somente abaixo de um certo número de banda bTHR. Nesse caso, a correção de ganho gc(b) irá ter uma dependência explícita da banda de frequência b. A função de correção de ganho resultante pode, nesse caso, ser definida como:
Figure img0011
[0053] A descrição, até esse ponto, pode ser utilizada também para descrever os recursos essenciais da modalidade exemplificativa da Figura 4. Assim, na modalidade da Figura 4, a síntese final R(b) é calculada como:
Figure img0012
[0054] Como uma alternativa, a função u(R(b),pmax(b)) pode ser implantada como uma função linear da altura de pulso máxima pmax e da taxa de bits alocados R(b), por exemplo, como:
u(R(b),pmax(b)=k.(Pmax(b)-R(b))+1 (14)
em que a inclinação k é determinada por:
Figure img0013
[0055] A função depende do parâmetro para ajuste amin que oferece o fator de atenuação inicial para R(b) = 1 e pmax(b) = 1. A função é ilustrada na Figura 9, com o parâmetro para ajuste amin = 0.41. Tipicamente, umax e [0.7, 1.4] e umin e[0, umax]. Na equação (14) u é linear na diferença entre pmax(b) e R(b). Outra possibilidade é ter fatores de inclinação diferentes para pmax(b) e R(b).
[0056] A taxa de bits para uma dada banda pode alterar drasticamente uma dada banda entre os quadros adjacentes. Isso pode levar a variações rápidas da correção de ganho. Tais variações são especialmente críticas quando o envelope estiver bastante estável, isto é, as alterações totais entre os quadros são bem pequenas. Isso frequentemente acontece com sinais de música que tipicamente têm mais envelopes de energia estáveis. Para evitar que a atenuação de ganho introduza instabilidade, uma adaptação adicional pode ser adicionada. Uma vista geral de tal modalidade é dada na Figura 10, em que um medidor de estabilidade 66 foi adicionado ao aparelho de ajuste de ganho 60 no decodificador 300.
[0057] A adaptação pode, por exemplo, ser baseada em uma medição de estabilidade do envelope Ê(b). Um exemplo de tal medição é computar a distância quadrada Euclidiana entre vetores de envelope de registro2 (log2) adjacentes:
Figure img0014
[0058] Aqui, AE(m) denota a distancia qudarada Euclidiana entre os vetores de envelope para o quadro m e quadro m-1. A medição de estabilidade pode ser também filtrada por filtro passa-baixo para ter uma adaptação sem problemas:
△Ê[m) = a△E(m) +(1 - a)△E(m - 1) (17)
[0059] Um valor adequado para o fator de esquecimento pode ser 0.1. A medição de estabilidade sem problemas pode então ser utilizada para criar uma limitação da atenuação com uso, por exemplo, de uma função sigmoide tal como:
Figure img0015
em que os parâmetros podem ser ajustados para C1 = 6, C2 = 2 e C3 =1.9. Deve-se observar que esses parâmetros devem ser vistos como exemplos, enquanto que os valores reais podem ser escolhidos com mais libertada. Por exemplo:
C1 ∊[1, 10]
C2 ∊ [1, 4]
C3 ∊ [-5, 10]
[0060] A Figura 11 ilustra um exemplo de uma função de mapeamento da medição de estabilidade △ Ê (m)para o fator de limitação de ajuste de ganho gmin· A expressão acima para gmin é preferencialmente implantada como uma tabela de pesquisa ou com uma função de passo simples, tal como:
Figure img0016
[0061] A variável ae nmitaçao ae atenuaçao gmin G [0,1] pode ser utilizada para criar uma modificação de ganho com estabilidade adaptada gc(b) como:gc(b)=max(gc(b),gmin) (20)
[0062] Após a estimação do ganho, a síntese final X(b) é calculada como:
Figure img0017
[0063] Nas variações descritas da modalidade 1, a união dos vetores sintetizados R(b) forma o espectro sintetizado R, que é processado adicionalmente com uso da transformada 15 MDCT inversa, janelado com a janela de seno simétrica e adicionado à síntese de saída com uso da estratégia de sobreposição-e-adição.
Modalidade 2
[0064] Em outra modalidade exemplificativa, o formato é quantizado com uso de um banco de filtro de Filtros Espelhados em Quadratura (QMF) e um esquema de Modulação por Código de Pulso Diferencial Adaptável (ADPCM) para a quantização de formato. Um exemplo de um esquema de ADPCM de sub-banda é o ITU-T G.722 [4]. O sinal de áudio de entrada é preferencialmente processado em segmentos. Um esquema de ADPCM exemplificativo é mostrado na Figura 12, com um tamanho do passo S adaptável. Aqui, o tamanho do passo adaptável do Quantizador de formato serve como uma medição de precisão que já está presente no decodificador e não necessita de sinalização adicional. No entanto, o tamanho de passo de quantização precisa ser extraído dos parâmetros utilizados pelo processo de decodificação e não da própria forma sintetizada. Uma vista geral dessa modalidade é mostrada na Figura 14. No entanto, antes de essa modalidade ser descrita em detalhe, um esquema de ADPCM exemplificativo com base em um banco de filtros de QMF será descrito com referência às Figuras 12 e 13.
[0065] A Figura 12 ilustra um exemplo de um sistema codificador e decodificador ADPCM com um tamanho de passo adaptável de quantização. Um quantizador ADPCM 70 inclui um somador 72, que recebe um sinal de entrada e subtrai uma estimação do sinal de entrada anterior para formar um sinal de erro e. O sinal de erro é quantizado em um quantizador 74, a saída desse é encaminhada para o multiplexador de fluxo de bits 18 e também para um calculador de tamanho de passo 76 e um desquantizador 78. O calculador tamanho do passo 76 adapta o tamanho de passo de quantização S para obter um erro aceitável. O tamanho de passo de quantização S é encaminhado para o multiplexador de fluxo de bits 18 e também controla o quantizador 74 e o desquantizador 78. O desquantizador 78 emite uma estimação de erro ê para um somador 80. A outra entrada do somador 80 recebe uma estimação do sinal de entrada que foi atrasado pelo elemento de atraso 82. Isso forma uma estimação atual do sinal de entrada, que é enviado para o elemento de atraso 82. O sinal atrasado também é encaminhado para o calculador tamanho do passo 76 e para .com uma mudança de sinal) o somador 72 para formar o sinal de erro e.
[0066] Um desquantizador ADPCM 90 inclui um decodificador de tamanho do passo 92, que decodifica o tamanho de passo de quantização S recebido e encaminha o mesmo para um desquantizador 94. O desquantificador 94 decodifica a estimação de erro e, que é encaminhada para um somador 98, a outra entrada do mesmo recebe o sinal de saída do somador atrasado por um elemento de atraso 96.
[0067] A Figura 13 ilustra um exemplo no contexto de um sistema codificador e decodificador de áudio com base em ADPCM de sub-banda. O lado do codificador é similar ao lado do codificador da modalidade da Figura 2. As diferenças essenciais são que o transformador de frequência 30 foi substituído por um banco de filtro de análise QMF (Filtro Espelhado em Quadratura) 100 e que o quantizador de estrutura fina 38 foi substituído por um quantizador ADPCM, tal como o quantizador 70 na Figura 12. O lado do decodificador é similar ao lado do decodificador da modalidade da Figura 2. As diferenças essenciais são que o transformador de frequência inverso 50 foi substituído por um banco de filtro de síntese de QMF 102 e que o desquantizador de estrutura fina 46 foi substituído por um desquantizador ADPCM, tal como o desquantizador 90 na Figura 12.
[0068] A Figura 14 ilustra uma modalidade da presente tecnologia no contexto de um sistema codificador e decodificador de áudio com base em ADPCM de sub-banda. Para evitar desordem no desenho, somente o lado do decodificador 300 é ilustrado. O lado do codificador pode ser implantado como na Figura 13.
Codificador de modalidade 2
[0069] O codificador aplica o banco de filtros QMF para obter os sinais de sub-banda. Os valores RMS de cada sinal de sub-banda são calculados e os sinais de sub-banda são normalizados. O envelope E(b), alocação de bit R(b) de sub-banda e vetores de formato normalizados N(b) são obtidos como na modalidade 1. Cada sub-banda normalizada alimente o quantizador ADPCM. Nessa modalidade, o ADPCM opera de um modo adaptável avançado, e determina um passo de dimensionamento S(b) a ser utilizado para a sub-banda b. O passo de dimensionamento é escolhido para minimizar o MSE ao longo do quadro de sub-banda. Nessa modalidade, o passo é escolhido ao tentar todos os passos possíveis e selecionar aquele que oferece o MSE mínimo:
Figure img0018
em que Q(x,s) é a função de quantização ADPCM da variável x com uso de um tamanho do passo de s. O tamanho do passo selecionado pode ser utilizado para gerar ao formato quantizado:
N(b)=QN(b),S(b)) (23)
[0070] Os índices quantizadores da quantização de envelope e da quantização de formato são multiplexados em um fluxo de bit a ser armazenado ou transmitido para um decodificador.
Decodificador de modalidade 2
[0071] O decodificador demultiplexa os índices do fluxo de bit e encaminha os índices relevantes para cada módulo de decodificação. O envelope quantizado Ê(b) e a alocação de bit R(b) são obtidos como na modalidade 1. Os vetores de formato N (b) sintetizados são obtidos do desquantizador ou decodificador ADPCM junto com os tamanhos de passo S(b) adaptáveis. Os tamanhos de passo indicam uma precisão do vetor de formato quantizado, em que um tamanho do passo menor corresponde a uma precisão maior e vice versa. Uma implantação possível é fazer a precisão A(b) inversamente proporcional ao tamanho do passo com uso de um fator de proporcionalidade Y:
Figure img0019
em que Y deve ser ajustado para alcançar a relação desejada. Uma escolha possível é Y = Smin em que Smin é o tamanho do passo mínimo, que oferece precisão 1 para S(b) =in.
[0072] O fator de correção de ganho gc pode ser obtido com uso de uma função de mapeamento:
gc(b) = h(Rb),b) . A(b) (25)
[0073] A função de mapeamento h pode ser implantada como uma tabela de pesquisa com base na taxa R(b) e banda de frequência b. Essa tabela pode ser definida por agrupamento dos valores de correção de ganho ideais go,sdgRMs por esses parâmetros e computação da entrada de tabela ao calcular a média dos valores de correção de ganho ideais para cada agrupamento.
[0074] Após a estimação da correção de ganho, a síntese de sub-banda R(b) é calculada como:
Figure img0020
[0075] O quadro de áudio de saída é obtido ao aplicar o banco de filtros QMF de síntese às sub-bandas.
[0076] Na modalidade exemplificativa ilustrada na Figura 14, o medidor de precisão 62 no aparelho de ajuste de ganho 60 recebe o tamanho de passo de quantização S(b) ainda não codificado diretamente do fluxo de bit recebido. Uma alternativa, conforme observado acima, é decodificar o mesmo no desquantizador ADPCM 90 e encaminhar o mesmo na forma decodificada para o medidor de precisão 62.
Alternativas adicionais
[0077] A medição de precisão pode ser complementada com um parâmetro de classe de sinal derivado no codificador. Isso pode, por exemplo, ser um discriminador de fala/música ou um estimador de nível de ruído de fundo. Uma vista geral de um sistema que incorpora um classificador de sinal é mostrada nas Figuras 15 e 16. O lado do codificador na Figura 15 é similar ao lado do codificador na Figura 2, mas é dotado de um classificador de sinal 104.
[0078] O lado do decodificador 300 na Figura 16 é similar ao lado do decodificador na Figura 4, mas é dotado de uma entrada de classe de sinal adicional para o medidor de precisão 62.
[0079] A classe de sinal pode ser incorporada na correção de ganho, por exemplo, ao ter uma adaptação dependente de classe. Se assumirmos que as classes de sinal são fala ou música correspondentes aos valores C = 1 e C = 0 respectivamente, podemos compelir o ajuste de ganho a ser eficaz somente durante a fala, isto é:
Figure img0021
[0080] Em outra modalidade alternativa, o sistema pode agir como um preditor junto com uma compensação ou correção de ganho parcialmente codificada. Nessa modalidade, a medição de precisão é utilizada para aprimorar a previsão da correção de ganho ou compensação de modo que o erro de ganho restante possa ser codificado com menos bits.
[0081] Ao criar o fator gc de compensação ou de correção de ganho, pode-se querer fazer uma troca entre compatibilizar a energia ou valor RMS e minimizar o MSE. Em alguns casos, compatibilizar a energia se torna mais importante que uma forma de onda precisa.
[0082] Isso é verdadeiro, por exemplo, para frequências mais altas. Para acomodar isso, a 30 correção de ganho final pode, em uma modalidade adicional, ser formada com uso de uma soma ponderada dos valores de ganho diferentes:
Figure img0022
em que gc é a correção de ganho obtida de acordo com uma das abordagens descritas acima. O fator de ponderação p pode ser adaptável a, por exemplo, frequência, taxa de bits ou tipo de sinal.
[0083] As etapas, funções, procedimentos e/ ou blocos descritos no presente documento podem ser implantados em hardware que utiliza qualquer tecnologia convencional, tal como tecnologia de circuito distinto ou circuito integrado, que tanto conjunto de circuitos eletrônicos de finalidade geral quanto um conjunto de circuitos de aplicação específica.
[0084] Alternativamente, pelo menos algumas das etapas, funções, procedimentos elou blocos descritos no presente documento podem ser implantados em software para execução de um dispositivo de processamento adequado, tal como um microprocessador, Processador Digital de Sinais (DSP) e/ou qualquer dispositivo lógico programável adequado, tal como um dispositivo de Arranjo de Portas Programável em Campo (FPGA).
[0085] Deve-se compreender também que é possível reutilizar as capacidades de processamento geral. Isso pode, por exemplo, ser feito por reprogramação do software existente ou por adição de novos componentes de software.
[0086] A Figura 17 ilustra uma modalidade de um aparelho de ajuste de ganho 60 de acordo com a presente tecnologia. Essa modalidade é baseada em um processador 110, por exemplo, um microprocessador, que executa um componente de software para estimar a medição de precisão 120, um componente de software para determinar a correção de ganho 130 e um componente de software para ajustar a representação de ganho 140. Esses componentes de software são armazenados na memória 150. O processador 110 se comunica com a memória por um sistema de barramento. Os parâmetros N (b), R(b), Ê(b) são recebidos por um controlador de entrada/saída (EIS) 160 que controla um barramento de EIS, ao qual o processador 110 e a memória 150 são conectados. Nessa modalidade, os parâmetros recebidos pelo controlador EIS 160 são armazenados na memória 150, onde os mesmos são processados por componentes de software. Os componentes de software 120, 130 podem implantar a funcionalidade do bloco 62 nas modalidades descritas acima. O componente de software 140 pode implantar a funcionalidade do bloco 64 nas modalidades descritas acima. A representação de ganho Ê(b) ajusta obtida do componente de software 140 é emitida da memória 150 pelo controlador de EIS 160 pelo barramento de EIS.
[0087] A Figura 18 ilustra uma modalidade de ajuste de ganho de acordo com a presente tecnologia em mais detalhe. Um estimador de atenuação 200 é configurado para utilizar a alocação de bit R(b) recebida para determinar uma atenuação de ganho. O estimador de atenuação 200 pode, por exemplo, ser implantada como uma tabela de pesquisa ou em software baseado em uma equação linear tal como a equação (14) acima. A alocação de bit 35 R(b) também é encaminhada para um estimador de precisão de formato 202, que também recebe uma escassez estimada pmax(b) do formato quantizado, por exemplo, representada pela altura do pulso mais alto na representação de formato Ñ (b). O estimador de precisão de formato 202 pode, por exemplo, ser implantado como uma tabela de pesquisa. A atenuação estimada e a precisão de formato estimada A(b) são multiplicadas em um multiplicador 204. Em uma modalidade desse produto, t(R(b))-A(b) forma diretamente a correção de ganho gc(b). Em outra modalidade, a correção de ganho gc(b) é formada de acordo com a equação (12) acima. Isso necessita de uma chave 206 controlada por um comparador 208, que determina se a banda de frequência b é menor que um limite de frequência bTHR. Se esse é o caso, então gc(b) é igual t(R(b))-A(b). Ou então, gc(b) é ajustado para 1. A correção de ganho gc(b) é encaminhada para outro multiplicador 210, a outra entrada desse recebe o ganho compatível com RMS gRMA(b). O ganho compatível com RMS gRMA(b) é determinado por um calculador de ganho compatível com RMS 212 baseado na representação de formato Ñ (b) recebida e largura de banda BW(b) correspondente, ver equação (4) acima. O produto resultante é encaminhado para outro multiplicador 214, que recebe também a representação de formato Ñ (b) e a representação de ganho Ê(b), e forma a síntese R(b).
[0088] A detecção de estabilidade descrita com referência à Figura 10 pode ser incorporada à modalidade 2 assim como as outras modalidades descritas acima.
[0089] A Figura 19 é um fluxograma que ilustra o método de acordo com a presente tecnologia. A etapa S1 estima uma medição de precisão A(b) da representação de formato Ñ (b). A medição de precisão pode, por exemplo, ser derivada das características de quantização de formatos, tais como R(b), S(b), que indicam a resolução da quantização de 20 formatos. A etapa S2 determina uma correção de ganho, tal como gc(b), gc(b), g’c (b), com base na medição de precisão estimada. A etapa S3 ajusta a representação de ganho Ê(b) com base na correção de ganho determinada.
[0090] A Figura 20 é um fluxograma que ilustra uma modalidade do método de acordo com a presente tecnologia, em que a forma foi codificada com uso de um esquema de codificação de pulso e a correção de ganho depende de uma escassez estimada pmax(b) do formato quantizado. Supõe-se que uma medição de precisão já foi determinada em uma S1 (Figura 19). A etapa S4 estima uma atenuação de ganho que depende da taxa de bits alocados. A etapa S5 determina uma correção de ganho com base na medição de precisão estimada e a atenuação de ganho estimada. Em seguida, o procedimento procede para a etapa S3 (Figura 19) para ajustar a representação de ganho.
[0091] A Figura 21 ilustra uma modalidade de uma rede de acordo com a presente tecnologia. A mesma inclui um decodificador 300 dotado de um aparelho de ajuste de ganho de acordo com a presente tecnologia. Essa modalidade ilustra um terminal de rádio, mas outros nós de rede são possíveis. Por exemplo, se voz sobre IP (Protocolo de Internet) for utilizado na rede, os nós podem compreender computadores.
[0092] No nó de rede na Figura 21, uma antena 302 recebe um sinal de áudio codificado. Uma unidade de rádio 304 transforma esse sinal em parâmetros de áudio, que são encaminhados para o decodificador 300 para gerar um sinal de áudio digital, conforme descrito com referência às várias modalidades acima. O sinal de áudio digital é então convertido por conversor D/A e amplificado em uma unidade 306 e finalmente encaminhado para um alto-falante308.
[0093] Apesar de a descrição acima ter como foca a codificação de áudio com base em transformada, os mesmos princípios podem ser aplicados à codificação de áudio de domínio de tempo com representações de ganho e de formato separadas, por exemplo, codificação de CELP.
[0094] Será compreendido por aqueles versados na técnica que várias modificações e 10 mudanças podem ser feitas na presente tecnologia sem separar do escopo da mesma, que é definido pelas reivindicações anexas.
Abreviações
Modulação por Código de Pulso Diferencial Adaptável - AD PCM
Multitaxas Adaptáveis - AMR
Multitaxas Adaptáveis de Banda Larga - AMR-WB
Predição Linear com Excitação de Código - CELP
Sistema Global de Comunicações Móveis - Taxa Plena
Melhorada - GSM-EFR
Processador Digital de Sinal - DSP
Arranjo de Portas Programável em Campo - FPGA
Protocolo de Internet - IP
Transformada Discreta do Cosseno Modificada - MDCT
Erro quadrático médio - MSE
Filtro Espelhado em Quadratura - QMF
Quadrático Médio - RMS
Quantização vetorial - QV

Claims (16)

  1. Método de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, caracterizado pelo fato de incluir as etapas de:
    estimar (S1) uma medição de precisão (A(b)) da representação de formato (Ñ (b)) para uma banda de frequência (b), a banda de frequência (b) compreendendo uma pluralidade de coeficientes, em que o formato foi codificado usando um esquema de codificação de vetor de pulso em que os pulsos podem ser adicionados no topo um do outro para formar pulsos de alturas diferentes, e a medição de precisão (A(b)) é baseada em um número de pulsos (R(b)) e uma altura de um pulso máximo (pmax(b));
    determinar (S2) com base na medição de precisão estimada (A(b)) uma correção de ganho (gc(b));
    ajustar (S3) a representação de ganho (Ê(b)) com base na correção de ganho determinada.
  2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a correção de ganho (gc(b)) também depende da banda de frequência (b).
  3. Método, de acordo com qualquer uma das reivindicações 1 a 2, caracterizado pelo fato de que inclui as etapas de:
    estimar (S4) uma atenuação de ganho (t(R(b)) que depende de taxa de bits alocada (R(b));
    determinar (S5) a correção de ganho (gc(b)) com base na medição de precisão estimada (A(b)) e na atenuação de ganho estimada (t(R(b))).
  4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a atenuação de ganho (t(R(b))) é estimada a partir de uma tabela de pesquisa (200).
  5. Método, de acordo com a reivindicação 3 ou 4, caracterizado pelo fato de que inclui a etapa de estimar (S5) a medição de precisão de formato (A(b)) a partir de uma tabela de pesquisa (202).
  6. Método, de acordo com a reivindicação 3 ou 4, caracterizado pelo fato de que inclui a etapa de estimar a medição de precisão (A(b)) a partir de uma função linear da altura de pulso máxima (pmax) e da taxa de bits alocada (R(b)).
  7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que inclui a etapa de adaptar a correção de ganho (gc(b)) a uma classe de sinal de áudio determinada.
  8. Aparelho de ajuste de ganho (60) para uso na decodificação de áudio que foi codificado com representações de formato e ganho separadas, caracterizado pelo fato de que inclui:
    um medidor de precisão (62) configurado para estimar uma medição de precisão (A(b)) da representação de formato (Ñ (b)) para uma banda de frequência (b), a banda de frequência (b) compreendendo uma pluralidade de coeficientes, em que o formato foi codificado usando um esquema de codificação de vetor de pulso em que os pulsos podem ser adicionados no topo um do outro para formar pulsos de alturas diferentes, e a medição de precisão (A(b)) é baseada em um número de pulsos (R(b)) e uma altura de um pulso máximo (pmax(b)), e para determinar uma correção de ganho (gc(b)), em que a correção de ganho (gc(b)) é determinada com base na medição de precisão estimada (A(b));
    um ajustador de envelope (64) configurado para ajustar a representação de ganho (Ê(b)) com base na correção de ganho determinada.
  9. Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que a correção de ganho (gc(b)) também depende da banda de frequência (b).
  10. Aparelho, de acordo com a reivindicação 8 ou 9, caracterizado pelo fato de que o medidor de precisão inclui:
    um estimador de atenuação (200) configurado para estimar uma atenuação de ganho (t(R(b))) que depende de taxa de bits alocados (R(b));
    um estimador de precisão de formato (202) configurado para estimar a medição de precisão (A(b));
    um corretor de ganho (204, 206, 208) configurado para determinar uma correção de ganho (gc(b)) com base na medição de precisão estimada (A(b)) e na atenuação de ganho estimada (t(R(b))).
  11. Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que o estimador de atenuação (200) é implantado como uma tabela de pesquisa.
  12. Aparelho, de acordo com a reivindicação 10 ou 11, caracterizado pelo fato de que o estimador de precisão de formato (202) é uma tabela de pesquisa.
  13. Aparelho, de acordo com a reivindicação 10 ou 11, caracterizado pelo fato de que o estimador de precisão de formato (202) é configurado para estimar a medição de precisão (A(b)) a partir de uma função linear da altura de pulso máxima (pmax) e da taxa de bits alocados (R(b)).
  14. Aparelho, de acordo com qualquer uma das reivindicações 8 a 13, caracterizado pelo fato de que o medidor de precisão (62) é configurado para adaptar a correção de ganho (gc(b)) a uma classe de sinal de áudio determinada.
  15. Decodificador, caracterizado pelo fato de que inclui um aparelho de ajuste de ganho (60) conforme definido em qualquer uma das reivindicações 8 a 14.
  16. Nó de rede, caracterizado por incluir um decodificador como definido na reivindicação 15.
BR112013021164-4A 2011-03-04 2011-07-04 método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede BR112013021164B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161449230P 2011-03-04 2011-03-04
US61/449,230 2011-03-04
PCT/SE2011/050899 WO2012121637A1 (en) 2011-03-04 2011-07-04 Post-quantization gain correction in audio coding

Publications (2)

Publication Number Publication Date
BR112013021164A2 BR112013021164A2 (pt) 2018-06-26
BR112013021164B1 true BR112013021164B1 (pt) 2021-02-17

Family

ID=46798434

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112013021164-4A BR112013021164B1 (pt) 2011-03-04 2011-07-04 método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede

Country Status (10)

Country Link
US (4) US10121481B2 (pt)
EP (2) EP3244405B1 (pt)
CN (2) CN105225669B (pt)
BR (1) BR112013021164B1 (pt)
DK (1) DK3244405T3 (pt)
ES (2) ES2744100T3 (pt)
PL (2) PL2681734T3 (pt)
PT (1) PT2681734T (pt)
TR (1) TR201910075T4 (pt)
WO (1) WO2012121637A1 (pt)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101819180B1 (ko) * 2010-03-31 2018-01-16 한국전자통신연구원 부호화 방법 및 장치, 그리고 복호화 방법 및 장치
PT2908313T (pt) 2011-04-15 2019-06-19 Ericsson Telefon Ab L M Partilha adaptativa de taxas de ganho/forma
JP6088532B2 (ja) * 2011-10-21 2017-03-01 サムスン エレクトロニクス カンパニー リミテッド 無損失符号化方法
PL3457400T3 (pl) * 2012-12-13 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio
US9818424B2 (en) * 2013-05-06 2017-11-14 Waves Audio Ltd. Method and apparatus for suppression of unwanted audio signals
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
SG10201808274UA (en) 2014-03-24 2018-10-30 Samsung Electronics Co Ltd High-band encoding method and device, and high-band decoding method and device
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
FI3405950T3 (fi) * 2016-01-22 2022-12-15 Stereoaudiokoodaus ILD-pohjaisella normalisoinnilla ennen keski/sivupäätöstä
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5263119A (en) * 1989-06-29 1993-11-16 Fujitsu Limited Gain-shape vector quantization method and apparatus
ATE218741T1 (de) * 1994-02-01 2002-06-15 Qualcomm Inc Lineare vorhersage durch impulsanregung
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6351730B2 (en) * 1998-03-30 2002-02-26 Lucent Technologies Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6223157B1 (en) * 1998-05-07 2001-04-24 Dsc Telecom, L.P. Method for direct recognition of encoded speech data
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6496798B1 (en) * 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
CN1639984B (zh) * 2002-03-08 2011-05-11 日本电信电话株式会社 数字信号编码方法、解码方法、编码设备、解码设备
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
SE0202770D0 (sv) * 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US8218624B2 (en) * 2003-07-18 2012-07-10 Microsoft Corporation Fractional quantization step sizes for high bit rates
US20090210219A1 (en) * 2005-05-30 2009-08-20 Jong-Mo Sung Apparatus and method for coding and decoding residual signal
JP3981399B1 (ja) * 2006-03-10 2007-09-26 松下電器産業株式会社 固定符号帳探索装置および固定符号帳探索方法
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US20080013751A1 (en) * 2006-07-17 2008-01-17 Per Hiselius Volume dependent audio frequency gain profile
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
WO2008072737A1 (ja) * 2006-12-15 2008-06-19 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
EP2159790B1 (en) * 2007-06-27 2019-11-13 NEC Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
US8085089B2 (en) * 2007-07-31 2011-12-27 Broadcom Corporation Method and system for polar modulation with discontinuous phase for RF transmitters with integrated amplitude shaping
US7853229B2 (en) * 2007-08-08 2010-12-14 Analog Devices, Inc. Methods and apparatus for calibration of automatic gain control in broadcast tuners
ATE521064T1 (de) * 2007-10-08 2011-09-15 Harman Becker Automotive Sys Verstärkung und spektralformenanpassung bei der verarbeitung von audiosignalen
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
US20110035214A1 (en) * 2008-04-09 2011-02-10 Panasonic Corporation Encoding device and encoding method
EP2345027B1 (en) 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
ES2888804T3 (es) * 2009-10-15 2022-01-07 Voiceage Corp Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
AU2010309894B2 (en) * 2009-10-20 2014-03-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and CELP coding adapted therefore
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US9208792B2 (en) * 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
JP5719941B2 (ja) * 2011-02-09 2015-05-20 テレフオンアクチーボラゲット エル エム エリクソン(パブル) オーディオ信号の効率的なエンコーディング/デコーディング

Also Published As

Publication number Publication date
EP2681734B1 (en) 2017-06-21
BR112013021164A2 (pt) 2018-06-26
RU2013144554A (ru) 2015-04-10
EP3244405A1 (en) 2017-11-15
TR201910075T4 (tr) 2019-08-21
DK3244405T3 (da) 2019-07-22
EP3244405B1 (en) 2019-06-19
US20210287688A1 (en) 2021-09-16
WO2012121637A1 (en) 2012-09-13
US20200005803A1 (en) 2020-01-02
CN103443856A (zh) 2013-12-11
US10460739B2 (en) 2019-10-29
US20130339038A1 (en) 2013-12-19
CN105225669A (zh) 2016-01-06
US10121481B2 (en) 2018-11-06
US20170330573A1 (en) 2017-11-16
EP2681734A1 (en) 2014-01-08
CN103443856B (zh) 2015-09-09
ES2641315T3 (es) 2017-11-08
EP2681734A4 (en) 2014-11-05
CN105225669B (zh) 2018-12-21
ES2744100T3 (es) 2020-02-21
PL3244405T3 (pl) 2019-12-31
PT2681734T (pt) 2017-07-31
PL2681734T3 (pl) 2017-12-29
US11056125B2 (en) 2021-07-06

Similar Documents

Publication Publication Date Title
BR112013021164B1 (pt) método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede
ES2728329T3 (es) Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES2665766T3 (es) Mezclado de corrientes de datos de entrada y generación a partir de ahí de una corriente de datos de salida
US10770078B2 (en) Adaptive gain-shape rate sharing
RU2643452C2 (ru) Устройство кодирования аудио/голоса, устройство декодирования аудио/голоса, способ кодирования аудио/голоса и способ декодирования аудио/голоса
BR122022025766B1 (pt) Codificador de áudio para codificação de um sinal multicanal e decodificador de áudio para decodificação de um sinal de áudio codificado
BRPI0517949B1 (pt) dispositivo de conversão para converter um sinal dominante, método de conversão de um sinal dominante, e meio não transitório legível por computador
BRPI0517780A2 (pt) aparelho de decodificação escalável e aparelho de codificação escalável
BRPI0517716B1 (pt) Aparelho de codificação, aparelho de decodificação, método de codificação e método de decodificação.
PT2791937T (pt) Geração de uma extensão da banda alta de um sinal de áudio de largura de banda estendida
BR122015007141B1 (pt) aparelho para melhorar um decodificador de fonte e método para melhorar um método de decodificação de fonte
BRPI0609530A2 (pt) método e equipamento para encodificar e decodificar uma porção de banda alta de um sinal de fala
BRPI0808428A2 (pt) Dispostivo de codificação e método de codificação
BR122022013482B1 (pt) Codificador de áudio, decodificador de áudio, método para codificar uma informação de áudio, método para decodificar uma informação de áudio que utiliza uma detecção de um grupo de valores espectrais previamente decodificados
BR112014023577B1 (pt) Método e dispositivo de codificação de sinal de áudio e método e dispositivo de decodificação de sinal de áudio
BR112020020457A2 (pt) Aparelho, método ou programa de computador para estimar uma diferença de tempo intercanal
BR112020001660A2 (pt) Aparelho e método para decodificar um sinal multicanal codificado, descorrelacionador de sinal de áudio, método para descorrelacionar um sinal de entrada de áudio
BR112014008376B1 (pt) codificação/decodificação de áudio baseada em uma representação eficaz de coeficientes autorregressivos
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
BR112018012007B1 (pt) Aparelho e método para processamento de um sinal de áudio codificado
RU2575389C2 (ru) Коррекция коэффициента усиления после квантования при кодировании аудио

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 04/07/2011, OBSERVADAS AS CONDICOES LEGAIS.