BR112013021164B1

BR112013021164B1 - método e aparelho de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, decodificador e nó de rede

Info

Publication number: BR112013021164B1
Application number: BR112013021164-4A
Authority: BR
Inventors: Erik Norvell; Volodya Grancharov
Original assignee: Telefonaktiebolaget L M Ericsson (Publ)
Priority date: 2011-03-04
Filing date: 2011-07-04
Publication date: 2021-02-17
Also published as: EP2681734B1; BR112013021164A2; RU2013144554A; EP3244405A1; TR201910075T4; DK3244405T3; EP3244405B1; US20210287688A1; WO2012121637A1; US20200005803A1; CN103443856A; US10460739B2; US20130339038A1; CN105225669A; US10121481B2; US20170330573A1; EP2681734A1; CN103443856B; ES2641315T3; EP2681734A4

Abstract

CORREÇÃO DE GANHO APÓS QUANTIZAÇÃO EM CODIFICAÇÃO DE ÁUDIO. Trata-se de um aparelho de ajuste de ganho (60) para uso na decodificação de áudio que foi codificado com representações de formato e ganho separadas que inclui um medidor de precisão (62) configurado para estimar uma medição de precisão (A(b)) da representação de formato (N (b)) e para determinar uma correção de ganho (gc(b)) com base na medição de precisão estimada (A(b)). O mesmo inclui também um ajustador de envelope (64) configurado para ajustar a representação de ganho (Ê(b)) com base na correção de ganho determinada.

Description

MÉTODO E APARELHO DE AJUSTE DE GANHO NA DECODIFICAÇÃO DE ÁUDIO QUE FOI CODIFICADO COM REPRESENTAÇÕES DE FORMATO E GANHO SEPARADAS, DECODIFICADOR E NÓ DE REDE

Campo da Técnica

[001] A presente tecnologia refere-se à correção de ganho em codificação de áudio com base em esquemas de quantização em que a quantização é dividida em uma representação de ganho e uma representação de formato, à chamada codificação de áudio ganho-formato, e especialmente à correção de ganho após quantização.

Antecedentes

[002] Espera-se que serviços de telecomunicação modernos lidem com diferentes tipos de sinais de áudio. Embora o conteúdo principal de áudio seja sinais de fala, há desejo de lidar com sinais mais gerais como música e misturas de música e fala. Apesar de a capacidade em redes de telecomunicação estar continuamente aumentando, ainda é de grande interesse limitar a largura de banda necessária por canal de comunicação. Em redes móveis, larguras de banda de transmissão menores para cada ligação rendem consumo de potência mais baixo tanto no dispositivo móvel quando na estação base. Isso quer dizer economia de custos e de energia para o operador móvel, enquanto o usuário final irá ter uma experiência de vida de bateria prolongada e tempo de conversa aumentado. Ainda, com menos largura de banda consumida por usuário, a rede móvel pode oferecer serviço a um número grande de usuários paralelamente.

[003] Hoje, a tecnologia de compressão dominante para serviços de voz móveis é CELP (Predição Linear com Excitação de Código), que alcança uma boa qualidade de áudio para fala em larguras de banda baixas. A mesma é utilizada de modo abrangente em codecs empregados tais como AMR (Multitaxas Adaptáveis), AMR-WB (Banda Larga Multitaxas Adaptáveis) e GSM- EFR (Sistema Global de Comunicações Móveis - Taxa Plena Melhorada). No entanto, para sinais de áudio gerais tais como música, a tecnologia CELP tem um desempenho fraco. Esses sinais podem ser frequentemente melhor representados com uso de codificação com base em transformada de frequência, por exemplo, os codecs do ITU-T G.722.1 [1] e G.719 [2]. No entanto, os codecs de transformada de domínio operam geralmente em uma taxa de bit mais alta que os codecs de fala. Há um intervalo entre os domínios de áudio geral e de fala em termos de codificação e é desejável aumentar o desempenho de codecs de transformada de domínio em taxas de bit mais baixas.

[004] Os codecs de transformada de domínio necessitam de uma representação compacta de dos coeficientes de transformada de domínio. Essas representações frequentemente contam com quantização vetorial (QV), em que os coeficientes são codificados em grupos. Dentre os vários métodos para quantização vetorial está o QV de ganho-formato. Essa abordagem aplica normalização nos vetores antes de codificar os coeficientes individuais. O fator de normalização e os coeficientes normalizados são referidos como o ganho e o formato do vetor, que pode ser codificado separadamente. A estrutura de ganho-formato tem muitos benefícios. Ao dividir o ganho e o formato, o codec pode facilmente ser adaptado a níveis de entrada de fonte variantes ao projetar o quantizador de ganho. Também é benéfico de uma perspectiva perceptivo em que o ganho e o formato podem carregar importância diferente em diferentes regiões de frequência. Finalmente, a divisão ganho formato simplifica o projeto do quantizador e faz com que o mesmo seja menos complexo em termos de memória e recursos computacionais em comparação com um quantizador vetorial sem limitações. Uma visão geral funcional de um quantizador de ganho-formato pode ser vista na Figura 1.

[005] Se aplicada a um espectro de domínio de frequência, a estrutura de ganho-formato pode ser utilizada para formar um envelope espectral e uma representação de estrutura fina. A sequência de valores de ganho forma o envelope do espectro enquanto os vetores de formato dão o detalhe espectral. De uma perspectiva, é benéfico particionar o espectro com uso de uma estrutura de banda não uniforme que permite a resolução de frequência do sistema auditivo humano. Isso significa geralmente que largas de banda estreitas são utilizadas para frequências baixas, enquanto larguras de bandas maiores são utilizadas para as frequências altas. A importância perceptiva da estrutura espectral fina varia com a frequência, mas também depende das características do próprio sinal. Os codificadores de transformada empregam com frequência um modelo auditivo para determinar as partes importantes da estrutura fina e atribuem os recursos disponíveis às partes mais importantes.

[006] O espectro quantiza os vetores de formato com uso dos bits atribuídos. Ver a Figura 2 para um exemplo de um sistema de codificação com base em transformada com um modelo auditivo.

[007] Dependendo da precisão do quantizador de formato, o valor de ganho utilizado para reconstruir o vetor pode ser mais ou menos apropriado. Especialmente quando os bits alocados são poucos, o valor de ganho se afasta do valor ideal. Uma maneira de resolver isso é codificar um fator de correção que se responsabiliza pela incompatibilidade de ganho após a quantização de formato. Outra solução é codificar primeiro o formato e depois computar o fator de ganho ideal dada ao formato quantizado.

[008] A solução para codificar um fator de correção de ganho após a quantização de formato pode consumir taxa de bits considerável. Se a taxa já é baixa, isso significa que mais bits terão que ser levados para outro lugar e talvez possa reduzir a taxa de bit disponível para a estrutura fina.

[009] Codificar o formato antes de codificar o ganho é uma solução melhor, mas se a taxa de bit para o quantizador de formato for decidida a partir do valor de ganho quantizado, então a quantização de ganho e formato dependeria uma da outra. Uma solução iterativa é capaz de, provavelmente, solucionar essa co-dependência, mas poderia facilmente se tornar complexa demais para ser executada em tempo real em um dispositivo móvel. Sumário

[0010] Um objetivo é obter um ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas.

[0011] Esse objetivo é alcançado de acordo com as reivindicações anexas.

[0012] Um primeiro aspecto envolve um método de ajuste de ganho que inclui as etapas seguintes:
Uma medição de precisão da representação de formato é estimada.

[0013] Uma correção de ganho é determinada com base na medição de precisão estimada. A representação de ganho é ajustada com base na correção de ganho determinada. Um segundo aspecto envolve um aparelho de ajuste de ganho que inclui:

[0014] Um medidor de precisão configurado para estimar uma medição de precisão da representação de formato e para determinar uma correção de ganho com base na medição de precisão estimada.

[0015] Um ajustador de envelope configurado para ajustar uma representação de ganho com base na correção de ganho determinada.

[0016] Um terceiro aspecto envolve um decodificador que inclui um aparelho de ajuste de ganho de acordo com o segundo aspecto.

[0017] Um quarto aspecto envolve um nó de que inclui um decodificador de acordo com o terceiro aspecto.

[0018] O esquema proposto para correção de ganho aprimora a qualidade percebida de um sistema de codificação de áudio de ganho-formato. O esquema tem complexidade computacional baixa e necessita de poucos bits adicionais, caso precise.

Breve Descrição dos Desenhos

[0019] A presente tecnologia, juntamente com objetivos e vantagens adicionais da mesma, pode ser mais bem compreendida ao fazer referência à descrição a seguir feita em conjunto com os desenhos em anexo, em que:
A Figura 1 ilustra um esquema de quantização vetorial de ganho-força exemplificativo;
A Figura 2 ilustra um esquema de codificação e decodificação de transformada de domínio exemplificativo;
As Figuras 3A a 3C ilustram uma quantização vetorial de ganho-força em um caso simplificado;
A Figura 4 ilustra um decodificador de transformada de domínio exemplificativo com uso de uma medição de precisão para determinar uma correção de envelope;
As Figuras 5A a B ilustram um resultado exemplificativo de dimensionar a síntese com fatores de ganho quando o vetor de formato é um vetor de pulso esparso;
As Figuras 6A a 6B ilustram como a altura de pulso mais alta pode indicar a precisão do vetor de formato;
A Figura 7 ilustra um exemplo de uma função de atenuação com base em taxa para a modalidade 1;
A Figura 8 ilustra um exemplo de uma função de ajusto de ganho que depende da taxa e altura de pulso para a modalidade 1;
A Figura 9 ilustra outro exemplo de uma função de ajuste de ganho que depende da taxa e altura de pulso modalidade 1;
A Figura 10 ilustra uma modalidade da presente tecnologia no contexto de um sistema decodificador e um codificador de áudio baseado em MDCT;
A Figura 11 exibe um exemplo de uma função de mapeamento a partir da medição de estabilidade ao fator de limitação de ajusto de ganho;
A Figura 12 ilustra um exemplo de um codificador AD PCM e um sistema decodificador com um tamanho do passo adaptável;
A Figura 13 ilustra um exemplo no contexto de um sistema decodificador e um codificador de áudio baseado em AD PCM de sub-banda;
A Figura 14 ilustra uma modalidade da presente tecnologia no contexto de um sistema decodificador e um codificador de áudio baseado em AD PCM de sub-banda;
A Figura 15 ilustra um codificador de transformada de domínio exemplificativo que inclui um classificador de sinal;
A Figura 16 ilustra outro decodificador de transformada de domínio exemplificativo que utiliza uma medição de precisão para determinar uma correção de envelope;
A Figura 17 ilustra uma modalidade de um aparelho de ajuste de ganho de acordo com a presente tecnologia;
A Figura 18 ilustra uma modalidade de ajuste de ganho de acordo com a presente tecnologia em mais detalhe;
A Figura 19 é um fluxograma que ilustra o método de acordo com a presente tecnologia;
A Figura 20 é um fluxograma que ilustra uma modalidade do método de acordo com a presente tecnologia; e
A Figura 21 ilustra uma modalidade de uma rede de acordo com a presente tecnologia.

Descrição Detalhada

[0020] Na descrição a seguir, as mesmas designações de referência serão utilizadas para elementos que desempenham a mesma função ou uma função similar.

[0021] Antes de a presente tecnologia ser descrita em detalhe, a codificação de ganho formato será ilustrada com referência às Figuras 1 a 3.

[0022] A Figura 1 ilustra um esquema de quantização vetorial de ganho-força exemplificativo. A parte superior da Figura ilustra o lado do codificador. Um vetor de entrada x é encaminhado para um calculador de norma 10, que determina a norma de vetor (ganho) g, tipicamente a norma Euclidiana. Essa norma exata é quantizada em um quantizador de norma 12, e o inverso 1/g da norma quantizada g é encaminhado para um multiplicador 14 para dimensionar o vetor de entrada x em um formato. O formato é quantizado em um Quantizador de formato 16. As representações do ganho e do formato quantizados são encaminhadas para um multiplexador de fluxo de bits (mux) 18. Essas representações são ilustradas por linhas pontilhadas para indicar que as mesmas podem, por exemplo, constituir índices em tabelas (livros de código) ao invés dos valores quantizados reais.

[0023] A parte inferior da Figura 1 ilustra o lado do decodificador. Um demultiplexador de fluxo de bits (demux) recebe as representações de ganho e de formato. A representação de formato é encaminhada para um desquantizador de formato 22 e a representação de ganho é encaminhada a um desquantizador de ganho 24. O ganho g obtido é encaminhado para um multiplicador 26, em que o mesmo dimensiona o formato obtido, que resulta no vetor x reconstruído.

[0024] A Figura 2 ilustra um esquema de codificação e decodificação de transformada de domínio exemplificativo. A parte superior da Figura ilustra o lado do codificador. Um sinal de entrada é encaminhado para um transformador de frequência 30, por exemplo, baseado na Transformada Discreta do Cosseno Modificada (MDCT), para produzir a transformada de frequência X. A transformada de frequência X é encaminhada para um calculador de envelope 32, que determina a energia Ê(b) de cada banda de frequência b. Essas energias são quantizadas em energias Ê(b) em um quantizador de envelope 34. As energias quantizadas E(b) são encaminhadas para um normalizador de envelope 36, que dimensiona os coeficientes de banda de frequência b da transformada X com o inverso da energia Ê(b) quantizada correspondente do envelope. Os formatos dimensionados resultados são encaminhados para um quantizador de estrutura fina 38. As energias quantizadas Ê(b) são encaminhadas também para um alocador de bit 40, que aloca bits para quantização de estrutura fina para cada banda de frequência b. Conforme observado acima, a alocação de alocação de bit R(b) pode ser baseada em um modelo do sistema auditivo humano. As representações dos ganhos quantizados Ê(b) e os formatos quantizados correspondentes são encaminhados para o multiplexador de fluxo de bits 18.

[0025] A parte inferior da Figura 2 ilustra o lado do decodificador. O demultiplexador de fluxo de bits recebe as representações de ganho e de formato. As representações de ganho são encaminhadas para um desquantizador de envelope 42. As energias de envelope Ê(b) geradas são encaminhadas para um alocador de bit 44, que determina a alocação de R(b) dos formatos recebidos. As representações de formatos são encaminhadas para uma desquantizador de estrutura fina 46, que é controlado pela alocação de bit R(b). Os formatos decodificados são encaminhados para um conformador de envelope 48, que dimensiona os mesmos com as energias de envelope Ê(b) correspondentes para formar uma transformada de frequência reconstruída. Essa transformada é encaminhada para um transformador de frequência inverso 50, por exemplo, baseado na Transformada Discreta do Cosseno Modificada Inversa (IMDCT), que produz um sinal de saída que representa o áudio sintetizado.

[0026] As Figuras 3A a 3C ilustram a quantização vetorial de ganho-força descrita acima em um caso simplificado em que a banda de frequência b é representada pelo vetor bidimensional X(b) na Figura 3A. Esse caso é simples o suficiente para ser ilustrado em um desenho, mas geral o suficiente também para ilustrar o problema com quantização de ganho-formato (na prática, os vetores têm tipicamente 8 ou mais dimensões). O lado direito da Figura 3A ilustra uma representação de ganho-formato exata do vetor X(b) com um ganho Ê(b) e um formato (vetor de comprimento unitário) N’(b).

[0027] No entanto, conforme ilustrado na Figura 3B, o ganho Ê(b) exato é codificado em um ganho quantizado Ê(b) no lado do codificador. Visto que o inverso do ganho quantizado Ê(b) é utilizado para dimensionar o vetor X(b), o vetor dimensionado resultante Ñ(b) irá apontar para a direção correta, mas não será necessariamente de comprimento unitário. Durante a quantização de formato, o vetor dimensionado Ñ(b) é quantizado na forma quantizada Ñ (b). Nesse caso, a quantização é baseada em um esquema de codificação de pulso [3], que constrói o formato (ou direção) a partir de uma soma de pulsos de número inteiro sinalizados. Os pulsos podem ser adicionados no topo um do outro para cada dimensão. Isso significa que as posições de quantização de formato permitidas são representadas pelos pontos grandes nas grades retangulares ilustradas nas Figuras 3B a 3C. O resultado é que ao formato quantizado Ñ (b) não irá, em geral, coincidir com o formato (direção) de N(b) (e N’(b)).

[0028] A Figura 3C ilustra que a precisão da quantização de formato depende dos bits alocados R(b) ou equivalentemente do número total de pulsos disponível para a quantização de formato. Na parte esquerda da Figura 3C, a quantização de formato é baseada em 8 pulsos, em quanto que a quantização de formato na parte direita utiliza somente 3 pulsos (o exemplo na Figura 3B utiliza 4 pulsos).

[0029] Assim, observa-se que dependendo da precisão do quantizador de formato, o valor de ganho Ê(b) utilizado para reconstruir o vetor X(b) no lado do decodificador pode ser mais ou menos apropriado. De acordo com a presente tecnologia uma correção de ganho pode ser baseada em uma medição de precisão do formato quantizado.

[0030] A medição de precisão utilizada para corrigir o ganho pode ser derivada a partir de parâmetros já disponíveis no decodificador, mas a mesma pode depender também de parâmetros adicionais designados para a medição de precisão. Tipicamente, os parâmetros incluiriam o número de bits alocados para o vetor de formato e o próprio vetor de formato, mas os mesmos podem incluir também o valor de ganho associado ao vetor de formato e estatísticas pré-armazenadas sobre os sinais que são típicos para o sistema de codificação e decodificação. Uma vista geral de um sistema que incorpora uma medição de precisão e correção de ganho ou ajuste é mostrada na Figura 4.

[0031] A Figura 4 ilustra um decodificador de transformada de domínio exemplificativo 300 que utiliza uma medição de precisão para determinar uma correção de envelope. Para evitar desordem no desenho, somente o lado do decodificador é ilustrado. O lado do codificador pode ser implantado como na Figura 2. O novo recurso é um aparelho de ajuste de ganho 60. O aparelho de ajuste de ganho 60 inclui um medidor de precisão 62 configurado para estimar uma medição de precisão A(b) da representação de formato Ñ (b) e para determinar uma correção de ganho gc(b) com base na medição de precisão estimada A(b). O mesmo inclui também um ajustador de envelope 64 configurado para ajustar a representação de ganho Ê(b) com base na correção de ganho determinada.

[0032] Conforme indicado acima, a correção de ganho pode, em algumas modalidades, ser realizada sem gasto de bits adicionais. Isso é feito ao estimar a correção de ganho a partir de parâmetros já disponíveis no decodificador. Esse processo pode ser descrito como uma estimação da precisão do formato codificado. Tipicamente, essa estimação inclui derivar a medição de precisão A(b) das características de quantização de formatos que indicam a resolução da quantização de formatos.

Modalidade 1

[0033] Em uma modalidade, a presente tecnologia é utilizada em um sistema codificador/decodificador de áudio. O sistema é baseado em transformada e a transformada utilizada é a Transformada Discreta do Cosseno Modificada (MDCT) com uso de janelas senoidais com 50% de sobreposição. No entanto, compreende-se que qualquer transformada adequada para codificação por transformada pode ser utilizada junto com gestão de janelas e segmentação apropriadas.

Codificador da modalidade 1

[0034] O áudio de entrada extraído em quadros com uso de 50% de sobreposição e 30 janelado com uma janela senoidal simétrica. Cada quadro janelado é transformado em um espectro X de MDCT. O espectro é particionado em sub-bandas para processamento, em que as larguras de sub-banda não são uniformes. Os coeficientes espectrais de quadro m que pertencem à banda b são denotados X(b,m) e têm a largura de banda BW(b). Visto que a maioria das etapas de codificador e decodificador podem ser descritas em um quando, nós omitimos o índice de quadro a apenas utilizamos a notação X(b). As larguras de banda devem, preferencialmente, aumentar com o aumento da frequência para cumprir com a resolução de frequência do sistema auditivo humano. O valor quadrático médio (RMS) de cada banda é utilizado como um fator de normalização e é denotado Ê(b):

em que denota a transposição de X(b).

[0035] O valor RMS pode ser visto como o valor de energia por coeficiente. A sequência de fatores de normalização Ê(b) para b = 1, 2, ..., Nbandas forma o envelope do espectro de MDCT, em que Nbandas denota o número de bandas. Em seguida, a sequência é quantizada de modo a ser transmitida para o decodificador. Para garantir que a normalização possa ser revertida no decodificador, o envelope quantizado Ê(b) é obtido. Nessa modalidade exemplificativa, os coeficientes de envelope são quantizados de modo escalar no domínio de registros com uso de um tamanho do passo de 3 dB e os índices quantizadores são diferentemente codificados com uso de codificação de Huffman. O envelope quantizado é utilizado para normalização das bandas espectrais, isto é:

[0036] Observe que se o envelope não quantizado E(b) for utilizado para normalização, o 15 formato teria RMS = 1, isto é :

[0037] Ao utilizar o envelope quantizado Ê(b), o vetor de formato terá um valor RMS próximo a 1. Esse recurso será utilizado no decodificador para criar uma aproximação do valor de ganho.

[0038] A união dos vetores de formato N(b) normalizados forma a estrutura fina do espectro de MDCT. O envelope quantizado é utilizado para produzir uma alocação de bit R(b) para codificar os vetores de formato N(b) normalizados. O algoritmo de alocação de bit utiliza preferencialmente um modelo auditivo para distribuir os bits para as partes mais perceptivelmente relevantes. Qualquer esquema quantizador pode ser utilizado para codificar o vetor de formato. Comum em todos é que os mesmos podem ser projetados na suposição de que a entrada é normalizada, o que simplifica o projeto do quantizador. Nessa modalidade, a quantização de formato é feita com uso de um esquema de codificação de pulso que constrói a forma de síntese a partir de uma soma pulsos de número inteiro sinalizados [3]. Os pulsos podem ser adicionados no topo um do outro para formar pulsos de diferentes alturas. Nessa modalidade, a alocação de bit R(b) denota o número de pulsos atribuídos à banda b.

[0039] Os índices quantizadores da quantização de envelope e quantização de formato são multiplexados em um fluxo de bit para serem armazenados ou transmitidos para um decodificador.

Decodificador de modalidade 1

[0040] O decodificador demultiplexa os índices do fluxo de bit e encaminha os índices relevantes para cada módulo de decodificação. Primeiramente, o envelope quantizado Ê(b) é obtido. Em seguida, a alocação de bit da estrutura fina é derivada a partir do envelope quantizado com uso de uma alocação de bit idêntica àquela utilizada no codificador. Os vetores de formato N (b) da estrutura fina são decodificados com uso dos índices e da alocação de bit R(b) obtida.

[0041] Agora, antes de dimensionar a estrutura fina decodificada com o envelope, fatores de correção de ganho adicionais são determinados. Primeiramente, o ganho compatível com RMS é obtido como:

[0042] O fator gRMS(b) é um fator dimensionamento que normaliza o valor RMS para 1, isto

[0043] Nessa modalidade, nós procuramos minimizar o erro quadrático médio (MSE) da síntese:

com a solução

[0044] Visto que gMSE(b) depende do formato de entrada N(b), o mesmo não conhecido no decodificador. Nessa modalidade, o impacto é estimado com uso de uma medição de precisão. A proporção desses ganhos é por um fator de correção de ganho gc(b):

[0045] Quando a precisão da quantização de formato é boa, o fator de correção é próximo a 1, isto é:
Ñ(b)→N(b) ⇒ gc(b)→1

[0046] No entanto, quando a precisão de N (b) é baixa, gMSE(b) e gms(b) irão divergir. Nessa modalidade, em que o formato é codificado com uso de um esquema de codificação de pulso, uma taxa baixa irá deixar o vetor de formato esparso e dará uma estimação do ganho apropriado em termos de MSE. Para esse caso, gc(b) deve ser mais baixo que 1 para compensar o excesso. Ver as Figuras 5A e B para uma ilustração exemplificativa do caso de formato de pulso de taxa baixa. As Figuras 5A a B ilustram um exemplo de dimensionamento da síntese com fatores de ganho gMSE (Figura 5B) e (Figura 5A) quando o vetor de formato for um vetor de pulso esparso. O dimensionamento de gRMS dá pulsos que são altos demais em um sentido MSE.

[0047] Por outro lado, um sinal alvo esparso ou em pico pode ser bem representado por um formato de pulso. Embora a escassez do sinal de entrada possa não ser conhecida no estágio de síntese, a escassez do formato de síntese pode servir como um indicador da precisão do vetor de formato sintetizado. Uma maneira de medir a escassez do formato de síntese é a altura do pico máximo no formato. O raciocínio por trás disso é que um sinal de entrada esparso tem mais probabilidade de gerar picos altos no formato de síntese. Ver as Figuras 7A a B para uma ilustração de como a altura do pico pode indicar a precisão de dois vetores de pulso de taxa idêntica. Na Figura 7A, há 5 pulsos disponíveis (R(b) = 5) para representar o formato em traços. Visto que o formato é um tanto constante, os 5 pulsos distribuídos gerados por codificação de altura idêntica 1, isto é, pmax = 1. Na Figura 7B, há também 5 pulsos disponíveis para representar o formato em traços. No entanto, nesse caso o formato é ou esparso ou em pico, e o maior pico é representado por 3 pulsos no topo um do outro, isto é, pmax = 3. Isso indica que a correção de ganho gc(b) depende de uma escassez estimada pmax do formato quantizado.

[0048] Conforme observado acima, o formato de entrada N(b) não é conhecido pelo decodificador. Visto que o gMSE(b) depende do formato de entrada N(b), isso significa que a correção de ganho ou a compensação gc(b) pode, na prática, não ser baseado na equação ideal (8). Nessa modalidade, a correção de ganho gc(b) é, ao invés disso, decidida com base na taxa de bits em termos do número de pulsos R(b), da altura do maior pulso no vetor de formato pmax(b) e da banda de frequência b, isto é:
gc(b) = f(R(b),p,max(b),b) (10)

[0049] Observou-se que as taxas mais baixas geralmente necessitam de uma atenuação no ganho para minimizar o MSE. A taxa de dependência pode ser implantada como uma tabela de pesquisa t(R(b)) que é treinada com dados de sinal de áudio relevantes. Uma tabela de pesquisa exemplificativa pode ser vista na Figura 7. Visto que os vetores de formato nessa modalidade têm larguras diferentes, a taxa pode ser preferencialmente expressa como um número de pulsos por amostra. Dessa maneira, a mesma taxa que depende da atenuação pode ser utilizada para todas as larguras de banda. Uma solução alternativa, que é utilizada nessa modalidade é utilizar um tamanho do passo T na tabela dependendo da largura da banda. Aqui, nós utilizamos 4 larguras de banda diferentes em 4 grupos diferentes e, portanto, necessitam de 4 tamanhos do passo. Um exemplo de tamanhos de passo é encontrado na Tabela 1. Utilizando o tamanho do passo, o valor de pesquisa é obtido com uso de uma operação de arredondamento t([R(b) 71), em que [ ] representa o arredondamento para o número inteiro mais próximo.

[0050] Outra tabela de pesquisa exemplificativa é dada na Tabela 2.

[0051] A escassez estimada pode ser implantada como outra tabela de pesquisa u(R(b), pmax (6)) baseada tanto no número de pulsos R(b) como na altura do pulso máximo pmax(b). Uma tabela de pesquisa exemplificativa é mostrada na Figura 8. A tabela de pesquisa u serve como uma medição de precisão A(b) para a banda b, isto é:
A(b)≅ u(R(b),pmax(b)) (11)

[0052] Observou-se que a aproximação de gMSE foi mais adequada para a faixa de frequência mais baixa de uma perspectiva perceptiva. Para as frequências mais altas, a estrutura fina se torna mesmo percentualmente importante e a compatibilidade da energia ou valor RMS se torna vital. Por essa razão, a atenuação de ganho pode ser aplicada somente abaixo de um certo número de banda bTHR. Nesse caso, a correção de ganho gc(b) irá ter uma dependência explícita da banda de frequência b. A função de correção de ganho resultante pode, nesse caso, ser definida como:

[0053] A descrição, até esse ponto, pode ser utilizada também para descrever os recursos essenciais da modalidade exemplificativa da Figura 4. Assim, na modalidade da Figura 4, a síntese final R(b) é calculada como:

[0054] Como uma alternativa, a função u(R(b),pmax(b)) pode ser implantada como uma função linear da altura de pulso máxima pmax e da taxa de bits alocados R(b), por exemplo, como:
u(R(b),pmax(b)=k.(Pmax(b)-R(b))+1 (14)
em que a inclinação k é determinada por:

[0055] A função depende do parâmetro para ajuste amin que oferece o fator de atenuação inicial para R(b) = 1 e pmax(b) = 1. A função é ilustrada na Figura 9, com o parâmetro para ajuste amin = 0.41. Tipicamente, umax e [0.7, 1.4] e umin e[0, umax]. Na equação (14) u é linear na diferença entre pmax(b) e R(b). Outra possibilidade é ter fatores de inclinação diferentes para pmax(b) e R(b).

[0056] A taxa de bits para uma dada banda pode alterar drasticamente uma dada banda entre os quadros adjacentes. Isso pode levar a variações rápidas da correção de ganho. Tais variações são especialmente críticas quando o envelope estiver bastante estável, isto é, as alterações totais entre os quadros são bem pequenas. Isso frequentemente acontece com sinais de música que tipicamente têm mais envelopes de energia estáveis. Para evitar que a atenuação de ganho introduza instabilidade, uma adaptação adicional pode ser adicionada. Uma vista geral de tal modalidade é dada na Figura 10, em que um medidor de estabilidade 66 foi adicionado ao aparelho de ajuste de ganho 60 no decodificador 300.

[0057] A adaptação pode, por exemplo, ser baseada em uma medição de estabilidade do envelope Ê(b). Um exemplo de tal medição é computar a distância quadrada Euclidiana entre vetores de envelope de registro2 (log2) adjacentes:

[0058] Aqui, AE(m) denota a distancia qudarada Euclidiana entre os vetores de envelope para o quadro m e quadro m-1. A medição de estabilidade pode ser também filtrada por filtro passa-baixo para ter uma adaptação sem problemas:
△Ê[m) = a△E(m) +(1 - a)△E(m - 1) (17)

[0059] Um valor adequado para o fator de esquecimento pode ser 0.1. A medição de estabilidade sem problemas pode então ser utilizada para criar uma limitação da atenuação com uso, por exemplo, de uma função sigmoide tal como:

em que os parâmetros podem ser ajustados para C1 = 6, C2 = 2 e C3 =1.9. Deve-se observar que esses parâmetros devem ser vistos como exemplos, enquanto que os valores reais podem ser escolhidos com mais libertada. Por exemplo:
C1 ∊[1, 10]
C2 ∊ [1, 4]
C3 ∊ [-5, 10]

[0060] A Figura 11 ilustra um exemplo de uma função de mapeamento da medição de estabilidade △ Ê (m)para o fator de limitação de ajuste de ganho gmin· A expressão acima para gmin é preferencialmente implantada como uma tabela de pesquisa ou com uma função de passo simples, tal como:

[0061] A variável ae nmitaçao ae atenuaçao gmin G [0,1] pode ser utilizada para criar uma modificação de ganho com estabilidade adaptada gc(b) como:gc(b)=max(gc(b),gmin) (20)

[0062] Após a estimação do ganho, a síntese final X(b) é calculada como:

[0063] Nas variações descritas da modalidade 1, a união dos vetores sintetizados R(b) forma o espectro sintetizado R, que é processado adicionalmente com uso da transformada 15 MDCT inversa, janelado com a janela de seno simétrica e adicionado à síntese de saída com uso da estratégia de sobreposição-e-adição.

Modalidade 2

[0064] Em outra modalidade exemplificativa, o formato é quantizado com uso de um banco de filtro de Filtros Espelhados em Quadratura (QMF) e um esquema de Modulação por Código de Pulso Diferencial Adaptável (ADPCM) para a quantização de formato. Um exemplo de um esquema de ADPCM de sub-banda é o ITU-T G.722 [4]. O sinal de áudio de entrada é preferencialmente processado em segmentos. Um esquema de ADPCM exemplificativo é mostrado na Figura 12, com um tamanho do passo S adaptável. Aqui, o tamanho do passo adaptável do Quantizador de formato serve como uma medição de precisão que já está presente no decodificador e não necessita de sinalização adicional. No entanto, o tamanho de passo de quantização precisa ser extraído dos parâmetros utilizados pelo processo de decodificação e não da própria forma sintetizada. Uma vista geral dessa modalidade é mostrada na Figura 14. No entanto, antes de essa modalidade ser descrita em detalhe, um esquema de ADPCM exemplificativo com base em um banco de filtros de QMF será descrito com referência às Figuras 12 e 13.

[0065] A Figura 12 ilustra um exemplo de um sistema codificador e decodificador ADPCM com um tamanho de passo adaptável de quantização. Um quantizador ADPCM 70 inclui um somador 72, que recebe um sinal de entrada e subtrai uma estimação do sinal de entrada anterior para formar um sinal de erro e. O sinal de erro é quantizado em um quantizador 74, a saída desse é encaminhada para o multiplexador de fluxo de bits 18 e também para um calculador de tamanho de passo 76 e um desquantizador 78. O calculador tamanho do passo 76 adapta o tamanho de passo de quantização S para obter um erro aceitável. O tamanho de passo de quantização S é encaminhado para o multiplexador de fluxo de bits 18 e também controla o quantizador 74 e o desquantizador 78. O desquantizador 78 emite uma estimação de erro ê para um somador 80. A outra entrada do somador 80 recebe uma estimação do sinal de entrada que foi atrasado pelo elemento de atraso 82. Isso forma uma estimação atual do sinal de entrada, que é enviado para o elemento de atraso 82. O sinal atrasado também é encaminhado para o calculador tamanho do passo 76 e para .com uma mudança de sinal) o somador 72 para formar o sinal de erro e.

[0066] Um desquantizador ADPCM 90 inclui um decodificador de tamanho do passo 92, que decodifica o tamanho de passo de quantização S recebido e encaminha o mesmo para um desquantizador 94. O desquantificador 94 decodifica a estimação de erro e, que é encaminhada para um somador 98, a outra entrada do mesmo recebe o sinal de saída do somador atrasado por um elemento de atraso 96.

[0067] A Figura 13 ilustra um exemplo no contexto de um sistema codificador e decodificador de áudio com base em ADPCM de sub-banda. O lado do codificador é similar ao lado do codificador da modalidade da Figura 2. As diferenças essenciais são que o transformador de frequência 30 foi substituído por um banco de filtro de análise QMF (Filtro Espelhado em Quadratura) 100 e que o quantizador de estrutura fina 38 foi substituído por um quantizador ADPCM, tal como o quantizador 70 na Figura 12. O lado do decodificador é similar ao lado do decodificador da modalidade da Figura 2. As diferenças essenciais são que o transformador de frequência inverso 50 foi substituído por um banco de filtro de síntese de QMF 102 e que o desquantizador de estrutura fina 46 foi substituído por um desquantizador ADPCM, tal como o desquantizador 90 na Figura 12.

[0068] A Figura 14 ilustra uma modalidade da presente tecnologia no contexto de um sistema codificador e decodificador de áudio com base em ADPCM de sub-banda. Para evitar desordem no desenho, somente o lado do decodificador 300 é ilustrado. O lado do codificador pode ser implantado como na Figura 13.

Codificador de modalidade 2

[0069] O codificador aplica o banco de filtros QMF para obter os sinais de sub-banda. Os valores RMS de cada sinal de sub-banda são calculados e os sinais de sub-banda são normalizados. O envelope E(b), alocação de bit R(b) de sub-banda e vetores de formato normalizados N(b) são obtidos como na modalidade 1. Cada sub-banda normalizada alimente o quantizador ADPCM. Nessa modalidade, o ADPCM opera de um modo adaptável avançado, e determina um passo de dimensionamento S(b) a ser utilizado para a sub-banda b. O passo de dimensionamento é escolhido para minimizar o MSE ao longo do quadro de sub-banda. Nessa modalidade, o passo é escolhido ao tentar todos os passos possíveis e selecionar aquele que oferece o MSE mínimo:

em que Q(x,s) é a função de quantização ADPCM da variável x com uso de um tamanho do passo de s. O tamanho do passo selecionado pode ser utilizado para gerar ao formato quantizado:
N(b)=QN(b),S(b)) (23)

[0070] Os índices quantizadores da quantização de envelope e da quantização de formato são multiplexados em um fluxo de bit a ser armazenado ou transmitido para um decodificador.

Decodificador de modalidade 2

[0071] O decodificador demultiplexa os índices do fluxo de bit e encaminha os índices relevantes para cada módulo de decodificação. O envelope quantizado Ê(b) e a alocação de bit R(b) são obtidos como na modalidade 1. Os vetores de formato N (b) sintetizados são obtidos do desquantizador ou decodificador ADPCM junto com os tamanhos de passo S(b) adaptáveis. Os tamanhos de passo indicam uma precisão do vetor de formato quantizado, em que um tamanho do passo menor corresponde a uma precisão maior e vice versa. Uma implantação possível é fazer a precisão A(b) inversamente proporcional ao tamanho do passo com uso de um fator de proporcionalidade Y:

em que Y deve ser ajustado para alcançar a relação desejada. Uma escolha possível é Y = Smin em que Smin é o tamanho do passo mínimo, que oferece precisão 1 para S(b) =in.

[0072] O fator de correção de ganho gc pode ser obtido com uso de uma função de mapeamento:
gc(b) = h(Rb),b) . A(b) (25)

[0073] A função de mapeamento h pode ser implantada como uma tabela de pesquisa com base na taxa R(b) e banda de frequência b. Essa tabela pode ser definida por agrupamento dos valores de correção de ganho ideais go,sdgRMs por esses parâmetros e computação da entrada de tabela ao calcular a média dos valores de correção de ganho ideais para cada agrupamento.

[0074] Após a estimação da correção de ganho, a síntese de sub-banda R(b) é calculada como:

[0075] O quadro de áudio de saída é obtido ao aplicar o banco de filtros QMF de síntese às sub-bandas.

[0076] Na modalidade exemplificativa ilustrada na Figura 14, o medidor de precisão 62 no aparelho de ajuste de ganho 60 recebe o tamanho de passo de quantização S(b) ainda não codificado diretamente do fluxo de bit recebido. Uma alternativa, conforme observado acima, é decodificar o mesmo no desquantizador ADPCM 90 e encaminhar o mesmo na forma decodificada para o medidor de precisão 62.

Alternativas adicionais

[0077] A medição de precisão pode ser complementada com um parâmetro de classe de sinal derivado no codificador. Isso pode, por exemplo, ser um discriminador de fala/música ou um estimador de nível de ruído de fundo. Uma vista geral de um sistema que incorpora um classificador de sinal é mostrada nas Figuras 15 e 16. O lado do codificador na Figura 15 é similar ao lado do codificador na Figura 2, mas é dotado de um classificador de sinal 104.

[0078] O lado do decodificador 300 na Figura 16 é similar ao lado do decodificador na Figura 4, mas é dotado de uma entrada de classe de sinal adicional para o medidor de precisão 62.

[0079] A classe de sinal pode ser incorporada na correção de ganho, por exemplo, ao ter uma adaptação dependente de classe. Se assumirmos que as classes de sinal são fala ou música correspondentes aos valores C = 1 e C = 0 respectivamente, podemos compelir o ajuste de ganho a ser eficaz somente durante a fala, isto é:

[0080] Em outra modalidade alternativa, o sistema pode agir como um preditor junto com uma compensação ou correção de ganho parcialmente codificada. Nessa modalidade, a medição de precisão é utilizada para aprimorar a previsão da correção de ganho ou compensação de modo que o erro de ganho restante possa ser codificado com menos bits.

[0081] Ao criar o fator gc de compensação ou de correção de ganho, pode-se querer fazer uma troca entre compatibilizar a energia ou valor RMS e minimizar o MSE. Em alguns casos, compatibilizar a energia se torna mais importante que uma forma de onda precisa.

[0082] Isso é verdadeiro, por exemplo, para frequências mais altas. Para acomodar isso, a 30 correção de ganho final pode, em uma modalidade adicional, ser formada com uso de uma soma ponderada dos valores de ganho diferentes:

em que gc é a correção de ganho obtida de acordo com uma das abordagens descritas acima. O fator de ponderação p pode ser adaptável a, por exemplo, frequência, taxa de bits ou tipo de sinal.

[0083] As etapas, funções, procedimentos e/ ou blocos descritos no presente documento podem ser implantados em hardware que utiliza qualquer tecnologia convencional, tal como tecnologia de circuito distinto ou circuito integrado, que tanto conjunto de circuitos eletrônicos de finalidade geral quanto um conjunto de circuitos de aplicação específica.

[0084] Alternativamente, pelo menos algumas das etapas, funções, procedimentos elou blocos descritos no presente documento podem ser implantados em software para execução de um dispositivo de processamento adequado, tal como um microprocessador, Processador Digital de Sinais (DSP) e/ou qualquer dispositivo lógico programável adequado, tal como um dispositivo de Arranjo de Portas Programável em Campo (FPGA).

[0085] Deve-se compreender também que é possível reutilizar as capacidades de processamento geral. Isso pode, por exemplo, ser feito por reprogramação do software existente ou por adição de novos componentes de software.

[0086] A Figura 17 ilustra uma modalidade de um aparelho de ajuste de ganho 60 de acordo com a presente tecnologia. Essa modalidade é baseada em um processador 110, por exemplo, um microprocessador, que executa um componente de software para estimar a medição de precisão 120, um componente de software para determinar a correção de ganho 130 e um componente de software para ajustar a representação de ganho 140. Esses componentes de software são armazenados na memória 150. O processador 110 se comunica com a memória por um sistema de barramento. Os parâmetros N (b), R(b), Ê(b) são recebidos por um controlador de entrada/saída (EIS) 160 que controla um barramento de EIS, ao qual o processador 110 e a memória 150 são conectados. Nessa modalidade, os parâmetros recebidos pelo controlador EIS 160 são armazenados na memória 150, onde os mesmos são processados por componentes de software. Os componentes de software 120, 130 podem implantar a funcionalidade do bloco 62 nas modalidades descritas acima. O componente de software 140 pode implantar a funcionalidade do bloco 64 nas modalidades descritas acima. A representação de ganho Ê(b) ajusta obtida do componente de software 140 é emitida da memória 150 pelo controlador de EIS 160 pelo barramento de EIS.

[0087] A Figura 18 ilustra uma modalidade de ajuste de ganho de acordo com a presente tecnologia em mais detalhe. Um estimador de atenuação 200 é configurado para utilizar a alocação de bit R(b) recebida para determinar uma atenuação de ganho. O estimador de atenuação 200 pode, por exemplo, ser implantada como uma tabela de pesquisa ou em software baseado em uma equação linear tal como a equação (14) acima. A alocação de bit 35 R(b) também é encaminhada para um estimador de precisão de formato 202, que também recebe uma escassez estimada pmax(b) do formato quantizado, por exemplo, representada pela altura do pulso mais alto na representação de formato Ñ (b). O estimador de precisão de formato 202 pode, por exemplo, ser implantado como uma tabela de pesquisa. A atenuação estimada e a precisão de formato estimada A(b) são multiplicadas em um multiplicador 204. Em uma modalidade desse produto, t(R(b))-A(b) forma diretamente a correção de ganho gc(b). Em outra modalidade, a correção de ganho gc(b) é formada de acordo com a equação (12) acima. Isso necessita de uma chave 206 controlada por um comparador 208, que determina se a banda de frequência b é menor que um limite de frequência bTHR. Se esse é o caso, então gc(b) é igual t(R(b))-A(b). Ou então, gc(b) é ajustado para 1. A correção de ganho gc(b) é encaminhada para outro multiplicador 210, a outra entrada desse recebe o ganho compatível com RMS gRMA(b). O ganho compatível com RMS gRMA(b) é determinado por um calculador de ganho compatível com RMS 212 baseado na representação de formato Ñ (b) recebida e largura de banda BW(b) correspondente, ver equação (4) acima. O produto resultante é encaminhado para outro multiplicador 214, que recebe também a representação de formato Ñ (b) e a representação de ganho Ê(b), e forma a síntese R(b).

[0088] A detecção de estabilidade descrita com referência à Figura 10 pode ser incorporada à modalidade 2 assim como as outras modalidades descritas acima.

[0089] A Figura 19 é um fluxograma que ilustra o método de acordo com a presente tecnologia. A etapa S1 estima uma medição de precisão A(b) da representação de formato Ñ (b). A medição de precisão pode, por exemplo, ser derivada das características de quantização de formatos, tais como R(b), S(b), que indicam a resolução da quantização de 20 formatos. A etapa S2 determina uma correção de ganho, tal como gc(b), gc(b), g’c (b), com base na medição de precisão estimada. A etapa S3 ajusta a representação de ganho Ê(b) com base na correção de ganho determinada.

[0090] A Figura 20 é um fluxograma que ilustra uma modalidade do método de acordo com a presente tecnologia, em que a forma foi codificada com uso de um esquema de codificação de pulso e a correção de ganho depende de uma escassez estimada pmax(b) do formato quantizado. Supõe-se que uma medição de precisão já foi determinada em uma S1 (Figura 19). A etapa S4 estima uma atenuação de ganho que depende da taxa de bits alocados. A etapa S5 determina uma correção de ganho com base na medição de precisão estimada e a atenuação de ganho estimada. Em seguida, o procedimento procede para a etapa S3 (Figura 19) para ajustar a representação de ganho.

[0091] A Figura 21 ilustra uma modalidade de uma rede de acordo com a presente tecnologia. A mesma inclui um decodificador 300 dotado de um aparelho de ajuste de ganho de acordo com a presente tecnologia. Essa modalidade ilustra um terminal de rádio, mas outros nós de rede são possíveis. Por exemplo, se voz sobre IP (Protocolo de Internet) for utilizado na rede, os nós podem compreender computadores.

[0092] No nó de rede na Figura 21, uma antena 302 recebe um sinal de áudio codificado. Uma unidade de rádio 304 transforma esse sinal em parâmetros de áudio, que são encaminhados para o decodificador 300 para gerar um sinal de áudio digital, conforme descrito com referência às várias modalidades acima. O sinal de áudio digital é então convertido por conversor D/A e amplificado em uma unidade 306 e finalmente encaminhado para um alto-falante308.

[0093] Apesar de a descrição acima ter como foca a codificação de áudio com base em transformada, os mesmos princípios podem ser aplicados à codificação de áudio de domínio de tempo com representações de ganho e de formato separadas, por exemplo, codificação de CELP.

[0094] Será compreendido por aqueles versados na técnica que várias modificações e 10 mudanças podem ser feitas na presente tecnologia sem separar do escopo da mesma, que é definido pelas reivindicações anexas.
Abreviações
Modulação por Código de Pulso Diferencial Adaptável - AD PCM
Multitaxas Adaptáveis - AMR
Multitaxas Adaptáveis de Banda Larga - AMR-WB
Predição Linear com Excitação de Código - CELP
Sistema Global de Comunicações Móveis - Taxa Plena
Melhorada - GSM-EFR
Processador Digital de Sinal - DSP
Arranjo de Portas Programável em Campo - FPGA
Protocolo de Internet - IP
Transformada Discreta do Cosseno Modificada - MDCT
Erro quadrático médio - MSE
Filtro Espelhado em Quadratura - QMF
Quadrático Médio - RMS
Quantização vetorial - QV

Claims

Método de ajuste de ganho na decodificação de áudio que foi codificado com representações de formato e ganho separadas, caracterizado pelo fato de incluir as etapas de:
estimar (S1) uma medição de precisão (A(b)) da representação de formato (Ñ (b)) para uma banda de frequência (b), a banda de frequência (b) compreendendo uma pluralidade de coeficientes, em que o formato foi codificado usando um esquema de codificação de vetor de pulso em que os pulsos podem ser adicionados no topo um do outro para formar pulsos de alturas diferentes, e a medição de precisão (A(b)) é baseada em um número de pulsos (R(b)) e uma altura de um pulso máximo (pmax(b));
determinar (S2) com base na medição de precisão estimada (A(b)) uma correção de ganho (gc(b));
ajustar (S3) a representação de ganho (Ê(b)) com base na correção de ganho determinada.
Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a correção de ganho (gc(b)) também depende da banda de frequência (b).
Método, de acordo com qualquer uma das reivindicações 1 a 2, caracterizado pelo fato de que inclui as etapas de:
estimar (S4) uma atenuação de ganho (t(R(b)) que depende de taxa de bits alocada (R(b));
determinar (S5) a correção de ganho (gc(b)) com base na medição de precisão estimada (A(b)) e na atenuação de ganho estimada (t(R(b))).
Método, de acordo com a reivindicação 3, caracterizado pelo fato de que a atenuação de ganho (t(R(b))) é estimada a partir de uma tabela de pesquisa (200).
Método, de acordo com a reivindicação 3 ou 4, caracterizado pelo fato de que inclui a etapa de estimar (S5) a medição de precisão de formato (A(b)) a partir de uma tabela de pesquisa (202).
Método, de acordo com a reivindicação 3 ou 4, caracterizado pelo fato de que inclui a etapa de estimar a medição de precisão (A(b)) a partir de uma função linear da altura de pulso máxima (pmax) e da taxa de bits alocada (R(b)).
Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que inclui a etapa de adaptar a correção de ganho (gc(b)) a uma classe de sinal de áudio determinada.
Aparelho de ajuste de ganho (60) para uso na decodificação de áudio que foi codificado com representações de formato e ganho separadas, caracterizado pelo fato de que inclui:
um medidor de precisão (62) configurado para estimar uma medição de precisão (A(b)) da representação de formato (Ñ (b)) para uma banda de frequência (b), a banda de frequência (b) compreendendo uma pluralidade de coeficientes, em que o formato foi codificado usando um esquema de codificação de vetor de pulso em que os pulsos podem ser adicionados no topo um do outro para formar pulsos de alturas diferentes, e a medição de precisão (A(b)) é baseada em um número de pulsos (R(b)) e uma altura de um pulso máximo (pmax(b)), e para determinar uma correção de ganho (gc(b)), em que a correção de ganho (gc(b)) é determinada com base na medição de precisão estimada (A(b));
um ajustador de envelope (64) configurado para ajustar a representação de ganho (Ê(b)) com base na correção de ganho determinada.
Aparelho, de acordo com a reivindicação 8, caracterizado pelo fato de que a correção de ganho (gc(b)) também depende da banda de frequência (b).
Aparelho, de acordo com a reivindicação 8 ou 9, caracterizado pelo fato de que o medidor de precisão inclui:
um estimador de atenuação (200) configurado para estimar uma atenuação de ganho (t(R(b))) que depende de taxa de bits alocados (R(b));
um estimador de precisão de formato (202) configurado para estimar a medição de precisão (A(b));
um corretor de ganho (204, 206, 208) configurado para determinar uma correção de ganho (gc(b)) com base na medição de precisão estimada (A(b)) e na atenuação de ganho estimada (t(R(b))).
Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que o estimador de atenuação (200) é implantado como uma tabela de pesquisa.
Aparelho, de acordo com a reivindicação 10 ou 11, caracterizado pelo fato de que o estimador de precisão de formato (202) é uma tabela de pesquisa.
Aparelho, de acordo com a reivindicação 10 ou 11, caracterizado pelo fato de que o estimador de precisão de formato (202) é configurado para estimar a medição de precisão (A(b)) a partir de uma função linear da altura de pulso máxima (pmax) e da taxa de bits alocados (R(b)).
Aparelho, de acordo com qualquer uma das reivindicações 8 a 13, caracterizado pelo fato de que o medidor de precisão (62) é configurado para adaptar a correção de ganho (gc(b)) a uma classe de sinal de áudio determinada.
Decodificador, caracterizado pelo fato de que inclui um aparelho de ajuste de ganho (60) conforme definido em qualquer uma das reivindicações 8 a 14.
Nó de rede, caracterizado por incluir um decodificador como definido na reivindicação 15.