BR112017001631B1 - Aparelho e método para processamento de um sinal de áudio utilizando um pós-filtro harmônico - Google Patents

Aparelho e método para processamento de um sinal de áudio utilizando um pós-filtro harmônico Download PDF

Info

Publication number
BR112017001631B1
BR112017001631B1 BR112017001631-1A BR112017001631A BR112017001631B1 BR 112017001631 B1 BR112017001631 B1 BR 112017001631B1 BR 112017001631 A BR112017001631 A BR 112017001631A BR 112017001631 B1 BR112017001631 B1 BR 112017001631B1
Authority
BR
Brazil
Prior art keywords
filter
value
audio signal
tone
post
Prior art date
Application number
BR112017001631-1A
Other languages
English (en)
Other versions
BR112017001631A2 (pt
Inventor
Ravelli Emmanuel
Helmrich Christian
Markovic GORAN
Neusinger Matthias
Disch Sascha
Jander Manuel
Dietz Martin
Original Assignee
Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP14178820.8A external-priority patent/EP2980799A1/en
Application filed by Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V filed Critical Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V
Publication of BR112017001631A2 publication Critical patent/BR112017001631A2/pt
Publication of BR112017001631B1 publication Critical patent/BR112017001631B1/pt

Links

Abstract

Um aparelho para processamento de um sinal de áudio, tendo associado a ele uma informação de defasagem de tom e uma informação de ganho, compreende um conversor de domínio (100) para conversão de uma primeira representação de domínio do sinal de áudio em uma segunda representação de domínio do sinal de áudio e um pós-filtro harmônico (104) para filtragem da segunda representação de domínio do sinal de áudio, caracterizado pelo pós-filtro se basear em uma função de transferência, compreendendo um numerador e um denominador, em que o numerador compreende um valor de ganho indicado pela informação de ganho e em que o denominador compreende uma parte do número inteiro de um defasagem de tom indicado pela informação de defasagem de tom e um filtro de derivações múltiplas, dependendo de uma parte fracionária do defasagem de tom.

Description

RELATÓRIO DESCRITIVO
[0001] A presente invenção refere-se ao processamento de áudio e, particularmente, ao processamento de áudio utilizando um pós-filtro harmônico.
[0002] Codecs de áudio com base em transformada geralmente introduzem ruído inter-harmônico ao processar os sinais de áudio harmônicos, particularmente em baixas taxas de bit.
[0003] Esse efeito é adicionalmente agravado quando o codec de áudio com base em transformada opera em baixo atraso devido à pior resolução de frequência e/ou seletividade introduzida por um tamanho de transformada mais curto e/ou uma pior resposta de frequência de janela.
[0004] Esse ruído inter-harmônico é geralmente percebido como uma perturbação muito irritante, reduzindo significantemente o desempenho do codec de áudio com base em transformada, quando subjetivamente avaliado no material de áudio altamente tonal.
[0005] Existem diversas soluções para melhorar a qualidade subjetiva dos codecs de áudio com base em transformada em sinais de áudio harmônicos. Todos eles se baseiam em técnicas com base em previsão, quer no domínio de transformada ou no domínio de tempo.
[0006] Exemplos de abordagens no domínio de transformada são: • [1] H. Fuchs, “Improving MPEG Audio Coding by Backward Adaptive Linear Stereo Prediction”, 99a Convenção AES, Nova York 1995, pré-impressão 4086. • [2] L. Yin, M. Suonio, M. Vããnãnen, “A New Backward Predictor for MPEG Audio Coding”, 103a Convenção AES, Nova York 1997, pré-impressão 4521. • [3] Juha Ojanperã, Mauri Vããnãnen, Lin Yin, “Long Term Predictor for Transform Domain Perceptual Audio Coding”, 107a Convenção AES, Nova York 1999, pré- impressão 5036
[0007] Exemplos de abordagens no domínio de tempo são: • [4] Philip J. Wilson, Harprit Chhatwal, “Adaptive transform coder having long term predictor”, Patente Norte-americana n° 5.012.517, de 30 de abril de 1991. • [5] Jeongook Song, Chang-Heon Lee, Hyen- O Oh, Hong-Goo Kang, “Harmonic Enhancement in Low Bitrate Audio Coding Using and Efficient Long-Term Predictor”, EURASIP Journal on Advances in Signal Processing 2010. • [6] Juin-Hwey Chen, “Pitch-based pre-filtering and post-filtering for compression of audio signals”, Patente Norte-americana n° 8.738.385, de 27 de maio de 2014.
[0008] É um objeto da presente invenção fornecer um conceito melhorado para processamento de um sinal de áudio.
[0009] Esse objeto é obtido por um aparelho para processamento de um sinal de áudio de acordo com a reivindicação 1, um método para processamento de um sinal de áudio de acordo com a reivindicação 12, um sistema de acordo com a reivindicação 13, um método para operação de um sistema de acordo com a reivindicação 17 ou um programa de computador de acordo com a reivindicação 18.
[0010] A presente invenção se baseia na constatação que a qualidade subjetiva de um sinal de áudio pode ser substancialmente melhorada utilizando um pós-filtro harmônico, tendo uma função de transferência e compreendendo um numerador e um denominador. O numerador da função de transferência compreende um valor de ganho indicado por uma informação de ganho transmitida e o denominador compreende uma parte do número inteiro de uma defasagem de tom indicada por uma informação de defasagem de tom e um filtro de derivações múltiplas dependendo de uma parte fracionária da defasagem de tom.
[0011] Assim, é possível remover o ruído inter- harmônico introduzido por um decodificador de áudio de mudança de domínio típico como uma perturbação. Esse pós- filtro harmônico é particularmente útil, pois depende da informação transmitida, ou seja, o ganho de passo e a defasagem de tom que estão disponíveis em qualquer local em um decodificador, visto que essa informação é recebida de um codificador correspondente através de um sinal de entrada de decodificador. Além disso, a pós-filtragem é de precisão específica devido ao fato que não apenas a parte do número inteiro da defasagem de tom é explicada, mas, além disso, a parte fracionária da defasagem de tom é explicada. A parte fracionária da defasagem de tom pode ser particularmente introduzida no pós-filtro através de um filtro de derivações múltiplas que tem coeficientes de filtro de fato dependendo da parte fracionária da defasagem de tom. Esse filtro pode ser implementado como um filtro FIR ou também pode ser implementado como qualquer outro filtro como um filtro IIR ou uma implementação de filtro diferente. Qualquer mudança de domínio como uma mudança de tempo em frequência ou uma mudança de LPC para tempo ou uma mudança de tempo em LPC ou uma mudança de frequência em tempo pode ser vantajosamente melhorada pelo conceito de pós-filtro da invenção. Preferivelmente, entretanto, a mudança de domínio é uma mudança de frequência em domínio de tempo.
[0012] Assim, as aplicações da presente invenção reduzem o ruído inter-harmônico introduzido por um codec de áudio de transformada com base em um previsor de longo prazo que trabalha no domínio de tempo. Ao contrário de [04] - [6], onde tanto o pré-filtro antes da codificação de transformada quanto um pós-filtro após a decodificação de transformada são utilizados, a presente invenção preferivelmente aplica um somente pós-filtro.
[0013] Além disso, observou-se que o pré-filtro empregado em [04] - [6] tem a tendência de introduzir instabilidades no sinal de entrada dado ao codificador de transformada. Essas instabilidades se devem às mudanças no ganho e/ou defasagem de tom de estrutura para estrutura. O codificador de transformada tem dificuldades na codificação de tais instabilidades, particularmente em baixas taxas de bit, e introduzirá às vezes ainda mais ruído no sinal decodificado em comparação a uma situação sem qualquer pré- ou pós-filtro.
[0014] Preferivelmente, a presente invenção não emprega qualquer pré-filtro e, portanto, evita completamente os problemas envolvidos com um pré-filtro.
[0015] Além disso, a presente invenção se refere a um pós-filtro que é aplicado no sinal decodificado após a codificação de transformada. Esse pós-filtro é com base em um filtro de previsão de longo prazo que explica a parte do número inteiro e a parte fracionária da defasagem de tom que reduz o ruído inter-harmônico introduzido pelo codec de áudio de transformada.
[0016] Para melhor robustez, os parâmetros de pós- filtro, defasagem de tom e ganho de passo são estimados no lado do codificador e transmitidos no fluxo contínuo de dados. Entretanto, em outras implementações, a defasagem de tom e o ganho de passo também podem ser estimados no lado do decodificador com base no sinal de áudio decodificado obtido por um decodificador de áudio compreendendo um conversor de tempo-frequência para conversão de uma representação de frequência do sinal de áudio em uma representação de domínio de tempo do sinal de áudio.
[0017] Em uma aplicação preferida, o numerador adicionalmente compreende um filtro de derivações múltiplas para uma parte fracionária zero da defasagem de tom a fim de compensar uma inclinação espectral introduzida pelo filtro de derivações múltiplas no denominador, que depende da parte fracionária da defasagem de tom.
[0018] Preferivelmente, o pós-filtro é configurado para suprimir uma quantidade de energia entre harmônicas em uma estrutura, em que a quantidade de energia suprimida é menor do que 20% de uma energia total da representação de domínio de tempo na estrutura.
[0019] Em uma aplicação adicional, o denominador compreende um produto entre o filtro de derivações múltiplas e o valor de ganho.
[0020] Em uma aplicação adicional, o numerador de filtro compreende, ainda, um produto de um primeiro valor de escala e um segundo valor de escala, em que o denominador compreende, apenas, o segundo valor de escala em vez do primeiro valor de escala. Esses valores de escala são definidos aos valores predeterminados e têm valores maiores do que 0 e menores do que 1; e, adicionalmente, o segundo valor de escala é menor do que o primeiro valor de escala. Assim, é possível em uma forma muito eficiente definir as características de remoção de energia que são tipicamente indesejadas e, adicionalmente, definir a intensificação de filtro, ou seja, o quão forte o filtro atenua as perturbações inter-harmônicas em um sinal de saída do decodificador de domínio de transformada.
[0021] O aparelho compreende, ainda, em uma aplicação preferida, um controlador de filtro para definição de, pelo menos, o segundo valor de escala dependendo de uma taxa de bit de modo que um valor mais alto seja definido para uma taxa de bit inferior e vice-versa.
[0022] Além disso, o controlador de filtro é configurado para seleção, dependendo da parte fracionária da defasagem de tom, do filtro de derivações múltiplas correspondente em uma forma dependendo do sinal a fim de definir o pós-filtro harmônico de forma adaptativa do sinal, ou seja, dependente do valor da parte fracionária de fato fornecido da defasagem de tom.
[0023] Subsequentemente, as aplicações preferidas da presente invenção são discutidas no contexto dos desenhos anexos, nos quais:
[0024] A Figura 1 ilustra uma aplicação de um aparelho inventivo para processamento de um sinal de áudio;
[0025] A Figura 2 ilustra uma implementação preferida do pós-filtro harmônico representada como funções de transferência no domínio z;
[0026] A Figura 3 ilustra uma aplicação preferida adicional para o pós-filtro harmônico representado por uma função de transferência no domínio z;
[0027] A Figura 4 ilustra uma implementação preferida de um codificador para geração de um sinal codificado a ser decodificado por um decodificador de áudio de domínio de transformada ilustrado na figura 1;
[0028] A Figura 5 ilustra uma implementação preferida do filtro de derivações múltiplas como um filtro FIR controlado por um controlador de filtro;
[0029] A Figura 6 ilustra uma cooperação entre o controlador de filtro e uma memória tendo ponderações de derivação pré-armazenadas dependendo da parte fracionária;
[0030] A Figura 7a ilustra uma resposta de frequência de um filtro tendo um valor de zero α.
[0031] A Figura 7b ilustra uma resposta de frequência de um pós-filtro harmônico preferido tendo um valor α igual a 1;
[0032] A Figura 7c ilustra uma resposta de frequência de um pós-filtro harmônico preferido tendo um valor α de 0,8;
[0033] A Figura 8a ilustra uma aplicação preferida de um pós-filtro harmônico tendo um valor β igual a 0,4; e
[0034] A Figura 8b ilustra uma resposta de frequência de um pós-filtro harmônico tendo um valor β de 0,2.
[0035] A Figura 1 ilustra um aparelho para processamento de um sinal de áudio, tendo associado a ele uma informação de defasagem de tom e uma informação de ganho. Essa informação de ganho pode ser transmitida a um decodificador 100 através de uma entrada de decodificador 102 que recebe um sinal codificado ou, alternativamente, essa informação pode ser calculada no próprio decodificador, quando essa informação não estiver disponível. Entretanto, para uma operação mais robusta, é preferido calcular a informação de defasagem de tom e a informação de ganho de tom no lado do codificador.
[0036] O decodificador 100 compreende, p.ex., um conversor de tempo-frequência para conversão de uma representação de tempo-frequência do sinal de áudio em uma representação de domínio de tempo do sinal de áudio. Assim, o decodificador não é um codec de fala de domínio de tempo puro, mas compreende um decodificador puro de domínio de transformada ou um decodificador misturado de domínio de transformada ou qualquer outro codificador que opera em um domínio diferente de um domínio de tempo. Além disso, é preferido que o segundo domínio seja o domínio de tempo.
[0037] O aparelho compreende, ainda, um pós-filtro harmônico 104 para filtragem da representação de domínio de tempo do sinal de áudio, e esse pós-filtro harmônico é com base em uma função de transferência compreendendo um numerador e um denominador. Particularmente, o numerador compreende um valor de ganho indicado pela informação de ganho e o denominador compreende uma parte do número inteiro de uma defasagem de tom indicado pela informação de defasagem de tom e, de forma importante, compreende, ainda, um filtro de derivações múltiplas dependendo de uma parte fracionária da defasagem de tom.
[0038] Uma implementação preferida desse pós-filtro harmônico com uma função de transferência H(z) é ilustrada na figura 2. Esse filtro recebe o sinal de saída do decodificador 106 e submete esse sinal de saída decodificado a uma operação de pós-filtragem para obter um sinal de saída pós-filtrado 108. Esse sinal de saída pós-filtrado pode ser emitido como o sinal processado ou pode ser, ainda, processador por qualquer procedimento para remoção de quaisquer descontinuidades introduzidas pela operação de pós-filtragem que, certamente, é dependendo do sinal, ou seja, pode variar de estrutura a estrutura. Essa operação de remoção de descontinuidade pode ser qualquer operação de remoção de descontinuidade bem conhecida como transição suave, o que significa que uma estrutura prévia é diminuída gradualmente e, ao mesmo tempo, uma nova estrutura é aumentada gradualmente e, preferivelmente, a característica de transição é de modo que os fatores de transição somem a um por toda a operação de transição suave. Entretanto, outra remoção de descontinuidade como filtragem passa-baixa ou filtragem de LPC pode ser aplicada também.
[0039] O aparelho para processamento de um sinal de áudio ilustrado na figura 1 compreende, ainda, um armazenamento de informação de filtro de derivações múltiplas 112 e um controlador de filtro 114. Particularmente, o controlador de filtro 114 recebe informação adicional 116 do decodificador 100, e essa informação adicional pode, por exemplo, ser a informação de ganho de tom g e a informação de defasagem de tom, ou seja, a informação na parte do número inteiro Tint da defasagem de tom e a parte fracionária Tfr da defasagem de tom. Essa informação é útil para definição do pós-filtro harmônico da estrutura a estrutura e, adicionalmente, para seleção de uma informação do filtro de derivações múltiplas B(z,Tfr). Além disso, a informação adicional como a taxa de bit aplicada pelo decodificador ou a taxa de amostragem subjacente ao sinal decodificado também pode ser utilizada pelo controle de filtro 114 a fim de particularmente definir os valores de escala α, β para uma certa definição do codificador e/ou decodificador com relação à taxa de bit e taxa de amostragem.
[0040] A figura 2 ilustra uma representação de polo/zero de uma função de transferência de filtro H(z) no domínio z, conforme conhecido na técnica. Naturalmente, há várias outras representações do pós-filtro harmônico, que são todas as representações de filtro, que podem ser convertidas ao tipo de representação de polo/zero no domínio z. Assim, a presente invenção é aplicável para cada filtro que é descritível em qualquer forma por tal função de transferência conforme ilustrado no relatório descritivo.
[0041] A figura 3 ilustra uma aplicação preferida do pós-filtro harmônico novamente descrito como uma função de transferência na notação polo/zero no domínio z.
[0042] O filtro pode ser descrito, conforme segue: Com g sendo o ganho decodificado, Tint Tfr.-. o número inteiro e a parte fracionária da defasagem de tom decodificada, αeβ duas escalas que ponderam o ganho e um filtro FIR passa baixa, cujos coeficientes dependem da parte fracionária da defasagem de tom decodificada.
[0043] Observe queB(z,0) no numerador de H(z)é utilizado para compensar a inclinação introduzida porB(z,0)
[0044] βé utilizado para controlar a intensidade do pós-filtro. Umβ igual a 1 produz efeitos totais, suprimindo a quantidade de energia máxima possível entre os harmônicos. Um β igual a 0 desabilita o pós-filtro. Geralmente, um valor muito baixo é utilizado para não suprimir muita energia entre os harmônicos. O valor também pode depender da taxa de bit com um valor mais alto em uma taxa de bit inferior, por exemplo 0,4 em uma baixa taxa de bit e 0,2 em uma alta taxa de bit.
[0045] é utilizado para adicionar uma leve inclinação à resposta de frequência de H(z), a fim de compensar a leve perda na energia nas baixas frequências. O valor de é geralmente escolhido próximo a 1, por exemplo 0,8.
[0046] Um exemplo de é B(z,Tfr) dado na figura 6. A ordem e os coeficientes de B(z,Tfr) podem também depender da taxa de bit e da taxa de amostragem de saída. Uma resposta de frequência diferente pode ser projetada e sintonizada para cada combinação de taxa de bit e taxa de amostragem de saída.
[0047] Particularmente, observou-se que valores iguais para α entre 0,6 e menor que 1,0 são úteis e que, adicionalmente, valores para β entre 0,1 e 0,5 provaram ser úteis também.
[0048] Além disso, o filtro de derivações múltiplas pode ter um número variável de derivações. Observou-se que para certas implementações, quatro derivações são suficientes, onde uma derivação é z+1. Entretanto, filtros menores com apenas duas derivações ou filtros ainda maiores com mais do que quatro derivações são úteis para certas implementações.
[0049] A figura 6 ilustra uma implementação preferida de filtros B(z) para diferentes valores fracionários da defasagem de tom e, particularmente, para uma resolução de defasagem de tom de ^. Para essa implementação, quatro diferentes descrições de filtro para o filtro de derivações múltiplas no denominador da função de transferência do pós-filtro harmônico são ilustradas. Entretanto, observou-se que os coeficientes de filtro não têm necessariamente que indicar exatamente os valores ilustrados na figura 6, mas certas variações de +/- 0,05 podem ser úteis em outras implementações também.
[0050] Particularmente, conforme ilustrado na figura 1, as ponderações da derivação ilustradas na figura 6 são armazenadas dentro da memória 112 para a informação do filtro de derivações múltiplas. O controlador de filtro 114 recebe a parte fracionária Tfr da linha 116 da figura 1 e, em resposta a este valor, direciona a memória 112 a fim de recuperar, através de uma linha de recuperação 200 a informação específica do filtro para a parte fracionária específica da defasagem de tom. Essa informação é, então, encaminhada através de uma linha de saída 202 ao pós-filtro harmônico 104 de modo que o pós-filtro harmônico seja corretamente definido. Uma certa implementação do filtro de derivações múltiplas FIR é ilustrada na figura 5. A indicação de ponderação w1 a w4 corresponde à notação na figura 6 e o controlador de filtro 114 aplica, em resposta à parte fracionária real da defasagem de tom, as ponderações correspondentes para uma certa estrutura de áudio. As outras partes como partes de atraso 501, 502, 503 e o combinador 505 podem ser implementadas conforme ilustrado. Nesse contexto, enfatiza-se que o valor de atraso 501 é, na notação z, um valor de atraso negativo, visto que foi observado que uma representação do filtro FIR tendo um valor de atraso negativo além de um valor de atraso positivo como 503 e 504 é particularmente útil.
[0051] Subsequentemente, uma implementação preferida do codificador, tendo certos blocos funcionais e operando sem qualquer pré-filtro, é ilustrada na figura 4. A parte do filtro ilustrada na figura 4 compreende um estimador de tom 402, um refinador de tom 404, um estimador de parte fracionária 406, um detector transiente 408, um estimador de ganho 410 e um quantizador de ganho 412. A informação fornecida pelo quantizador de ganho 412, pelo estimador de parte fracionária 406, pelo refinador de tom 404 e pelo bit de decisão gerado pelo detector transiente 408 é inserida em um formador do sinal codificado 414. O formador do sinal codificado fornece um sinal codificado 102, que é, então, inserido ao decodificador 100 ilustrado na figura 1. O sinal codificado 102 compreenderá a informação do sinal adicional não ilustrada na figura 4.
[0052] Subsequentemente, a funcionalidade do estimador de tom 402 é descrita.
[0053] Uma defasagem de tom (parte do número inteiro + parte fracionária) por estrutura é estimada (tamanho da estrutura, por exemplo, 20ms). Isso é feito em 3 etapas para reduzir a complexidade e melhora a precisão de estimativa.
[0054] Um algoritmo de análise de tom que produz um leve contorno de evolução de tom é utilizado (por exemplo, análise de tom de loop aberto descrito em Rec. ITU-T G.718, seção 6.6). Essa análise é geralmente realizada em uma base de subestrutura (tamanho da subestrutura, por exemplo, 10ms) e produz uma estimativa de defasagem de tom por subestrutura. Observe que essas estimativas de defasagem de tom não têm qualquer parte fracionária e são, geralmente, estimadas em um sinal reduzido (taxa de amostragem, por exemplo, 6400Hz). O sinal utilizado pode ser qualquer sinal de áudio, por exemplo, um sinal de áudio ponderado por LPC, conforme descrito em Rec. ITU-T G.718, seção 6.5.
[0055] O refinador de tom opera, conforme segue:
[0056] A parte final do número inteiro da defasagem de tom é estimada em um sinal de áudio x[n] executado na taxa de amostragem do codificador central, que é geralmente mais alta do que a taxa de amostragem do sinal reduzido utilizado em a. (p.ex., 12,8kHz, 16kHz, 32kHz...). O sinal x[n] pode ser qualquer sinal de áudio, por exemplo, um sinal de áudio ponderado por LPC.
[0057] A parte do número inteiro da defasagem de tom é, então, a defasagem que maximiza a função de autocorrelação com d ao redor de uma defasagem de tom estimada na etapa 1.a.
[0058] O estimador de parte fracionária 406 opera, conforme segue:
[0059] A parte fracionária é encontrada por interpolação da função de autocorrelação calculada na etapa na etapa 2.b. e seleção da defasagem de tom fracionária que maximiza a função de autocorrelação interpolada. A interpolação pode ser realizada utilizando um filtro FIR passa-baixa, conforme descrito, por exemplo, em Rec. ITU-T G.718, seção 6.6.7.
[0060] O detector transiente 408 ilustrado na figura 4 é configurado para geração de um bit de decisão.
[0061] Se o sinal de áudio de entrada não contiver qualquer conteúdo harmônico, então, nenhum parâmetro é codificado no fluxo contínuo de dados. Apenas 1 bit é enviado, de modo que o decodificador saiba se tem que decodificar os parâmetros de pós-filtro ou não. A decisão é feita com base em vários parâmetros: a. Correlação normalizada na defasagem de tom de número inteiro estimada na etapa 1.b.
[0062] A correlação normalizada é 1 se o sinal de entrada for perfeitamente previsível pela defasagem de tom de número inteiro e 0 se não for previsível de nenhuma forma. Um valor alto (próximo a 1) indicaria, então, um sinal harmônico. Para uma decisão mais robusta, a correlação normalizada da última estrutura também pode ser utilizada na decisão, por exemplo:
[0063] Se (norm.corr(curr.)*norm.corr.(prev.)) > 0,25, então, a estrutura atual contém o mesmo conteúdo harmônico (bit=1) b. Recursos calculados por um detector transiente (por exemplo, Medição de Nivelamento Temporal, Mudança Máxima de Energia), para evitar a ativação do pós- filtro em um sinal contendo um transiente, por exemplo.
[0064] Se (tempFlatness>3,5 ou maxEnergychange>3,5) então, definir bit=0 e não enviar nenhum parâmetro
[0065] Além disso, o estimador de ganho 410 calcula um ganho a ser inserido no quantizador de ganho 412.
[0066] O ganho é geralmente estimado no sinal de áudio de entrada na taxa de amostragem do codificador central, mas pode também ser qualquer sinal de áudio como o sinal de áudio ponderado por LPC. Esse sinal é anotado como y[n] e pode ser o mesmo ou diferente de x[n].
[0067] A previsão yP[n] de y[n] é primeiro encontrada ao filtrar y[n] com o seguinte filtro com Tint sendo a parte do número inteiro da defasagem de tom (estimada em 1.b.) eB(z,Tfr) sendo um filtro FIR passa baixa, cujos coeficientes dependem da parte fracionária da defasagem de tom (estimada em 1.c.).
[0068] Um exemplo de B(z) quando a resolução da defasagem de tom for 1/4:
[0069] O ganho g é, então, calculado, conforme segue: e limitado entre 0 e 1.
[0070] Finalmente, o ganho é quantizado, por exemplo, em 2 bits utilizando, por exemplo, quantização uniforme.
[0071] Se o ganho for quantizado a 0, então, nenhum parâmetro é codificado no fluxo contínuo de dados, apenas um bit de decisão (bit=0).
[0072] Conforme descrito antes, o pós-filtro é aplicado no sinal de áudio de áudio após o decodificador de transformada. Ele processa o sinal na base de estrutura-por- estrutura, com o mesmo tamanho de estrutura conforme utilizou o lado do codificador como 20ms. Conforme ilustrado, é com base em um filtro de previsão de longo prazo H(z), cujos parâmetros são determinados a partir dos parâmetros estimados no lado do codificador e decodificados a partir do fluxo contínuo de dados. Essa informação compreende o bit de decisão, da defasagem de tom e do ganho. Se o bit de decisão for 0, então, a defasagem de tom e o ganho não são decodificados e são assumidos como 0 não escritos de nenhuma forma no fluxo contínuo de dados.
[0073] Conforme discutido, se os parâmetros de filtro forem diferentes para a próxima estrutura, uma descontinuidade pode ser introduzida no limite entre as duas estruturas. Para evitar descontinuidade, um removedor de descontinuidade é aplicado como um cross-fader [regulador de transição] ou qualquer outra implementação para essa finalidade.
[0074] Além disso, várias formas diferentes de definição do o pós-filtro harmônico são ilustradas na figura de 7a a 8b. Os traços ilustram a função de transferência do domínio de frequência. O eixo horizontal é relacionado à frequência normalizada 1 e o eixo vertical é a magnitude da resposta do filtro em dB. Enfatiza-se que em todas as ilustrações, menos na figura 7b, o filtro introduz uma amplificação para baixas frequências, ou seja, um certo valor positivo de magnitude dB.
[0075] Particularmente, a figura 7a ilustra uma função de transferência, implementando o filtro na figura 3, com os certos valores de parâmetro, conforme indicado acima. Além disso, o valor α, ou seja, o primeiro valor de escala é definido como 0. A figura 7b ilustra uma situação similar, mas agora com um valor α igual a 1. Os outros parâmetros são idênticos à figura 7a.
[0076] A figura 7c ilustra uma implementação adicional, onde α é igual a 0,8 que tem uma leve inclinação e uma amplificação das frequências mais baixas. Novamente, a figura 7 tem os mesmos outros parâmetros, conforme indicado na figura 7a. Fica claro que α igual a 1 remove a inclinação e todas as frequências harmônicas têm um ganho de 1. A desvantagem dessa definição é uma perda de energia nas frequências entre os harmônicos. Portanto, um valor de α igual a 0,8 como na figura 7c é preferido. Esse valor adiciona uma leve inclinação em comparação com α igual a 1, situação da figura 7b. A fim de compensar a perda de energias nas frequências entre os harmônicos, essa leve inclinação é preferivelmente utilizada.
[0077] Além disso, as figuras 8a e 8b ilustram as definições do filtro para um valor de α igual a 0,8 e diferentes valores de β, ou seja, um valor de β de 0,4 na figura 8a e um valor de β de 0,2 na figura 8b. Fica claro que um valor de β de 0,4 tem um efeito de pós-filtragem mais forte em comparação com um valor de β de 0,2 e, portanto, um valor de β de 0,4 é utilizado em taxas de bit mais baixas a fim de remover o ruído inter-harmônico introduzido por tal taxa de bit baixa.
[0078] Por outro lado, β igual a 0,2 tem um efeito menos forte para suprimir a energia entre os harmônicos e, portanto, esse valor de β é preferido para altas taxas de bit devido ao fato de que, em tais taxas de bit mais altas, não existe muito ruído inter-harmônico.
[0079] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que estes aspectos também representam uma descrição do método correspondente, onde um bloco ou dispositivo corresponde a uma etapa do método ou característica de uma etapa do método. De forma análoga, aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item ou característica correspondente de um aparelho correspondente. Algumas ou todas as etapas do método podem ser executadas por (ou utilizando) um aparelho de hardware, tal como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas aplicações, uma ou mais da(s) etapa(s) mais importante(s) do método pode(m) ser executada(s) pelo referido aparelho.
[0080] O sinal codificado ou transmitido inventivo pode ser armazenado em um meio de armazenamento digital ou pode ser transmitido por um meio de transmissão, tal como um meio de transmissão sem frio ou um meio de transmissão cabeado, tal como a internet.
[0081] Dependendo de certas exigências de implementação, as aplicações da invenção podem ser implementadas em hardware ou em software. A implementação pode ser realizada utilizando um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, uma memória ROM, uma PROM, uma EPROM, uma EEPROM ou a memória flash, tendo sinais de controle eletronicamente legíveis armazenados nele, que cooperam (ou são capazes de cooperar) com um sistema de computador programável, de modo que o respectivo método seja realizado. Assim, o meio de armazenamento digital pode ser legível por computador.
[0082] Algumas aplicações de acordo com a invenção compreendem um transportador de dados, tendo sinais de controle eletronicamente legíveis, que podem cooperar com um sistema de computador programável, de modo que um dos métodos descritos aqui seja realizado.
[0083] Geralmente, as aplicações da presente invenção podem ser implementadas como um produto do programa de computador com um código de programa, o código de programa sendo operativo para realizar um dos métodos quando o produto do programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em um transportador legível por máquina.
[0084] Outras aplicações compreendem o programa de computador para realizar um dos métodos descritos aqui, armazenados em um transportador legível por máquina.
[0085] Em outras palavras, uma aplicação do método inventivo é, portanto, um programa de computador tendo um código de programa para realizar um dos métodos descritos aqui, quando o programa de computador é executado em um computador.
[0086] Outra aplicação do método inventivos é, portanto, um transportador de dados (ou um meio de armazenamento não transitório, tal como um meio de armazenamento digital ou um meio legível por computador) compreendendo, gravado nele, o programa de computador para realizar um dos métodos descritos aqui. O transportador de dados, o meio de armazenamento digital ou o meio gravado são tipicamente tangíveis e/ou não transitórios.
[0087] Outra aplicação do método inventivo é, portanto, um fluxo de dados ou uma sequência de sinais representando o programa de computador para realizar um dos métodos descritos aqui. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[0088] Outra aplicação compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado para ou adaptado para realizar um dos métodos descritos aqui.
[0089] Outra aplicação compreende um computador, tendo instalado nele o programa de computador para realizar um dos métodos descrito aqui.
[0090] Outra aplicação, de acordo com a invenção, compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para realizar um dos métodos descritos aqui a um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou semelhante. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador ao receptor.
[0091] Em algumas aplicações, um dispositivo de lógica programável (por exemplo, um arranjo de portas programáveis de campo) pode ser utilizado para realizar algumas ou todas as funcionalidades dos métodos descritos aqui. Em algumas aplicações, um arranjo de portas programáveis de campo pode cooperar com um microprocessador, a fim de realizar um dos métodos descritos aqui. Geralmente, os métodos são preferivelmente realizados por qualquer aparelho de hardware.
[0092] As aplicações descritas acima são meramente ilustrativas dos princípios da presente invenção. Entende- se que modificações e variações das disposições e os detalhes descritos serão evidentes a outros especialistas na técnica. É intenção, portanto, ser limitada apenas pelo escopo das reivindicações de patente iminentes e não pelos detalhes específicos apresentados em forma de descrição e explicação das aplicações neste documento.

Claims (15)

1. Aparelho para processamento de um sinal de áudio, tendo associado a ele uma informação de defasagem de tom e uma informação de ganho, caracterizado por compreender: um conversor de domínio (100) para conversão de uma primeira representação de domínio do sinal de áudio em uma segunda representação de domínio do sinal de áudio; e um pós-filtro harmônico (104) para filtragem da segunda representação de domínio do sinal de áudio, em que o pós-filtro se baseia em uma função de transferência, compreendendo um numerador e um denominador, em que o numerador compreende um valor de ganho indicado pela informação de ganho e em que o denominador compreende uma parte do número inteiro de um defasagem de tom indicado pela informação de defasagem de tom e um filtro de derivações múltiplas dependendo de uma parte fracionária do defasagem de tom.
2. Aparelho de acordo com a reivindicação 1, caracterizado pela função de transferência do pós-filtro compreender, no numerador, um filtro FIR de derivações múltiplas adicional para uma parte fracionária zero da defasagem de tom.
3. Aparelho de acordo com a reivindicação 1 e 2, caracterizado pelo denominador compreender um produto entre o filtro de derivações múltiplas e o valor de ganho.
4. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo numerador compreender, ainda, um produto de um primeiro valor de escala e um segundo valor de escala, em que o denominador compreende o segundo valor de escala e não o primeiro valor de escala, em que o primeiro e segundo valores de escala são predeterminados e têm valores maiores do que 0 e menores do que, e em que o segundo valor de escala é menor do que o primeiro valor de escala.
5. Aparelho de acordo com a reivindicação 4, caracterizado por compreender, ainda: um controlador de filtro (114) configurado para definir o segundo valor de escala, dependendo de uma taxa de bit pela qual o conversor de tempo-frequência (100) é operado, em que o segundo valor de escala é definido a um primeiro valor, quando a taxa de bit tem um primeiro valor, em que o segundo valor de escala é definido a um segundo valor quando a taxa de bit tiver um segundo valor, em que o segundo valor da taxa de bit é menor do que o primeiro valor da taxa de bit e em que o segundo valor do segundo valor de escala é maior do que o primeiro valor do segundo valor de escala.
6. O aparelho de acordo com a reivindicação 4 e 5, caracterizado pelo primeiro valor de escala ser definido entre 0,6 e 1,0 e em que o segundo valor de escala é definido entre 0,1 e 0,5.
7. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo pós-filtro ter a função de transferência H(z) em uma representação de polozero com base na seguinte equação: em que α é um primeiro valor de escala, em que β é um segundo valor de escala, em que B(z,0) é um filtro de derivações múltiplas para uma defasagem de tom da parte fracionária zero, em que B(z,Tfr) é um filtro de derivações múltiplas, dependendo da parte fracionária da defasagem de tom, em que Tint é a parte do número inteiro da defasagem de tom, em que Tfr é a parte fracionária da defasagem de tom e em que g é o valor de ganho indicado pela informação de ganho z é uma variável em um plano z.
8. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo filtro de derivações múltiplas ser um filtro de resposta de impulso finito (FIR) e ter, pelo menos, três derivações.
9. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo filtro de derivações múltiplas no denominador compreender quatro derivações, em que, para uma parte fracionária zero, a primeira derivação está entre 0,0 e 0,1, a segunda derivação está entre 0,2 e 0,3, a terceira derivação está entre 0,5 e 0,6 e a quarta derivação está entre 0,2 e 0,3; em que o filtro de derivações múltiplas compreende, para uma primeira parte fracionária, quatro derivações do filtro, em que a primeira derivação está entre 0,0 e 0,1, a segunda derivação está entre 0,3 e 0,4, a terceira derivação está entre 0,45 e 0,55 e a quarta derivação está entre 0,1 e 0,2; em que o filtro de derivações múltiplas compreende, para uma segunda parte fracionária, quatro derivações do filtro, em que a primeira derivação está entre 0,0 e 0,1, a segunda derivação está entre 0,35 e 0,45, a terceira derivação está entre 0,35 e 0,45 e a quarta derivação está entre 0,0 e 0,1; em que o filtro de derivações múltiplas compreende, para uma terceira parte fracionária, quatro derivações do filtro, em que a primeira derivação está entre 0,1 e 0,2, a segunda derivação está entre 0,45 e 0,55, a terceira derivação está entre 0,3 e 0,4 e a quarta derivação está entre 0,0 e 0,1; em que a terceira parte fracionária é maior do que a segunda parte fracionária e em que a segunda parte fracionária é maior do que a primeira parte fracionária.
10. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo pós-filtro ser configurado para ter uma inclinação espectral negativa para compensação de uma perda na energia pelo pós-filtro harmônico; ou em que o pós-filtro é configurado para suprimir uma quantidade de energia entre harmônicos em uma estrutura, em que a quantidade de energia suprimida é menor do que 20% de uma energia total da representação de domínio de tempo na estrutura.
11. Aparelho de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo conversor de domínio ser um conversor de tempo-frequência, em que o primeiro domínio é um domínio de frequência e o segundo domínio é um domínio de tempo; ou em que o conversor de domínio é um conversor de tempo residual de LPC, em que o primeiro domínio é um domínio residual de LPC e o segundo domínio é um domínio de tempo.
12. Método de processamento de um sinal de áudio, tendo associado a ele uma informação de defasagem de tom e uma informação de ganho, caracterizado por compreender: conversão (100) de uma representação de frequência do sinal de áudio em uma representação de domínio de tempo do sinal de áudio; e filtragem da representação de domínio de tempo do sinal de áudio por um pós-filtro harmônico (104), em que o pós-filtro se baseia em uma função de transferência, compreendendo um numerador e um denominador, em que o numerador compreende um valor de ganho indicado pela informação de ganho e em que o denominador compreende uma parte do número inteiro de um defasagem de tom indicado pela informação de defasagem de tom e um filtro de derivações múltiplas, dependendo de uma parte fracionária do defasagem de tom.
13. Sistema para processamento de um sinal de áudio, compreendendo um codificador para codificação de um sinal de áudio e um decodificador, compreendendo um processador, o processador caracterizado por compreender: um conversor de domínio (100) para conversão de uma representação de frequência do sinal de áudio em uma representação de domínio de tempo do sinal de áudio; e um pós-filtro harmônico (104) para filtragem da representação de domínio de tempo do sinal de áudio; em que o pós-filtro se baseia em uma função de transferência, compreendendo um numerador e um denominador, em que o numerador compreende um valor de ganho indicado por uma informação de ganho e em que o denominador compreende uma parte do número inteiro de uma defasagem de tom indicado por uma informação de defasagem de tom e um filtro de derivações múltiplas dependendo de uma parte fracionária da defasagem de tom.
14. Sistema de acordo com a reivindicação 13, caracterizado pelo codificador compreender uma calculadora de defasagem de tom (402, 404, 406) para cálculo de uma parte do número inteiro e uma parte fracionária da defasagem de tom e uma calculadora de ganho (410, 412) para cálculo do valor de ganho e um formador do sinal codificado (414) para geração de um sinal codificado (102), compreendendo a informação de defasagem de tom e a informação de ganho.
15. Método de processamento de um sinal de áudio, compreendendo um método de codificação de um sinal de áudio e um método de decodificação, caracterizado por compreender: conversão (100) de uma representação de frequência do sinal de áudio em uma representação de domínio de tempo do sinal de áudio; e filtragem da representação de domínio de tempo do sinal de áudio utilizando um pós-filtro harmônico (104), em que o pós-filtro se baseia em uma função de transferência, compreendendo um numerador e um denominador, em que o numerador compreende um valor de ganho indicado por uma informação de ganho e em que o denominador compreende uma parte do número inteiro de um defasagem de tom indicado por uma informação de defasagem de tom e um filtro de derivações múltiplas dependendo de uma parte fracionária do defasagem de tom.
BR112017001631-1A 2014-07-28 2015-07-24 Aparelho e método para processamento de um sinal de áudio utilizando um pós-filtro harmônico BR112017001631B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178820.8A EP2980799A1 (en) 2014-07-28 2014-07-28 Apparatus and method for processing an audio signal using a harmonic post-filter
EP14178820.8 2014-07-28
PCT/EP2015/066998 WO2016016121A1 (en) 2014-07-28 2015-07-24 Apparatus and method for processing an audio signal using a harmonic post-filter

Publications (2)

Publication Number Publication Date
BR112017001631A2 BR112017001631A2 (pt) 2017-11-21
BR112017001631B1 true BR112017001631B1 (pt) 2023-07-11

Family

ID=

Similar Documents

Publication Publication Date Title
JP6877488B2 (ja) 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法
JP5619176B2 (ja) 改良された励起信号帯域幅拡張
US20200227058A1 (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
RU2630887C2 (ru) Звуковые кодирующее устройство и декодирующее устройство
BR112015017293B1 (pt) Decodificador e codificador do sinal de áudio, método para decodificar uma representação do sinal de áudio codificado e para prover uma representação correspondente do sinal áudio decodificado e método de codificação de sinal de áudio para prover uma representação de sinal de áudio codificado com base na representação do domínio-tempo de um sinal de entrada de áudio
JP7179060B2 (ja) 信号フィルタリング
TW201923754A (zh) 時間雜訊成形技術
BR112017001631B1 (pt) Aparelho e método para processamento de um sinal de áudio utilizando um pós-filtro harmônico
BR112015018022B1 (pt) Aparelho e método para processar um sinal codificado e codificador e método para gerar um sinal codificado
WO2016142357A1 (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal