BR112015029172B1

BR112015029172B1 - Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos

Info

Publication number: BR112015029172B1
Application number: BR112015029172-4A
Authority: BR
Inventors: Bernhard Grill; Emmanuel RAVELLI; Markus Multrus; Stefan DOEHLA; Manuel Jander
Original assignee: Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Priority date: 2014-07-28
Filing date: 2015-07-21
Publication date: 2022-08-23
Also published as: CN110444219A; AR101347A1; JP2016535286A; US9818421B2; KR101748517B1; ZA201508541B; MX349256B; TWI582758B; RU2632151C2; KR20160030477A; PL3000110T3; WO2016016053A1; AU2015258241B2; TW201606755A; SG11201509526SA; US20160078878A1; AU2015258241A1; BR112015029172A2; CN105451842B; US10706865B2

Abstract

APARELHO E MÉTODO PARA SELECIONAR UM DENTRE UM PRIMEIRO ALGORITMO DE CODIFICAÇÃO E UM SEGUNDO ALGORITMO DE CODIFICAÇÃO COM O USO DE REDUÇÃO DE HARMÔNICOS. Trata-se de um aparelho para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, o qual compreende um filtro configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio. Um primeiro estimador é fornecido para uso na versão filtrada do sinal de áudio na estimativa de uma SNR ou uma SNR segmentada da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, que é associada ao primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação. Um segundo estimador é fornecido para estimar uma SNR ou uma SNR segmentada como uma segunda medição de qualidade para a porção do sinal de áudio, que é associada ao segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação. O aparelho compreende um controlador para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade.

Description

RELATÓRIO DESCRITIVO

[001] A presente invenção se refere à codificação de áudio e, em particular, à codificação de áudio comutado, onde, para diferentes porções de um sinal de áudio, o sinal codificado é gerado com o uso de diferentes algoritmos de codificação.

[002] Os codificadores de áudio comutado que determinam diferentes algoritmos de codificação para diferentes porções do sinal de áudio são conhecidos. Em geral, os codificadores de áudio comutado fornecem a comutação entre dois modos diferentes, isto é, algoritmos, como ACELP (Predição Linear Excitada por Código Algébrico) e TCX (Excitação Codificada por Transformada).

[003] O modo de LPD de MPEG USAC (Codificação de Áudio de Fala Unificada de MPEG) é baseado nos dois modos diferentes ACELP e TCX. A ACELP fornece melhor qualidade para sinais do tipo fala e do tipo transiente. A TCX fornece melhor qualidade para sinais do tipo música ou do tipo ruído. O codificador decide qual modo usar em uma base de quadro a quadro. A decisão feita pelo codificador é crítica para a qualidade do codec. Uma única decisão errada pode produzir um forte efeito, particularmente, em taxas de bit baixas.

[004] A abordagem mais direta para decidir qual modo usar é uma seleção de modo de ciclo fechado, isto é, para executar uma codificação/decodificação completa de ambos os modos, então, computar um critério de seleção (por exemplo, SNR segmentar) para ambos os modos com base no sinal de áudio e nos sinais de áudio codificados/decodificados, e finalmente escolher um modo com base nos critérios de seleção. Essa abordagem geralmente produz uma decisão estável e robusta. Entretanto, isso também requer uma quantidade significativa de complexidade, devido ao fato de que ambos os modos precisam ser operados em cada quadro.

[005] Para reduzir a complexidade, uma abordagem alternativa é a seleção de modo de ciclo aberto. A seleção de ciclo aberto consiste em não executar uma codificação/decodificação completa de ambos os modos, mas, em vez disso, escolher um modo com o uso de um critério de seleção computado com baixa complexidade. A complexidade de pior caso é, então, pela complexidade do modo menos complexo (usualmente TCX), menos a complexidade necessária para computar os critérios de seleção. A economia em complexidade é usualmente significativa, o que torna esse tipo de abordagem interessante quando a complexidade de pior caso do codec é restrita.

[006] O padrão AMR-WB+ (definido no Padrão Internacional 3GPP TS 26.290 V6.1.0 2004-12) inclui uma seleção de modo de ciclo aberto, usada para decidir entre todas as combinações de ACELP/TCX20/TCX40/TCX80 em um quadro de 80ms. É descrito na Seção 5.2.4 do 3GPP TS 26.290. Também é descrito na publicação “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al” e US 7.747.430 B2 e US 7.739.120 B2 remetendo-se novamente ao autor dessa publicação.

[007] O documento US 7.747.430 B2 revela uma seleção de modo de ciclo aberto com base em uma análise de parâmetros de predição de longo prazo. O documento US 7.739.120 B2 revela uma seleção de modo de ciclo aberto com base em características de sinal que indicam o tipo de conteúdo de áudio em respectivas seções de um sinal de áudio, em que, se tal seleção não for viável, a seleção é adicionalmente baseada em uma avaliação estatística executada para seções respectivamente vizinhas.

[008] A seleção de modo de ciclo aberto de AMR-WB+ pode ser descrita em duas etapas principais. Na primeira etapa principal, vários recursos são calculados no sinal de áudio, como desvio padrão de níveis de energia, relação de energia de baixa frequência/alta frequência, energia total, distância de ISP (par espectral de imitância), intervalos de tom e ganhos, inclinação espectral. Esses recursos são, então, usados para fazer uma escolha entre ACELP e TCX, com o uso de um classificador baseado em limite simples. Se TCX for selecionada na primeira etapa principal, então, a segunda etapa principal decide entre as combinações possíveis de TCX20/TCX40/TCX80 de uma maneira de ciclo fechado.

[009] O documento WO 2012/110448 A1 revela uma abordagem para decidir entre dois algoritmos de codificação que têm diferentes características com base em um resultado de detecção transiente e um resultado de qualidade de um sinal de áudio. Além disso, a aplicação de uma histerese é revelada, em que a histerese depende das seleções feitas no passado, isto é, para as porções anteriores do sinal de áudio.

[010] Na publicação “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al”., a seleção de modo de ciclo aberto e de ciclo fechado de AMR-WB+ são comparadas. Testes de audição subjetivos indicam que a seleção de modo de ciclo aberto é executada significativamente pior que a seleção de modo de ciclo fechado. Porém, também foi demonstrado que a seleção de modo de ciclo aberto reduz a complexidade de pior caso em 40%.

[011] O objetivo da invenção consiste em fornecer para uma abordagem aprimorada que permita a seleção entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com bom desempenho e complexidade reduzida.

[012] Esse objetivo é alcançado por um aparelho, conforme definido na reivindicação 1, um método, conforme definido na reivindicação 18, e um programa de computador, conforme definido na reivindicação 19.

[013] As modalidades da invenção fornecem um aparelho para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, que compreende:

[014] um filtro configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio;

[015] um primeiro estimador para uso na versão filtrada do sinal de áudio na estimativa de uma SNR (razão de sinal para ruído) ou uma SNR segmentada da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, que é associada ao primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação;

[016] um segundo estimador para estimar uma SNR ou uma SNR segmentada como uma segunda medição de qualidade para a porção do sinal de áudio, que é associada ao segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e

[017] um controlador para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade.

[018] As modalidades da invenção fornecem um método para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, que compreende:

[019] filtrar o sinal de áudio para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio;

[020] usar a versão filtrada do sinal de áudio na estimativa de uma SNR ou uma SNR segmentar da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, que é associada ao primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação;

[021] estimar uma segunda medição de qualidade para a porção do sinal de áudio, que é associada ao segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e

[022] selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade.

[023] As modalidades da invenção são baseadas no reconhecimento de que uma seleção de ciclo aberto com desempenho aprimorado pode ser implantada através da estimativa de uma medição de qualidade para cada um dentre o primeiro e o segundo algoritmos de codificação e da seleção de um dos algoritmos de codificação com base em uma comparação entre a primeira e a segunda medições de qualidade. As medições de qualidade são estimadas, isto é, o sinal de áudio não é de fato codificado e decodificado para obter as medições de qualidade. Dessa forma, as medições de qualidade podem ser obtidas com complexidade reduzida. A seleção de modo pode, então, ser executada com o uso das medições de qualidade estimadas comparáveis com uma seleção de modo de ciclo fechado. Além disso, a invenção é baseada no reconhecimento de que uma seleção de modo aprimorada pode ser obtida se a estimativa da primeira medição de qualidade usar uma versão filtrada da porção do sinal de áudio, na qual os harmônicos são reduzidos em comparação com a versão não filtrada do sinal de áudio.

[024] Em modalidades da invenção, uma seleção de modo de ciclo aberto em que a SNR segmentar de ACELP e TCX é primeiramente estimada com baixa complexidade é implantada. E, então, a seleção de modo é executada com o uso desses valores estimados de SNR segmentar, como em uma seleção de modo de ciclo fechado.

[025] As modalidades da invenção não empregam uma abordagem clássica de recursos+classificador como é feito na seleção de modo de ciclo aberto de AMR-WB+. Mas, em vez disso, as modalidades da invenção tentam estimar uma medição de qualidade de cada modo e selecionar o modo que gera a melhor qualidade.

[026] As modalidades da presente invenção serão descritas agora em detalhes adicionais em referência aos desenhos anexos, nos quais:

[027] A Figura 1 mostra uma vista esquemática de uma modalidade de um aparelho para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação;

[028] A Figura 2 mostra uma vista esquemática de uma modalidade de um aparelho para codificar um sinal de áudio;

[029] A Figura 3 mostra uma vista esquemática de uma modalidade de um aparelho para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação;

[030] As Figuras 4a e 4b são representações possíveis de SNR e SNR segmentar.

[031] Na seguinte descrição, elementos/etapas similares nos diferentes desenhos são referenciados pelos mesmos símbolos de referência. Deve ser observado que, nas características dos desenhos, como conexões de sinal e similares, que não são necessárias para a compreensão da invenção, foram omitidas.

[032] A Figura 1 mostra um aparelho 10 para selecionar um dentre um primeiro algoritmo de codificação, como um algoritmo de TCX, e um segundo algoritmo de codificação, como um algoritmo de ACELP, como o codificador para codificar uma porção de um sinal de áudio. O aparelho 10 compreende um primeiro estimador 12 para estimar uma SNR ou uma SNR segmentar da porção do sinal de áudio conforme a primeira medição de qualidade para a porção de sinal é fornecida. A primeira medição de qualidade é associada ao primeiro algoritmo de codificação. O aparelho 10 compreende um filtro 2 configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio. O filtro 2 pode ser interno no primeiro estimador 12 como mostrado na Figura 1 ou pode ser externo ao primeiro estimador 12. O primeiro estimador 12 usa a versão filtrada do sinal de áudio na estimativa da primeira medição de qualidade. Em outras palavras, o primeiro estimador 12 estima uma primeira medição de qualidade que a porção do sinal de áudio teria se codificado e decodificado com o uso do primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação. O aparelho 10 compreende um segundo estimador 14 para estimar uma segunda medição de qualidade para a porção de sinal. A segunda medição de qualidade é associada ao segundo algoritmo de codificação. Em outras palavras, o segundo estimador 14 estima a segunda medição de qualidade que a porção do sinal de áudio teria se codificado e decodificado com o uso do segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação. Além disso, o aparelho 10 compreende um controlador 16 para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade. O controlador pode compreender uma saída 18 que indica o algoritmo de codificação selecionado.

[033] No seguinte relatório descritivo, o primeiro estimador usa a versão filtrada do sinal de áudio, isto é, a versão filtrada da porção do sinal de áudio na estimativa da primeira medição de qualidade se o filtro 2 configurado para reduzir a amplitude de harmônicos for fornecido e não estiver desativado, mesmo se não explicitamente indicado.

[034] Em uma modalidade, a primeira característica associada ao primeiro algoritmo de codificação é mais adequado para sinais do tipo música e do tipo ruído, e a segunda característica de codificação associada ao segundo algoritmo de codificação é mais adequada para sinais do tipo fala e do tipo transiente. Em modalidades da invenção, o primeiro algoritmo de codificação é um algoritmo de codificação de áudio, como um algoritmo de codificação por transformada, por exemplo, um algoritmo de codificação de MDCT (transformada discreta de cosseno modificada), como um algoritmo de codificação de TCX (excitação de codificação por transformada). Outros algoritmos de codificação por transformada podem ser baseados em uma transformada de FFT ou qualquer outra transformada ou banco de filtros. Em modalidades da invenção, o segundo algoritmo de codificação é um algoritmo de codificação de fala, como um algoritmo de codificação de CELP (predição linear excitada por código), como um algoritmo de codificação de ACELP (predição linear excitada por código algébrico).

[035] Em modalidades, a medição de qualidade representa uma medição de qualidade perceptiva. Um único valor que é uma estimativa da qualidade subjetiva do primeiro algoritmo de codificação e um único valor que é uma estimativa da qualidade subjetiva do segundo algoritmo de codificação podem ser computados. O algoritmo de codificação que gera a qualidade subjetiva melhor estimada pode ser escolhido somente com base na comparação desses dois valores. Isso é diferente do que é feito no padrão AMR-WB+, em que muitos recursos que representam diferentes características do sinal são computados e, então, um classificador é aplicado para decidir qual algoritmo escolher.

[036] Em modalidades, a respectiva medição de qualidade é estimada com base em uma porção do sinal de áudio ponderado, isto é, uma versão ponderada do sinal de áudio. Em modalidades, o sinal de áudio ponderado pode ser definido como um sinal de áudio filtrado por uma função de ponderação, em que a função de ponderação é um filtro de LPC ponderado A(z/g) com A(z) um filtro de LPC e g um peso entre 0 e 1 como 0,68. Constatou-se que boas medições de qualidade perceptiva podem ser obtidas dessa maneira. Observa-se que o filtro de LPC A(z) e o filtro de LPC ponderado A(z/g) são determinados em um estágio de pré-processamento e que são também usados em ambos os algoritmos de codificação. Em outras modalidades, a função de ponderação pode ser um filtro linear, um filtro de FIR ou um filtro de predição linear.

[037] Em modalidades, a medição de qualidade é a SNR segmentar (razão de sinal para ruído) no domínio de sinal ponderado. Constatou-se que a SNR segmentar no domínio de sinal ponderado representa uma boa medição da qualidade perceptiva e, portanto, pode ser usada como a medição de qualidade de uma maneira benéfica. Essa é também a medição de qualidade usada tanto no algoritmo de codificação de ACELP quanto no algoritmo de codificação de TCX para estimar os parâmetros de codificação.

[038] Uma outra medição de qualidade pode ser a SNR no domínio de sinal ponderado. Outras medições de qualidade podem ser a SNR segmentar, a SNR da porção correspondente do sinal de áudio no domínio de sinal não ponderado, isto é, não filtrado pelos coeficientes de LPC (ponderados).

[039] Em geral, a SNR compara o sinal de áudio original e o sinal de áudio processado (como sinais de fala) amostra por amostra. Seu objetivo é medir a distorção de codificadores de forma de onda que reproduzem a forma de onda de entrada. A SNR pode ser calculada como mostrado na Figura 5a, em que x(i) e y(i) são a amostra original e a amostra processada indexadas por i e N é o número total de amostras. A SNR segmentar, em vez de funcionar em todo o sinal, calcula a média dos valores de SNR de segmentos curtos, como 1 a 10 ms, como 5ms. A SNR pode ser calculada como mostrado na Figura 5b, em que N e M são o comprimento de segmento e o número de segmentos, respectivamente.

[040] Em modalidades da invenção, a porção do sinal de áudio representa um quadro do sinal de áudio que é obtido através do janelamento do sinal de áudio e a seleção de um algoritmo de codificação apropriado é executada para uma pluralidade de quadros sucessivos obtidos através do janelamento de um sinal de áudio. No seguinte relatório descritivo, em conjunto com o sinal de áudio, os termos “porção” e “quadro” são usados de uma maneira intercambiável. Em modalidades, cada quadro é dividido em subquadros e a SNR segmentar é estimada para cada quadro através do cálculo da SNR para cada subquadro, convertida em dB e do cálculo da média das SNRs de subquadro em dB.

[041] Dessa forma, em modalidades, não é a SNR (segmentar) entre o sinal de áudio de entrada e o sinal de áudio decodificado que é estimada, mas a SNR (segmentar) entre o sinal de áudio de entrada ponderado e o sinal de áudio decodificado ponderado é estimada. Quanto a essa SNR (segmentar), pode ser feita referência ao capítulo 5.2.3 do padrão AMR-WB+ (Padrão Internacional 3GPP TS 26.290 V6.1.0 2004-12).

[042] Em modalidades da invenção, a respectiva medição de qualidade é estimada com base na energia de uma porção do sinal de áudio ponderado e com base em uma distorção estimada introduzida quando se codifica a porção de sinal pelo respectivo algoritmo, em que os primeiro e segundo estimadores são configurados para determinar as distorções estimadas dependentes da energia de um sinal de áudio ponderado.

[043] Em modalidades da invenção, uma distorção de quantificador estimada introduzida por um quantificador usado no primeiro algoritmo de codificação mediante a quantificação da porção do sinal de áudio é determinada e a primeira medição de qualidade é determinada com base na energia da porção do sinal de áudio ponderado e na distorção de quantificador estimada. Em tais modalidades, um ganho global para a porção do sinal de áudio pode ser estimado de modo que a porção do sinal de áudio produziria uma determinada taxa de bit-alvo quando codificada com um quantificador e um codificador por entropia usado no primeiro algoritmo de codificação, em que a distorção de quantificador estimada é determinada com base no ganho global estimado. Em tais modalidades, uma distorção de quantificador estimada pode ser determinada com base em uma potência do ganho estimado. Quando o quantificador usado no primeiro algoritmo de codificação é um quantificador escalar uniforme, o primeiro estimador pode ser configurado para determinar a distorção de quantificador estimada com o uso da fórmula D = G*G/12, em que D é a distorção de quantificador estimada e G é o ganho global estimado. No caso de o primeiro algoritmo de codificação usar um outro quantificador, a distorção de quantificador pode ser determinada a partir do ganho global de uma maneira diferente.

[044] Os inventores concluíram que uma medição de qualidade, como uma SNR segmentar, que seria obtida quando se codifica e decodifica a porção do sinal de áudio com o uso do primeiro algoritmo de codificação, como o algoritmo de TCX, pode ser estimada de uma maneira apropriada através do uso dos recursos acima em qualquer combinação dos mesmos.

[045] Em modalidades da invenção, a primeira medição de qualidade é uma SNR segmentar e a SNR segmentar é estimada através do cálculo de uma SNR estimada associada a cada uma dentre uma pluralidade de subporções da porção do sinal de áudio com base em uma energia da subporção correspondente do sinal de áudio ponderado e na distorção de quantificador estimada e através do cálculo de uma média das SNRs associadas às subporções da porção do sinal de áudio ponderado para obter a SNR segmentar estimada para a porção do sinal de áudio ponderado.

[046] Em modalidades da invenção, uma distorção de livro de código adaptativo estimada introduzida por um livro de código adaptativo usado no segundo algoritmo de codificação mediante o uso do livro de código adaptativo para codificar a porção do sinal de áudio é determinada, e a segunda medição de qualidade é estimada com base em uma energia da porção do sinal de áudio ponderado e na distorção de livro de código adaptativo estimada.

[047] Em tais modalidades, para cada uma dentre uma pluralidade de subporções da porção do sinal de áudio, o livro de código adaptativo pode ser aproximado com base em uma versão da subporção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, um ganho de livro de código adaptativo pode ser estimado de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e uma distorção de livro de código adaptativo estimada pode ser determinada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo.

[048] Em modalidades da invenção, a distorção de livro de código adaptativo estimada determinada para cada subporção da porção do sinal de áudio pode ser reduzida por um fator constante a fim de levar em consideração uma redução da distorção que é alcançada por um livro de código inovador no segundo algoritmo de codificação.

[049] Em modalidades da invenção, a segunda medição de qualidade é uma SNR segmentar e a SNR segmentar é estimada através do cálculo de um SNR estimada associada a cada subporção com base na energia da subporção correspondente do sinal de áudio ponderado e na distorção de livro de código adaptativo estimada e através do cálculo de uma média das SNRs associadas às subporções para obter a SNR segmentar estimada.

[050] Em modalidades da invenção, o livro de código adaptativo é aproximado com base em uma versão da porção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, um ganho de livro de código adaptativo é estimado de modo que um erro entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e a distorção de livro de código adaptativo estimada é determinada com base na energia entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo. Dessa forma, a distorção de livro de código adaptativo estimada pode ser determinada com baixa complexidade.

[051] Os inventores concluíram que a medição de qualidade, como uma SNR segmentar, que seria obtida quando se codifica e decodifica a porção do sinal de áudio com o uso do segundo algoritmo de codificação, como um algoritmo de ACELP, pode ser estimada de uma maneira apropriada através do uso dos recursos acima em qualquer combinação dos mesmos.

[052] Em modalidades da invenção, um mecanismo de histerese é usado na comparação das medições de qualidade estimadas. Isso pode tornar a decisão de qual algoritmo deve ser usado mais estável. O mecanismo de histerese pode depender das medições de qualidade estimadas (como a diferença entre as mesmas) e outros parâmetros, como estatísticas sobre decisões anteriores, o número de quadros temporalmente estacionários, transientes nos quadros. Quanto aos mecanismos de histerese, pode ser feita referência ao documento WO 2012/110448 A1, por exemplo.

[053] Em modalidades da invenção, um codificador para codificar um sinal de áudio compreende o aparelho 10, um estágio para executar o primeiro algoritmo de codificação e um estágio para executar o segundo algoritmo de codificação, em que o codificador é configurado para codificar a porção do sinal de áudio com o uso do primeiro algoritmo de codificação ou do segundo algoritmo de codificação dependendo da seleção pelo controlador 16. Em modalidades da invenção, um sistema para codificar e decodificar compreende o codificador e um decodificador configurados para receber a versão codificada da porção do sinal de áudio e uma indicação do algoritmo usado para codificar a porção do sinal de áudio e para decodificar a versão codificada da porção do sinal de áudio com o uso do algoritmo indicado.

[054] Tal algoritmo de seleção de modo de ciclo aberto como mostrado na Figura 1 e descrito acima (exceto para o filtro 2) é descrito em um pedido anterior PCT/EP2014/051557. Esse algoritmo é usado para realizar uma seleção entre dois modos, como ACELP e TCX, em uma base de quadro a quadro. A seleção pode ser baseada em uma estimativa da SNR segmentar tanto de ACELP quanto de TCX. O modo com a SNR segmentada de melhor estimativa é selecionado. Opcionalmente, um mecanismo de histerese pode ser usado para fornecer uma seleção mais robusta. A SNR segmentar de ACELP pode ser estimada com o uso de uma aproximação da distorção de livro de código adaptativo e uma aproximação da distorção do livro de código inovador. O livro de código adaptativo pode ser aproximado no domínio de sinal ponderado com o uso de um intervalo de tom estimado um algoritmo de análise de tom. A distorção pode ser computada no domínio de sinal ponderado considerando um ganho ideal. A distorção pode, então, ser reduzia por um fator constante, aproximando a distorção de livro de código inovadora. A SNR segmentar de TCX pode ser estimada com o uso de uma versão simplificada do codificador de TCX real. O sinal de entrada pode primeiramente ser transformado com uma MDCT e, então, conformado com o uso de um filtro de LPC ponderado. Finalmente, a distorção pode ser estimada no domínio de MDCT ponderado, com o uso de um ganho global e um estimador de ganho global.

[055] Constatou-se que esse algoritmo de seleção de modo de ciclo aberto como descrito no pedido anterior fornece a decisão esperada na maior parte do tempo, selecionando ACELP em sinais do tipo fala e do tipo transiente e TCX em sinais do tipo música ou do tipo ruído. Entretanto, os inventores concluíram que pode ocorrer algumas vezes a seleção de ACELP em alguns sinais de música harmônicos. Em tais sinais, o livro de código adaptativo tem geralmente um ganho de predição alto, devido à alta capacidade de predição de sinais harmônicos, produzindo baixa e, então, SNR segmentar mais alta do que TCX. Entretanto, a TCX soa melhor na maioria dos sinais musicais harmônicos, então, a TCX deve ser preferencial nesses casos.

[056] Dessa forma, a presente invenção sugere a execução da estimativa da SNR ou da SNR segmentar como a primeira medição de qualidade com o uso de uma versão do sinal de entrada, que é filtrada para reduzir os harmônicos da mesma. Dessa forma, uma seleção de modo aprimorada em sinais musicais harmônicos pode ser obtida.

[057] Em geral, qualquer filtro adequado para reduzir harmônicos poderia ser usado. Em modalidades da invenção, o filtro é um filtro de predição de longo prazo. Um exemplo simples de um filtro de predição de longo prazo é

[058]

[059] em que os parâmetros de filtro são o ganho “g” e o intervalo de tom “T”, que são determinados a partir do sinal de áudio.

[060] As modalidades da invenção são baseadas em um filtro de predição de longo prazo que é aplicado ao sinal de áudio antes da análise de MDCT na estimativa de SNR segmentar de TCX. O filtro de predição de longo prazo reduz a amplitude dos harmônicos no sinal de entrada antes da análise de MDCT. A consequência é que a distorção no domínio de MDCT ponderado é reduzida, a SNR segmentar estimada de TCX é aumentada e, finalmente, a TCX é selecionada mais frequentemente em sinais musicais harmônicos.

[061] Em modalidades da invenção, uma função de transferência do filtro de predição de longo prazo compreende uma parte de número inteiro de um intervalo de tom e um filtro de derivação múltipla dependendo de uma parte de fração do intervalo de tom. Isso permite uma implantação eficiente, uma vez que a parte de número inteiro é usada na estrutura de taxa de amostragem normal (z~Tint) apenas. Ao mesmo tempo, a alta precisão devido ao uso da parte de fração no filtro de derivação múltipla pode ser alcançada. Considerando-se a parte de fração no filtro de derivação múltipla, a remoção da energia dos harmônicos pode ser alcançada enquanto a remoção de energia de porções próximas aos harmônicos é evitada.

[062] Em modalidades da invenção, o filtro de predição de longo prazo é descrito da seguinte forma:

[063]

[064] em que Tint e Tfr sendo a parte de número inteiro e fração de um intervalo de tom, g é um ganho, é um peso e B(z,Tfr) é um filtro passa-baixa FIR cujos coeficientes dependem da parte de fração do intervalo de tom. Os detalhes adicionais sobre as modalidades de tal filtro de predição de longo prazo serão apresentados abaixo.

[065] O intervalo de tom e o ganho podem ser estimados em uma base de quadro a quadro.

[066] O filtro de predição pode ser desativado (ganho=0) com base em uma combinação de uma ou mais medições de harmonicidade (por exemplo, correlação normalizada ou ganho de predição) e/ou um ou mais medições de estrutura temporal (por exemplo, medição de achatamento temporal ou alteração de energia).

[067] O filtro pode ser aplicado ao sinal de áudio de entrada em uma base de quadro a quadro. Se os parâmetros de filtro alterarem de um quadro para o próximo, uma descontinuidade pode ser introduzida no limite entre dois quadros. Em modalidades, o aparelho compreende adicionalmente uma unidade para remover descontinuidades no sinal de áudio ocasionadas pelo filtro. Para remover as descontinuidades possíveis, qualquer técnica pode ser usada, como as técnicas comparáveis com aquelas descritas nos documentos US5012517, EP0732687A2, US5999899A ou US7353168B2. Uma outra técnica para remover possíveis descontinuidades é descrita abaixo.

[068] Antes de descrever uma modalidade do primeiro estimador 12 e do segundo estimador 14 em detalhes em referência à Figura 3, uma modalidade de um codificador 20 é descrita em referência à Figura 2.

[069] O codificador 20 compreende o primeiro estimador 12, o segundo estimador 14, o controlador 16, uma unidade de pré-processamento 22, um comutador 24, um primeiro estágio de codificador 26 configurado para executar um algoritmo de TCX, um segundo estágio de codificador 28 configurado para executar um algoritmo de ACELP e uma interface de saída 30. A unidade de pré-processamento 22 pode ser parte de um codificador USAC comum e pode ser configurada para emitir os coeficientes de LPC, os coeficientes de LPC ponderados, o sinal de áudio ponderado e um conjunto de intervalos de tom. Deve ser observado que todos esses parâmetros são usados em ambos os algoritmos de codificação, isto é, o algoritmo de TCX e o algoritmo de ACELP. Dessa forma, tais parâmetros não precisam ser computados para a decisão de modo de ciclo aberto adicionalmente. A vantagem de usar parâmetros já computados na decisão de modo de ciclo aberto é a economia em complexidade.

[070] Como mostrado na Figura 2, o aparelho compreende o filtro de redução de harmônicos 2. O aparelho compreende adicionalmente uma unidade de desativação opcional 4 para desativar o filtro de redução de harmônicos 2 com base em uma combinação de uma ou mais medições de harmonicidade (por exemplo, correlação normalizada ou ganho de predição) e/ou uma ou mais medições de estrutura temporal (por exemplo, medição de achatamento temporal ou alteração de energia). O aparelho compreende uma unidade de remoção de descontinuidade opcional 6 para remover as descontinuidades da versão filtrada do sinal de áudio. Além disso, o aparelho compreende opcionalmente uma unidade 8 para estimar os parâmetros de filtro do filtro de redução de harmônicos 2. Na Figura 2, esses componentes (2, 4, 6 e 8) são mostrados como sendo parte do primeiro estimador 12. Deduz-se que esses componentes podem ser implantados externos ou separados do primeiro estimador e pode, ser configurados para fornecer a versão filtrada do sinal de áudio para o primeiro estimador.

[071] Um sinal de áudio de entrada 40 é fornecido em uma linha de entrada. O sinal de áudio de entrada 40 é aplicado ao primeiro estimador 12, à unidade de pré-processamento 22 e a ambos os estágios de codificador 26, 28. No primeiro estimador 12, o sinal de áudio de entrada 40 é aplicado ao filtro 2 e a versão filtrada do sinal de áudio de entrada é usada na estimativa da primeira medição de qualidade. No caso em que o filtro é desativado pela unidade de desativação 4, o sinal de áudio de entrada 40 é usado na estimativa da primeira medição de qualidade, em vez de na versão filtrada do sinal de áudio de entrada. A unidade de pré-processamento 22 processa o sinal de áudio de entrada de uma maneira convencional para derivar coeficientes de LPC e coeficientes de LPC ponderados 42 e para filtrar o sinal de áudio 40 com os coeficientes de LPC ponderados 42 para obter o sinal de áudio ponderado 44. A unidade de pré-processamento 22 emite os coeficientes de LPC ponderados 42, o sinal de áudio ponderado 44 e um conjunto de intervalos de tom 48. Como entendido por aqueles elementos versados na técnica, os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44 podem ser segmentados em quadros ou subquadros. A segmentação pode ser obtida através do janelamento do sinal de áudio de uma maneira apropriada.

[072] Em modalidades alternativas, um pré-processador pode ser fornecido, o qual é configurado para gerar coeficientes de LPC ponderados e um sinal de áudio ponderado com base na versão filtrada do sinal de áudio. Os coeficientes de LPC ponderados e o sinal de áudio ponderado, que são baseados na versão filtrada do sinal de áudio, são, então, aplicados ao primeiro estimador para estimar a primeira medição de qualidade, em vez de aos coeficientes de LPC ponderados 42 e ao sinal de áudio ponderado 44.

[073] Em modalidades da invenção, os coeficientes de LPC quantificados ou coeficientes de LPC ponderados quantificados podem ser usados. Dessa forma, deve ficar entendido que o termo “coeficientes de LPC” se destina a abranger “coeficientes de LPC quantificados” também, e o termo “coeficientes de LPC ponderados” se destina a abranger “coeficientes de LPC ponderados quantificados” também. A esse respeito, vale observar que o algoritmo de TCX de USAC usa os coeficientes de LPC ponderados quantificados para conformar o espectro de MCDT.

[074] O primeiro estimador 12 recebe o sinal de áudio 40, os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44, estima a primeira medição de qualidade 46 com base nos mesmos e emite a primeira medição de qualidade para o controlador 16. O segundo estimador 16 recebe o sinal de áudio ponderado 44 e o conjunto de intervalos de tom 48, estima a segunda medição de qualidade 50 com base nos mesmos e emite a segunda medição de qualidade 50 para o controlador 16. Como conhecido pelos elementos versados na técnica, os coeficientes de LPC ponderados 42, o sinal de áudio ponderado 44 e o conjunto de intervalos de tom 48 já são computados em um módulo anterior (isto é, a unidade de pré-processamento 22) e, portanto, estão disponíveis sem custo.

[075] O controlador toma uma decisão para selecionar o algoritmo de TCX ou o algoritmo de ACELP com base em uma comparação das medições de qualidade recebidas. Como indicado acima, o controlador pode usar um mecanismo de histerese na decisão de qual algoritmo deve ser usado. A seleção do primeiro estágio de codificador 26 ou do segundo estágio de codificador 28 é esquematicamente mostrada na Figura 2 por meio do comutador 24 que é controlado por um sinal de controle 52 emitido pelo controlador 16. O sinal de controle 52 indica se o primeiro estágio de codificador 26 ou o segundo estágio de codificador 28 deve ser usado. Com base no sinal de controle 52, os sinais requeridos esquematicamente indicados pela seta 54 na Figura 2 e que incluem pelo menos os coeficientes de LPC, os coeficientes de LPC ponderados, o sinal de áudio, o sinal de áudio ponderado e o conjunto de intervalos de tom são aplicados ao primeiro estágio de codificador 26 ou ao segundo estágio de codificador 28. O estágio de codificador selecionado aplica o algoritmo de codificação associado e emite a representação codificada 56 ou 58 para a interface de saída 30. A interface de saída 30 pode ser configurada para emitir um sinal de áudio codificado 60 que pode compreender, dentre outros dados, a representação codificada 56 ou 58, os coeficientes de LPC ou coeficientes de LPC ponderados, os parâmetros para o algoritmo de codificação selecionado e informações sobre o algoritmo de codificação selecionado.

[076] As modalidades específicas para estimar a primeira e a segunda medições de qualidade, em que as primeira e segunda medições de qualidade são SNRs segmentares no domínio de sinal ponderado, são agora descritas em referência à Figura 3. A Figura 3 mostra o primeiro estimador 12 e o segundo estimador 14 e as funcionalidades dos mesmos na forma de fluxogramas que mostram a respectiva estimativa passo a passo.

[077] Estimativa da SNR Segmentar de TCX

[078] O primeiro (TCX) estimador recebe o sinal de áudio 40 (sinal de entrada), os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44 como entradas. A versão filtrada do sinal de áudio 40 é gerada na etapa 98. Na versão filtrada do sinal de áudio 40, os harmônicos são reduzidos ou suprimidos.

[079] O sinal de áudio 40 pode ser analisado para determinar uma ou mais medições de harmonicidade (por exemplo, correlação normalizada ou ganho de predição) e/ou uma ou mais medições de estrutura temporal (por exemplo, medição de achatamento temporal ou alteração de energia). Com base em uma dessas medições ou uma combinação dessas medições, o filtro 2 e, portanto, a filtragem 98 podem ser desativados. Se a filtragem 98 for desativada, a estimativa da primeira medição de qualidade é executada com o uso do sinal de áudio 40 em vez da versão filtrada do mesmo.

[080] Em modalidades da invenção, uma etapa de remoção de descontinuidades (não mostrada na Figura 3) pode proceder a filtragem 98 a fim de remover as descontinuidades no sinal de áudio, o que pode resultar da filtragem 98.

[081] Na etapa 100, a versão filtrada do sinal de áudio 40 é janelada. O janelamento pode ocorrer com uma janela de seno de sobreposição baixa de 10ms. Quando o quadro passado é ACELP, o tamanho de bloco pode ser aumentado em 5ms, o lado esquerdo da janela pode ser retangular e a resposta de impulso zero janelada do filtro de síntese de ACELP pode ser removida do sinal de entrada janelado. Isso é similar ao que é feito no algoritmo de TCX. Um quadro da versão filtrada do sinal de áudio 40, que representa uma porção do sinal de áudio, é emitido a partir da etapa 100.

[082] Na etapa 102, o sinal de áudio janelado, isto é, o quadro resultante, é transformado com uma MDCT (transformada discreta de cosseno modificada). Na etapa 104, a conformação de espectro é executada através da conformação do espectro de MDCT com os coeficientes de LPC ponderados.

[083] Na etapa 106, um ganho global G é estimado de modo que o espectro ponderado quantificado com ganho G produziria um determinado alvo R, quando codificado com um codificador por entropia, por exemplo, um codificador aritmético. O termo “ganho global” é usado, uma vez que um ganho é determinado para todo o quadro.

[084] Um exemplo de uma implantação da estimativa de ganho global é agora explicado. Deve ser observado que essa estimativa de ganho global é apropriada para modalidades nas quais o algoritmo de codificação de TCX usa um quantificador escalar com um codificador aritmético. Tal quantificador escalar com um codificador aritmético é considerado no padrão MPEG USAC.

[085] Inicialização

[086] Primeiramente, as variáveis usadas em estimativa de ganho são inicializadas por:

[087] Definir en[i] = 9,0 + 10,0*log10(c[4*i+0] + c[4*i+1] + c[4*i+2] + c[4*i+3]),

[088] em que 0<=i<L/4, c[] é o vetor de coeficientes para quantificação, e L é o comprimento de c[].

[089] 2. Definir fac = 128, compensação = fac e alvo = qualquer valor (por exemplo, 1000)

[090] Iteração

[091] Então, o seguinte bloco de operações é executado NITER vezes (por exemplo, aqui, NITER = 10).

[092] fac = fac/2

[093] compensação = compensação - fac

[094] ener = 0

[095] para cada i em que 0<=i<L/4, fazer o seguinte:

[096] se en[i]-compensação > 3,0, então, ener = ener + en[i]-compensação

[097] 5. se ener > alvo, então, compensação = compensação + fac

[098] O resultado da iteração é o valor de compensação. Após a iteração, o ganho global é estimado como G = 10A(compensação/20).

[099] A maneira específica na qual o ganho global é estimado pode variar dependendo do quantificador e do codificador por entropia usado. No padrão MPEG USAC, um quantificador escalar com um codificador aritmético é considerado. Outras abordagens de TCX podem usar um quantificador diferente e deve ser entendido por aqueles elementos versados na técnica como estimar o ganho global para tais quantificadores diferentes. Por exemplo, o padrão AMR-WB+ considera que um quantificador de malha RE8 é usado. Para tal quantificador, a estimativa do ganho global poderia ser estimada como descrito no capítulo 5.3.5.7 na página 34 de 3GPP TS 26.290 V6.1.0 2004-12, em que uma taxa de bit-alvo fixa é considerada.

[100] Após ter estimado o ganho global na etapa 106, a estimativa de distorção ocorre na etapa 108. Para ser mais específico, a distorção de quantificador é aproximada com base no ganho global estimado. Na presente modalidade, considera-se que um quantificador escalar uniforme é usado. Dessa forma, a distorção de quantificador é determinada com a fórmula simples D=G*G/12, na qual D representa a distorção de quantificador determinada e G representa o ganho global estimado. Isso corresponde à aproximação de taxa alta de uma distorção de quantificador escalar uniforme.

[101] Com base na distorção de quantificador determinada, o cálculo de SNR segmentar é executado na etapa 110. A SNR em cada subquadro do quadro é calculada como a razão da energia de sinal de áudio ponderado e da distorção D que é considerada como constante nos subquadros. Por exemplo, o quadro é dividido em quatro subquadros consecutivos (consulte a Figura 4). A SNR segmentar é, então, a média das SNRs dos quatro subquadros e pode ser indicada em dB.

[102] Essa abordagem permite a estimativa da primeira SNR segmentar que seria obtida quando, de fato, se codifica e decodifica o quadro em questão com o uso do algoritmo de TCX, entretanto, sem ter que codificar e decodificar de fato o sinal de áudio e, portanto, com uma complexidade fortemente reduzida e tempo de computação reduzido.

[103] Estimativa da SNR Segmentar de ACELP

[104] O segundo estimador 14 recebe o sinal de áudio ponderado 44 e o conjunto de intervalos de tom 48 que já está computado na unidade de pré- processamento 22.

[105] Como mostrado na etapa 112, em cada subquadro, o livro de código adaptativo é aproximado simplesmente através do uso do sinal de áudio ponderado e do intervalo de tom T. O livro de código adaptativo é aproximado por

[106] xw(n-T), n = 0, ..., N

[107] em que xw é o sinal de áudio ponderado, T é o intervalo de tom do subquadro correspondente e N é o comprimento de subquadro. Consequentemente, o livro de código adaptativo é aproximado através do uso de uma versão do subquadro deslocado para o passado por T. Dessa forma, em modalidades da invenção, o livro de código adaptativo é aproximado de uma maneira muito simples.

[108] Na etapa 114, um ganho de livro de código adaptativo para cada subquadro é determinado. Para ser mais específico, em cada subquadro, o ganho de livro de código G é estimado de modo que minimize o erro entre o sinal de áudio ponderado e o livro de código adaptativo aproximado. Isso pode ser feito simplesmente através da comparação das diferenças entre ambos os sinais para cada amostra e da conclusão de um ganho de modo que a soma dessas diferenças seja mínima.

[109] Na etapa 116, a distorção de livro de código adaptativo para cada subquadro é determinada. Em cada subquadro, a distorção D introduzida pelo livro de código adaptativo é simplesmente a energia do erro entre o sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho G.

[110] As distorções determinadas na etapa 116 podem ser ajustadas em uma etapa opcional 118 a fim de considerar o livro de código inovador. A distorção do livro de código inovador usado em algoritmos de ACELP pode ser simplesmente estimada como um valor constante. Na modalidade descrita da invenção, considera-se simplesmente que o livro de código inovador reduz a distorção D por um fator constante. Dessa forma, as distorções obtidas na etapa 116 para cada subquadro podem ser multiplicadas na etapa 118 por um fator constante, como um fator constante na ordem de 0 a 1, como 0,055.

[111] Na etapa 120, ocorre o cálculo da SNR segmentar. Em cada subquadro, a SNR é calculada como a razão do sinal de áudio ponderado energia e da distorção D. A SNR segmentar é, então, a média da SNR dos quatro subquadros e pode ser indicada em dB.

[112] Essa abordagem permite a estimativa da segunda SNR que seria obtida quando de fato se codifica e decodifica o quadro em questão com o uso do algoritmo de ACELP, entretanto, sem ter que codificar e decodificar de fato o sinal de áudio e, portanto, com uma complexidade fortemente reduzida e tempo de computação reduzido.

[113] Os primeiro e segundo estimadores 12 e 14 emitem as SNRs segmentares estimadas 46, 50 para o controlador 16 e o controlador 16 toma uma decisão de qual algoritmo deve ser usado para a porção associada do sinal de áudio com base nas SNRs segmentares estimadas 46, 50. O controlador pode usar opcionalmente um mecanismo de histerese a fim de tornar a decisão mais estável. Por exemplo, o mesmo mecanismo de histerese que na decisão de ciclo fechado pode ser usado com parâmetros de sintonização levemente diferentes. Tal mecanismo de histerese pode computar um valor “dsnr” que pode depender das SNRs segmentares estimadas (como a diferença entre as mesmas) e outros parâmetros, como estatísticas sobre decisões anteriores, o número de quadros temporalmente estacionários e transientes nos quadros.

[114] Sem um mecanismo de histerese, o controlador pode selecionar o algoritmo de codificação que tem a SNR estimada mais alta, isto é, a ACELP é selecionada se a segunda SNR estimada for maior que a primeira SNR estimada e a TCX é selecionada se a primeira SNR estimada for maior que a segunda SNR estimada. Com um mecanismo de histerese, o controlador pode selecionar o algoritmo de codificação de acordo com a seguinte regra de decisão, em que acelp_snr é a segunda SNR estimada e tcx_snr é a primeira SNR estimada:

[115] se acelp_snr + dsnr > tcx_snr, então, selecionar ACELP, de outro modo, selecionar TCX.

[116] Determinação dos Parâmetros do Filtro para Redução da

Amplitude dos Harmônicos

[117] Uma modalidade para determinar os parâmetros do filtro para reduzir a amplitude dos harmônicos é agora descrita. Os parâmetros de filtro podem ser estimados no lado do codificador, como na unidade 8.

[118] Estimativa de Tom

[119] Um intervalo de tom (parte de número inteiro + parte de fração) por quadro é estimado (tamanho de quadro, por exemplo, 20ms).

[120] Isso é feito em três etapas para reduzir a complexidade e para aprimorar a precisão de estimativa.

[121] Primeira Estimativa da Parte de Número Inteiro do Intervalo de Tom

[122] Um algoritmo de análise de tom que produz um contorno de evolução de tom suave é usado (por exemplo, Open-loop Pitch Analysis descrita em Rec. ITU-T G.718, seção 6.6). Essa análise é geralmente feita em uma base de subquadro (tamanho de subquadro, por exemplo, 10ms) e produz uma estimativa de intervalo de tom por subquadro. Observa-se que essas estimativas de intervalo de tom não possuem qualquer parte de fração e são geralmente estimadas em um sinal de amostragem reduzida (taxa de amostragem, por exemplo, 6400Hz). O sinal usado pode ser qualquer sinal de áudio, por exemplo, um sinal de áudio ponderado de LPC como descrito em Rec. ITU-T G.718, seção 6.5).

[123] b) Refino da Parte de Número Inteiro Tint do Intervalo de Tom

[124] A parte de número inteiro final do intervalo de tom é estimada em um sinal de áudio x[n] que percorre a taxa de amostragem de codificador de núcleo, que é geralmente mais alta que a taxa de amostragem do sinal de amostragem reduzida usada em a) (por exemplo 12,8kHz, 16kHz, 32kHz...). O sinal x[n] pode ser qualquer sinal de áudio, por exemplo, um sinal de áudio ponderado de LPC.

[125] A parte de número inteiro Tint do intervalo de tom é, então, o intervalo que maximiza a função de autocorrelação

[126]

[127] com d em torno de um intervalo de tom T estimado em a).

[128]

[129] c) Estimativa da Parte de Fração Tfr do Intervalo de Tom

[130] A parte de fração Tfr é encontrada através da interpolação da função de autocorrelação C(d) computada na etapa b) e da seleção do intervalo de tom de fração que maximiza a função de autocorrelação interpolada. A interpolação pode ser executada com o uso de um filtro de FIR passa-baixa como descrito, por exemplo, em Rec. ITU-T G.718, seção 6.6.7).

[131] ] Estimativa de Ganho e Quantificação

[132] O ganho é geralmente estimado no sinal de áudio de entrada na taxa de amostragem de codificador de núcleo, mas também pode ser qualquer sinal de áudio como o sinal de áudio ponderado de LPC. Esse sinal é observado como y[n] e pode ser igual ou diferente de x[n].

[133] A predição yP[n] de y[n] é primeiramente encontrada através da filtragem y[n] com o seguinte filtro

[134]

[135] com Tint a parte de número inteiro do intervalo de tom (estimada em b)) e B(z,Tfr) um filtro de FIR passa-baixa cujos coeficientes dependem da parte de fração do intervalo de tom Tfr (estimada em c)).

[136] Um exemplo de B(z) quando a resolução de intervalo de tom é %:

[137] O ganho g é, então, computado da seguinte forma:

[138]

[139] e limitado entre 0 e 1.

[140] Finalmente, o ganho g é quantificado, por exemplo, em 2 bits, com o uso de, por exemplo, quantificação uniforme.

[141] β é usado para controlar a intensidade do filtro. β igual a 1 produz efeitos completos. β igual a 0 desativa o filtro. Dessa forma, em modalidades da invenção, o filtro pode ser desativado através de definição de β para um valor de 0. Em modalidades da invenção, se o filtro for ativado, β pode ser definido para um valor entre 0,5 e 0,75. Em modalidades da invenção, se o filtro for ativado, β pode ser definido para um valor de 0,625. Um exemplo de B(z,Tfr) é dado acima. A ordem e os coeficientes de B(z,Tfr) também podem depender da taxa de bit e da taxa de amostragem de saída. Uma resposta de frequência diferente pode ser designada e sintonizada para cada combinação de taxa de bit e taxa de amostragem de saída.

[142] Desativação do Filtro

[143] O filtro pode ser desativado com base em uma combinação de uma ou mais medições de harmonicidade e/ou uma ou mais medições de estrutura temporal. Os exemplos de tais medições são descritos abaixo:

[144] medição de harmonicidade como a correlação normalizada no intervalo de tom de número inteiro estimado na etapa b).

[145]

[146] A correlação normalizada é 1 se o sinal de entrada for perfeitamente previsível pelo intervalo de tom de número inteiro, e 0 se não for previsível de fato. Um valor alto (próximo a 1) indicaria, então, um sinal harmônico. Para uma decisão mais robusta, a correlação normalizada do quadro passado pode também ser usada na decisão, por exemplo:

[147] se (norm.corr(curr.)*norm.corr.(prev.)) > 0,25, então, o filtro não é desativado

[148] ii) Medições de estrutura temporal computadas, por exemplo, com base em amostras de energia também usadas por um detector transiente para detecção transiente (por exemplo, medição de achatamento temporal, alteração de energia), por exemplo

[149] se (medição de achatamento temporal > 3,5 ou alteração de energia > 3,5), então, o filtro é desativado.

[150] Mais detalhes a respeito da determinação de uma ou mais medições de harmonicidade são apresentados abaixo.

[151] A medição de harmonicidade é, por exemplo, computada por uma correlação normalizada do sinal de áudio ou uma versão pré-modificada do mesmo em ou em torno do intervalo de tom. O intervalo de tom poderia ainda ser determinado em estágios que compreendem um primeiro estágio e um segundo estágio, em que, dentro do primeiro estágio, uma estimativa preliminar do intervalo de tom é determinada em um domínio de amostragem reduzida de uma primeira taxa de amostra e, dentro do segundo estágio, a estimativa preliminar do intervalo de tom é refinada em uma segunda taxa de amostra, maior que a primeira taxa de amostra. O intervalo de tom é, por exemplo, determinado com o uso de autocorrelação. A pelo menos uma medição de estrutura temporal é, por exemplo, determinada dentro de uma região temporal temporalmente colocada dependendo das informações de tom. Uma extremidade de cabeçalho temporalmente passada da região temporal é, por exemplo, colocada dependendo das informações de tom. A extremidade de cabeçalho passada temporal da região temporal pode ser colocada de modo que a extremidade de cabeçalho temporalmente passada da região temporal seja deslocada para a direção passada por uma quantidade temporal monotonicamente crescente com um aumento das informações de tom. A extremidade de cabeçalho temporalmente futura da região temporal pode ser posicionada dependendo da estrutura temporal do sinal de áudio dentro de uma região candidata temporal que se estende a partir da extremidade de cabeçalho temporalmente passada da região temporal ou, da região de maior influência na determinação da medição de estrutura temporal, para uma extremidade de cabeçalho temporalmente futura de um quadro atual. A amplitude ou a razão entre amostras de energia máximas e mínimas dentro da região candidata temporal pode ser usada para essa finalidade. Por exemplo, a pelo menos uma medição de estrutura temporal pode medir uma média ou variação máxima de energia do sinal de áudio dentro da região temporal e uma condição de desativação pode ser satisfeita se tanto a pelo menos uma medição de estrutura temporal for menor que um primeiro limite predeterminado quanto a medição de harmonicidade for, para um quadro atual e/ou um quadro anterior, acima de um segundo limite. A condição é também satisfeita se a medição de harmonicidade for, para um quadro atual, acima de um terceiro limite, e a medição de harmonicidade for, para um quadro atual e/ou um quadro anterior, acima um quarto limite que diminui com um aumento do intervalo de tom.

[152] Uma descrição passo a passo de uma modalidade concreta para determinar as medições é apresentada agora.

[153] Etapa 1 Detecção Transiente e Medições Temporais

[154] O sinal de entrada sHP (n) é inserido no detector transiente de domínio de tempo. O sinal de entrada sHP (n) é filtrado com filtro passa-alta. A função de transferência do filtro HP de detecção transiente é dada por

[155]

[156] O sinal, filtrado pelo filtro HP de detecção transiente, é denotado como sTD (n) . O sinal filtrado por HP sTD (n) é segmentado em 8 segmentos consecutivos do mesmo comprimento. A energia do sinal filtrado por HP sTD (n) para cada segmento é calculado como:

[157]

[158] em que

8 é o número de amostras em segmento de 2,5 milissegundos na frequência de amostragem de entrada.

[159] Uma energia acumulada é calculada com o uso de:

[160]

[161] um ataque é detectado se a energia de um segmento ETD (i) excede a energia acumulada por um fator constante attackRatío = 8,5 e o attackIndex é definido comoi :

[162]

[163] se nenhum ataque for detectado com base nos critérios acima, mas um aumento de energia forte é detectado no segmento i, o attackIndex é definido como i sem indicar a presença de um ataque. O attackIndex é basicamente definido como a posição do último ataque em um quadro com algumas restrições adicionais.

[164] A alteração de energia para cada segmento é calculada da seguinte forma:

[165]

[166] A medição de achatamento temporal é calculada da seguinte forma:

[167]

[168] A alteração de energia máxima é calculada da seguinte forma:

[169]

[170] Se o índice de

for negativo, então, isso indica um valor do segmento anterior, com a indexação de segmento relativa ao quadro atual.

[171]

é o número dos segmentos dos quadros passados. É igual a 0 se a medição de achatamento temporal for calculada para o uso na decisão de ACELP/TCX. Se a medição de achatamento temporal for calculada para a decisão de TCX LTP, então, é igual a:

[172]

[173]

é o número de segmentos do quadro atual. É igual a 8 para quadros não transientes. Para os quadros transientes, primeiramente, as localizações dos segmentos com a energia máxima e mínima são encontradas:

[174]

[175]

[176]

então,

é definido como

, de ouro modo,

é definido como 8.

[177] Etapa 2 Comutação de Comprimento de Bloco de Transformada

[178] O comprimento de sobreposição e o comprimento de bloco de transformada da TCX são dependentes da existência de um transiente e sua localização.

[179] Tabela 1: Codificação do comprimento de sobreposição e de transformada com base na posição transiente

[180] O detector transiente descrito acima retorna basicamente para o índice do último ataque com a restrição de que se houver múltiplos transientes, então, a sobreposição MÍNIMA é preferencial em comparação a sobreposição METADE que é preferencial em comparação com a sobreposição COMPLETA. Se um ataque na posição 2 ou 6 não for forte o bastante, então, a sobreposição METADE é escolhida em vez da sobreposição MÍNIMA.

[181] Etapa 3 Estimativa de Tom

[182] Um intervalo de tom (parte de número inteiro + parte de fração) por quadro é estimado (tamanho de quadro, por exemplo, 20ms) como apresentado em 3 etapas a) a c) para reduzir a complexidade e aprimorar a precisão de estimativa.

[183] Etapa 4 Bit de Decisão

[184] Se o sinal de áudio de entrada não contiver qualquer conteúdo harmônico ou se uma técnica à base de predição introduzisse distorções em estrutura de tempo (por exemplo, repetição de um transiente curto), então, uma decisão na qual o filtro é desativado é tomada.

[185] A decisão é feita com base em diversos parâmetros como a correlação normalizada no intervalo de tom de número inteiro e as medições de estrutura temporal.

[186] A correlação normalizada no intervalo de tom de número inteiro norm_corr é estimada como apresentado acima. A correlação normalizada é 1 se o sinal de entrada for perfeitamente previsível pelo intervalo de tom de número inteiro, e 0 se não for previsível de fato. Um valor alto (próximo a 1) indicaria, então, um sinal harmônico. Para uma decisão mais robusta, além da correlação normalizada para o quadro atual (norm_corr(curr)), a correlação normalizada do quadro passado (norm_corr(prev)) também pode ser usada na decisão, por exemplo:

[187] se (norm_corr(curr)*norm_corr(prev)) > 0,25

[188] ou

[189] se (norm_corr(curr)*norm_corr(prev)) > 0,5,

[190] então, o quadro atual contém algum conteúdo harmônico.

[191] As medições de estrutura temporal podem ser computadas por um detector transiente (por exemplo, medição de achatamento temporal (equação (6)) e alteração de energia máxima (equação (7)), para evitar a ativação do filtro em um sinal que contém um transiente forte ou grandes alterações temporais. Os recursos temporais são calculados no sinal que contém o quadro atual ( Nnew segmentos) e no quadro passado até o intervalo de tom ( N past segmentos). Para transientes do tipo gradual que estão lentamente em queda, todos ou alguns dos recursos são calculados apenas até a localização do transiente (iMAX -3), devido ao fato de que as distorções na parte não harmônica do espectro introduzido pela filtragem de LTP seriam suprimidas pelo mascaramento do transiente duradouro muito forte (por exemplo, prato de ataque).

[192] Os trens de pulso sinais de baixo tom podem ser detectados como um transiente por um detector transiente. Para os sinais com baixo tom, os recursos do detector transiente são, dessa forma, ignorados e há, em vez disso, limite adicional para a correlação normalizada que depende do intervalo de tom, por exemplo:

[193] se norm_corr <= 1,2-Tint/L , então, desativar o filtro.

[194] Um exemplo de decisão é mostrado abaixo, no qual b1 é alguma taxa de bit, por exemplo, 48 kbps, em que TCX_20 indica que o quadro é codificado com o uso de bloco longo simples, em que TCX_10 indica que o quadro é codificado com o uso de 2,3,4 ou mais blocos curtos, em que a decisão de TCX_20/TCX_10 é baseada na saída do detector transiente descrito acima. tempFlatness é a medição de achatamento temporal como definido em (6), maxenergyChange é a alteração de energia máxima como definido em (7). A condição norm_corr(curr) > 1,2-Tint/L também poderia ser escrita como (1,2-norm_corr(curr))*L < Tint.

[203] É óbvio a partir dos exemplos acima que a detecção de um transiente afeta qual mecanismo de decisão para a predição de longo prazo será usado e qual parte do sinal será usada para as medições usadas na decisão, e não que isso dispara diretamente a desativação do filtro de predição de longo prazo.

[204] As medições temporais usadas para a decisão de comprimento de transformada podem ser completamente diferentes das medições temporais usadas para a decisão de filtro de LTP ou podem sobrepor ou ser exatamente iguais, mas calculadas em diferentes regiões. Para sinais de baixo tom, a detecção de transientes pode ser ignorada completamente se o limite para a correlação normalizada que depende do intervalo de tom for alcançado.

[205] Técnica para Remover Possíveis Descontinuidades

[206] Uma técnica possível para remover descontinuidades ocasionadas pela aplicação de um filtro linear H(z) quadro a quadro é agora descrita. O filtro linear pode ser o filtro de LTP descrito. O filtro linear pode ser um filtro de FIR (resposta de impulso finito) ou um filtro de IIR (resposta de impulso infinito). A abordagem proposta não filtra uma porção do quadro atual com os parâmetros de filtro do quadro passado e, dessa forma, evita possíveis problemas de abordagens conhecidas. A abordagem proposta usa um filtro de LPC para remover a descontinuidade. Esse filtro de LPC é estimado no sinal de áudio (filtrado por um filtro sem variação de tempo linear H(z) ou não) e é, dessa forma, um bom modelo do formato espectral do sinal de áudio (filtrado por H(z) ou não). O filtro de LPC é, então, usado de modo que o formato espectral do sinal de áudio mascare a descontinuidade.

[207] O filtro de LPC pode ser estimado de diferentes maneiras. Pode ser estimado, por exemplo, com o uso do sinal de áudio (quadro atual e/ou passado) e o algoritmo Levinson-Durbin. Pode também ser computado no sinal de quadro filtrado passado, com o uso do algoritmo Levinson-Durbin.

[208] Se H(z) for usado em um codec de áudio e o codec de áudio já usar um filtro de LPC (quantificado ou não) para, por exemplo, conformar o ruído de quantificação em um codec de áudio à base de transformada, então, esse filtro de LPC pode ser diretamente usado para suavizar a descontinuidade, sem a complexidade adicional necessária para estimar um novo filtro de LPC.

[209] Abaixo é descrito o processamento do quadro atual para o caso de filtro de FIR e o caso de filtro de IIR. O quadro passado é considerado como já processado.

[210] Caso de filtro de FIR:

[211] Filtrar o quadro atual com os parâmetros de filtro do quadro atual, produzindo um quadro atual filtrado.

[212] Considerar um filtro de LPC (quantificado ou não) com ordem M, estimado no sinal de áudio (filtrado ou não).

[213] As M últimas amostras do quadro passado são filtradas com o filtro H(z) e os coeficientes do quadro atual, produzindo uma primeira porção de sinal filtrado.

[214] As últimas M amostras do quadro passado filtrado são, então, subtraídas da primeira porção de sinal filtrado, produzindo uma segunda porção de sinal filtrado.

[215] Uma Resposta de Impulso Zero (ZIR) do filtro de LPC é, então, gerada através da filtragem de um quadro de zero amostras com o filtro de LPC e estados iniciais iguais à segunda porção de sinal filtrado.

[216] A ZIR pode ser opcionalmente janelada de modo que sua amplitude vá mais rápido para 0.

[217] Uma porção inicial da ZIR é subtraída de uma porção inicial correspondente do quadro atual filtrado.

[218] Caso de filtro de IIR:

[219] Considerar um filtro de LPC (quantificado ou não) com ordem M, estimado no sinal de áudio (filtrado ou não).

[220] As M últimas amostras do quadro passado são filtradas com o filtro H(z) e os coeficientes do quadro atual, produzindo uma primeira porção de sinal filtrado.

[221] As últimas M amostras do quadro passado filtrado são, então, subtraídas da primeira porção de sinal filtrado, produzindo uma segunda porção de sinal filtrado.

[222] Uma Resposta de Impulso Zero (ZIR) do filtro de LPC é, então, gerada através da filtragem de um quadro de zero amostras com o filtro de LPC e estados iniciais iguais à segunda porção de sinal filtrado.

[223] A ZIR pode ser opcionalmente janelada de modo que sua amplitude vá mais rápido para 0.

[224] Uma porção inicial do quadro atual é, então, processada amostra por amostra começando com a primeira amostra do quadro atual.

[225] A amostra é filtrada com o filtro H(z) e os parâmetros de quadro atual, produzindo uma primeira amostra filtrada.

[226] A amostra correspondente da ZIR é, então, subtraída da primeira amostra filtrada, produzindo a amostra correspondente do quadro atual filtrado.

[227] Passar para a próxima amostra.

[228] Repetir 9 a 12 até que a última amostra da porção inicial do quadro atual seja processada.

[229] Filtrar as amostras remanescentes do quadro atual com os parâmetros de filtro do quadro atual.

[230] Consequentemente, as modalidades da invenção permitem a estimativa de SNR segmentares e a seleção de um algoritmo de codificação apropriado de uma maneira simples e precisa. Em particular, as modalidades da invenção permitem uma seleção de ciclo aberto de um algoritmo de codificação apropriado, em que a seleção inapropriada de um algoritmo de codificação no caso de um sinal de áudio que tem harmônicos é evitada.

[231] Nas modalidades acima, as SNRs segmentares são estimadas através do cálculo de uma média de SNRs estimadas para respectivos subquadros. Em modalidades alternativas, a SNR de todo um quadro poderia ser estimada sem dividir o quadro em subquadros.

[232] As modalidades da invenção permitem uma forte redução em tempo de computação em comparação com uma seleção de ciclo fechado, tendo em vista que inúmeras etapas requeridas na seleção de ciclo fechado são omitidas.

[233] Consequentemente, um grande número de etapas e o tempo de computação associado às mesmas podem ser poupados pela abordagem inventiva, enquanto ainda se permite a seleção de um algoritmo de codificação apropriado com bom desempenho.

[234] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou recurso de um aparelho correspondente.

[235] As modalidades dos aparelhos descritos no presente documento e dos recursos dos mesmos podem ser implantadas por um computador, um ou mais processadores, um ou mais microprocessadores, arranjos de porta programáveis em campo (FPGAs), circuitos integrados para aplicação específica (ASICs) e similares ou combinações dos mesmos, os quais são configurados ou programados a fim de fornecer as funcionalidades descritas.

[236] Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, alguma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.

[237] Dependendo de certos requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser executada com o uso de um meio de armazenamento não transitório como um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, um ROM, um PROM e EPROM, um EEPROM ou uma memória FLASH, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja executado. Portanto, o meio de armazenamento digital pode ser legível por computador.

[238] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja executado.

[239] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para executar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.

[240] Outras modalidades compreendem o programa de computador para executar um dos métodos descritos no presente documento, armazenado em uma portadora legível por máquina.

[241] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para executar um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.

[242] Uma modalidade adicional do método inventivo é, portanto, uma portadora de dados (ou um meio de armazenamento digital ou um meio legível por computador) que compreende, gravado no mesmo, o programa de computador para executar um dos métodos descritos no presente documento. A portadora de dados, o meio de armazenamento digital ou o meio gravado [e tipicamente tangível e/ou não transitório.

[243] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para executar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.

[244] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou programado para executar um dos métodos descritos no presente documento.

[245] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para executar um dos métodos descritos no presente documento.

[246] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para executar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou similares. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o receptor.

[247] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para executar alguma ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador a fim de executar um dos métodos descritos no presente documento. Em geral, os métodos são, de preferência, executados por qualquer aparelho de hardware.

[248] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes para outros elementos versados na técnica. Portanto, pretende-se limitar apenas ao escopo das reivindicações de patente iminentes e não aos detalhes específicos apresentados por meio de descrição e explicação das modalidades do presente documento.

Claims

1. Aparelho (10) para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio (40) para obter uma versão codificada da porção do sinal de áudio (40) caracterizado por compreender: um filtro de predição de longo prazo configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio; um primeiro estimador (12) para usar a versão filtrada do sinal de áudio na estimativa de uma SNR (razão de sinal para ruído) ou uma SNR segmentar da porção do sinal de áudio como um primeira medição de qualidade para a porção do sinal de áudio, em que a primeira medição de qualidade é associada ao primeiro algoritmo de codificação, em que a estimativa da dita primeira medição de qualidade compreende executar uma aproximação do primeiro algoritmo de codificação para obter uma estimativa de distorção do primeiro algoritmo de codificação e para estimar a primeira medição de qualidade com base na porção do sinal de áudio e na estimativa de distorção do primeiro algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação; um segundo estimador (14) para estimar uma SNR ou uma SNR segmentar como uma segunda medição de qualidade para a porção do sinal de áudio, em que a segunda medição de qualidade é associada ao segundo algoritmo de codificação, em que a estimativa da dita segunda medição de qualidade compreende executar uma aproximação do segundo algoritmo de codificação para obter uma estimativa de distorção do segundo algoritmo de codificação e para estimar a segunda medição de qualidade com o uso da porção do sinal de áudio e da estimativa de distorção do segundo algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e um controlador (16) para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade, em que o primeiro algoritmo de codificação é um algoritmo de codificação por transformada, um algoritmo de codificação baseado em MDCT (transformada discreta de cosseno modificada) ou um algoritmo de codificação de TCX (excitação de codificação por transformada) e em que o segundo algoritmo de codificação é um algoritmo de codificação de CELP (predição linear excitada por código) ou um algoritmo de codificação de ACELP (predição linear excitada por código algébrico) algoritmo de codificação.

2. Aparelho (10), de acordo com a reivindicação 1, caracterizado por uma função de transferência do filtro de predição de longo prazo compreender uma parte de número inteiro de um intervalo de tom e um filtro de derivação múltipla dependendo de uma parte de fração do intervalo de tom.

3. Aparelho (10), de acordo com a reivindicação 1, caracterizado por o filtro de predição de longo prazo ter a função de transferência:

com Tint e Tfr sendo a parte de número inteiro e fração de um intervalo de tom, g é um ganho, β é um peso e B(z,Tfr) é um filtro passa-baixa FIR cujos coeficientes dependem da parte de fração do tom.

4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por compreender adicionalmente uma unidade de desativação para desativar o filtro com base em uma combinação de uma ou mais medições de harmonicidade e/ou uma ou mais medições de estrutura temporal.

5. Aparelho, de acordo com a reivindicação 4, caracterizado por uma ou mais medições de harmonicidade compreenderem pelo menos um dentre uma correlação normalizada ou um ganho de predição e em que as uma ou mais medições de estrutura temporal compreendem pelo menos uma dentre uma medição de achatamento temporal e uma alteração de energia.

6. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o filtro ser aplicado ao sinal de áudio em uma base de quadro a quadro, em que o dito aparelho compreende adicionalmente uma unidade para remover descontinuidades no sinal de áudio ocasionadas pelo filtro.

7. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por os primeiro e segundo estimadores serem configurados para estimar uma SNR ou SNR segmentar de uma porção de uma versão ponderada do sinal de áudio.

8. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o primeiro estimador (12) ser configurado para determinar uma distorção de quantificador estimada que um quantificador usado no primeiro algoritmo de codificação introduziria mediante a quantificação da porção do sinal de áudio e para estimar a primeira medição de qualidade com base em uma energia de uma porção de uma versão ponderada do sinal de áudio e na distorção de quantificador estimada, em que o primeiro estimador (12) é configurado para estimar um ganho global para a porção do sinal de áudio de modo que a porção do sinal de áudio produziria uma determinada taxa de bit-alvo quando codificada com um quantificador e um codificador por entropia usado no primeiro algoritmo de codificação, em que o primeiro estimador (12) é adicionalmente configurado para determinar a distorção de quantificador estimada com base no ganho global estimado.

9. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o segundo estimador (14) ser configurado para determinar uma distorção de livro de código adaptativo estimada que um livro de código adaptativo usado no segundo algoritmo de codificação introduziria mediante o uso do livro de código adaptativo para codificar a porção do sinal de áudio, e em que o segundo estimador (14) é configurado para estimar a segunda medição de qualidade com base em uma energia de uma porção de uma versão ponderada do sinal de áudio e na distorção de livro de código adaptativo estimada, em que, para cada uma dentre uma pluralidade de subporções da porção do sinal de áudio, o segundo estimador (14) é configurado para aproximar o livro de código adaptativo com base em uma versão da subporção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, para estimar um ganho de livro de código adaptativo de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e para determinar a distorção de livro de código adaptativo estimada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo.

10. Aparelho (10), de acordo com a reivindicação 9, caracterizado por o segundo estimador (14) ser adicionalmente configurado para reduzir a distorção de livro de código adaptativo estimada determinada para cada subporção da porção do sinal de áudio por um fator constante.

11. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o segundo estimador (14) ser configurado para determinar uma distorção de livro de código adaptativo estimada que um livro de código adaptativo usado no segundo algoritmo de codificação introduziria mediante o uso do livro de código adaptativo para codificar a porção do sinal de áudio, e em que o segundo estimador (14) é configurado para estimar a segunda medição de qualidade com base em uma energia de uma porção de uma versão ponderada do sinal de áudio e na distorção de livro de código adaptativo estimada, em que o segundo estimador (14) é configurado para aproximar o livro de código adaptativo com base em uma versão da porção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, para estimar um ganho de livro de código adaptativo de modo que um erro entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e para determinar a distorção de livro de código adaptativo estimada com base na energia de um erro entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo.

12. Aparelho (20) para codificar uma porção de um sinal de áudio caracterizado por compreender o aparelho (10), conforme definido em uma das reivindicações 1 a 11, um primeiro estágio de codificador (26) para executar o primeiro algoritmo de codificação e um segundo estágio de codificador (28) para executar o segundo algoritmo de codificação, em que o aparelho para codificar (20) é configurado para codificar a porção do sinal de áudio com o uso do primeiro algoritmo de codificação ou do segundo algoritmo de codificação dependendo da seleção pelo controlador (16).

13. Sistema para codificação e decodificação caracterizado por compreender um aparelho (20) para codificação, conforme definido na reivindicação 12 e um decodificador configurado para receber a versão codificada da porção do sinal de áudio e uma indicação do algoritmo usado para codificar a porção do sinal de áudio e para decodificar a versão codificada da porção do sinal de áudio com o uso do algoritmo indicado.

14. Método para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio caracterizado por compreender: filtrar o sinal de áudio com o uso de um filtro de predição de longo prazo para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio; usar a versão filtrada do sinal de áudio na estimativa de uma SNR ou uma SNR segmentada da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, em que a primeira medição de qualidade é associada ao primeiro algoritmo de codificação, em que a estimativa da dita primeira medição de qualidade compreende executar uma aproximação do primeiro algoritmo de codificação para obter uma estimativa de distorção do primeiro algoritmo de codificação e para estimar a primeira medição de qualidade com base na porção do primeiro sinal de áudio e na estimativa de distorção do primeiro algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação; estimar uma SNR ou uma SNR segmentar como uma segunda medição de qualidade para a porção do sinal de áudio, em que a segunda medição de qualidade é associada ao segundo algoritmo de codificação, em que a estimativa da dita segunda medição de qualidade compreende executar uma aproximação do segundo algoritmo de codificação para obter uma estimativa de distorção do segundo algoritmo de codificação e para estimar a segunda medição de qualidade com o uso da porção do sinal de áudio e da estimativa de distorção do segundo algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade, em que o primeiro algoritmo de codificação é um algoritmo de codificação por transformada, um algoritmo de codificação baseado em MDCT (transformada discreta de cosseno modificada) ou um algoritmo de codificação de TCX (excitação de codificação por transformada) e em que o segundo algoritmo de codificação é um algoritmo de codificação de CELP (predição linear excitada por código) ou um algoritmo de codificação de ACELP (predição linear excitada por código algébrico) algoritmo de codificação.