BR112015029172B1 - Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos - Google Patents

Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos Download PDF

Info

Publication number
BR112015029172B1
BR112015029172B1 BR112015029172-4A BR112015029172A BR112015029172B1 BR 112015029172 B1 BR112015029172 B1 BR 112015029172B1 BR 112015029172 A BR112015029172 A BR 112015029172A BR 112015029172 B1 BR112015029172 B1 BR 112015029172B1
Authority
BR
Brazil
Prior art keywords
audio signal
encoding
encoding algorithm
algorithm
quality measurement
Prior art date
Application number
BR112015029172-4A
Other languages
English (en)
Other versions
BR112015029172A2 (pt
Inventor
Bernhard Grill
Emmanuel RAVELLI
Markus Multrus
Stefan DOEHLA
Manuel Jander
Original Assignee
Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. filed Critical Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V.
Publication of BR112015029172A2 publication Critical patent/BR112015029172A2/pt
Publication of BR112015029172B1 publication Critical patent/BR112015029172B1/pt

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Abstract

APARELHO E MÉTODO PARA SELECIONAR UM DENTRE UM PRIMEIRO ALGORITMO DE CODIFICAÇÃO E UM SEGUNDO ALGORITMO DE CODIFICAÇÃO COM O USO DE REDUÇÃO DE HARMÔNICOS. Trata-se de um aparelho para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, o qual compreende um filtro configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio. Um primeiro estimador é fornecido para uso na versão filtrada do sinal de áudio na estimativa de uma SNR ou uma SNR segmentada da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, que é associada ao primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação. Um segundo estimador é fornecido para estimar uma SNR ou uma SNR segmentada como uma segunda medição de qualidade para a porção do sinal de áudio, que é associada ao segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação. O aparelho compreende um controlador para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade.

Description

RELATÓRIO DESCRITIVO
[001] A presente invenção se refere à codificação de áudio e, em particular, à codificação de áudio comutado, onde, para diferentes porções de um sinal de áudio, o sinal codificado é gerado com o uso de diferentes algoritmos de codificação.
[002] Os codificadores de áudio comutado que determinam diferentes algoritmos de codificação para diferentes porções do sinal de áudio são conhecidos. Em geral, os codificadores de áudio comutado fornecem a comutação entre dois modos diferentes, isto é, algoritmos, como ACELP (Predição Linear Excitada por Código Algébrico) e TCX (Excitação Codificada por Transformada).
[003] O modo de LPD de MPEG USAC (Codificação de Áudio de Fala Unificada de MPEG) é baseado nos dois modos diferentes ACELP e TCX. A ACELP fornece melhor qualidade para sinais do tipo fala e do tipo transiente. A TCX fornece melhor qualidade para sinais do tipo música ou do tipo ruído. O codificador decide qual modo usar em uma base de quadro a quadro. A decisão feita pelo codificador é crítica para a qualidade do codec. Uma única decisão errada pode produzir um forte efeito, particularmente, em taxas de bit baixas.
[004] A abordagem mais direta para decidir qual modo usar é uma seleção de modo de ciclo fechado, isto é, para executar uma codificação/decodificação completa de ambos os modos, então, computar um critério de seleção (por exemplo, SNR segmentar) para ambos os modos com base no sinal de áudio e nos sinais de áudio codificados/decodificados, e finalmente escolher um modo com base nos critérios de seleção. Essa abordagem geralmente produz uma decisão estável e robusta. Entretanto, isso também requer uma quantidade significativa de complexidade, devido ao fato de que ambos os modos precisam ser operados em cada quadro.
[005] Para reduzir a complexidade, uma abordagem alternativa é a seleção de modo de ciclo aberto. A seleção de ciclo aberto consiste em não executar uma codificação/decodificação completa de ambos os modos, mas, em vez disso, escolher um modo com o uso de um critério de seleção computado com baixa complexidade. A complexidade de pior caso é, então, pela complexidade do modo menos complexo (usualmente TCX), menos a complexidade necessária para computar os critérios de seleção. A economia em complexidade é usualmente significativa, o que torna esse tipo de abordagem interessante quando a complexidade de pior caso do codec é restrita.
[006] O padrão AMR-WB+ (definido no Padrão Internacional 3GPP TS 26.290 V6.1.0 2004-12) inclui uma seleção de modo de ciclo aberto, usada para decidir entre todas as combinações de ACELP/TCX20/TCX40/TCX80 em um quadro de 80ms. É descrito na Seção 5.2.4 do 3GPP TS 26.290. Também é descrito na publicação “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al” e US 7.747.430 B2 e US 7.739.120 B2 remetendo-se novamente ao autor dessa publicação.
[007] O documento US 7.747.430 B2 revela uma seleção de modo de ciclo aberto com base em uma análise de parâmetros de predição de longo prazo. O documento US 7.739.120 B2 revela uma seleção de modo de ciclo aberto com base em características de sinal que indicam o tipo de conteúdo de áudio em respectivas seções de um sinal de áudio, em que, se tal seleção não for viável, a seleção é adicionalmente baseada em uma avaliação estatística executada para seções respectivamente vizinhas.
[008] A seleção de modo de ciclo aberto de AMR-WB+ pode ser descrita em duas etapas principais. Na primeira etapa principal, vários recursos são calculados no sinal de áudio, como desvio padrão de níveis de energia, relação de energia de baixa frequência/alta frequência, energia total, distância de ISP (par espectral de imitância), intervalos de tom e ganhos, inclinação espectral. Esses recursos são, então, usados para fazer uma escolha entre ACELP e TCX, com o uso de um classificador baseado em limite simples. Se TCX for selecionada na primeira etapa principal, então, a segunda etapa principal decide entre as combinações possíveis de TCX20/TCX40/TCX80 de uma maneira de ciclo fechado.
[009] O documento WO 2012/110448 A1 revela uma abordagem para decidir entre dois algoritmos de codificação que têm diferentes características com base em um resultado de detecção transiente e um resultado de qualidade de um sinal de áudio. Além disso, a aplicação de uma histerese é revelada, em que a histerese depende das seleções feitas no passado, isto é, para as porções anteriores do sinal de áudio.
[010] Na publicação “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al”., a seleção de modo de ciclo aberto e de ciclo fechado de AMR-WB+ são comparadas. Testes de audição subjetivos indicam que a seleção de modo de ciclo aberto é executada significativamente pior que a seleção de modo de ciclo fechado. Porém, também foi demonstrado que a seleção de modo de ciclo aberto reduz a complexidade de pior caso em 40%.
[011] O objetivo da invenção consiste em fornecer para uma abordagem aprimorada que permita a seleção entre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com bom desempenho e complexidade reduzida.
[012] Esse objetivo é alcançado por um aparelho, conforme definido na reivindicação 1, um método, conforme definido na reivindicação 18, e um programa de computador, conforme definido na reivindicação 19.
[013] As modalidades da invenção fornecem um aparelho para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, que compreende:
[014] um filtro configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio;
[015] um primeiro estimador para uso na versão filtrada do sinal de áudio na estimativa de uma SNR (razão de sinal para ruído) ou uma SNR segmentada da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, que é associada ao primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação;
[016] um segundo estimador para estimar uma SNR ou uma SNR segmentada como uma segunda medição de qualidade para a porção do sinal de áudio, que é associada ao segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e
[017] um controlador para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade.
[018] As modalidades da invenção fornecem um método para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio, que compreende:
[019] filtrar o sinal de áudio para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio;
[020] usar a versão filtrada do sinal de áudio na estimativa de uma SNR ou uma SNR segmentar da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, que é associada ao primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação;
[021] estimar uma segunda medição de qualidade para a porção do sinal de áudio, que é associada ao segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e
[022] selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade.
[023] As modalidades da invenção são baseadas no reconhecimento de que uma seleção de ciclo aberto com desempenho aprimorado pode ser implantada através da estimativa de uma medição de qualidade para cada um dentre o primeiro e o segundo algoritmos de codificação e da seleção de um dos algoritmos de codificação com base em uma comparação entre a primeira e a segunda medições de qualidade. As medições de qualidade são estimadas, isto é, o sinal de áudio não é de fato codificado e decodificado para obter as medições de qualidade. Dessa forma, as medições de qualidade podem ser obtidas com complexidade reduzida. A seleção de modo pode, então, ser executada com o uso das medições de qualidade estimadas comparáveis com uma seleção de modo de ciclo fechado. Além disso, a invenção é baseada no reconhecimento de que uma seleção de modo aprimorada pode ser obtida se a estimativa da primeira medição de qualidade usar uma versão filtrada da porção do sinal de áudio, na qual os harmônicos são reduzidos em comparação com a versão não filtrada do sinal de áudio.
[024] Em modalidades da invenção, uma seleção de modo de ciclo aberto em que a SNR segmentar de ACELP e TCX é primeiramente estimada com baixa complexidade é implantada. E, então, a seleção de modo é executada com o uso desses valores estimados de SNR segmentar, como em uma seleção de modo de ciclo fechado.
[025] As modalidades da invenção não empregam uma abordagem clássica de recursos+classificador como é feito na seleção de modo de ciclo aberto de AMR-WB+. Mas, em vez disso, as modalidades da invenção tentam estimar uma medição de qualidade de cada modo e selecionar o modo que gera a melhor qualidade.
[026] As modalidades da presente invenção serão descritas agora em detalhes adicionais em referência aos desenhos anexos, nos quais:
[027] A Figura 1 mostra uma vista esquemática de uma modalidade de um aparelho para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação;
[028] A Figura 2 mostra uma vista esquemática de uma modalidade de um aparelho para codificar um sinal de áudio;
[029] A Figura 3 mostra uma vista esquemática de uma modalidade de um aparelho para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação;
[030] As Figuras 4a e 4b são representações possíveis de SNR e SNR segmentar.
[031] Na seguinte descrição, elementos/etapas similares nos diferentes desenhos são referenciados pelos mesmos símbolos de referência. Deve ser observado que, nas características dos desenhos, como conexões de sinal e similares, que não são necessárias para a compreensão da invenção, foram omitidas.
[032] A Figura 1 mostra um aparelho 10 para selecionar um dentre um primeiro algoritmo de codificação, como um algoritmo de TCX, e um segundo algoritmo de codificação, como um algoritmo de ACELP, como o codificador para codificar uma porção de um sinal de áudio. O aparelho 10 compreende um primeiro estimador 12 para estimar uma SNR ou uma SNR segmentar da porção do sinal de áudio conforme a primeira medição de qualidade para a porção de sinal é fornecida. A primeira medição de qualidade é associada ao primeiro algoritmo de codificação. O aparelho 10 compreende um filtro 2 configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio. O filtro 2 pode ser interno no primeiro estimador 12 como mostrado na Figura 1 ou pode ser externo ao primeiro estimador 12. O primeiro estimador 12 usa a versão filtrada do sinal de áudio na estimativa da primeira medição de qualidade. Em outras palavras, o primeiro estimador 12 estima uma primeira medição de qualidade que a porção do sinal de áudio teria se codificado e decodificado com o uso do primeiro algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação. O aparelho 10 compreende um segundo estimador 14 para estimar uma segunda medição de qualidade para a porção de sinal. A segunda medição de qualidade é associada ao segundo algoritmo de codificação. Em outras palavras, o segundo estimador 14 estima a segunda medição de qualidade que a porção do sinal de áudio teria se codificado e decodificado com o uso do segundo algoritmo de codificação, sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação. Além disso, o aparelho 10 compreende um controlador 16 para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade. O controlador pode compreender uma saída 18 que indica o algoritmo de codificação selecionado.
[033] No seguinte relatório descritivo, o primeiro estimador usa a versão filtrada do sinal de áudio, isto é, a versão filtrada da porção do sinal de áudio na estimativa da primeira medição de qualidade se o filtro 2 configurado para reduzir a amplitude de harmônicos for fornecido e não estiver desativado, mesmo se não explicitamente indicado.
[034] Em uma modalidade, a primeira característica associada ao primeiro algoritmo de codificação é mais adequado para sinais do tipo música e do tipo ruído, e a segunda característica de codificação associada ao segundo algoritmo de codificação é mais adequada para sinais do tipo fala e do tipo transiente. Em modalidades da invenção, o primeiro algoritmo de codificação é um algoritmo de codificação de áudio, como um algoritmo de codificação por transformada, por exemplo, um algoritmo de codificação de MDCT (transformada discreta de cosseno modificada), como um algoritmo de codificação de TCX (excitação de codificação por transformada). Outros algoritmos de codificação por transformada podem ser baseados em uma transformada de FFT ou qualquer outra transformada ou banco de filtros. Em modalidades da invenção, o segundo algoritmo de codificação é um algoritmo de codificação de fala, como um algoritmo de codificação de CELP (predição linear excitada por código), como um algoritmo de codificação de ACELP (predição linear excitada por código algébrico).
[035] Em modalidades, a medição de qualidade representa uma medição de qualidade perceptiva. Um único valor que é uma estimativa da qualidade subjetiva do primeiro algoritmo de codificação e um único valor que é uma estimativa da qualidade subjetiva do segundo algoritmo de codificação podem ser computados. O algoritmo de codificação que gera a qualidade subjetiva melhor estimada pode ser escolhido somente com base na comparação desses dois valores. Isso é diferente do que é feito no padrão AMR-WB+, em que muitos recursos que representam diferentes características do sinal são computados e, então, um classificador é aplicado para decidir qual algoritmo escolher.
[036] Em modalidades, a respectiva medição de qualidade é estimada com base em uma porção do sinal de áudio ponderado, isto é, uma versão ponderada do sinal de áudio. Em modalidades, o sinal de áudio ponderado pode ser definido como um sinal de áudio filtrado por uma função de ponderação, em que a função de ponderação é um filtro de LPC ponderado A(z/g) com A(z) um filtro de LPC e g um peso entre 0 e 1 como 0,68. Constatou-se que boas medições de qualidade perceptiva podem ser obtidas dessa maneira. Observa-se que o filtro de LPC A(z) e o filtro de LPC ponderado A(z/g) são determinados em um estágio de pré-processamento e que são também usados em ambos os algoritmos de codificação. Em outras modalidades, a função de ponderação pode ser um filtro linear, um filtro de FIR ou um filtro de predição linear.
[037] Em modalidades, a medição de qualidade é a SNR segmentar (razão de sinal para ruído) no domínio de sinal ponderado. Constatou-se que a SNR segmentar no domínio de sinal ponderado representa uma boa medição da qualidade perceptiva e, portanto, pode ser usada como a medição de qualidade de uma maneira benéfica. Essa é também a medição de qualidade usada tanto no algoritmo de codificação de ACELP quanto no algoritmo de codificação de TCX para estimar os parâmetros de codificação.
[038] Uma outra medição de qualidade pode ser a SNR no domínio de sinal ponderado. Outras medições de qualidade podem ser a SNR segmentar, a SNR da porção correspondente do sinal de áudio no domínio de sinal não ponderado, isto é, não filtrado pelos coeficientes de LPC (ponderados).
[039] Em geral, a SNR compara o sinal de áudio original e o sinal de áudio processado (como sinais de fala) amostra por amostra. Seu objetivo é medir a distorção de codificadores de forma de onda que reproduzem a forma de onda de entrada. A SNR pode ser calculada como mostrado na Figura 5a, em que x(i) e y(i) são a amostra original e a amostra processada indexadas por i e N é o número total de amostras. A SNR segmentar, em vez de funcionar em todo o sinal, calcula a média dos valores de SNR de segmentos curtos, como 1 a 10 ms, como 5ms. A SNR pode ser calculada como mostrado na Figura 5b, em que N e M são o comprimento de segmento e o número de segmentos, respectivamente.
[040] Em modalidades da invenção, a porção do sinal de áudio representa um quadro do sinal de áudio que é obtido através do janelamento do sinal de áudio e a seleção de um algoritmo de codificação apropriado é executada para uma pluralidade de quadros sucessivos obtidos através do janelamento de um sinal de áudio. No seguinte relatório descritivo, em conjunto com o sinal de áudio, os termos “porção” e “quadro” são usados de uma maneira intercambiável. Em modalidades, cada quadro é dividido em subquadros e a SNR segmentar é estimada para cada quadro através do cálculo da SNR para cada subquadro, convertida em dB e do cálculo da média das SNRs de subquadro em dB.
[041] Dessa forma, em modalidades, não é a SNR (segmentar) entre o sinal de áudio de entrada e o sinal de áudio decodificado que é estimada, mas a SNR (segmentar) entre o sinal de áudio de entrada ponderado e o sinal de áudio decodificado ponderado é estimada. Quanto a essa SNR (segmentar), pode ser feita referência ao capítulo 5.2.3 do padrão AMR-WB+ (Padrão Internacional 3GPP TS 26.290 V6.1.0 2004-12).
[042] Em modalidades da invenção, a respectiva medição de qualidade é estimada com base na energia de uma porção do sinal de áudio ponderado e com base em uma distorção estimada introduzida quando se codifica a porção de sinal pelo respectivo algoritmo, em que os primeiro e segundo estimadores são configurados para determinar as distorções estimadas dependentes da energia de um sinal de áudio ponderado.
[043] Em modalidades da invenção, uma distorção de quantificador estimada introduzida por um quantificador usado no primeiro algoritmo de codificação mediante a quantificação da porção do sinal de áudio é determinada e a primeira medição de qualidade é determinada com base na energia da porção do sinal de áudio ponderado e na distorção de quantificador estimada. Em tais modalidades, um ganho global para a porção do sinal de áudio pode ser estimado de modo que a porção do sinal de áudio produziria uma determinada taxa de bit-alvo quando codificada com um quantificador e um codificador por entropia usado no primeiro algoritmo de codificação, em que a distorção de quantificador estimada é determinada com base no ganho global estimado. Em tais modalidades, uma distorção de quantificador estimada pode ser determinada com base em uma potência do ganho estimado. Quando o quantificador usado no primeiro algoritmo de codificação é um quantificador escalar uniforme, o primeiro estimador pode ser configurado para determinar a distorção de quantificador estimada com o uso da fórmula D = G*G/12, em que D é a distorção de quantificador estimada e G é o ganho global estimado. No caso de o primeiro algoritmo de codificação usar um outro quantificador, a distorção de quantificador pode ser determinada a partir do ganho global de uma maneira diferente.
[044] Os inventores concluíram que uma medição de qualidade, como uma SNR segmentar, que seria obtida quando se codifica e decodifica a porção do sinal de áudio com o uso do primeiro algoritmo de codificação, como o algoritmo de TCX, pode ser estimada de uma maneira apropriada através do uso dos recursos acima em qualquer combinação dos mesmos.
[045] Em modalidades da invenção, a primeira medição de qualidade é uma SNR segmentar e a SNR segmentar é estimada através do cálculo de uma SNR estimada associada a cada uma dentre uma pluralidade de subporções da porção do sinal de áudio com base em uma energia da subporção correspondente do sinal de áudio ponderado e na distorção de quantificador estimada e através do cálculo de uma média das SNRs associadas às subporções da porção do sinal de áudio ponderado para obter a SNR segmentar estimada para a porção do sinal de áudio ponderado.
[046] Em modalidades da invenção, uma distorção de livro de código adaptativo estimada introduzida por um livro de código adaptativo usado no segundo algoritmo de codificação mediante o uso do livro de código adaptativo para codificar a porção do sinal de áudio é determinada, e a segunda medição de qualidade é estimada com base em uma energia da porção do sinal de áudio ponderado e na distorção de livro de código adaptativo estimada.
[047] Em tais modalidades, para cada uma dentre uma pluralidade de subporções da porção do sinal de áudio, o livro de código adaptativo pode ser aproximado com base em uma versão da subporção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, um ganho de livro de código adaptativo pode ser estimado de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e uma distorção de livro de código adaptativo estimada pode ser determinada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo.
[048] Em modalidades da invenção, a distorção de livro de código adaptativo estimada determinada para cada subporção da porção do sinal de áudio pode ser reduzida por um fator constante a fim de levar em consideração uma redução da distorção que é alcançada por um livro de código inovador no segundo algoritmo de codificação.
[049] Em modalidades da invenção, a segunda medição de qualidade é uma SNR segmentar e a SNR segmentar é estimada através do cálculo de um SNR estimada associada a cada subporção com base na energia da subporção correspondente do sinal de áudio ponderado e na distorção de livro de código adaptativo estimada e através do cálculo de uma média das SNRs associadas às subporções para obter a SNR segmentar estimada.
[050] Em modalidades da invenção, o livro de código adaptativo é aproximado com base em uma versão da porção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, um ganho de livro de código adaptativo é estimado de modo que um erro entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e a distorção de livro de código adaptativo estimada é determinada com base na energia entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo. Dessa forma, a distorção de livro de código adaptativo estimada pode ser determinada com baixa complexidade.
[051] Os inventores concluíram que a medição de qualidade, como uma SNR segmentar, que seria obtida quando se codifica e decodifica a porção do sinal de áudio com o uso do segundo algoritmo de codificação, como um algoritmo de ACELP, pode ser estimada de uma maneira apropriada através do uso dos recursos acima em qualquer combinação dos mesmos.
[052] Em modalidades da invenção, um mecanismo de histerese é usado na comparação das medições de qualidade estimadas. Isso pode tornar a decisão de qual algoritmo deve ser usado mais estável. O mecanismo de histerese pode depender das medições de qualidade estimadas (como a diferença entre as mesmas) e outros parâmetros, como estatísticas sobre decisões anteriores, o número de quadros temporalmente estacionários, transientes nos quadros. Quanto aos mecanismos de histerese, pode ser feita referência ao documento WO 2012/110448 A1, por exemplo.
[053] Em modalidades da invenção, um codificador para codificar um sinal de áudio compreende o aparelho 10, um estágio para executar o primeiro algoritmo de codificação e um estágio para executar o segundo algoritmo de codificação, em que o codificador é configurado para codificar a porção do sinal de áudio com o uso do primeiro algoritmo de codificação ou do segundo algoritmo de codificação dependendo da seleção pelo controlador 16. Em modalidades da invenção, um sistema para codificar e decodificar compreende o codificador e um decodificador configurados para receber a versão codificada da porção do sinal de áudio e uma indicação do algoritmo usado para codificar a porção do sinal de áudio e para decodificar a versão codificada da porção do sinal de áudio com o uso do algoritmo indicado.
[054] Tal algoritmo de seleção de modo de ciclo aberto como mostrado na Figura 1 e descrito acima (exceto para o filtro 2) é descrito em um pedido anterior PCT/EP2014/051557. Esse algoritmo é usado para realizar uma seleção entre dois modos, como ACELP e TCX, em uma base de quadro a quadro. A seleção pode ser baseada em uma estimativa da SNR segmentar tanto de ACELP quanto de TCX. O modo com a SNR segmentada de melhor estimativa é selecionado. Opcionalmente, um mecanismo de histerese pode ser usado para fornecer uma seleção mais robusta. A SNR segmentar de ACELP pode ser estimada com o uso de uma aproximação da distorção de livro de código adaptativo e uma aproximação da distorção do livro de código inovador. O livro de código adaptativo pode ser aproximado no domínio de sinal ponderado com o uso de um intervalo de tom estimado um algoritmo de análise de tom. A distorção pode ser computada no domínio de sinal ponderado considerando um ganho ideal. A distorção pode, então, ser reduzia por um fator constante, aproximando a distorção de livro de código inovadora. A SNR segmentar de TCX pode ser estimada com o uso de uma versão simplificada do codificador de TCX real. O sinal de entrada pode primeiramente ser transformado com uma MDCT e, então, conformado com o uso de um filtro de LPC ponderado. Finalmente, a distorção pode ser estimada no domínio de MDCT ponderado, com o uso de um ganho global e um estimador de ganho global.
[055] Constatou-se que esse algoritmo de seleção de modo de ciclo aberto como descrito no pedido anterior fornece a decisão esperada na maior parte do tempo, selecionando ACELP em sinais do tipo fala e do tipo transiente e TCX em sinais do tipo música ou do tipo ruído. Entretanto, os inventores concluíram que pode ocorrer algumas vezes a seleção de ACELP em alguns sinais de música harmônicos. Em tais sinais, o livro de código adaptativo tem geralmente um ganho de predição alto, devido à alta capacidade de predição de sinais harmônicos, produzindo baixa e, então, SNR segmentar mais alta do que TCX. Entretanto, a TCX soa melhor na maioria dos sinais musicais harmônicos, então, a TCX deve ser preferencial nesses casos.
[056] Dessa forma, a presente invenção sugere a execução da estimativa da SNR ou da SNR segmentar como a primeira medição de qualidade com o uso de uma versão do sinal de entrada, que é filtrada para reduzir os harmônicos da mesma. Dessa forma, uma seleção de modo aprimorada em sinais musicais harmônicos pode ser obtida.
[057] Em geral, qualquer filtro adequado para reduzir harmônicos poderia ser usado. Em modalidades da invenção, o filtro é um filtro de predição de longo prazo. Um exemplo simples de um filtro de predição de longo prazo é
[058]
Figure img0001
[059] em que os parâmetros de filtro são o ganho “g” e o intervalo de tom “T”, que são determinados a partir do sinal de áudio.
[060] As modalidades da invenção são baseadas em um filtro de predição de longo prazo que é aplicado ao sinal de áudio antes da análise de MDCT na estimativa de SNR segmentar de TCX. O filtro de predição de longo prazo reduz a amplitude dos harmônicos no sinal de entrada antes da análise de MDCT. A consequência é que a distorção no domínio de MDCT ponderado é reduzida, a SNR segmentar estimada de TCX é aumentada e, finalmente, a TCX é selecionada mais frequentemente em sinais musicais harmônicos.
[061] Em modalidades da invenção, uma função de transferência do filtro de predição de longo prazo compreende uma parte de número inteiro de um intervalo de tom e um filtro de derivação múltipla dependendo de uma parte de fração do intervalo de tom. Isso permite uma implantação eficiente, uma vez que a parte de número inteiro é usada na estrutura de taxa de amostragem normal (z~Tint) apenas. Ao mesmo tempo, a alta precisão devido ao uso da parte de fração no filtro de derivação múltipla pode ser alcançada. Considerando-se a parte de fração no filtro de derivação múltipla, a remoção da energia dos harmônicos pode ser alcançada enquanto a remoção de energia de porções próximas aos harmônicos é evitada.
[062] Em modalidades da invenção, o filtro de predição de longo prazo é descrito da seguinte forma:
[063]
Figure img0002
[064] em que Tint e Tfr sendo a parte de número inteiro e fração de um intervalo de tom, g é um ganho, é um peso e B(z,Tfr) é um filtro passa-baixa FIR cujos coeficientes dependem da parte de fração do intervalo de tom. Os detalhes adicionais sobre as modalidades de tal filtro de predição de longo prazo serão apresentados abaixo.
[065] O intervalo de tom e o ganho podem ser estimados em uma base de quadro a quadro.
[066] O filtro de predição pode ser desativado (ganho=0) com base em uma combinação de uma ou mais medições de harmonicidade (por exemplo, correlação normalizada ou ganho de predição) e/ou um ou mais medições de estrutura temporal (por exemplo, medição de achatamento temporal ou alteração de energia).
[067] O filtro pode ser aplicado ao sinal de áudio de entrada em uma base de quadro a quadro. Se os parâmetros de filtro alterarem de um quadro para o próximo, uma descontinuidade pode ser introduzida no limite entre dois quadros. Em modalidades, o aparelho compreende adicionalmente uma unidade para remover descontinuidades no sinal de áudio ocasionadas pelo filtro. Para remover as descontinuidades possíveis, qualquer técnica pode ser usada, como as técnicas comparáveis com aquelas descritas nos documentos US5012517, EP0732687A2, US5999899A ou US7353168B2. Uma outra técnica para remover possíveis descontinuidades é descrita abaixo.
[068] Antes de descrever uma modalidade do primeiro estimador 12 e do segundo estimador 14 em detalhes em referência à Figura 3, uma modalidade de um codificador 20 é descrita em referência à Figura 2.
[069] O codificador 20 compreende o primeiro estimador 12, o segundo estimador 14, o controlador 16, uma unidade de pré-processamento 22, um comutador 24, um primeiro estágio de codificador 26 configurado para executar um algoritmo de TCX, um segundo estágio de codificador 28 configurado para executar um algoritmo de ACELP e uma interface de saída 30. A unidade de pré-processamento 22 pode ser parte de um codificador USAC comum e pode ser configurada para emitir os coeficientes de LPC, os coeficientes de LPC ponderados, o sinal de áudio ponderado e um conjunto de intervalos de tom. Deve ser observado que todos esses parâmetros são usados em ambos os algoritmos de codificação, isto é, o algoritmo de TCX e o algoritmo de ACELP. Dessa forma, tais parâmetros não precisam ser computados para a decisão de modo de ciclo aberto adicionalmente. A vantagem de usar parâmetros já computados na decisão de modo de ciclo aberto é a economia em complexidade.
[070] Como mostrado na Figura 2, o aparelho compreende o filtro de redução de harmônicos 2. O aparelho compreende adicionalmente uma unidade de desativação opcional 4 para desativar o filtro de redução de harmônicos 2 com base em uma combinação de uma ou mais medições de harmonicidade (por exemplo, correlação normalizada ou ganho de predição) e/ou uma ou mais medições de estrutura temporal (por exemplo, medição de achatamento temporal ou alteração de energia). O aparelho compreende uma unidade de remoção de descontinuidade opcional 6 para remover as descontinuidades da versão filtrada do sinal de áudio. Além disso, o aparelho compreende opcionalmente uma unidade 8 para estimar os parâmetros de filtro do filtro de redução de harmônicos 2. Na Figura 2, esses componentes (2, 4, 6 e 8) são mostrados como sendo parte do primeiro estimador 12. Deduz-se que esses componentes podem ser implantados externos ou separados do primeiro estimador e pode, ser configurados para fornecer a versão filtrada do sinal de áudio para o primeiro estimador.
[071] Um sinal de áudio de entrada 40 é fornecido em uma linha de entrada. O sinal de áudio de entrada 40 é aplicado ao primeiro estimador 12, à unidade de pré-processamento 22 e a ambos os estágios de codificador 26, 28. No primeiro estimador 12, o sinal de áudio de entrada 40 é aplicado ao filtro 2 e a versão filtrada do sinal de áudio de entrada é usada na estimativa da primeira medição de qualidade. No caso em que o filtro é desativado pela unidade de desativação 4, o sinal de áudio de entrada 40 é usado na estimativa da primeira medição de qualidade, em vez de na versão filtrada do sinal de áudio de entrada. A unidade de pré-processamento 22 processa o sinal de áudio de entrada de uma maneira convencional para derivar coeficientes de LPC e coeficientes de LPC ponderados 42 e para filtrar o sinal de áudio 40 com os coeficientes de LPC ponderados 42 para obter o sinal de áudio ponderado 44. A unidade de pré-processamento 22 emite os coeficientes de LPC ponderados 42, o sinal de áudio ponderado 44 e um conjunto de intervalos de tom 48. Como entendido por aqueles elementos versados na técnica, os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44 podem ser segmentados em quadros ou subquadros. A segmentação pode ser obtida através do janelamento do sinal de áudio de uma maneira apropriada.
[072] Em modalidades alternativas, um pré-processador pode ser fornecido, o qual é configurado para gerar coeficientes de LPC ponderados e um sinal de áudio ponderado com base na versão filtrada do sinal de áudio. Os coeficientes de LPC ponderados e o sinal de áudio ponderado, que são baseados na versão filtrada do sinal de áudio, são, então, aplicados ao primeiro estimador para estimar a primeira medição de qualidade, em vez de aos coeficientes de LPC ponderados 42 e ao sinal de áudio ponderado 44.
[073] Em modalidades da invenção, os coeficientes de LPC quantificados ou coeficientes de LPC ponderados quantificados podem ser usados. Dessa forma, deve ficar entendido que o termo “coeficientes de LPC” se destina a abranger “coeficientes de LPC quantificados” também, e o termo “coeficientes de LPC ponderados” se destina a abranger “coeficientes de LPC ponderados quantificados” também. A esse respeito, vale observar que o algoritmo de TCX de USAC usa os coeficientes de LPC ponderados quantificados para conformar o espectro de MCDT.
[074] O primeiro estimador 12 recebe o sinal de áudio 40, os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44, estima a primeira medição de qualidade 46 com base nos mesmos e emite a primeira medição de qualidade para o controlador 16. O segundo estimador 16 recebe o sinal de áudio ponderado 44 e o conjunto de intervalos de tom 48, estima a segunda medição de qualidade 50 com base nos mesmos e emite a segunda medição de qualidade 50 para o controlador 16. Como conhecido pelos elementos versados na técnica, os coeficientes de LPC ponderados 42, o sinal de áudio ponderado 44 e o conjunto de intervalos de tom 48 já são computados em um módulo anterior (isto é, a unidade de pré-processamento 22) e, portanto, estão disponíveis sem custo.
[075] O controlador toma uma decisão para selecionar o algoritmo de TCX ou o algoritmo de ACELP com base em uma comparação das medições de qualidade recebidas. Como indicado acima, o controlador pode usar um mecanismo de histerese na decisão de qual algoritmo deve ser usado. A seleção do primeiro estágio de codificador 26 ou do segundo estágio de codificador 28 é esquematicamente mostrada na Figura 2 por meio do comutador 24 que é controlado por um sinal de controle 52 emitido pelo controlador 16. O sinal de controle 52 indica se o primeiro estágio de codificador 26 ou o segundo estágio de codificador 28 deve ser usado. Com base no sinal de controle 52, os sinais requeridos esquematicamente indicados pela seta 54 na Figura 2 e que incluem pelo menos os coeficientes de LPC, os coeficientes de LPC ponderados, o sinal de áudio, o sinal de áudio ponderado e o conjunto de intervalos de tom são aplicados ao primeiro estágio de codificador 26 ou ao segundo estágio de codificador 28. O estágio de codificador selecionado aplica o algoritmo de codificação associado e emite a representação codificada 56 ou 58 para a interface de saída 30. A interface de saída 30 pode ser configurada para emitir um sinal de áudio codificado 60 que pode compreender, dentre outros dados, a representação codificada 56 ou 58, os coeficientes de LPC ou coeficientes de LPC ponderados, os parâmetros para o algoritmo de codificação selecionado e informações sobre o algoritmo de codificação selecionado.
[076] As modalidades específicas para estimar a primeira e a segunda medições de qualidade, em que as primeira e segunda medições de qualidade são SNRs segmentares no domínio de sinal ponderado, são agora descritas em referência à Figura 3. A Figura 3 mostra o primeiro estimador 12 e o segundo estimador 14 e as funcionalidades dos mesmos na forma de fluxogramas que mostram a respectiva estimativa passo a passo.
[077] Estimativa da SNR Segmentar de TCX
[078] O primeiro (TCX) estimador recebe o sinal de áudio 40 (sinal de entrada), os coeficientes de LPC ponderados 42 e o sinal de áudio ponderado 44 como entradas. A versão filtrada do sinal de áudio 40 é gerada na etapa 98. Na versão filtrada do sinal de áudio 40, os harmônicos são reduzidos ou suprimidos.
[079] O sinal de áudio 40 pode ser analisado para determinar uma ou mais medições de harmonicidade (por exemplo, correlação normalizada ou ganho de predição) e/ou uma ou mais medições de estrutura temporal (por exemplo, medição de achatamento temporal ou alteração de energia). Com base em uma dessas medições ou uma combinação dessas medições, o filtro 2 e, portanto, a filtragem 98 podem ser desativados. Se a filtragem 98 for desativada, a estimativa da primeira medição de qualidade é executada com o uso do sinal de áudio 40 em vez da versão filtrada do mesmo.
[080] Em modalidades da invenção, uma etapa de remoção de descontinuidades (não mostrada na Figura 3) pode proceder a filtragem 98 a fim de remover as descontinuidades no sinal de áudio, o que pode resultar da filtragem 98.
[081] Na etapa 100, a versão filtrada do sinal de áudio 40 é janelada. O janelamento pode ocorrer com uma janela de seno de sobreposição baixa de 10ms. Quando o quadro passado é ACELP, o tamanho de bloco pode ser aumentado em 5ms, o lado esquerdo da janela pode ser retangular e a resposta de impulso zero janelada do filtro de síntese de ACELP pode ser removida do sinal de entrada janelado. Isso é similar ao que é feito no algoritmo de TCX. Um quadro da versão filtrada do sinal de áudio 40, que representa uma porção do sinal de áudio, é emitido a partir da etapa 100.
[082] Na etapa 102, o sinal de áudio janelado, isto é, o quadro resultante, é transformado com uma MDCT (transformada discreta de cosseno modificada). Na etapa 104, a conformação de espectro é executada através da conformação do espectro de MDCT com os coeficientes de LPC ponderados.
[083] Na etapa 106, um ganho global G é estimado de modo que o espectro ponderado quantificado com ganho G produziria um determinado alvo R, quando codificado com um codificador por entropia, por exemplo, um codificador aritmético. O termo “ganho global” é usado, uma vez que um ganho é determinado para todo o quadro.
[084] Um exemplo de uma implantação da estimativa de ganho global é agora explicado. Deve ser observado que essa estimativa de ganho global é apropriada para modalidades nas quais o algoritmo de codificação de TCX usa um quantificador escalar com um codificador aritmético. Tal quantificador escalar com um codificador aritmético é considerado no padrão MPEG USAC.
[085] Inicialização
[086] Primeiramente, as variáveis usadas em estimativa de ganho são inicializadas por:
[087] Definir en[i] = 9,0 + 10,0*log10(c[4*i+0] + c[4*i+1] + c[4*i+2] + c[4*i+3]),
[088] em que 0<=i<L/4, c[] é o vetor de coeficientes para quantificação, e L é o comprimento de c[].
[089] 2. Definir fac = 128, compensação = fac e alvo = qualquer valor (por exemplo, 1000)
[090] Iteração
[091] Então, o seguinte bloco de operações é executado NITER vezes (por exemplo, aqui, NITER = 10).
[092] fac = fac/2
[093] compensação = compensação - fac
[094] ener = 0
[095] para cada i em que 0<=i<L/4, fazer o seguinte:
[096] se en[i]-compensação > 3,0, então, ener = ener + en[i]-compensação
[097] 5. se ener > alvo, então, compensação = compensação + fac
[098] O resultado da iteração é o valor de compensação. Após a iteração, o ganho global é estimado como G = 10A(compensação/20).
[099] A maneira específica na qual o ganho global é estimado pode variar dependendo do quantificador e do codificador por entropia usado. No padrão MPEG USAC, um quantificador escalar com um codificador aritmético é considerado. Outras abordagens de TCX podem usar um quantificador diferente e deve ser entendido por aqueles elementos versados na técnica como estimar o ganho global para tais quantificadores diferentes. Por exemplo, o padrão AMR-WB+ considera que um quantificador de malha RE8 é usado. Para tal quantificador, a estimativa do ganho global poderia ser estimada como descrito no capítulo 5.3.5.7 na página 34 de 3GPP TS 26.290 V6.1.0 2004-12, em que uma taxa de bit-alvo fixa é considerada.
[100] Após ter estimado o ganho global na etapa 106, a estimativa de distorção ocorre na etapa 108. Para ser mais específico, a distorção de quantificador é aproximada com base no ganho global estimado. Na presente modalidade, considera-se que um quantificador escalar uniforme é usado. Dessa forma, a distorção de quantificador é determinada com a fórmula simples D=G*G/12, na qual D representa a distorção de quantificador determinada e G representa o ganho global estimado. Isso corresponde à aproximação de taxa alta de uma distorção de quantificador escalar uniforme.
[101] Com base na distorção de quantificador determinada, o cálculo de SNR segmentar é executado na etapa 110. A SNR em cada subquadro do quadro é calculada como a razão da energia de sinal de áudio ponderado e da distorção D que é considerada como constante nos subquadros. Por exemplo, o quadro é dividido em quatro subquadros consecutivos (consulte a Figura 4). A SNR segmentar é, então, a média das SNRs dos quatro subquadros e pode ser indicada em dB.
[102] Essa abordagem permite a estimativa da primeira SNR segmentar que seria obtida quando, de fato, se codifica e decodifica o quadro em questão com o uso do algoritmo de TCX, entretanto, sem ter que codificar e decodificar de fato o sinal de áudio e, portanto, com uma complexidade fortemente reduzida e tempo de computação reduzido.
[103] Estimativa da SNR Segmentar de ACELP
[104] O segundo estimador 14 recebe o sinal de áudio ponderado 44 e o conjunto de intervalos de tom 48 que já está computado na unidade de pré- processamento 22.
[105] Como mostrado na etapa 112, em cada subquadro, o livro de código adaptativo é aproximado simplesmente através do uso do sinal de áudio ponderado e do intervalo de tom T. O livro de código adaptativo é aproximado por
[106] xw(n-T), n = 0, ..., N
[107] em que xw é o sinal de áudio ponderado, T é o intervalo de tom do subquadro correspondente e N é o comprimento de subquadro. Consequentemente, o livro de código adaptativo é aproximado através do uso de uma versão do subquadro deslocado para o passado por T. Dessa forma, em modalidades da invenção, o livro de código adaptativo é aproximado de uma maneira muito simples.
[108] Na etapa 114, um ganho de livro de código adaptativo para cada subquadro é determinado. Para ser mais específico, em cada subquadro, o ganho de livro de código G é estimado de modo que minimize o erro entre o sinal de áudio ponderado e o livro de código adaptativo aproximado. Isso pode ser feito simplesmente através da comparação das diferenças entre ambos os sinais para cada amostra e da conclusão de um ganho de modo que a soma dessas diferenças seja mínima.
[109] Na etapa 116, a distorção de livro de código adaptativo para cada subquadro é determinada. Em cada subquadro, a distorção D introduzida pelo livro de código adaptativo é simplesmente a energia do erro entre o sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho G.
[110] As distorções determinadas na etapa 116 podem ser ajustadas em uma etapa opcional 118 a fim de considerar o livro de código inovador. A distorção do livro de código inovador usado em algoritmos de ACELP pode ser simplesmente estimada como um valor constante. Na modalidade descrita da invenção, considera-se simplesmente que o livro de código inovador reduz a distorção D por um fator constante. Dessa forma, as distorções obtidas na etapa 116 para cada subquadro podem ser multiplicadas na etapa 118 por um fator constante, como um fator constante na ordem de 0 a 1, como 0,055.
[111] Na etapa 120, ocorre o cálculo da SNR segmentar. Em cada subquadro, a SNR é calculada como a razão do sinal de áudio ponderado energia e da distorção D. A SNR segmentar é, então, a média da SNR dos quatro subquadros e pode ser indicada em dB.
[112] Essa abordagem permite a estimativa da segunda SNR que seria obtida quando de fato se codifica e decodifica o quadro em questão com o uso do algoritmo de ACELP, entretanto, sem ter que codificar e decodificar de fato o sinal de áudio e, portanto, com uma complexidade fortemente reduzida e tempo de computação reduzido.
[113] Os primeiro e segundo estimadores 12 e 14 emitem as SNRs segmentares estimadas 46, 50 para o controlador 16 e o controlador 16 toma uma decisão de qual algoritmo deve ser usado para a porção associada do sinal de áudio com base nas SNRs segmentares estimadas 46, 50. O controlador pode usar opcionalmente um mecanismo de histerese a fim de tornar a decisão mais estável. Por exemplo, o mesmo mecanismo de histerese que na decisão de ciclo fechado pode ser usado com parâmetros de sintonização levemente diferentes. Tal mecanismo de histerese pode computar um valor “dsnr” que pode depender das SNRs segmentares estimadas (como a diferença entre as mesmas) e outros parâmetros, como estatísticas sobre decisões anteriores, o número de quadros temporalmente estacionários e transientes nos quadros.
[114] Sem um mecanismo de histerese, o controlador pode selecionar o algoritmo de codificação que tem a SNR estimada mais alta, isto é, a ACELP é selecionada se a segunda SNR estimada for maior que a primeira SNR estimada e a TCX é selecionada se a primeira SNR estimada for maior que a segunda SNR estimada. Com um mecanismo de histerese, o controlador pode selecionar o algoritmo de codificação de acordo com a seguinte regra de decisão, em que acelp_snr é a segunda SNR estimada e tcx_snr é a primeira SNR estimada:
[115] se acelp_snr + dsnr > tcx_snr, então, selecionar ACELP, de outro modo, selecionar TCX.
[116] Determinação dos Parâmetros do Filtro para Redução da
Amplitude dos Harmônicos
[117] Uma modalidade para determinar os parâmetros do filtro para reduzir a amplitude dos harmônicos é agora descrita. Os parâmetros de filtro podem ser estimados no lado do codificador, como na unidade 8.
[118] Estimativa de Tom
[119] Um intervalo de tom (parte de número inteiro + parte de fração) por quadro é estimado (tamanho de quadro, por exemplo, 20ms).
[120] Isso é feito em três etapas para reduzir a complexidade e para aprimorar a precisão de estimativa.
[121] Primeira Estimativa da Parte de Número Inteiro do Intervalo de Tom
[122] Um algoritmo de análise de tom que produz um contorno de evolução de tom suave é usado (por exemplo, Open-loop Pitch Analysis descrita em Rec. ITU-T G.718, seção 6.6). Essa análise é geralmente feita em uma base de subquadro (tamanho de subquadro, por exemplo, 10ms) e produz uma estimativa de intervalo de tom por subquadro. Observa-se que essas estimativas de intervalo de tom não possuem qualquer parte de fração e são geralmente estimadas em um sinal de amostragem reduzida (taxa de amostragem, por exemplo, 6400Hz). O sinal usado pode ser qualquer sinal de áudio, por exemplo, um sinal de áudio ponderado de LPC como descrito em Rec. ITU-T G.718, seção 6.5).
[123] b) Refino da Parte de Número Inteiro Tint do Intervalo de Tom
[124] A parte de número inteiro final do intervalo de tom é estimada em um sinal de áudio x[n] que percorre a taxa de amostragem de codificador de núcleo, que é geralmente mais alta que a taxa de amostragem do sinal de amostragem reduzida usada em a) (por exemplo 12,8kHz, 16kHz, 32kHz...). O sinal x[n] pode ser qualquer sinal de áudio, por exemplo, um sinal de áudio ponderado de LPC.
[125] A parte de número inteiro Tint do intervalo de tom é, então, o intervalo que maximiza a função de autocorrelação
[126]
Figure img0003
[127] com d em torno de um intervalo de tom T estimado em a).
[128]
Figure img0004
[129] c) Estimativa da Parte de Fração Tfr do Intervalo de Tom
[130] A parte de fração Tfr é encontrada através da interpolação da função de autocorrelação C(d) computada na etapa b) e da seleção do intervalo de tom de fração que maximiza a função de autocorrelação interpolada. A interpolação pode ser executada com o uso de um filtro de FIR passa-baixa como descrito, por exemplo, em Rec. ITU-T G.718, seção 6.6.7).
[131] ] Estimativa de Ganho e Quantificação
[132] O ganho é geralmente estimado no sinal de áudio de entrada na taxa de amostragem de codificador de núcleo, mas também pode ser qualquer sinal de áudio como o sinal de áudio ponderado de LPC. Esse sinal é observado como y[n] e pode ser igual ou diferente de x[n].
[133] A predição yP[n] de y[n] é primeiramente encontrada através da filtragem y[n] com o seguinte filtro
[134]
Figure img0005
[135] com Tint a parte de número inteiro do intervalo de tom (estimada em b)) e B(z,Tfr) um filtro de FIR passa-baixa cujos coeficientes dependem da parte de fração do intervalo de tom Tfr (estimada em c)).
[136] Um exemplo de B(z) quando a resolução de intervalo de tom é %:
Figure img0006
[137] O ganho g é, então, computado da seguinte forma:
[138]
Figure img0007
[139] e limitado entre 0 e 1.
[140] Finalmente, o ganho g é quantificado, por exemplo, em 2 bits, com o uso de, por exemplo, quantificação uniforme.
[141] β é usado para controlar a intensidade do filtro. β igual a 1 produz efeitos completos. β igual a 0 desativa o filtro. Dessa forma, em modalidades da invenção, o filtro pode ser desativado através de definição de β para um valor de 0. Em modalidades da invenção, se o filtro for ativado, β pode ser definido para um valor entre 0,5 e 0,75. Em modalidades da invenção, se o filtro for ativado, β pode ser definido para um valor de 0,625. Um exemplo de B(z,Tfr) é dado acima. A ordem e os coeficientes de B(z,Tfr) também podem depender da taxa de bit e da taxa de amostragem de saída. Uma resposta de frequência diferente pode ser designada e sintonizada para cada combinação de taxa de bit e taxa de amostragem de saída.
[142] Desativação do Filtro
[143] O filtro pode ser desativado com base em uma combinação de uma ou mais medições de harmonicidade e/ou uma ou mais medições de estrutura temporal. Os exemplos de tais medições são descritos abaixo:
[144] medição de harmonicidade como a correlação normalizada no intervalo de tom de número inteiro estimado na etapa b).
[145]
Figure img0008
[146] A correlação normalizada é 1 se o sinal de entrada for perfeitamente previsível pelo intervalo de tom de número inteiro, e 0 se não for previsível de fato. Um valor alto (próximo a 1) indicaria, então, um sinal harmônico. Para uma decisão mais robusta, a correlação normalizada do quadro passado pode também ser usada na decisão, por exemplo:
[147] se (norm.corr(curr.)*norm.corr.(prev.)) > 0,25, então, o filtro não é desativado
[148] ii) Medições de estrutura temporal computadas, por exemplo, com base em amostras de energia também usadas por um detector transiente para detecção transiente (por exemplo, medição de achatamento temporal, alteração de energia), por exemplo
[149] se (medição de achatamento temporal > 3,5 ou alteração de energia > 3,5), então, o filtro é desativado.
[150] Mais detalhes a respeito da determinação de uma ou mais medições de harmonicidade são apresentados abaixo.
[151] A medição de harmonicidade é, por exemplo, computada por uma correlação normalizada do sinal de áudio ou uma versão pré-modificada do mesmo em ou em torno do intervalo de tom. O intervalo de tom poderia ainda ser determinado em estágios que compreendem um primeiro estágio e um segundo estágio, em que, dentro do primeiro estágio, uma estimativa preliminar do intervalo de tom é determinada em um domínio de amostragem reduzida de uma primeira taxa de amostra e, dentro do segundo estágio, a estimativa preliminar do intervalo de tom é refinada em uma segunda taxa de amostra, maior que a primeira taxa de amostra. O intervalo de tom é, por exemplo, determinado com o uso de autocorrelação. A pelo menos uma medição de estrutura temporal é, por exemplo, determinada dentro de uma região temporal temporalmente colocada dependendo das informações de tom. Uma extremidade de cabeçalho temporalmente passada da região temporal é, por exemplo, colocada dependendo das informações de tom. A extremidade de cabeçalho passada temporal da região temporal pode ser colocada de modo que a extremidade de cabeçalho temporalmente passada da região temporal seja deslocada para a direção passada por uma quantidade temporal monotonicamente crescente com um aumento das informações de tom. A extremidade de cabeçalho temporalmente futura da região temporal pode ser posicionada dependendo da estrutura temporal do sinal de áudio dentro de uma região candidata temporal que se estende a partir da extremidade de cabeçalho temporalmente passada da região temporal ou, da região de maior influência na determinação da medição de estrutura temporal, para uma extremidade de cabeçalho temporalmente futura de um quadro atual. A amplitude ou a razão entre amostras de energia máximas e mínimas dentro da região candidata temporal pode ser usada para essa finalidade. Por exemplo, a pelo menos uma medição de estrutura temporal pode medir uma média ou variação máxima de energia do sinal de áudio dentro da região temporal e uma condição de desativação pode ser satisfeita se tanto a pelo menos uma medição de estrutura temporal for menor que um primeiro limite predeterminado quanto a medição de harmonicidade for, para um quadro atual e/ou um quadro anterior, acima de um segundo limite. A condição é também satisfeita se a medição de harmonicidade for, para um quadro atual, acima de um terceiro limite, e a medição de harmonicidade for, para um quadro atual e/ou um quadro anterior, acima um quarto limite que diminui com um aumento do intervalo de tom.
[152] Uma descrição passo a passo de uma modalidade concreta para determinar as medições é apresentada agora.
[153] Etapa 1 Detecção Transiente e Medições Temporais
[154] O sinal de entrada sHP (n) é inserido no detector transiente de domínio de tempo. O sinal de entrada sHP (n) é filtrado com filtro passa-alta. A função de transferência do filtro HP de detecção transiente é dada por
[155]
Figure img0009
[156] O sinal, filtrado pelo filtro HP de detecção transiente, é denotado como sTD (n) . O sinal filtrado por HP sTD (n) é segmentado em 8 segmentos consecutivos do mesmo comprimento. A energia do sinal filtrado por HP sTD (n) para cada segmento é calculado como:
[157]
Figure img0010
[158] em que
Figure img0011
8 é o número de amostras em segmento de 2,5 milissegundos na frequência de amostragem de entrada.
[159] Uma energia acumulada é calculada com o uso de:
[160]
Figure img0012
[161] um ataque é detectado se a energia de um segmento ETD (i) excede a energia acumulada por um fator constante attackRatío = 8,5 e o attackIndex é definido comoi :
[162]
Figure img0013
[163] se nenhum ataque for detectado com base nos critérios acima, mas um aumento de energia forte é detectado no segmento i, o attackIndex é definido como i sem indicar a presença de um ataque. O attackIndex é basicamente definido como a posição do último ataque em um quadro com algumas restrições adicionais.
[164] A alteração de energia para cada segmento é calculada da seguinte forma:
[165]
Figure img0014
[166] A medição de achatamento temporal é calculada da seguinte forma:
[167]
Figure img0015
[168] A alteração de energia máxima é calculada da seguinte forma:
[169]
Figure img0016
[170] Se o índice de
Figure img0017
for negativo, então, isso indica um valor do segmento anterior, com a indexação de segmento relativa ao quadro atual.
[171]
Figure img0018
é o número dos segmentos dos quadros passados. É igual a 0 se a medição de achatamento temporal for calculada para o uso na decisão de ACELP/TCX. Se a medição de achatamento temporal for calculada para a decisão de TCX LTP, então, é igual a:
[172]
Figure img0019
[173]
Figure img0020
é o número de segmentos do quadro atual. É igual a 8 para quadros não transientes. Para os quadros transientes, primeiramente, as localizações dos segmentos com a energia máxima e mínima são encontradas:
[174]
Figure img0021
[175]
Figure img0022
[176]
Figure img0023
então,
Figure img0024
é definido como
Figure img0025
, de ouro modo,
Figure img0026
é definido como 8.
[177] Etapa 2 Comutação de Comprimento de Bloco de Transformada
[178] O comprimento de sobreposição e o comprimento de bloco de transformada da TCX são dependentes da existência de um transiente e sua localização.
[179] Tabela 1: Codificação do comprimento de sobreposição e de transformada com base na posição transiente
Figure img0027
[180] O detector transiente descrito acima retorna basicamente para o índice do último ataque com a restrição de que se houver múltiplos transientes, então, a sobreposição MÍNIMA é preferencial em comparação a sobreposição METADE que é preferencial em comparação com a sobreposição COMPLETA. Se um ataque na posição 2 ou 6 não for forte o bastante, então, a sobreposição METADE é escolhida em vez da sobreposição MÍNIMA.
[181] Etapa 3 Estimativa de Tom
[182] Um intervalo de tom (parte de número inteiro + parte de fração) por quadro é estimado (tamanho de quadro, por exemplo, 20ms) como apresentado em 3 etapas a) a c) para reduzir a complexidade e aprimorar a precisão de estimativa.
[183] Etapa 4 Bit de Decisão
[184] Se o sinal de áudio de entrada não contiver qualquer conteúdo harmônico ou se uma técnica à base de predição introduzisse distorções em estrutura de tempo (por exemplo, repetição de um transiente curto), então, uma decisão na qual o filtro é desativado é tomada.
[185] A decisão é feita com base em diversos parâmetros como a correlação normalizada no intervalo de tom de número inteiro e as medições de estrutura temporal.
[186] A correlação normalizada no intervalo de tom de número inteiro norm_corr é estimada como apresentado acima. A correlação normalizada é 1 se o sinal de entrada for perfeitamente previsível pelo intervalo de tom de número inteiro, e 0 se não for previsível de fato. Um valor alto (próximo a 1) indicaria, então, um sinal harmônico. Para uma decisão mais robusta, além da correlação normalizada para o quadro atual (norm_corr(curr)), a correlação normalizada do quadro passado (norm_corr(prev)) também pode ser usada na decisão, por exemplo:
[187] se (norm_corr(curr)*norm_corr(prev)) > 0,25
[188] ou
[189] se (norm_corr(curr)*norm_corr(prev)) > 0,5,
[190] então, o quadro atual contém algum conteúdo harmônico.
[191] As medições de estrutura temporal podem ser computadas por um detector transiente (por exemplo, medição de achatamento temporal (equação (6)) e alteração de energia máxima (equação (7)), para evitar a ativação do filtro em um sinal que contém um transiente forte ou grandes alterações temporais. Os recursos temporais são calculados no sinal que contém o quadro atual ( Nnew segmentos) e no quadro passado até o intervalo de tom ( N past segmentos). Para transientes do tipo gradual que estão lentamente em queda, todos ou alguns dos recursos são calculados apenas até a localização do transiente (iMAX -3), devido ao fato de que as distorções na parte não harmônica do espectro introduzido pela filtragem de LTP seriam suprimidas pelo mascaramento do transiente duradouro muito forte (por exemplo, prato de ataque).
[192] Os trens de pulso sinais de baixo tom podem ser detectados como um transiente por um detector transiente. Para os sinais com baixo tom, os recursos do detector transiente são, dessa forma, ignorados e há, em vez disso, limite adicional para a correlação normalizada que depende do intervalo de tom, por exemplo:
[193] se norm_corr <= 1,2-Tint/L , então, desativar o filtro.
[194] Um exemplo de decisão é mostrado abaixo, no qual b1 é alguma taxa de bit, por exemplo, 48 kbps, em que TCX_20 indica que o quadro é codificado com o uso de bloco longo simples, em que TCX_10 indica que o quadro é codificado com o uso de 2,3,4 ou mais blocos curtos, em que a decisão de TCX_20/TCX_10 é baseada na saída do detector transiente descrito acima. tempFlatness é a medição de achatamento temporal como definido em (6), maxenergyChange é a alteração de energia máxima como definido em (7). A condição norm_corr(curr) > 1,2-Tint/L também poderia ser escrita como (1,2-norm_corr(curr))*L < Tint.
Figure img0028
[203] É óbvio a partir dos exemplos acima que a detecção de um transiente afeta qual mecanismo de decisão para a predição de longo prazo será usado e qual parte do sinal será usada para as medições usadas na decisão, e não que isso dispara diretamente a desativação do filtro de predição de longo prazo.
[204] As medições temporais usadas para a decisão de comprimento de transformada podem ser completamente diferentes das medições temporais usadas para a decisão de filtro de LTP ou podem sobrepor ou ser exatamente iguais, mas calculadas em diferentes regiões. Para sinais de baixo tom, a detecção de transientes pode ser ignorada completamente se o limite para a correlação normalizada que depende do intervalo de tom for alcançado.
[205] Técnica para Remover Possíveis Descontinuidades
[206] Uma técnica possível para remover descontinuidades ocasionadas pela aplicação de um filtro linear H(z) quadro a quadro é agora descrita. O filtro linear pode ser o filtro de LTP descrito. O filtro linear pode ser um filtro de FIR (resposta de impulso finito) ou um filtro de IIR (resposta de impulso infinito). A abordagem proposta não filtra uma porção do quadro atual com os parâmetros de filtro do quadro passado e, dessa forma, evita possíveis problemas de abordagens conhecidas. A abordagem proposta usa um filtro de LPC para remover a descontinuidade. Esse filtro de LPC é estimado no sinal de áudio (filtrado por um filtro sem variação de tempo linear H(z) ou não) e é, dessa forma, um bom modelo do formato espectral do sinal de áudio (filtrado por H(z) ou não). O filtro de LPC é, então, usado de modo que o formato espectral do sinal de áudio mascare a descontinuidade.
[207] O filtro de LPC pode ser estimado de diferentes maneiras. Pode ser estimado, por exemplo, com o uso do sinal de áudio (quadro atual e/ou passado) e o algoritmo Levinson-Durbin. Pode também ser computado no sinal de quadro filtrado passado, com o uso do algoritmo Levinson-Durbin.
[208] Se H(z) for usado em um codec de áudio e o codec de áudio já usar um filtro de LPC (quantificado ou não) para, por exemplo, conformar o ruído de quantificação em um codec de áudio à base de transformada, então, esse filtro de LPC pode ser diretamente usado para suavizar a descontinuidade, sem a complexidade adicional necessária para estimar um novo filtro de LPC.
[209] Abaixo é descrito o processamento do quadro atual para o caso de filtro de FIR e o caso de filtro de IIR. O quadro passado é considerado como já processado.
[210] Caso de filtro de FIR:
[211] Filtrar o quadro atual com os parâmetros de filtro do quadro atual, produzindo um quadro atual filtrado.
[212] Considerar um filtro de LPC (quantificado ou não) com ordem M, estimado no sinal de áudio (filtrado ou não).
[213] As M últimas amostras do quadro passado são filtradas com o filtro H(z) e os coeficientes do quadro atual, produzindo uma primeira porção de sinal filtrado.
[214] As últimas M amostras do quadro passado filtrado são, então, subtraídas da primeira porção de sinal filtrado, produzindo uma segunda porção de sinal filtrado.
[215] Uma Resposta de Impulso Zero (ZIR) do filtro de LPC é, então, gerada através da filtragem de um quadro de zero amostras com o filtro de LPC e estados iniciais iguais à segunda porção de sinal filtrado.
[216] A ZIR pode ser opcionalmente janelada de modo que sua amplitude vá mais rápido para 0.
[217] Uma porção inicial da ZIR é subtraída de uma porção inicial correspondente do quadro atual filtrado.
[218] Caso de filtro de IIR:
[219] Considerar um filtro de LPC (quantificado ou não) com ordem M, estimado no sinal de áudio (filtrado ou não).
[220] As M últimas amostras do quadro passado são filtradas com o filtro H(z) e os coeficientes do quadro atual, produzindo uma primeira porção de sinal filtrado.
[221] As últimas M amostras do quadro passado filtrado são, então, subtraídas da primeira porção de sinal filtrado, produzindo uma segunda porção de sinal filtrado.
[222] Uma Resposta de Impulso Zero (ZIR) do filtro de LPC é, então, gerada através da filtragem de um quadro de zero amostras com o filtro de LPC e estados iniciais iguais à segunda porção de sinal filtrado.
[223] A ZIR pode ser opcionalmente janelada de modo que sua amplitude vá mais rápido para 0.
[224] Uma porção inicial do quadro atual é, então, processada amostra por amostra começando com a primeira amostra do quadro atual.
[225] A amostra é filtrada com o filtro H(z) e os parâmetros de quadro atual, produzindo uma primeira amostra filtrada.
[226] A amostra correspondente da ZIR é, então, subtraída da primeira amostra filtrada, produzindo a amostra correspondente do quadro atual filtrado.
[227] Passar para a próxima amostra.
[228] Repetir 9 a 12 até que a última amostra da porção inicial do quadro atual seja processada.
[229] Filtrar as amostras remanescentes do quadro atual com os parâmetros de filtro do quadro atual.
[230] Consequentemente, as modalidades da invenção permitem a estimativa de SNR segmentares e a seleção de um algoritmo de codificação apropriado de uma maneira simples e precisa. Em particular, as modalidades da invenção permitem uma seleção de ciclo aberto de um algoritmo de codificação apropriado, em que a seleção inapropriada de um algoritmo de codificação no caso de um sinal de áudio que tem harmônicos é evitada.
[231] Nas modalidades acima, as SNRs segmentares são estimadas através do cálculo de uma média de SNRs estimadas para respectivos subquadros. Em modalidades alternativas, a SNR de todo um quadro poderia ser estimada sem dividir o quadro em subquadros.
[232] As modalidades da invenção permitem uma forte redução em tempo de computação em comparação com uma seleção de ciclo fechado, tendo em vista que inúmeras etapas requeridas na seleção de ciclo fechado são omitidas.
[233] Consequentemente, um grande número de etapas e o tempo de computação associado às mesmas podem ser poupados pela abordagem inventiva, enquanto ainda se permite a seleção de um algoritmo de codificação apropriado com bom desempenho.
[234] Embora alguns aspectos tenham sido descritos no contexto de um aparelho, é evidente que esses aspectos também representam uma descrição do método correspondente, em que um bloco ou dispositivo corresponde a uma etapa do método ou a um recurso de uma etapa do método. Analogamente, os aspectos descritos no contexto de uma etapa do método também representam uma descrição de um bloco ou item correspondente ou recurso de um aparelho correspondente.
[235] As modalidades dos aparelhos descritos no presente documento e dos recursos dos mesmos podem ser implantadas por um computador, um ou mais processadores, um ou mais microprocessadores, arranjos de porta programáveis em campo (FPGAs), circuitos integrados para aplicação específica (ASICs) e similares ou combinações dos mesmos, os quais são configurados ou programados a fim de fornecer as funcionalidades descritas.
[236] Algumas ou todas as etapas do método podem ser executadas por (ou com o uso de) um aparelho de hardware, como, por exemplo, um microprocessador, um computador programável ou um circuito eletrônico. Em algumas modalidades, alguma ou mais das etapas do método mais importantes podem ser executadas por tal aparelho.
[237] Dependendo de certos requisitos de implantação, as modalidades da invenção podem ser implantadas em hardware ou em software. A implantação pode ser executada com o uso de um meio de armazenamento não transitório como um meio de armazenamento digital, por exemplo, um disquete, um DVD, um Blu-Ray, um CD, um ROM, um PROM e EPROM, um EEPROM ou uma memória FLASH, que tem sinais de controle eletronicamente legíveis armazenados no mesmo, que cooperam (ou são capazes de cooperar) com um sistema de computador programável de modo que o respectivo método seja executado. Portanto, o meio de armazenamento digital pode ser legível por computador.
[238] Algumas modalidades de acordo com a invenção compreendem uma portadora de dados que tem sinais de controle eletronicamente legíveis, que são capazes de cooperar com um sistema de computador programável, de modo que um dos métodos descritos no presente documento seja executado.
[239] Em geral, as modalidades da presente invenção podem ser implantadas como um produto de programa de computador com um código de programa, em que o código de programa é operacional para executar um dos métodos quando o produto de programa de computador é executado em um computador. O código de programa pode, por exemplo, ser armazenado em uma portadora legível por máquina.
[240] Outras modalidades compreendem o programa de computador para executar um dos métodos descritos no presente documento, armazenado em uma portadora legível por máquina.
[241] Em outras palavras, uma modalidade do método inventivo é, portanto, um programa de computador que tem um código de programa para executar um dos métodos descritos no presente documento, quando o programa de computador é executado em um computador.
[242] Uma modalidade adicional do método inventivo é, portanto, uma portadora de dados (ou um meio de armazenamento digital ou um meio legível por computador) que compreende, gravado no mesmo, o programa de computador para executar um dos métodos descritos no presente documento. A portadora de dados, o meio de armazenamento digital ou o meio gravado [e tipicamente tangível e/ou não transitório.
[243] Uma modalidade adicional do método da invenção é, portanto, um fluxo de dados ou uma sequência de sinais que representa o programa de computador para executar um dos métodos descritos no presente documento. O fluxo de dados ou a sequência de sinais pode, por exemplo, ser configurado para ser transferido através de uma conexão de comunicação de dados, por exemplo, através da Internet.
[244] Uma modalidade adicional compreende um meio de processamento, por exemplo, um computador ou um dispositivo de lógica programável, configurado ou programado para executar um dos métodos descritos no presente documento.
[245] Uma modalidade adicional compreende um computador que tem instalado no mesmo o programa de computador para executar um dos métodos descritos no presente documento.
[246] Uma modalidade adicional de acordo com a invenção compreende um aparelho ou um sistema configurado para transferir (por exemplo, eletrônica ou opticamente) um programa de computador para executar um dos métodos descritos no presente documento para um receptor. O receptor pode, por exemplo, ser um computador, um dispositivo móvel, um dispositivo de memória ou similares. O aparelho ou sistema pode, por exemplo, compreender um servidor de arquivo para transferir o programa de computador para o receptor.
[247] Em algumas modalidades, um dispositivo de lógica programável (por exemplo, um arranjo de porta programável em campo) pode ser usado para executar alguma ou todas as funcionalidades dos métodos descritos no presente documento. Em algumas modalidades, um arranjo de porta programável em campo pode cooperar com um microprocessador a fim de executar um dos métodos descritos no presente documento. Em geral, os métodos são, de preferência, executados por qualquer aparelho de hardware.
[248] As modalidades descritas acima são meramente ilustrativas para os princípios da presente invenção. Entende-se que modificações e variações das disposições e os detalhes descritos no presente documento serão evidentes para outros elementos versados na técnica. Portanto, pretende-se limitar apenas ao escopo das reivindicações de patente iminentes e não aos detalhes específicos apresentados por meio de descrição e explicação das modalidades do presente documento.

Claims (14)

1. Aparelho (10) para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio (40) para obter uma versão codificada da porção do sinal de áudio (40) caracterizado por compreender: um filtro de predição de longo prazo configurado para receber o sinal de áudio, para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio; um primeiro estimador (12) para usar a versão filtrada do sinal de áudio na estimativa de uma SNR (razão de sinal para ruído) ou uma SNR segmentar da porção do sinal de áudio como um primeira medição de qualidade para a porção do sinal de áudio, em que a primeira medição de qualidade é associada ao primeiro algoritmo de codificação, em que a estimativa da dita primeira medição de qualidade compreende executar uma aproximação do primeiro algoritmo de codificação para obter uma estimativa de distorção do primeiro algoritmo de codificação e para estimar a primeira medição de qualidade com base na porção do sinal de áudio e na estimativa de distorção do primeiro algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação; um segundo estimador (14) para estimar uma SNR ou uma SNR segmentar como uma segunda medição de qualidade para a porção do sinal de áudio, em que a segunda medição de qualidade é associada ao segundo algoritmo de codificação, em que a estimativa da dita segunda medição de qualidade compreende executar uma aproximação do segundo algoritmo de codificação para obter uma estimativa de distorção do segundo algoritmo de codificação e para estimar a segunda medição de qualidade com o uso da porção do sinal de áudio e da estimativa de distorção do segundo algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e um controlador (16) para selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade, em que o primeiro algoritmo de codificação é um algoritmo de codificação por transformada, um algoritmo de codificação baseado em MDCT (transformada discreta de cosseno modificada) ou um algoritmo de codificação de TCX (excitação de codificação por transformada) e em que o segundo algoritmo de codificação é um algoritmo de codificação de CELP (predição linear excitada por código) ou um algoritmo de codificação de ACELP (predição linear excitada por código algébrico) algoritmo de codificação.
2. Aparelho (10), de acordo com a reivindicação 1, caracterizado por uma função de transferência do filtro de predição de longo prazo compreender uma parte de número inteiro de um intervalo de tom e um filtro de derivação múltipla dependendo de uma parte de fração do intervalo de tom.
3. Aparelho (10), de acordo com a reivindicação 1, caracterizado por o filtro de predição de longo prazo ter a função de transferência:
Figure img0029
com Tint e Tfr sendo a parte de número inteiro e fração de um intervalo de tom, g é um ganho, β é um peso e B(z,Tfr) é um filtro passa-baixa FIR cujos coeficientes dependem da parte de fração do tom.
4. Aparelho, de acordo com qualquer uma das reivindicações 1 a 3, caracterizado por compreender adicionalmente uma unidade de desativação para desativar o filtro com base em uma combinação de uma ou mais medições de harmonicidade e/ou uma ou mais medições de estrutura temporal.
5. Aparelho, de acordo com a reivindicação 4, caracterizado por uma ou mais medições de harmonicidade compreenderem pelo menos um dentre uma correlação normalizada ou um ganho de predição e em que as uma ou mais medições de estrutura temporal compreendem pelo menos uma dentre uma medição de achatamento temporal e uma alteração de energia.
6. Aparelho, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado por o filtro ser aplicado ao sinal de áudio em uma base de quadro a quadro, em que o dito aparelho compreende adicionalmente uma unidade para remover descontinuidades no sinal de áudio ocasionadas pelo filtro.
7. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 6, caracterizado por os primeiro e segundo estimadores serem configurados para estimar uma SNR ou SNR segmentar de uma porção de uma versão ponderada do sinal de áudio.
8. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o primeiro estimador (12) ser configurado para determinar uma distorção de quantificador estimada que um quantificador usado no primeiro algoritmo de codificação introduziria mediante a quantificação da porção do sinal de áudio e para estimar a primeira medição de qualidade com base em uma energia de uma porção de uma versão ponderada do sinal de áudio e na distorção de quantificador estimada, em que o primeiro estimador (12) é configurado para estimar um ganho global para a porção do sinal de áudio de modo que a porção do sinal de áudio produziria uma determinada taxa de bit-alvo quando codificada com um quantificador e um codificador por entropia usado no primeiro algoritmo de codificação, em que o primeiro estimador (12) é adicionalmente configurado para determinar a distorção de quantificador estimada com base no ganho global estimado.
9. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o segundo estimador (14) ser configurado para determinar uma distorção de livro de código adaptativo estimada que um livro de código adaptativo usado no segundo algoritmo de codificação introduziria mediante o uso do livro de código adaptativo para codificar a porção do sinal de áudio, e em que o segundo estimador (14) é configurado para estimar a segunda medição de qualidade com base em uma energia de uma porção de uma versão ponderada do sinal de áudio e na distorção de livro de código adaptativo estimada, em que, para cada uma dentre uma pluralidade de subporções da porção do sinal de áudio, o segundo estimador (14) é configurado para aproximar o livro de código adaptativo com base em uma versão da subporção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, para estimar um ganho de livro de código adaptativo de modo que um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e para determinar a distorção de livro de código adaptativo estimada com base na energia de um erro entre a subporção da porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo.
10. Aparelho (10), de acordo com a reivindicação 9, caracterizado por o segundo estimador (14) ser adicionalmente configurado para reduzir a distorção de livro de código adaptativo estimada determinada para cada subporção da porção do sinal de áudio por um fator constante.
11. Aparelho (10), de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o segundo estimador (14) ser configurado para determinar uma distorção de livro de código adaptativo estimada que um livro de código adaptativo usado no segundo algoritmo de codificação introduziria mediante o uso do livro de código adaptativo para codificar a porção do sinal de áudio, e em que o segundo estimador (14) é configurado para estimar a segunda medição de qualidade com base em uma energia de uma porção de uma versão ponderada do sinal de áudio e na distorção de livro de código adaptativo estimada, em que o segundo estimador (14) é configurado para aproximar o livro de código adaptativo com base em uma versão da porção do sinal de áudio ponderado deslocado para o passado por um intervalo de tom determinado em um estágio de pré-processamento, para estimar um ganho de livro de código adaptativo de modo que um erro entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado seja minimizado, e para determinar a distorção de livro de código adaptativo estimada com base na energia de um erro entre a porção do sinal de áudio ponderado e o livro de código adaptativo aproximado dimensionado pelo ganho de livro de código adaptativo.
12. Aparelho (20) para codificar uma porção de um sinal de áudio caracterizado por compreender o aparelho (10), conforme definido em uma das reivindicações 1 a 11, um primeiro estágio de codificador (26) para executar o primeiro algoritmo de codificação e um segundo estágio de codificador (28) para executar o segundo algoritmo de codificação, em que o aparelho para codificar (20) é configurado para codificar a porção do sinal de áudio com o uso do primeiro algoritmo de codificação ou do segundo algoritmo de codificação dependendo da seleção pelo controlador (16).
13. Sistema para codificação e decodificação caracterizado por compreender um aparelho (20) para codificação, conforme definido na reivindicação 12 e um decodificador configurado para receber a versão codificada da porção do sinal de áudio e uma indicação do algoritmo usado para codificar a porção do sinal de áudio e para decodificar a versão codificada da porção do sinal de áudio com o uso do algoritmo indicado.
14. Método para selecionar um dentre um primeiro algoritmo de codificação que tem uma primeira característica e um segundo algoritmo de codificação que tem uma segunda característica para codificar uma porção de um sinal de áudio para obter uma versão codificada da porção do sinal de áudio caracterizado por compreender: filtrar o sinal de áudio com o uso de um filtro de predição de longo prazo para reduzir a amplitude de harmônicos no sinal de áudio e para emitir uma versão filtrada do sinal de áudio; usar a versão filtrada do sinal de áudio na estimativa de uma SNR ou uma SNR segmentada da porção do sinal de áudio como uma primeira medição de qualidade para a porção do sinal de áudio, em que a primeira medição de qualidade é associada ao primeiro algoritmo de codificação, em que a estimativa da dita primeira medição de qualidade compreende executar uma aproximação do primeiro algoritmo de codificação para obter uma estimativa de distorção do primeiro algoritmo de codificação e para estimar a primeira medição de qualidade com base na porção do primeiro sinal de áudio e na estimativa de distorção do primeiro algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do primeiro algoritmo de codificação; estimar uma SNR ou uma SNR segmentar como uma segunda medição de qualidade para a porção do sinal de áudio, em que a segunda medição de qualidade é associada ao segundo algoritmo de codificação, em que a estimativa da dita segunda medição de qualidade compreende executar uma aproximação do segundo algoritmo de codificação para obter uma estimativa de distorção do segundo algoritmo de codificação e para estimar a segunda medição de qualidade com o uso da porção do sinal de áudio e da estimativa de distorção do segundo algoritmo de codificação sem codificar e decodificar de fato a porção do sinal de áudio com o uso do segundo algoritmo de codificação; e selecionar o primeiro algoritmo de codificação ou o segundo algoritmo de codificação com base em uma comparação entre a primeira medição de qualidade e a segunda medição de qualidade, em que o primeiro algoritmo de codificação é um algoritmo de codificação por transformada, um algoritmo de codificação baseado em MDCT (transformada discreta de cosseno modificada) ou um algoritmo de codificação de TCX (excitação de codificação por transformada) e em que o segundo algoritmo de codificação é um algoritmo de codificação de CELP (predição linear excitada por código) ou um algoritmo de codificação de ACELP (predição linear excitada por código algébrico) algoritmo de codificação.
BR112015029172-4A 2014-07-28 2015-07-21 Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos BR112015029172B1 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178809 2014-07-28
EP14178809.1 2014-07-28
PCT/EP2015/066677 WO2016016053A1 (en) 2014-07-28 2015-07-21 Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Publications (2)

Publication Number Publication Date
BR112015029172A2 BR112015029172A2 (pt) 2017-08-22
BR112015029172B1 true BR112015029172B1 (pt) 2022-08-23

Family

ID=51224872

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112015029172-4A BR112015029172B1 (pt) 2014-07-28 2015-07-21 Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos

Country Status (19)

Country Link
US (3) US9818421B2 (pt)
EP (1) EP3000110B1 (pt)
JP (1) JP6086999B2 (pt)
KR (1) KR101748517B1 (pt)
CN (2) CN110444219B (pt)
AR (1) AR101347A1 (pt)
AU (1) AU2015258241B2 (pt)
BR (1) BR112015029172B1 (pt)
ES (1) ES2614358T3 (pt)
HK (1) HK1222943A1 (pt)
MX (1) MX349256B (pt)
MY (1) MY174028A (pt)
PL (1) PL3000110T3 (pt)
PT (1) PT3000110T (pt)
RU (1) RU2632151C2 (pt)
SG (1) SG11201509526SA (pt)
TW (1) TWI582758B (pt)
WO (1) WO2016016053A1 (pt)
ZA (1) ZA201508541B (pt)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101701081B1 (ko) 2013-01-29 2017-01-31 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
JP6086999B2 (ja) * 2014-07-28 2017-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US10896674B2 (en) * 2018-04-12 2021-01-19 Kaam Llc Adaptive enhancement of speech signals

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2899013A (en) * 1956-04-09 1959-08-11 Nat Tank Co Apparatus for recovery of petroleum vapors from run tanks
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
JP4622164B2 (ja) * 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
US7133521B2 (en) 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
US7478040B2 (en) * 2003-10-24 2009-01-13 Broadcom Corporation Method for adaptive filtering
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
CN101069232A (zh) * 2004-11-30 2007-11-07 松下电器产业株式会社 立体声编码装置、立体声解码装置及其方法
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
PT2165328T (pt) * 2007-06-11 2018-04-24 Fraunhofer Ges Forschung Codificação e descodificação de um sinal de áudio tendo uma parte do tipo impulso e uma parte estacionária
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
EP3002750B1 (en) * 2008-07-11 2017-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
MX2011000370A (es) 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
BRPI0910787B1 (pt) * 2008-07-11 2019-12-03 Fraunhofer Ges Forschung método para codificar um símbolo, método para decodificar um símbolo, método para transmitir um símbolo de um transmissor a um receptor, codificador, decodificador e sistema para transmitir um símbolo de um transmissor a um receptor
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2592416T3 (es) * 2008-07-17 2016-11-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Esquema de codificación/decodificación de audio que tiene una derivación conmutable
EP2148528A1 (en) * 2008-07-24 2010-01-27 Oticon A/S Adaptive long-term prediction filter for adaptive whitening
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
AU2010305383B2 (en) * 2009-10-08 2013-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
WO2011048094A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec and celp coding adapted therefore
CN102884574B (zh) * 2009-10-20 2015-10-14 弗兰霍菲尔运输应用研究公司 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
KR101525185B1 (ko) * 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
CN103503062B (zh) * 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法
JP5849106B2 (ja) * 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
JP2013057792A (ja) * 2011-09-08 2013-03-28 Panasonic Corp 音声符号化装置及び音声符号化方法
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
CN103137135B (zh) * 2013-01-22 2015-05-06 深圳广晟信源技术有限公司 Lpc系数量化方法和装置及多编码核音频编码方法和设备
KR101701081B1 (ko) * 2013-01-29 2017-01-31 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP6086999B2 (ja) * 2014-07-28 2017-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法

Also Published As

Publication number Publication date
CN110444219A (zh) 2019-11-12
AR101347A1 (es) 2016-12-14
JP2016535286A (ja) 2016-11-10
US9818421B2 (en) 2017-11-14
KR101748517B1 (ko) 2017-06-16
ZA201508541B (en) 2017-07-26
MX349256B (es) 2017-07-19
TWI582758B (zh) 2017-05-11
RU2632151C2 (ru) 2017-10-02
KR20160030477A (ko) 2016-03-18
PL3000110T3 (pl) 2017-05-31
WO2016016053A1 (en) 2016-02-04
AU2015258241B2 (en) 2016-09-15
TW201606755A (zh) 2016-02-16
SG11201509526SA (en) 2017-04-27
US20160078878A1 (en) 2016-03-17
AU2015258241A1 (en) 2016-02-11
BR112015029172A2 (pt) 2017-08-22
CN105451842B (zh) 2019-06-11
US10706865B2 (en) 2020-07-07
HK1222943A1 (zh) 2017-07-14
EP3000110A1 (en) 2016-03-30
JP6086999B2 (ja) 2017-03-01
PT3000110T (pt) 2017-02-15
CN105451842A (zh) 2016-03-30
US10224052B2 (en) 2019-03-05
CN110444219B (zh) 2023-06-13
US20170309285A1 (en) 2017-10-26
MX2015015684A (es) 2016-04-28
ES2614358T3 (es) 2017-05-30
MY174028A (en) 2020-03-04
US20190272839A1 (en) 2019-09-05
RU2015149810A (ru) 2017-05-23
EP3000110B1 (en) 2016-12-07

Similar Documents

Publication Publication Date Title
BR112015029172B1 (pt) Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação com o uso de redução de harmônicos
ES2685574T3 (es) Control dependiente de la armonicidad de una herramienta de filtro de armónicos
US11908485B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
BR112018067944B1 (pt) Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema
CA2910878C (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Legal Events

Date Code Title Description
B06F Objections, documents and/or translations needed after an examination request according [chapter 6.6 patent gazette]
B06U Preliminary requirement: requests with searches performed by other patent offices: procedure suspended [chapter 6.21 patent gazette]
B09A Decision: intention to grant [chapter 9.1 patent gazette]
B16A Patent or certificate of addition of invention granted [chapter 16.1 patent gazette]

Free format text: PRAZO DE VALIDADE: 20 (VINTE) ANOS CONTADOS A PARTIR DE 21/07/2015, OBSERVADAS AS CONDICOES LEGAIS